谷歌发布了新一代大模型Gemini 2.0，速度翻倍，能力更强，支持原生图像生成和音频输出的多模态输出

kiki 2024-12-12 20:28:12 浏览:1533

12月12日凌晨，就在OpenAI轰轰烈烈的“12天连续发布”进行到第五天时，谷歌发布了他们的重磅更新—— Gemini 2.0 Flash。

谷歌CEO桑达尔·皮查伊在公开信中表示：“如果说Gemini 1.0是关于整理和理解信息，那么Gemini 2.0就是要让这些信息真正变得有用。”

微信图片_20241212193157.png

来自 Google 和 Alphabet 首席执行官 Sundar Pichai 的致辞：

信息是人类进步的核心。这是我们过去 26 年致力于使命的原因——组织全球信息，并使其变得可访问和有用。我们也因此不断推动人工智能的前沿，以便跨所有输入方式组织信息，并通过任何输出方式让信息真正为你所用。

去年 12 月，当我们推出 Gemini 1.0 时，这正是我们的愿景。Gemini 1.0 和 1.5 作为首个原生多模态的模型，在多模态和长上下文的应用上取得了显著进展，能够理解文本、视频、图像、音频和代码等多种信息，并处理更多信息。

现在，成千上万的开发者正在使用 Gemini 进行开发。这不仅帮助我们重新构想了所有产品——包括 7 款拥有 20 亿用户的产品——并创造了新的产品。NotebookLM 便是多模态和长上下文能力为用户带来便捷的一个很好的例子，也正因如此，许多人喜爱它。

在过去一年中，我们一直在投资开发更具「代理性」的模型，即这些模型能更深入地理解你周围的世界，提前多步思考，并在你的监督下为你执行任务。

今天，我们很高兴迎来新一代的模型——Gemini 2.0，它是我们迄今为止最强大的模型。通过多模态的新进展——如原生图像和音频输出——以及原生工具使用，我们能够构建新的 AI 智能体，使我们更接近普遍助手的愿景。

今天，我们将 Gemini 2.0 交到开发者和信任的测试人员手中，并加速将其应用于我们的产品，首推 Gemini 和搜索引擎。今天起，所有 Gemini 用户都可以体验 Gemini 2.0 Flash 实验模型。同时，我们还推出了名为「深度研究」的新功能，利用高级推理和长上下文能力，作为研究助手，探索复杂话题并为你撰写报告。目前，Gemini Advanced 中已上线这一功能。

没有任何产品像搜索引擎一样被 AI 技术深刻改变。我们的 AI Overviews 已服务超过 10 亿用户，帮助他们提问全新的问题类型，迅速成为我们搜索引擎最受欢迎的功能之一。

接下来，我们将把 Gemini 2.0 的先进推理能力引入 AI Overviews，处理更复杂的主题和多步骤问题，包括高级数学公式、多模态查询和编程。我们本周已开始进行有限测试，计划明年初全面推广。同时，我们将继续把 AI Overviews 带到更多国家和语言地区。

Gemini 2.0 的进展，得益于我们十年来在 AI 创新领域的全栈投资。

它依托像 Trillium 这样的定制硬件，Trillium 是我们的第六代 TPU。TPU 为 Gemini 2.0 的训练和推理提供了 100% 的支持，而 Trillium 现在已开放给客户，让他们也能基于这一硬件进行开发。

如果 Gemini 1.0 是为了组织和理解信息，那么 Gemini 2.0 则是让信息更加有用。我迫不及待地想看看这个新时代带来什么。

Sundar

SoHoBlink - 人工智能行业网站

关于SoHoBlink人工智能网

微信公众号