大模型全面爆发，所有榜一都是Gemini！谷歌一夜站到了台前

显示全部楼层 · 前天 23:09

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

您需要登录才可以下载或查看，没有账号？立即注册

×

北京时间今天凌晨 1 点，今年的 Google I/O 2025 开发者大会正式开启。谷歌最近的大模型技术风头正劲，今年的这场「科技春晚」吸引了全球关注的目光。

没有意外，今年的核心主题自然是 AI。会上，谷歌发布或升级了一系列 AI 相关工具和服务，如下图所示。

不过也有一些预料之外的发布。

下面我们就来概括性地盘点一番 Google I/O 2025 开发者大会这场 AI 的盛宴。

Gemini 大爆发

首先最重要的就是基础模型。

今年，Gemini 无疑是 Google I/O 2025 开发者大会上最亮眼的关键词。谷歌不仅为其带来了新升级，同时还推出了一系列围绕 Gemini 开发的工具。

2.5 Pro 不仅在学术基准测试中表现出色，如今更是 WebDev Arena 和 LMArena 排行榜上全球领先的模型，在帮助人们学习方面也同样出色。

DeepMind 为 2.5 Pro 和 2.5 Flash 带来了全新功能：原生音频输出 —— 能实现更自然的对话体验；先进的安全保障；以及 Project Mariner 的计算机使用功能。

Deep Think 还能进一步提升 2.5 Pro 的能力，这是一种实验性的增强型推理模式，适用于高度复杂的数学和编码。

另外，最高效的主力模型 Gemini 2.5 Flash 也在多个维度上得到了提升，包括推理、多模态、代码和长上下文等关键基准，同时效率进一步提升。在 DeepMind 自家的评估中，使用的 token 也减少了 20-30%。

2.5 Flash 现已在 Gemini 应用中面向所有用户开放，DeepMind 计划将于 6 月初在面向开发者的 Google AI Studio 和面向企业的 Vertex AI 中正式发布更新版本，2.5 Pro 也将很快发布。

谷歌还在 Gemini API 和 Vertex AI 中引入思维摘要（thought summaries）功能，以提高透明度；将思维预算扩展到 2.5 Pro 以增强控制力；并在 Gemini API 和 SDK 中增加对 MCP 工具的支持，以便用户访问更多开源工具。

另外，谷歌还宣布了一个名叫 Gemini Diffusion 的新模型。从名字上看，这应该是一个采用了扩散模型的 AI。

为了提升大模型推理速度，以进一步贴近生产应用，Google DeepMind 正在使用「扩散」技术来探索新的语言模型方向，该模型旨在为用户提供更强大的控制力、创造力和文本生成速度。

扩散模型的工作原理有所不同。它们不是像大语言模型那样直接预测下个文本 token，而是通过逐步细化噪声的方式来学习生成输出。这意味着它们可以快速迭代解决方案，并在生成过程中进行错误纠正。这有助于它们在编辑等任务中表现出色，包括在数学和代码环境中。

谷歌表示：「这个新的最先进的文本模型不仅速度快，而且速度非常快，今天发布的 Gemini Diffusion 实验演示的生成速度是我们迄今为止最快模型的五倍，同时具有相当的编程性能。」

谷歌表示，Gemini Diffusion 的推理速度可以达到每 12 秒 10095 token。

对这个新模型感兴趣的读者可以在这里加入等待列表：

https://docs.google.com/forms/d/1aLm6J13tAkq4v4qwGR3z35W2qWy7mHiiA0wGEpecooo/viewform?edit_requested=true

Gemini 应用的未来也值得期待。Demis Hassabis 亲自撰写了一篇题为「我们构建通用 AI 助手的愿景」的博客文章，其中写到：「我们正在将 Gemini 扩展为一个世界模型，它可以通过模拟世界的各个方面来制定计划并想象新的体验。」

「我们的终极愿景是将 Gemini 应用打造成一个通用的 AI 助手，它可以为我们执行日常任务，处理日常的日常管理，并提供令人愉悦的新建议，从而提高我们的工作效率，丰富我们的生活。」

这一愿景的起点是 Project Astra，谷歌基于其首次探索了视频理解、屏幕共享和记忆功能等功能。

在过去的一年里，谷歌一直在将这些功能集成到 Gemini Live 中，以便让更多人体验到这些功能。同时，谷歌也在创新，例如，升级了语音输出，使其更加自然地融入原生音频，改进了记忆功能，并增加了计算机控制功能。

编程工具升级

既然是开发者大会，那必然少不了编程工具的升级。在这方面，谷歌可以说是火力全开。

首先，谷歌正式宣布了前两天悄然上线的编程智能体 Jules。据介绍，Jules 是一款异步、智能体式的编码助手，可直接与用户现有的代码库集成。它可将用户代码库克隆到安全的 Google Cloud 虚拟机 (VM) 中，了解项目的完整上下文，并执行编写测试、构建新功能、提供音频更新日志、修复错误、升级依赖项版本等任务。

Jules 以异步方式运行，让用户可在 Jules 后台运行时专注于其他任务。完成后，它会展示其计划、推理过程以及所做更改的差异。Jules 默认为私有 —— 谷歌承诺不会使用用户的私有代码进行训练，并且会在执行环境中隔离用户数据。

，时长00:31

目前，Jules 处于公测阶段（beta），访问免费，但使用量会受到限制。谷歌表示会在公测结束后推出定价机制，想要尝鲜的可得抓紧。

此外，谷歌还宣布了 Gemini Code Assist 的新升级。Gemini Code Assist 是谷歌几个月前发布的 AI 编程助手，其中包括个人版 Gemini Code Assist for individuals 和代码审查智能体 Gemini Code Assist for GitHub。谷歌表示：「自二月份发布预览版以来，我们一直在征求意见、听取反馈，并逐步实现开发者所需的功能。」

现在，谷歌宣布 Gemini Code Assist 个人版和 GitHub 版正式发布，开发者可以在不到一分钟的时间内上手。Gemini 2.5 现已支持 Gemini Code Assist 的免费版和付费版，拥有更强大的编程性能；可帮助开发者在创建视觉效果出色的 Web 应用以及代码转换和编辑等任务上表现出色。

此外，谷歌还宣布为 Gemini Code Assist 提供了更多自定义选项，包括更多自定义工作流程以适应不同项目需求的方式，更轻松地从上次中断的位置继续执行任务的功能，以及用于强制执行团队编码标准、样式指南和架构模式的新工具。

另外，Gemini Code Assist 标准版和企业版开发者也已经可以使用 200 万 token 的上下文窗口，这能帮助开发者完成大规模的复杂任务，例如错误追踪、代码转换以及为新用户生成全面的入门指南。

谷歌还展示了一个使用统计数据：Gemini Code Assist 可将开发者完成常见开发任务的成功率提高 2.5 倍。

感兴趣的用户可以在 VS Code 或 JetBrains IDE 中下载 Gemini Code Assist 插件，并通过 GitHub 应用访问代码审查智能体。此外，用户现在还可以利用 Android Studio for Business 中的 Gemini，在 Android 开发生命周期的每个阶段充分利用 Gemini。

谷歌还推出一款全新的 AI 驱动式 UI 工具：Stitch。它能基于自然语言描述或图像提示词，生成适用于桌面和移动设备的高质量 UI 设计及相应的前端代码。Stitch 能让用户快速将创意变为现实，以对话方式迭代设计，调整主题，并轻松将自己的作品导出为 CSS/HTML 或 Figma 以继续创作。

谷歌还宣布了 Colab 和 Firebase Studio 的一些功能升级。其中 Colab「很快就会具有一种全新的、完全智能体的体验。只需告诉 Colab 你想要实现的目标，它就会在你的笔记本中执行操作，修复错误并转换代码，从而帮助你更快地解决难题。」可以期待一下。

最新视频、图像生成模型

谷歌最新的视频和图像生成模型 Veo 3 和 Imagen 4 凭借其优异的新功能，打破了媒体生成的界限。此外，全新的 AI 电影制作工具 Flow 已经用上了 Google DeepMind 最先进的模型，让你能够更精细地控制角色、场景和风格，创作出具有电影质感的影片。

Veo 3：视频与音频的结合

Veo 3 是一个先进的视频生成模型，它不仅提高了 Veo 2 的质量，而且首次可以生成带有音频的视频。

，时长00:08

Veo 3 今天在 Gemini 应用程序和 Flow 中为 Ultra 在美国的用户提供服务。它也适用于 Vertex AI 上的企业用户。

Veo 2 更新

Veo 2 添加了新功能，包括：

先进的参考视频功能，从而实现更佳的创意控制和一致性。
相机控制，可以帮助用户定义精确的相机运动，包括旋转，变焦，以实现完美的拍摄。
Utpainting，拓宽视频帧，并使其更容易适应任何屏幕尺寸。
对象添加和删除，让用户从视频中添加或删除对象。

Flow

Flow 是一款 AI 电影制作工具，专为创意人士打造，它整合了 Google DeepMind 最先进的模型：Veo、Imagen 和 Gemini，让用户能够无缝创作电影级的片段、场景和故事。

Imagen 4

Imagen 4 在精细细节方面拥有非凡的清晰度，例如复杂的织物、水滴和动物皮毛，并且在照片级写实和抽象风格方面均表现出色。Imagen 4 可以创建各种宽高比的图像，分辨率高达 2k，更适合打印或演示。它在拼写和排版方面也得到了显著提升，让你可以更轻松地创作自己的贺卡、海报甚至漫画。

很快，谷歌还将推出 Imagen 4 变体，比 Imagen 3 快 10 倍。

Google Beam + 语音翻译

几年前，谷歌推出了 Starline 项目，旨在重新定义视频通信。Starline 项目实现了远程对话，让人感觉如同身处同一房间，而无需佩戴专门的眼镜或头显。

今天，谷歌宣布 Starline 项目正在演变为一个全新的 3D 视频通信平台：Google Beam。

Google Beam 平台利用 AI 赋能新一代设备，帮助人们无论身在何处都能建立有意义的联系。

Google Beam 借助最先进的视频模型，通过一个由六个摄像头组成的阵列并结合 AI 技术，将标准的 2D 视频流转化为逼真的 3D 体验，让用户以更自然、更直观的方式进行连接。

，时长00:09

，时长00:13

此外，谷歌也正在探索使用 Google Beam 进行语音翻译。这项功能将于今日在 Google Meet 上线。

Google Meet 的语音翻译功能最初将支持英语和西班牙语，未来几周将支持更多语言。

有了这项功能，用户在保持语音、语调和表情的同时，还可以享受近乎实时的翻译对话。

搜索升级

搜索可以说是谷歌的立身之本，但近段时间来已经开始受到新生代的 AI 搜索应用的冲击，而谷歌也正积极地应对。

在今天的 I/O 开发者大会上，谷歌宣布其搜索中的 AI 概览（AI Overviews）功能进行了功能升级，现已覆盖 200 多个国家和地区，支持 40 多种语言，并新增了对阿拉伯语、汉语、马来语、乌尔都语等语言的支持。

简单来说，AI 概览功能可以改进用户的搜索体验，用新类型的问题快速查找信息并浏览网络上的相关网站。当谷歌的系统认为这些信息最有帮助时，它们就会显示在谷歌搜索中，并显示醒目的网页链接，方便用户轻松了解更多信息。而且谷歌表示这个功能的速度很快：「AI 概览功能提供业内最快的 AI 响应速度」。

谷歌也表示，AI 概览确实可以帮到用户：让用户的对搜索结果更加满意，搜索频率也更高。此外，从本周开始，谷歌将在美国的 AI Overviews 中引入其最智能的模型 Gemini 2.5 的一个定制版本，以便搜索能够解决更棘手的问题。

在谷歌 I/O 开发者大会上，谷歌还宣布今天起在美国正式推出 AI 模式（AI Mode）—— 无需注册 Labs。

AI 模式今年早些时候开始在 Google 实验室测试，可以说是谷歌功能最强大的 AI 搜索功能，拥有更先进的推理能力和多模态分析能力，并能够通过后续问题和有用的网络链接进行更深入的探索。在接下来的几周内，美国用户将在谷歌搜索和谷歌应用的搜索栏中看到一个新的 AI 模式标签页。

据介绍，AI 模式的底层采用了谷歌的查询扇出（query fan-out）技术，可将问题分解为子主题，并同时发出多个查询。这使得新谷歌搜索能够比传统的谷歌搜索更深入地挖掘网络内容，帮助用户发现更多网络资源，并找到与用户查询高度相关的内容。

当然，谷歌也有自己的深度搜索（Deep Search）了。谷歌宣布会通过深度搜索将深度研究功能引入 AI 模式。深度搜索使用相同的查询扇出技术，但更上一层楼。它可以发起数百次搜索，对不同的信息进行推理，并在几分钟内创建专家级的完整引用报告，从而节省用户数小时的研究时间。

谷歌还为搜索引入实时功能，可实时提供帮助。事实上，之前每月已有超过 15 亿用户使用 Google Lens 来搜索他们所看到的内容。现在，谷歌宣布将 Project Astra 的实时功能引入搜索，在多模态搜索方面迈出了新的一步。借助实时搜索功能，用户可以使用摄像头与搜索实时交流所看到的内容。

谷歌还将 Project Mariner 的智能体功能引入 AI 模式，可帮助用户节省购票等任务的时间。只需输入「在更下面的观众席找到两张本周六红人队比赛的平价门票」，AI 模式就会启动查询扇出，跨网站分析数百个潜在的门票选项，并提供实时价格和库存，并处理繁琐的表单填写工作。AI 模式将呈现符合确切条件的门票选项，让用户可以在任何喜欢的网站上完成购买。

此外，谷歌还为搜索的 AI 模式引入了个人上下文（personal context）与定制图表等能力。

全新的 AI 购物模式

谷歌推出了全新的 AI 购物体验，其将 Gemini 功能与 Shopping Graph 进行完美结合，Shopping Graph 目前拥有超过 500 亿条商品信息，涵盖全球零售商，每条信息都包含评论、价格、颜色选择和库存情况等详细信息。并且信息是准确的、及时的，因为每小时有超过 20 亿条此类商品信息在 Google 上更新。

，时长00:23

用户还能进行虚拟试穿：只需上传一张照片，你就可以虚拟试穿数十亿种服装。

该功能由一个全新的时尚定制图像生成模型支持，该模型能够理解人体结构和服装的细微差别 —— 例如不同面料在不同人体上的折叠、拉伸和悬垂效果。

试穿实验已经正式启动。当你在谷歌上选购衬衫、裤子、裙子和连衣裙时，只需点击产品详情上的试穿图标即可。之后，你可以上传自己的全身照 —— 片刻之后，就能看到衣服穿在身上的效果。

，时长00:30

结语

以上的盘点性介绍还并未穷尽谷歌今年的 I/O 大会上发布、升级或规划的一切，比如他们还推出了 Gemma 3n 的预览版本，这是一个可以在手机、笔记本电脑和平板电脑上流畅运行的开放式多模态模型，可以处理音频、文本、图像和视频。另外，谷歌在 AI 辅助科研、AI 内容鉴定（SynthID Detector）、NotebookLM、云计算、办公辅助、增强现实等多个领域都有新的动态。他们甚至还推出了新的订阅套餐：每月 249.99 美元的 Google AI Ultra！

前三个月有折扣

谷歌一直是 AI 研究的先驱，早在 Transformer 架构和 AlphaGo 时代就奠定了技术基础。然而，近年来在 AI 应用层面，谷歌略显保守，未能在用户体验上与竞争对手齐头并进。此次 2025 年 I/O 大会，谷歌通过一系列重磅发布，展现了其在 AI 应用领域的强势回归。

从 AI Mode 彻底重塑搜索体验，到 Project Astra 引领多模态交互，再到 Gemini 2.5 的深度推理能力和 Project Mariner 的智能智能体，谷歌不仅追赶上了 AI 应用的浪潮，更在多个关键领域实现了超越。这场大会不仅是技术的展示，更是谷歌向未来发出的宣言：在 AI 驱动的新时代，谷歌将继续引领潮流，塑造更加智能和互联的世界。

[IT/数码] 大模型全面爆发，所有榜一都是Gemini！谷歌一夜站到了台前

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区