北京时间5月20日凌晨1点,谷歌I/O 2026开发者大会在美国加州山景城开幕。
与往年相比,今年这场发布会的重点,不是某一个模型或功能,而是一次系统性转向——谷歌正把AI智能体全面“塞进”所有核心入口。
从搜索框到Chrome浏览器,从Android手机到智能眼镜,Gemini不再只是一个对话助手,而是一个可以持续运行、跨应用执行任务的AI代理:它能替用户追踪信息、生成内容、调用工具,甚至直接完成下单和操作流程。
在开场演讲中,谷歌CEO桑达尔·皮查伊(Sundar Pichai)表示,过去12个月是谷歌“飞速发展”的一年。 谷歌每月处理的Token数量达到3.2千万亿个,同比增长7倍;Gemini应用月活跃用户数达9亿。
谷歌推出“Ask YouTube”功能。 该功能将在YouTube网站中加入聊天机器人式交互界面 ,用户可以通过自然语言引导系统找到更符合搜索意图的视频片段,并直接跳转至视频中的相关部分。谷歌表示,该功能目前正在测试,并计划于今年夏季在美国更广泛推出。
随后,谷歌展示了Docs Live。不同于传统文档编辑工具, Docs Live允许用户直接通过语音与Google Docs对话,而不必输入具体提示词 。现场演示中,一名用户需要为高中职业日准备校友演讲,Gemini自动提取演讲要点,从Google Drive中获取简历信息,并从Gmail中调取活动详情,随后帮助用户创建和编辑文档。
在介绍应用层功能后,皮查伊转向AI基础设施。皮查伊表示, 谷歌AI基础设施支出正在大幅增长,预计今年的支出将达到1800亿美元~1900亿美元。
谷歌还重点介绍了自研AI硬件TPU(张量处理单元)。谷歌称, 最新一代TPU 8将分为两类:一类面向大规模AI训练,另一类用于模型实际服务用户时的快速响应。
随后, DeepMind首席执行官德米斯·哈萨比斯(Demis Hassabis)登台介绍“世界模型”相关进展,并发布 Gemini Omni 。 这是一款基于谷歌在世界模型方面积累的新型视频生成模型。按照谷歌的介绍,Gemini Omni可以基于多种输入生成视频,并支持对话式编辑。用户可以通过自然语言修改角色、背景和场景,也可以上传自拍并将其转换成其他风格或内容。哈萨比斯称,未来Omni将能够根据任何输入生成任何输出, 首款模型Gemini Omni Flash将于今年夏季推出。
围绕AI生成内容识别,谷歌还扩展了 SynthID验证 功能。用户可以询问一张图片是否由AI生成。皮查伊现场以一张他和另外几个科技巨头CEO的梗图为例,展示该AI检测能力。
皮查伊随后发布Gemini 3.5 Flash 。他表示,该模型比此前Gemini 3.1速度更快,专为更复杂的智能体任务、更长工作流和现实世界开发者使用场景构建。谷歌称, Gemini 3.5 Flash生成输出Token的速度大约是其他前沿模型的4倍,因此尤其适合AI Agent和编码工具。
Gemini 3.5 Flash生成速度为其他模型的四倍 图片来源:直播视频截图
模型发布之后,谷歌的软件开发平台Antigravity负责人瓦伦・莫汉(Varun Mohan)登台介绍智能体编程平台 Antigravity 2.0 。
该平台被谷歌定位为面向AI Agent时代的编程工具,直接对标Anthropic的Claude Code和OpenAI的Codex。 瓦伦・莫汉称,谷歌通过Antigravity 2.0及其代理系统从零开始构建一个操作系统,整个过程所消耗的Token成本不到1000美元。他还表示,Antigravity 2.0“毫不掩饰地以智能体为先”。
紧接着,皮查伊发布Gemini Spark。 谷歌将其定义为一款全天候运行的个人AI助手,基于Gemini 3.5,并运行在Google Cloud虚拟机上。 用户可以通过Gemini应用访问Spark。按照谷歌的说法,即便用户合上笔记本电脑,Spark也可以继续工作,同时也能在智能手机上运行。
谷歌表示,Gemini Spark未来将与第三方工具集成,相关工具将陆续公布。该功能本周将面向受信任测试人员推出,下周面向美国Google AI Ultra订阅用户开放。为了降低成本,谷歌还推出价格更低的Ultra套餐,起始价为100美元/月。今年夏天,Spark也将在Chrome浏览器中运行。


阅读后的真实反馈
支持继续回复展开讨论,审核通过后会展示在页面中。