
作者|周雅
美西时间5月19日9:00,此时距离Google I/O 2026正式开幕还有1小时,我坐在现场翻着社交媒体,突然看到就在一天前,Alphabet 兼Google CEO Sundar Pichai 在X上发了一条10秒钟的预热视频。
内容本身没什么戏剧性:他和 Google DeepMind CEO Demis Hassabis 从圆形剧场看台走下来的一幕。但很新奇的,是视频的画风,画面自动切换了几种视觉风格,虽然没有产品界面,没有技术参数,但大家很快意识到,它是由Google的新模型Gemini Omni生成的。
没有例外的,Google 这次又发了很多新模型和 Agent,这里简单梳理一下,包括:负责复杂任务与智能体编程的 Gemini 3.5 Flash、把任意输入转成视频输出的 Gemini Omni、24 小时在后台替人推进任务的 Gemini Spark、承接创作全流程的 Google Flow、把智能体带进搜索入口的“AI 搜索框”、让手机上可见智能体状态的 Android Halo、为智能体电商打底的 Universal Cart、面向图片应用的 Google Pics、进入 Workspace 工作流的 AI Inbox等等。
单看每一个,都像是一个新功能。但是连起来看,再回头看那支预热视频,它更像是一个明确信号:「AI 的下一阶段,是替你行动。」
过去一段时间,AI 行业最容易被市场认定的故事,是 Coding。代码能不能跑,效率有没有提升,企业愿不愿意付费,都相对清楚。所以编程工具的叙事,能被市场快速接受。
但 Coding 之外,AI 还有一大片没有被充分定价的领域。图片、视频、音频、PPT、邮件、搜索、购物、日程、文档协作。用户确实需要这些能力,也确实会被“看得见的 AI”吸引,但这些场景过去一直没被串成一条完整的逻辑里。
所以我在现场最清晰感知到的,Google这次想要传达的一层意思是:我有模型,也有入口,也有工作流,还有用户每天已经在用的产品。这家公司正在把 Gemini 推进成一套执行系统,围绕核心主角「人」——开发者也好,创作者也好,普通消费者也好,Google 正在把 Gemini 推进成一套完整的执行系统。
当然,由于这次发布的产品如此之多,我们特别希望借由其中两款产品的命名,为理解本届I/O的内涵做一个类比,它们分别是:Gemini 3.5 Flash和Gemini Spark。
“Flash”,刨除它本身作为Gemini系列之一的命名不讲,也可以译作闪电,是电。它解决的是 agent 跑不跑得起来的问题。
“Spark”,可以译作火花,是光。它让普通用户看见,AI 不只是生成一段内容,而是可以在后台替你推进一件事,也可以是承载你灵感乍现的画笔。AI也同理,它在输出“电”,发出“光”。
【01】论 Google AI 的渗透力:从 “Token Maxing” 到 13 个十亿级产品
Sundar Pichai 上场,第一句话就定下基调:这是一段“hyper-progress(超速进步)”的时期,连他自己都觉得这一年过得相当紧绷。至于如何紧绷呢,他放出一支恶搞视频,叫做“我这一年在大模型里的不同角色”,画风见下图。他随后开玩笑说,“其中那张我亲自插 TPU 电源线的镜头其实挺写实的”。
玩笑讲完,他拉回正题——Google 全面转向 AI-First(AI为先)战略已经满 10 年。
这十年里Google 的路线很清晰,Sundar 展示了一个五层架构图:AI基础设施层(比如TPU)、安全层、顶级研究层、模型和工具层、产品和平台层。这其中,「全栈」是 Sundar 反复强调的关键词。这种打法的好处是,能在每一层快速迭代,他说,“现在公司的每一个角落都被AI点亮了”。
五层架构图中最底层的部分,是AI基础设施,这就不得不提到Google的TPU。十年前 Google 在同一个 I/O 舞台上发布了第一代商用 TPU,而到了今年,第八代 TPU 首次采用双芯片架构——TPU 8t 和 TPU 8i,分别专精于训练和推理。拆解来看:
TPU 8t 面向大规模预训练,其原始算力比上一代高接近 3 倍。Google 同时把训练范式重写了一遍:基于 JAX 和 Pathways,训练不再被单个数据中心的物理边界束缚,可以跨多个站点无缝分布、扩展到全球超 100 万颗 TPU 上,从而构成“大规模的训练集群”。对模型构建者而言,这意味着原本要花数月的训练任务,现在可以压缩到几周。
TPU 8i 面向推理。Sundar 用自家搜索产品点题:“如果说在 Google Search 这27 年来学到了什么,那就是明白一个重要性:延迟。”现场 demo 是一个Flash 模型在 8i 上跑“做一个 Chrome Dino 游戏”的请求,屏幕右上角实时显示输出速度,最终接近 每秒 1500 token。Sundar 笑说:“人类说出请求的时间,都比模型响应时间长。”
为了让大家直观理解TPU在干啥,Google放了一段萌片:几颗 TPU 在闲聊周末的“业绩”,一颗说自己上周折叠了几个肿瘤数据集里的蛋白质,另一颗说自己模拟了未来 50 年的气候数据,第三颗 TPU 怯生生地说:“我……画了一只哈巴狗。”前面铺垫了那么多严肃 token 数,到这里被自家 TPU 自嘲化解了一下。Sundar 收尾时用算力单位玩了个双关:“等今年I/O结束,第三颗TPU 估计要 teraflop 着扑回床上睡觉了。”意思是这颗 TPU 累得要瘫倒(flop)在床上,而它做这个动作的速度大概是 teraflop 级。
衡量进展的一个客观指标是 token。两年前,Google 系产品和 API 每月处理 9.7 万亿 token;去年 I/O 时是 480 万亿;今天是 3.2 千万亿——一年增长 7 倍。有一个最近的网络流行词,可以形容这个进展,叫做“token maxing”,在某个名词后面加 -maxing,意思是“把这件事做到极致”。Sundar 坦然承认这一点,但他认为这个数字背后恰恰说明了,“Google的产品,以及在Google产品之上构建的产品,都在被广泛使用”。
把视角拉回产品矩阵:Google 当前已有 13 个用户超 10 亿的产品,其中 5 个超 30 亿。其中,Google Search (谷歌搜索)是最大的 AI 受益者——AI Overviews 月活 25 亿;AI Mode 上线一年突破 10 亿月活。Gemini 应用月活 9 亿,比一年前翻了一番;日均请求量在同样时间内翻了 7 倍。Personal Intelligence 让回应更个性化、更有用;Nano Banana 至今已生成超过 500 亿张图像。
【02】Gemini Omni来了,这是世界模型的关键一跃?
接下来,Demis Hassabis上场,他讲出的第一句话非常符合他一贯风格:“AGI 离我们只剩几年了。”
去年他在同一个舞台讲过,一个能理解并模拟世界的 AI,是通往 AGI 的关键一步,也是 AI 助手与机器人未来必须具备的底层能力,他当时分享了Gemini 走向“世界模型”的路线图。
今年,Google拿出新产品——Gemini Omni。它的定位是“能从任何输入生成任何输出”,把 Gemini 的智能与 Google 生成式模型——Veo、Nano Banana、Genie 等融合在一起,实现新一层的世界理解、多模态、与编辑能力。
Omni 的关键能力是对「直觉物理(intuitive physics)」的更深掌握。前几代视频生成系统,或许在动能、重力等概念上容易翻车;而Omni 在这些层面上是阶跃式的进步。Demis 用“用粘土动画风格解释蛋白质折叠”做提示,模型直接生成了一段从氨基酸链到 alpha 螺旋、beta 折叠、再到完整 3D 形态的科普动画,画面与解说同步,且物理一致性很强。
但生成只是第一步。Demis 强调,创作通常是反复迭代的过程,所以Omni 给视频带来了一种用自然语言对话来编辑视频的丝滑方式。Demis 现场拿了一段自拍视频做演示:你只要说“把这个简单的圆变成黑洞”——画面里的那个圆形元素就在你眼前变形成一个黑洞,整段场景跟着重新组织;如果你再说“在傍晚散步”——整段视频的氛围就被改写成黄昏散步的样子,光线、节奏、环境全部跟上。Demis 的总结是:“万物皆可成为创造新现实的画布。”
值得一提,Omni 系列的首发模型是 Gemini Omni Flash,今天起在 Google 各产品中可用。Omni Pro 即将推出。
【03】Gemini 3.5 Flash:智能体 + 编程 + 速度,而且还省钱
Gemini 3 系列几个月前发布,是 Google 历来被采用最多的一代——开发者把 Flash 当日常主力工具,把 Pro 当深度推理与多模态的重器。本届 I/O 推出的是 Gemini 3.5 Flash,强项是“智能体 + 编程”,Sundar 描述为“将前沿智能与行动力结合的系列首作”。
两个跑分数据:
第一,能力全面升级。 相比 Gemini 3.1 Pro,Gemini 3.5 Flash 在几乎所有 benchmark 上都更好。包括 Terminal-Bench 2.1(76.2%)、GDPval-AA(1656 Elo)和 MCP Atlas(83.6%);在多模态理解方面,它在 CharXiv Reasoning 上取得 84.2% 的成绩。
第二,速度独立成区。 在“智能 vs 输出速度”二维图里,3.5 Flash 占据右上象限独一档,每秒输出 token 数的速度是其他前沿模型的 4 倍。
Google 内部已经全面用上 3.5 Flash,配合开发平台 Antigravity,效率提升显著。Sundar 给了一组数据对比:今年三月,Google 内部为开发者每天处理半万亿 token;现在每天处理超过 3 万亿 token,每几周就翻一番。“这个规模带来一个反馈循环,反过来帮助我们改进 3.5。”
【04】Antigravity 2.0:93 个子智能体在 12 小时内造出一个能跑《Doom》的操作系统
Antigravity 创始人 Varun Mohan 上台,讲述了这场 keynote 里最有“科幻感”的故事。
他直言,“现在是做开发者最好的时代”——AI 不再只是写代码的工具,而是能替你行动的智能体。门槛降得如此之低,以至于“忙碌的 CEO 也能成为构建者”。Varun 顺手爆料:上周 Sundar 用 Antigravity 修了一个 Google 代码库里的 bug。
去年 11 月发布 Antigravity IDE 时,Google 把核心 agent-powered IDE 体验做扎实,目前已经有数百万用户。本届 I/O 是这套平台的全面升级,升级覆盖几个层面:完整的 CLI 体验,Antigravity SDK,基于 Gemini 音频模型的原生语音支持,与 Android、Firebase、Google AI Studio 的整合——这些升级即日起全部可用。
而真正的主角是一款全新的独立桌面应用:Antigravity 2.0,彻底 agent-first(智能体为先),围绕 agent 对话、agent 产出、多 agent 编排来组织整个界面。另外,Antigravity 的”Agent Harness“——让 Gemini 执行真实世界任务的不可见框架,也得到了大幅强化,新增子智能体、hooks、异步任务管理等核心原语。Gemini 3.5 Flash 就是与这套 Harness 共同优化出来的。
随后是真正的炸场环节。Varun 说工程师本能就会想试探这套系统的极限,于是他们用 Antigravity 2.0 加 Gemini 3.5 Flash,让 agent 团队从零写一个可运行的操作系统。
结果如下:
12 小时异步运行
93 个子智能体并行工作
共发起超过 15000 次模型请求
处理 26 亿 token
把一个空项目推进到一个可运行的操作系统内核
全程 API 额度消耗不到 1000 美元
我们具体看最后一项。这是 Gemini 3.1 Pro 上做不到的事,因为3.5 Flash 的成本与效率是关键。Sundar 在台上算了一笔账:Flash 提供前沿级能力,但定价不到对标前沿模型的一半。云端排名靠前的几家公司目前每天处理约 1 万亿 token,如果他们把 80% 的工作负载从其他前沿模型迁到 3.5 Flash,每年能省下超过 10 亿美元。
Varun 强调,“agent 团队写下了从调度器到内存管理到文件系统的每一行代码,一切都是它们自己生成、审计、测试的。”而从零写一个操作系统,在传统语境下是“多人多月的残酷工程”。
关键之关键,Google自己给自己上难度——智能体从零跑一个操作系统还不是最难的,最难的是能不能跑《Doom》。
这话听着像随口一说,其实是开发者圈子里一个有年头的梗。Doom 是 1993 年发布的一款经典第一人称射击游戏,id Software 出品,被公认为整个 FPS 游戏类型的奠基作。它代码精简、对硬件几乎没要求、还是开源的,所以过去三十年里被全世界的程序员移植到各种离谱的设备上——冰箱、烤面包机、ATM、电子血糖仪、佳能打印机、特斯拉中控屏、孕检棒、智能手表、计算器,甚至有人改造过一颗土豆把 Doom 跑起来了。这件事慢慢变成了一种行业里的民间认证标准:你想证明某个东西算不算“真正能用的计算环境”,让它跑一下 Doom 就知道了。所以当 Varun 说,“这不是真正的OS(操作系统),除非It runs Doom(它能跑 Doom)”,就是在挑战这件事。
说干就干,实操环节。Varun 在 Antigravity 搭出来的 OS 终端里先抛了个小彩蛋,输入“sl”(这是把“ls”敲错时常见的一个 easter egg 工具),然后屏幕上真的开过一辆带 Antigravity logo 的小蒸汽火车。气氛刚活跃起来,他试着跑 Doom——结果失败,缺一些视频和键盘驱动。
然后,他直接当场粘贴了一段提示词,让 agent 自己去修,他一边等着agent自己维修,一边非常悠闲地带着现场观众逛Antigravity 2.0 的新界面,他顺手拉出来一个之前让 agent 研究 Doom 的项目,模型不光写了一份研究报告,还用 Nano Banana Pro 做了张信息图、用自己临场写的代码生成了几张图表、补了几张对比表。从研究到可视化一条龙完成。
接着,agent 自动修好驱动后,最终Doom 在 Antigravity 自建 OS 里成功跑起来。Varun 顺势补充:他们也试过用同套体系造图像编辑套件、实时消息应用、多用户协作平台,结果都成功。“原本要数日数周的工程,现在缩短到数小时甚至数分钟。”
这一刻全场欢呼,是因为:
1、AI 不仅写出了一个 OS,还能继续自己 debug、补驱动。
2、这套 OS 通过了程序员圈的"民间通过标准"(能跑 Doom)。
3、让一个 AI 现场补好驱动并跑通 Doom,比任何 benchmark 都更有说服力。
【05】Gemini Spark:Google要把智能体带个每一个人
接下来,就是本届最有含金量的发布之一——Gemini Spark。
Sundar 讲了背后逻辑:Google 长期以来给开发者和企业做 agent 工具,这次是“安全、可靠地把 agent 力量带给所有人”。可能,消费级的 agent 时刻要来了。
Gemini Spark的定位是“你的个人 AI 智能体”,它可以跑在 Google Cloud 的专用虚拟机上、24/7小时在线、哪怕你把笔记本合上它依然继续工作——这一句台下掌声很大,因为它直击当前 AI 助手的最大痛点。Spark 由 Gemini 3.5 与 Antigravity Harness 提供动力,支持处理长时段任务。目前,它先和 Google 自家工具集成,未来几周通过 MCP 协议接入第三方工具,并将进入邮件和聊天等更多入口。
现场由Gemini 应用负责人 Josh Woodward 演示,他演示了两个例子。
第一个例子是“帮我起草一封邮件给团队,汇总过去一周关于 Gemini Live 上线和成绩的所有信息,使用 /ghostwriter 这个我自己写的 skill”。于是,Spark 同时跨 Docs、邮箱、聊天搜集信息,并按 Josh 自己的语气写出来。(这里,Josh 特别提到,Spark 支持用户上传从网上找到的喜欢的 skill。)
第二个例子更复杂“组织一场社区街区派对,抓所有 RSVP(回执),列出“谁带什么”的列表,给还没回复的邻居发提醒邮件。”于是,Spark 自动生成了实时同步的 Google Sheets RSVP 跟踪表——当 L. Thompson 写“8 个回执”时,表格直接更新;同时起草跟进邮件草稿,等他批准后发送;最后还做了一份“街区派对宣传 PPT”,连“在 cul-de-sac 里设置的巨型充气城堡”都被画进了幻灯片,并从 Drive 里拉出“小区业委会规定 6 月 5 日周五下午前不能搭建”的规定。
Spark 在手机上同样可用,支持跨 Android 与 iOS。Josh 现场用语音扔三件事给 Spark:把所有未来与 Sundar 的会议都改成亮粉色避免漏掉、给新邻居 John 一家写一张邀请函邀他们来街区派对、列出他和妻子在学年结束前要给孩子做完的所有事项并按截止日和优先级分类。Spark 自动把这一长串拆分成多条独立任务,Josh 则把手机放下享受自己的生活。
值得一提的是,Spark 不会只活在 Gemini App 里,它会扩张到用户日常会用到的另外两个核心入口:浏览器和手机主屏。今年夏天,Spark 会直接进驻 Chrome 里,成为一个“代理式浏览器”——你在任何网页上都能直接让它替你行动,不必再切到另一个 app。今年晚些时候,Spark 还会获得一个手机端的专属“家”——Android Halo,这是一个专门为 agents 设计的手机主屏入口,今天 Spark 在 Gemini app 里只有一个 dashboard 显示所有后台任务,未来 Halo 会把这件事提升到整个手机操作系统的层级。
目前,Spark 本周以可信测试者形式推出,下周以 beta 形式开放给美国 Google AI Ultra 订阅者。同时 Google 新增 100 美元/月的 Ultra 套餐;原先 250 美元/月的顶级 Ultra 降价到 200 美元/月。
【06】Google Search(谷歌搜索)的下一篇章
接下来的环节,是Google的核心业务——搜索。Google Search副总裁Elizabeth Reid上场(下文简称Liz),聊到谷歌搜索发展25年来,正式进入下一篇章。
前文Sundar已经讲过,Google Search 是最大的 AI 受益者,而Liz讲的更直接——“Google Search 现在彻底是一个 AI Search。”它把 Google 最先进的 Gemini 模型、最新 agentic 能力、海量信息(每分钟更新超 10 亿条事实、每天索引数十亿新网页)整合成一个连贯体验。
第一个大动作是,搜索框已经被重新设计,设计成「智能搜索框」。曾经,那个经典的单行的 Google 搜索框已经消失了,取而代之的是一个更加灵活动态的搜索框,这是25 年来它的最大一次改版,这种设计更符合人们如今的搜索方式——即需要输入更长、更复杂的句子来表达搜索意图。它还支持文本、图像、文件、视频等多模态、跨模态搜索。即日起全球推出。
第二个动作是把 AI Overviews 与 AI Mode 合并为单一无缝 AI Search 体验。你可以从主搜索结果页的回答,过渡到 AI Mode 的进一步追问,上下文不丢失,链接和来源会聚焦你想搜索的方向。即日起全球PC端与移动端上线。
第三个动作是迎接Search Agents 时代——你可以在 Search 里同时启动多个 24/7 后台运行的 information agents。Liz 给了几个例子:
· 财经迷可问“PE 低于 15、现金流为正、债务低的大型生物科技股”——agent 拆解任务、判断时效紧迫度、设触发器、连接 Google 实时金融数据,市场一动就推送有合成洞察的更新,并指引到类似众包研究平台、新闻、社交等高相关来源;
· 找公寓时把所有想法(位置、自然采光、入住时间)一股脑倒给 agent,它持续扫描全网,包括各种站点、社交、论坛;
· 球鞋爱好者可以让 agent 监控喜欢的运动员的鞋款联名和发售,从博客一直监到 Shopping Graph。
据悉,Information agents 将于今夏上线。
Google Search产品经理 Robby Stein接力,引出谷歌搜索最炫的一项新能力——Generative UI(生成式 UI)。Google Search 的传统是为不同类型的问题定制不同的展现:购物给商品、数据给图表、灵感给视觉。这次 Google 把这个原则推到极致:把 Antigravity 与 Gemini 3.5 Flash 的 agentic coding 能力直接放进 Search,让 Search 能为每一个问题“现写”一套理想的 UI——动态布局、交互式 widget、完整的体验,全部按需定制。
Robby 现场拿自己举例。他说自己当年读大学时一直搞不太懂天体物理,于是干脆当场问 Search:“黑洞是怎么影响时空的?”AI Overview 没有像过去那样给一段文字解释,而是直接在结果里生成了一个可以拖动、可以交互的小动画。Robby 继续追问:“那两个互相绕行的黑洞,是怎么产生引力波的?”Search 没有去网上找现成的视频,而是为这个具体问题当场造出了一个交互模拟器——你可以拖动滑块调整两个黑洞的距离、调整它们的质量比,亲眼看波形怎么变、小黑洞怎么一圈圈螺旋掉进大黑洞。看完想再深入,下面还挂着 LIGO 的论文链接。
这件事的技术原理是:Gemini 3.5 Flash 拿到你的问题之后,从零开始规划该怎么回答——它先想清楚布局长什么样、需要哪些自定义组件、要做哪些信息发散研究,然后写代码、部署、跑起来。为了让自定义组件真的能运行起来,Search 在背后调用了一套由 Antigravity 驱动的代理式编程框架,能在一个安全的容器化环境里读写文件、执行代码。Robby 最后总结:“Varun 拿来造操作系统的那套技术,现在直接进了 Search。”这种生成式 UI 今夏面向所有 Search 用户免费开放。
Robby 还展示了第二步——把这种能力从“一次性回答”扩展到“为长期任务做出小型应用”。
Robby 搜了一句“这周末和家人能做什么有意思的事”,Search 给完普通回答之后,主动多问了一句:“要不要顺手给你做一个周末计划?”他点了同意,屏幕上实时显示模型在思考什么、在生成什么代码——它做的事不只是“找信息”,而是在判断哪些信息值得用什么样的界面组件来呈现。Robby 提前授权连接了 Gmail、Photos、Calendar,所以 Personal Intelligence 能让推荐更个性化。
生成出来的计划里,已经替他考虑好了几件事:自动考虑了天气和路途时间;知道他有两个孩子且老大正在学下棋,因此推荐了“国际象棋 + 动物”组合的活动;同步了日历里“下午要和朋友看球”的安排;最下面是几家餐厅的预订选项,按合理顺序排好。
Robby 又追加了一句:“每周加一个周五的约会夜,把它放到最上面。”Search 立刻重排——地图挪到顶部,新出现一个“周五约会夜”标签。最后他把这份计划器分享给老婆,老婆的手机上看到的是一模一样的可交互体验,确认完直接同步进家庭日历。这种“可定制的小型应用”今年晚些时候面向订阅者上线。
【07】电商范式重写
Google广告与商务部门副总裁兼总经理Vidhya Srinivasan在讲,Google Shopping Graph 现已收录超过 600 亿条商品,每天人们在 Google 上购物超过 10 亿次。她说,当这种规模和 Gemini 拼到一起,电商体验会被彻底改写。
Google 为此搭了三块地基:
第一块:Universal Commerce Protocol(UCP,通用商务协议)。 Vidhya 直白地类比:"UCP 之于 agentic commerce,就像 HTTP 之于 Web,让所有 agent 和系统说同一种语言。”它是开源标准,覆盖整条链路,从挑商品、到下单结账、到物流追踪。最值得圈起来的是合作伙伴名单——Amazon、Meta、Microsoft、Salesforce、Stripe 集体加入。Vidhya 半开玩笑:"这可能是我们这几家公司第一次在某件事上意见一致。"UCP 接下来还会扩到酒店、本地外卖等更多场景,进 YouTube,也将落地加拿大、澳大利亚、英国。
第二块:Agent Payments Protocol(AP2,智能体支付协议)。 一谈到让 AI 替你花钱,所有人的反应或许是同一个问题——“它会不会自作主张给我买东西?”AP2 的答案是两条规矩:先划边界,再讲问责。
边界很简单:你告诉 agent 具体哪个品牌、什么商品、预算上限多少,只有同时满足这些条件,它才能下单。
问责更关键。AP2 在你、商家、支付处理方三方之间建立一条透明可验证的链路,用隐私保护技术保护你的数据,同时给每一笔交易留一份防篡改的数字授权凭证——相当于一份永久存档的电子凭据。万一要退货,三方看到的是同一份记录,不会扯皮。AP2 未来几个月进入Google的产品,Gemini Spark 是首发。
第三块:Universal Cart(通用购物车)。Vidhya 把它定义为“一种真正智能的购物车”,它能跨商家、跨服务工作。无论你在 Search 浏览、和 Gemini 聊天、看 YouTube 还是读 Gmail,都能往这只购物车里加东西。一旦加入,它会在后台找折扣、查价格历史、追踪降价提醒、库存恢复提醒。
最让人眼前一亮是它的智能推理能力。Vidhya 举了攒第一台定制 PC 的例子:你看到一块好评不错的主板,丢进购物车,但你之前已经选好了一颗 CPU,这两个东西用的不是同一种插槽,购物车会主动识别出这个冲突,告诉你"对不起,这俩装不到一起,要不换这个?"
另一个亮点是“挖隐藏优惠”,它基于 Google Wallet,Cart 能看到你所有信用卡的不同权益,比如"你那张 Target 联名卡这周对你之前加的几样东西有专属折扣”,并自动帮你找出哪种付款方式最省钱。结账时,UCP 让两种路径都很顺:你可以直接在 Google 里点几下用 Google Pay 完成,也可以跳转到商家自己的网站买,体验是一样丝滑。
Universal Cart 今年夏天先在美国的 Search 和 Gemini app 上线,YouTube 和 Gmail 随后跟进。
【08】创作者侧的三件武器
Google创意实验室主任Suz Chamber 上场,聚焦创作者工具,她讲:“在最理想状态下,技术是人类创造力的画布”。她重点介绍三款产品。
第一,Google Pics。Google Workspace 中的全新图像创作与编辑工具,把 Nano Banana 的能力配上更精细的创作控制权。从派对传单到信息图都能做。Pics 理解画面里的元素及其关系——你可以悬停、点击移除某个元素,或调整尺寸适配画面;定下布局后还能加文本、几次点击就完成翻译。所有 Pics 输出都自动打 SynthID 水印。Pics 将于今夏上线。
第二,Stitch。Google 的设计工具,把粗略想法转成漂亮 UI。Google 各团队都在用,过去一年全球用户用 Stitch 生成超过 1 亿张 UI 屏幕。本次更新允许用户用语音协作实时迭代——演示中,比萨店老板 Tyler 与 Jenny 通过“把标题文字放大”“菜单要突出更多比萨选项”等口令实时调整。Stitch 同时连接很多工具,可以一键导出代码或上线网站。即日起全球推出。
第三,Google Flow 的多项更新,其中包括:
· Omni 进入 Flow:在不破坏原始表演(人物的步态、节奏、气场)的前提下,给一段视频"换天换地"——加视效、改环境、保留灵魂;甚至能在保留场景其他元素的同时加入新角色。
· 新 agent:以前 Flow 只能一次执行一个 prompt,现在 agent 能并行做多步操作。Suz 演示让 agent 从单张图自动选出最具冲击力的镜头角度——一张图变成 16 段独立短片;或一次性把所有场景从清晨改到深夜——沙漠天空全黑、车头灯打开照亮扬尘,理解非常精准。
· Flow Tools:在 Flow 里 vibe-code 任何"你想要的创作工具"——视频特效、手绘动画、文字层叠等,构建后可分享、remix。
Google Flow Music:给艺术家同等的创作控制力。Suz 播了一段团队成员录的钢琴 riff,他用 Flow Music 输入这段琴音并提示"加上 R&B 方向、女声",生成了一段 demo 用以引导他乐队的歌手该往哪儿录——"这不是最终成品,但帮乐队定下了下一步要录什么"。
Flow 与 Flow Music 的新功能今日起全部可用。
【09】Android XR 的秋收
最后的环节,依然落到了Android XR,现场有点像call back去年IO的最后一幕。
Google Android XR 业务总经理Shahram Izadi讲,Android XR的下一个里程碑是 Intelligent Eyewear(智能眼镜),其中分两类:显示眼镜(display glasses) 与今天首次官宣的音频眼镜(audio glasses)。
显示眼镜里有小型镜内显示,可显示 Uber 接驾详情、实时翻译、自定义 widget 等“瞥一眼就懂”的信息。第一波开发者已经在做体验,今年晚些时候 Trusted Tester Program 扩张时会更新。
真正的亮点是音频眼镜,它将于今秋上市。它没有显示屏,适合听音乐、拍照、打电话、唤起手机里的应用而不掏手机,与Gemini交互使用。Shahram 自爆典型用法:“我喜欢做饭但不爱按食谱来,所以让 Gemini 在我太放飞自我前先建议一句。”
合作伙伴阵容相当抢眼:Gentle Monster 与 Warby Parker 负责设计,Samsung 负责工程与制造,Google 负责 Gemini、Android 软件。它与 Android 和 iOS 设备双兼容。
现场,Shahram和Google Android XR产品经理Nishtha实时演示它的功能, Shahram 戴 Warby Parker 款,Nishtha 戴 Gentle Monster 款,此处梳理了其中几项能力:
Maps + Personal Intelligence:Nishtha 直接说"导航到我上周和朋友 Gianna 见面的那个地方"——Gemini 立刻开了去 Redwood Grove 自然保护区的步行路线,并主动询问"要不要顺路去拿你下午的冷萃?"
Agent 操作 App:Nishtha 说"在那家咖啡店下我那杯老样子"——Gemini 在她口袋里的手机上打开 DoorDash、点过所有选项页、选好 nitro cold brew,最后弹出确认。Nishtha 加 20% 小费、确认下单。Shahram 调侃说"经过这么多次彩排,这是她今天的第 15 杯冷萃"。
总结消息 + 写日历:Nishtha 表示她登台前静音了短信,让 Gemini 总结要紧的——Gemini 回:"家庭群决定今晚 7 点聚餐,还有日常 affirmations 的提醒——'你很坚强……'" Nishtha 笑着打断"affirmations 待会儿再说",让 Gemini 把 7 点家宴加进日历,自动放在团队庆祝之后。
Watch 显示器联动 + Nano Banana 图像:Nishtha 让现场观众摆 pose,"用 Nano Banana 拍下来变成卡通风格、加一艘上面写着 Google I/O 2026 的彩色飞艇"——几秒后预览同步到她的手表上。
每一个演示都顺利,全场欢呼,这也呼应 Shahram 一开始那句"we're going to give it a shot"。
【10】AGI!AGI!AGI!
Demis 最后回到舞台中央。他没有再展示任何模型或产品,而是丢下了一句话——“AGI is now on the horizon”AGI 就在前方地平线处。
他用三件事来支撑这句话。
第一件,安全先行。AI 越强,攻击面越大。Google DeepMind 的 CodeMender 是一个能自动发现并修复关键软件漏洞的代码安全 agent,今天起向选定专家开放新的 CodeMender API。这是 Demis 想先讲的一件事——他不想让"AGI 即将来临"听上去像一句宣传话术,而是先把"我们认真在管它的副作用"摆出来。
第二件,把 AI 喂给科学。他正式宣布 Gemini for Science——把跟踪新发表论文、把研究目标转成可执行代码、生成新假设这些日常科研动作整合到一套 AI 工具里。
模拟是另一支主力。AlphaEarth Foundations 被他形容为"目前最接近地球数字孪生"的东西,可以用来对付森林砍伐和粮食安全这种长周期议题。WeatherNext 在飓风预测上比传统系统更快更准,Demis 播了一段实例:2025 年飓风季,WeatherNext 提前三天预测到一场五级飓风将袭击牙买加。当地预报员的话简单直接:"因为这次提前预警,我们能让公众撤离危险区,挽救了生命。"
生物学方向,AlphaFold 和 AlphaGenome 已经成了几百万科学家的日常工具。Demis 给这种新范式起了个名字——"science at digital speeds(数字速度的科学)",既指研究产出快,也指它在研究者之间扩散得快。
第三件,回到 Demis 自己最初的那个梦想。在 Isomorphic Labs,Google DeepMind 正在为新药研发建模分子互作。今天的数字是——多个项目已经进入临床前阶段,覆盖免疫疾病和癌症。Demis 强调:“我们的使命是重新构想药物发现流程,目标是有朝一日攻克所有疾病——几年前听起来像天方夜谭,但我真心相信现在已经触手可及。”
整场主题演讲到这里,Demis 留下了最后一句话——
"I think we will realize that we were standing in the foothills of the singularity."
当我们回望这段时间,会意识到自己当时正站在奇点的山脚下。
全场掌声响起。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。