作者 | 周雅
来源 | 科技行者
谷歌I/O大会的第一天,Google联合创始人Sergey Brin(谢尔盖?布林)高调现身,与Google DeepMind首席执行官Demis Hassabis,来了一场炉边谈话,主持人是当红科技播客主理人Alex Kantrowitz。
全程只有半小时,但信息密度很高,话题涵盖了:AI的前沿模型、AGI的定义与路径、AI伦理、智能眼镜、谷歌AI战略等一系列热点话题。整体看下来,是这家以工程师文化为底色的公司,在经历了外部冲击与内部整合后,对其“AI信仰”的一次再确认与再出发,它关乎的不仅是AGI的星辰大海,更是如何脚踏实地将Gemini真正融入物理世界。
访谈中,已经重返一线的谢尔盖?布林,谈到自己重返谷歌的原因,是受到了AI时代的召唤。他说:
“对于一个计算机科学家来说,我们正处在史上独一无二的、非常特殊的时刻。老实说,任何一个计算机科学家,现在都不应该想着退休,都应该投身到AI的研究和开发中来。”
他透露,自己几乎每天去办公室,主攻核心技术和算法,顺便“折磨一下”像Demis Hassabis这样的优秀人才(这句是玩笑话)。
而回应这两天的话题中心——智能眼镜,布林毫不避讳说Google Glass“当年犯了不少错误”:首先是“技术代差”;其次是供应链的教训;最后还是太超前了,谷歌在2012年为Google Glass做的那场发布会演示,还动用了飞艇和翼装飞行员从天而降,虽然他很怀念那一刻,但现在学乖了,“应该先把产品本身打磨好、再稳扎稳打推向市场、最后再考虑做不做酷炫演示”。
但他更强调,自己“始终坚信智能眼镜这一设备形态的潜力”,今天的AI已为智能眼镜注入了新血液,使它有望成为真正有益的交互界面。
Demis Hassabis则更进一步,直言“一个真正智能的、无处不在的通用AI助手,会是智能眼镜的杀手级应用”。
科技播客主理人Alex Kantrowitz(左),Google DeepMind首席执行官Demis Hassabis(中间)Google联合创始人Sergey Brin(右)
前沿模型的进步空间
问:让我们从前沿模型开始。Demis,根据我们今天对前沿模型的了解,还有多少提升空间有待释放?以及,为什么有那么多聪明人说,这个领域的发展即将趋于平缓?
Demis Hassabis:我们正在取得令人难以置信的进展,主题演讲中展示的那些精彩内容就是证明。通过将现有技术推向极限,我们正看到巨大的成效。但与此同时,我们也一直在不断发明新的东西。要最终实现AGI(通用人工智能),可能还需要1-2个甚至更多的突破,我们有很多想法正在酝酿之中,并希望将它们引入到Gemini。
规模 vs. 算法:AI进步的双轮驱动
问:关于“规模”(Scale)的问题,在AI发展中,是不是只要规模够大(比如更多数据、更强算力)就能解决所有问题?或者说,目前这种“堆规模”的方式还是在唱主角呢?还是说,它其实更像个配角,需要其他东西来配合?
Demis Hassabis: 我一直觉得,这两方面都非常重要,缺一不可。
一方面,我们要把现有的技术和能达到的规模(不管是数据量还是计算能力)都用到极致,把它们的潜力充分挖掘出来。
另一方面,我们也要花一部分精力去为未来布局,思考接下来几个月甚至一年后可能出现的新方向。
这样,一旦有了能带来十倍甚至更大提升的创新点子或新算法(这就是所谓的“Scaling Law”中提到的,新方法与规模结合能带来巨大效应),就能立刻和我们已经建立起来的庞大“规模”结合起来,产生巨大的威力。所以,在我看来,拼规模和搞创新,两手都要硬。
Sergey Brin: 我完全同意Demis的看法,这两者确实是相辅相成的。AI的进步,既可以来自算法本身的优化和突破,也可以来自纯粹计算能力的增强——比如有了更好的芯片、更强的电力支持、更大的数据中心。
回顾过去,如果我们看一些经典的科学计算问题,比如天文学家模拟星体间万有引力的“N体问题”,把它的发展历程画出来看,你可能会发现,很多时候算法上的巧妙改进带来的进步,甚至比单纯增加计算能力带来的进步还要更明显。
不过好消息是,现在算法创新和算力提升这两条路我们都在大步向前,所以我们正享受着双重红利。
问:Demis,你觉得你们大部分的进步,是不是都靠建更大的数据中心、用更多的芯片来实现?有人开玩笑说,以后全世界都会被数据中心给铺满,像贴墙纸一样,这是你想象的未来吗?
Demis Hassabis: 我们确实需要建更多的数据中心。从科学的角度看,我们能把普普通通的沙子变成如此强大的计算芯片,这件事本身就一直让我觉得非常了不起。而且,这些数据中心不仅仅是为了训练AI模型。
现在我们有很多模型,像Gemini 2.5 Pro,大家都抢着想用,需求非常大。还有Flash模型,它在保证低成本的同时性能又那么好。我觉得,全世界的人将来都会想用上这些AI技术。所以,单单是为了让大家能顺畅地使用这些模型,我们就需要大量的数据中心。
除此之外,AI也需要时间来“思考”,也就是在它给出答案前进行计算和推理(这个过程我们有时也叫“推理时计算,inference time compute,指模型推理时花费的计算资源),这同样需要大量的计算资源。
你们这次也看到了DeepThink这个新模式,你给AI越多的“思考”时间,它给出的结果就可能越好。对于那些特别重要、特别难的任务,让AI花很长时间去“琢磨”是完全值得的。我们正在研究怎么能让AI“思考”得更深、更久,而这在AI运行时就需要非常多的芯片来支持。
“思考范式”的价值:从AlphaGo到现实世界
问:Demis 刚才提到了AI的“测试时计算”(或推理时计算,test-time compute)。我们关注这种让AI多想一会儿的“推理范式”(reasoning paradigm)也差不多有一年了,过去我们也聊过两次,这感觉就像是给大语言模型(LLM)这类的AI额外增加了一种能力。你能帮我们再解释一下,这种“让AI多想一会儿”能带来多大的提升,以及它为什么这么重要吗?
Demis Hassabis: 我们一直非常信奉这种“思考范式”。回顾AlphaGo和AlphaZero这些智能体在游戏领域的工作,它们的核心就是在一个基础模型上,再加一套“思考系统”,这种提升其实是可以量化的。
如果我们把AlphaGo或AlphaZero的“思考”功能关掉,只让它凭第一感觉(也就是基础模型直接输出)下棋,它的水平也不差,可能也是专业棋手或者大师级别。但是,一旦你把“思考”功能打开,它的水平就能远远超过顶尖的人类冠军,大概能提升600个Elo等级分。所以,在游戏里,这种“多思考”带来的提升是非常明显的,更不用说比游戏复杂得多的真实世界了。我认为,在现有AI的基础上,加入这种“思考范式”,潜力会更大。
当然,挑战也是存在的。就像我之前在演讲里说的,你的AI模型需要成为一个能理解复杂世界的“世界模型”(world model),这可比只做一个简单游戏的模型要难得多。这种复杂模型本身就可能出错,而且在进行长期规划时,这些小错误还可能会累积放大。不过,我相信我们在这方面的进展不错。
Sergey Brin:正如Demis所说,DeepMind在强化学习这方面确实是先驱,做了很多开创性的工作,AlphaGo和AlphaZero就是很好的例子。如果想单靠“死记硬背”式的训练,达到AlphaGo(带思考功能)的水平,可能需要多花5000倍的训练量,即便如此,AlphaGo的成功也是大量训练和“即推理时计算”结合的成果。所以,这种“多思考”的优势是非常巨大的。
而且,就像我们大多数人一样,说话前先想一想总是有好处的。虽然……也不是每次都这样啦。(现场一片笑声)
我确实也常常被提醒要(在说话前)这么做(先思考)。但我认为,对AI来说,一旦你赋予了它这种“多想一会儿”的能力,它们显然会变得更加强大。而我们现在在这方面的探索,才刚刚开了个头,摸到一点皮毛而已,毕竟这些高级模型面世还不到一年。尤其是,如果你考虑到AI在“思考”的过程中,还会调用各种外部工具或者其他的AI,来帮助它优化和完善最终的输出结果——那这将是一种极其强大、潜力无限的工作方式。
DeepThink的机制与AGI的突破口
问:DeepThink这个东西听起来很有意思。我试着描述一下我的理解,你看对不对:它基本上就像是让很多个“思考程序”同时开动,并行地进行推理,并且它们之间还会相互检查、相互验证结果,最后得出一个更高质量的答案。这感觉就像是给AI的推理能力打了“兴奋剂”一样。
Demis,你之前提到,AI行业还需要几次关键的进步才能真正达到AGI(通用人工智能)的水平。那么,像DeepThink这样的机制,在你看来处于什么位置?它算不算是能让我们离AGI更近一步的关键技术之一呢?
Demis Hassabis: 是的。DeepThink可以算是通往AGI所需突破中的一部分,或者说是一个重要的组成部分。当然,我们还需要其他方面的进步。比如,DeepThink可能主要改进的是AI的推理能力,但真正的“从0到1”的原创性、创造力是从哪里来的呢?现在的AI还不能像人类科学家那样,独立解决一个悬而未决的数学猜想,或者提出一个全新的猜想,更不用说在物理学领域构想出一个全新的理论了。我们目前还没有能做到这种程度创造力的AI系统。
但我相信,具备这种创造力的AI系统正在向我们走来。而像DeepThink这样的“思考模式”,对于提升AI的思考能力,以及其他许多方面的能力都会很有帮助。同时,我们还需要在构建能够准确理解和模拟真实世界的“世界模型”方面取得重大进展。
我想大家从Veo,特别是Veo 3(我们最新的视频生成模型)的演示中,已经能看到一些端倪了——它能够凭直觉理解一些物理规律。我早年不仅研究AI,还做过游戏图形引擎的开发,我记得那时候,游戏里的光照、阴影、材质等等这些效果,都得我们程序员一个一个手动编程实现,那真是非常非常复杂的工作。而现在,这些对物理世界的理解和模拟能力,似乎已经内化到了AI模型本身之中,这实在是太惊人了。
问:我看到你之前在社交媒体上分享了一张煎锅里有油的照片,那不是有什么特别的暗示吧?
Demis Hassabis: 哈哈,并没有什么特别的。也许只是一个微不足道的小小暗示而已。
AGI的定义之争:为何坚持用AGI?
问:我们今天已经好几次提到AGI(通用人工智能)这个词了。我感觉现在AI圈子里,很多人好像不太愿意再提AGI了,觉得这个词被用得太泛滥,有点失去它本来的意义了。但是Demis,你似乎认为AGI这个概念依然很重要。能说说为什么吗?
Demis Hassabis: 我确实认为AGI这个概念非常重要。也许我需要找个时间和Shane Legg(DeepMind首席科学家,也是大约25年前最早提出AGI这个术语的人之一)一起,就这个问题专门写点东西来阐述一下。我觉得,现在大家在讨论AGI的时候,常常把两件不同的事情给搞混了。
第一件事是,一个普普通通的正常人,一个个体,他能做些什么?我们人类已经很能干,但每个人真正精通的领域,其实也只是所有知识和技能中的一小部分,对吧?或者换个说法,什么是大约90%的成年人都能做到的事情?这种“普遍人类能力”,对于经济发展、对于我们设计和改进各种产品来说,显然是非常重要的。所以,这是一个很关键的衡量标准,我们可以把它叫做“典型人类智能”(typical human intelligence)。
而我所说的AGI,更多的是一个理论层面上的构想。它指的是,从根本的架构上来看,人类的大脑究竟有能力做到什么?人类大脑是我们理解“通用智能”的一个极其重要的参照点,因为它是目前宇宙中我们唯一知道的、能够证明“通用智能”这种东西确实可能存在的实例。
所以,如果你想说你的AI系统达到了AGI的水平,你就得证明它能做到一系列的事情,甚至是历史上那些最顶尖的人类精英(比如爱因斯坦、莫扎特、居里夫人等),凭借着和我们一样的人类大脑架构所能做到的那些事情——注意,不是说要拥有和他们一模一样的大脑,而是指拥有同样底层设计原理的大脑架构。我很清楚,现在的AI系统还远达不到这个程度。
现在大家对AGI的很多讨论和宣传,在我看来,问题在于目前的AI还不够“通用”,也不够“可靠和一致”。诚然,现在的AI模型已经相当“博学”了,它们能做成千上万种不同的事情,很多表现也确实令人印象深刻。但是,我们每个人只要和现在的聊天机器人或者AI助手互动一下,不出几分钟,就能轻易发现它们身上这样那样的明显缺陷。比如,一道稍微难一点的高中数学题它可能就解不出来,一个很基础的小游戏它可能也玩不明白。想找到这些AI系统中的“短板”和“漏洞”,一点都不难。
而对我来说,一个系统要想真正称得上是AGI,它在各个方面的表现,都必须比今天的AI要稳定得多、可靠得多、达到高度的一致性。要找出这种AGI系统的一个明显漏洞,可能需要一个顶尖的专家团队花上好几个月的时间去研究和测试,而不是像现在这样,普通人几分钟就能发现问题。
AGI的实现路径:一家独大,还是多点开花?
问:Sergey,这个问题特别适合您。您觉得AGI会先被某一家公司搞定,然后这家公司就“通吃”整个领域,游戏结束了?还是说,更可能出现像中国或者Anthropic这样的公司也各自拥有AGI,形成一种“多点开花”的局面?
Sergey Brin: 这是个好问题。我猜,确实可能会有某一家公司、某个国家或者某个组织率先摸到AGI的门槛。不过,AGI本身可能不是一个非黑即白的、能精确定义的“点”,它更像是一个发展的“范围”或者说“谱系”。所以,完全有可能在同一个时期,不止一个机构都达到了差不多的水平,大致进入了这个AGI的范围。
至于那之后会发生什么?老实说,这太难预测了。但你可以想象,肯定会有很多家机构都冒出来。在我们AI这个圈子里,你也知道,通常是我们这边取得一点进步,其他公司很快就能学过去,反过来也一样,他们有了新东西,我们也会快速跟进。这就像大家在玩“跳房子”或者“蛙跳”一样,你追我赶,不断超越。所以我认为,大家会互相启发,这种氛围可能会鼓励越来越多的机构都努力跨过AGI那个门槛。
问:Demis,您怎么看?
Demis Hassabis: 对整个AI领域来说,大家首先得对“到底什么是AGI”能有个统一的认识,这很重要。所以,也许我们应该努力推动大家在这个定义上达成共识。然后,假如AGI真的实现了,肯定会有一些机构跑在前面。
关键在于,这些最先搞出来的AGI系统,必须是稳定可靠而且绝对安全的。如果能做到这一点,那么之后,我们就可以想象,利用这些首批AGI系统作为基础,再去衍生出许许多多架构在它们之下的、各种各样的AI系统。到那时候,可能就会有真正意义上的“个人AGI助手”,以及各种各样的新鲜事物出现。
但是,就像Sergey说的,未来到底会怎么样,真的很难预测。这就像是站在一个“事件视界”(天文学概念,指黑洞的边界,一旦越过就无法返回,也无法观测其内部)的边缘,我们很难看清楚边界另一边的景象,也很难准确预言那会是什么样子。
AGI与情感:AI需要“心”吗?
问:刚才谈到了AGI的定义,很多人认为AGI主要指的是知识层面的智能,也就是“大脑”的智能。那么,“心灵”的智能呢?AI要想被认为是AGI,是不是必须要拥有情感?它能拥有情感吗?
Demis Hassabis: 我认为,AGI首先需要能够“理解”情感是怎么一回事。至于我们是否希望AI去“模仿”人类的情感,甚至“拥有”真正的情感,这在很大程度上其实是一个设计上的选择。从理论上讲,我看不出有什么根本性的理由说,AI绝对不可能拥有情感。
但是,AI的情感可能会和我们人类的情感非常不同,或者说,让AI拥有情感可能根本没有必要,甚至从某些角度看,我们可能并不希望它们产生像我们人类那样复杂的情感反应。所以我认为,这个问题目前还是悬而未决的。
随着我们越来越接近可能实现AGI的时间点(我个人觉得这大概还需要5到10年的时间),我们还有充足的时间去深入研究这些问题。
自我改进系统是否有可能?
问:我在想,有什么因素可能会让AGI到来的时间大大缩短呢?比如说,会不会是因为出现了能够自我改进的AI系统?上星期,我看到一条新闻标题,叫“AlphaEvolve”,说的是一种能帮助设计出更好算法,甚至能改进大型语言模型训练方式的AI,我当时看了差点从椅子上惊掉下来。所以Demis,你是不是在尝试引发一场“智能爆炸”呢?
Demis Hassabis: 哈哈,我们可不是想引发一场不受控制的“智能爆炸”。首先得说,AlphaEvolve确实是一个非常了不起的系统,背后有一个非常优秀的团队在做这项工作。现在一个很有意思的研究方向,就是开始尝试把其他类型的技术——比如AlphaEvolve用到的“进化编程”技术——和我们最新研发的、能力越来越强大的基础AI模型结合起来。我个人非常希望在我们的探索性研究中,看到更多这种不同系统之间强强联合、相互配合的尝试。
你说得对,“自我改进”确实是可能加速AI发展的一个重要因素。如果某个AI系统真的找到了一个有效的“自我改进循环”,那确实有可能让AI的发展速度比现在我们看到的还要快得多。
我们以前在AlphaZero身上就见证过类似的情况:它从完全随机的、什么都不会的状态开始,通过自我对弈和自我改进,在不到24小时的时间里,就学会了国际象棋和围棋,并且达到了超越人类顶尖冠军的水平。所以我们知道,AI的自我改进是完全可能实现的。但是,也得看到,像国际象棋和围棋这样的游戏,规则是非常清晰和有限的。而真实世界要比这些游戏复杂得多,也混乱得多。所以,这种自我改进的方法是否能在更广泛、更复杂的现实场景中同样有效,还有待观察和验证。
Sergey Brin重返谷歌的动力:AI时代的召唤
问:我们又聊到了一些非常强大的AI系统,而且很明显,现在开发这些系统就像一场竞赛。这是您决定重新回到谷歌全身心投入工作的原因吗?
Sergey Brin: 对于一个计算机科学家来说,现在我们正处在一个历史上独一无二的、非常特殊的时刻。老实说,任何一个计算机科学家,现在都不应该想着退休,都应该积极投身到AI的研究和开发中来。
这就是我想说的。历史上从来没有出现过像AI这样既是巨大挑战又是巨大机遇的领域,也从来没有哪项技术像AI这样处于如此激动人心的爆发前夜。
所以我不会说我回来是因为“竞赛”——尽管我们完全明白这场竞赛的存在,而且,让我明确一点,我相信Gemini将会是第一个实现AGI的系统。但是,真正吸引我的是,能够亲身参与到这场令人难以置信的技术革命中来。
这和我们当年经历Web 1.0时代的感觉完全不同,那个时代也很令人兴奋,后来我们又有了移动互联网等等。但我认为,AI在科学层面上要比那些都更加令人激动。而且我坚信,AI最终对整个世界产生的影响,也将比互联网和智能手机加起来还要大得多,AI的变革力量将是空前的。
问:那您现在每天具体都做些什么工作呢?
Sergey Brin: (笑) 我主要是在“折磨”像Demis这样的优秀人才吧。Demis他非常了不起,他能容忍我今天“闯入”这次炉边谈话。
我几乎每天都会去Google办公室,那里有很多人在全力以赴地研发关键的Gemini文本模型,进行模型的预训练、后训练等等。我主要关注的就是这些核心技术,偶尔也会参与一些多模态AI(比如能处理图像、视频的AI)的工作,就像你们都看到的Veo 3视频模型。总的来说,我倾向于深入到非常具体的技术细节中去。
幸运的是,我能有这样的奢侈,把精力完全投入到我感兴趣的技术细节上,因为有像Demis这样的人在负责管理和运营整个团队。我的科学兴趣就在这里,我着迷于深入研究这些算法,以及它们是如何不断进化和变得更强大的。
谷歌的智能体愿景:为何如此关注“视觉”与“物理世界”?
问:Demis,我想问一个关于“智能体”(Agents)的比较宽泛的问题。我注意到,当我看其他科技公司展示他们构建的智能体时,通常我们看到的是那种能理解对话上下文、但没有具体形态的“声音助手”,而且我们主要是在电脑屏幕上和它互动。
但是,当我看DeepMind和谷歌的演示时,智能体往往是通过摄像头来感知世界,非常强调“视觉”的交互。而且今天你们也发布了关于智能眼镜的新消息。我想知道,为什么谷歌对于开发一个能像我们人类一样“看见”世界、理解物理环境的AI助手或AI伴侣,会这么感兴趣呢?
Demis Hassabis: 这背后有好几个原因。就像我们之前聊到的,我们DeepMind一直以来都对“智能体”这个方向非常着迷,这可以说是我们的传统了,我们最早就是从研究基于智能体的系统和开发能玩游戏的AI开始的。我们的长远目标是构建AGI,而一个真正的AGI,显然必须能够理解它所处的物理环境,理解你周围的真实世界。
在我看来,这种能理解物理世界的AI,至少有两个非常巨大的应用前景:
第一个,是打造一个真正有用的、能在你日常生活中随时陪伴你的AI助手。它不应该只是被困在你的电脑或者某一个设备里,我们希望它能融入你生活的方方面面,为你提供帮助。所以,它必须能够“跟着你走”,并且理解你所处的具体物理场景和上下文。
第二个非常重要的事情,是在机器人技术领域。我一直觉得,要想让机器人技术真正取得突破性进展,能为我们做更多有用的事情,你就需要在机器人身上实现类似你们在Project Astra(谷歌的一个AI项目,展示了强大的实时多模态交互能力)演示中看到的那种智能水平。
我一直认为,机器人技术发展的瓶颈,其实并不主要在硬件上——尽管现在有很多公司在研发非常棒的机器人硬件,我们也和他们有合作——真正的瓶颈在于“软件智能”,也就是机器人的“大脑”不够聪明,这才是长期以来阻碍机器人技术发展的关键因素。但是,我们现在正处在一个非常激动人心的时刻。凭借我们最新发布的AI模型,特别是Gemini 2.5,再加上我们将要引入的Veo(视频生成技术)等其他新技术,我相信我们将拥有真正令人兴奋的新算法,能够让机器人技术最终“开窍”,发挥出它那难以估量的巨大潜力。
最终,一个真正的AGI需要能够做到所有这些事情——理解视觉信息、理解物理世界、与真实环境互动等等。我们一直都是朝着这个方向努力的。这就是为什么我们的Gemini模型从一开始设计,甚至在最早的版本,就是为了支持多种信息模式(多模态,比如同时理解文本、图像、声音等)而构建的。
也正因为如此,从一开始就只让它处理文本信息,反而是一件更困难的事情。但最终,我们现在正在收获当初这些艰难但正确决策带来的丰硕成果。我看到Gemini团队的同事们就坐在前排,我们一起做出了这些正确的决策,尽管过程很艰难,但结果证明我们是对的,你们今天看到的很多精彩演示,都是这些决策结出的果实。
Google Glass的经验教训与智能眼镜的未来
问:你们当年从Google Glass项目中学到了哪些经验教训,是谷歌在今天智能眼镜重新成为热点的时候可以借鉴和应用的呢?
Sergey Brin:这确实是个好问题。我从Google Glass中学到的东西太多了。老实说,当年在Google Glass这个项目上,我们犯了不少错误。但我个人始终相信智能眼镜这种设备形态的潜力。所以我很高兴看到,我们现在又重新推出了智能眼镜产品。而且,现在的智能眼镜看起来就像一副普通的眼镜,镜片前没有了当年那个显眼的棱镜显示器。
坦白讲,当年Google Glass面临的一个主要问题是技术还不够成熟,存在“技术代差”。而现在进入了AI时代,AI赋予了这些智能眼镜更强大的能力,它们可以在不持续分散你注意力的情况下,为你提供各种有用的帮助,这种能力比以前强太多了。
此外,还有一个教训是,我当时对消费电子产品的供应链、生产制造这些环节几乎一无所知,完全没意识到要把一款硬件产品做出来,并且以一个合理的价格卖给消费者,还要管理好所有的生产、物流等等,这背后有多么的困难。而这一次,我们有了非常棒的合作伙伴来帮助我们一起打造这些智能眼镜。所以,这又是我们取得的一个进步。
我不得不说,我确实有点怀念当年我们为Google Glass做的那场发布会演示——动用了飞艇和翼装飞行员从天而降。当然,如果今天在Shoreline圆形剧场(Google I/O的举办地)能重现那样的场景,肯定比当年在莫斯科要酷得多。不过,玩笑归玩笑,我们这次应该学乖了:先把产品本身打磨好,确保它足够优秀,然后稳扎稳打地推向市场,让大家都能用上,之后再考虑做不做酷炫的演示。这可能才是更明智的做法。
Demis Hassabis: 我想补充一点。你看,谷歌在硬件设备和智能设备方面有着非常深厚的积累和辉煌的历史,我们可以把所有这些宝贵的经验教训都运用到今天的产品中。
正如大家所见,我们对我们新款的智能眼镜感到非常兴奋。我一直在和我们的团队探讨一个观点(我不知道他们是不是都同意),但我个人感觉,一个真正智能的、无处不在的“通用AI助手”,才是智能眼镜这款产品的“杀手级应用”。我认为,正是这种强大的AI助手能力,将会让智能眼镜真正普及开来,当然,硬件技术本身这些年也取得了巨大的进步和改善。但我坚信,AI助手才是智能眼镜最核心、最自然的“杀手锏”。
AI生成内容与模型训练:“模型坍塌”是杞人忧天吗?
问:能不能简单谈谈AI视频生成技术?我在Google I/O大会的观众席上,看到你们展示的AI视频生成模型,进步水平真的让我相当震惊。你们也请到了一些电影制作人来分享他们的看法。
Demis,关于AI模型质量的问题,如果将来互联网上充斥着大量由AI制作的视频内容,当这些AI生成的内容又被反过来用作训练新AI模型的数据时,会不会导致新模型的质量下降,甚至比那些只用人类原创内容训练出来的模型还要差呢?这种现象有人称之为“模型坍塌”(model collapse)。
Demis Hassabis: 是的,现在确实有很多人担心所谓的“模型坍塌”问题。这不仅仅是视频领域,任何类型的内容,包括文本,都可能面临类似的挑战。关于这一点,我想说几件事:
1、首先,我们对于用来训练AI模型的数据,在质量管理和筛选方面是非常非常严格的。我们有一套严谨的流程来确保数据的质量。
2、其次,至少对于我们自己开发的所有生成式AI模型(比如生成图像、视频、文本的模型),我们都会给它们生成的内容打上一种叫做SynthID的“隐形AI水印”。这种水印技术非常强大,自从我们一年半前发布以来,一直表现稳定可靠。无论是AI生成的图像还是视频,都会嵌入这种肉眼看不见的水印。这样一来,我们就能检测出哪些内容是AI生成的。
而且,我们正在发布相关的工具,让任何人都可以使用这些工具来检测内容中是否包含这种水印,从而清楚地知道某个图像或视频是不是由AI创作的。当然,这对于打击利用AI进行造谣、传播虚假信息(比如深度伪造Deepfake)是非常重要的。同时,有了这种检测能力,如果你在训练新模型时,不希望使用AI生成的内容,你也可以利用它来把这些内容从训练数据中过滤掉。所以,我个人其实并不认为“模型坍塌”会成为一个特别大的问题。
3、最后,我们甚至可能会拥有能力非常非常强大的AI视频生成模型,强大到它们生成的视频质量非常高,以至于你可以放心地把这些高质量的“合成数据”(synthetic data,也就是AI生成的数据)再反过来加入到训练新模型的循环中,作为额外的数据来源。当然,这样做的时候必须非常小心,你需要确保你生成的这些“合成数据”和你希望模型学习的真实数据,它们的基本特征和分布是相似的,不能因为加入了合成数据反而把模型的认知给带偏了,而且合成数据的质量本身也必须足够高才行。
其实,我们在一个完全不同的项目——AlphaFold(我们研发的蛋白质结构预测AI),已经积累了一些这方面的经验。当时,我们没有足够的真实实验数据来从头训练AlphaFold,所以我们就需要先用一部分已有的蛋白质结构数据,结合AI预测并筛选出置信度比较高的预测结果(大概挑选了最好的三四百个),然后把这些AI预测出来的、但质量很高的“合成数据”再加入到训练数据中去。这其实就是一种将真实数据和高质量合成数据混合使用的前沿方法。
所以说,对于那些自动生成的、质量不高的内容,你是可以想办法把它们排除在训练数据之外的。至少在我们的工作中是这样做的,我们也希望其他开发生成式AI技术的公司能够效仿,给他们生成的内容量加上可靠的水印。这对于打击深度伪造等滥用行为显然是非常重要的。
快问快答:Web的未来、AGI的时间表、AI面试与模拟理论
问:10年后的互联网(Web)会是什么样子?
Sergey Brin: 10年后的互联网啊?(Demis Hassabis在一旁小声提醒:“一分钟内回答完哦!”) 天啊,10年!考虑到现在AI发展这么快,变化太大了,这简直超出了所有人的想象。老实说,别说10年后的互联网了,我觉得我们可能都不知道10年后的整个世界会变成什么样。
Demis Hassabis: 我觉得Sergey这个回答很实在。要我说,短期来看,互联网肯定会发生翻天覆地的变化,特别是如果我们考虑到未来可能会出现一种“AI智能体优先”(Agent-first)的互联网。那时候,互联网上的信息可能主要是给AI智能体看的,它们之间直接交互,就不再需要像现在这样,必须把网页渲染成漂漂亮亮的、给我们人类看的样子了。所以,可能过不了几年,情况就会和现在大不一样。
问:下一个问题,AGI会在2030年之前实现,还是之后实现?
Sergey Brin:2030年啊?哎呀,你这时间点可真是卡得够紧的!嗯……我会猜“2030年之前”。
问:Demis呢?
Demis Hassabis: 我猜是“之后”。
问: 有意思,Lex Fridman(另一位知名的AI研究者和播客主持人)也选了“之后”。
Sergey Brin: (对Demis开玩笑说) 别有压力啊,Demis!
Demis Hassabis: (笑着回答) 看来我得回去更卖力地工作了!
Sergey Brin: (继续开玩笑) 我只管提要求,Demis负责实现!
问:下一个问题,如果有人在面试你们公司的时候,承认自己用了AI来帮忙,你们会雇佣他吗?
Demis Hassabis: 哦,在面试的时候用AI啊?这得看他具体是怎么用的。如果他用的是现在这种水平的AI模型来作弊,那可能就不会雇佣了。所以,答案的关键在于“他如何使用AI”。
Sergey Brin: 我自己从来没参加过什么正式面试。(现场又是一阵笑声) 所以我也不知道该怎么说。我觉得,如果我去评判别人在面试时具体怎么做,那也太虚伪了。
Demis Hassabis: 其实,我也没正经参加过面试。
问:Demis,你之前发过一条很有意思的推文,内容大概是,一个AI根据提示词就生成了一个非常逼真的自然场景的图片?那条推文的文字是“从自然到模拟,一键按下”,你还配了几个表情符号。结果,很多人就抓住这条推文大做文章,各种新闻标题都写着“Demis认为我们生活在一个模拟世界中”。所以,我们真的生活在一个模拟程序里吗?
Demis Hassabis: 我不认为我们生活在像Nick Bostrom(一位以“模拟理论”而闻名的哲学家)他们所说的那种模拟世界里,也就是说,我们并非身处某个被设计好的“游戏”之中——尽管我自己也开发过很多游戏。
但从更深的层面来看,我认为宇宙底层的物理规律,其本质可能与信息理论紧密相关。所以,或许可以说我们生活在一个“计算的宇宙”之中,但它并不仅仅是一个简单直接的、像电脑程序一样的模拟。这个问题太复杂了,我没法在一分钟内给你一个完整的答案。
但是,现在这些AI系统,能够如此逼真地模拟出自然界中真实存在的结构和现象,这件事本身就非常有趣,也非常能说明一些问题。我一直在思考我们通过AlphaGo和AlphaFold这类系统所取得的成果,以及它们对我们理解现实世界的意义。我以前也公开谈到过这些想法,也许将来某个时候,我会专门写一篇科学论文,来深入阐述这些AI的进展对于揭示“现实到底是什么”可能意味着什么。
问:Sergey,你想不想也来发表一个“搞个大新闻”的观点?
Sergey Brin:关于“我们是否生活在模拟中”这个问题,我认为这个论点是可以无限套娃的。如果我们真的是生活在一个模拟程序里,那么按照同样的逻辑,那些创造了这个模拟程序的“更高级”的存在,他们自己很可能也因为类似的原因,生活在他们自己的模拟程序里,然后以此类推,一层套一层。
所以我觉得,你要么就得接受我们可能生活在一个无限层叠的“模拟套娃”之中,要么就必须承认,在某个层面,这种“模拟”的链条总得有个尽头,有一个不再是模拟的,而是真实存在的。
问: 那你个人的猜测是什么呢?
Sergey Brin: 我觉得,当我们谈论“模拟”的时候,我们往往不自觉地站在一个非常以人类为中心的视角来看待问题。我们会想象,是不是有某个像我们一样有意识、有思想的“存在”,在运行这个模拟程序,而且这个“存在”也拥有和我们人类相似的形态、欲望和意识。
对我来说,这种以人类为中心的推测,恰恰是这个理论站不住脚的地方。所以我只是觉得,以我们目前的认知水平,我们可能还没有能力去真正理解和推断所谓“更高一个层级”的现实到底是什么样的。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。