
这项由哈佛大学肯普纳自然与人工智能研究所的Colton Casto、佐治亚理工学院心理学院的Anna Ivanova,以及麻省理工学院脑与认知科学系的Evelina Fedorenko和Nancy Kanwisher共同完成的开创性研究,发表于2025年11月的arXiv预印本平台(编号:2511.19757v1)。有兴趣深入了解的读者可以通过该编号查询完整论文。
当你阅读"杀人鲸用自制磨砂膏互相去角质"这句话时,你的大脑中发生了什么?你是否在脑海中想象出了那些巨大的海洋生物正在互相"美容"的画面?当读到"面临威权威胁的民主国家通过大规模示威进行反击"时,你是否联想到了某个具体的国家和事件?
这些看似简单的阅读体验,实际上揭示了人类语言理解的一个重大秘密:我们的大脑并不只是简单地识别字词和语法,而是在进行一种复杂的"信息出口"过程——将语言信息从大脑的核心语言区域传递给其他专门的脑区进行深度处理。
这项研究提出了一个颠覆性观点:真正深度的语言理解需要大脑将信息从核心语言系统"出口"到其他能够构建心理模型、存储世界知识和自传记忆的脑区。这就像是一个高效的工厂流水线,语言系统负责初步加工,然后将半成品传递给各个专业车间进行精细处理。
研究团队通过功能性磁共振成像技术,发现大脑中存在着一个精密的"语言理解网络"。当我们接触语言信息时,核心语言系统会进行"浅层理解"——识别单词、分析语法结构,就像一个熟练的翻译员能够准确地将外语转换成母语。然而,要真正理解语言所描述的内容,还需要将这些信息传递给大脑中的其他专业区域。
一、大脑语言系统的"浅层理解"机制
要理解这个发现的重要性,我们先来看看大脑的核心语言系统是如何工作的。这个系统主要位于大脑左半球的颞叶和额叶区域,就像一个高度专业化的语言处理中心。当你听到或看到语言时,这个中心会立即启动,进行一系列复杂的操作。
核心语言系统的工作可以比作一个经验丰富的图书管理员。当有人向管理员询问某本书的信息时,管理员能够快速识别关键词,理解问题的语法结构,并从记忆中提取相关的语言模式。这个过程非常高效,但相对来说是"浅层"的——管理员知道如何处理语言形式,但不一定真正理解书籍内容的深层含义。
研究发现,核心语言系统在处理语言时有一个显著特点:它对语言形式的合理性非常敏感,但对内容的现实可能性却不太在意。例如,当人们听到"无色的绿色观念愤怒地睡着"这样语法正确但毫无意义的句子时,语言系统的反应几乎和处理正常句子一样强烈。这就像那个图书管理员能够识别出这是一个完整的查询请求,即使请求的内容在现实中根本不存在。
更有趣的是,核心语言系统构建的表征具有高度的抽象性。不管你是用英语、中文还是手语表达同一个意思,或者是用不同的句式来表达相同的概念,语言系统都能构建出相似的内部表征。这就像管理员能够认出同一个请求的不同表达方式,无论是"我想找关于猫的书"还是"有没有介绍猫咪的书籍"。
然而,这种"浅层理解"虽然功能强大,但也有明显的局限性。研究团队发现,即使大脑语言区域严重受损的患者,他们的概念理解能力往往仍然保持相对完好。这表明语言系统虽然能够熟练地处理语言形式,但并不是真正理解语言内容的关键所在。
语言系统的这种特性实际上是"按设计"存在的。语言的一个重要功能就是让我们能够谈论任何事情,包括虚假的、荒谬的或者我们从未经历过的事情。如果语言系统过于依赖现实世界的知识,我们就无法通过语言学习新知识,也无法进行创造性的表达。
这种浅层理解就像是一个精密的语言解码器,它能够将语言符号转换成抽象的意义表征,但这些表征仍然局限在语言统计规律的范围内。虽然语言统计能够捕捉到世界结构的许多方面,但要真正理解语言所描述的丰富内容,我们的大脑还需要做更多的工作。
二、"信息出口"假说:深度理解的关键机制
研究团队提出的"信息出口"假说为我们揭示了语言深度理解的真正秘密。这个假说认为,当我们真正理解语言时,大脑会将语言系统构建的抽象表征"出口"到其他专门的脑区进行进一步处理,就像一个中央调度中心将任务分配给各个专业部门。
这个过程可以用一个现代化餐厅的运作来类比。当顾客点餐时,服务员(语言系统)首先理解顾客的需求,将订单转换成标准化的格式。但是,要真正满足顾客的需求,还需要将订单信息传递给不同的专业团队:厨师需要了解具体的烹饪要求,调酒师需要知道饮品的配制方法,甜品师需要准备相应的甜点。每个专业团队都会根据自己的专业知识对订单进行深度解读和处理。
在大脑中,这些"专业团队"就是各种功能特异性的脑区。当我们阅读描述他人心理状态的文本时,语言信息会被出口到"心理理论"脑区,这个区域专门负责理解和推测他人的想法、信念和意图。当文本涉及物理现象时,信息会被传递到"直觉物理"脑区,这里专门处理对物体运动、力学关系等物理规律的理解。
研究发现了多个这样的"出口目的地"。负责空间导航和场景理解的脑区会在我们阅读关于地点和移动的描述时被激活。处理面孔、身体和场景的视觉脑区在我们阅读相关的生动描述时也会参与进来。甚至连负责情感处理的脑区也会在我们阅读情感色彩强烈的文本时被激活。
最引人注目的是,这种信息出口不仅仅发生在我们被明确要求进行某种心理活动时,而是在日常的被动阅读过程中自然发生的。当你读到一段关于某人内心想法的描述时,你的心理理论脑区会自动激活,即使没有人要求你去分析那个人的心理状态。
这种自动化的信息出口过程解释了为什么阅读能够如此深刻地影响我们的情感和认知体验。当我们读小说时,我们不只是在处理文字,而是在构建丰富的心理模型,激活与现实体验相关的大脑网络。这就是为什么一个精彩的故事能够让我们感到身临其境,为什么我们会为虚构角色的命运而担忧。
研究团队特别强调,这些接收出口信息的脑区并不是语言系统的一部分,因为它们同样能够被非语言的输入激活。例如,视觉场景脑区既能被关于地点的文字描述激活,也能被真实的场景图像激活。这些脑区就像是多模态的专业处理器,能够整合来自不同感觉通道的信息。
信息出口过程的存在也解释了为什么不同的人在阅读同一段文字时可能会有截然不同的理解深度。一个对某个话题有丰富经验的人能够激活更多相关的专业脑区,构建更丰富、更准确的心理模型。而缺乏相关背景知识的人可能主要依赖语言系统的浅层处理,理解程度相对有限。
三、心理理论:解读他人内心的神经机制
在所有的信息出口目的地中,心理理论网络的研究最为深入,也为整个"出口假说"提供了最强有力的证据。心理理论是我们理解他人心理状态的能力,包括他人的信念、愿望、意图和情感。在大脑中,这个能力主要依赖于右侧颞顶交界区及其相关的网络。
当我们在日常对话中听到"她以为他爱她"这样的句子时,我们的大脑需要做的远不止识别词汇和语法。我们需要构建一个复杂的心理模型:理解"她"有一个特定的信念,这个信念可能与现实不符,而且涉及另一个人"他"的情感状态。这种层层嵌套的心理状态理解需要专门的神经机制。
研究发现,当人们阅读涉及心理状态的故事时,右侧颞顶交界区会显著激活,即使没有人明确要求他们去分析角色的心理状态。更重要的是,这个脑区对心理内容的反应与语言系统对相同文本的反应是相对独立的。语言系统主要关注句子的语言形式是否合理,而心理理论网络则专门处理心理内容的复杂性。
这种专业化分工在处理不同类型推理任务时表现得特别明显。研究人员发现,当文本要求读者推断角色的心理状态时,心理理论网络会强烈激活,而当同样复杂的文本要求读者进行物理推理时,激活的则是完全不同的脑区。这就像不同的专家团队各司其职,心理学专家负责分析人物动机,物理学专家负责分析物理现象。
特别有趣的是,心理理论网络不仅能够被语言激活,还能够被无声的视频激活,特别是那些需要观众推测角色意图的视频。这表明这个网络是真正的多模态处理器,它的功能是理解心理状态本身,而不是处理特定类型的输入。
在自然语言理解过程中,语言系统和心理理论网络之间存在着动态的信息交换。功能连接分析显示,当人们阅读复杂的故事时,这两个网络之间的同步性会增强,暗示着它们之间存在着持续的信息传递。这种同步就像两个专业团队之间的密切合作,语言团队负责解析文本,心理理论团队负责构建角色的心理模型。
这种专业化处理的重要性在语言障碍患者身上表现得格外明显。一些患有失语症的患者虽然在语言形式处理方面存在困难,但他们的心理理论能力可能保持相对完好,仍然能够通过非语言线索理解他人的意图和情感。相反,一些自闭症患者可能在语言形式处理方面表现正常,但在理解复杂的心理状态方面存在困难。
四、物理推理与空间导航的大脑机制
除了心理理论,大脑中还有专门负责理解物理世界的网络。当我们阅读"弹性球从桌子上滚落"这样的描述时,我们的大脑会自动激活处理物理推理的相关区域,主要位于顶叶和额叶皮层。这些区域就像是大脑中的"物理引擎",专门负责预测物体的运动轨迹、分析力的作用关系。
这个物理推理网络的发现相对较新,但已经显示出明确的功能特异性。当研究参与者观看涉及物理现象的视频或阅读描述物理事件的文本时,这些脑区会显著激活。更重要的是,它们对物理内容的反应模式与对社会互动内容的反应截然不同,展现出清晰的功能边界。
空间导航是另一个拥有专门神经机制的认知领域。当我们阅读"从地铁站出来后,她重新确定了自己的方位"这样的句子时,大脑中专门负责空间处理的区域会被激活,包括海马旁回的场所区、枕叶场所区和后脾皮层。这些区域就像是大脑中的GPS系统,专门处理空间信息和导航任务。
场所区的功能特别引人注目。这个区域对场景和地点的视觉输入有强烈的选择性反应,但研究发现它同样会对描述地点和空间移动的语言内容产生反应。当你读到对房间形状的生动描述时,场所区会激活;当你读到某人在地铁中寻找出口的经历时,负责空间导航的后脾皮层也会参与进来。
这种跨模态的激活模式为信息出口假说提供了强有力的支持。它表明这些脑区的功能是处理特定类型的内容(空间信息),而不是特定类型的输入(视觉或语言)。语言只是激活这些专业处理器的途径之一。
研究还发现,这些专业脑区的激活程度与文本内容的具体性和生动性密切相关。简单提及"一个房间"可能只会引起微弱的激活,而详细描述房间的布局、装饰和氛围则会引起更强烈的反应。这表明信息出口的程度是可以调节的,取决于语言输入的丰富程度和读者的参与程度。
更有趣的是,个体之间在这些专业脑区的激活模式上存在显著差异。有丰富空间导航经验的人在阅读空间描述时会表现出更强的相关脑区激活,而在空间任务上表现较差的人则可能主要依赖语言系统的浅层处理。这种个体差异解释了为什么同样的文本描述对不同读者的影响程度不同。
五、知觉与运动表征的语言激活
大脑中负责知觉和运动的区域也是语言信息出口的重要目的地。当我们阅读生动的感官描述时,相应的感觉皮层会被激活,就像我们真的在体验那些感觉一样。这种现象为"具身认知"理论提供了神经科学证据,表明我们的语言理解深深植根于感觉运动体验。
视觉皮层的激活是最容易观察到的例子。当人们阅读详细的视觉描述时,负责处理面孔、身体、场景等不同视觉类别的专门脑区会选择性地激活。如果你正在阅读斯坦贝克《愤怒的葡萄》中对人物面容的细致描述:"他不超过三十岁。他的眼睛是深褐色的,眼球里带着褐色的色素。他的颧骨高而宽阔,深深的线条沿着他的面颊弯曲地切下去...",你的面孔识别区域很可能会被激活,就像你真的在看着这个人一样。
运动皮层的激活模式同样引人注目。早期研究发现,当人们阅读描述不同身体部位动作的词汇时,相应的运动皮层区域会被激活。"踢"字会激活腿部运动区域,"抓"字会激活手部运动区域,"舔"字会激活面部运动区域。更精细的研究甚至发现,这种激活具有躯体感觉的精确定位,就像真正执行这些动作时的模式。
然而,运动表征的激活并不限于动作词汇。当阅读涉及工具使用、物体操作或身体移动的复杂描述时,相关的运动和感觉区域都可能被招募。这表明语言理解过程中的具身激活是一个动态的、内容依赖的过程。
情感处理也是一个重要的出口目的地。阅读情感色彩强烈的文本会激活与情感处理相关的脑区,包括杏仁核、前扣带皮层等区域。这种激活可以解释为什么阅读能够如此深刻地影响我们的情感状态,为什么一本好书能让我们哭泣或欢笑。
需要注意的是,这些知觉和运动区域的激活程度存在显著的个体差异。一些人在阅读时会产生非常生动的心理意象,相应的感觉皮层激活也更强烈;而另一些人可能主要依赖抽象的概念表征,感觉皮层的激活相对较弱。这种差异与个体的想象能力、阅读习惯和认知风格密切相关。
六、记忆系统与语义知识的整合
语言理解的深度很大程度上依赖于我们能否将新的语言信息与已有的记忆和知识进行有效整合。大脑中的记忆系统,特别是情节记忆和语义记忆网络,是信息出口的重要目的地。这些系统就像是巨大的图书馆,存储着我们的个人经历和世界知识。
情节记忆网络主要包括海马、前额叶和顶叶的多个区域,通常被称为"默认网络A"。当我们阅读描述个人经历的文本,或者当故事内容唤起我们自己的回忆时,这个网络会被激活。例如,当朋友向你描述一次共同的旅行经历时,你的情节记忆网络会被激活,帮助你回忆起那次旅行的细节,将朋友的描述与你自己的记忆进行对照和整合。
语义记忆系统处理的是我们对世界的一般性知识,不与特定的时间和地点相关联。虽然语义知识在大脑中的确切表征方式仍有争议,但研究表明,日常语言理解经常需要访问这些知识储备。当我们读到"猫是常见的家庭宠物"时,我们不仅理解了句子的字面意思,还会激活与猫相关的大量背景知识——它们的习性、外观、与人类的关系等等。
记忆系统与语言系统之间的互动是双向的。在理解过程中,语言信息会触发相关记忆的提取;同时,提取到的记忆又会影响我们对后续语言信息的理解。这种动态互动使得阅读成为一个积极的构建过程,而不仅仅是被动的信息接收。
海马在语言理解中的作用特别值得关注。虽然传统上认为海马主要负责记忆形成,但越来越多的证据表明它在语言理解中也发挥重要作用,特别是在需要整合时间跨度较长的语言信息时。当我们阅读复杂的故事,需要记住之前提到的角色和情节线索时,海马的参与就显得至关重要。
最新的研究甚至发现,海马中的单个神经元可能参与语言理解过程。研究人员在癫痫患者的脑部记录到,当患者听到代词(如"他"、"她")时,海马中的某些神经元会重新激活,仿佛在重新激活代词所指代的概念。这为理解大脑如何在语言理解过程中维持和更新信息提供了细胞水平的证据。
七、情境模型的构建与整合机制
所有这些专业脑区接收到语言出口信息后,还需要将它们整合成一个连贯的整体理解,这就是"情境模型"的构建过程。情境模型是我们对语言所描述情境的整体心理表征,包括其中的人物、物体、地点、时间关系和因果关系等各个方面。
这个整合过程可能发生在大脑的多个层面。一些研究者认为,传统上被称为"默认网络"的脑区可能在情境模型构建中发挥重要作用。这个网络具有整合长时间跨度信息的能力,能够处理复杂的叙事结构。然而,最新的研究发现,所谓的默认网络实际上包含了多个功能相对独立的子网络,包括心理理论网络和情节记忆网络等。
这一发现表明,情境模型的构建可能不是由单一脑区负责的,而是通过多个专业系统之间的动态协调实现的。就像一个复杂的交响乐团,虽然没有单一的"指挥家"脑区,但各个声部(专业脑区)通过精密的协调产生和谐的整体效果。
海马在这个整合过程中可能发挥特殊作用。作为大脑中重要的信息整合中心,海马能够快速绑定来自不同脑区的信息,形成连贯的表征。在语言理解过程中,海马可能负责将语言系统、记忆系统和各种专业认知系统的输出整合成统一的情境模型。
情境模型的构建是一个动态的过程。随着阅读的进行,新的信息不断被整合进来,已有的模型也在不断更新。这个过程需要大脑在保持模型连贯性的同时,灵活地适应新信息。这种平衡是人类语言理解能力的重要体现。
八、影响信息出口的关键因素
并不是所有的语言理解都会触发信息出口。研究发现,多种因素会影响信息从语言系统出口到其他专业脑区的可能性和程度。理解这些因素对于揭示语言理解的完整机制至关重要。
首先是语言系统自身的处理限制。由于语言系统只能处理相对较短的语言片段,当遇到超过句子长度的复杂文本时,必须将信息传递给其他具有更强时间整合能力的系统。这就像一个接力赛,语言系统跑完自己的一段后,必须将接力棒传递给下一个选手。
理解者的个人特征也是重要因素。拥有相关领域丰富知识的人更容易激活对应的专业脑区。一个对足球非常了解的人在阅读足球比赛描述时,会激活更多与空间推理、运动表征相关的脑区,形成更丰富的理解。相反,对足球一无所知的人可能主要依赖语言系统的浅层处理。
注意力状态和阅读目标同样影响信息出口。当我们全神贯注地阅读时,更容易触发深层的信息出口;而心不在焉地浏览时,可能主要停留在浅层理解水平。阅读目标也很重要——为了娱乐而读小说和为了准备考试而读教科书,会激活不同的认知策略和脑区。
个体的想象能力差异也会影响信息出口的程度。一些人具有非常生动的心理意象能力,在阅读时容易激活感觉和运动皮层;而另一些人可能更依赖抽象的概念处理,较少激活感觉运动区域。最极端的例子是"心盲症"患者,他们几乎无法产生视觉心理意象,在阅读视觉描述时的脑激活模式也与常人不同。
语言输入的特性也是关键因素。生动具体的描述比抽象概括更容易触发信息出口。"他愤怒地握紧拳头,青筋暴起"比"他很生气"更容易激活运动和情感相关的脑区。语言的新颖性和复杂性也会影响信息出口——熟悉的内容可能主要依赖自动化的语言处理,而新颖复杂的内容则更需要深层的认知参与。
九、信息出口的实现机制
信息如何从语言系统传递到其他专业脑区仍然是一个活跃的研究领域。目前有两种主要的假设机制:"路由"和"广播"。
路由机制假设大脑能够选择性地将语言信息传递给最合适的目标系统。就像一个智能的邮件分拣系统,根据信件的内容和地址将其准确投递到正确的部门。在这种机制下,描述心理状态的语言信息会被定向传递给心理理论网络,描述物理现象的信息会被送往物理推理网络。
广播机制则认为语言系统会将信息同时发送给所有可能的接收系统,然后由各个系统自主决定是否处理这些信息。这就像一个电台广播,所有收音机都能接收到信号,但只有调对频道的收音机才会播放内容。在这种机制下,所有专业脑区都会接收到语言信息,但只有与内容相关的系统才会产生强烈反应。
目前的证据表明,实际情况可能介于这两种机制之间,或者在不同情况下使用不同的机制。功能连接研究显示,语言系统确实与多个专业脑区存在动态连接,这些连接的强度会根据语言内容的不同而变化,支持某种程度的选择性路由。但同时,很多专业脑区在处理相关语言内容时也会表现出自发的激活,暗示广播机制的存在。
需要强调的是,信息传递很可能是双向的。在语言产生过程中,其他脑区的信息必须传递给语言系统才能转换成语言输出。即使在理解过程中,来自其他认知系统的信息也会影响语言处理。例如,视觉环境中的信息会影响我们对语言的理解,非言语手势会影响语音理解,先前的语言上下文和对话伙伴的认知状态也会影响当前的语言理解。
这种双向信息流使得语言理解成为一个高度交互的过程,而不是单纯的单向信息传递。各个认知系统之间的协调和整合是实现深度语言理解的关键。
十、对人工智能的启示
这项关于人类语言理解的研究对人工智能的发展具有重要启示。当前的大型语言模型主要基于语言统计学习,在很多方面类似于人脑的核心语言系统,能够进行相当水平的"浅层理解"。但要实现真正的深度理解,人工智能系统可能也需要类似的"信息出口"机制。
早期的语言模型如GPT-2主要展现出浅层理解的特征,功能相对有限,就像只有语言系统在工作的大脑。随着模型能力的提升,更新的模型在各种功能性任务上表现越来越好,同时它们预测整个大脑对语言刺激反应的能力也在增强。
有趣的是,这些模型预测核心语言系统反应的能力在达到一定水平后就趋于饱和,这与研究团队关于语言网络主要进行浅层处理的观点一致。相对较小的语言模型就能捕捉到语言系统的大部分反应变异,暗示核心语言处理的复杂程度是有限的。
一些研究团队已经开始尝试构建具有类似"出口"机制的人工智能系统。这些系统将大型语言模型与各种专门的模块结合,包括视觉模型、物理引擎、逻辑推理器、心理理论引擎和记忆增强模块等。这种模块化的设计理念与人脑的专业化分工高度吻合。
还有一些研究探索了能够在训练过程中自发产生功能专门化的架构,而不需要预先定义专门模块。这些努力试图模拟大脑在发育过程中形成功能专门化的过程。
甚至有证据表明,标准的大型语言模型内部的某些单元可能已经具备了功能专门化特性,尽管这种专门化的因果重要性仍然存在争议。这提出了一个有趣的问题:是否经典的语言模型已经在某种程度上发展出了类似大脑的信息出口机制。
无论采用何种具体实现方式,人脑研究为人工智能发展指出了一个重要方向:真正的语言理解可能需要多个专门系统的协作,而不是单一系统的优化。这种模块化、专门化的设计理念可能是实现人工智能深度语言理解的关键。
当我们理解语言时,大脑正在进行一场精密的协调表演。核心语言系统负责解析语言形式,各个专业脑区负责构建丰富的心理模型,记忆系统提供背景知识,整合机制确保所有信息形成连贯的理解。这个过程的复杂程度远远超出了我们的日常体验,但正是这种复杂性让我们能够通过语言体验如此丰富多彩的认知世界。
说到底,这项研究告诉我们的是:语言理解不仅仅是解码文字符号,而是一个涉及我们整个认知系统的复杂过程。当你沉浸在一本好书中时,你的大脑正在动员几乎所有的认知资源来构建一个完整的虚拟世界。每当我们说"我理解了",背后都有一个庞大的神经网络在悄然协作。
这个发现不仅让我们更好地理解了人类认知的奥秘,也为开发更智能的人工系统提供了新的思路。归根结底,真正的智能可能不在于单一系统的强大,而在于多个专业系统的精妙配合。这或许就是大自然在漫长进化过程中为我们设计的最佳方案——一个既高效又灵活的分布式认知架构。
未来的研究将继续深入探索这些机制的细节,包括信息传递的具体路径、不同个体间的差异模式,以及这些发现对教育、临床治疗和人工智能发展的实际应用价值。每一步深入都可能为我们打开理解人类智能的新窗口。
Q&A
Q1:大脑的"信息出口"机制是什么?
A:信息出口是指大脑将语言信息从核心语言系统传递到其他专业脑区进行深度处理的过程。就像工厂流水线一样,语言系统负责初步解析文字,然后将信息传递给负责心理理论、物理推理、空间导航等功能的专业脑区,从而实现真正的深度理解。
Q2:浅层理解和深层理解有什么区别?
A:浅层理解主要由语言系统完成,只能识别词汇、分析语法,构建基于语言统计的抽象表征,就像一个只懂语言规则的翻译员。深层理解则需要激活多个专业脑区,构建丰富的心理模型,连接现实世界知识和个人经验,就像真正理解故事情节和人物内心。
Q3:这个发现对人工智能发展有什么启示?
A:研究表明单纯的语言模型只能实现浅层理解,要达到人类水平的深度理解,人工智能系统需要模拟大脑的模块化架构,将语言模型与视觉处理、物理推理、心理理论等专门模块相结合,通过多系统协作而不是单一系统优化来实现真正的智能。
好文章,需要你的鼓励
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。
英国国王学院研究团队开发了潜在精炼解码(LRD)技术,解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程:先让AI在连续空间中"深思熟虑",保持多种可能性的混合状态,然后"果断行动",逐步确定答案。实验显示,LRD在编程和数学推理任务中准确性提升最高6.3个百分点,生成速度提升最高10.6倍,为AI并行文本生成开辟了新路径。
清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法,巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中,让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法,特别是在处理模型知识盲区时表现突出,同时有效避免了灾难性遗忘问题,为AI训练提供了更高效稳定的新范式。