
这项由谷歌云AI研究院与新加坡国立大学联合完成的研究,于2026年5月以预印本形式公开发布,论文编号为arXiv:2605.06924v1。有兴趣深入阅读原文的读者可通过该编号在arXiv平台检索到完整论文。
**研究背景:AI拍视频为何总是"记性不好"?**
你有没有看过那种越来越长的AI生成视频,主角的衣服颜色在第三分钟突然换了,背景里的椅子凭空消失,或者人物明明在室内,下一秒却站在街头?这不是你的错觉,这是当前AI视频生成技术面临的一个根本性难题——它太容易"忘事儿"了。
现有的AI视频工具在生成几秒钟的短片段时表现出色,但当任务变成生成一分钟、五分钟乃至十分钟的长视频时,问题就会接踵而至。人物的脸开始变化,场景的布局开始偏移,故事的逻辑开始松散。研究团队将这两种现象分别称为"语义漂移"和"叙事崩溃"——前者好比演员越演越不像自己,后者好比编剧越写越忘了自己在讲什么故事。
正是为了解决这个困扰业界已久的核心问题,谷歌云AI研究院与新加坡国立大学的研究团队提出了一个全新的架构,命名为A?RD,发音类似英文单词"hard"(中文读作"阿方RD")。这个名字是"Agentic AutoRegressive Diffusion"的缩写,直译过来就是"主动式自回归扩散模型"。不过这些专业词汇不重要,重要的是它背后的思路:与其让AI被动地一段接一段生成视频,不如让AI像一个有记忆、有判断力的导演一样,主动地规划、生成、检查、修正每一个镜头。
**一、从"流水线工人"到"电影导演":A?RD的核心理念**
理解A?RD,可以借助一个拍电影的比喻,而且这个比喻会贯穿整篇文章。
传统的AI视频生成方式就像一个没有剧本的流水线工人。他坐在工作台前,只看得到面前的一小截传送带,把当前这个零件装好之后,传送带往前走,他再装下一个。他不知道整条生产线做的是什么,不知道前面发生了什么,也不知道后面还要做什么。结果,一个完整的产品交到最后,往往是拼凑出来的,东拼西凑、前后不一。
A?RD则是把这个流水线工人换成了一位经验丰富的电影导演。这位导演在拍摄每一个场景之前,会先翻阅剧本,回看已经拍好的片段,核对演员的造型档案和场景设计图,然后才喊"开机"。拍完之后,他还会在剪辑室里仔细审看刚拍好的素材,检查是否有穿帮镜头,如果发现问题,立刻重拍。这种"拍摄-检查-修正"的闭环操作,正是A?RD与传统方法最根本的区别。
研究团队将这个导演的工作流程总结为四个步骤:检索(Retrieve)、合成(Synthesize)、精炼(Refine)、更新(Update)。每拍一个片段,导演先去片场档案室(也就是系统的"多模态视频记忆库")调取相关资料,然后根据资料和当前剧情选择最合适的拍摄方式,拍完后交给一套层层把关的审查机制,通过才更新档案库,进入下一场景。
值得一提的是,这套系统完全不需要额外训练。就像一位导演不需要专门去学一门新技术,他只是更聪明地调用和协调现有的摄像师(视频生成模型)、美工(图像生成模型)和剧本顾问(大语言模型)。
**二、导演的档案室:多模态视频记忆库**
一位优秀的导演在拍长片时,必须维护一套详尽的档案系统。记录每个演员在每场戏里的造型,记录每个场景的灯光设置,记录故事发展到了哪一步。A?RD中对应的组件叫做"多模态视频记忆库",简称MVMem,可以把它理解为导演桌上那本厚厚的"拍摄圣经"。
这本拍摄圣经里存放着三类核心内容。第一类是文字状态记录,也就是对视频中每一个实体(人物、物体)和环境的详细文字描述。这不是简单的一句话概括,而是结构化的、精细的状态图谱,包括视觉弧线(人物的外貌特征、衣着变化、动作轨迹)、空间关系(画面里谁站在谁左边、谁在谁前面)以及摄像机运动轨迹。这种记录方式的灵感来自于计算机视觉领域对"场景图"的研究——把一幅图像的内容用结构化的方式表达出来,而不仅仅依靠图像本身传达信息。
第二类是参考帧图像。仅靠文字有时候说不清楚一件衣服的精确颜色或者一个房间的准确布局,这时候图像就发挥了作用。档案库里存放了两种图像:一种是在正式拍摄开始前就预先生成好的"全局参考图",相当于美术部门为每个角色和场景提前画好的定妆照和场景概念图;另一种是每段视频的开头帧和结尾帧,像书签一样标记着每个片段的视觉起点和终点。
第三类是已经生成的视频片段本身。保存视频的目的主要是为了在生成后续片段时,能够核实前一段视频结尾时人物和场景的运动状态,确保动作能够顺滑衔接,就像真正的电影剪辑要保证"接戏"的连贯性一样。
档案库在每次生成新片段之前,会根据当前场景的需要,智能地筛选出最相关的历史记录,而不是把所有历史信息一股脑儿全部塞给AI。这一点非常关键,因为把所有历史信息都给AI看,不仅计算代价高昂,还可能引入干扰信息,导致生成结果适得其反。这种有选择性地检索,就像一个经验丰富的剧组助理,知道什么时候该翻哪一页档案,而不是每次都把整个档案柜翻个底朝天。
在整个拍摄开始之前,系统还会先专门生成一套全局参考图。导演会先把整个剧本通读一遍,找出所有需要保持一致外观的角色和场景,然后依次生成它们的参考图像。这个过程还考虑了依赖关系,比如,一个人物的定妆照应该在他所处的背景场景确定之后再生成,就像拍戏时先搭好景才能给演员试装。系统会建立一个有向无环图来表示这些依赖关系,并按照正确的先后顺序生成所有参考图,最后再并行完成不相互依赖的部分,提高效率。
**三、导演的调度智慧:自适应分段生成策略**
一位经验老到的导演知道,不是所有场景都用同一套拍法。连续的室内戏要保证流畅过渡,而两场戏之间如果发生了时空跳跃,就需要用另一种方式来衔接。A?RD在生成每个视频片段时,也会先判断当前片段属于哪种情况,然后选择最合适的生成模式。
具体来说,系统有两种拍摄模式。第一种叫做"外推模式",就是从当前片段的开头帧出发,让视频自然地向前发展。这种模式适合场景连续、动作连贯的情况,就像摄像机一直跟着演员走,不切换场景。它的优点是视频进展自然,劣势是如果画面中没有出现的细节(比如演员背部的纹身)在后续场景里需要出现,就可能出现前后不一的情况。
第二种叫做"插值模式",就是先分别生成这个片段的开头帧和结尾帧,然后让AI去填充中间的过程,就像给一个翻书动画定好第一页和最后一页,让系统补全中间的过渡。这种模式对一致性的控制更强,但如果开头和结尾两帧本身生成得不够自然合理,中间的过渡就会显得生硬。
A?RD的聪明之处在于,它不强制要求全部用同一种模式,而是逐个片段地做出判断。当当前片段与下一个片段处于同一个连续的时空环境中时,选择外推模式;当片段跨越了不同的场景、或者要跳转到一个已经在前面出现过的特定地点时,选择插值模式。这个判断交给大语言模型来完成,研究团队测试发现,这个判断的准确率超过85%,而且即使偶尔判断失误(把应该用外推模式的场景误判为插值模式),通常也不会导致严重问题,因为图像生成模型有时候能够凭借充分的参考信息自行把一致性做好。
这里有一个特别有意思的细节设计。当系统需要在插值模式下生成结尾帧,而对应的场景是回到之前某个远处片段的某个状态时,怎么办?比如,故事里的赛车在第6幕疾驰过海岸公路,然后去了别的地方,第12幕再度回到这条海岸公路。此时系统需要知道第6幕的赛车最后停在了哪里、是什么朝向,才能顺畅接上第12幕。为了解决这个问题,A?RD会从第6幕已存档的视频中提取出所有的镜头结尾帧,然后让大语言模型挑出最适合作为第12幕开头的那一帧,从而实现跨越较大时间跨度的运动连续性。这种机制是这篇研究中的原创贡献之一,在此之前的工作都没有专门处理过这个问题。
**四、导演的审片间:层级化测试时自我提升机制**
生成一段视频只是工作的一半。在真正的电影制作中,每拍完一个镜头,导演都要在监视器前盯着回放,确认没有问题。如果发现穿帮,立刻叫停重来。A?RD中的对应机制叫做"层级化测试时自我提升",简称HITS,它分为两层审片室:一层专门审查关键帧图像,另一层专门审查生成好的视频片段。
在图像审片室里,系统对每一张关键帧图像进行八个维度的打分,每项满分十分。这八个维度可以归入三组:第一组关注跨片段一致性,检查人物是否与之前的参考图保持一致、环境是否与之前的场景保持一致、叙事是否在合理地向前推进,以及画面中各元素的空间逻辑是否合理;第二组关注当前帧的状态准确性,具体检查人物状态和环境状态是否正确;第三组关注基本画面质量,检查是否按照指令生成以及画面是否符合物理常识。
审完之后,系统会决定是微调这张图还是重新生成。选择微调时,AI会给出一条具体的编辑指令(比如"给人物加上蓝色围巾"),并且每次只修改一个问题,因为同时尝试修复多个问题会让编辑变得混乱。选择重新生成时,系统则会先优化生成这张图时使用的文字描述(也就是"提示词"),再重新生成。最终,在所有迭代版本中,选出综合评分最高的那一张作为正式采用的帧。
视频审片室的逻辑类似,但针对视频的特点做了扩展,覆盖十个维度,分为三组:第一组关注跨片段的动态一致性,包括人物跨场景的外观一致性、环境跨场景的一致性、运动状态的一致性,以及摄像机运动的一致性;第二组关注片段内部的人物和环境一致性;第三组关注基本视频质量,包括是否遵循指令、物理合理性、叙事推进,以及(在插值模式下)视频结尾是否自然衔接到预设的结尾帧。
当处于插值模式时,系统在发现问题后只需要优化提示词,因为开头帧和结尾帧已经固定好了,重新生成视频就能改善质量。当处于外推模式时,优化提示词还不够,因为问题往往出在视频末尾那些没有被开头帧覆盖的细节上。此时系统会先从已经生成的视频中提取出结尾帧,把它经过微调处理后固定下来,然后以这对"开头帧+结尾帧"为锚点重新生成整段视频。这种联合优化的方式,就像先把一场戏的首尾两个关键动作钉死,再补全中间过程,比单纯改台词要有效得多。
**五、导演的经验库:记忆增强提示词优化**
优秀的导演还有一个特质:善于从每一次拍摄经历中积累经验,知道什么样的指令有效、什么样的指令会适得其反。A?RD中有一个专门的组件来模拟这种学习能力,叫做"记忆增强提示词优化",简称MAPO。
MAPO的工作方式是维护一个"经验数据库",里面记录着过去每一次提示词优化的完整记录:原始提示词是什么,优化后的提示词是什么,当时的评分情况如何,以及这次优化最终被标记为成功还是失败。当需要对某个提示词进行新一轮优化时,系统会从数据库中找出最相似的成功案例和失败案例,把它们放在一起对比,从中归纳出规律性的指导原则,比如"把抽象的场景参照换成具体的物理锚点",或者"用排除法明确哪些物体不会出现在画面中"。然后把这些原则应用到当前的提示词上,生成优化版本。这个过程类似于拍片前让助理整理之前类似戏份的拍摄心得,帮助导演避开已知的坑。
论文里给出了一个生动的实际案例。原始提示词描述一位面包师从"既定的四分之三右前方角度"在工作台前操作,背景里提到了储藏架。这个提示词有几个问题:角度描述是抽象的,没有给出物理参照;背景元素缺乏空间顺序描述。MAPO检索到了相关成功案例,提炼出了多条经验,包括"用具体的物理锚点替代抽象的场景参照"、"用排他性语句防止AI产生幻觉"、"按线性顺序描述环境元素"等。优化后的提示词明确指出了工作台从前景斜向延伸到左后方、陶瓷碗放在后左侧、石砌烤炉居中、不锈钢水槽在烤炉左侧等具体的空间关系。优化前这张图的平均评分是6.4分,优化后达到了8.3分,多个维度直接满分。
**六、这套系统的并行版本:效率与质量之间的平衡**
电影制作讲求效率,有时候为了加快拍摄进度,可以让多个摄制组同时开工拍不同的场景。A?RD也设计了一个并行版本,叫做A?RD-Par,用来在硬件允许的情况下大幅提升生成速度。
在A?RD-Par中,所有片段的关键帧仍然按照前后顺序依次生成(这个步骤需要串行,因为下一帧要参考上一帧),但框架确定后,所有视频片段可以并行生成。这意味着在理想硬件条件下,生成速度不会随视频变长而线性增加。代价是,并行版本不进行视频片段级别的自我改进,这对于场景间存在环境变化的情况会带来一定的质量损失,但对于场景相对稳定、人物外观一致性要求高的视频来说,这个代价是可以接受的。
**七、专为挑战长程一致性而生的新评测基准:LVBench-C**
研究团队在做实验时发现,现有的视频生成评测基准普遍存在一个盲区:它们测试的都是"在同一个场景里保持一致",而不是"在角色或场景消失一段时间后重新出现时还能保持一致"。这个区别至关重要,因为真实的故事往往有这样的结构:主角在第一幕出现,然后视角切换到别人,若干场景后主角再次出现,这时候他的衣着造型应该和之前一致,或者根据故事情节有合理的变化。
为了填补这个空白,研究团队构建了一个全新的评测基准,命名为LVBench-C,C代表"挑战"(Challenge)。这个基准包含三种类型的测试场景:角色状态演变场景(人物在消失一段时间后以不同的造型或状态重新出现)、物体状态演变场景(物体在消失后以不同的状态重新出现,比如一个锅从空锅变成装满食物的锅)以及环境状态演变场景(场景在消失后以不同的状态重新出现,比如一个灯塔房间从晴天变成暴风雨后的样子)。
这个基准中有一条硬性规则:主要角色或场景必须消失至少10个场景片段,才能重新出现。这确保了测试的确是对长程记忆的考验,而不是对相邻片段一致性的简单检验。整个基准涵盖3分钟、5分钟和10分钟三种视频时长,共120个完整的场景剧本。
为了保证数据质量,研究团队设计了一套人机协作的数据筛选流程。首先用大语言模型批量生成候选场景剧本,然后去重,接着用定制化的自我改进机制逐一验证剧本是否满足六项质量标准,包括场景足够具体、逻辑自洽、角色行为自然、细节符合现实、内容不重复、前后不矛盾。未通过的剧本进行有限次数的迭代修改,最后还引入了另一家公司的大语言模型进行交叉验证,以避免同一模型自我评估时产生的偏好偏差,并由研究人员人工抽样核查。
**八、实验结果:数字背后的故事**
研究团队在公开基准VBench-Long上测试了大约一分钟长度的单场景视频生成效果,同时在LVBench-C上测试了三分钟和五分钟多场景视频的生成效果,并与六种基准方法进行了对比。这六种方法涵盖了当前主流的长视频生成策略,包括最简单的直接逐段生成、仅靠上一段末帧续接的简单自回归方法、依靠插值框架并行生成的方法,以及三种已有的多智能体长视频生成系统。
在一分钟的单场景测试中,A?RD在叙事连贯性上的得分达到0.90,比最好的基准方法(得分0.75)高出了约20%。在角色跨片段一致性上,A?RD达到0.74,而最好的基准方法只有0.57,提升幅度约为30%。环境跨片段一致性从基准的0.73提升到0.84。最令人惊喜的数字是相邻片段间的运动平滑度,A?RD达到了0.9935,意味着相邻两段视频的衔接几乎与同一次生成的流畅度相当,这在此前的方法中是很难达到的。
在三分钟和五分钟的多场景测试中,所有基准方法的一致性指标相比一分钟测试都出现了明显下滑,这印证了长程一致性确实是一个随时间积累而愈发严峻的问题。在三分钟测试中,A?RD超越最强基准方法的幅度平均达到16%;在五分钟测试中,这一超越幅度约为13%。叙事连贯性方面,A?RD在五分钟测试中的得分高达0.95,比最强基准方法高出约10个百分点。
一个有趣的观察是,与一分钟测试相比,多场景测试中各基准方法的叙事连贯性评分反而普遍偏高。这不是因为这些方法在长视频上表现变好了,而是因为LVBench-C的多场景剧本天然带有清晰的场景切换结构,而这些基准方法恰好都会强制在每个片段边界做场景切换,这与剧本的节奏碰巧对应,看起来叙事逻辑尚可,但一致性依然不佳。
研究团队还做了一个有趣的"公平对比"实验,把基准方法也扩展到与A?RD消耗相同的计算资源(生成同样多的候选视频,然后选最好的)。结果发现,给基准方法更多计算资源确实能提升一致性,但提升有限,而且叙事连贯性并不总是随之改善。A?RD在同样条件下展现出了更强的"以更多计算换来更好质量"的潜力,这得益于其多维度评判机制能够更可靠地从多个候选结果中识别出真正好的那个。
研究团队还专门在A?RD框架下替换了视频生成底座,分别用LTX-Video和Wan 2.2两个开源模型进行测试,结果显示A?RD在这两个模型上同样能够带来显著的叙事连贯性和一致性提升(在LTX-Video上叙事连贯性从0.59提升到0.79,在Wan 2.2上从0.67提升到0.80),验证了这套框架不依赖特定的视频生成模型,具有良好的通用性。
在10分钟的超长视频测试中,研究团队使用了一种专门设计的一致性评估方法,由大语言模型对比相关场景的关键帧来检测明显的不一致性。在LVBench-C的10分钟场景下,A?RD的角色一致性保持率达到90.5%,环境一致性保持率84.0%,物体一致性保持率91.5%。
**九、人类眼睛的评判:用户研究的发现**
数字可以说明很多问题,但最终的检验还是来自真实的人类观看者。研究团队招募了7位经验丰富的评估员,让他们对40个由不同方法生成的一分钟视频进行盲测评分(评估员不知道哪个视频是哪种方法生成的),从1到5分评价六个维度:角色一致性、物体一致性、环境一致性、场景切换流畅性、叙事连贯性,以及参考图像一致性(测试时提供了参考图像的情况下)。
A?RD的平均综合得分为4.68分,最强基准方法VideoMemory的综合得分为3.93分。在角色一致性上,A?RD拿到了4.89分,接近满分,表明人类评估员认为角色外观保持得非常好。叙事连贯性4.75分,参考图像一致性4.91分,说明当用户提供了参考图像时,生成的视频能够高度忠实地呈现参考图中的视觉细节。
场景切换流畅性方面,A?RD的得分为4.34,远高于最强基准方法的3.34,验证了自动指标中运动平滑度的改善在人眼看来同样明显。研究团队特别指出,场景切换流畅性和物理环境一致性是所有基于分段生成方法中最难解决的维度,这也是研究团队认为最值得未来继续攻关的方向。
并行版本A?RD-Par在角色一致性上保持了不错的表现,但在环境一致性和场景切换流畅性上明显下滑,这与自动指标的结论一致,说明自回归顺序生成对于视觉和时序连贯性而言是有实质意义的,而不仅仅是计算方式的不同选择。
**十、消融实验:拆解导演的每一件工具**
为了搞清楚A?RD的各个组件各自贡献了多少,研究团队做了一系列"拆零件"实验,逐一去掉某个组件,看看整体表现会下降多少。
去掉整个多模态视频记忆库之后,系统的表现急剧下滑,接近最简单的基准方法,说明这个记忆库是整个系统的骨干,失去它就失去了长程依赖追踪、一致性验证和自我提升的基础。分别去掉记忆库中的文字状态记录和视频存档,可以看到文字状态对叙事连贯性和跨片段一致性的贡献更大,视频存档主要影响运动连续性,相对没那么关键。
去掉HITS自我提升机制之后,叙事连贯性从0.90跌到0.74,角色一致性从0.74跌到0.68,说明即使有了好的记忆库,不经过审片和重拍,质量依然会打折扣。去掉MAPO记忆增强提示词优化之后,提示词的改进效果变弱,整体指标也有所下滑。去掉全局参考图之后,叙事连贯性和角色一致性变化不大,但环境一致性从0.84跌到0.79,说明环境更难维持一致,对参考图的依赖更强。
对生成模式的消融最有意思。强制始终使用外推模式时,叙事连贯性尚可(0.83),但一致性下降;强制始终使用插值模式时,一致性更高,但叙事连贯性下降到0.71。这两个极端的结果恰好说明了自适应策略的必要性:一致性和叙事性并非可以同时无代价地极大化,需要根据具体场景做出取舍和平衡,而自适应模式正是这种平衡的实现方式。
**研究的局限与诚实的自白**
研究团队在论文中坦率地承认了这套系统的几个局限。首先是计算开销:每个片段最多可能需要生成6段视频和6张图像,加上大量的模型调用,这比简单的基准方法消耗更多资源。研究团队估算,在现有配置下(使用Gemini 3 Flash作为推理模型),每个片段的额外推理开销不超过0.5美元,但额外生成的视频和图像的计算成本就取决于具体使用的视频生成服务了。
其次,这套系统对底层组件的能力要求较高,需要一个足够强大的多模态语言模型和图像生成模型作为支撑。如果底层组件能力有限,自我提升的效果也会打折扣。另外,评判标准中的各项指标反映的是研究团队对"好视频"的理解,这种理解可能不适用于所有文化背景、创作风格或专业领域。
人类评估实验中,部分视频只有两个人评分,研究团队坦承这导致评分者一致性数据不够有意义,所以没有报告这个指标。人工评估本身也具有主观性,尤其是场景切换流畅性和叙事连贯性这类维度,不同评估员的感受可能存在差异。
归根结底,这项来自谷歌云AI研究院和新加坡国立大学的研究,给出了一个令人信服的答案:解决AI视频生成中的"记性差"问题,关键不是造一个更大的模型,而是给现有的模型配上一套像导演一样工作的智慧调度系统。通过多模态记忆、自适应生成策略、层级化自我审查和经验积累式提示优化的组合,一段十分钟的、包含复杂角色和场景变化的视频,其角色一致性依然能维持在九成以上。
这对于普通人意味着什么?未来,你或许能用自然语言描述一个故事,然后由AI生成一部几分钟甚至十几分钟的高质量短片,其中的人物从头到尾保持着一致的面孔和服装,场景的布局始终合理,故事的因果逻辑一以贯之——而这一切,都不需要你懂视频制作,也不需要专业级的设备和团队。
---
Q&A
Q1:A?RD和普通的AI视频生成工具有什么本质区别?
A:普通AI视频工具通常是逐段生成、一旦生成就固定,后续不再回头检查前面的内容,也没有跨片段的记忆机制,所以容易出现人物造型变化、场景穿帮等问题。A?RD的本质区别在于引入了"主动的闭环机制":每个片段生成后都会经过多维度自动审查,不通过就修改或重新生成,同时维护一个多模态记忆库持续追踪人物、物体和场景的状态,实现了从"被动输出"到"主动把关"的转变。
Q2:LVBench-C评测基准和已有的视频评测基准有什么不同?
A:现有的大多数评测基准只测试视频在连续播放过程中是否保持一致,而LVBench-C专门设计了"角色或场景消失至少10个片段后重新出现"的测试场景,模拟真实叙事中常见的时空跳转。它涵盖角色状态演变、物体状态演变和环境状态演变三种类型,支持3分钟、5分钟和10分钟三种时长,是目前针对长程循环一致性最具挑战性的评测基准之一。
Q3:A?RD框架能用在其他视频生成模型上吗?
A:可以。研究团队专门在LTX-Video和Wan 2.2两个开源视频生成模型上进行了测试,结果显示A?RD在这两个模型上同样能带来显著的叙事连贯性和一致性提升。这表明A?RD是一个与具体视频生成底座解耦的通用框架,不需要重新训练模型,只需要将其对接到支持文本加图像输入的视频生成模型上就可以使用。
好文章,需要你的鼓励
这项由IIT马德拉斯与BITS Pilani联合发布的研究(arXiv:2604.21523,2026年4月)构建了FOCUS元评估基准,系统检验了评审型视觉语言大模型的可靠性。通过向超过4000个图文和图像样本中注入40种受控错误,研究发现顶尖评审AI的检测失败率在某些条件下超过50%,物理合理性和视觉细节类错误尤为难以被发现,两两比较是最可靠的评审范式。
这篇由Sylph.AI发布的技术报告提出了一套两层自动化框架,核心思想是让AI自动优化自身的运行脚手架,再进一步让AI学会如何更高效地做这种优化。内层的脚手架进化循环通过工人代理、评估代理和进化代理的协作,自动迭代改进单个任务的运行配置;外层的元进化循环则在多个任务上训练,学习一套能快速适应任何新场景的通用进化蓝图,从而彻底消除人工脚手架工程的需求。
这篇由英伟达等顶尖机构联合发表的论文提出了一种名为Voyager的新型智能体。研究团队以《我的世界》为实验平台,通过引入自动课程规划、技能库存储以及迭代反馈机制,成功让大语言模型主导的AI在完全无人类干预的情况下,实现了在复杂开放世界中的自主探索与终身学习。实验数据表明,Voyager在物品收集、探索范围及技能解锁速度上均呈现出远超传统方法的压倒性优势,为未来开发能够自主解决真实物理世界复杂任务的通用人工智能奠定了关键的理论与实践基础。
这项由伊利诺伊大学、斯坦福大学、英伟达和麻省理工学院联合发布的研究(arXiv:2604.25917,2026年4月)提出了RecursiveMAS框架,让多个异构AI模型通过轻量级模块RecursiveLink在内部信号层面直接传递"潜在思想",形成循环协作,彻底绕开了传统多AI系统依靠文字传话的低效方式。配合两阶段内外循环训练策略,整个系统只需优化极少量参数,就能在数学、科学、代码生成和搜索问答等9个基准测试上取得平均8.3%的精度提升,同时实现最高2.4倍推理加速和75.6%的token用量削减。