这项由北京大学李穆遥、王子浩、何凯晨团队以及清华大学马晓健研究员共同完成的突破性研究发表于2025年3月,论文题目为《JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse》。感兴趣的读者可以通过arXiv:2503.16365v1访问完整论文,项目页面为https://craftjarvis.github.io/JarvisVLA。
想象一下,如果让一个从未接触过《我的世界》的人突然坐在电脑前开始游戏,他们可能会手忙脚乱,不知道该如何挖掘、建造或者与游戏世界互动。但如果这个人事先通过大量观看游戏视频、阅读攻略指南,并且深入理解游戏世界的各种规则和物品属性,那么他们上手游戏时就会表现得更加出色。北京大学的研究团队正是基于这样的思路,开发出了一个名为JARVIS-VLA的人工智能系统,它不仅能够理解《我的世界》这个复杂的开放世界游戏,还能够熟练地执行超过1000种不同的游戏任务。
以往的游戏AI大多采用直接模仿人类玩家行为的方式进行训练,就像让一个学生直接照搬老师的每一个动作,而不去理解动作背后的原理。这种方法虽然能让AI学会一些基本操作,但在面对新情况时往往显得力不从心。研究团队意识到,真正优秀的游戏AI应该像人类玩家一样,首先深入理解游戏世界的知识和规律,然后再学习具体的操作技巧。
这个研究的创新之处在于提出了一种全新的训练范式,叫做"视觉语言行为后训练"(ActVLP)。这个方法的核心思想是让AI在学习游戏操作之前,先通过大量的视觉和语言材料来理解游戏世界。就像一个优秀的厨师在制作复杂菜肴之前,不仅要熟练掌握刀工和火候,更重要的是要深入了解各种食材的特性、营养搭配原理以及不同烹饪方法的适用场景。
一、从零开始构建游戏AI的"大脑"
要理解JARVIS-VLA的工作原理,我们可以把它想象成一个正在学习成为《我的世界》专家的学生。这个学生的"大脑"由几个关键部分组成,每个部分都有着特定的功能。
首先是视觉处理系统,就像人类的眼睛和视觉皮层一样。当游戏画面出现在屏幕上时,这个系统能够识别画面中的各种元素:哪里有树木、哪里有石头、玩家手中拿着什么工具、背包里有什么物品等等。这个系统采用了先进的视觉变换器(Vision Transformer)技术,能够将复杂的游戏画面分解成一个个小块进行分析,就像拼图游戏中把整幅图片分成许多小块一样,然后逐一识别每个小块的内容。
接下来是语言理解系统,相当于学生的语言能力和知识储备。这个系统不仅能够理解人类给出的游戏指令,比如"制作一把钻石剑"或"找到并击杀一只僵尸",还能理解游戏世界中各种物品之间的关系和制作配方。它就像一本活的游戏百科全书,储存着关于《我的世界》的所有知识。
最重要的是行为决策系统,这是整个AI的"行动大脑"。它需要综合视觉信息和语言指令,然后决定应该进行什么样的操作:是移动鼠标查看周围环境,还是按下特定按键进行挖掘,或者打开背包整理物品。这个系统的特殊之处在于,它能够将决策转换成具体的键盘和鼠标操作,就像人类玩家一样通过标准的输入设备控制游戏。
为了让这些系统协调工作,研究团队采用了一种巧妙的方法。他们没有重新设计全新的AI架构,而是在现有的大型视觉语言模型基础上进行改进。这就像在一辆性能良好的汽车上安装专业的导航系统和驾驶辅助设备,而不是从零开始制造一辆全新的车。
特别值得注意的是,JARVIS-VLA采用了非马尔可夫架构,这个听起来复杂的术语实际上描述了一个很直观的概念。在《我的世界》这样的游戏中,玩家往往需要记住之前发生的事情才能做出正确决策。比如,如果你刚才看到远处有一个村庄,现在虽然暂时看不到了,但你仍然记得它的位置。JARVIS-VLA通过保存历史画面的方式来模拟这种记忆能力,让AI能够基于过去的观察做出更明智的决策。
二、三步走的训练策略:让AI循序渐进掌握游戏技能
JARVIS-VLA的训练过程可以比作培养一个《我的世界》专家的完整教育过程。传统的AI训练方法就像让一个完全不懂游戏的人直接观看高手操作视频,然后试图模仿每一个动作,这种方法效果往往不理想。研究团队采用了一种更加科学的三阶段训练方法,就像让学生从理论学习开始,逐步过渡到实践操作。
第一阶段是世界知识学习阶段。在这个阶段,AI主要通过大量的文本资料学习《我的世界》的基础知识。这些知识包括各种方块的特性、工具的用途、怪物的行为模式、建筑的基本原理等等。这个过程就像让学生先阅读游戏说明书、攻略指南和百科全书,建立对游戏世界的基本认知框架。研究团队收集了大约277000条知识问答对,涵盖了从基础的物品制作到复杂的建筑技巧等各个方面。
在这个阶段,AI系统的视觉处理部分被暂时"冻结",只有语言理解部分在学习。这样做的好处是让AI能够专注于理解游戏的内在逻辑和规律,而不被复杂的视觉信息干扰。就像学习开车时,教练往往会先在教室里讲解交通规则和驾驶理论,然后再让学员实际上路练习。
第二阶段是视觉语言结合学习阶段。在掌握了基础知识后,AI开始学习如何将抽象的知识与具体的游戏画面联系起来。这个阶段就像让学生看着游戏截图回答问题:这个画面中有什么物品?玩家应该使用什么工具?如何找到特定的资源?
研究团队为这个阶段准备了三类训练数据。首先是图像描述任务,让AI学会准确描述游戏画面中的内容。比如,看到一个森林场景,AI需要能够识别出"这里有橡树、桦树,地面上散落着一些掉落的原木,远处可以看到山脉"这样的详细信息。其次是视觉问答任务,训练AI根据画面回答具体问题。最后是空间定位任务,这是一个特别重要的能力,让AI能够准确指出画面中特定物品的位置。
空间定位能力对于游戏AI来说至关重要。当玩家说"挖掘那块铁矿石"时,AI必须能够准确识别铁矿石在画面中的位置,然后控制角色移动到正确位置进行挖掘。研究团队使用了先进的目标检测技术,让AI能够像人类一样用"指点"的方式标记物品位置。
第三阶段是行为模仿学习阶段。经过前两个阶段的准备,AI已经具备了丰富的游戏知识和良好的视觉理解能力,现在需要学习如何将这些能力转化为具体的游戏操作。这个阶段就像驾校学员从理论学习和模拟练习转向实际道路驾驶。
在这个阶段,AI通过观察大量的人类玩家游戏录像来学习操作技巧。但与传统方法不同的是,由于AI已经具备了深厚的游戏知识背景,它能够更好地理解每个操作背后的意图和原理。就像一个已经熟悉交通规则的学员在学习驾驶时,能够更快地理解为什么要在特定情况下采取特定操作。
研究团队收集了超过740万帧的游戏数据,包括人类玩家的操作、YouTube游戏视频,以及其他AI系统的游戏记录。为了让AI学会处理图形用户界面(GUI)操作,比如打开背包、使用工作台制作物品等,他们还专门生成了640万条专家级的操作数据。
三、海量数据支撑:构建AI的知识库和技能库
JARVIS-VLA的成功很大程度上依赖于研究团队精心构建的庞大数据集。这个数据集就像为AI准备的一座图书馆,里面不仅有理论知识,还有大量的实践案例和操作示范。
世界知识数据集是这座图书馆的理论书籍部分。研究团队从维基百科和专业的《我的世界》网站收集了大量资料,然后使用GPT-3.5模型生成了超过20万条问答对。这些问答涵盖了游戏的方方面面:从"制作面包需要什么材料"这样的基础问题,到"如何建造高效的自动化农场"这样的高级话题。
为了提高训练效率,研究团队采用了一种巧妙的数据组织方式。他们将原本独立的问答对重新组织成多轮对话的形式,就像模拟一个资深玩家在回答新手的连续提问。这种方式不仅提高了数据的利用效率,还让AI能够学会进行连贯的对话交流。
视觉语言对齐数据集相当于图书馆中的图文并茂的教科书。研究团队从各种来源收集了35000张高质量的游戏截图,然后使用GPT-4o、Claude 3.5 Sonnet等先进的AI模型为这些图片生成详细的描述和问答对。这个过程就像请多位专家为同一张图片写解说词,然后综合他们的意见得出最准确的描述。
为了确保数据质量,研究团队还建立了一套严格的验证流程。他们使用Llama-3.1-72B模型来检查生成的问答对是否准确、是否与图片内容相符。这个过程就像出版社的编辑审查流程,确保最终的教材内容准确无误。
空间定位数据集是最具挑战性的部分,相当于为AI准备的"实操手册"。对于3D游戏环境,研究团队使用了一种叫做"反向轨迹重标记"的技术。这个技术的工作原理很有趣:当AI看到一个玩家正在与某个物品互动时,系统会自动回溯之前的游戏画面,找出这个物品在不同时间点的位置,然后为这些位置打上标记。
这就像制作一部电影的幕后花絮:虽然观众在最终画面中看到演员在特定位置表演,但制作团队需要追溯拍摄过程,记录演员是如何移动到那个位置的。通过这种方法,研究团队为AI提供了大量的物品位置信息,让它能够准确识别和定位游戏世界中的各种元素。
对于2D界面操作,比如在背包中整理物品或在工作台上制作装备,研究团队直接利用了《我的世界》游戏本身提供的界面信息。由于游戏中每个界面元素都有固定的位置,他们可以准确地标记出每个物品槽位的坐标。这个过程就像为一个复杂的控制面板制作详细的操作手册,标明每个按钮和显示器的位置和功能。
通过这些努力,研究团队最终构建了一个包含超过40万条空间定位数据的训练集,为AI提供了丰富的空间理解能力训练素材。
四、性能表现:在多项测试中展现超强能力
为了评估JARVIS-VLA的实际表现,研究团队设计了一套全面的测试体系,就像为一个游戏高手准备的综合考试。这套测试不仅检验AI的游戏操作能力,还考察它的理论知识和视觉理解能力。
在实际游戏任务测试中,JARVIS-VLA展现出了令人印象深刻的表现。研究团队使用了MCU基准测试,这是一个专门为《我的世界》AI设计的评估标准,包含四大类任务:挖掘方块、击杀生物、制作物品和熔炼材料。每一类任务都包含多个具体的子任务,难度从简单到困难不等。
在挖掘任务中,JARVIS-VLA需要识别目标方块并使用正确的工具进行开采。比如,挖掘铁矿石需要使用石镐或更好的工具,而挖掘黑曜石则必须使用钻石镐。AI不仅要识别这些方块,还要知道使用什么工具,以及如何导航到正确位置。在这类任务中,JARVIS-VLA达到了95%的成功率,远超之前的最佳系统。
击杀生物任务要求AI识别并攻击特定的怪物或动物。这类任务不仅考验AI的视觉识别能力,还需要它掌握战斗技巧和移动策略。JARVIS-VLA在这类任务中表现同样出色,成功率达到了77%。特别值得注意的是,AI能够区分不同类型的生物,并采用适当的攻击策略。
制作任务是最具挑战性的测试之一,因为它涉及复杂的图形用户界面操作。当接到"制作钻石剑"这样的指令时,AI需要打开背包、找到工作台、按照正确的配方放置材料,然后完成制作。这个过程需要精确的鼠标控制和对界面布局的深度理解。JARVIS-VLA在制作任务中的成功率达到了70%,相比之下,传统的AI系统在这类任务中往往表现很差。
熔炼任务同样需要复杂的界面操作,AI需要使用熔炉将原材料转化为有用的物品。JARVIS-VLA在这类任务中也表现出了显著的优势,成功率同样达到了70%。
更重要的是,当研究团队将JARVIS-VLA与仅通过模仿学习训练的系统进行比较时,发现了一个惊人的结果:JARVIS-VLA仅使用了21%的训练数据,但性能却提升了15%以上。这就像一个学生通过更有效的学习方法,用更少的时间取得了更好的成绩。
在理论知识测试中,JARVIS-VLA同样表现出色。研究团队设计了47个涵盖游戏各个方面的知识问题,从基础的物品制作到复杂的游戏机制。JARVIS-VLA在这个测试中获得了70.7%的正确率,虽然仍然落后于GPT-4o的96.6%,但已经大幅超越了其他同类系统。
视觉理解测试评估AI对游戏画面的理解能力,包括场景识别、物品检测、界面读取等多个方面。在这个测试中,JARVIS-VLA达到了76.7%的准确率,与最先进的GPT-4o持平。这个结果特别有意义,因为它表明AI不仅能够执行游戏操作,还能像人类一样理解游戏世界。
空间定位测试是最直观的能力展示。当要求AI指出画面中特定物品的位置时,JARVIS-VLA能够以88%的准确率完成任务。这种能力对于游戏AI来说至关重要,因为准确的空间理解是执行所有游戏操作的基础。
五、创新突破:多重验证证实方法的有效性
为了证明他们的方法确实有效,研究团队进行了一系列精心设计的对比实验,就像科学家在实验室中控制变量来验证假设一样。
首先,他们验证了视觉语言后训练的必要性。研究团队创建了几个不同版本的AI系统:一个是直接在原始模型基础上进行游戏训练的版本,另一个是先进行大规模模仿学习然后再训练的版本,还有就是采用他们提出的ActVLP方法训练的版本。结果显示,ActVLP方法训练出的AI在各项任务中都显著优于其他方法。
更有趣的是,研究团队还测试了不同类型的后训练数据对最终性能的影响。他们分别创建了只使用世界知识数据、只使用视觉对齐数据、只使用空间定位数据训练的AI版本,然后比较它们的表现。结果发现,空间定位训练对最终的游戏表现影响最大,这符合直觉,因为准确的空间理解是执行游戏操作的基础。
研究团队还探索了AI系统的规模化效应,这是一个在AI领域非常重要的问题。他们发现,随着后训练数据量的增加,AI的游戏表现也相应提升。特别是当后训练损失降到0.22以下时,AI才开始在实际任务中表现出非零的成功率。这个发现为未来的AI训练提供了重要的指导原则。
另一个重要发现是关于训练数据量与性能的关系。研究团队发现,增加用于后训练的非轨迹数据能够直接提升下游任务的表现,即使下游训练使用的数据量保持不变。这就像一个学生通过广泛的课外阅读提高了理解能力,即使在相同的考试准备时间内也能取得更好的成绩。
为了验证方法的通用性,研究团队还在两个不同的基础模型(Qwen2-VL和Llava-Next)上测试了他们的训练方法。结果显示,无论使用哪个基础模型,ActVLP方法都能带来显著的性能提升,这证明了这种方法的普适性。
特别值得注意的是,研究团队还进行了一个被称为"scaling experiments"的实验。他们系统性地研究了不同规模的训练数据对AI性能的影响。结果显示,无论是增加下游任务的训练数据,还是增加后训练阶段的数据,都能够改善AI的最终表现。这个发现为未来构建更强大的游戏AI提供了明确的路径。
六、技术细节:让AI像人类一样操作游戏
JARVIS-VLA在技术实现上有许多巧妙的设计,这些细节虽然听起来复杂,但实际上都有着很直观的道理。
在动作空间设计方面,研究团队面临一个关键挑战:如何让AI像人类一样使用键盘和鼠标控制游戏。《我的世界》需要玩家进行各种复杂操作,包括移动角色、转动视角、点击界面、按下功能键等等。为了解决这个问题,研究团队采用了一种称为"动作标记化"的方法。
这个方法的核心思想是将所有可能的游戏操作转换成特殊的"词汇",就像为AI创造了一套专门的"游戏语言"。比如,鼠标向左移动可能对应一个特殊标记,按下W键对应另一个标记,点击鼠标左键又是另一个标记。通过这种方式,AI就可以像生成文本一样生成游戏操作序列。
对于鼠标移动这样的连续动作,研究团队使用了一种叫做μ-law编码的技术,将连续的移动距离离散化为21个不同的档位。这就像把无限可能的移动距离简化为21个标准选项,既保持了操作的精确性,又让AI能够处理这些信息。
在词汇表设计上,研究团队采用了一个特别聪明的策略。他们没有重新训练模型的词汇表,而是将最不常用的51个词汇重新定义为游戏操作标记。这种方法既避免了重新训练的复杂性,又确保了与原始模型的兼容性。
为了处理《我的世界》这样的部分可观测环境,JARVIS-VLA采用了历史信息保持机制。当AI在游戏中移动时,它会记住之前看到的画面,就像人类玩家会记住刚才经过的地形一样。这种设计让AI能够做出更加明智的决策,比如在寻找资源时能够避免重复搜索已经探索过的区域。
在推理阶段,JARVIS-VLA采用了一种叫做"action chunking"的技术。简单来说,就是让AI一次性预测未来几步的操作,而不是每次只预测下一步。这种方法不仅提高了执行效率,还让AI的行为更加连贯和目标导向。
七、实验环境与评估:严格的科学验证
为了确保实验结果的可靠性和可重复性,研究团队建立了一套严格的实验环境和评估体系。
实验环境选择了《我的世界》1.16.5版本,这是一个功能完整且相对稳定的游戏版本。为了保证公平性,研究团队隐藏了所有人类玩家无法获得的信息,比如精确的坐标位置、物品数量统计等,让AI完全依赖视觉信息进行游戏。
评估基准使用了MCU(Minecraft Understanding)基准测试,这是专门为评估《我的世界》AI设计的标准化测试集。这个基准包含了四大类任务,每类任务又包含多个具体的子任务,从简单的"用手挖掘橡树原木"到复杂的"用钻石镐挖掘黑曜石超过10秒",难度跨度很大。
为了确保结果的统计显著性,研究团队对每个任务至少进行了30次独立测试。这就像进行医学实验时需要足够大的样本量来确保结果的可靠性一样。他们使用成功率作为主要评估指标,这是一个直观且易于理解的度量标准。
在基线模型选择上,研究团队包含了该领域的主要代表性系统:VPT(Video Pre-Training)是OpenAI开发的里程碑式系统,STEVE-1是结合了视觉语言理解的文本指令跟随系统,GROOT使用视频提示作为任务指令,MineDreamer则结合了视觉语言模型和扩散模型。这些基线系统代表了当前游戏AI的不同技术路线。
特别值得注意的是,研究团队还设计了专门的视觉语言理解评估,包括世界知识问答、视觉理解和空间定位三个方面。对于主观性较强的问答题,他们使用GPT-4o作为评判员,这种方法已经在学术界得到广泛认可。对于空间定位任务,则使用基于规则的客观评分方法。
八、局限性与未来展望:持续改进的空间
尽管JARVIS-VLA取得了显著成果,但研究团队也诚实地指出了当前系统的一些局限性,并为未来的改进指明了方向。
首先是推理速度问题。由于JARVIS-VLA基于大型视觉语言模型构建,系统的参数量很大,这导致推理速度相对较慢。虽然研究团队通过优化已经将推理速度提升到55帧每秒,但与人类玩家的反应速度相比仍有差距。他们认为未来可以通过混合专家模型(MoE)等技术来改善推理效率,目标是达到40Hz以上的实时响应能力。
其次是性能上限问题。虽然JARVIS-VLA在与其他AI系统的比较中表现优异,但与顶级人类玩家相比仍有差距。经验丰富的《我的世界》玩家在相同任务上的成功率通常能达到90%以上,而JARVIS-VLA目前的平均成功率还没有达到这个水平。
从更广阔的角度来看,这项研究为视觉语言行为模型的发展开辟了新的道路。传统的AI训练往往将重点放在模仿学习上,而这项研究证明了在行为学习之前进行深入的知识和理解训练的重要性。这种思路不仅适用于游戏AI,也可能为其他需要复杂决策的AI应用提供启发,比如机器人控制、自动驾驶等领域。
研究团队还指出,他们的方法在处理更复杂、更开放的任务时仍有改进空间。《我的世界》虽然是一个复杂的开放世界游戏,但相比真实世界的复杂性仍然有限。如何将这种训练方法扩展到更加复杂和不确定的环境中,是一个值得继续探索的方向。
另一个有趣的发现是关于AI系统的可解释性。由于JARVIS-VLA具备了丰富的世界知识和视觉理解能力,它不仅能够执行任务,还能够在某种程度上"解释"自己的行为。这为开发更加透明和可信的AI系统提供了新的思路。
九、更广泛的影响:从游戏到现实世界的应用
虽然JARVIS-VLA是在《我的世界》这个虚拟环境中开发和测试的,但其背后的技术原理和训练方法具有更广泛的应用潜力。
在教育领域,这种技术可能会带来革命性的变化。想象一下,如果我们能够创造出像JARVIS-VLA一样既理解理论知识又能进行实际操作的教学AI,它们就能够为学生提供更加个性化和交互式的学习体验。比如在化学教学中,AI可以先理解化学原理,然后在虚拟实验室中演示实验过程,最后指导学生进行实际操作。
在机器人技术方面,JARVIS-VLA展示的多模态理解和行为生成能力为开发更智能的机器人提供了新的思路。未来的家庭服务机器人可能会采用类似的训练方法:首先学习大量关于家庭环境和日常任务的知识,然后学习识别和理解视觉场景,最后学习执行具体的操作任务。
在工业自动化领域,这种技术也可能发挥重要作用。现代工厂中的许多任务都需要结合理论知识、视觉识别和精确操作,这正是JARVIS-VLA所擅长的能力组合。比如在质量检测环节,AI需要理解产品规范,识别视觉缺陷,然后执行相应的处理操作。
值得注意的是,JARVIS-VLA的开源特性为整个学术和工业界提供了宝贵的资源。研究团队已经公开了代码、模型和数据集,这意味着其他研究者可以在此基础上进行进一步的改进和应用。这种开放的研究态度有助于加速整个领域的发展。
从技术发展的角度来看,这项研究也预示着AI系统正在向更加综合和智能的方向发展。早期的AI往往专注于单一任务,比如下棋或图像识别。而JARVIS-VLA展示了一种新的可能性:AI系统可以像人类一样,综合运用知识、理解和行动能力来解决复杂问题。
说到底,JARVIS-VLA不仅仅是一个游戏AI,它更像是一个展示未来AI发展方向的技术原型。通过在《我的世界》这个相对可控的环境中验证新的训练方法和技术路线,研究团队为AI技术的进一步发展奠定了重要基础。随着计算能力的提升和训练方法的完善,我们有理由相信,未来会出现更多像JARVIS-VLA这样能够真正理解世界、与人类自然交互的智能系统。
这项研究的意义不仅在于技术突破本身,更在于它所代表的研究思路和方法论。通过将知识学习、视觉理解和行为执行有机结合,研究团队展示了构建更加智能和通用AI系统的可行路径。对于那些希望深入了解这项研究技术细节的读者,可以访问项目主页https://craftjarvis.github.io/JarvisVLA或查阅完整的学术论文来获取更多信息。
Q&A
Q1:JARVIS-VLA能做什么?它和普通游戏AI有什么区别? A:JARVIS-VLA是一个能够像人类一样玩《我的世界》的AI系统,可以执行超过1000种不同任务,包括挖掘、建造、制作和战斗。与普通游戏AI不同,它不是简单模仿人类操作,而是先学习游戏世界的知识和规律,再学习如何操作,就像人类玩家那样既懂理论又会实践。
Q2:这个AI训练需要多长时间?普通人能使用吗? A:训练JARVIS-VLA需要使用32块A800 GPU,视觉语言训练阶段需要128个GPU小时,行为训练阶段需要512个GPU小时。目前这主要是研究项目,但研究团队已经开源了代码和模型,技术爱好者可以通过项目页面获取相关资源。
Q3:这项技术会不会应用到其他游戏或现实场景中? A:研究团队展示的训练方法具有很强的通用性,理论上可以应用到其他需要复杂决策的场景中,比如机器人控制、工业自动化等。不过从研究原型到实际应用还需要时间,目前主要价值在于为AI研究提供了新的技术路径。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。