这项由Meta公司的Bingchen Zhao、Despoina Magka、Minqi Jiang等众多研究人员与爱丁堡大学合作完成的研究发表于2025年6月,论文编号为arXiv:2506.22419v1。有兴趣深入了解的读者可以通过https://github.com/facebookresearch/llm-speedrunner访问完整的研究代码和详细内容。
人工智能正在悄悄改变我们的生活,从语音助手到自动驾驶,AI的触角已经延伸到各个角落。但有一个问题始终让科学家们感到困扰:AI能否成为真正的科学家,独立进行研究并重现已有的科学发现?这就像问一个学生能否不仅学会解题,还能自己发现新的解题方法一样。
Meta的研究团队决定用一个非常巧妙的方法来测试这个问题。他们选择了一个叫做"NanoGPT训练加速竞赛"的真实案例作为试验场。这个竞赛就像是程序员们的马拉松比赛,参赛者们要想办法让一个叫GPT-2的AI模型训练得更快。从2024年6月开始,这个社区驱动的竞赛已经将训练时间从最初的45分钟压缩到了不到3分钟,这简直就像把一道需要煮45分钟的菜压缩到3分钟内完成,而且味道还要保持一样好。
这些改进可不是简单的调整参数那么容易。参赛者们发明了各种创新技术,比如著名的Muon优化器,这就像是发明了一种新的烹饪方法,不仅能用在这道菜上,还能推广到其他大型菜谱中。研究团队将这些连续的改进记录变成了一个独特的测试平台,用来检验AI代理能否像人类研究者一样,根据提示重现这些突破性的发现。
这个研究的意义远不止于技术层面。科学进步的核心在于结果的可重现性,就像一个好的食谱应该能被不同的厨师按照同样的步骤做出同样美味的菜肴。如果AI代理能够成功重现科学发现,这就意味着我们向自动化科学研究迈出了关键一步。但如果它们连已知的发现都无法重现,那么谈论AI进行原创性研究就还为时过早。
然而,研究结果却让人有些意外。即使是最先进的AI模型,比如o3-mini和DeepSeek-R1,在配备了最好的搜索框架后,也很难成功重现这些已知的创新。即便研究人员给这些AI提供了详细的提示和说明,它们平均也只能恢复大约20-40%的性能提升效果。这就像给一个厨师提供了详细的食谱,但做出来的菜只有原版一半的味道。
**一、从竞赛到科学测试平台**
NanoGPT训练加速竞赛本身就是一个精彩的故事。这个竞赛基于Andrej Karpathy创建的NanoGPT项目,目标很简单:在单个8×H100节点上训练GPT-2模型,让验证损失达到3.28的目标值,但要用最短的时间。这就像是要求参赛者用同样的食材和厨具,但要在最短时间内做出合格的菜肴。
竞赛的规则很明确。所有参赛者都使用FineWeb数据集进行训练,硬件配置完全相同,唯一的变量就是训练代码的优化程度。这种设置确保了公平性,就像所有运动员在同一条跑道上比赛一样。
从2024年6月到2025年5月,这个竞赛产生了21个连续的记录突破。每个新记录都代表着一个具体的技术创新,从算法改进到硬件优化应有尽有。第一个重大突破是引入了旋转位置嵌入和调整学习率,将训练时间从45分钟缩短到31.4分钟。接下来是Muon优化器的发明,这个创新不仅在这个小规模模型上有效,后来还被证明对大型现代语言模型同样有益。
更有趣的是,这些改进涵盖了机器学习的各个方面。有些改进专注于模型架构,比如引入U-net模式的跳跃连接。有些则关注数据类型优化,比如使用bfloat16激活函数或FP8头部。还有一些改进涉及注意力机制的创新,比如从传统的密集因果注意力转向64K上下文的FlexAttention。
研究团队将这些连续改进转化为一个系统化的测试基准。每个任务都要求AI代理从前一个记录的代码开始,根据提供的提示,重现下一个记录的性能提升。这就像是要求一个学生看着昨天的作业,根据老师的提示,完成今天更进一步的作业。
**二、为AI代理设计的挑战系统**
为了公平测试AI代理的能力,研究团队设计了一个精巧的提示系统。他们为每个改进创建了三个不同级别的提示,就像给学生提供不同详细程度的学习材料。
第一级提示是伪代码形式,就像给厨师提供一个简化的食谱大纲。比如对于旋转位置嵌入的改进,伪代码提示会说明需要实现一个旋转位置嵌入类,预计算逆频率,然后在注意力机制中应用这些嵌入。这种提示给出了大致的实现思路,但需要AI代理自己填补具体的实现细节。
第二级提示是自然语言描述,更像是详细的烹饪说明。它会解释为什么要做这个改变,预期的效果是什么,以及如何与现有代码集成。对于同样的旋转位置嵌入改进,这种提示会解释这种方法如何改善位置感知,为什么比传统的位置嵌入更有效,以及实现时需要注意的技术挑战。
第三级提示则是迷你论文格式,就像给出了完整的研究报告。这种提示不仅包含了前两级的所有信息,还提供了理论背景、实现细节和预期的性能影响。它几乎就像是一个完整的技术文档,告诉AI代理从理论到实践的每一个步骤。
除了这三个基础级别,研究团队还测试了组合提示的效果。他们发现,有时候给AI代理提供更多信息并不总是更好。这就像有些学生在面对过于详细的说明时反而会感到困惑一样。
为了确保测试的公正性,研究团队还开发了一个复杂的搜索框架。这个框架允许AI代理不仅仅尝试一次,而是可以进行多次迭代改进。每次尝试后,代理会得到关于代码执行结果的反馈,然后可以基于这个反馈进行调整。这就像允许厨师品尝正在制作的菜肴,然后根据味道调整调料一样。
搜索框架包含了五种不同的策略。最简单的是"平铺"方法,就是简单地尝试多个不同的解决方案,然后选择最好的。更复杂的方法包括树状搜索和森林搜索,这些方法允许代理在成功的解决方案基础上进一步改进。最先进的方法是Multi-AIDE,它结合了迭代改进和调试功能,就像有一个AI助手可以不断优化和修复代码一样。
**三、测试结果揭示的现实**
当研究团队将最先进的AI模型放到这个测试平台上时,结果相当令人意外。即使是表现最好的模型组合——o3-mini配合Multi-AIDE搜索框架,在获得最详细提示的情况下,平均也只能恢复大约46%的预期性能提升。这就像是给了一个优秀的厨师完整的食谱和所有工具,但做出来的菜只有原版一半的味道。
更令人惊讶的是,不同类型的提示对不同模型的效果差异很大。对于o3-mini这样的模型,伪代码提示往往比详细的文本描述更有效。这可能是因为过于详细的信息反而会让模型感到困惑,就像有些人在面对过于复杂的说明书时反而不知所措一样。
相比之下,开源模型如DeepSeek-R1的表现更加有趣。当没有提示时,这些模型的表现还算可以,但当给出详细提示后,它们的表现反而下降了。这就像是一个厨师在没有食谱时能做出还不错的菜,但看了食谱后反而做砸了。研究人员推测,这可能是因为这些模型试图实现提示中描述的复杂改动时,引入了更多的错误。
研究团队还发现了一个有趣的模式:后期的记录比早期的记录更难重现。随着竞赛的进行,每个新的改进都变得更加精妙和复杂,这使得AI代理更难理解和实现这些改进。这就像是随着烹饪技术的进步,新的食谱变得越来越需要精确的技巧和经验。
为了更深入地理解AI代理的表现,研究团队还分析了它们的搜索行为。他们发现,平铺搜索(简单地尝试多个方案)往往会产生更多有问题的代码,但偶尔也能产生出色的解决方案。相比之下,更复杂的搜索方法虽然产生的错误代码较少,但也很少能产生真正优秀的解决方案。
**四、代码相似性的深度分析**
仅仅看性能数字还不够,研究团队还想知道AI代理生成的代码在多大程度上真正复制了人类的创新思路。他们使用了两种方法来评估代码相似性:自动化的嵌入向量比较和人工智能判官评估。
嵌入向量比较就像是用数学方法测量两篇文章的相似度。研究团队使用专门的代码嵌入模型来计算AI生成的代码与目标代码之间的距离。有趣的是,他们发现代码相似性和性能提升之间存在一定的相关性,但这种相关性并不完美。这意味着有时候AI代理可能用完全不同的方法达到了类似的性能提升,就像两个厨师用不同的烹饪技巧做出了同样美味的菜肴。
更有趣的是AI判官评估的结果。研究团队让另一个AI模型来评判生成的代码在多大程度上重现了人类专家的改动。这个AI判官会仔细比较两段代码,然后给出一个0到1之间的分数,表示重现程度。结果显示,即使在最好的情况下,AI代理也很少能完全重现人类的创新思路。
这种分析揭示了一个重要的区别:达到相似的性能和真正理解创新思路是两回事。AI代理有时候能够通过不同的路径达到相似的结果,但这并不意味着它们真正掌握了人类研究者的创新逻辑。这就像是两个学生都解出了同一道数学题,但使用了完全不同的解题方法。
研究团队还发现,对于一些特别困难的记录,几乎所有的AI代理都表现很差。比如记录10(引入FlexAttention)对所有方法和模型来说都是一个巨大的挑战。这可能是因为这个改进涉及了相对较新的技术,而这些技术可能不在AI模型的训练数据中。
**五、累积性研究的更大挑战**
除了单个记录的重现,研究团队还测试了一个更具挑战性的任务:累积性重现。这就像是要求AI代理不仅要学会单个烹饪技巧,还要能够将多个技巧组合起来,制作越来越复杂的菜肴。
在这个实验中,AI代理需要从最初的基线代码开始,逐步应用每个改进,最终达到后续记录的性能。这个任务更接近真实的科学研究过程,因为科学发现往往是建立在前人工作基础上的渐进式进步。
结果显示,累积性重现比单独重现个别记录要困难得多。最好的AI代理在第一个改进上还能恢复大约60%的性能提升,但到了第三个改进时,这个数字就降到了20%左右。到了第四个改进时,AI代理基本上就无法产生任何有意义的性能提升了。
这个结果特别令人深思,因为它表明AI代理在处理连续的、相互依赖的改进时面临着更大的挑战。每个错误都会累积,每个不完美的实现都会影响后续的改进。这就像是在建造一座塔,如果底层有问题,上层就会越来越不稳定。
**六、外部知识的作用与局限**
研究团队还进行了一个有趣的实验:当AI代理面对其训练数据中可能没有的新技术时会发生什么?他们选择了FlexAttention这个记录进行特殊测试,因为这个技术是在2024年8月发布的,很可能不在大多数AI模型的训练数据中。
研究人员为AI代理提供了关于FlexAttention的详细文档,包括使用示例和技术说明。按理说,这应该能帮助AI代理更好地实现这个改进。但结果却恰恰相反:提供额外文档的AI代理表现反而更差了。
这个发现很有启发性。它表明,即使是最先进的AI模型,在处理它们训练时未见过的技术时,也很难有效利用外部知识。这就像是给一个从未见过微波炉的厨师提供微波炉说明书,他们可能反而会把简单的任务搞复杂。
这个结果对于AI代理在科学研究中的应用有重要意义。科学研究的本质就是探索未知,创造新的知识。如果AI代理连利用明确提供的新知识都有困难,那么它们在面对真正的未知领域时会面临更大的挑战。
**七、不同搜索策略的启示**
研究团队对不同搜索策略的分析提供了关于AI代理行为的有趣见解。他们发现,简单的平铺搜索策略虽然会产生更多有问题的代码,但也更有可能偶然发现有效的解决方案。相比之下,更复杂的搜索策略产生的代码更稳定,但很少能达到突破性的性能。
这种现象类似于探索与利用的权衡。简单的策略更倾向于探索,愿意尝试各种可能性,即使风险更高。复杂的策略更倾向于利用已知的安全方法,但也因此限制了发现突破性解决方案的可能性。
研究团队还观察到,不同的AI模型对调试步骤的反应差异很大。一些模型,特别是开源模型,在包含调试功能的搜索框架中产生了更多有问题的代码。这表明这些模型可能不如商业模型那样善于从错误中学习和改进。
这些发现对于设计更好的AI代理搜索策略有重要启示。可能需要为不同类型的任务和不同的模型定制不同的搜索策略,而不是使用一种通用的方法。
**八、基准测试的独特价值**
Meta团队创建的这个基准测试在多个方面都是独特的。与其他科学重现性基准不同,这个测试专注于一个连贯的研究主题,而不是随机选择的各种研究。这种设计使得能够评估AI代理在处理相互关联的累积性改进时的能力。
更重要的是,这个基准的所有任务都有明确的成功标准:训练时间的缩短。这与其他可能需要主观判断的科学任务不同,这里的成功或失败是可以精确测量的。同时,所有的改进都在相同的硬件配置上运行,确保了比较的公平性。
这个基准还有一个独特的优势:它基于真实的、社区驱动的研究竞赛。这意味着所有的改进都是由真正的研究者在真实的竞争环境中开发的,而不是为了测试目的而人为设计的。这增加了测试的真实性和相关性。
此外,这个基准涵盖了机器学习的多个重要方面,从算法创新到硬件优化,从数据类型选择到注意力机制设计。这种多样性使得它能够全面评估AI代理在不同类型的科学问题上的能力。
**九、对未来AI研究的启示**
这项研究的结果对AI研究领域提出了一些重要的思考。首先,它表明即使是最先进的AI模型,在科学重现性这个相对基础的任务上也还有很大的改进空间。如果AI代理连重现已知的发现都有困难,那么让它们进行原创性研究还为时过早。
研究结果也揭示了当前AI模型的一些根本性限制。这些模型似乎更擅长模式匹配和统计推理,而不是真正的理解和创新。当面对需要深入理解代码逻辑和算法原理的任务时,它们的表现明显下降。
另一个重要的发现是,提供更多信息并不总是有帮助的。这表明当前的AI模型在信息整合和筛选方面还存在问题。在真实的科学研究中,研究者需要从大量的相关和不相关信息中提取有用的洞察,这对当前的AI模型来说仍然是一个挑战。
研究还显示了累积性学习的困难。科学研究的本质是建立在前人工作基础上的渐进式进步,但AI代理在这种累积性任务上表现不佳。这表明需要开发新的方法来帮助AI模型更好地处理相互依赖的任务序列。
**十、实际应用的前景与限制**
虽然当前的结果显示AI代理还无法完全自主进行科学研究,但这并不意味着它们在科学领域没有价值。这项研究实际上为AI在科学研究中的辅助作用提供了有价值的见解。
AI代理可能更适合作为研究助手,而不是独立的研究者。它们可以帮助研究人员快速测试不同的想法,进行初步的代码实现,或者在研究人员的指导下执行具体的实验步骤。这种人机协作的模式可能比完全自主的AI研究更现实和有效。
研究结果也表明,为不同类型的科学任务开发专门的AI工具可能更有效,而不是期望一个通用的AI代理能够处理所有类型的科学问题。就像专业工具在特定领域比通用工具更有效一样,专门的科学AI可能在特定研究领域表现更好。
此外,这个基准测试本身就成为了一个有价值的工具,可以用来评估未来AI模型在科学重现性方面的改进。随着AI技术的不断发展,研究者可以使用这个基准来跟踪进展,识别需要改进的特定能力。
**十一、技术细节的深入探讨**
为了确保测试的严谨性,研究团队在技术实现上做了大量的工作。他们重新运行了所有的人类记录,确保在他们的硬件配置上能够重现相同的性能。这种验证确保了基准测试的可靠性,避免了因硬件差异导致的不公平比较。
在评估指标的设计上,研究团队使用了"速度提升恢复分数"(FSR)这个精心设计的指标。这个指标不仅考虑了AI代理达到的绝对性能,还考虑了它相对于目标改进的相对表现。这种设计使得能够公平地比较不同难度的改进任务。
研究团队还开发了复杂的代码相似性评估方法。除了使用专门的代码嵌入模型,他们还设计了AI判官系统来评估代码变更的语义相似性。这种多维度的评估方法提供了更全面的性能评估。
在搜索框架的设计上,研究团队提供了从简单到复杂的多种选择。这种设计使得能够研究不同搜索策略对不同类型AI模型的影响,为未来的AI代理设计提供了宝贵的经验。
说到底,这项研究为我们提供了一个重要的现实检验。虽然AI技术在很多领域都取得了令人瞩目的进展,但在科学研究这个需要深度理解、创新思维和累积性学习的领域,它们还有很长的路要走。这个发现既让人保持谦逊,也为未来的改进指明了方向。
当我们谈论AI的未来时,经常会听到关于AI科学家、AI研究者的预测。但这项研究提醒我们,真正的科学研究比我们想象的更复杂、更微妙。它不仅需要强大的计算能力和数据处理能力,还需要直觉、创造力和对复杂系统的深度理解。
这并不意味着AI在科学研究中没有前途。相反,这项研究为我们提供了一个清晰的路线图,告诉我们需要在哪些方面改进AI系统,才能让它们成为真正有效的科学研究助手。无论是改进模型的理解能力,还是开发更好的人机协作框架,这些都是值得继续探索的方向。
对于那些希望深入了解这项研究的读者,完整的研究代码和数据已经在GitHub上开源,地址是https://github.com/facebookresearch/llm-speedrunner。这种开放的态度本身就体现了科学研究的精神:通过分享和协作来推动整个领域的进步。
Q&A
Q1:什么是NanoGPT训练加速竞赛?它为什么适合测试AI研究能力? A:NanoGPT训练加速竞赛是一个社区驱动的编程竞赛,目标是在相同硬件条件下用最短时间训练GPT-2模型到指定性能。它适合测试AI研究能力因为:竞赛产生了21个连续的真实技术突破,每个改进都有明确的性能提升,且涵盖了机器学习的多个重要方面,为AI代理提供了理想的科学重现性测试环境。
Q2:为什么最先进的AI模型在重现已知研究成果时表现不佳? A:主要原因包括几个方面:AI模型更擅长模式匹配而非深度理解,面对需要算法逻辑理解的任务时能力下降;过多的提示信息反而会让模型困惑;累积性任务中错误会叠加放大;对训练数据中未见过的新技术难以有效利用外部知识。这表明当前AI在科学创新思维方面还存在根本性限制。
Q3:这个研究对AI在科学研究中的应用有什么启示? A:研究表明AI更适合作为研究助手而非独立研究者,可以在人类指导下执行具体实验步骤或快速测试想法。需要为不同科学领域开发专门的AI工具,而非期望通用AI处理所有问题。同时这个基准为评估未来AI模型的科学研究能力提供了标准化测试平台,有助于跟踪技术进展。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。