微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI模型"千里之堤毁于蚁穴":剑桥大学团队揭示大语言模型长期任务执行的致命缺陷

AI模型"千里之堤毁于蚁穴":剑桥大学团队揭示大语言模型长期任务执行的致命缺陷

2025-09-25 14:42
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-25 14:42 科技行者

这项由剑桥大学、斯图加特大学人工智能研究所、马克斯·普朗克智能系统研究所等多家机构合作完成的研究发表于2025年1月,论文标题为《The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs》。研究团队的核心成员包括剑桥大学的Akshit Sinha、斯图加特大学的Arvindh Arun、马克斯·普朗克研究所的Shashwat Goel等人。有兴趣深入了解的读者可以通过arXiv:2509.09677获取完整论文。

这项研究就像揭开了AI界的一个"皇帝新装"的故事。当我们都在为大语言模型在复杂推理任务上的出色表现而欢呼时,研究团队却发现了一个令人震惊的现象:这些看似智慧超群的AI模型在执行长期任务时,竟然会表现得像一个容易受挫的学生,越是看到自己之前的错误,就越容易继续犯错。

当前,整个AI行业都在激烈讨论一个核心问题:继续投入巨额资金扩大AI模型规模是否还有意义?毕竟,从表面上看,模型在单次测试中的改进似乎正在放缓。然而,这项研究提出了一个全新的视角:真正的经济价值可能不在于模型能否回答单个问题,而在于它能否可靠地完成需要多个步骤的长期任务。

研究团队通过一个巧妙的实验设计发现了一个深刻的数学规律:即使模型在单个步骤上的改进看似微不足道,这些微小的改进在长期任务中却会产生指数级的收益。这就像滚雪球效应一样,小小的改进会在长期任务中产生巨大的差异。

更令人惊讶的是,研究团队还发现了一种前所未知的"自我设限效应"。AI模型在执行长期任务时会产生一种奇特的心理暗示:当它在对话历史中看到自己之前犯的错误时,就会变得更容易在接下来的步骤中继续犯错。这种现象不同于我们熟知的长文本处理能力下降,而是一种全新的AI行为模式。

研究团队还发现,那些具备"思考"能力的新一代AI模型(如最新的推理模型)在这方面表现出了质的飞跃。它们不仅不会被自己的历史错误所困扰,还能在单次互动中执行更长的任务序列。其中,GPT-5的表现尤为突出,能够连续执行超过1000个步骤的任务,远超其他竞争对手。

这项研究的意义远不止于学术探讨。它直接回应了当前AI行业最核心的争议:在看似收益递减的表象下,继续投资AI模型扩展是否明智?研究结果表明,如果我们将AI模型的价值定义为它们能够自主完成的任务长度,那么即使是微小的改进也值得巨额投资。

一、微小改进的指数回报:数学魔法背后的真相

要理解这项研究的核心发现,我们可以把AI执行长期任务比作一个登山者攀登珠穆朗玛峰。每一步都有可能出错,而一旦在某一步摔倒,整个登山任务就会失败。在这种情况下,登山者每一步的成功率看似只是提升了几个百分点,但这种微小的改进会在整个登山过程中产生戏剧性的差异。

研究团队建立了一个严格的数学模型来描述这种现象。假设一个AI模型在单个步骤中的准确率是p,那么它在完成H个步骤的任务时保持50%成功率所能达到的任务长度大约是-ln(2)/ln(p)。这个公式虽然看起来抽象,但它揭示了一个惊人的规律:当准确率从90%提升到95%时,模型能够可靠完成的任务长度会从大约7步跃升到14步,几乎翻了一倍。

更令人震撼的是,当准确率接近完美时,这种效应会变得更加显著。研究团队发现,在高准确率区域,每提升1%的准确率,任务执行长度的改进会呈现平方级增长。这就像在接近山顶时,每减少一点失误的概率,登顶成功的可能性就会急剧上升。

为了验证这个理论,研究团队分析了软件工程领域的实际数据。他们发现,最先进AI模型能够可靠完成的任务长度确实在以指数速度增长,大约每7个月翻一倍。这个发现与他们的数学预测完全吻合,进一步证实了微小改进在长期任务中的巨大价值。

这种数学关系对整个AI行业具有深远的启示意义。它表明,即使在单项测试中看起来改进缓慢的情况下,这些改进在实际应用中的价值可能远超我们的预期。就像复利效应在投资中的作用一样,微小而持续的改进在长期任务中会产生令人惊讶的复合收益。

二、巧妙的实验设计:将复杂任务简化为纯执行测试

为了准确测量AI模型的长期执行能力,研究团队面临着一个巨大的挑战:如何将复杂的现实任务中的规划、知识获取和执行三个环节分离开来?他们的解决方案堪称巧妙,就像设计了一个纯净的实验室环境来观察化学反应。

研究团队创造了一个类似"查字典做加法"的简化任务。在这个任务中,AI模型需要根据给定的计划(一系列关键词),从一个预设的词汇-数值字典中查找对应的数值,然后将这些数值累加到一个运行总和中。这个设计的精妙之处在于,它完全消除了规划和知识获取的需求:计划已经明确给出(查找哪些词),知识也完全提供(字典内容),剩下的就是纯粹的执行过程。

这就像给一个厨师提供了完整的食谱和所有食材,然后观察他们能否严格按照步骤制作出正确的菜品。任何失误都不能归咎于不知道怎么做或缺少原材料,而只能说明执行过程出现了问题。

研究团队特意选择了五个字母的英文单词作为关键词,数值范围设定在-99到99之间。这种设计最大程度地减少了因为词汇分割或数值计算复杂性而产生的额外错误。整个任务被设计成马尔可夫过程,即每一步的结果只依赖于前一步的状态和当前的输入,这样可以精确控制任务的复杂度。

实验设计还引入了两个重要的维度:回合数量和回合复杂度。回合数量指的是AI需要进行多少次独立的查找-计算操作,而回合复杂度则指每次操作中需要同时处理多少个关键词。通过调整这两个参数的组合,研究团队可以精确控制整体任务的长度和难度。

为了确保实验结果的可靠性,研究团队为每个模型准备了100个不同的任务序列,每个序列包含多达50000个步骤。他们还特别注意了格式规范的问题,通过明确的指令和少样本示例确保模型能够按照要求的格式输出结果。

三、令人意外的发现:AI模型的执行能力存在巨大差距

当研究团队开始测试不同规模的AI模型时,他们发现了一系列令人震惊的结果。即使是那些在单步操作中表现完美的模型,在面对长期任务时也会出现显著的性能下降。这种现象打破了人们对AI能力的常规认知。

以Qwen和Gemma两个模型系列为例,研究团队发现了清晰的规模效应。在最简单的设置下(每回合只处理一个关键词),所有模型除了最小的4B参数版本外,都能在第一步达到100%的准确率。这表明它们完全具备了执行单步操作所需的知识和推理能力。

然而,随着任务步骤的增加,不同规模模型之间的差距开始显现。32B参数的Qwen模型能够维持相对较高的准确率直到大约15个回合,而较小的模型则在几个回合后就开始急剧下降。更令人惊讶的是,即使是最大的模型,其任务准确率也会在15个回合后跌落到50%以下。

这种现象不能简单地用计算资源不足来解释,因为任务本身的计算需求并不高。研究团队意识到,这里存在着更深层的机制在起作用。通过仔细分析模型在不同回合的表现,他们发现了一个关键规律:模型的单步准确率会随着任务进展而逐渐降低,这种降低不是恒定的错误率累积,而是一种动态的恶化过程。

更有趣的是,研究团队发现模型规模的扩大带来的改进并非线性的。从14B参数扩展到32B参数,模型能够可靠完成的任务长度提升幅度远超预期。这种非线性的改进模式表明,大规模模型在长期执行能力上可能存在某种"相变"现象,就像水在特定温度下突然从液体变为气体一样。

当研究团队将目光转向最先进的思考型模型时,他们发现了更加戏剧性的差异。传统的DeepSeek-V3模型在执行两步操作时就开始出现问题,而具备思考能力的DeepSeek-R1却能够连续执行200个步骤。GPT-5思考版本(代号"Horizon")的表现更是令人惊叹,能够执行超过1000个步骤的任务,将第二名Claude-4-Sonnet的432步远远甩在身后。

四、神秘的自我设限现象:AI模型如何被自己的错误"洗脑"

在深入分析模型性能下降的原因时,研究团队发现了一个前所未知的现象,他们将其命名为"自我设限效应"。这种效应的发现过程充满了科学探索的戏剧性。

最初,研究团队假设模型性能下降可能有两种原因:一是随着对话历史变长,模型的长文本处理能力下降;二是模型会被自己之前的错误"带偏",变得更容易继续犯错。为了区分这两种可能性,他们设计了一个巧妙的对照实验。

实验的核心思路是人为操控AI模型看到的历史记录。他们创造了不同错误率的"虚假历史":有些历史记录是完全正确的,有些包含25%的错误,还有些包含50%甚至更高比例的错误。通过让模型在这些不同的历史背景下执行相同的任务,研究团队可以分离出长文本处理衰减和错误诱导效应的各自影响。

实验结果令人震撼。当模型面对完全正确的历史记录时,它在第100个回合的表现确实会比第1个回合有所下降,但这种下降相对温和,可以归因于长文本处理的固有限制。然而,当历史记录中的错误率逐渐上升时,模型的表现出现了急剧的恶化。在错误率达到50%的历史背景下,模型在第100个回合的准确率会比在正确历史背景下降低30%以上。

更令人担忧的是,这种自我设限效应并不会随着模型规模的扩大而消失。研究团队测试了从几十亿参数到数千亿参数的各种模型,包括最新的前沿模型如Kimi-K2、DeepSeek-V3和Qwen3-235B-Instruct-2507。他们发现,虽然大规模模型在处理长文本方面有了显著改进,但在面对错误历史时的脆弱性却没有相应减少。

这种现象的机制可能与模型的训练方式有关。大语言模型在训练过程中学会了根据上下文预测最可能的下一个词汇,这种机制在面对包含错误的历史时可能会产生负面影响。当模型看到自己之前犯过的错误时,它可能会"学习"这些错误模式,并在后续步骤中重复这些模式。

研究团队还发现,这种效应在不同类型的模型中表现形式略有不同。有些模型会在推理过程中明确参考之前的错误决策,有些则会在无意识中调整自己的决策模式以"符合"历史记录的错误倾向。这种多样性表明,自我设限效应可能是大语言模型架构中的一个基本特征,而不是特定训练方法的副产品。

五、思考型模型的突破:如何打破自我设限的魔咒

在发现了传统模型的自我设限问题后,研究团队将注意力转向了新一代的思考型AI模型。这些模型的工作方式类似于人类在解决问题时的内心独白过程:在给出最终答案之前,它们会进行一段详细的推理过程。

研究团队选择了具备思考能力的Qwen3模型进行深入测试。这些模型经过了强化学习训练,学会了在回答问题之前生成详细的推理轨迹。与传统的链式思考提示不同,这些模型即使在历史记录中只看到最终答案的情况下,也能主动进行深度思考。

实验结果令人振奋。当研究团队使用与传统模型相同的错误历史诱导实验时,思考型模型表现出了完全不同的行为模式。即使面对100%错误率的历史记录,这些模型在第100个回合的表现仍然保持稳定,没有表现出任何自我设限的迹象。

这种免疫力的来源可能有两个方面。首先,强化学习训练改变了模型的根本目标导向。传统模型主要学习预测最符合上下文的下一个词汇,而经过强化学习的模型更关注任务的成功完成。这种目标导向的转变使得模型更不容易被历史记录中的错误模式所影响。

其次,思考过程本身可能起到了"隔离"作用。通过分析这些模型的思考轨迹,研究团队发现它们在处理新任务时很少直接参考历史记录中的具体内容。相反,它们会独立地分析当前任务,就像每次都在重新开始一样。这种行为模式有效地断开了历史错误与当前决策之间的联系。

在单回合执行能力的测试中,思考型模型展现出了更加惊人的表现。传统模型在没有思考过程的情况下,即使是最大的模型也很难处理需要同时操作两个以上关键词的任务。这个限制与之前的理论研究结果一致:变压器架构在没有中间计算步骤的情况下,难以执行需要多步推理的任务。

然而,一旦启用思考功能,模型的表现立即发生了质的飞跃。所有启用思考功能的模型都能够轻松处理复杂度为2的任务,许多甚至能够处理复杂度为10或更高的任务。在这个维度上,GPT-5思考版本再次展现了其领先地位,能够在单次互动中执行超过1000个步骤的复杂任务序列。

研究团队还尝试了几种传统的改进方法来对比思考型模型的优势。多数投票方法(让模型多次执行同一任务并选择最常见的答案)只能带来边际改进。自我验证提示(让模型检查自己的工作)不仅效果有限,还会增加计算成本并可能导致新的错误。

六、实际应用的深远影响:重新定义AI模型的经济价值

这项研究的发现对整个AI产业的发展方向具有重要的指导意义。它从根本上改变了我们评估AI模型价值的方式,提出了一个全新的价值衡量标准:模型能够可靠完成的任务长度。

在传统的AI评估体系中,研究人员和工业界主要关注模型在单次问答或短期任务中的表现。各种基准测试如MMLU、GSM8K等都侧重于测量模型回答单个问题的准确性。然而,这项研究表明,这种评估方式可能严重低估了模型改进的真实价值。

考虑一个具体的应用场景:自动化软件开发。一个AI编程助手需要理解需求、设计架构、编写代码、测试功能、调试问题,然后进行优化。这个过程可能涉及数百个相互依赖的步骤,任何一个步骤的失误都可能导致整个项目的失败。在这种场景下,模型在单个编程问题上准确率从85%提升到90%的改进,可能意味着它能够可靠完成的项目复杂度增加了一倍甚至更多。

研究结果还为AI投资决策提供了新的理论基础。当前,一些观察家因为看到AI模型在标准基准测试上的改进速度放缓而质疑继续大规模投资的价值。然而,这项研究表明,即使在单项测试中看似微小的改进,在长期任务执行能力上可能带来巨大的突破。

这种视角转换对不同类型的AI应用具有不同的影响程度。对于需要长期推理和多步骤执行的应用(如科学研究、复杂分析、创意写作等),模型规模和思考能力的投资回报可能远超预期。而对于相对简单的单次交互应用(如简单问答、文本分类等),这种效应虽然存在但可能不那么明显。

研究团队特别强调了思考型模型在这个新价值体系中的重要地位。传统模型的自我设限效应意味着,仅仅通过扩大模型规模可能无法完全解决长期执行能力的问题。相比之下,思考型模型通过根本性地改变工作机制,为长期任务执行提供了更加可靠的基础。

从经济学角度来看,这项研究提出了一个有趣的观点:AI模型的经济价值可能主要来源于其能够自主完成的任务长度,而不是单次交互的质量。这与人类劳动力的价值评估方式更加相似——我们通常根据一个人能够独立完成多复杂的项目来评估其价值,而不仅仅是回答单个问题的能力。

七、未来展望与局限性:这项研究能带我们走多远

尽管这项研究提供了重要的见解,但研究团队也坦诚地承认了其局限性。他们设计的实验任务虽然巧妙地隔离了执行能力,但与现实世界的复杂任务仍有差距。在真实的应用场景中,AI模型面临的挑战不仅包括执行,还包括动态规划、知识整合、环境适应等多个方面。

研究团队特别指出,他们的任务设计是马尔可夫性的,即每一步只依赖于前一步的状态。这种简化虽然有利于精确测量,但在现实任务中,AI模型经常需要记住和利用更早期的信息。在这种非马尔可夫环境中,自我设限效应可能会表现出不同的特征。

另一个重要局限是关于自我纠错能力的考量。研究中的任务要求绝对准确性,任何单步错误都会导致整个任务失败。但在许多实际应用中,AI模型具有发现和纠正错误的机会。如何在允许自我纠错的环境中测量长期执行能力,是一个值得进一步探索的问题。

研究结果的普遍适用性也需要进一步验证。当前的实验主要基于数值计算任务,虽然这类任务能够提供精确的对错判断,但它们可能无法完全代表所有类型的长期任务。在涉及创意、判断、社交互动等更复杂的任务中,长期执行能力的评估和改进可能需要不同的方法。

尽管存在这些局限性,研究团队对未来的发展前景表示乐观。他们认为,理解长期执行能力的基本机制为改进AI模型提供了新的方向。除了继续扩大模型规模外,还可以通过改进训练方法、优化架构设计、增强思考能力等途径来提升长期执行性能。

研究还为AI安全和可靠性研究开辟了新的视角。自我设限效应的发现表明,AI模型在某些情况下可能会表现出"学习错误模式"的倾向。理解和控制这种倾向对于确保AI系统在关键应用中的可靠性具有重要意义。

从更宏观的角度来看,这项研究凸显了在AI快速发展过程中进行基础性研究的重要性。在追求更好性能的同时,深入理解AI模型的内在机制和局限性同样重要。只有在充分理解的基础上,我们才能更好地指导AI技术的发展方向,避免盲目投资和技术误区。

研究团队提出的"执行优先"观点也为AI评估标准的发展提供了新思路。未来的AI基准测试可能需要更多地关注长期任务执行能力,而不仅仅是单次交互的表现。这种转变可能会推动整个AI研究社区重新思考技术发展的优先级和投资方向。

说到底,这项研究就像为AI发展路线图增添了一个新的重要路标。它告诉我们,在追求AI智能的道路上,持续性和可靠性可能比瞬间的聪明才智更加重要。就像马拉松选手的价值不在于能跑多快的百米冲刺,而在于能够稳定地保持配速完成全程一样,AI模型的真正价值可能在于它们能够可靠地完成多长的任务序列。

对于普通用户来说,这项研究的意义在于,我们可能很快就会看到能够独立完成复杂项目的AI助手。无论是写一本书、开发一个软件、还是进行一项科学研究,这些AI助手都能够从始至终地提供可靠的支持,而不是像现在这样只能处理零散的问题片段。

当然,这一切的前提是AI开发者能够充分理解和应用这项研究的发现。如何将这些理论洞察转化为实用的技术改进,如何在保持长期可靠性的同时提升AI的其他能力,这些都是接下来需要解决的挑战。但无论如何,这项研究已经为我们指明了一个清晰的方向:在AI的未来发展中,长期执行能力将成为一个关键的竞争优势。

Q&A

Q1:什么是大语言模型的"自我设限效应"?

A:自我设限效应是指AI模型在执行长期任务时,看到自己之前犯的错误后会变得更容易继续犯错的现象。就像一个学生看到自己的错题后心理暗示增强,反而更容易在类似问题上出错。这种效应不同于长文本处理能力下降,是一种全新发现的AI行为模式,即使是最大规模的传统模型也无法避免。

Q2:为什么微小的单步准确率改进会带来指数级的长期任务能力提升?

A:这遵循一个数学规律:在长期任务中,任何一步出错都会导致整个任务失败。所以模型完成H步任务的成功率是单步准确率的H次方。当准确率从90%提升到95%时,能够可靠完成的任务长度会从7步跃升到14步。这就像登山时,每一步的成功率微小提升会让登顶概率急剧上升。

Q3:思考型AI模型(如GPT-5)在长期任务执行上有什么优势?

A:思考型模型在两个方面表现突出:首先,它们不会出现自我设限效应,即使面对全是错误的历史记录也能保持稳定表现;其次,它们能在单次互动中执行更长的任务序列,GPT-5能执行超过1000个步骤,远超传统模型的几步到几十步。这主要因为思考过程提供了"隔离"作用和强化学习改变了目标导向。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-