这项由中国滴滴出行公司、中山大学、清华大学等多家机构联合开展的突破性研究发表于2025年1月的arXiv预印本,论文编号为arXiv:2509.21766v1,为我们首次深入揭示了人工智能在处理复杂长期任务时面临的重大挑战。研究团队包括来自滴滴出行的罗昊天、张怀松等研究者,以及中山大学、清华大学、香港科技大学等多所知名学府的学者。
要理解这项研究的重要性,我们可以把人工智能比作一个刚学会走路的孩子。目前的AI在处理简单、短期的任务时表现得相当出色,就像一个孩子能够轻松完成从客厅走到厨房这样的短距离移动。然而,当面临需要长期坚持、多步骤协调的复杂任务时,AI就像要求这个孩子完成一场马拉松比赛一样力不从心。
当前的AI系统在短期任务上表现优异,比如回答简单问题、识别图片或者完成基础的对话。但是在现实世界中,真正有价值的任务往往需要长期的持续努力和复杂的规划。比如开发一个大型软件项目、进行科学研究发现新的规律,或者制定长期的商业投资策略。这些任务不仅需要AI具备基础的智能,更需要它们能够在漫长的过程中保持专注、记住之前的经验、灵活调整策略,并且持续学习和改进。
研究团队意识到,虽然AI技术发展迅速,但我们对于AI在这种"马拉松式"任务中的表现了解甚少。现有的测试基准大多只关注短期表现,就像只测试运动员的百米冲刺能力,却忽略了他们的长跑耐力。这种评估方式显然无法全面反映AI的真实能力水平,也无法指导我们开发出真正适用于复杂现实场景的AI系统。
为了填补这个关键空白,研究团队开发了一套名为"UltraHorizon"的全新测试平台。这个平台就像是为AI设计的"超级马拉松赛道",专门用来考验AI在长期、复杂任务中的综合表现。与传统的AI测试不同,这个平台要求AI不仅要有智慧,还要有耐力、记忆力和适应能力。
一、探索未知世界:UltraHorizon的三重考验
UltraHorizon测试平台的设计理念非常巧妙,它不是简单地延长任务时间,而是创造了三个截然不同但都极具挑战性的虚拟环境。每个环境都像是一个需要长期探索的神秘世界,AI必须在其中扮演探险家的角色,通过持续的观察、实验和学习来揭开隐藏的规律。
第一个环境被称为"神秘网格",想象这是一个10×10的方格游戏板,上面散布着五种不同的神秘符号A、B、C、D、E。AI扮演的角色就像一个能量有限的探险者,必须在这个网格中移动,通过踩踏不同的符号来观察它们的效果。每个符号都有自己独特而隐藏的规律,比如某个符号可能会在特定条件下增加分数,另一个符号可能会根据探险者的位置产生不同影响。关键在于,这些规律在开始时完全不为人知,AI必须通过反复试验、记录观察结果,并且进行逻辑推理才能最终破解每个符号的秘密。
整个探索过程充满了挑战。AI每次移动都会消耗珍贵的能量,如果能量耗尽,探索就会被迫结束。更复杂的是,AI踩过的地方会留下标记,无法再次获得信息,这意味着每一步都必须精心规划。AI需要在有限的资源约束下,设计出最有效的探索策略,既要收集足够的信息来理解规律,又要避免浪费宝贵的机会。
第二个环境叫做"序列探索",这里的挑战更加抽象和复杂。AI需要处理由字母组成的序列,每次输入两个五字母序列后,系统会通过五个隐藏的转换规则对这些序列进行处理,最终产生一个结果。AI的任务就是通过观察输入和输出的关系,逆向工程出这五个转换规则的具体内容。这就像是破解一个多层加密的密码系统,每个规则都可能涉及字符替换、位置变换、条件判断等复杂操作。
这个环境考验的不仅是AI的模式识别能力,更是它的系统性思维和假设验证能力。AI必须能够设计巧妙的实验来测试自己的假设,比如通过构造特定的输入序列来验证某个规则的作用机制。整个过程需要AI具备科学家般的思维方式,能够在大量可能的假设中筛选出正确的理论。
第三个环境是"外星遗传学实验室",这个设定充满了科幻色彩但又严格遵循科学逻辑。AI需要研究一种虚构的三倍体外星生物的遗传规律。与地球生物不同,这些外星生物每个基因位点都携带三个等位基因,而不是我们熟悉的两个。AI需要通过设计和执行杂交实验来了解这些生物的遗传机制,包括配子形成方式、性状遗传模式,以及某些基因组合的致死效应。
这个环境的挑战在于,AI必须具备实验设计的能力。它不能随意进行杂交,而是要根据已有的观察结果,有目的地选择亲本进行配对,从而最有效地验证特定的遗传假设。同时,AI还要处理实验中的随机性和不确定性,因为生物实验往往不会产生完全可预测的结果。
这三个环境的共同特点是它们都要求AI进行长期的、系统性的探索。与传统的AI测试不同,这里没有标准答案可以直接查找,也没有明确的解题步骤可以遵循。AI必须像真正的科学家一样,通过观察、假设、实验、验证的循环过程来逐步接近真相。
二、惊人的发现:AI的"马拉松困难症"
当研究团队让目前最先进的AI系统来挑战UltraHorizon时,结果让所有人都感到惊讶。这些在短期任务中表现卓越的AI,在面临长期复杂任务时竟然表现得如此吃力,就像训练有素的短跑选手突然被要求参加马拉松比赛一样力不从心。
研究团队测试了五个当前最先进的大型语言模型,包括谷歌的Gemini-2.5-Pro、智谱AI的GLM-4.5、深度求索的DeepSeek-V3、月之暗面的Kimi K2以及阿里巴巴的Qwen3-235b。这些都是当前AI领域的顶尖产品,在各种传统测试中都表现优异。然而,在UltraHorizon的长期挑战中,它们的表现却远远低于预期。
最令人震惊的对比来自与人类参与者的比较。研究团队邀请了33名人类志愿者参与同样的挑战,结果发现人类的平均得分达到了26.52分,而表现最好的AI系统Gemini-2.5-Pro也仅仅达到了14.33分。这种巨大的差距让研究人员意识到,我们对AI能力的认知可能存在严重偏差。
更深入的分析揭示了一个令人深思的现象:AI系统在处理长期任务时的交互复杂性远远超过了人们的想象。在最复杂的测试场景中,AI需要进行平均超过20万个字符的对话,调用400多次工具功能。即使在标准配置下,AI也需要处理超过3.5万个字符和60多次工具调用。这种规模的交互复杂性在传统的AI测试中几乎从未出现过。
研究团队发现,简单地增加AI的计算资源或处理时间并不能解决问题。当他们给AI更多的步骤和时间时,AI的表现并没有显著改善,有时甚至会变得更差。这表明问题的根源不在于资源不足,而在于AI处理长期任务的根本能力存在缺陷。
为了更精确地理解AI失败的原因,研究团队进行了一项特别有趣的实验。他们调整了任务的复杂程度,从简单的单一规律发现逐渐增加到复杂的多重规律探索。结果发现,随着任务复杂性的增加,AI的表现急剧下降。比如在神秘网格环境中,当只需要发现一个隐藏规律时,AI还能达到34.4%的准确率,但当需要同时发现五个规律时,准确率就暴跌到了5.62%。
这种表现下降的模式揭示了一个关键问题:AI在处理长期任务时会遇到所谓的"认知过载"。就像人类大脑在处理过多信息时会出现混乱一样,AI系统也会在长期交互中逐渐失去方向感和判断力。
三、揭秘AI的"长跑弱点":两大根本缺陷
通过对AI失败案例的深入分析,研究团队发现了AI在长期任务中失败的两个根本原因,就像诊断一个运动员为什么无法完成马拉松一样精确。
第一个根本问题被称为"情境锁定",这个现象非常类似于人类心理学中的"确认偏误"。当AI在任务早期形成某种判断或策略时,它会变得过分固执,即使后续证据表明这种判断是错误的,AI也很难改变既定路线。研究团队通过一个巧妙的实验证明了这一点:他们分析了AI在整个任务过程中的"词汇熵值"变化,发现AI的表达越来越固化和重复,这表明AI确实陷入了思维僵化的陷阱。
这种情境锁定就像一个探险者在迷宫中走错了第一步,然后固执地沿着错误路线越走越远,即使明显感觉到不对劲也不愿意回头重新选择。在序列探索实验中,研究人员观察到AI会基于有限的早期观察就急于得出结论,比如认定某个转换规则是"A变成B",然后在后续的所有分析中都强行套用这个错误假设,完全忽视矛盾的证据。
第二个根本问题是"基础能力缺陷",这涉及AI在几个核心认知能力上的不足。首先是记忆管理能力的缺陷。AI在长期任务中经常出现自相矛盾的现象,今天记住的信息明天就忘记了,或者同样的问题会反复询问。这就像一个研究者没有可靠的笔记本,总是遗忘之前的重要发现,导致研究工作缺乏连续性。
其次是逻辑推理能力在长期任务中的衰减。AI在短期内能够进行相当复杂的逻辑推理,但是当任务延续到几十个甚至上百个步骤时,AI的推理链条开始出现断裂。这就像一个数学家在解决简单问题时思路清晰,但在处理需要多个小时才能完成的复杂证明时就会出现逻辑漏洞。
工具使用能力的混乱也是一个突出问题。在长期任务中,AI需要协调使用多种不同的工具,比如移动、记录、分析、实验等。然而研究发现,AI经常会选择不合适的工具,或者重复使用同一个工具而忽视其他选项。更令人困惑的是,AI有时会使用完全错误的工具参数,即使系统已经明确告知了正确的使用方法。
规划能力的不足是另一个关键问题。AI在制定长期计划时往往缺乏系统性思维,计划前后矛盾,或者无法根据新情况及时调整策略。比如在外星遗传学实验中,AI会制定移除某些生物样本的计划,然后在下一步又尝试使用这些已经不存在的样本进行实验,显示出明显的计划协调失误。
四、AI失败的八种表现形式
研究团队通过详细分析AI的行为轨迹,总结出了八种典型的失败模式,每一种都反映了AI在长期任务中的不同弱点。
重复循环是最常见的失败模式之一。AI会陷入某种行为模式的无限重复,就像一个坏掉的唱片机一直播放同一首歌。比如在神秘网格实验中,某个AI会连续几十次重复"移动-记录-分析"的相同序列,即使这个序列明显没有产生新的有用信息。这种行为反映出AI缺乏自我监控和策略调整的能力。
过早收敛是另一个严重问题。AI经常在收集到足够信息之前就急于得出结论,然后固执地坚持这些基于不充分证据的判断。在序列探索实验中,一个AI仅仅基于两三个样本就确定了某个转换规则,然后拒绝考虑后续的矛盾证据,最终导致完全错误的结论。
混乱规划表现为AI制定的计划前后矛盾、缺乏逻辑连贯性。比如一个AI可能在同一个实验中既计划增加某种条件,又计划减少同样的条件,显示出明显的自相矛盾。
工具使用错位是技术性失误的典型代表。AI会使用完全不适合当前任务的工具,或者用错误的参数调用正确的工具。最让人哭笑不得的是,有些AI会重复使用系统已经明确提示为无效的工具调用方式。
记忆问题表现为AI无法维持长期的信息一致性。AI会忘记之前的重要发现,重复询问已经解决的问题,或者对相同情况给出矛盾的判断。这种记忆缺陷严重影响了AI处理长期任务的连续性。
不受控制的实验设计反映了AI缺乏科学方法论的基础知识。AI经常同时改变多个变量,使得实验结果无法解释,或者进行明显无意义的重复实验而不从中学习。
错误传播是一个特别有害的现象。当AI犯了一个错误后,这个错误会像病毒一样感染后续的所有分析和决策。比如一个错误的假设会影响AI对所有后续观察的解释,导致错误越积越多。
环境误解表现为AI对任务环境的根本性误解。AI可能会坚持一个完全错误的环境模型,即使现实不断反驳这个模型,AI也拒绝更新自己的理解。
五、突破之路:简单而有效的解决策略
面对AI在长期任务中的种种困难,研究团队并没有止步于发现问题,而是积极探索解决方案。他们发现了一个既简单又出人意料有效的策略,被称为"上下文刷新与笔记回忆"方法。
这个方法的核心思想非常直接:当AI的对话历史变得过于冗长时,不是简单地扩大AI的记忆容量,而是清空所有历史对话,然后让AI重新阅读自己之前记录的笔记来恢复记忆。这就像一个研究者在桌子被各种资料堆满时,不是换一张更大的桌子,而是把桌子清空,然后只保留最重要的核心笔记。
这种方法的效果令人印象深刻。在神秘网格环境中,使用传统扩展方法的AI得分只有6.56分,而使用笔记刷新方法的AI得分提升到了7.50分。在外星遗传学实验中,改进效果更加明显,AI的表现从8.57分跃升到了15.00分,几乎提升了一倍。
这个发现揭示了一个重要道理:AI处理长期任务的困难并不总是需要复杂的技术解决方案。有时候,简单的方法论改进就能产生显著效果。这种笔记刷新方法实际上模拟了人类专家处理复杂任务时的策略——定期整理思路,总结要点,然后以清晰的头脑继续工作。
研究团队还发现,仅仅增加AI的计算资源或交互步数往往适得其反。当AI被允许进行更多步骤的探索时,它们反而可能表现得更差,因为更多的交互机会意味着更多犯错和陷入混乱的可能性。这个发现对AI系统的设计具有重要启示:效率和节制有时比资源丰富更重要。
六、对未来的深远启示
这项研究的影响远远超出了学术圈的范围,它为我们理解AI的真实能力水平提供了全新的视角。长期以来,我们习惯于在短期、受控的环境中评估AI,就像只在实验室条件下测试汽车性能而不考虑真实道路的复杂性。UltraHorizon的结果提醒我们,AI在真实世界应用中可能面临我们之前未曾充分考虑的挑战。
这个发现对AI产业的发展具有重要指导意义。当前许多AI应用都专注于短期交互,比如回答单一问题、生成一段文本或识别一张图片。然而,真正有价值的AI应用往往需要长期的持续工作能力,比如辅助科学研究、管理复杂项目或提供长期的个人助理服务。
研究结果也为AI安全研究提供了新的思路。如果AI在长期任务中容易出现逻辑混乱和行为失常,那么我们在部署AI系统时就需要更加谨慎。特别是在那些需要长期自主运行的应用场景中,比如自动驾驶、医疗诊断或金融决策,AI的长期稳定性可能比短期性能更加重要。
对于AI研究者来说,这项工作开辟了一个全新的研究方向。传统的AI研究大多关注如何让AI变得更聪明,而这项研究揭示了一个同样重要但被忽视的问题:如何让AI变得更有耐力。这可能需要我们重新思考AI系统的架构设计,开发新的记忆管理机制,以及创造更好的长期规划算法。
教育领域也可以从这项研究中获得启发。就像人类学习需要培养耐心和持久力一样,AI的训练也可能需要更多关注长期能力的培养。这可能意味着我们需要开发新的训练方法,让AI从一开始就学会如何处理长期、复杂的任务。
从更广泛的角度来看,这项研究揭示了智能的一个重要维度:时间维度。真正的智能不仅仅是瞬间的聪明才智,更是在时间长河中保持清晰思维和有效行动的能力。这个发现可能会影响我们对人工智能、甚至对人类智能本身的理解。
说到底,这项研究告诉我们,AI虽然在许多方面已经表现得相当出色,但它们距离真正的通用智能还有很长的路要走。就像一个优秀的短跑选手不一定能成为马拉松冠军一样,在短期任务中表现卓越的AI系统在面临真实世界的长期挑战时可能会遇到意想不到的困难。这个认识既是对当前AI能力的清醒评估,也是对未来AI发展方向的重要指引。
未来的AI系统需要更像一个有经验的探险家,不仅要有敏锐的观察力和快速的反应能力,更要有坚韧的毅力、可靠的记忆和灵活的适应性。只有这样,AI才能真正成为人类在探索未知、解决复杂问题道路上的可靠伙伴。
这项研究最终提醒我们,人工智能的发展不应该只追求峰值性能,更应该关注持续性和稳定性。就像建造一座大厦,我们不仅要关注它能达到多高,更要确保它有足够坚实的基础能够长期屹立不倒。对于想要深入了解这项开创性研究的读者,可以通过论文编号arXiv:2509.21766v1查询完整的研究报告。
Q&A
Q1:UltraHorizon测试平台与传统AI测试有什么不同?
A:传统AI测试就像短跑比赛,通常只需要几千个字符和不到30次工具调用就能完成。而UltraHorizon就像马拉松比赛,AI需要处理超过20万个字符和400多次工具调用,考验的是AI的长期记忆、持续规划和适应能力,而不仅仅是瞬间的聪明才智。
Q2:为什么目前最先进的AI在UltraHorizon测试中表现这么差?
A:主要有两个根本原因:一是"情境锁定",AI容易固执于早期判断而不愿调整;二是"基础能力缺陷",包括记忆管理混乱、逻辑推理在长期任务中衰减、工具使用错误以及规划能力不足。就像让短跑冠军去跑马拉松,需要的是完全不同的能力组合。
Q3:研究团队提出的"上下文刷新与笔记回忆"方法是如何工作的?
A:这个方法很简单但很有效:当AI的对话历史变得过于冗长时,清空所有历史记录,然后让AI重新阅读自己之前记录的核心笔记来恢复记忆。这就像研究者定期清理桌面,只保留最重要的笔记,让思路保持清晰。实验显示这种方法能显著提升AI的长期任务表现。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。