微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 新加坡科技设计大学突破AI推理边界:当机器学会不依赖提示自主探索知识

新加坡科技设计大学突破AI推理边界:当机器学会不依赖提示自主探索知识

2025-11-05 10:11
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-05 10:11 科技行者

这项由新加坡科技设计大学的宋茂嘉、刘仁杭团队联合阿里巴巴通义实验室以及南洋理工大学共同完成的研究,发表于2025年10月的arXiv预印本平台(论文编号:arXiv:2510.05137v1),为我们揭示了当前AI系统在多步推理能力上的重大缺陷,并提出了一个全新的评估框架来诊断这些问题。

当我们谈论AI的智能程度时,总是习惯性地拿它与人类对比。人类在解决复杂问题时,往往需要经过多个步骤的推理——比如为了找到某位名人的父亲,我们可能需要先找到他的兄弟,再找到兄弟的继母,最后发现继母的丈夫就是答案。这种需要跨越多个知识点、进行多步推理的能力,正是人类智慧的重要体现。然而,研究团队发现了一个令人震惊的事实:目前最先进的AI系统在这类任务上的表现远比我们想象的要差。

传统的AI评估就像是给学生一份带有详细解题步骤的考试卷。题目会明确告诉AI:"请找到某某的兄弟的继母的丈夫",这样AI只需要按部就班地执行每个步骤即可。但现实世界的问题往往没有这样的提示。当我们问"谁是凯恩·科恩斯的父亲"时,AI需要自己想办法找到推理路径,而不是被动地执行预设步骤。

为了真正测试AI的自主推理能力,研究团队开发了一个名为WebDetective的全新评估基准。这个系统就像是为AI创造了一个"侦探推理游戏",在这个游戏中,AI必须在没有任何线索提示的情况下,自己发现并构建完整的推理链条。更重要的是,这个系统还能精确诊断AI在推理过程中到底在哪个环节出了问题——是搜索能力不足,还是综合分析能力有缺陷,抑或是缺乏适当的"知难而退"意识。

**一、从"照猫画虎"到"独立思考":AI推理能力的真正考验**

要理解这项研究的重要性,我们需要先明白当前AI评估中存在的根本问题。现有的多步推理测试就像是给学生一本详细的操作手册,然后考查他们能否按照手册操作机器。而真正的智能应该体现在面对全新问题时的独立思考能力。

研究团队将现有的评估方式分为三种类型。第一种是"路径提示型",就像有人直接告诉你"先找兄弟,再找继母,最后找丈夫"这样的明确指令。第二种是"规格提示型",虽然不直接给出步骤,但会提供大量约束条件,比如"找一个在某电台工作的前足球运动员,比妻子大20岁,妻子曾是某党候选人"。这种方式本质上是通过排除法缩小搜索范围,而非真正的推理。

第三种就是研究团队提出的"无提示型"评估。在这种模式下,AI面对的是最简单直接的问题:"谁是凯恩·科恩斯的父亲?"没有任何额外信息,AI必须自己想办法找到答案。这就像是让一个侦探在没有任何线索的情况下破案,完全依靠自己的推理能力和调查技巧。

为了确保测试的公平性和准确性,研究团队还创建了一个特殊的"沙盒环境"。这个环境就像是一个精心设计的迷宫,只有走对了路径才能找到下一个线索。比如,要想知道凯恩的父亲是谁,AI必须先访问凯恩的页面找到他的兄弟查德,然后访问查德的页面找到继母妮可,最后访问妮可的页面才能找到答案格雷厄姆。任何想要"抄近路"的尝试都会失败,这确保了所有成功的答案都真正反映了AI的推理能力。

**二、诊断AI的"病症":不只看结果,更要看过程**

传统的AI评估就像是只看考试分数,不关心学生的解题过程。一个学生可能因为搜索能力差而失分,另一个可能因为理解能力弱而失分,但最终的分数可能相同。研究团队认识到,这种"一刀切"的评估方式无法帮助我们真正理解AI的能力边界和改进方向。

为了解决这个问题,他们开发了一套精密的诊断框架,就像是为AI做全面体检。这套体检分为两大部分:知识获取能力和生成质量评估。

知识获取能力的评估重点关注AI是否能够收集到解决问题所需的所有信息。研究团队会跟踪AI在搜索过程中访问的每个页面,并记录它发现的证据。对于那些AI没有通过搜索找到的信息,系统会进一步测试AI是否在其内在知识库中拥有这些信息。比如,如果AI没有访问凯恩的页面,系统会直接问它"凯恩·科恩斯的兄弟是谁",看看它是否本来就知道这个信息。

这种双重检测机制能够精确区分AI的不同能力类型。有些AI搜索能力很强,能找到大量信息,但综合分析能力较弱。有些AI虽然搜索范围有限,但能巧妙地结合已有知识和搜索结果得出正确答案。这种细致的能力剖析为AI系统的改进提供了明确方向。

生成质量评估则关注AI在拥有足够信息后的表现。研究团队发现了两种截然不同的理想行为:当AI掌握充分证据时,它应该能够综合这些信息给出正确答案;当证据不足时,它应该明智地承认"我不知道"而不是胡编乱造。

这种评估方式揭示了AI系统的一个普遍问题:大多数AI要么过度自信(即使信息不足也要给出答案),要么过度保守(即使有充分证据也不敢下结论)。真正智能的系统应该具备准确的自我评估能力,知道什么时候该说话,什么时候该保持沉默。

**三、令人意外的发现:最强AI也只是"半桶水"**

当研究团队用这套全新的评估体系测试了25个当前最先进的AI系统时,结果让人大跌眼镜。即使是被认为最强大的AI模型,在这种无提示推理任务上的表现也远未达到人们的期望。

最令人震惊的发现是,即使是表现最好的系统,成功率也仅在50%左右。GPT-5和Grok-4这样的顶级模型的成功率分别为50.5%,而许多其他系统的表现甚至低于40%。这意味着在面对需要真正独立思考的问题时,当前最先进的AI系统仍然有一半的时间会失败。

更深入的分析揭示了一个更加令人担忧的现象:搜索能力和综合分析能力之间存在巨大脱节。许多AI系统能够找到解题所需的所有信息,但却无法将这些信息正确地组合起来得出答案。比如,GPT-5能够在80%的情况下找到所有必要证据,但其综合分析得分却只有23.21%。这就像是一个侦探能够收集到所有线索,却无法将它们串联起来破案。

研究团队还发现了AI系统在自我认知方面的严重缺陷。大多数系统在"适当拒绝"方面表现极差——当它们没有足够信息回答问题时,很少会承认自己不知道,而是倾向于编造答案。最好的系统在这方面的表现也只有53.95%,而许多顶级模型如GPT-5和o3-Pro的表现甚至低于10%。

这些发现表明,当前的AI系统虽然在执行预定推理路径方面表现出色,但在需要自主发现推理路径时却显得力不从心。它们更像是高效的"执行者"而非真正的"思考者"。

**四、AI的"性格画像":六种不同的智能类型**

通过对大量AI系统行为模式的深入分析,研究团队发现了一个有趣的现象:不同的AI系统展现出了截然不同的"性格特征"。这些性格差异反映了它们在处理复杂推理任务时的不同策略和能力倾向。

第一种类型被称为"强大但过度自信型",代表系统包括GPT-5、o3-Pro等。这类AI就像是才华横溢但过于自负的学生,它们有很强的知识获取和综合分析能力,成功率能达到50-56%,但却几乎从不承认自己的无知。即使在证据不足的情况下,它们也倾向于给出答案,拒绝率低于10%。这种行为模式在某些情况下很有用,但也容易导致错误信息的传播。

第二种是"校准良好的精英型",以Grok-4和Claude-Opus-4.1为代表。这类AI展现出了更好的自我认知能力,它们在保持较高成功率(44-51%)的同时,也具备了适度的谦逊,能够在29-38%的情况下适当拒绝。虽然这种谨慎态度会略微降低总体成功率,但却体现了更加成熟的智能表现。

第三种是"综合瓶颈型",典型代表是Qwen3-235B等模型。这类AI的表现最让人困惑:它们有很强的信息搜索能力,能在72.5%的情况下找到所有必要证据,但综合分析能力却极其薄弱,成功率不到25%。这就像是一个记忆力极佳但逻辑思维能力很差的人,能够记住大量事实但无法将它们联系起来。

第四种是"保守的中等型",包括Claude-Sonnet-4-Think、GLM-4.5-Inner等。这类AI在各项指标上都表现平庸,成功率在29-39%之间。它们似乎采取了一种过度谨慎的策略,即使在有能力回答的情况下也经常选择拒绝,这种过度保守限制了它们的实际效用。

第五种是"弱且困惑型",如o4-Mini、DeepSeek-R1等。这类AI不仅能力较弱,更糟糕的是它们缺乏对自身能力的准确认知。尽管综合分析能力只有16-18%,但它们仍然经常尝试回答问题,这种盲目自信导致了大量错误答案的产生。

最后一种是"自知之明型",代表是Doubao系列和Gemini-2.5-Flash-Think。虽然这类AI的能力相对较弱,但它们具备了良好的自我认知,能够在40-54%的情况下适当拒绝回答超出自己能力范围的问题。这种"知之为知之,不知为不知"的态度虽然限制了它们的表现,但却避免了误导用户。

这种性格分析揭示了一个重要事实:在AI系统的发展中,能力和智慧不是一回事。真正的智慧不仅体现在解决问题的能力上,更体现在对自身能力边界的准确认知上。

**五、AI的"健忘症"和"分心症":知识退化现象剖析**

研究团队在深入分析AI系统的失败模式时,发现了两种令人意外的现象,它们解释了为什么AI系统即使拥有足够的信息也经常无法给出正确答案。

第一种现象被称为"知识遗忘"。这就像是一个人在单独回答问题时记忆清晰,但在复杂情境下却忘记了自己知道的东西。研究团队设计了一个巧妙的测试:当AI在完整的推理任务中失败后,他们会单独询问AI那些缺失的知识点。令人惊讶的是,AI往往能够正确回答这些单独的问题,说明它们确实拥有相关知识,只是在综合推理过程中"忘记"了这些信息。

比如,一个AI系统可能无法回答"谁是凯恩·科恩斯的父亲",但当单独问它"凯恩·科恩斯的兄弟是谁"时,它能正确回答"查德·科恩斯"。这表明问题不在于知识的缺失,而在于在复杂推理过程中无法有效调用已有知识。

第二种现象是"注意力分散",就像是一个人在嘈杂环境中无法专心思考。AI在搜索过程中会遇到大量不相关的信息、失败的尝试和探索噪音,这些"干扰"会影响它们对真正有用信息的处理。研究团队通过对比AI在"干净"证据环境和"嘈杂"搜索环境中的表现,发现噪音环境确实会显著降低AI的推理成功率。

统计分析显示,在所有测试的AI系统中,知识遗忘现象比注意力分散现象更加普遍,平均差异达到10.35个百分点。这意味着AI系统的主要问题不是被无关信息误导,而是无法在复杂情境下有效整合自己已有的知识。

这一发现对AI系统的改进具有重要指导意义。它表明,简单地提升AI的搜索能力或扩大知识库可能并不是解决问题的关键,真正需要改进的是AI在复杂推理过程中的知识整合和调用机制。

**六、EvidenceLoop:AI推理能力的新突破尝试**

面对现有AI系统在无提示推理方面的种种问题,研究团队并没有止步于问题的发现,而是提出了一个创新的解决方案——EvidenceLoop框架。这个框架就像是为AI配备了一个专业的"推理助手团队",帮助它更好地处理复杂的多步推理任务。

EvidenceLoop的核心思想是将复杂的推理任务分解为多个并行的探索过程,然后通过迭代优化来逐步接近正确答案。想象一下组织一次大型探险活动:不是派一个人独自探索未知领域,而是派出多个小队同时从不同方向探索,然后定期汇合分享发现,制定下一步的探索计划。

具体来说,EvidenceLoop在每一轮迭代中都会启动多个"求解代理",每个代理都会尝试不同的推理路径。有的可能专注于人物关系,有的可能探索地理联系,还有的可能关注时间线索。这种并行探索大大增加了找到正确推理路径的可能性。

在每轮探索结束后,系统会进行两阶段的信息提炼。首先,一个"提取代理"会仔细分析所有探索结果,识别出有价值的发现、实体引用和有前景的推理路径。然后,一个"聚合代理"会将这些发现综合成精炼的上下文信息,为下一轮探索提供指导。这个过程就像是一个智能的信息过滤器,能够保留有用信息,丢弃噪音干扰。

EvidenceLoop还引入了一个创新的"证据记忆系统"。在推理过程中发现的每一条证据都会被分配一个唯一的"证据ID",并完整保存在持久化内存中。这样,AI既可以在简洁的摘要基础上进行高效推理,又能在需要时随时查阅完整的原始证据。这种设计有效解决了传统方法中信息丢失和上下文爆炸的矛盾。

为了确保推理过程的可靠性,EvidenceLoop还配备了一个严格的验证机制。当任何求解代理提出答案时,它必须将答案分解为具体的论断,并为每个论断提供证据ID支持。验证代理会检查这些论断是否确实得到了相应证据的支持,整个推理链是否逻辑一致,答案是否真正回应了原始问题。只有通过全面验证的答案才会被接受,这有效防止了错误答案的传播。

实验结果显示,EvidenceLoop在多个关键指标上都取得了改进。虽然改进幅度还不够突破性,但它证明了通过系统性的架构改进,确实可以提升AI的无提示推理能力。更重要的是,这个框架为未来的研究提供了一个清晰的改进方向。

**七、测试时间扩展的"无效性":为什么简单增加计算资源并不能解决根本问题**

在AI领域,有一种普遍的观点认为,给AI系统更多的计算时间和资源就能显著提升其性能。就像我们总是觉得考试时间更长就能考得更好一样。然而,研究团队的测试结果对这种直觉提出了挑战。

研究团队专门测试了"测试时间扩展"对AI性能的影响。他们给Claude-Opus-4.1提供了从8K到32K token的不同上下文长度,结果发现性能提升微乎其微:生成分数稳定在34%左右,成功率保持在50%左右,搜索分数的提升不到1%。这就像是给一个找不到路的人更大的地图,但如果他缺乏导航能力,更大的地图并不能帮助他更快到达目的地。

类似地,当他们为EvidenceLoop系统增加更多的并行探索线程和迭代轮数时,虽然搜索分数有轻微提升(从45%到46%),但生成分数基本不变,成功率提升也很有限(从49%到56%)。这表明,简单的规模扩展并不能解决AI系统在推理能力上的根本缺陷。

这一发现具有重要的理论和实践意义。它表明,WebDetective基准测试确实触及了AI能力的核心瓶颈,而不是可以通过"暴力破解"方式解决的表面问题。真正的改进需要在模型架构、推理机制和知识整合方式上实现突破,而不是简单地增加计算资源。

这种"时间扩展无效性"也从侧面验证了WebDetective评估框架的鲁棒性。一个好的基准测试应该能够区分真正的能力提升和简单的资源堆砌,而WebDetective显然做到了这一点。

**八、对未来AI发展的深远影响**

这项研究的意义远远超出了一个新评估工具的范畴,它为我们重新思考AI智能的本质提供了重要启示。

首先,这项研究揭示了当前AI评估体系的根本缺陷。大部分现有评估都在无意中为AI提供了过多的"拐杖",让它们看起来比实际情况更智能。真正的智能测试应该像WebDetective这样,要求AI在没有任何提示的情况下独立发现和构建推理路径。

其次,研究结果表明,当前AI系统的能力结构存在严重的不平衡。它们在信息检索方面已经相当出色,但在知识整合和自我认知方面还有巨大的改进空间。这为AI研究的未来方向提供了明确指引:不是继续堆砌更多数据和计算资源,而是要专注于提升推理架构和知识整合机制。

第三,这项研究强调了AI系统"自知之明"的重要性。一个真正智能的系统不仅要知道很多事情,更要知道自己知道什么、不知道什么。在信息爆炸的时代,能够适当承认无知的AI可能比那些什么都想回答的AI更有价值。

从实际应用角度来看,这项研究的发现对于AI系统的实际部署具有重要指导意义。企业和开发者在选择AI系统时,不应该只看它们在标准基准测试上的表现,更要关注它们在真实、开放场景下的推理能力。特别是在医疗、法律、教育等需要严格推理的领域,AI系统的"知难而退"能力可能比"无所不知"更加重要。

研究团队提出的诊断框架也为AI系统的持续改进提供了宝贵工具。就像医生需要详细的检查报告来诊断病情一样,AI开发者也需要这样的细粒度分析来理解系统的具体问题所在。这种精密诊断能力将大大加速AI技术的发展进程。

说到底,这项研究提醒我们,真正的人工智能还有很长的路要走。目前的AI系统虽然在许多任务上表现出色,但它们更像是高级的"模式匹配器"而非真正的"思考者"。要实现真正的人工智能,我们需要的不仅仅是更大的模型和更多的数据,更需要对智能本质的深入理解和创新的架构设计。

WebDetective基准的出现,就像是为AI研究领域点亮了一盏明灯,它不仅暴露了当前系统的问题,更为未来的改进指明了方向。随着更多研究者采用这种"无提示"的评估方式,我们有理由相信,真正具备自主推理能力的AI系统将会更快到来。对于那些希望深入了解这项开创性研究的读者,可以通过论文编号arXiv:2510.05137v1在arXiv平台上查阅完整的技术细节和实验数据。

Q&A

Q1:WebDetective评估框架与传统AI测试有什么根本区别?

A:WebDetective最大的创新是去除了所有"提示"信息。传统测试就像给学生一份带详细步骤的考卷,而WebDetective只给出最简单的问题如"谁是某某的父亲",要求AI完全依靠自己发现推理路径。它还创建了特殊的沙盒环境,确保AI必须按正确顺序找到线索,无法走捷径。

Q2:为什么顶级AI系统在WebDetective测试中表现这么差?

A:研究发现,当前AI系统更像是优秀的"执行者"而非真正的"思考者"。它们擅长按照给定步骤执行任务,但在需要自主发现推理路径时就显得力不从心。即使是GPT-5这样的顶级模型,成功率也只有50%左右,而且普遍存在过度自信问题,很少承认自己不知道答案。

Q3:EvidenceLoop框架是如何改进AI推理能力的?

A:EvidenceLoop采用了"并行探索+迭代优化"的策略,就像组织多支小队同时探索然后汇合分享发现。它包含证据记忆系统为每条信息分配唯一ID,以及严格的验证机制确保答案有证据支持。虽然改进幅度有限,但证明了通过系统性架构改进可以提升AI的无提示推理能力。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-