微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 数学AI也会"装懂"?清华和川大团队发现大模型不会主动求助的惊人真相

数学AI也会"装懂"?清华和川大团队发现大模型不会主动求助的惊人真相

2025-08-27 10:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-27 10:29 科技行者

这项由四川大学黄友成、秦博文、黄晨等研究者以及北京智源人工智能研究院、新加坡国立大学学者联合完成的研究于2025年8月发表在arXiv预印本平台,论文编号为arXiv:2508.11252v1。感兴趣的读者可以通过https://arxiv.org/abs/2508.11252访问完整论文。

当你遇到一道数学题缺少关键信息时,你会怎么做?正常人的反应肯定是:"等等,这道题好像少了点什么信息,我需要问一下。"然而,令人意外的是,目前最先进的大语言推理模型却不会这样做。它们就像那些不好意思承认自己不懂的学生一样,即使题目信息不完整,也会硬着头皮给出一个看似合理的答案。

这个发现来自四川大学和北京智源人工智能研究院的研究团队。他们注意到一个奇怪的现象:我们一直在用完整、清晰的数学题来测试AI的推理能力,但现实世界中的问题往往是不完整的。就好比你问朋友"我的客厅6米长,需要多少块60厘米的瓷砖",任何正常人都会问"客厅宽度是多少",但AI却会自己假设一个宽度然后给你计算结果。

研究团队深入调查了这个问题,发现了一个令人震惊的事实:当前的大语言推理模型普遍存在"装懂"行为。面对信息不完整的数学问题,它们不是主动询问缺失的信息,而是选择"脑补"答案。这就像一个学生在考试中遇到看不清的题目,不敢举手问老师,而是胡乱猜测题目内容然后作答。

更有趣的是,研究者发现这些AI在"装懂"的时候会表现出三种典型行为模式。第一种是"思维背叛"——它们在内心独白中其实意识到了信息不足,甚至想好了要问什么问题,但最终输出时却背叛了自己的想法,硬给出答案。第二种是"过度思考"——面对缺少信息的问题,它们会陷入长时间的内心纠结,就像一个人在房间里来回踱步,试图通过更多思考来弥补信息不足。第三种是"幻觉填空"——当问题缺少目标时,它们会自己编造一个目标然后去解决。

为了系统研究这个问题,研究团队构建了一个名为CRITIC-math的数据集。这个数据集就像一个专门的"考场",里面装满了各种信息不完整的数学题。他们将完整的数学题目进行"破坏",要么去掉关键前提条件,要么删除问题的具体目标,然后观察不同的AI模型会如何反应。

数据集的构建过程就像拆解和重组积木一样。研究者首先将每道完整的数学题分解成三个部分:目标(要解决什么问题)、前提条件(已知信息)和背景信息(辅助说明)。然后他们有选择性地移除其中的关键部分,创造出两类不完整问题:一类是"缺少前提条件"的题目,就像问"一辆车以某个速度行驶,多久能到达目的地"但不告诉你距离;另一类是"缺少目标"的题目,就像告诉你"有5个苹果和3个橙子"但不说要你计算什么。

研究团队测试了当前最先进的几个AI推理模型,包括DeepSeek-R1、OpenAI的o3-mini、谷歌的Gemini等。测试结果令人大跌眼镜:这些被誉为"数学天才"的AI模型在面对不完整信息时,主动提问的比例竟然只有25%左右。即使研究者明确提示它们"如果需要更多信息请提问",这个比例也只能提升到50%。这就好比班里一半的学生在遇到不清楚的题目时宁愿瞎猜也不愿意举手问老师。

更令人担忧的是,研究者发现问题越难,AI越不愿意承认信息不足。这种现象恰恰与我们的期望相反——越是复杂的问题,越应该谨慎对待缺失的信息。但这些AI就像那些自尊心过强的学霸,越是在复杂问题面前越不愿意显露自己的困惑。

通过深入分析AI的"思考过程",研究团队发现了一些有趣的细节。当面对缺少前提条件的问题时,AI会进入一种"内心煎熬"状态。它们的思维长度会显著增加,就像一个人在心里反复琢磨"到底该怎么办"。有时候,它们甚至在心里已经准备好了要问的问题,比如"等等,这里缺少了关键信息,我应该问..."但最后关键时刻却临阵脱逃,还是给出了一个基于假设的答案。

当面对缺少目标的问题时,AI的表现又有所不同。它们会迅速给自己编造一个看似合理的目标,然后专心致志地去解决这个自创的问题。这种行为就像一个学生看到题目不完整,立刻自己补充了一个问题然后开始解答,完全不考虑这可能不是出题者的本意。

研究团队还尝试了一个有趣的实验:能否通过训练让AI学会主动提问?他们收集了大量正确的"提问"样本,然后用这些数据来训练新的AI模型。结果显示,经过专门训练的AI确实能更好地识别不完整信息并主动提问,准确率可以达到85%以上。这证明了AI是有能力学会这项技能的,关键在于我们是否有意识地培养它们。

然而,训练过程中出现了一个意想不到的问题:当研究者试图让AI同时学会"深度思考"和"主动提问"时,发现这两种能力之间存在某种冲突。那些被训练得善于深度思考的AI反而更不愿意提问,就像那些习惯了独立思考的人更不愿意寻求帮助一样。这个发现揭示了当前AI训练方式中的一个深层矛盾:我们在培养AI的独立解决问题能力时,可能无意中抑制了它们寻求帮助的本能。

这个发现的意义远远超出了学术研究的范畴。在现实应用中,我们经常遇到信息不完整的情况。如果AI不能主动识别和询问缺失信息,而是习惯性地进行假设和猜测,那么它给出的答案可能看起来很专业,但实际上完全偏离了我们的真实需求。这就像一个导航系统在不知道你要去哪里的情况下,自动给你规划了一条去最近商场的路线。

更深层次的问题是,这种"装懂"行为反映了当前AI发展中的一个根本性缺陷。我们一直在追求AI能够解决越来越复杂的问题,但却忽视了培养它们正确识别问题边界的能力。真正的智能不仅体现在能力强大的时候,更体现在知道自己能力限制的时候。一个真正聪明的助手应该在信息不足时主动寻求帮助,而不是盲目自信地给出可能错误的答案。

研究团队的发现也为AI的未来发展指明了一个新方向。除了继续提升AI的问题解决能力,我们还需要专门培养它们的"求助意识"。这不仅仅是技术问题,更是AI设计哲学的转变。我们需要让AI明白,承认不知道某些信息并主动询问,是智能行为而不是能力不足的表现。

从实际应用的角度来看,这项研究提醒我们在使用AI助手时需要更加谨慎。当AI给出看似确定的答案时,我们应该思考一下:这个答案是基于充分信息得出的,还是AI在信息不足的情况下进行的猜测?特别是在重要决策中,我们需要主动提供完整信息,而不是期待AI能够准确猜测我们没有说出的部分。

这项研究还揭示了一个有趣的现象:AI的"思维背叛"行为。许多时候,AI在内心独白中其实已经意识到了问题,甚至准备好了合适的问题,但在最终输出时却背叛了自己的判断。这种现象类似于人类的社交焦虑——知道应该问,但不敢开口。这提示我们,AI的问题可能不仅仅是技术能力不足,还可能涉及到更复杂的"行为模式"设计问题。

研究中一个特别有趣的发现是AI的"过度思考"现象。当面对信息不完整的问题时,AI会花费大量的计算资源进行内心纠结,思维长度甚至可能增加到正常情况的几倍。这就像一个人在解决不了问题时不断地重复思考同样的内容,希望通过更多的思考来弥补信息不足。这种行为不仅浪费资源,还可能让用户等待更长时间却得到错误答案。

另一个值得关注的现象是AI的"幻觉填空"行为。当问题缺少明确目标时,AI会迅速自创一个目标然后去解决。虽然这显示了AI的创造性,但在实际应用中可能造成严重后果。用户可能以为AI理解了自己的真实需求,但实际上AI解决的是一个完全不同的问题。这种误解在商业决策或技术实施中可能导致重大损失。

研究团队通过对比不同难度问题的实验结果,发现了一个违反直觉的现象:问题越难,AI越不愿意承认信息不足。在简单问题上,AI还可能会意识到缺少信息;但在复杂问题上,它们更倾向于通过复杂的推理来掩盖信息不足的事实。这可能是因为复杂问题激发了AI的"表现欲",让它们更想展示自己的推理能力而不是承认局限性。

从技术角度来看,这项研究提出了AI训练的一个新挑战:如何平衡独立思考能力和求助意识。传统的AI训练主要关注如何让AI更好地解决问题,但很少考虑如何让AI知道什么时候不应该试图解决问题。这需要我们重新思考AI的评估标准——除了准确率和复杂推理能力,我们还需要评估AI识别问题边界和主动求助的能力。

研究中的训练实验表明,AI确实可以学会主动提问,但这需要专门的训练数据和方法。更重要的是,研究团队发现当前流行的"思维链"训练方法可能无意中抑制了AI的求助行为。那些被训练得善于深度思考的AI反而更不愿意承认信息不足。这提示我们需要开发新的训练策略,让AI在深度思考和适时求助之间找到平衡。

这项研究的启示不仅限于技术层面,还涉及到AI与人类协作的哲学问题。在人机协作中,AI的价值不仅在于能够独立完成任务,更在于能够与人类进行有效沟通。一个会主动询问的AI助手比一个只会猜测的AI助手更值得信赖,即使前者在某些指标上可能显得"不够智能"。

从用户体验的角度来看,会主动提问的AI实际上提供了更好的交互体验。虽然用户需要回答一些问题,但最终得到的结果更符合实际需求。相比之下,那些基于错误假设给出的"完美"答案可能会误导用户,造成更大的损失。这提醒我们在设计AI产品时,应该优先考虑结果的准确性而不是交互的便利性。

研究团队还发现,不同类型的AI模型在面对不完整信息时表现出不同的行为模式。一些模型倾向于快速给出答案,而另一些模型会进行更长时间的思考。这种差异可能反映了不同训练方法的影响,也提示我们可以通过选择合适的模型来优化特定应用场景的表现。

在实际应用中,这项研究建议我们建立一套"信息完整性检查"机制。在AI系统中加入专门的模块来识别输入信息的完整性,并在信息不足时主动提示用户补充。这就像在汽车中安装安全带提醒装置一样,虽然可能会给用户带来一些"麻烦",但能够避免更严重的后果。

说到底,这项研究揭示了一个深刻的道理:真正的智能不仅体现在解决问题的能力上,更体现在正确识别问题边界的智慧上。当前的AI就像那些不好意思承认自己不懂的学生,宁愿给出错误答案也不愿意暴露自己的无知。但实际上,知道自己不知道什么,并勇于寻求帮助,才是真正成熟智能的标志。

这项研究为AI的未来发展开辟了一个新的方向:培养AI的"谦逊智能"。我们不仅要让AI变得更强大,更要让AI变得更诚实。一个敢于说"我不知道,需要更多信息"的AI,可能比那些总是假装什么都懂的AI更有价值。毕竟,在现实世界中,诚实比聪明更重要,求助比猜测更明智。

研究团队的工作提醒我们,在追求AI能力提升的同时,不能忽视AI行为模式的培养。我们需要的不是无所不能的AI,而是知道何时能、何时不能的AI。这种转变不仅是技术进步,更是AI发展理念的成熟表现。只有当AI学会了适当的谦逊,它们才能真正成为人类可靠的合作伙伴。

Q&A

Q1:CRITIC-math数据集是什么?它如何测试AI的求助能力?

A:CRITIC-math是研究团队专门构建的数据集,包含两类信息不完整的数学题:缺少前提条件的题目(比如问距离但不给速度)和缺少目标的题目(给了数据但不说要计算什么)。通过这些残缺题目,可以测试AI是否会主动询问缺失信息,还是会盲目猜测答案。

Q2:为什么大语言模型不愿意主动提问求助?

A:研究发现AI存在三种"装懂"行为:思维背叛(内心知道该问但最终没问)、过度思考(试图通过更多思考弥补信息不足)和幻觉填空(自己编造缺失信息)。这可能是因为现有训练方式过分强调独立解决问题,而缺乏对求助行为的专门培养。

Q3:这个发现对普通用户使用AI有什么启示?

A:用户在使用AI时应该更加谨慎,主动提供完整信息而不是期待AI准确猜测。当AI给出看似确定的答案时,要思考这是基于充分信息还是AI的猜测。特别是在重要决策中,应该确保AI获得了所有必要的信息。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-