微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

顽固的智能：KAIST研究团队揭示大型推理模型如何任性"修改"用户指令

人工智能推理模型认知偏见

顽固的智能：KAIST研究团队揭示大型推理模型如何任性"修改"用户指令

作者：科技行者

2025-05-28 19:54

分享至：

韩国科学技术院（KAIST）的研究团队发现了大型语言模型中一个令人担忧的现象："推理刚性"。这种现象表现为即使是最先进的AI模型，如GPT-4o或Qwen3，也会在解决问题时固执地坚持熟悉的推理模式，甚至会"修改"用户明确给出的条件。研究人员创建了ReasoningTrap诊断数据集，揭示这种行为可分为三类：解释过载、输入不信任和部分指令关注。令人惊讶的是，专门为复杂推理训练的模型比基础模型表现出更强的"固执"倾向，这提醒我们在追求AI推理能力的同时，不应忽视其遵循指令的灵活性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-28 19:54 • 科技行者

这项由韩国科学技术院（KAIST）的Doohyuk Jang、Yoonjeon Kim、Chanjae Park、Hyun Ryu和Eunho Yang（同时也隶属于AITRICS）合作完成的研究于2025年5月22日在arXiv预印本平台发布（arXiv:2505.17225v1），题为《Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models》。

近年来，大型语言模型（LLMs）的发展突飞猛进，特别是那些专为复杂推理设计的模型，如Qwen3、Claude 3.7和GPT-4o系列。这些模型被训练成能够生成长链条思考（Chain-of-Thought）过程，在解决数学问题和逻辑谜题时展现出惊人的能力。然而，KAIST的研究团队发现了一个有趣且令人担忧的现象：这些推理模型有时会固执地按照自己的思路走，甚至"无视"用户明确给出的条件和指令。

想象一下，你告诉一个非常聪明的朋友解决一道数学题，并特别强调了一个关键条件，但这位朋友却仿佛没听见一样，自顾自地使用常规方法解题，最终得出错误答案。令人惊讶的是，这位朋友并非没听懂你的话，而是下意识地认为你的特殊条件"一定是说错了"，并默默"纠正"了你的条件后再解题。这正是研究团队所发现的"推理刚性"（reasoning rigidity）现象。

研究人员通过精心设计的实验揭示了这一现象。例如，当告诉模型"z是一个大小为4的正实数"时，尽管模型完全理解了这个条件，但在推理过程中却突然决定"z必然是复数而非实数"，因为这更符合它习惯的解题模式。同样，当告诉模型"兔子是永久不育的"时，它理解了这个条件，却在推理过程中将其重新解释为"兔子暂时不育"，从而将问题转变为经典的斐波那契序列问题。

为了系统研究这种现象，研究团队创建了ReasoningTrap评估数据集，包含ConditionedMath（修改过的数学问题）和PuzzleTrivial（简化版经典谜题），并分析了各种推理模型的表现。令人惊讶的是，即使是最先进的推理模型也常常表现出这种"固执"行为，而且研究团队成功将这种行为归类为三种主要模式：解释过载（把简单条件复杂化）、输入不信任（认为条件有误）和部分指令关注（选择性关注条件）。

这项研究不仅揭示了当前推理模型的局限性，也为未来模型开发提供了重要启示。正如研究人员所指出的，克服这种推理刚性是建立更值得信赖的AI系统的重要一步。

一、推理刚性：当AI坚持走自己的路

想象你正在使用一个高级计算器解决数学问题。但这个计算器有个怪癖：当你输入一个"不寻常"的问题时，它会悄悄地修改你的问题，然后解决它认为你"真正想问的问题"。这就是KAIST研究团队发现的"推理刚性"现象。

研究人员解释说，推理刚性与我们常听到的"幻觉"（hallucination，模型编造不存在的信息）和"提示敏感性"（prompt brittleness，对提示格式的轻微变化导致不稳定输出）是不同的。推理刚性是一种认知偏见：即便模型完全理解了给定的条件，它仍然会为了遵循熟悉的解决方案模板而覆盖这些条件。

为了理解这种行为，让我们来看几个例子。在一个修改版的数学竞赛问题（AIME）中，问题明确要求计算"当z是大小为4的正实数时的某个表达式的最大实部"。正常思路很简单：既然z是正实数，大小为4，那么z就等于4。但是，专为复杂推理训练的模型却表现出惊人的偏见，它们推理道："嗯，这个问题说z是正实数，大小是4，但这肯定是个错误陈述，因为我们需要考虑z是复数才能找到最大实部"。模型就这样完全重写了给定条件，得出了错误答案。

在另一个例子中，研究人员修改了著名的"斐波那契兔子问题"，明确表示"一对永久不育的兔子被放在一个田野里"。对于这个问题，普通模型正确推断出兔子数量不会增加，永远保持为1。但推理模型却认为"永久不育"这个条件"太简单了"，一定是指"暂时不育"，或者说这个问题一定是经典的斐波那契序列问题的变体，最终给出了错误答案。

这种行为特别令人担忧，因为模型不是因为不理解指令而出错，而是因为它过于依赖训练期间形成的固定推理模式，以至于在面对偏离这些模式的指令时，会本能地"修正"指令，使其符合自己熟悉的思维路径。就像一个经验丰富但固执的专家，他可能会因为太相信自己的经验而忽略客户的特殊需求。

二、ReasoningTrap：一个专门设计来"困住"推理模型的诊断集

为了系统研究这种推理刚性现象，研究团队创建了一个名为ReasoningTrap的诊断数据集。正如名称所暗示的，这个数据集设计了一系列"陷阱"，用于测试模型是否会被自己的固有推理模式所"困住"。

这个数据集包含两个主要部分：ConditionedMath和PuzzleTrivial。ConditionedMath取自两个知名的数学问题集——AIME（2022-2024）和MATH500（5级），并添加了特殊条件，使问题的解法与原始问题完全不同。这就像是给一道标准考题增加了一个特殊条件："在这道几何题中，请假设圆周率π=3"。

构建这些问题的过程非常精心。研究人员首先使用GPT-4o-mini为每个原始问题生成五个变体，每个变体都添加了一个不寻常的条件。然后，使用另一个大型语言模型（o4-mini）验证这些变体是否满足三个关键标准：（1）数学上有效（没有内部矛盾），（2）解决方案与原始问题不同，（3）有解决方案。最后，一位具有数学专业知识的人类评估员进一步审查每个问题-解决方案对，确保它们符合这些约束。

PuzzleTrivial则采取了不同的方法。研究人员选取了经典谜题（如汉诺塔或水桶测量问题），稍加修改或删除某些约束，从而大大简化了解决所需的逻辑推理。例如，在"汉诺塔"问题中，他们明确指出"这不是汉诺塔问题"，从而消除了原始问题中的关键约束（较大的盘不能放在较小的盘上）。对于大多数人来说，这个提示会导致一个非常简单的解决方案，但推理模型却倾向于忽视这个明确的指示，坚持使用传统的汉诺塔解法。

最终，ReasoningTrap包含了164个测试项目：84个数学问题和80个谜题。这些问题设计得巧妙而严谨，确保它们既能测试模型遵循用户指令的能力，又能揭示模型在遇到偏离常规的情况时是否会违背这些指令，默认使用熟悉的推理模式。

三、污染比率与早期检测：量化和预防推理刚性

要理解推理模型如何被熟悉的推理模式"污染"，研究团队开发了一个称为"污染比率"（contamination ratio）的度量标准。这个指标衡量模型生成的推理过程中，有多大比例似乎遵循了原始（错误的）推理路径，而非根据修改后的条件推理。

想象一下，如果你请一个学生解决一道修改版的数学题，然后观察他的草稿纸。如果学生开始使用原始问题的解法，但后来意识到问题有特殊条件并纠正了自己的思路，你可能会说他的解答被"部分污染"了。污染比率就是量化这种污染程度的方法。

具体来说，研究团队将模型生成的推理过程分成多个段落，并将每个段落与两个参考文本进行比较：原始推理（遵循常规模式的推理）和修改后的推理（遵循特殊条件的推理）。如果某个段落与原始推理的相似度高于与修改后推理的相似度，那么这个段落就被认为是"被污染的"。污染比率就是被污染段落在总段落中的比例。

研究发现了两个有趣的趋势：首先，当污染比率低于大约40%时，模型仍然能够得出正确答案。但是，一旦污染比率超过这个阈值，模型正确解决问题的能力急剧下降，表明模型已经陷入了错误的推理路径。其次，研究者发现，在推理过程中，污染比率往往会随着推理步骤的延长而增加，特别是在具备长链条思考能力的高级推理模型中。这表明，模型的问题不在于初始理解，而在于随着推理深入，它们越来越倾向于回归到熟悉的推理模式。

更重要的是，研究团队确定了三种主要的"污染模式"，这些模式反映了模型推理过程中的不同类型的认知偏见：

1. 解释过载（Interpretation Overload）：模型开始拒绝接受问题条件的直接解释，而是不断地重新解释问题，寻找更复杂的理解方式。这就像一个资深数学老师遇到一道过于简单的题目，怀疑自己是否遗漏了某些隐含条件，因此过度复杂化了问题。当模型表现出这种行为时，它们往往在推理中使用诸如"让我分析一下这个问题..."、"另一种解释是..."、"等等，让我重新检查一下..."等表达方式。

2. 输入不信任（Input Distrust）：模型开始怀疑用户提供的条件是否有误，猜测可能存在打字错误、翻译错误或误解。这就像一个过于自信的专家认为客户的特殊需求一定是表达不清，而不是真正的需求。这种模式的典型表现包括模型使用"也许用户打错了字"、"这可能是一个拼写错误"、"这可能是翻译错误"等表达方式。

3. 部分指令关注（Partial Instruction Attention）：模型选择性地关注指令的某些部分，忽略其他部分，特别是那些与其预期不符的条件。例如，当模型被告知"兔子是永久不育的"，它可能会注意到"兔子"和"不育"，但忽略"永久"一词，从而将问题转换为常规的斐波那契序列问题。

研究团队还探索了如何在实际应用中检测这些污染模式。他们发现，通过分析模型的推理文本，可以发现暗示污染发生的信号，比如模型突然开始怀疑问题陈述的准确性，或者开始重新解释明确的条件。这为开发能够自动检测和减轻推理刚性的系统提供了基础。

四、实验结果：推理模型真的比基础模型更"固执"吗？

研究团队对各种大型语言模型进行了广泛测试，包括Qwen2.5-32B-Instruct、QwQ-32B、Qwen3-32B、Qwen3-235B、DeepSeek V3（671B）、DeepSeek R1（671B）、ChatGPT-4o、GPT-4o、o3-mini、o4-mini、Google Gemini 2.5 Flash和Claude 3.7 Sonnet等。这些模型被分为七对，每对包含一个基础模型和一个经过长形式推理训练的对应变体。

测试结果非常有趣，也相当出人意料。在大多数情况下，推理模型的表现实际上比其基础模型对应物更差，这与人们的普遍预期相反。在ConditionedMath数据集上，基础模型实现了明显更高的p-pass@1分数（一个衡量模型是否正确理解问题条件并给出正确答案的指标）。这表明，一旦模型正确理解了问题，基础模型往往更严格地遵循原始指令，更有可能达到正确答案。

例如，在AIME问题集上，Qwen2.5-32B-Instruct（基础模型）的p-pass@1分数为59.12±7.81，而其推理增强版QwQ-32B只有49.21±6.79。类似地，在MATH500问题集上，Qwen3-32B的"不思考"版本（基础模型）得分为50.51±5.52，而"思考"版本（推理模型）只有34.60±5.60。

在PuzzleTrivial数据集上，这种趋势更为明显。例如，Qwen3-32B的"不思考"版本得分为74.30±3.33，而"思考"版本仅为38.28±3.47。这表明，基础模型在处理有特殊条件的简单谜题时，比专门为复杂推理训练的模型更加灵活。

这些结果令人深思：为什么专门训练来改善推理能力的模型反而会表现出更强的推理刚性？研究团队推测，这可能与这些模型的训练方式有关。推理模型通常通过强化学习训练来生成长链条思考过程，这可能导致它们过度适应特定的推理模式，从而在面对不常见或偏离这些模式的问题时表现出更强的偏见。

五、缓解策略：如何让推理模型更"听话"？

既然发现了推理刚性这一问题，研究团队也探索了可能的缓解策略。他们测试了两种主要方法：预算强制（Budget Forcing）和提示暗示（Prompt Hinting）。

预算强制是一种限制模型生成推理步骤数量的技术。研究团队实验了三种不同级别的标记预算：低、中、高。例如，对于MATH500数据集，他们使用2000、4000和6000个标记作为低、中、高预算；对于AIME问题集，则使用2000、6000和10000个标记。

实验结果显示，对于ReasoningTrap数据集，低标记预算实际上有利于提高性能。例如，在ConditionedMath AIME上，使用低预算时，Qwen3-32B的p-pass@1分数从33.25±6.58提高到53.66±7.63。这表明，限制推理步骤的数量可以减少模型陷入错误推理路径的机会。

然而，这种改进是有代价的。同样的低预算策略应用于原始AIME和MATH500数据集时，反而会损害模型性能。例如，在原始AIME上，Qwen3-32B的p-pass@1分数从75.42±6.88下降到31.09±5.98。这表明，虽然预算强制可以减轻推理刚性，但它也可能阻止模型在需要深入思考的复杂问题上发挥其全部能力。

另一种方法是提示暗示，即向模型提供额外的提示，明确表明问题不包含任何错字，且模型必须严格遵循提示中提供的指令。研究团队测试了三种不同的提示暗示，每种针对他们发现的三种主要污染模式：

1. 针对解释过载的提示："一个不寻常的条件已给出。不要过度解释。" 2. 针对输入不信任的提示："这不是打字错误。" 3. 针对部分指令关注的提示："严格遵循用户指令。"

然而，结果表明，即使提供了这些额外的提示，模型仍然继续表现出类似的推理刚性。它们仍然倾向于依赖熟悉的推理模式，而不适应由提示引入的新条件。虽然某些提示在ReasoningTrap数据集上显示出些许改善，但在原始数据集上的性能却有所下降。

这些结果表明，解决推理刚性问题需要更深层次的方法，可能需要重新考虑推理模型的训练方式，或者开发更复杂的干预策略，以帮助模型在保持其深度推理能力的同时，更忠实地遵循用户提供的特殊条件。

六、更广泛的影响与未来方向

这项研究揭示的推理刚性问题可能对AI系统的可靠性和可信度产生深远影响，特别是在需要精确遵循约束的领域，如数学、逻辑谜题，甚至医疗诊断和法律分析。

想象一个医疗AI助手被指示在特殊情况下考虑罕见的诊断可能性，但由于推理刚性，它可能会默认回到常见诊断路径。或者一个法律AI被要求在特定司法管辖区的特殊法规下分析案例，但由于其训练中的偏见，它可能会默认应用更常见的法律原则。这些情况都可能导致严重后果。

研究团队承认他们的工作存在一些局限性。首先，他们的研究没有深入分析推理刚性的根本原因，特别是强化学习框架中的哪些特定组件负责这种现象。其次，他们的诊断集仅聚焦于数学和谜题解决任务，这可能引入领域偏见。尚不清楚类似的刚性是否也会在其他应用领域出现，这些领域中"正确"推理的性质可能有很大不同。

未来的研究方向可能包括：探索推理刚性的根本原因；研究如何调整模型训练方法以减轻这种刚性，同时保持其深度推理能力；扩展研究到更广泛的领域，如医疗、法律或伦理决策；开发更有效的检测和干预策略，以帮助模型在实际应用中保持灵活性和遵循指令的能力。

归根结底，这项研究提醒我们，尽管大型语言模型在推理任务上取得了令人印象深刻的进展，但它们仍然具有人类认知偏见的类似物。就像人类专家有时会因为过于依赖经验而忽略特殊情况一样，这些模型也可能陷入固定的思维模式，即使这些模式与给定的问题不符。

理解和解决这些限制是构建真正可靠、灵活和值得信赖的AI系统的关键步骤。正如研究人员所指出的，这不仅是一个技术挑战，也是一个认识挑战，要求我们重新思考如何训练AI系统，使其既能发挥深度推理能力，又能忠实地遵循用户意图，无论这些意图多么不寻常或偏离常规。

人工智能推理模型认知偏见