微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI"答对了却还在唠叨"：新加坡科技设计大学等机构揭示训练数据中的隐形陷阱

大型语言模型链式思维推理训练数据优化

当AI"答对了却还在唠叨"：新加坡科技设计大学等机构揭示训练数据中的隐形陷阱

作者：科技行者

2026-06-09 10:14

分享至：

本文研究了答案正确的长链式思维训练数据中存在的"有害延续"现象，提出轻量级HCC方法，可删除答案支撑后的冗余推理尾部，显著提升AI模型的监督微调效果。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-09 10:14 • 科技行者

这项由新加坡科技设计大学、新加坡管理大学与电子科技大学联合开展的研究，以预印本形式发表于2026年5月，论文编号为arXiv:2605.29288。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

**一、一个让人头疼的怪现象**

假设你正在培训一批新员工解题，你给他们看了大量的解题示范。这些示范全都得到了正确答案，按理说应该是很好的学习材料。然而，有些员工学完之后表现得很好，另一些员工学完之后表现却差得多——而他们看的范例答案都是对的。

这个困惑，正是这篇论文要解决的核心问题。只不过这里的"员工"是大型语言模型（也就是类似ChatGPT的AI系统），而那些"解题示范"是所谓的"长链式思维轨迹"（Long Chain-of-Thought traces），简单说就是AI在回答问题时写下的一长串推理过程。

答案对了，推理过程也对了，为什么训练效果还是天壤之别？研究团队经过深入调查，发现了一个此前没人系统研究过的隐藏问题：有些推理过程在给出正确答案之后，还在继续喋喋不休地推理、验证、反复确认……这部分"多余的尾巴"，就是让训练效果变差的罪魁祸首。研究团队把这种现象命名为"有害延续"（Harmful Continuation）。

**二、推理"尾巴"究竟是什么**

要理解这个问题，可以把AI的推理过程想象成一个侦探破案的故事。侦探（AI）收到一道数学题，开始一步步分析线索，最终锁定了嫌疑人（得出正确答案）。正常情况下，案子破了，故事结束。

但"有害延续"的情况是这样的：案子其实已经破了，嫌疑人也已经被明确指认，但侦探还在继续翻箱倒柜、反复查阅已经看过的证据、重新梳理早就确认过的线索，甚至开始怀疑自己之前的结论，转而得出一个互相矛盾的结果——然后又重新验证一遍，再验证一遍……这段多余的"侦查过程"，虽然最终没有改变案件结论，却占据了大量篇幅，而且充满了混乱和不确定性。

当AI在训练时把这整段记录（包括那条又长又乱的"尾巴"）当作学习范本，它就会学到一种坏习惯：即使已经有了答案，也要继续绕圈子、反复自我质疑。这就是为什么训练出来的模型表现会下降。

研究团队特别强调，他们的结论并不是说"推理越短越好"，也不是说所有的长推理都有问题。真正的问题在于：当推理过程已经充分支撑了正确答案之后，那些继续运行的额外推理步骤，在特定条件下会对训练产生负面影响。

**三、研究团队是怎么发现这个问题的**

为了证明这个推断，研究团队设计了一套非常精巧的实验方案。他们使用了两个当前最先进的AI模型——Qwen3-235B和DeepSeek-R1——来生成大量的推理轨迹，总共收集了4780条答案正确的长推理样本，作为研究对象。

接下来，他们引入了一个关键工具：一个"只删不改"的编辑器（delete-only editor）。这个编辑器由另一个27B参数的AI模型（Qwen3.5-27B）担任，它的任务非常明确：找出推理过程中那些在答案已经得到充分支撑之后仍然继续的句子，并把它们标记为可以删除的部分——但绝对不改写、不替换原有内容，只是做删除操作，同时保留原始的正确答案。

这种"只删不改"的设计非常关键。如果编辑器可以重写推理过程，那实验结论就变成了"重写后的内容更好用"，而不是"原来的尾巴有害"。通过只删除而不修改，研究团队能够最干净地测试：把那条"尾巴"去掉之后，训练效果是否真的会改善？

实验结果非常清晰：在删除了编辑器标记的后续内容之后，用这些处理过的推理轨迹训练AI，所得到的模型在数学推理测试中的表现明显优于用原始完整轨迹训练的模型。这就是"有害延续"这一说法获得实证支持的核心依据。

**四、从两个角度解剖"有害尾巴"的特征**

光知道"尾巴有害"还不够，研究团队进一步追问：这条"尾巴"究竟有什么具体特征，能让我们识别它？他们从两个不同的维度展开了诊断分析，就像侦探同时从心理画像和行为轨迹两个角度来刻画嫌疑人。

第一个维度是"不确定性"视角。研究团队使用一个专门的评估模型，来测量推理过程中每一步对于最终答案的支持程度。打一个形象的比方：如果把推理过程比作一条通向目标的山路，那"不确定性"就是路上的迷雾浓度——迷雾越浓，说明走这一步对到达目标的帮助越不清晰。

分析结果显示，在编辑器保留的推理部分（称为"保留推理"），迷雾虽然有时会短暂变浓，但总体上路越走越清晰，到达目标的预期逐渐变得确定。然而一旦进入被标记为可删除的后续部分，情况发生了戏剧性的反转：迷雾不仅没有消散，反而越来越浓，而且路也越走越不像是在朝目标靠近。换句话说，这段推理让AI越来越不确定自己的答案，而不是越来越确定。

第二个维度是"几何进展"视角。这个视角更加抽象，但道理其实很直观。研究人员借用了一种分析AI内部状态变化的技术：每走一步推理，AI内部的"思维状态"（用数学向量表示）都会发生一次移动。如果把这个过程比作在一张巨大地图上的行军，那"隐藏状态位移"（hidden displacement）就是每一步迈出的步伐大小，而"前向进展"（forward progress）则是每一步实际向终点方向推进的距离。

对比两组数据后，研究团队发现：在保留推理部分，每一步都在扎实地向最终答案的方向推进，步伐有力；而在被删除的后续部分，步伐变得细碎而虚浮，虽然也在走，但方向并不对准终点，很多精力被浪费在无效的"原地踏步"上。具体数字非常说明问题：保留推理的平均隐藏状态位移是44.92，而可删除部分只有21.91；前向进展分别是20.50和10.79。在79%的样本中，被删除的部分都比保留的部分表现更差。

把这两个维度的发现合在一起，就构成了研究团队所定义的"不确定性-几何错配"（uncertainty-geometry mismatch）：在那条有害的"尾巴"里，推理过程既在制造更多的混乱和不确定性，又没有相应地在向答案方向取得更多进展。这两件坏事同时发生，就是识别有害延续的核心特征。

**五、一把轻便的"剪刀"：HCC方法的诞生**

发现了问题，下一步当然是想办法解决它。然而，用一个27B参数的大模型来充当编辑器，在实际应用中代价太高——每处理一条训练数据，都需要动用这么大的算力，根本不现实。研究团队因此设计了一个轻量级的替代方案，称为"有害延续裁剪"（Harmful Continuation Cut，简称HCC）。

HCC的构思可以用一个类比来理解：你请了一位经验丰富的大厨（27B编辑器）品尝了大量菜肴并记下了哪些部分该扔掉，然后你训练了一个小学徒（HCC），让他看着大厨的示范学习判断标准。这位小学徒只有498M参数，不到大厨的2%，但他通过学习大厨的判断积累了识别"该扔掉的部分"的能力。

HCC的技术构成可以分三个层次来理解。第一层是"感知层"：HCC使用一个冻结的小型语言模型（Qwen2.5-0.5B-Instruct）来读取整个推理过程，并在每个句子的结尾提取一个代表当前推理状态的数学信号。这就像是学徒在品尝每一道工序的半成品，记录下当前的口感特征。第二层是"诊断层"：HCC会同时估算两个指标——当前这步推理的不确定性有多高，以及当前这步推理在几何方向上的进展有多少。这正是对前面分析的"不确定性-几何错配"的直接运用。第三层是"决策层"：HCC把这两个信号综合起来，用一个专门训练的"切割头"（cut head）来预测：推理应该在哪个句子之后停止，后面的内容可以安全删除。

为了让HCC学得更好，研究团队还在其内部加入了一种"连续潜在变量"机制，让模型能够感知推理步骤之间的顺序关系，而不是孤立地判断每一个句子。这就好比学徒不只是品尝单独的食材，而是理解整道菜从生到熟的演变过程，从而更准确地判断何时应该停止加热。

在计算成本上，HCC只需要2.5万亿次乘加运算（MACs），而27B编辑器需要137.1万亿次——节省了大约54倍的计算量。这使得大规模处理训练数据成为可能。

**六、实验效果：数字说话**

研究团队在多个基准测试上验证了HCC的效果，使用了两种骨干模型：一个是LLaMA3.2-3B（一个相对轻量的模型），另一个是Qwen2.5-Math-7B-Instruct（一个专门针对数学优化的模型），测试集包括MATH500、AMC23和GSM8K三个数学推理基准。

以LLaMA3.2-3B为例，直接用原始未处理的推理轨迹训练（Vanilla），在MATH500上的得分是29.8，AMC23是10.0，GSM8K是69.0，平均36.3分。而用HCC处理后的轨迹训练，三项分别提升至43.2、17.5、75.1，平均45.2分——提升幅度非常显著。更重要的是，HCC的成绩与使用27B大模型编辑器处理后的结果（平均45.7分）几乎持平，在某些子项上甚至超过了大模型编辑器。这说明这个只有500M参数的轻量代理，确实学到了大模型判断的核心逻辑。

与此形成对比的是"启发式截断"方法（Heuristic），也就是按照某些经验规则简单截短推理过程——这种方法的平均得分只有40.2，明显低于HCC。这说明HCC的提升并不仅仅来自"把推理变短"，而是真的找到了该删的地方。

为了进一步排除"只是变短了所以变好"这个可能性，研究团队还设计了一个"随机切割"（Random Cut）对照实验：同样保留答案、同样删除一段与HCC等长的推理尾部，但是随机决定从哪里开始删。结果，随机切割的平均得分只有29.0，远低于HCC的49.3（此处使用的是{T}R数据集下的结果）。这个对比非常有力地说明：关键不是删了多少，而是删的位置对不对。

**七、效果的广泛性验证**

研究团队并不满足于仅在数学基准上验证效果，他们进行了更广泛的测试。

在非数学领域，他们在MMLU测试集上选取了六个不同学科（大学物理、大学生物、临床医学、职业心理学、高中统计学、高中生物），测试HCC训练的模型在这些领域的表现。结果发现，即使是用数学推理数据训练的模型，经过HCC处理后，在这些完全不同的知识型测试上的表现也优于未处理版本，且与大模型编辑器版本旗鼓相当。这意味着HCC带来的改进不只是让模型更擅长解数学题，而是让模型整体的推理习惯变得更健康。

研究团队还测试了HCC是否能够跨模型家族迁移。他们用来自Qwen3-235B的推理轨迹训练HCC，然后用训练好的HCC去处理来自DeepSeek-R1的推理轨迹，反之亦然。结果显示，HCC学到的判断规则具有一定的通用性，不只是记住了某一个模型的特定风格。

此外，研究团队还测试了HCC在强化学习（RL）阶段的效果。具体做法是：先用HCC处理过的数据进行监督微调（SFT），再在此基础上继续做GRPO（一种强化学习方法）训练，与直接用原始数据SFT后再做GRPO相比。结果显示，从HCC-SFT出发的模型，在每个强化学习训练步骤上的表现都持续优于从Vanilla-SFT出发的模型——在MATH500上，步骤40时分别是49.4对36.4。这说明训练数据的质量影响会持续到后续的强化学习阶段，起点好，终点也好。

**八、模型训练后的行为变化**

研究团队还做了一个非常有趣的"回溯诊断"：训练完成后，让各版本的模型去解答新问题，然后分析它们生成的推理过程是否还带有"有害延续"的特征。

结果显示，用原始数据训练的模型（Vanilla）在解答过程中，随着推理的进行，答案NLL（不确定性的一种度量）会在后期急剧上升——这正是模型"学会了绕圈子"的表现。而用HCC或大模型编辑器处理过的数据训练的模型，其生成的推理过程中，答案NLL保持了相当稳定的水平，几乎没有后期反弹。

从几何角度看，Vanilla模型生成的推理在中后期出现了明显的"高不确定性伴随低几何进展"的错配模式；而HCC和编辑器版本的模型则将这种错配压缩到了接近零的水平，尤其在推理末尾的表现尤为明显。两条曲线（HCC与编辑器）几乎重合，进一步印证了轻量级代理成功习得了大模型的判断逻辑。

用HCC检测器分析这些生成结果时也有类似发现：Vanilla模型生成的推理中，有81.73%被检测为含有可删除的后续延续模式，句子级别的占比高达51.84%；而HCC训练的模型，这两个数字分别降至60.42%和19.45%。

**九、一个生动的案例**

论文最后给出了一个具体的案例，非常直观地展示了两种模型的差异。题目是一道关于John开车回家的距离计算题：John先开了3小时（60英里/小时），然后因为忘了东西要返回，但堵车2小时没动，接着开了半小时（30英里/小时），最后以80英里/小时驶完剩余时间，问最终离家多远。

用HCC数据训练的模型表现像一个干净利落的侦探：清晰地拆解了四个阶段，逐步计算每段距离和剩余距离，很快得出正确答案45英里，干净利落地结束。

而用原始数据训练的模型则像是陷入了强迫症：它先是正确地计算出了45英里，但随即又从另一个角度重新计算，得出了315英里的结论——两个结果互相矛盾。然后模型开始反复比较两个答案，用不同方法重新验算时间分配，每次算出来都不一样（315、175……），不停地质疑自己，反复回头检查"John最初3小时的计算有没有问题"。最终，这个模型在反复循环中耗尽了允许输出的最大长度，没能给出最终答案。

这个案例非常直观地说明了"有害延续"的危害：模型学会了在已有答案之后继续无休止地探索，最终把自己绕进了死胡同。

**十、研究的边界与局限**

研究团队在论文中非常诚实地说明了这项工作的局限性，这是这项研究让人信服的重要原因之一。

首先，"只删不改"的编辑器给出的是一个"操作性"的边界，而不是推理过程中"真正有害"的精确位置。换句话说，编辑器的标注代表的是"这部分可以删掉而不影响恢复正确答案"，而不是"这部分一定对训练有害"。

其次，不确定性和几何进展的测量都是基于特定评估模型的代理指标，不是对推理过程"真实状态"的直接测量。

此外，HCC学习的是逼近编辑器所标注的边界，而不是在学习"何为本质性的有害"。更细粒度的成因分析是未来研究的方向。

最后，这项研究的所有实验都基于数学推理场景，尽管MMLU实验给出了一定的跨域泛化信号，但有害延续在其他类型推理任务（如代码生成、常识推理等）中是否同样存在，还有待进一步验证。

归根结底，这项研究揭示了一个此前被忽视的、隐藏在"正确答案"背后的训练数据质量问题。它告诉我们，教AI学习推理，不只是要给它看"最终答对了"的例子，还要确保那些推理过程在答案成立之后能够适时停止，而不是继续无谓地绕圈子。这就像培训一名侦探，不只是要让他最终破案，还要教会他在锁定嫌疑人之后停止无效的重复调查，把精力用在更值得做的事情上。

这项发现对AI训练数据的筛选和处理方式有着实际的指导意义。随着越来越多的AI系统依赖长链式推理来解决复杂问题，如何识别并去除这种"有害的推理尾巴"，将成为构建高质量训练数据的重要一环。有兴趣深入了解技术细节的读者，可以通过arXiv编号2605.29288查阅完整论文。

---

Q&A

Q1：有害延续（Harmful Continuation）是什么意思？

A：有害延续指的是AI推理过程中，在答案已经得到充分支撑之后仍然继续运行的那段额外推理。这段多余的"尾巴"虽然不影响最终答案的正确性，但会让AI在训练时学会不必要的反复验证和绕圈子的坏习惯，导致训练出来的模型表现下降。

Q2：HCC方法和直接截短推理过程有什么区别？

A：HCC是根据推理内容的质量来判断在哪里停止，而不是简单地按照长度截断。研究中的随机切割实验证明，同样删除相同长度的推理尾部，随机位置删除的平均得分只有29.0，而HCC能达到49.3。关键在于删的位置对不对，而不是删了多少。

Q3：用HCC处理过的训练数据会影响AI在数学以外的能力吗？

A：不会变差，反而会有所改善。研究团队在MMLU测试集的多个学科（大学物理、临床医学、职业心理学等）上进行了测试，发现用HCC处理的数学推理数据训练的模型，在这些非数学学科上的表现也优于用原始数据训练的模型，说明去除有害延续对模型的整体推理质量有正面影响。

大型语言模型链式思维推理训练数据优化

分享至