微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 中南大学与百度联手破解AI"话痨"难题:让推理大模型学会"言简意赅"

中南大学与百度联手破解AI"话痨"难题:让推理大模型学会"言简意赅"

2026-04-17 10:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-17 10:33 科技行者

这项由中南大学地球科学与信息物理学院与百度公司联合开展的研究,以预印本形式于2026年4月发表,论文编号为arXiv:2604.05643。感兴趣的读者可通过该编号在arXiv平台检索到完整论文。

你有没有遇到过这样的人:每次回答一个简单问题,都要先把整个事情从头到尾重新推演一遍,把已经确认无误的结论反复核查三四遍,然后才给出答案?这种习惯在人类社交场合只是让人略感烦躁,但如果是一个每天要处理数以百万计请求的AI推理系统,这种"啰嗦病"就会造成巨大的计算资源浪费,实实在在地消耗着电力和金钱。

这正是当今最先进AI推理模型普遍面临的困境。以OpenAI的o1和DeepSeek的R1为代表的新一代推理大模型,通过让AI在给出答案之前进行大量的"内心独白"式推理过程,在数学、编程和逻辑推理等复杂任务上取得了令人瞩目的成绩。这种让AI"多想想再说话"的策略确实有效,但也带来了一个棘手的副作用——模型经常产生大量对最终答案毫无贡献的冗余推理内容,就像一个学生在草稿纸上把同一道题目的验算做了五六遍,却没有任何新发现。

中南大学与百度的研究团队发现,这种"过度思考"的根源并非AI天生爱啰嗦,而是训练机制造成的。当用强化学习训练这些模型时,奖励信号来得很稀疏、很滞后——模型只有在最终答案出来后才知道自己做得好不好,就像一个厨师只有在顾客吃完饭结账时才知道菜好不好吃。这种情况下,模型为了"保险起见",养成了反复检查、重复验证的习惯。研究团队把这种冗余分为两类典型模式,并为此设计了一套精妙的"外科手术式"裁剪方案,在将推理过程平均缩短42%的同时,还保持甚至略微提升了答题准确率。

一、AI推理的"啰嗦病"究竟长什么样

要理解这项研究,首先需要弄清楚AI推理模型到底是如何工作的。当你向这类模型提问时,它不会直接给出答案,而是先生成一大段"推理链"——也就是一步步的思考过程,就像你在草稿纸上演算数学题。这种"先想清楚再说话"的方式,让AI在处理复杂问题时表现大幅提升。

然而,研究团队仔细分析了这些推理链之后,发现其中充斥着两种典型的"无效劳动"。

第一种叫做"无差别反思"。这就好比一个学生在解数学题时,每算完一个加法,都要停下来确认一下"1加1等于2没错吧"。模型对每一个推理步骤,不管这个步骤是否简单明了,都要进行一轮检查确认,即便这些检查完全没有发现任何问题,也没有推动解题向前进展。

第二种叫做"重复反思"。这种情况更加浪费:模型明明已经在推理过程中间得出了正确答案,却还要继续生成大量内容,把已经确认过的结论再验证一遍、两遍、甚至三遍。就像一个侦探已经锁定了凶手,却还要把所有的嫌疑人重新排查一遍才肯结案。

这两种冗余反思有一个共同的特点:它们都没有为最终答案带来任何新的有用信息,纯粹是在消耗计算资源和时间。

二、把推理链变成一张"思维地图"

为了精准识别并切除这两种冗余,研究团队提出了一个颇为巧妙的解决思路:既然推理链中的各个步骤之间存在复杂的依赖关系,何不把它从一条直线变成一张网络图?

具体来说,他们把AI的推理过程比作建造一座建筑。每一个推理步骤就是一块砖,有些砖是"承重砖"——后面的结构必须依赖它;有些砖只是"装饰砖"——去掉它对整体结构没有影响。传统的分析方法是沿着时间线从头到尾扫一遍,很难判断哪块砖是否真正必要。但如果把所有砖块之间的依赖关系都画出来,形成一张清晰的网络图,哪些砖块可以安全去除就一目了然了。

在实际操作中,研究团队首先用一些特殊的关键词把长长的推理链切分成若干"片段",这些关键词包括"等等"、"或者"、"让我再想想"、"嗯"之类的词语——这些词通常标志着推理转向了一个新的思考方向。随后,他们用另一个语言模型(具体是阿里云的qwen-turbo)来逐步分析每个片段,把它们整理成一张有向无环图。

在这张图中,每个节点代表一个抽象的推理单元,节点之间的连线代表"某个步骤依赖于另一个步骤"的关系。每个节点还会被标注为两种类型之一:要么是"进展节点",意味着这个步骤推动了解题向前迈进,产生了后续步骤会用到的新结论;要么是"审查节点",意味着这个步骤只是在检查、重申或回顾已有的内容,并没有带来新的推进。

这就相当于把一篇杂乱无章的侦探笔记整理成了一张清晰的案情分析图,每个线索都标注了"这个线索是否直接指向破案"。

三、两把"手术刀"精准切除冗余

有了这张思维地图,研究团队设计了两种对应不同冗余类型的裁剪策略,就像两把不同用途的手术刀。

第一把手术刀针对"无差别反思",采用的是"分支级别裁剪"。在思维地图中,一个节点的"子孙后代"数量反映了它对整个推理过程的影响力——一个关键的推理步骤,通常会派生出大量后续步骤;而一个可有可无的检查步骤,往往只能派生出寥寥无几的后续节点,形成一个细小的侧支,很快就走到了尽头。研究团队设定了一个阈值:如果一个"审查节点"的后代数量少于2个,就认为它是一个对整体推理贡献微乎其微的无效侧支,可以安全删除。这就好比在一棵大树上,只要某根枝杈上长的叶子极少,就可以放心地把它修剪掉,不会影响树的整体健康。

第二把手术刀针对"重复反思",采用的是"深度级别裁剪"。在思维地图中,每个节点都有一个"深度"值,代表它在整个推理过程中所处的位置——越靠前的步骤深度越小,越靠后的步骤深度越大。研究团队发现,出现在推理过程后期的"审查节点",往往对应着模型在已经得出正确答案之后还在反复验证的行为。因此,他们设定:如果一个"审查节点"的相对深度超过整个推理链的90%,也就是出现在推理的最后10%阶段,就认为它是一个多余的重复验证,将其删除。就像一部电影已经拍摄到了圆满结局,导演却还要再拍几个"确认男主角真的幸福了"的画面——这些画面对故事没有任何新贡献,只是在拉长片长。

裁剪完成之后,研究团队再把剩余的有效节点重新串联成一条新的线性推理链,用于后续的模型训练。在所有实验中,这两个阈值分别固定设置为k=2和m=0.9,没有针对不同数据集进行特别调整。

四、三阶段训练:让模型彻底学会"精简表达"

仅仅裁剪训练数据还不够,研究团队设计了一套三阶段的训练流程,让模型在推理时从根本上改变行为习惯,而不只是被动接受更短的训练样本。

第一阶段是"冷启动监督微调"。研究团队用前面裁剪好的精简推理链对模型进行有监督的微调训练——这相当于给模型提供了一批"示范答卷",让它学会用更简洁的方式思考和表达。这个阶段的作用是给模型建立一个基本的行为倾向:遇到问题,直接奔着解决方案走,不要无谓地绕弯子。技术上,训练目标是标准的"预测下一个词"损失函数,让模型学习如何逐词生成这些精简的推理过程。

第二阶段是"偏好优化",采用了一种叫做DPO(直接偏好优化)的技术。可以把这个阶段理解为"对比教学"。研究团队让第一阶段训练好的模型对同一批问题各自生成多个答案,然后计算每个答案的"冗余分数"——这个分数综合考虑了答案中审查节点占所有节点的比例,以及答案的长度与同题目平均长度的比值。在所有答对题目的答案中,冗余分数低的被选为"好答案",冗余分数高的被选为"差答案",然后用DPO算法训练模型去提高好答案的生成概率、降低差答案的生成概率。这就像一个学生在练习写作文,老师把他写的多篇作文拿来对比,告诉他"这篇简洁有力,以后多往这个方向写;那篇啰里啰嗦,要有意识地避免"。

第三阶段是带长度惩罚的"GRPO强化学习"。这是整个训练流程的最后一关,也是最精细的一关。在这个阶段,模型通过不断地尝试——生成答案、获得奖励、调整策略——来进一步优化自己的行为。奖励机制的设计颇为讲究:首先判断答案是否正确,答错了得0分,答对了才有资格拿到奖励;然后在答对的前提下,对那些比"同批次最短正确答案"明显更长的答案施加惩罚——长得越多,罚得越重,但如果只是稍微长一点点(在一个容忍范围内),则几乎不受惩罚。这种设计的妙处在于:它不鼓励模型为了省事而随意缩短推理(因为答错了没有奖励),而是鼓励模型在保证答对的前提下尽可能精简。就像一场演讲比赛,规则是"在把道理讲清楚的前提下,越简短越得分,但如果没讲清楚,再短也是零分"。

五、实验结果:42%的"减负",准确率不降反升

研究团队在五个数学推理基准测试上对这套方法进行了评估,涵盖了从中等难度到奥林匹克级别的各类数学题,包括AIME24(2024年美国数学邀请赛)、AIME25(2025年版本)、AMC23(2023年美国数学竞赛)、MATH500(一个500道题的数学题库子集)以及OlympiadBench(奥林匹克级别双语数学题集)。每道题目各生成10个解答来评估,计算平均准确率和平均生成词元数(词元可以粗略理解为文字量)。

在7B参数版本的DeepSeek-R1-Distill-Qwen模型上,原始模型平均推理长度为8134个词元,平均准确率为59.72%。经过这套方法训练后,平均推理长度降至4660个词元,降幅达42.7%,而平均准确率反而微升至60.95%。在具体的难题上,效果更为突出:AIME25准确率从29.00%升至31.67%,推理长度从12779降至6977;OlympiadBench准确率从56.77%升至59.85%,推理长度从5252降至3786。

在1.5B参数的更小版本模型上,同样取得了类似的成果:平均推理长度从7442词元降至4762词元(降幅约36%),平均准确率从46.68%升至49.91%,AMC23准确率从63.12%跃升至69.38%,MATH500准确率从72.65%升至80.40%。

与其他对比方法相比,这套方案的优势也相当明显。O1-Pruner和TokenSkip等基于长度控制的方法,虽然也能缩短推理长度,但准确率下降得比较厉害。EfficientReasoning和AdaptThink等方法在某些场景下能达到更短的推理长度,但准确率方面略逊一筹。研究团队的方案在准确率和效率的综合平衡上表现最优。

六、裁剪会不会"误伤"关键推理?

任何一种裁剪方案都必须回答一个核心问题:在删除"废话"的同时,会不会把真正有用的推理步骤也一并删掉?研究团队为此专门设计了一个对比实验来验证裁剪的"手术精准度"。

他们从训练集中随机抽取1000个样本,为每个样本准备了三种不同的推理链版本:完整版(原始、未经任何处理的推理链)、图裁剪版(经过他们方法处理后的精简推理链)和长度截断版(直接从头截断,使其长度与图裁剪版相同)。然后让DeepSeek-R1-Distill-Qwen-7B以这三种不同的推理链为"参考"各自生成8个答案,评估准确率和一致性(8个答案中答案相同的比例,反映模型的稳定可靠程度)。

结果相当有说服力。完整推理链的准确率为98.95%,一致性为99.60%,接近满分;图裁剪版的准确率降至93.70%,一致性为90.69%,依然保持在相当高的水准;而长度截断版则直接崩塌至准确率73.60%、一致性69.10%。这意味着,简单粗暴地把推理链从头截断,会破坏推理的逻辑连贯性,导致模型经常得出错误或不稳定的答案;而图结构裁剪则能在大幅缩短长度的同时,保留推理所必需的核心逻辑骨架。

七、训练之后,模型的"说话习惯"发生了哪些变化

除了准确率和长度这两个核心指标,研究团队还仔细观察了训练前后模型在行为细节上的变化,结果颇为有趣。

从推理长度的分布来看,训练后的模型生成的推理链整体明显变短,原来那条延伸到右侧远处的"长尾巴"(代表极长的推理链)被大幅压缩,再也很少出现特别冗长的情况。

从特定词汇的使用频率来看,"等等"、"但是"、"嗯"、"也许"、"检查"这类典型的反思性词汇在训练后明显减少,而"因此"这类表示推进和得出结论的连接词则显著增多。这表明,训练后的模型确实养成了一种更直接、更果断的推理风格——减少了"停下来怀疑自己"的行为,增加了"顺着逻辑往前走"的行为。

从数据集统计来看,图裁剪将平均每条推理链的节点数从27.8个降至15.6个,其中反思类节点从平均16.8个大幅降至4.5个,平均词元数从6468降至4439,整个数据处理过程的总花费仅约20美元,成本相当低廉。

八、逐步叠加的效果验证

研究团队还通过一个逐步叠加的消融实验,验证了三个训练阶段各自的贡献。从原始基础模型出发,依次加入SFT、DPO和GRPO,观察每个阶段对准确率和推理长度的影响。

实验结果清晰地显示,每个阶段都有其独特贡献:SFT阶段主要建立了推理长度的压缩基础,模型学会了用更短的方式表达;DPO阶段进一步强化了对冗余的抑制,在长度控制的同时维护了准确率;GRPO阶段则通过奖励机制的精细调节,在准确率和效率之间找到了更好的平衡点。三个阶段的配合相辅相成,缺少任何一个环节,最终效果都会打折扣。

在强化学习的训练曲线上,可以看到奖励分数总体呈上升趋势,尽管过程中有明显波动——这是强化学习的正常现象;与此同时,生成的响应长度并非单调递减,而是在奖励提升的过程中保持相对稳定甚至略有波动,说明模型学到的并非简单地"少说话",而是更高效地表达。

归根结底,这项研究做了一件看似简单却颇有价值的事:它证明了AI推理模型的"啰嗦"并非不可避免,通过对推理过程进行结构化分析和精准裁剪,完全可以在不损失甚至提升答题质量的前提下,大幅减少无谓的计算开销。对于普通用户来说,这意味着AI问答的响应速度可能更快、使用成本可能更低;对于AI研究领域而言,这提示了一个值得深入探索的方向——与其盲目地让模型"想得更多",不如让模型"想得更准"。

当然,研究团队也坦诚地指出了这套方法的局限性。构建推理图需要借助另一个较强的语言模型来辅助分析,这增加了数据处理的前期成本和复杂度。"进展节点"和"审查节点"的划分是一种粗粒度的标注方式,可能无法捕捉到推理过程中一些更细腻的语义差别。此外,目前所有实验都在数学推理任务上进行,这套方法能否无缝迁移到开放性问答、创意写作或代码生成等更多样化的任务上,还有待进一步验证。

有兴趣深入了解这项研究的读者,可以通过论文编号arXiv:2604.05643在arXiv平台查阅完整的论文原文。

Q&A

Q1:AI推理模型的"过度思考"是怎么产生的?

A:AI推理模型的"过度思考"主要源于强化学习的训练机制。在训练时,模型只有在最终答案出来后才能收到奖励信号,这种奖励稀疏、滞后的特点导致模型为了"保险",养成了反复检查、重复验证的习惯,产生大量对最终答案没有实质贡献的推理内容。

Q2:图裁剪方法和直接截断推理链有什么本质区别?

A:两者的核心差异在于是否保留了推理的逻辑骨架。直接截断会破坏推理的连贯性,导致准确率从约99%骤降至73.6%。而图裁剪是先把推理链转化为一张依赖关系图,识别哪些步骤对整体推理有贡献、哪些是无效冗余,再精准删除冗余部分,因此能在大幅缩短长度的同时将准确率维持在93.7%以上。

Q3:这套方法在实际使用中的成本高不高?

A:整体成本相当低廉。研究团队处理包含3335条训练样本的数据集,通过调用外部语言模型构建推理图的总花费仅约20美元。此外,整套训练流程在单个计算节点的4块NVIDIA A800显卡上完成,对于研究机构而言硬件门槛并不高。最终效果是推理词元数减少约42%,长期使用可显著降低推理服务的运营成本。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-