微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 TL;DR:微调大模型思考长度,让AI推理更高效——记录中美多机构联合研究

TL;DR:微调大模型思考长度,让AI推理更高效——记录中美多机构联合研究

2025-07-07 17:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-07 17:35 科技行者

在人工智能快速发展的今天,大型语言模型(LLMs)的推理能力已经取得了令人瞩目的进步。2025年6月,来自中国科学院人工智能学院、中国科学院自动化研究所、美国加州大学洛杉矶分校(UCLA)、清华大学、微软公司以及香港科技大学的研究团队联合发表了一篇题为《TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression》(太长不读:为高效大语言模型推理压缩进行重新权重分配)的研究论文。这项研究提出了一种动态调整模型推理过程的方法,能够大幅减少模型输出的文本长度,同时保持推理准确性。有兴趣深入了解的读者可以通过论文存储库网址:https://github.com/zzli2022/TLDR 获取更多信息。

一、为什么我们需要压缩AI的"思考"过程?

想象一下,如果你请一位朋友帮你解一道简单的数学题,比如"2+3等于多少",你可能希望他直接告诉你"5",而不是听他絮絮叨叨地分析:"嗯,我们有2,然后加上3,让我思考一下,2是1加1,3是2加1,所以2加3应该是1加1再加2加1,也就是1加1加2加1,等于5。不对,让我再检查一下..."

目前的推理型大语言模型就像这位过分谨慎的朋友。近年来,研究人员开发了具有强大推理能力的大语言模型,这些模型从简单的"系统1"思考模式(如GPT-4o、LLaMA-3等模型采用的快速直觉处理)发展到了"系统2"思考范式(如DeepSeek-R1等模型通过反复自我评估、错误纠正和验证进行深思熟虑的分析)。

虽然系统2模式的模型在复杂问题上表现出色,但它们往往会在简单问题上也进行过度思考,导致不必要的探索和计划,最终降低效率和实用性。就像一个优秀的数学家解决"2+3"时也要写满一整页纸的推导过程,这显然是资源的浪费。

二、现有方法的局限性

目前已有多种方法试图解决大模型的思考冗余问题。无需训练的方法(如CoD、TALE-EP等)通过提示词或基于置信度的技术来控制模型在推理过程中的内部状态。另一种思路是通过模型合并来干预推理模型的参数,以产生相对简洁的解决方案。基于训练的方法(如TOPS、CoT-Valve等)则主要通过强化学习或监督微调,使模型学会生成更简洁但仍然正确的推理路径。

这些方法通常需要精心收集问题并精确控制不同长度数据的比例才能取得良好效果,导致参数调整和数据构建过程复杂。例如,TOPS需要手动标记监督微调数据以构建长度敏感的模型,而CoT-Valve则通过模型插值创建中间模型进行采样生成数据。这些构建过程往往繁琐、计算成本高或难以控制质量。

三、揭秘短/长推理链在大模型思考压缩中的作用

研究团队首先探究了混合短推理链(Short CoT)和长推理链(Long CoT)数据对压缩推理过程的影响。他们发现:

系统1数据(简单问题上的短推理链)能够减少所有难度级别问题上的推理冗余。研究团队惊喜地发现,这种长度压缩效果很好地泛化到了不同难度的问题上。简单来说,就像学会用简洁方式解决简单问题的经验,也能帮助我们在解决复杂问题时减少不必要的步骤。

系统2数据(仅在难题上的长推理链)有助于维持性能水平。研究表明,在混合数据中加入少量针对挑战性问题的长推理链,可以减轻短推理链带来的准确度下降问题。而在简单问题上使用长推理链则帮助不大。这就像在解决复杂谜题时,我们确实需要一些详细的思考步骤,但对于简单问题,过度思考反而是浪费。

这些发现引出了一个关键问题:我们能否找到一个最佳的长-短数据混合比例,在最大化推理效率的同时保持准确性?

四、动态思考长度再权重方法(TLDR)

基于上述发现,研究团队提出了一个直观的方法:当模型思考太长时,应该重新加权更多直觉性推理路径来简化思考过程;相反,当思考太直接时,应该加入更多慢思考推理链来鼓励更深入的思考。

他们将这一思想具体化为"思考长度数据再权重"(Thinking Length Data Re-Weighting,TLDR)方法。这种方法通过系统1和系统2数据的动态平衡,使模型能够消除冗余的认知过程。

具体实施步骤如下:

首先,研究者构建了针对简单问题的短推理链数据和针对复杂问题的长推理链数据。模型以初始比例开始,使用混合数据进行推理压缩。完成一个压缩周期后,模型会重新评估系统1和系统2数据的预期收益,以实现更好的性能。

与直觉相符,系统1数据(短推理链)可以提高效率,所以研究者使用效率指标来衡量系统1数据的预期收益。而系统2数据(长推理链)可以提高推理准确性,因此用准确性指标来衡量系统2数据在推理能力方面的收益。

与需要不同推理长度的精心设计的微调数据的其他方法相比,TLDR方法只需利用原始模型采样的长推理链和构建的短推理链数据,通过动态学习比例实现高效推理。在DeepSeek-Distill-7B/14B模型上的实验表明,该模型在7B/14B模型上都取得了出色的压缩结果,推理能力只有轻微下降。

五、TLDR的技术实现细节

为了形式化思考压缩问题,研究团队将其定义为一个优化任务,目标是确定系统1和系统2推理之间的最佳比例。他们期望通过混合数据训练的模型能够在特定评估指标上接近系统1和系统2的性能上限。

模型优化目标为:最小化模型与系统1效率上限之间的差距,以及与系统2推理能力上限之间的差距,同时优化模型参数以最大化推理性能和效率。

对于系统1/2混合数据的设置,研究团队利用短推理链模型来调制系统1模型的数据,使用长推理链模型从S1采样难题提示,并只保留正确的回答。最终,他们获得了<简单问题,短推理链>和<难题,长推理链>的指令数据对。

在训练过程中,研究团队不断调整系统1和系统2数据在后训练阶段的比例,确保模型保留原始长推理链模型的推理能力,同时实现短推理链模型的效率。他们将准确度上限设定为与原始长推理链模型的准确度相匹配,将代币下限设定为与构建的短推理链模型的数据下限相对应。

六、实验结果与比较

研究团队在DeepSeek-R1-Distill-7B和DeepSeek-R1-Distill-14B模型上对TLDR方法进行了验证,并使用多个难度不同的基准测试集(包括ASDiv、GSM8K、MATH-500、AIME2024和AMC)进行了评估。

实验结果表明,TLDR方法在保持推理准确性的同时,显著减少了输出令牌的数量,平均压缩率接近40%。这意味着模型能够用更少的"文字"表达相同的思考过程和得出正确答案。

与其他基线方法相比:

基于提示的方法(如TALE-EP、ConciseCoT):TLDR在保持类似准确度的情况下实现了更高的压缩率。

基于模型合并的方法(如平均合并、任务算术合并等):这些方法在挑战性问题上仍然面临显著的性能下降,而TLDR能够在不同难度的数据集上保持准确性。

基于奖励的方法(如ThinkPruner、Overthink):与CoT-Valve和ThinkPrune相比,TLDR在ASDiv和GSM8K等容易出现过度探索的数据集上实现了出色的压缩率。

值得注意的是,CoT-Valve作为一种基于SFT的方法,需要精心设计的模型混合和构建长度多样的数据集进行动态学习。相比之下,TLDR方法只需要直接的数据采样和自适应混合比例,以更简单的方式实现自适应推理。

七、研究意义与未来展望

TLDR方法为大语言模型的推理压缩提供了一种创新的解决方案。通过动态再权重系统1(简洁推理)和系统2(详细推理)数据在训练过程中的影响,TLDR使大语言模型能够为简单问题消除不必要的步骤,同时仍然能够为复杂任务进行深入思考。

这种方法避免了其他压缩方法通常需要的繁琐数据收集和超参数调整,为开发既高效又准确的大语言模型提供了更实用的解决方案。

未来研究可能会探索将TLDR方法应用于更广泛的任务和模型架构,进一步提高推理效率并减少计算资源消耗。这不仅可以降低大语言模型的运行成本,还可以使它们在资源受限的环境中更加实用,如移动设备或边缘计算设备。

总之,TLDR方法代表了一种平衡效率和准确性的新思路,为大语言模型的发展提供了有价值的贡献,使AI系统能够更加智能地分配其"思考"资源,对简单问题快速作出反应,对复杂问题进行深入思考,就像人类的思维过程一样灵活和高效。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-