今天要和大家分享一项来自香港科技大学、香港中文大学和北京大学研究团队的最新研究成果,这篇题为《AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting》(通过难度感知预算实现自适应和可控推理)的论文于2025年5月24日发表在arXiv(arXiv:2505.18822v1)预印本平台上。研究团队由香港科技大学的Shijue Huang、Zhaochen Su和Yi R. (May) Fung,香港中文大学的Hongru Wang和Bowen Cao,以及北京大学的Jiazhan Feng共同完成。这项研究正在进行中,代码将在GitHub上公开发布。
想象一下,你向朋友提出一个很简单的问题,比如"2加3等于多少?",但你的朋友却开始长篇大论,分析各种可能的计算方法,讨论加法的数学原理,最后才告诉你答案是5。这不仅浪费时间,还让你感到困惑——为什么这么简单的问题需要如此复杂的回答?
现代的大型AI推理模型就有这样的"过度思考"问题。当面对简单问题时,它们倾向于生成不必要的冗长推理链,就好像用大炮打蚊子。例如,当你问AI"计算log?(64)的值"这样简单的问题时,它可能会生成一大堆推理步骤,详细解释对数的性质、指数转换等等,最后才得出答案是6。
来自香港科技大学、香港中文大学和北京大学的研究团队开发了一种名为AdaCtrl的新框架,就像是给AI安装了一个"思考调节器",让它能够根据问题的难度自动调整思考的深度和长度。更棒的是,用户还可以手动控制这个"思考调节器",根据自己的需求选择AI思考的深浅。
一、AdaCtrl:思考的智能调节器
想象一下,如果AI具备了两种超能力:一是能够评估问题的难度,二是能够根据难度调整回答的详细程度。这正是AdaCtrl框架带来的能力。它就像是给AI装上了一个智能思考调节器,能够自动平衡效率和效果。
这个框架通过两个阶段的训练实现这一目标。首先是"冷启动微调"阶段,让模型学会对问题难度的自我意识,并据此调整推理预算。接着是"难度感知强化学习"阶段,在这个阶段,模型会根据在线训练中不断变化的能力来调整其自适应推理策略并校准难度评估。
为了让用户能够直观地控制思考长度,研究团队设计了特殊的长度触发标签——"[Easy]"(简单)和"[Hard]"(复杂)。这些标签就像是思考预算的控制开关,用户可以通过指定这些标签来控制AI的回答长度。
例如,当你向AI提出"计算log?(64)"这个问题时,根据不同的模式,AI的回答方式会有很大差异:
在"简单模式"下,AI会给出简洁的回答,只包含必要的步骤,大约250个词左右:"为了计算log?(64),我们需要确定以2为底,多少次方等于64。让我们逐步分解这个问题。首先,我们知道2的6次方等于64,因此log?(64) = 6。"
在"自适应模式"下,AI会根据问题难度调整回答长度,大约400个词左右,包含更多的解释和推理过程。
而在"复杂模式"下,AI会提供最详尽的解答,大约1100个词,不仅包含完整的推理过程,还会考虑多种解法,进行反思和验证。
二、为什么我们需要AdaCtrl?
想象一下,你有一位非常博学的朋友。无论你问他简单还是复杂的问题,他总是给出极其详尽的解答。当你问"今天天气如何?",他可能会开始讲解气象学原理、气压系统和温度变化。虽然这些信息很全面,但对于简单问题,这种详尽解答反而造成了认知负担和时间浪费。
现代大型推理模型就面临这样的挑战。它们在解决复杂问题时表现出色,但往往难以平衡效率和效果,对简单问题也生成不必要的冗长推理链。这不仅增加了计算开销,还影响了用户体验。
近年来,研究人员尝试了多种方法来提高推理效率:
有些研究通过提示技术,要求模型生成简洁的回答。比如告诉AI:"请简明扼要地回答问题,不超过100个词。"
另一些研究则通过在更短的推理路径上微调模型,教它学会更简洁的表达。这就像是训练一个作家学会写短篇小说而非长篇巨著。
还有一些研究利用强化学习,通过惩罚过长的回答来优化模型,使其生成既简洁又准确的输出。这类似于给AI设定一个"字数限制",超出就会"扣分"。
然而,现有的方法主要关注于最小化推理长度,忽视了根据任务难度动态调整思考深度的需求。此外,从用户角度来看,能够明确控制推理预算是一个显著优势,但这一方面在当前研究中仍相对欠缺探索。
三、AdaCtrl的工作原理:两阶段训练让AI学会"量力而行"
AdaCtrl框架通过两个关键阶段的训练,让AI学会了如何根据问题难度调整思考深度。
首先,让我们了解长度触发标签如何作为控制接口。研究团队引入了两个特殊的长度触发标签:"[Easy]"(简单)和"[Hard]"(复杂)。每个由模型生成的回答都以其中一个标签开头,表明所需推理的预期复杂度。这些标签就像是一个信号灯,告诉模型接下来应该以什么样的思考深度来回答问题。
第一阶段:冷启动微调
这个阶段就像是教会AI认识什么是"简单"和"复杂"的问题。研究团队从DeepMATH数据集中选取了带有难度标注的数学问题,将难度级别5及以下的问题归类为简单问题,而难度高于5的则归为复杂问题。
对于简单问题,研究团队使用待训练的模型(Qwen2.5-7B-Instruct)生成简洁的回答;而对于复杂问题,则使用一个强大的大型推理模型(Deepseek R1)生成详细的推理过程。然后,研究者过滤出正确的回答,并在简单问题的回答前加上"[Easy]"标签,在复杂问题的回答前加上"[Hard]"标签,从而构建出一个用于监督微调的数据集。
通过这种方式,模型学会了按照指定的标签调整回答长度,就像是学会了根据指令调整思考的深浅。
第二阶段:难度感知强化学习
如果说第一阶段是教会AI识别问题难度,那么第二阶段则是让AI学会更精确地根据难度分配计算资源。研究团队采用了GRPO(一种强化学习算法)作为训练算法,利用多次生成的结果来评估问题在模型视角下的难度。
在这个阶段,研究团队设计了三种特殊的奖励函数:
结果准确性奖励:这是最基本的奖励,当模型给出正确答案时获得正向奖励(+1.0分),错误时则获得负向奖励(-1.0分)。这就像是告诉AI:"回答对了就有糖吃,回答错了就要被惩罚。"
难度估计校准奖励:随着强化学习训练的进行,模型的能力会不断进化,同一个问题在不同训练阶段可能需要不同的难度标签。通过预定义的准确率阈值,如果多次尝试的平均准确率超过阈值,问题就被标记为"简单",否则就是"复杂"。当模型生成的难度标签与这一评估相符时,就会获得正向奖励。这类似于训练AI学会准确评估自己的能力范围。
难度感知长度奖励:与传统方法不同,AdaCtrl只鼓励模型在简单问题上生成简洁回答,而对复杂问题则保留长思考能力。具体来说,当模型生成的难度标签是"[Easy]"时,回答越简洁,获得的奖励越高;而对于"[Hard]"标签的问题,则不对长度施加限制。这就像是教导AI:"对简单问题,直接了当就好;对复杂问题,则需要深思熟虑。"
通过结合这三种奖励,模型在训练过程中学会了更准确地评估问题难度,并根据难度动态分配思考资源,实现了自适应和可控的推理能力。
四、实验结果:"思考调节器"的惊人效果
研究团队在四个数学数据集上评估了AdaCtrl的性能:AIME2024、AIME2025、MATH500和GSM8K。前两个数据集包含更具挑战性的奥林匹克数学风格问题,而后两个则主要包含相对简单的中小学水平问题,其中GSM8K是最简单的。
实验结果令人印象深刻。与标准的SFT + RL基线相比,AdaCtrl在AIME2025上将准确率提高了1.67%,在MATH500上提高了7.20%,在GSM8K上提高了2.05%,同时在AIME2024上保持了相当的准确率。更令人惊讶的是,这些性能提升伴随着回答长度的大幅减少,在各数据集上分别减少了10.06%、12.14%、62.05%和91.04%。
这就像是一位学生不仅考试成绩提高了,而且答题时间也大大缩短了!
更有趣的是,AdaCtrl还提供了通过明确的长度触发标签进行增强控制的能力。当指示模型在"简单"推理模式下操作时,它在AIME2025和AIME2024数据集上的回答长度分别减少了90.22%和94.31%(从16k减少到1k词元)。相反,在"复杂"推理模式下,GSM8K的回答长度增加了86.51%,MATH500增加了489.15%。
这就像是给用户提供了一个思考深度的调节旋钮,可以根据需要自由调整AI的思考深浅。
五、AdaCtrl的难度评估能力:AI也懂得"量力而行"
为了评估AdaCtrl对问题难度的判断能力,研究团队分析了模型在四个数据集上生成的长度触发标签的比例。结果显示,AdaCtrl将AIME2024和AIME2025数据集中的大部分问题归类为"复杂"类别,这些数据集包含具有挑战性的数学奥林匹克级别问题。
相比之下,对于MATH500数据集,该模型将76.2%的问题识别为简单问题,这与该数据集包含各种难度水平的数学问题的实际情况一致。而对于最简单的GSM8K数据集,超过99%的问题被归类为简单问题。
这些结果与数据集的实际难度水平相符,表明AdaCtrl通过强化学习发展出了令人满意的问题难度评估能力。
进一步研究表明,AdaCtrl能够根据自身对问题难度的评估准确调节其推理预算。在MATH500数据集上的分析显示,随着难度等级从1上升到5,模型生成的回答长度逐渐增加,从约0.3k词元增加到6k词元。这表明AdaCtrl能够准确地根据自评估的问题难度调整其推理预算,从而实现计算资源的自动和自适应分配。
六、训练动态过程:AI如何学会思考的"张弛有度"
研究团队还分析了强化学习训练过程中的性能趋势和预算动态。结果显示,模型在所有四个数据集上的性能都呈现上升趋势,表明推理能力不断提升。
关于预算动态,在AIME2024、AIME2025和MATH500数据集上,平均回答长度在训练初期快速增加,然后逐渐减少并稳定在比训练前更长的水平。而对于GSM8K,回答长度则保持相对稳定,接近训练前观察到的水平。
这些发现表明,在冷启动微调阶段学习的推理预算分配对于更复杂的问题(如AIME2024、AIME2025和MATH500中的问题)是不足的。因此,模型在强化学习阶段动态调整其预算,以响应实际问题难度。相比之下,对于相对简单的GSM8K数据集,模型在冷启动微调后已经能够有效分配最小预算,表明其能够区分和处理更简单的问题,而无需显著调整。
七、AdaCtrl的意义:让AI思考更像人类
AdaCtrl框架的意义不仅在于提升AI的思考效率,还在于让AI的思考方式更接近人类。人类在面对不同难度的问题时,会自然地调整思考深度——对于简单问题,我们往往直接给出答案;而对于复杂问题,我们会进行更深入的思考和推理。
通过AdaCtrl,AI也学会了这种"因难而异"的思考方式,不仅提高了推理效率,也增强了用户体验。用户不再需要忍受简单问题的冗长回答,同时对于复杂问题,AI仍然保持其深度思考能力。
此外,AdaCtrl还为用户提供了控制AI思考深度的能力,就像是给用户一个"思考调节器",可以根据自己的需求自由调节。想要简明扼要的回答?选择"简单"模式。需要详尽解析的思路?选择"复杂"模式。这种控制能力不仅提升了用户体验,也为资源受限的场景提供了灵活的解决方案。
从技术角度看,AdaCtrl的两阶段训练框架也为未来的AI训练提供了新的思路。通过结合冷启动微调和难度感知强化学习,模型不仅学会了难度自我意识,还学会了根据难度动态分配计算资源,展现出更智能、更高效的推理能力。
八、未来展望:更智能、更自然的AI思考
AdaCtrl框架为未来的AI推理能力提供了一条有前途的路径。研究团队的工作为解决"过度思考"问题提供了有效的解决方案,同时为用户提供了对推理预算的明确控制。
未来的研究方向可能包括将这种自适应和可控推理扩展到更多领域,如自然语言理解、视觉推理等。此外,进一步优化难度评估和预算分配策略,使AI的思考方式更接近人类,也是一个值得探索的方向。
随着这类技术的不断发展,我们可以期待未来的AI不仅能回答问题,还能以更自然、更高效的方式思考,真正实现"人机共鸣"的交互体验。
九、结语:思考的艺术在于适度
正如爱因斯坦所说:"使事情尽可能简单,但不要过于简单。"这句话也适用于AI的推理过程。过度简化会丧失洞察力,而过度复杂则会模糊核心要点。AdaCtrl框架通过让AI学会"量力而行"的思考,实现了这种微妙的平衡。
归根结底,AdaCtrl的核心贡献在于让AI的思考方式更接近人类——知道何时该深入思考,何时该简明扼要。这种能力不仅提升了AI的效率,也增强了其与人类交互的自然性,为未来AI技术的发展提供了新的可能性。
对于普通用户来说,这项研究的意义在于未来的AI助手将能够更加灵活地适应不同的需求场景,既能在需要时提供详尽的分析,也能在日常简单问题上给出简洁的回答,真正成为我们生活和工作中更加智能、更加贴心的伙伴。
如果你对这项研究感兴趣,完整的研究论文可以通过arXiv:2505.18822v1查阅,代码库将在GitHub上以https://github.com/JoeYing1019/AdaCtrl的地址发布。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。