近日,来自麻省理工学院(MIT)和MIT-IBM Watson AI实验室的研究团队发布了一项突破性研究,他们开发的TANGO框架(Reinforcing Generator and Verifier Together for Language Reasoning)为增强大语言模型的推理能力提供了全新思路。这项研究由MIT的Kaiwen Zha、Zhengqi Gao、Maohao Shen、Duane S. Boning、Dina Katabi以及MIT-IBM Watson AI实验室的Zhang-Wei Hong共同完成,发表于2025年5月21日的arXiv预印本平台(arXiv:2505.15034v1)。研究代码已开源,有兴趣的读者可通过https://github.com/kaiwenzha/rl-tango获取。
想象一下,你正在教一个聪明的学生解决复杂的数学问题。一般的教学方式是,你给学生示范解题过程,然后让他模仿(这就像监督式微调,SFT)。但更高效的方法是什么呢?让学生尝试解题,你给予反馈,学生从错误中学习并不断改进(这类似于强化学习,RL)。而TANGO框架更进一步——它不仅让"学生"(生成器模型)通过试错学习,还同时培养了一个"助教"(验证器模型),这个"助教"能够指出解题过程中的每一步对错。最妙的是,随着学生水平提高,助教也在同步进步,形成良性循环。
如今,强化学习已经成为提升大语言模型(LLM)推理能力的重要手段。在传统的RL训练中,语言模型作为"策略"来生成解题步骤,而另一个叫做"奖励模型"或"验证器"的组件则评估解答质量并提供反馈。然而,现有方法通常使用固定的验证器(基于规则或预先训练好的模型),这限制了生成器的提升空间,且容易在分布变化时出现"奖励黑客"问题(即模型学会了欺骗验证系统而非真正提升能力)。
TANGO框架的创新之处在于,它打破了这一限制,通过强化学习同时训练生成器和验证器,让两者互相促进。具体来说,生成器产生多步骤推理解答,验证器则提供包含步骤级评估和整体正确性判断的自然语言反馈。生成器利用验证器的详细步骤反馈不断改进,而验证器仅使用结果正确性信号进行训练,无需步骤级别的人工标注,却能逐渐学会提供准确的步骤评估。
实验结果令人振奋:在五个竞赛级数学基准测试上,TANGO平均提升了25.5%;在四个领域外推理任务上,平均提升了7.3%。特别是在最具挑战性的AIME 2025数学竞赛问题上,TANGO使准确率翻了一番。这一成就证明了共同进化的生成器-验证器系统的强大潜力。
下面,我们将深入探讨TANGO框架的工作原理、实现细节及其卓越表现。
一、强化学习与大语言模型推理能力:现状与挑战
大语言模型近年来展现出惊人的能力,但在需要多步思考和规划的复杂推理任务上仍然面临挑战。为了增强这些能力,研究人员通常采用监督式微调(SFT)或强化学习(RL)进行后训练。
监督式微调本质上是让模型模仿精心编写的解决方案,但这种基于模仿的训练缺乏互动性,难以泛化到不熟悉的推理路径。相比之下,强化学习将学习框架为一个主动探索的过程,模型通过尝试和反馈直接优化任务成功率,从而实现更强的泛化能力。这就像学开车——看教练示范(SFT)不如自己上路实践并从错误中学习(RL)。
在大语言模型的RL后训练中,语言模型充当"策略模型"(即生成器),每个动作对应生成下一个词元;而"奖励模型"(即验证器)则评估生成内容的质量并提供反馈。然而,现有的RL后训练方法通常依赖固定的验证器,无论是基于规则的指标还是冻结的预训练奖励模型。这种固定验证器限制了生成器的潜在改进空间,且在分布变化时容易被"黑客攻击"(模型找到了欺骗验证系统的方法,而非真正提升能力)。
理想情况下,验证器应与生成器共同训练,实现互相提升。然而,设计有效的共同进化系统一直是个挑战。现有尝试中,PRIME是唯一一个同时训练生成器和验证器的方法,但PRIME的验证器仍存在关键缺陷:它采用判别式的基于logits的过程奖励模型,生成确定性的奖励信号,容易被"黑客攻击";并且这个验证器尽管在线收集标签,仍通过SFT训练,严重限制了其推理能力和泛化潜力。
TANGO的开发者认为,一个有效的共同进化系统需要生成器和验证器均具备足够强大的能力。如果其中一方明显较弱且落后,会阻碍整体学习动态并限制互相提升。因此,他们提出了TANGO框架,通过RL方式交替训练语言模型生成器和验证器,实现协同进化。
二、TANGO框架:一场生成器与验证器的共舞
TANGO框架的核心理念是将生成器和验证器视为舞伴,通过互相引导、适应和支持,共同提升推理能力。这就像探戈舞中,舞伴之间需要高度协调与默契,一方的进步能够带动另一方的提升。
与现有方法不同,TANGO引入了一个通过RL训练的过程级、生成式LLM验证器,它与生成器一起成长演进。具体来说,生成器产生多步骤推理轨迹,验证器则提供自然语言反馈,包括步骤级评估和整体正确性判断。生成器利用金标准结果级正确性信号,结合验证器提供的详细步骤级奖励,提高策略学习效率,引导生成器朝更稳健的推理策略发展。
重要的是,验证器仅使用结果级验证正确性奖励进行训练,无需步骤级别的人工标注。通过RL,它逐步完善其链式思考验证推理,逐渐将步骤级反馈与最终正确性结果对齐,适应生成器不断演变的推理轨迹。
这种设计比以往方法更加有效。首先,通过RL而非SFT训练验证器,验证器能够发展出更强的推理技能,更好地泛化超出监督模仿范围的情况。其次,TANGO验证器的生成式和采样特性引入了随机性,提高了对奖励黑客攻击的鲁棒性。通过交替训练,生成器和验证器相互增强,实现更强的推理策略和更好的泛化性能。
### 深入TANGO的技术实现
TANGO的工作流程可以描述为一个循环的舞蹈:生成器创造解决方案,验证器评估解答的每个步骤和最终结果,两者通过RL算法不断改进自己的能力。这个过程可以用一个简单的类比来理解:
想象你在教一个孩子(生成器)解决数学问题,同时培养另一个孩子(验证器)来检查解答。起初,解题者可能会犯错,检查者也可能无法准确指出所有错误。但随着时间推移,解题者从检查者的反馈中学习,同时检查者也通过观察正确答案(而非具体步骤)来改进评估能力。两者在这个过程中共同进步,形成良性循环。
从技术角度看,生成器和验证器都是自回归语言模型,通过策略梯度方法进行优化。优化目标使用重要性采样公式表示,考虑当前、旧和参考策略模型之间的关系,以及在每个步骤上的优势估计。
对于生成器,其奖励设计包含两部分:
1. **基于规则的结果级奖励**:从生成的解决方案中提取预测答案,与金标准答案比较,正确为1,错误为0。
2. **来自验证器的步骤级奖励**:验证器为每个推理步骤提供判断("正确"或"错误"),转化为数值奖励。
验证器则基于其最终判断与真实结果的匹配程度获得奖励,同时考虑格式评分。虽然验证器仅使用结果级信号训练,但它能逐渐学会提供准确的步骤级判断,通过改进其链式思考推理能力实现这一点。
一个关键的技术挑战是验证器训练初期的类别不平衡问题。由于生成器最初主要产生错误解答,验证器的监督信号偏向负面标签,容易陷入总是预测"错误"的平凡解。TANGO通过在验证器优势计算中引入类别感知重加权机制解决这一问题,根据生成器解答的正确性,为样本分配特定的缩放因子。
三、实验设计与卓越表现:TANGO如何改变推理游戏规则
TANGO的实验设计旨在全面评估其在多种推理任务和实验设置下的有效性。研究团队选择了Qwen2.5-Math-7B作为生成器基础模型(因其强大的数学推理能力),而Qwen2.5-7B作为验证器基础模型(因其更大的上下文窗口,能够同时容纳问题和生成器输出)。
值得注意的是,Qwen2.5-7B在数学任务上表现不佳,这意味着验证器最初比生成器弱,与之前依赖更强验证器进行蒸馏的工作不同。这使TANGO的框架更具普适性和实用性——它不要求验证器一开始就很强大,而是通过互相促进,使两个代理从相对较弱的起点共同进化。
### 实验结果:数学推理的巨大飞跃
TANGO在各种标准RL算法(GRPO、RLOO和REINFORCE++)上进行了测试,结果令人印象深刻:
在五个竞赛级数学基准测试(AIME 2025、AIME 2024、AMC 2023、MATH-500和OlympiadBench)上,TANGO平均相对提升了25.5%。特别是与原始GRPO相比,TANGO在AIME 2024上提升了50.4%,在AIME 2025上提升了100.0%,在AMC 2023上提升了30.0%,平均提升24.6%。
在四个领域外推理任务(BoardgameQA、CRUXEval、StrategyQA和TableBench)上,TANGO与GRPO结合平均提升了6.1%,展示出良好的泛化能力。
训练动态分析显示,TANGO在仅使用原始GRPO 1/3的训练步数(60步对比200步)就达到了相同的准确率,展现出3.3倍的训练效率提升。在完成相同训练步数后,TANGO还实现了9.1%的更高相对准确率。
与基于ORM和PRM的基线(包括PRIME)相比,TANGO也表现出显著优势。这些改进归功于共同进化设计,其中生成器和验证器通过交替的RL训练相互增强。
在与先前最先进方法的系统级比较中,TANGO在7B/8B规模模型中创下新纪录,在数学任务上平均准确率达49.5%,在领域外任务上达62.8%。在最具挑战性的数学竞赛上,TANGO表现尤为出色,AIME 2024达26.7%,AIME 2025达23.3%,AMC 2023达70.0%,超越所有同等规模的先前模型。
### 验证器的独立卓越表现
TANGO不仅提升了生成器性能,其验证器也展现出色的能力。在ProcessBench(一个包含竞赛级数学问题的步骤级推理错误标注基准)上,TANGO验证器在没有使用任何步骤级监督的情况下,实现了7B/8B规模模型中的最佳性能。
特别是在最具挑战性的子集(OlympiadBench和Omni-MATH)上,TANGO验证器大幅超越先前方法,甚至超过了更大的Qwen2.5-Math-72B-Instruct模型,尽管TANGO验证器仅从Qwen2.5-7B基础模型初始化。
对于一个带有可用金标准步骤级标签的算法推理任务,深入分析确认了TANGO有效地将生成器和验证器引导至高度能力状态,通过互相增强实现这一点。当生成器和验证器共同在TANGO框架下更新时,两者表现均有持续强劲改进。而在固定生成器或验证器的对比实验中,进步明显受限,凸显了共同进化的重要性。
四、TANGO的工作原理:以数学问题解答为例
为了更直观地理解TANGO的工作方式,让我们看一个具体例子。假设系统面对这样一个方程求解问题:
> 问题:求解方程 (x? – 5x + 4)/(x – 1) = 3。 > 标准答案:x = 7
生成器可能给出以下多步解答:
``` <步骤1>通过乘以两边的分母(x – 1)消去分母:x? – 5x + 4 = 3x – 3。</步骤> <步骤2>将所有项移到左侧:x? – 5x + 4 – 3x + 3 = 0。</步骤> <步骤3>合并同类项得x? – 8x + 7 = 0,因式分解为(x – 7)(x – 1) = 0。</步骤> <步骤4>选择较小的根并得出x = 1。</步骤> <步骤5>结论:解为x = 1。</步骤> <答案>x = 1</答案> ```
然后,验证器会评估这个解答的每一步:
``` <步骤>消去分母的步骤正确。正确</步骤> <步骤>所有项正确移到左侧,无错误。正确</步骤> <步骤>二次式简化和因式分解正确,候选根是7和1。正确</步骤> <步骤>x = 1是无效的,它会使原方程的分母为零。错误</步骤> <步骤>解答不满足原方程;唯一有效的根是x = 7。错误</步骤> <最终验证>错误</最终验证> ```
在这个例子中,生成器的解答过程大部分正确,但在最后两步犯了错误——没有检查x = 1会使原方程分母为零,这是无效解。验证器正确识别了这个错误,并给出了恰当的反馈。
通过RL训练,生成器会从这类反馈中学习,逐渐避免类似错误;同时,验证器也通过观察更多样的解答和对应的正确答案,提升自己的判断能力。两者在这个过程中互相促进,共同提高。
值得注意的是,验证器能够做出准确的步骤级判断,尽管它只接受结果级的训练信号(即最终解答正确与否)。这展示了TANGO框架如何通过RL有效地培养验证器的链式思考能力,无需昂贵的步骤级标注。
五、TANGO与现有方法的比较:为何共同进化更胜一筹
要理解TANGO的突破,我们需要将其与现有方法进行对比。目前的RL后训练方法主要分为三类:
1. **使用规则型验证器**:这类方法依赖预定义规则评估解答,如答案匹配程度。这种验证器简单但缺乏灵活性,难以评估复杂推理过程。
2. **使用冻结预训练验证器**:这类方法使用另一个预训练然后冻结的模型作为验证器。虽然比规则型更灵活,但无法随生成器一起适应和进化。
3. **使用通过SFT训练的验证器**:这类方法(如PRIME)通过监督学习训练验证器。虽然能在线更新,但SFT限制了其推理能力和泛化性。
TANGO与这些方法的根本区别在于:它通过RL同时训练生成器和验证器,形成共同进化的动态系统。这种方法具有几个关键优势:
首先,通过RL训练的验证器比通过SFT训练的验证器具有更强的推理能力和泛化性,类似于我们在生成器训练中观察到的RL优于SFT的现象。
其次,生成式、采样型验证器引入了随机性,减少了模型找到"欺骗"验证系统途径的可能性,增强了系统鲁棒性。
第三,生成器产生的多样化输出让验证器接触到更广泛的推理模式,促使它适应新的验证策略,形成良性循环。
在实验对比中,TANGO一致优于规则型验证器(ORM)和基于PRM的基线(包括PRIME)。特别是在最困难的推理任务上,TANGO的优势更为明显,表明共同进化框架在复杂推理问题上特别有效。
六、TANGO的潜在应用与未来展望
TANGO框架的成功不仅在于它在数学推理基准上的出色表现,更重要的是它为LLM推理能力的提升提供了一种可扩展、通用的方法。这种方法的潜在应用远超本研究中测试的场景。
在实际应用方面,TANGO可以应用于:
1. **教育辅助系统**:TANGO的生成器和验证器组合可以作为智能辅导系统,不仅提供问题解答,还能指出学生解答中的具体错误并给予有针对性的指导。
2. **科学研究助手**:在复杂科学推理任务中,TANGO可以帮助研究人员验证多步骤假设和理论推导,提高研究效率和准确性。
3. **自动化软件开发**:在编程和软件开发领域,TANGO可以生成代码并同时验证其正确性,提供具体的修复建议。
4. **法律和合规分析**:在复杂法规解析和合规分析中,TANGO可以提供多步骤推理并自我验证推理过程的合理性。
5. **医疗诊断支持**:在临床决策支持系统中,TANGO可以通过清晰的步骤推导和验证帮助医生做出更准确的诊断和治疗决策。
从研究角度看,TANGO开辟了几个值得深入探索的方向:
1. **扩展到多模态任务**:将TANGO框架扩展到包含图像、音频等多模态输入的推理任务中。
2. **探索更复杂的验证机制**:开发能够识别更细微错误的验证器,或探索多层次验证系统。
3. **研究不同规模模型的协同**:探索大型模型作为验证器、小型模型作为生成器等不同组合的效果。
4. **自动课程学习**:结合课程学习,让系统自动调整问题难度,实现更高效的训练过程。
5. **人机协作框架**:将TANGO扩展为人机协作系统,整合人类反馈进一步提升系统能力。
TANGO的最大启示或许在于它表明,在人工智能系统中,互相促进的协同进化可能是达到更高水平的关键路径。就像舞伴在探戈中互相引导和响应,人工智能系统各组件之间的动态互动可能是提升整体性能的最有效途径。
七、结论:互相促进的AI学习新范式
TANGO框架的成功向我们展示了一个重要原则:在复杂的AI系统中,各组件不应孤立发展,而应形成互促互进的共同体。通过将生成器和验证器视为一个协同演化的整体,TANGO实现了超越现有方法的突破性成果。
归根结底,TANGO的核心理念并不复杂——它借鉴了人类学习的基本原则:尝试、获取反馈、改进,同时帮助他人也在这个过程中成长。正是这种双向促进的机制,使TANGO在最具挑战性的推理任务上取得了显著进步。
对于普通用户来说,TANGO的出现意味着未来的AI助手可能更擅长解决需要多步骤逻辑推理的复杂问题,无论是数学证明、科学研究、程序设计还是法律分析。更重要的是,这些系统不仅能给出答案,还能清晰解释每一步推理,并指出潜在错误,使AI决策过程更加透明和可靠。
对于AI研究社区,TANGO提供了一个全新的思路:不再专注于单一组件的优化,而是考虑系统内各部分如何相互促进,形成良性循环。这种思维方式可能为众多AI领域带来创新,从自然语言处理到机器人学习,再到多智能体系统。
随着TANGO和类似框架的发展,我们有理由期待AI系统在复杂推理能力上的持续提升,最终实现更接近人类水平的灵活思考和问题解决能力。就像一场精彩的探戈舞表演,当舞伴之间默契配合、相互促进时,最终呈现的艺术成就远超个体能力的简单叠加。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。