微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 从同伴中学习:如何改进AI推理模型的自我纠错能力

从同伴中学习:如何改进AI推理模型的自我纠错能力

2025-05-14 12:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-14 12:47 科技行者

2025年5月,来自香港中文大学(深圳)、DualityRL、北京科技大学和华为的研究团队发表了一篇引人注目的论文,探讨了如何让人工智能更善于从同伴中学习以改进其推理能力。这篇题为《Learning from Peers in Reasoning Models》的研究由同等贡献的Tongxu Luo和Wenyu Du领衔,已于2025年5月12日在arXiv上发布。有兴趣深入了解的读者可以通过arXiv:2505.07787v1查阅完整论文。

一、AI的"自我纠错"真有那么强吗?

想象一下,你刚开始解一道复杂的数学题,但在开头就走错了路。你会怎么做?大多数人可能会陷入对错误思路的执着,越走越偏。这个现象在人工智能中也存在,研究团队称之为"前缀主导陷阱"。

大型推理模型(LRM)被广泛认为拥有强大的自我纠错能力。就像一个学生在解题过程中意识到错误并自行更正一样,这些AI模型理论上能够在生成推理路径时评估自己的思路(自我验证),并在必要时生成替代解法(自我完善)。研究人员有时将这种顿悟时刻称为"啊哈时刻"。

但这种自我纠错能力真的如大家想象的那么强吗?研究团队决定进行一项巧妙的实验:他们让AI模型从固定的开头(从正确或错误的解答中提取的前15%内容)继续完成推理任务。如果模型真有强大的自我纠错能力,即使起点错误,也应该能够纠正路线,找到正确答案。

结果令人惊讶:当模型被迫从错误的开头继续推理时,其性能平均下降了约20%!这就像给学生一个错误的思路引导,然后很难完全摆脱这个错误的影响。这一现象证明了大型推理模型的自我纠错能力被高估了,一个短小的错误开头就能显著影响最终表现。

二、像同学讨论一样:向AI引入"同伴学习"

心理学研究发现,学生之间的互动可以有效促进自我纠正,同时不会对已经掌握概念的学生产生负面影响。想象一个学习小组,成员们互相分享想法并指出彼此的错误 - 这种集体智慧往往比独自思考更有效。

受此启发,研究团队提出了名为"LeaP"(Learning from Peers,从同伴中学习)的方法。这种方法的核心思想很简单:与其让AI独自一人苦思冥想,不如让它像小组讨论一样,将不同的推理路径相互交流,互相借鉴。

具体来说,在生成推理过程中,每当AI生成一定数量(例如T个token)的内容后,每条推理路径会总结自己当前的思路,并通过一种路由机制与其他路径共享。同时,每条路径也会接收来自其他路径的见解。这就像学生们在解题过程中停下来交流自己的想法,互相启发。

这种方法本质上扩展了模型的自我验证能力。不再仅仅验证自己的推理过程,模型现在能够评估多种不同的解题思路。这大大拓宽了搜索空间,使模型能够从更多角度考虑问题,而不是仅局限于自己的单一路径。

三、LeaP如何运作:AI之间的思维碰撞

LeaP的核心工作流程就像一群学生在共同解题时定期分享想法。想象你正在参加一个数学竞赛,与其他参赛者坐在同一个房间里。每隔一段时间,大家都停下来,写下自己目前的思路和发现,然后与几位选定的队友交换笔记。阅读他们的笔记后,你可能会发现自己的思路有问题,或者获得新的启发。

LeaP正是这种过程的AI版本,其工作原理分为两个关键步骤:

1. 总结阶段:生成可分享的见解

每当AI生成一定量的推理内容后,它会暂停并总结自己当前的思路、关键见解和中间结果。为了保持效率,这些总结被严格限制在256个标记内(相当于一段简短的文字)。

这个总结过程由随机选择的"总结触发器"和"总结模板"指导。比如触发器可能是"让我们暂停一下,总结一下目前的发现",而模板可能是"简而言之,我目前的结论是..."。这种随机性确保了总结在表达方式上有变化,同时仍能捕捉核心信息。

2. 路由阶段:分发同伴见解

一旦所有路径生成了总结,下一步是决定哪些总结应该分享给哪些路径。这就像决定哪些学生应该互相交换笔记。研究团队探索了三种分享策略:

分散路由:优先选择与自己当前思路最不相似的总结。这就像找思维方式与自己完全不同的同学交流,以获得全新视角。

聚集路由:选择与自己当前思路最相似的总结。这就像与解题方向相近的同学交流,互相确认思路的正确性。

混合路由:结合上述两种策略,既选择一些相似的总结(加强当前思路),也选择一些不同的总结(获取新视角)。

通过这种方式,每条推理路径能够"学习"其他路径的思考过程,并在必要时调整自己的思路。

四、LeaP真能解决"前缀主导陷阱"吗?

要检验LeaP是否能有效减轻"前缀主导陷阱"的影响,研究团队重复了前面的实验,让使用LeaP的模型从固定的错误起点继续推理。

结果令人鼓舞:使用LeaP的模型表现明显好于基线模型。例如,在DeepSeek-Distill-Qwen-14B模型上,LeaP将性能差距从19.88%缩小到了7.81%。

这就像给学生一个错误的开头,但让他们有机会与其他同学讨论 - 这样的讨论往往能帮助他们识别并纠正最初的错误引导。LeaP实际上帮助模型跳出了"前缀主导陷阱",使它们能够更客观地评估多种推理路径,而不是固执地坚持可能有缺陷的初始思路。

五、全面评估:LeaP在各种推理任务上的表现

研究团队在四个具有挑战性的基准测试上评估了LeaP的效果:

AIME 2024:美国数学邀请赛2024年题集(30道问题)
AIME 2025:美国数学邀请赛2025年题集(30道问题)
AIMO 2025:人工智能数学奥林匹克2025年参考集(10道问题)
GPQA Diamond:物理、化学和生物学领域需要博士级专业知识的198道问题

实验结果表明,LeaP在所有测试中都显著提升了模型性能。例如,使用分散路由策略的QwQ-32B模型比基线平均提高了近5个百分点,甚至在三个数学基准测试中超过了更大的DeepSeek-R1-671B模型。

值得注意的是,LeaP并没有显著增加推理所需的总token数。实际上,在某些情况下,LeaP生成的响应平均长度反而更短。LeaP还减少了约16.4%的"啊哈时刻"(模型中断自己的思路进行反思的次数)。这表明,通过接收同伴的意见和结果,模型减少了独自反思的需要,更高效地达成结论。

六、进一步改进:LeaP-T模型系列

研究团队观察到,较小的模型(如DeepSeek-R1-Distill-Qwen-7B)有时无法有效地总结和反思同伴的见解。就像有些学生不太擅长总结自己的想法或理解他人的思路一样。

为了解决这个问题,研究团队创建了LeaP-T模型系列,通过监督微调来改善小型模型处理同伴学习的能力。他们使用约1,000道来自1984年至2023年的AIME问题作为源数据,生成了高质量的训练样本。

这种训练方法产生了显著效果。例如,LeaP-T-7B模型在AIME 2024上达到了64.38%的准确率,与DeepSeek-R1-Distill-Qwen-14B的64.47%相当,尽管后者是前者规模的两倍。这表明,即使是较小的模型,通过适当的训练也能有效利用同伴学习的优势。

七、深入分析:为什么LeaP如此有效?

研究团队从多个角度对LeaP进行了深入分析,揭示了几个关键发现:

1. 沟通敏感性分析

通信粒度:更频繁的通信(较小的T值)略微提高了性能,但也增加了token消耗。
通信流量:接收更多同伴总结(较大的k值)并不总是更好。实验表明,Top-4(从每个路径接收4个总结)在效果和效率之间取得了最佳平衡。
通信类型演变趋势:研究团队发现,通信在推理早期至中期阶段最为有效,而在后期阶段影响较小。
通信位置:实验还表明,早期交流通常比晚期交流更有效。甚至只在推理过程的早期放置一个LeaP块,也能带来显著改进。

2. 鲁棒性分析

容错能力:研究团队发现LeaP非常健壮,即使大多数推理路径是错误的,它仍能从中提取有用信息。这表明模型能够从嘈杂的总结中提炼有价值的信号。
不同难度水平的表现:LeaP在所有难度级别的问题上都表现出改进,甚至在基线模型完全失败的"非常困难"问题上也有所进展。

3. 人工验证

研究团队还进行了详细的人工评估,比较了QwQ-32B在有无LeaP情况下的表现。结果显示,使用LeaP时,正确答案的比例从25%提高到了62.5%。更重要的是,40.62%的响应从错误变为正确,而没有一个响应从正确变为错误。这表明同伴通信主要作为一种纠错机制,识别和修复错误,而不会干扰已经正确的推理。

八、结语:集体智慧的力量

这项研究揭示了一个简单而强大的事实:即使是先进的AI模型,也能从"集体智慧"中获益。就像人类学生通过小组讨论提高学习效果一样,AI推理模型通过交流不同的推理路径,能够识别并纠正潜在的错误,从而达到比独自思考更好的结果。

LeaP代表了AI推理的一个里程碑,它使大型推理模型能够在推理过程中进行协作。这种方法不仅缓解了"前缀主导陷阱"带来的限制,还在各种复杂推理任务上显著提升了模型性能。

研究团队的工作打开了许多有前景的未来研究方向,包括将同伴学习扩展到强化学习领域,以及探索利用具有不同专长的同伴进行协作。这就像组建一个由不同专业背景的专家组成的团队,共同解决复杂问题。

归根结底,这项研究提醒我们,无论是人还是AI,有时最好的思考不是独自一人完成的,而是通过与同伴的交流和协作产生的。正如谚语所说:"三个臭皮匠,胜过诸葛亮"——只不过在这里,"皮匠们"恰好是AI推理路径。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法
    2025-05-07 10:33

    ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法

    现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。

  • FormalMATH:人工智能形式化数学推理的新标杆
    2025-05-07 10:32

    FormalMATH:人工智能形式化数学推理的新标杆

    想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。

  • Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型
    2025-05-07 10:29

    Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型

    想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。

  • RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具
    2025-05-07 10:27

    RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具

    想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-