微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ByteDance Seed和南京大学联手破解AI训练难题:无需人工标注的"双向学习"让机器自己当老师

ByteDance Seed和南京大学联手破解AI训练难题:无需人工标注的"双向学习"让机器自己当老师

2025-09-09 10:22
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-09 10:22 科技行者

这项由ByteDance Seed和南京大学的研究团队共同完成的突破性研究发表于2025年8月,论文名为《DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization》。这项研究提出了一种全新的AI训练方法,让大型语言模型能够像学生互相检查作业一样自我提升,完全不需要昂贵的人工标注。有兴趣深入了解的读者可以通过arXiv:2508.14460v1访问完整论文。

当前训练大型AI模型就像培养一个学生,传统方法需要大量老师(人工标注员)不断纠正和指导,这不仅成本高昂,而且质量难以保证。正如一个班级如果只有一位老师要管理几十个学生会力不从心一样,现有的AI训练方法面临着相似的困境。更糟糕的是,对于翻译、数学推理这样的复杂任务,即使是专业的标注员也可能给出不一致甚至错误的答案。

研究团队巧妙地提出了一种"双向学习"的训练方法,称为DuPO(Dual Learning-based Preference Optimization)。这种方法的核心思想就像让学生A出题给学生B做,然后B再根据A的答案反向出题给A验证。如果A能够正确回答B的反向问题,说明A的原始答案质量很高;如果答不出来,说明原答案有问题。这样,两个"学生"就能在没有老师直接指导的情况下相互提升。

具体来说,当AI模型处理一个数学问题时,比如"一个盒子里有3个红球和5个蓝球,总共多少个球?",传统方法需要人工检查答案"8"是否正确。而DuPO方法会让模型自己构造一个反向问题:"如果答案是8,且已知有3个红球,那么蓝球有多少个?"如果模型能正确回答"5个蓝球",说明它对原问题的理解是准确的;如果答不出或答错,说明原答案可能有问题。

这种方法的巧妙之处在于解决了传统"双向学习"的两大难题。第一个难题就像拼图游戏中缺失的拼片无法还原完整图案一样,AI的输出往往不包含足够信息来重构输入。比如数学题的答案"8"可能对应无数不同的问题,无法唯一确定原题。研究团队通过"已知-未知分解"巧妙解决了这个问题,就像在拼图时保留一些关键拼片作为线索,只让模型重构缺失的部分。

第二个难题是"能力不对称"问题,就像一个学生擅长解题但不擅长出题一样,AI在正向和反向任务上的表现可能差异很大。研究团队通过降低反向任务的复杂度,让它变得更容易完成,确保了训练信号的可靠性。

在多语言翻译实验中,DuPO方法将Seed-X-7B-Instruct模型的表现提升了显著的幅度。在覆盖28种语言、756个翻译方向的大规模测试中,该方法平均提升了2.13个COMET分数点。更令人印象深刻的是,经过DuPO训练的7B参数模型在人工评估中达到了与GPT-4o和DeepSeek-R1这样的超大型模型相当的水平,同时显著超越了Google翻译这样的商业系统。

在数学推理任务上,DuPO的效果同样令人惊喜。当应用到不同规模的模型时,从1.5B到7B参数,都获得了稳定的性能提升。特别值得一提的是,Qwen3-4B模型在三个挑战性数学基准测试中的平均得分提升了6.4个百分点,甚至超越了更大的DeepSeek-R1-0120模型。对于OpenReasoning-Nemotron-7B这样的强力模型,DuPO将其平均分数从83.9%提升到90.3%,达到了新的性能巅峰。

更有趣的是,DuPO不仅可以用于训练,还能在推理时作为"智能评委"发挥作用。就像考试时让学生做多道题然后选择最好的答案一样,DuPO可以让模型生成多个候选答案,然后通过反向验证选出最优解。这种方法在AIME数学竞赛基准上将Qwen3-4B的表现提升了9.3个百分点,让这个相对较小的模型在某些任务上甚至超越了DeepSeek-R1和Claude-Sonnet4-Thinking这样的超大型模型。

研究团队还验证了DuPO在不同模型架构上的通用性。无论是LlaMA-3.1-8B还是OctoThinker-8B-Hybrid-Base,都在DuPO的帮助下获得了显著提升。特别是LlaMA-3.1-8B在数学推理任务上的平均得分从8.1%跃升到32.1%,提升幅度达到24个百分点,甚至超越了依赖标准答案训练的SimpleRL-Zoo方法。

最令人兴奋的发现是,DuPO甚至能够直接从基础模型中"唤醒"推理能力。研究团队将DuPO应用到没有经过任何数学推理训练的Qwen3-4B基础模型上,观察到模型的推理能力从初始的15.2%稳步提升到56.5%,在未见过的测试集上也展现出了强大的泛化能力。这就像一个从未学过数学的学生,仅仅通过自我练习和验证就掌握了复杂的数学推理技能。

为了验证方法的有效性,研究团队进行了详细的消融实验。他们发现,如果去除"未知成分选择"这一关键策略,模型性能会显著下降。这进一步证明了他们提出的"广义对偶框架"确实是性能提升的关键所在,而不是其他偶然因素。

DuPO方法的成功为AI训练开辟了新的道路。它不仅大大降低了训练成本,摆脱了对昂贵人工标注的依赖,还展现出了优秀的跨任务泛化能力。无论是语言翻译这样的开放性任务,还是数学推理这样的逻辑性任务,DuPO都能提供可靠的性能提升。

这项研究的意义远不止于技术创新。它为AI模型的自主学习和持续改进提供了新的可能性,让我们看到了AI系统未来可能实现真正自主学习的曙光。正如研究团队所展示的那样,通过巧妙的"双向验证"机制,AI模型能够在没有外部监督的情况下不断提升自己的能力。这种方法不仅适用于当前的大型语言模型,还为未来更强大、更智能的AI系统奠定了重要基础。

当然,这项研究也有一些局限性。目前的实验主要集中在中等规模的模型上,对于更大规模模型的效果还有待进一步验证。此外,虽然DuPO在翻译和数学推理上表现出色,但在更开放、更具创造性的任务上的应用还需要更多探索。研究团队也坦率地指出,数学推理中的"未知成分选择"步骤会带来一定的计算开销,未来需要开发更高效的筛选机制。

说到底,DuPO为我们描绘了一个令人兴奋的未来图景:AI系统能够像人类学习者一样,通过自我反思和验证不断提升能力,而不再完全依赖外部的"老师"。这种自主学习的能力不仅能大大降低AI开发和部署的成本,还可能让AI系统在面对新任务时展现出更强的适应性和创造力。对于普通用户而言,这意味着未来的AI助手将变得更加智能、更加可靠,同时使用成本也会更加亲民。

Q&A

Q1:DuPO双向学习方法是什么原理?它如何让AI自己训练自己?

A:DuPO就像让学生A出题给学生B做,然后B根据A的答案反向出题来验证A。比如AI解答"3个红球+5个蓝球=8个球"后,系统会反向提问"答案是8且有3个红球,蓝球有几个?"如果AI能正确回答"5个",说明原答案质量高;答错则说明有问题。这样AI就能在没有人工标注的情况下自我改进。

Q2:DuPO方法在哪些任务上效果最好?具体提升有多大?

A:DuPO在多语言翻译和数学推理任务上效果显著。在翻译方面,让7B模型达到了与GPT-4o相当的水平,在756个翻译方向上平均提升2.13个COMET分数。在数学推理上,Qwen3-4B模型平均提升6.4个百分点,OpenReasoning-Nemotron-7B从83.9%提升到90.3%。甚至作为推理时的评判工具也能带来9.3个百分点的提升。

Q3:DuPO方法相比传统AI训练方式有什么优势?普通人能用上吗?

A:DuPO最大优势是完全不需要昂贵的人工标注,大大降低了训练成本,同时避免了人工标注不一致的问题。它能让AI系统自主学习和持续改进,适用于各种不同规模和架构的模型。虽然目前还是研究阶段,但这种技术将让未来的AI助手变得更智能、更可靠,使用成本也更亲民。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-