微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

快手科技突破！AI训练新方法让1.5B参数模型达到O1-mini水准

人工智能强化学习双重约束训练

快手科技突破！AI训练新方法让1.5B参数模型达到O1-mini水准

作者：科技行者

2025-07-25 09:37

分享至：

快手科技和清华大学联合提出了Archer训练方法，通过识别语言中的知识型和推理型词语，对不同类型内容采用差异化约束策略。该方法让1.5B参数的小模型在数学推理和编程任务上达到了与大模型相当的性能，在AIME数学竞赛中准确率提升18%，训练效率比传统方法高8倍以上，为AI训练提供了全新的"小而精"发展路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-25 09:37 • 科技行者

当我们谈论人工智能的推理能力时，就像讨论一个学生解数学题的水平。有些学生天赋异禀，但更多时候，优秀的学习方法和训练策略才是关键。最近，来自快手科技和清华大学的研究团队发表了一项突破性研究，提出了名为"Archer"的全新AI训练方法。这项研究于2025年7月发表在arXiv平台上，论文作者包括快手科技的王嘉康、刘润泽、张富政、周国睿以及清华大学的李修教授，完整论文可通过https://github.com/wizard-III/ArcherCodeR获取。

要理解这项研究的意义，我们可以把AI模型比作正在学习的学生。传统的强化学习训练方法就像是用同一套标准要求所有知识点——无论是背诵基础事实还是进行复杂推理，都用相同的学习强度。但这显然不是最优的学习策略。就像学生在复习时，记忆历史年代和解决复杂的物理问题需要不同的学习方法一样，AI在处理不同类型的语言内容时，也应该采用差异化的训练策略。

研究团队发现，在AI生成的文本中，每个词语扮演着不同的角色。有些词语主要承载事实知识，比如"地球围绕太阳转"中的具体事实；而另一些词语则负责逻辑推理和连接，比如"因此"、"所以"这样的逻辑连接词。前者被称为"知识型词语"，后者被称为"推理型词语"。传统训练方法对这两类词语一视同仁，但研究团队认为，这就像要求记忆型学习和逻辑型学习使用相同的方法，显然不够合理。

这项研究的核心创新在于提出了"双重约束"的训练策略。简单来说，就是对不同类型的词语采用不同的训练强度。对于承载事实知识的词语，系统会施加较强的约束，确保AI不会随意改变已知的正确信息，就像确保学生不会忘记基础知识一样。而对于负责逻辑推理的词语，系统则给予更大的探索空间，鼓励AI发展更强的推理能力，就像鼓励学生在解题时大胆尝试不同的思路。

一、智能训练的核心理念

要理解Archer方法的精妙之处，我们需要先了解传统强化学习训练的局限性。想象一个厨师正在学习烹饪一道复杂的菜肴，这道菜既需要精确的调料配比（相当于事实知识），也需要灵活的烹饪技巧（相当于推理能力）。传统的训练方法就像是用同样的指导强度来教授所有环节，但显然，精确的调料配比需要严格遵循，而烹饪技巧则需要更多的创新和探索空间。

研究团队通过深入分析发现，在AI生成的回答中，不同词语的"熵值"（可以理解为不确定性程度）差异很大。低熵值的词语通常承载具体的事实信息，比如数字、专有名词等，这些内容相对确定，不应该随意变动。而高熵值的词语往往出现在逻辑转折点，比如推理过程中的关键连接词，这些位置正是AI需要"动脑筋"的地方。

基于这个发现，研究团队设计了一套精妙的识别机制。他们不是简单地在整个数据集中设定一个统一标准，而是针对每个具体的回答内容计算其内部的熵值分布。这就像是针对每道不同的菜肴制定专门的烹饪策略，而不是用一套万能公式应对所有情况。

具体来说，系统会计算每个回答中所有词语的熵值，然后找出第80百分位数作为分界线。熵值高于这个分界线的词语被归类为"推理型"，需要更多探索；熵值低于分界线的被归类为"知识型"，需要更严格的约束。这种动态调整的方法确保了即使在不同复杂程度的问题中，系统都能准确识别出哪些部分需要创新思考，哪些部分需要保持稳定。

二、协同训练的必要性

在设计新的训练策略时，研究团队面临一个重要问题：是否应该将知识型词语和推理型词语分开训练？就像教学中是否应该将基础知识学习和逻辑思维训练完全分离一样。

经过深入研究，团队发现分离训练会带来严重问题。语言中的词语并非独立存在，而是相互依存的。一个句子中的知识型词语为推理型词语提供基础，而推理型词语又为知识型词语提供上下文语境。这种关系就像交响乐团中的不同乐器，虽然各自承担不同的音乐角色，但必须协调一致才能奏出美妙的乐章。

研究团队通过实验验证了这一点。当他们完全屏蔽知识型词语的训练，或者将两类词语分开训练时，AI的整体表现反而下降了。这是因为破坏了语言内部的语义和句法依赖关系，导致AI无法有效学习推理过程中的逻辑连贯性。

因此，Archer方法采用了同步协调训练的策略。所有词语都参与训练过程，但采用不同的训练约束强度。这就像一个优秀的指挥家，会根据不同乐器的特点给予不同的指导方式，但所有乐器仍然在同一个节拍下协调演奏。

三、双重约束机制详解

Archer方法的核心在于两种约束机制：剪切约束和KL散度约束。虽然这些术语听起来很技术化，但其实现原理可以用简单的比喻来理解。

剪切约束就像是给学习过程设定一个"步长限制"。对于知识型词语，系统设定较小的步长，确保AI不会偏离已知的正确答案太远，就像要求学生在复习基础知识时不要随意创新。而对于推理型词语，系统允许更大的步长，鼓励AI探索不同的推理路径，就像鼓励学生在解决复杂问题时可以大胆尝试新方法。

具体来说，在训练过程中，系统会监控AI对每个词语的预测概率变化。如果变化幅度超过设定的阈值，就会进行调整。对于知识型词语，这个阈值被设定得较小（0.2），而对于推理型词语，阈值被设定得较大（0.5）。这种设计确保了AI在保持事实准确性的同时，能够在推理环节发挥更大的创造性。

KL散度约束则像是一个"回归力"，防止AI在训练过程中偏离原始能力太远。对于知识型词语，这个回归力较强，确保AI不会忘记已经掌握的事实知识。对于推理型词语，回归力较弱，给予AI更多发展新推理能力的空间。

这两种约束机制协同工作，就像汽车的油门和刹车系统。油门（剪切约束）控制前进的速度，刹车（KL散度约束）确保不会失控。通过精确调节这两个系统，AI能够在保持稳定性的同时不断提升推理能力。

四、实验验证与卓越表现

为了验证Archer方法的有效性，研究团队在多个具有挑战性的基准测试上进行了广泛实验。这些测试就像是AI领域的"高考"，涵盖了数学推理和编程能力两大关键领域。

在数学推理方面，团队选择了AIME（美国数学邀请赛）2024和2025年的题目，以及Minerva数学基准等高难度测试。这些测试要求AI不仅要掌握数学知识，更要具备复杂的逻辑推理能力。结果显示，使用Archer方法训练的模型在AIME24上的准确率达到48.7%，比基础模型提高了18.1个百分点；在AIME25上达到33.8%，提升了10.3个百分点。

在编程能力测试方面，团队使用了LiveCodeBench v5和v6数据集，这些测试要求AI能够理解编程逻辑、处理边界条件、生成可执行代码。Archer模型在这些测试中同样表现出色，在LiveCodeBench v5上的准确率达到29.4%，比传统方法提升了12.7个百分点。

更令人印象深刻的是，研究团队将Archer方法与目前业界最先进的同规模模型进行了对比。结果显示，Archer不仅在绝对性能上超越了这些模型，在训练效率上也表现优异。其他模型通常需要多轮复杂训练，消耗大量计算资源，而Archer只需要单轮训练就能达到更好的效果。具体来说，Archer-Math模型只用了520个训练步骤和1900个GPU小时，而对比的Nemotron模型需要2500个训练步骤和16000个GPU小时。

五、深度分析与意外发现

在深入分析Archer方法的工作机制时，研究团队发现了一些有趣的现象。首先是关于KL散度约束重要性的发现。当研究团队尝试完全移除这个约束时，AI模型很快就出现了"崩溃"现象——开始产生大量重复内容，推理能力急剧下降。这就像学生在学习时如果完全没有基础知识的约束，很容易陷入错误的思维模式中无法自拔。

通过可视化分析，团队发现合适的约束强度确实至关重要。KL权重设置为0.001时，模型表现最佳；设置为0时，虽然初期学习很快，但很快就会因为过度偏离基础能力而性能下降；设置过高（0.005），则会限制模型的学习能力。这个发现强调了平衡的重要性——既要给AI足够的探索空间，又要确保它不会迷失方向。

另一个重要发现是关于数学训练和编程训练之间的相互促进作用。研究团队意外地发现，专门针对数学问题训练的模型在编程任务上的表现也会提升，反之亦然。这种跨领域的能力迁移表明，Archer方法提升的不仅仅是特定领域的技能，而是更根本的推理能力。

通过详细分析，团队发现这种提升主要体现在三个方面：结构化组织能力的增强、对细节关注度的提高、以及上下文一致性的改善。这些改进都指向一个核心：AI的推理能力得到了本质性的提升，而不仅仅是在特定任务上的表现改善。

六、技术创新的深层意义

Archer方法的成功不仅仅在于其优异的实验结果，更重要的是它揭示了AI训练的一个根本性原理：差异化训练策略的重要性。这个发现可能会深刻影响未来AI系统的设计和训练方法。

从更广阔的视角来看，这项研究回答了AI发展中的一个核心问题：强化学习究竟是如何提升AI推理能力的？研究团队通过大量实验证明，强化学习的主要作用不是教给AI新的知识或基础技能，而是帮助AI更好地整合和运用已有的能力。这就像一个优秀的教练不会教给运动员新的肌肉，而是教会他们如何更好地协调现有的身体能力。

这个发现对AI训练实践具有重要指导意义。它表明，在设计AI训练方案时，我们应该更多关注如何优化不同类型知识和技能之间的协调，而不是简单地增加训练数据或计算资源。这种思路可能会带来更高效、更可持续的AI发展路径。

同时，Archer方法也展现了"小而精"的AI模型的巨大潜力。在目前大模型竞争激烈的环境下，这项研究证明了通过精巧的训练策略，相对较小的模型也能达到令人惊讶的性能水平。这对于普及AI技术、降低应用门槛具有重要意义。

研究团队还注意到，他们的方法具有很好的通用性。虽然实验主要集中在数学和编程领域，但双重约束的基本原理可以扩展到其他领域。无论是自然语言理解、科学推理还是创意写作，都可能从这种差异化训练策略中受益。

七、实际应用前景与挑战

Archer方法的成功开启了AI应用的新可能性。在教育领域，这种能够精确区分事实知识和推理能力的AI系统可以为学生提供更个性化的学习指导。系统能够识别学生在知识记忆和逻辑推理方面的不同需求，从而提供针对性的练习和反馈。

在科研领域，Archer训练的AI模型可以更好地协助研究人员进行复杂分析。由于系统在保持事实准确性的同时具备强大的推理能力，它可以在文献综述、数据分析、假设生成等环节发挥重要作用。特别是在需要大量计算和逻辑推理的科学领域，这样的AI助手将大大提高研究效率。

然而，这项技术的广泛应用也面临一些挑战。首先是计算资源的需求。虽然Archer方法比传统方法更高效，但训练高质量的AI模型仍需要相当的计算资源。这可能会限制其在资源有限的环境中的应用。

其次是如何准确识别不同类型的词语。目前的方法基于熵值分析，在数学和编程领域表现良好，但在其他领域可能需要调整。比如在创意写作中，什么是"事实知识"什么是"推理过程"可能没有那么清晰的界限。

另外，随着AI能力的提升，如何确保其行为的可控性和安全性也成为重要考虑。Archer方法虽然提高了AI的推理能力，但也需要确保这种能力的提升不会带来意想不到的风险。

八、未来发展方向

基于Archer方法的成功，研究团队和整个AI社区可能会在几个方向上进行深入探索。首先是扩展到更多领域的应用。除了数学和编程，其他需要复杂推理的领域，如法律分析、医学诊断、金融决策等，都可能从这种差异化训练策略中受益。

其次是进一步优化词语类型的识别方法。目前基于熵值的方法已经很有效，但可能还有改进空间。研究者可能会探索结合语义分析、上下文理解等更复杂的方法来更精确地区分不同类型的语言内容。

第三个方向是探索更多元的约束机制。除了剪切约束和KL散度约束，可能还有其他方式来调节不同类型内容的训练强度。比如基于注意力机制的约束、基于奖励函数的动态调整等。

长远来看，Archer方法可能会促进"个性化AI"的发展。就像每个人都有不同的学习方式和思维特点，未来的AI系统也可能根据具体的应用场景和用户需求，采用不同的训练策略和约束机制。这将使AI系统更加灵活和适应性更强。

同时，这项研究也为AI的可解释性研究提供了新思路。通过分析不同类型词语在推理过程中的作用，我们可能能更好地理解AI的"思维过程"，这对于构建更透明、更可信的AI系统具有重要价值。

说到底，Archer方法的成功不仅仅是一项技术突破，更是AI训练理念的重要革新。它告诉我们，在追求更强大AI能力的道路上，精巧的方法往往比蛮力更有效。就像武侠小说中的顶级高手，真正的实力不在于内力的深厚，而在于对技巧的精妙运用。这项来自快手科技和清华大学的研究，为我们展现了AI发展的新可能性，也为普通用户享受更智能、更可靠的AI服务奠定了基础。对于那些希望深入了解技术细节的读者，完整的研究论文和代码都已经开源，可以通过https://github.com/wizard-III/ArcherCodeR获取，这种开放的研究态度也体现了科技进步应该惠及全人类的美好愿景。

Q&A

Q1：Archer方法和传统AI训练方法有什么本质区别？ A：传统方法对所有词语都用相同的训练强度，就像用同一套标准教所有科目。而Archer方法会识别出哪些词语负责记忆事实，哪些负责逻辑推理，然后对事实性词语施加严格约束保持准确，对推理性词语给予更大探索空间，这样AI既不会忘记基础知识，又能发展更强的推理能力。

Q2：为什么不能把知识型词语和推理型词语分开训练？ A：因为语言中的词语相互依存，就像交响乐团的不同乐器必须协调演奏一样。如果完全分离训练，会破坏语言的语义和句法依赖关系，导致AI无法学到连贯的逻辑推理能力。研究团队实验证明，分离训练反而会降低AI的整体表现。

Q3：Archer方法需要什么样的计算资源？普通人能使用吗？ A：虽然比传统方法更高效，但训练仍需要专业级GPU资源。不过这项技术的意义在于让相同计算资源能训练出更强的AI模型，未来可能会降低高性能AI的使用门槛，让普通用户也能享受到更智能的AI服务。目前代码已开源，研究者和开发者可以基于此进行创新。

人工智能强化学习双重约束训练

分享至