微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 快手科技突破!AI训练新方法让1.5B参数模型达到O1-mini水准

快手科技突破!AI训练新方法让1.5B参数模型达到O1-mini水准

2025-07-25 09:37
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-25 09:37 科技行者

当我们谈论人工智能的推理能力时,就像讨论一个学生解数学题的水平。有些学生天赋异禀,但更多时候,优秀的学习方法和训练策略才是关键。最近,来自快手科技和清华大学的研究团队发表了一项突破性研究,提出了名为"Archer"的全新AI训练方法。这项研究于2025年7月发表在arXiv平台上,论文作者包括快手科技的王嘉康、刘润泽、张富政、周国睿以及清华大学的李修教授,完整论文可通过https://github.com/wizard-III/ArcherCodeR获取。

要理解这项研究的意义,我们可以把AI模型比作正在学习的学生。传统的强化学习训练方法就像是用同一套标准要求所有知识点——无论是背诵基础事实还是进行复杂推理,都用相同的学习强度。但这显然不是最优的学习策略。就像学生在复习时,记忆历史年代和解决复杂的物理问题需要不同的学习方法一样,AI在处理不同类型的语言内容时,也应该采用差异化的训练策略。

研究团队发现,在AI生成的文本中,每个词语扮演着不同的角色。有些词语主要承载事实知识,比如"地球围绕太阳转"中的具体事实;而另一些词语则负责逻辑推理和连接,比如"因此"、"所以"这样的逻辑连接词。前者被称为"知识型词语",后者被称为"推理型词语"。传统训练方法对这两类词语一视同仁,但研究团队认为,这就像要求记忆型学习和逻辑型学习使用相同的方法,显然不够合理。

这项研究的核心创新在于提出了"双重约束"的训练策略。简单来说,就是对不同类型的词语采用不同的训练强度。对于承载事实知识的词语,系统会施加较强的约束,确保AI不会随意改变已知的正确信息,就像确保学生不会忘记基础知识一样。而对于负责逻辑推理的词语,系统则给予更大的探索空间,鼓励AI发展更强的推理能力,就像鼓励学生在解题时大胆尝试不同的思路。

一、智能训练的核心理念

要理解Archer方法的精妙之处,我们需要先了解传统强化学习训练的局限性。想象一个厨师正在学习烹饪一道复杂的菜肴,这道菜既需要精确的调料配比(相当于事实知识),也需要灵活的烹饪技巧(相当于推理能力)。传统的训练方法就像是用同样的指导强度来教授所有环节,但显然,精确的调料配比需要严格遵循,而烹饪技巧则需要更多的创新和探索空间。

研究团队通过深入分析发现,在AI生成的回答中,不同词语的"熵值"(可以理解为不确定性程度)差异很大。低熵值的词语通常承载具体的事实信息,比如数字、专有名词等,这些内容相对确定,不应该随意变动。而高熵值的词语往往出现在逻辑转折点,比如推理过程中的关键连接词,这些位置正是AI需要"动脑筋"的地方。

基于这个发现,研究团队设计了一套精妙的识别机制。他们不是简单地在整个数据集中设定一个统一标准,而是针对每个具体的回答内容计算其内部的熵值分布。这就像是针对每道不同的菜肴制定专门的烹饪策略,而不是用一套万能公式应对所有情况。

具体来说,系统会计算每个回答中所有词语的熵值,然后找出第80百分位数作为分界线。熵值高于这个分界线的词语被归类为"推理型",需要更多探索;熵值低于分界线的被归类为"知识型",需要更严格的约束。这种动态调整的方法确保了即使在不同复杂程度的问题中,系统都能准确识别出哪些部分需要创新思考,哪些部分需要保持稳定。

二、协同训练的必要性

在设计新的训练策略时,研究团队面临一个重要问题:是否应该将知识型词语和推理型词语分开训练?就像教学中是否应该将基础知识学习和逻辑思维训练完全分离一样。

经过深入研究,团队发现分离训练会带来严重问题。语言中的词语并非独立存在,而是相互依存的。一个句子中的知识型词语为推理型词语提供基础,而推理型词语又为知识型词语提供上下文语境。这种关系就像交响乐团中的不同乐器,虽然各自承担不同的音乐角色,但必须协调一致才能奏出美妙的乐章。

研究团队通过实验验证了这一点。当他们完全屏蔽知识型词语的训练,或者将两类词语分开训练时,AI的整体表现反而下降了。这是因为破坏了语言内部的语义和句法依赖关系,导致AI无法有效学习推理过程中的逻辑连贯性。

因此,Archer方法采用了同步协调训练的策略。所有词语都参与训练过程,但采用不同的训练约束强度。这就像一个优秀的指挥家,会根据不同乐器的特点给予不同的指导方式,但所有乐器仍然在同一个节拍下协调演奏。

三、双重约束机制详解

Archer方法的核心在于两种约束机制:剪切约束和KL散度约束。虽然这些术语听起来很技术化,但其实现原理可以用简单的比喻来理解。

剪切约束就像是给学习过程设定一个"步长限制"。对于知识型词语,系统设定较小的步长,确保AI不会偏离已知的正确答案太远,就像要求学生在复习基础知识时不要随意创新。而对于推理型词语,系统允许更大的步长,鼓励AI探索不同的推理路径,就像鼓励学生在解决复杂问题时可以大胆尝试新方法。

具体来说,在训练过程中,系统会监控AI对每个词语的预测概率变化。如果变化幅度超过设定的阈值,就会进行调整。对于知识型词语,这个阈值被设定得较小(0.2),而对于推理型词语,阈值被设定得较大(0.5)。这种设计确保了AI在保持事实准确性的同时,能够在推理环节发挥更大的创造性。

KL散度约束则像是一个"回归力",防止AI在训练过程中偏离原始能力太远。对于知识型词语,这个回归力较强,确保AI不会忘记已经掌握的事实知识。对于推理型词语,回归力较弱,给予AI更多发展新推理能力的空间。

这两种约束机制协同工作,就像汽车的油门和刹车系统。油门(剪切约束)控制前进的速度,刹车(KL散度约束)确保不会失控。通过精确调节这两个系统,AI能够在保持稳定性的同时不断提升推理能力。

四、实验验证与卓越表现

为了验证Archer方法的有效性,研究团队在多个具有挑战性的基准测试上进行了广泛实验。这些测试就像是AI领域的"高考",涵盖了数学推理和编程能力两大关键领域。

在数学推理方面,团队选择了AIME(美国数学邀请赛)2024和2025年的题目,以及Minerva数学基准等高难度测试。这些测试要求AI不仅要掌握数学知识,更要具备复杂的逻辑推理能力。结果显示,使用Archer方法训练的模型在AIME24上的准确率达到48.7%,比基础模型提高了18.1个百分点;在AIME25上达到33.8%,提升了10.3个百分点。

在编程能力测试方面,团队使用了LiveCodeBench v5和v6数据集,这些测试要求AI能够理解编程逻辑、处理边界条件、生成可执行代码。Archer模型在这些测试中同样表现出色,在LiveCodeBench v5上的准确率达到29.4%,比传统方法提升了12.7个百分点。

更令人印象深刻的是,研究团队将Archer方法与目前业界最先进的同规模模型进行了对比。结果显示,Archer不仅在绝对性能上超越了这些模型,在训练效率上也表现优异。其他模型通常需要多轮复杂训练,消耗大量计算资源,而Archer只需要单轮训练就能达到更好的效果。具体来说,Archer-Math模型只用了520个训练步骤和1900个GPU小时,而对比的Nemotron模型需要2500个训练步骤和16000个GPU小时。

五、深度分析与意外发现

在深入分析Archer方法的工作机制时,研究团队发现了一些有趣的现象。首先是关于KL散度约束重要性的发现。当研究团队尝试完全移除这个约束时,AI模型很快就出现了"崩溃"现象——开始产生大量重复内容,推理能力急剧下降。这就像学生在学习时如果完全没有基础知识的约束,很容易陷入错误的思维模式中无法自拔。

通过可视化分析,团队发现合适的约束强度确实至关重要。KL权重设置为0.001时,模型表现最佳;设置为0时,虽然初期学习很快,但很快就会因为过度偏离基础能力而性能下降;设置过高(0.005),则会限制模型的学习能力。这个发现强调了平衡的重要性——既要给AI足够的探索空间,又要确保它不会迷失方向。

另一个重要发现是关于数学训练和编程训练之间的相互促进作用。研究团队意外地发现,专门针对数学问题训练的模型在编程任务上的表现也会提升,反之亦然。这种跨领域的能力迁移表明,Archer方法提升的不仅仅是特定领域的技能,而是更根本的推理能力。

通过详细分析,团队发现这种提升主要体现在三个方面:结构化组织能力的增强、对细节关注度的提高、以及上下文一致性的改善。这些改进都指向一个核心:AI的推理能力得到了本质性的提升,而不仅仅是在特定任务上的表现改善。

六、技术创新的深层意义

Archer方法的成功不仅仅在于其优异的实验结果,更重要的是它揭示了AI训练的一个根本性原理:差异化训练策略的重要性。这个发现可能会深刻影响未来AI系统的设计和训练方法。

从更广阔的视角来看,这项研究回答了AI发展中的一个核心问题:强化学习究竟是如何提升AI推理能力的?研究团队通过大量实验证明,强化学习的主要作用不是教给AI新的知识或基础技能,而是帮助AI更好地整合和运用已有的能力。这就像一个优秀的教练不会教给运动员新的肌肉,而是教会他们如何更好地协调现有的身体能力。

这个发现对AI训练实践具有重要指导意义。它表明,在设计AI训练方案时,我们应该更多关注如何优化不同类型知识和技能之间的协调,而不是简单地增加训练数据或计算资源。这种思路可能会带来更高效、更可持续的AI发展路径。

同时,Archer方法也展现了"小而精"的AI模型的巨大潜力。在目前大模型竞争激烈的环境下,这项研究证明了通过精巧的训练策略,相对较小的模型也能达到令人惊讶的性能水平。这对于普及AI技术、降低应用门槛具有重要意义。

研究团队还注意到,他们的方法具有很好的通用性。虽然实验主要集中在数学和编程领域,但双重约束的基本原理可以扩展到其他领域。无论是自然语言理解、科学推理还是创意写作,都可能从这种差异化训练策略中受益。

七、实际应用前景与挑战

Archer方法的成功开启了AI应用的新可能性。在教育领域,这种能够精确区分事实知识和推理能力的AI系统可以为学生提供更个性化的学习指导。系统能够识别学生在知识记忆和逻辑推理方面的不同需求,从而提供针对性的练习和反馈。

在科研领域,Archer训练的AI模型可以更好地协助研究人员进行复杂分析。由于系统在保持事实准确性的同时具备强大的推理能力,它可以在文献综述、数据分析、假设生成等环节发挥重要作用。特别是在需要大量计算和逻辑推理的科学领域,这样的AI助手将大大提高研究效率。

然而,这项技术的广泛应用也面临一些挑战。首先是计算资源的需求。虽然Archer方法比传统方法更高效,但训练高质量的AI模型仍需要相当的计算资源。这可能会限制其在资源有限的环境中的应用。

其次是如何准确识别不同类型的词语。目前的方法基于熵值分析,在数学和编程领域表现良好,但在其他领域可能需要调整。比如在创意写作中,什么是"事实知识"什么是"推理过程"可能没有那么清晰的界限。

另外,随着AI能力的提升,如何确保其行为的可控性和安全性也成为重要考虑。Archer方法虽然提高了AI的推理能力,但也需要确保这种能力的提升不会带来意想不到的风险。

八、未来发展方向

基于Archer方法的成功,研究团队和整个AI社区可能会在几个方向上进行深入探索。首先是扩展到更多领域的应用。除了数学和编程,其他需要复杂推理的领域,如法律分析、医学诊断、金融决策等,都可能从这种差异化训练策略中受益。

其次是进一步优化词语类型的识别方法。目前基于熵值的方法已经很有效,但可能还有改进空间。研究者可能会探索结合语义分析、上下文理解等更复杂的方法来更精确地区分不同类型的语言内容。

第三个方向是探索更多元的约束机制。除了剪切约束和KL散度约束,可能还有其他方式来调节不同类型内容的训练强度。比如基于注意力机制的约束、基于奖励函数的动态调整等。

长远来看,Archer方法可能会促进"个性化AI"的发展。就像每个人都有不同的学习方式和思维特点,未来的AI系统也可能根据具体的应用场景和用户需求,采用不同的训练策略和约束机制。这将使AI系统更加灵活和适应性更强。

同时,这项研究也为AI的可解释性研究提供了新思路。通过分析不同类型词语在推理过程中的作用,我们可能能更好地理解AI的"思维过程",这对于构建更透明、更可信的AI系统具有重要价值。

说到底,Archer方法的成功不仅仅是一项技术突破,更是AI训练理念的重要革新。它告诉我们,在追求更强大AI能力的道路上,精巧的方法往往比蛮力更有效。就像武侠小说中的顶级高手,真正的实力不在于内力的深厚,而在于对技巧的精妙运用。这项来自快手科技和清华大学的研究,为我们展现了AI发展的新可能性,也为普通用户享受更智能、更可靠的AI服务奠定了基础。对于那些希望深入了解技术细节的读者,完整的研究论文和代码都已经开源,可以通过https://github.com/wizard-III/ArcherCodeR获取,这种开放的研究态度也体现了科技进步应该惠及全人类的美好愿景。

Q&A

Q1:Archer方法和传统AI训练方法有什么本质区别? A:传统方法对所有词语都用相同的训练强度,就像用同一套标准教所有科目。而Archer方法会识别出哪些词语负责记忆事实,哪些负责逻辑推理,然后对事实性词语施加严格约束保持准确,对推理性词语给予更大探索空间,这样AI既不会忘记基础知识,又能发展更强的推理能力。

Q2:为什么不能把知识型词语和推理型词语分开训练? A:因为语言中的词语相互依存,就像交响乐团的不同乐器必须协调演奏一样。如果完全分离训练,会破坏语言的语义和句法依赖关系,导致AI无法学到连贯的逻辑推理能力。研究团队实验证明,分离训练反而会降低AI的整体表现。

Q3:Archer方法需要什么样的计算资源?普通人能使用吗? A:虽然比传统方法更高效,但训练仍需要专业级GPU资源。不过这项技术的意义在于让相同计算资源能训练出更强的AI模型,未来可能会降低高性能AI的使用门槛,让普通用户也能享受到更智能的AI服务。目前代码已开源,研究者和开发者可以基于此进行创新。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-