
这项由Collinear公司的研究团队进行的研究发表于2025年10月的NeurIPS 2025深度学习编程研讨会(DL4C),有兴趣深入了解的读者可以通过论文编号arXiv:2510.06101v1查询完整论文。研究团队包括穆玉鹤、穆罕默德·阿里·沙菲克、阿南德·库马尔、萨克·麦基和纳兹宁·拉贾尼等研究者。
你有没有想过,当我们教一个聪明的学生解数学题时,会发生什么?通常我们会期待学生的表现随着练习题数量的增加而稳步提升。但如果告诉你,在人工智能的世界里,小型AI模型在学习编程推理时的表现曲线竟然像过山车一样起伏不定——先急剧下降再大幅上升,你会相信吗?
这就是Collinear公司研究团队最新发现的"代码推理谷地"现象。他们发现,当小型AI模型向大型AI"老师"学习编程推理技能时,并不是练习越多表现越好。相反,这些AI"学生"会经历一个非常特殊的学习过程:在训练初期,它们的编程能力竟然会大幅下降,就像一个原本会简单计算的学生,在学习复杂数学后反而连基础题都不会做了。但随着继续学习,它们的能力会突然爆发式增长,最终表现远超初始水平。
这个发现颠覆了人们对AI学习过程的传统认知。研究团队通过对两个主流小型AI模型——Qwen2.5-7B和Llama3.1-8B进行大量实验,发现了这个令人惊讶的"谷地"现象。更有趣的是,他们还发现在AI学习过程中,"老师"给出的答案是否正确其实并不重要,但题目的难易程度却会显著影响学习效果。
一、AI界的"退步"现象:为什么越学越笨?
要理解这个奇怪的现象,我们可以把AI学习比作一个学生学习新的解题方法。设想一个原本会用简单方法解题的学生,突然接触到了一套全新的、更复杂但更强大的解题思路。在学习初期,这个学生可能会陷入困惑——既不能完全掌握新方法,又丢失了原来的简单技能,因此表现会急剧下降。
研究团队选择了两个"学生"——Qwen2.5-7B和Llama3.1-8B模型,让它们向两个"超级老师"学习编程推理。这两个老师分别是DeepSeek-R1-0528和KAT-V1-40B,它们在编程竞赛中的正确率超过70%,可以说是编程界的顶尖高手。
研究团队精心设计了一套渐进式的训练方案。他们从一个包含30000个编程问题的大型数据集开始,然后创建了三个不同规模的训练集:1000个样本、10000个样本和30000个样本。每个样本都包含一个编程问题和"老师"模型的详细解题过程,这个解题过程被特殊标记包围,就像学生的草稿纸一样记录了完整的思考轨迹。
令人惊讶的结果出现了。当研究团队用LiveCodeBench这个权威的编程竞赛基准来测试学生模型的表现时,他们发现了一个违反直觉的现象。以Qwen2.5模型为例,它的初始表现是12.7%的通过率。但当用1000个样本训练后,通过率竟然跌到了5.5%,几乎是初始水平的一半。这就像一个原本能解出简单方程的学生,在学习高等数学后连基础加减法都搞错了。
但故事并没有就此结束。当训练样本增加到10000个时,神奇的转折出现了。模型的表现开始强势反弹,通过率跃升到18.8%,不仅恢复了初始水平,还有了显著提升。而当训练样本达到30000个时,模型的表现更是达到了26.4%,比初始水平提升了超过100%。
Llama3.1模型也展现出了类似的"谷地"现象,只是具体数值略有不同。这种一致性说明,这不是某个特定模型的偶然表现,而是小型AI模型学习复杂推理技能时的普遍规律。
研究团队还深入分析了两个关键指标来理解这个现象。第一个是"完成率",即模型能在规定的token数量内完成回答的比例。就像考试时能在规定时间内完成答题的学生比例一样。他们发现,随着训练数据的增加,完成率呈现稳定的对数线性增长,从1000样本时的不到20%增长到30000样本时的60-70%。
第二个指标更有趣,叫做"思考标签使用率",即模型在回答中正确使用特殊思考标记的比例。这就像学生是否能正确使用老师教的解题格式。令人惊讶的是,这个看似简单的格式学习对AI来说竟然非常困难。在训练初期,两个模型的思考标签使用率都低于20%,但随着训练的深入,这个比例也呈现对数线性增长,最终达到50-70%。
二、"老师"答案对错重要吗?AI学习的意外发现
传统教育告诉我们,学生应该从正确的示例中学习,避免错误的示例误导。但在AI的世界里,这个常识竟然被彻底颠覆了。研究团队设计了一个巧妙的实验来验证这个问题:他们准备了两套相同规模的训练数据,一套包含6000个正确答案,另一套包含6000个错误答案。
结果令人震惊。无论是基础的Qwen2.5模型还是已经经过30000样本训练的进阶版本,用正确答案训练和用错误答案训练的效果几乎完全相同。具体数据显示,基础模型用正确答案训练后通过率为18.5%,用错误答案训练后为18.2%;进阶模型用正确答案训练后通过率为34.7%,用错误答案训练后为35.0%。这个差异小到可以忽略不计。
这个发现彻底改变了我们对AI学习机制的理解。可以用学习语言的比喻来理解这个现象:当我们学习一门外语时,即使听到一些语法错误的句子,只要句子结构和表达方式是地道的,我们仍然能从中学到有用的语言模式。对于AI模型来说,它们似乎更关注"老师"的思考结构和推理框架,而不是最终答案的正确性。
这个发现有重要的实践意义。在传统的AI训练中,研究人员往往花费大量时间和资源来确保训练数据的正确性,甚至为此雇佣专家进行人工审核。但这项研究表明,至少在编程推理的学习过程中,这种努力可能是不必要的。AI模型能够从"老师"的思考过程中学到有价值的推理模式,即使最终答案是错误的。
当然,这并不意味着我们应该故意提供错误的训练数据。而是说,当我们无法确保所有训练数据都完全正确时,不必过分担心。AI模型具有从不完美数据中提取有用信息的能力,这种能力比我们想象的要强大得多。
三、简单题vs复杂题:AI的学习偏好大揭秘
如果答案的正确性不重要,那么什么因素会影响AI的学习效果呢?研究团队把目光转向了另一个关键因素:题目难度。他们利用现有的题目难度标签,将编程问题分为两大类:困难题(标记为困难、非常困难或中等困难)和简单题(标记为简单或中等)。
然后,他们分别准备了两套4000个样本的训练集,一套全是困难题,另一套全是简单题。训练结果再次出人意料:无论是基础模型还是进阶模型,用简单题训练的效果都显著优于用困难题训练的效果。
具体来说,基础Qwen2.5模型用困难题训练后通过率仅提升到13.7%,相比基础的12.6%只有微弱改善。但用简单题训练后,通过率跃升到17.9%,提升幅度达到41%。对于已经具备一定能力的进阶模型,这种差异同样明显:困难题训练后通过率为29.6%,而简单题训练后达到35.2%。
这个发现可以用体育训练来类比。一个刚开始学习篮球的人,如果一开始就练习高难度的后仰跳投,可能会形成错误的动作习惯,效果适得其反。相反,如果从基础的投篮姿势和简单的定点投篮开始练习,建立正确的基础动作模式,然后再逐步增加难度,往往能取得更好的效果。
对AI模型来说也是如此。简单的编程题虽然技术含量不高,但它们提供了清晰、规整的思考模式和解题框架。AI模型通过学习这些简单题的解答过程,能够更好地掌握基础的推理结构。这就像学习写作时,即使是简单的句式和段落结构,只要反复练习,就能为后续的复杂表达打下坚实基础。
有趣的是,研究团队还发现了一个微妙的细节:在这些难度实验中,模型的完成率和思考标签使用率与题目难度之间的关系并不明显。无论训练困难题还是简单题,这两个技术指标都相差无几。这说明题目难度对学习效果的影响主要体现在深层的推理质量上,而不是表面的格式模仿上。
这个发现为AI训练策略提供了重要指导。在设计训练课程时,应该优先选择那些结构清晰、逻辑简单的高质量样本,而不是一味追求题目的复杂性和挑战性。这种"从简单到复杂"的渐进式学习策略,可能是帮助AI模型更高效掌握复杂技能的关键。
四、技术细节:训练一个AI"学生"有多复杂?
要复现这些实验结果,需要相当精密的技术设置。研究团队选择了两个代表性的小型指令调优模型作为学生:Qwen2.5-7B-Instruct和Llama3.1-8B-Instruct。这两个模型的特点是它们原本都不具备输出包含思考标签的推理能力,就像是还没有学会在草稿纸上展示解题过程的学生。
训练环境采用了8块英伟达H100 GPU的强大计算集群。为了确保实验结果的公平性和可比性,研究团队在所有实验中都使用了相同的训练参数:全局批次大小为128,学习率设置为8×10^-5,预热比例为0.10,优化器选择了广泛使用的AdamW。考虑到Qwen模型的架构限制,最大序列长度被设定为32768个token。
每个训练任务都进行5个完整的训练周期,然后使用最终检查点进行评估。这种设置确保了模型有足够的时间充分学习训练数据中的模式,同时避免了过度训练可能带来的负面影响。
数据集的构建同样经过精心设计。基础数据来源于OpenCodeReasoning2(OCR2)数据集,这是一个包含34125个独特竞争编程问题的大型集合,问题来源涵盖了4个不同的数据源,确保了题目类型的多样性。答案由两个顶级推理模型DeepSeek-R1-0528和KAT-V1-40B生成,平均每个问题有7个不同的解答示例,这些模型在LiveCodeBench上的准确率都超过70%。
研究团队特别注意确保不同规模数据集之间的一致性。他们首先从30000个样本中随机选择10000个样本,然后再从这10000个样本中随机选择1000个样本。这种嵌套式的随机抽样确保了较小的数据集是较大数据集的真正子集,保持了相同的数据分布特征。
为了回答关于数据质量的问题,研究团队还构建了专门的控制数据集。他们利用TACO数据集提供的测试用例,对每个模型回答进行自动化正确性验证,然后分别构建了只包含正确答案和只包含错误答案的数据集。类似地,他们也利用TACO的难度标签构建了困难题和简单题的专门数据集。
五、深层机制:AI学习的"黑盒"里到底发生了什么?
这些实验结果揭示了AI学习的一些深层机制。研究团队观察到,模型在学习过程中经历了几个明显不同的阶段。在初期的"混乱阶段",模型试图同时掌握新的输出格式(思考标签)和复杂的推理模式,导致两方面都表现不佳。这就像一个学生同时学习新的数学符号和复杂的证明方法,在短期内可能会感到困惑。
随着训练的深入,模型逐渐进入"整合阶段"。在这个阶段,它们开始能够正确使用思考标签的格式,同时也逐步掌握了基本的推理框架。完成率和思考标签使用率的稳定提升正是这个阶段的特征表现。
最终,模型达到"熟练阶段",能够流畅地结合格式要求和推理内容,产生高质量的解答。值得注意的是,即使在30000个样本的训练后,模型的性能仍在继续提升,暗示着它们远未达到学习的上限。
研究还发现了一个有趣的现象:在回答数据质量和题目难度的专门实验中,完成率和思考标签使用率与最终评估性能的相关性变得很弱。这说明这些表面指标虽然能反映训练进展,但真正的推理质量提升还涉及更深层的机制。
这种深层机制可能与AI模型的内部表征学习有关。简单题提供的清晰逻辑结构帮助模型建立更好的内部表征,即使表面格式相同,内在的推理质量也有显著差异。这就像两个学生可能都会写出格式正确的证明过程,但一个真正理解了逻辑关系,另一个只是机械模仿。
六、现实意义:这些发现对AI发展意味着什么?
这项研究的发现对AI开发和应用具有重要的现实意义。首先,"代码推理谷地"现象提醒我们,在评估AI模型的学习进展时,不能仅仅依赖短期的性能指标。如果一个模型在训练初期表现下降,这可能并不意味着训练方向错误,而是正常学习过程的一部分。
对于AI公司和研究机构来说,这个发现可能会改变他们的训练策略和资源分配。既然答案的正确性对学习效果影响有限,那么在数据收集和标注阶段,可以将更多资源投入到收集多样化的高质量推理过程上,而不是过分纠结于答案的完全正确性。
从训练数据的选择策略来看,优先选择简单但结构清晰的问题可能比选择复杂问题更有效。这对于那些计算资源有限的研究团队尤其重要,因为他们可以通过更智能的数据选择策略来提高训练效率。
这些发现也为理解AI的学习机制提供了新的视角。传统上,人们倾向于认为AI学习应该是单调递增的,更多数据总是带来更好的性能。但这项研究表明,AI的学习过程可能比我们想象的更复杂,包含了重组、整合和突破等多个阶段。
对于教育和培训领域,这些发现也有启发意义。它们支持了渐进式学习和基础优先的教育理念,表明即使对于AI这样的"人工学生",扎实的基础训练仍然是掌握复杂技能的关键。
研究团队已经将所有实验中使用的数据集分割开源,这将帮助其他研究者验证和扩展这些发现。他们计划在未来的工作中探索这种"谷地"现象是否在更大规模的数据集(超过100000个样本)中仍然存在,以及相同的结论是否适用于编程之外的其他推理领域。
说到底,这项研究揭示了AI学习过程中一个既令人困惑又充满希望的现象。它告诉我们,AI的学习路径可能比我们想象的更曲折,但也更有潜力。就像人类学习复杂技能时经常经历的"先退后进"过程一样,AI模型也需要时间来重组和整合新知识。这种理解不仅有助于我们更好地训练AI系统,也让我们对人工智能的未来发展有了更深刻的认识。
当我们看到一个AI模型在学习初期表现下滑时,也许不应该急于调整策略,而应该给它更多时间和数据来完成这个复杂而精彩的学习之旅。毕竟,连人工智能都告诉我们,真正的学习从来不是一条平坦的直线,而是一场充满起伏的冒险。
Q&A
Q1:什么是"代码推理谷地"现象?为什么会出现这种情况?
A:代码推理谷地是指小型AI模型在学习编程推理时,性能先下降再上升的现象。当模型用1000个样本训练时,通过率从12.7%跌到5.5%,但随着数据增加到30000个样本,通过率最终提升到26.4%。这是因为模型在学习初期需要同时掌握新的输出格式和复杂推理模式,导致暂时性能下降。
Q2:AI学习编程时,老师给出的答案是否正确重要吗?
A:研究发现答案正确性对AI学习效果几乎没有影响。用6000个正确答案训练的模型通过率为18.5%,用6000个错误答案训练的通过率为18.2%,差异可以忽略。AI模型更关注推理过程和思考框架,而不是最终答案的对错。
Q3:简单题和复杂题对AI学习效果有什么不同?
A:简单题的学习效果显著优于复杂题。基础模型用简单题训练后通过率提升41%,而用复杂题训练仅提升7%。这是因为简单题提供了清晰的逻辑结构和解题框架,帮助AI模型建立更好的基础推理模式。
好文章,需要你的鼓励
过去十年,终端厂商比拼的是“性能”和“参数”,如今,竞争的焦点正转向“智能程度”。
Fractal AI Research实验室开发了Fathom-DeepResearch智能搜索系统,该系统由两个4B参数模型组成,能够进行20多轮深度网络搜索并生成结构化报告。研究团队创新了DUETQA数据集、RAPO训练方法和认知行为奖励机制,解决了AI搜索中的浅层化、重复性和缺乏综合能力等问题,在多项基准测试中显著超越现有开源系统,为AI助手向专业研究工具转变奠定了基础。
快手科技与清华大学合作发现当前AI语言模型训练中存在严重的权重分配不平衡问题,提出了非对称重要性采样策略优化(ASPO)方法。该方法通过翻转正面样本的重要性权重,让模型把更多注意力放在需要改进的部分而非已经表现良好的部分,显著提升了数学推理和编程任务的性能,并改善了训练稳定性。