这项由复旦大学智能信息处理上海市重点实验室叶俊杰、杨宇明等研究人员领导的研究发表于2025年9月,论文编号为arXiv:2509.16596v1。研究团队还包括来自联想研究院北京分部的研究人员,有兴趣深入了解的读者可以通过该编号查询完整论文。
在人工智能的世界里,有一个看似合理的常识:给AI模型"喂"更多的训练数据,它就会变得更聪明。就像我们教孩子认字一样,练习册做得越多,孩子应该认识的字越多才对。然而,复旦大学的研究团队最近发现了一个令人意外的现象——当他们给大型语言模型进行精细调优时,增加训练数据量不仅没有让模型变得更聪明,反而让它在回答问题时表现得更糟糕。
这个发现就像发现了一个教育悖论:给学生更多练习题,他们的考试成绩反而下降了。研究团队通过对五个不同的大型语言模型(包括LLaMA-2和LLaMA-3系列)进行深入分析,发现了一个惊人的规律:当训练数据从240个样本增加到1920个样本时,模型的表现竟然下降了14%。更令人困惑的是,根据训练数据中知识掌握程度的不同,模型性能的波动可以超过12%。
为了解开这个谜团,研究团队就像侦探一样,从两个角度展开了调查:一个是从"词汇层面"分析模型说话时的变化,另一个是从"参数层面"分析模型大脑内部的变化。他们发现了一个更加震撼的事实:在精细调优过程中,高达90%的参数更新实际上对提升模型知识没有任何帮助,甚至是有害的。当研究团队将这些"无用"的参数恢复到训练前的状态时,模型的表现反而提升了10%以上。
这项研究不仅挑战了我们对AI训练的传统认知,更为开发更高效的AI训练方法提供了全新的思路。它告诉我们,在AI的世界里,"多"未必就是"好",关键在于如何让AI更聪明地学习,而不是简单地"填鸭式"地灌输更多信息。
一、意外发现:更多训练数据让AI变得更笨
研究团队选择了一个特殊的测试场景来验证他们的想法——让AI进行"闭卷问答"。这就像让学生在不能翻书、不能查资料的情况下回答问题,完全依靠大脑中已有的知识。他们选择了五个不同规模的大型语言模型,就像选择了五个不同年级的学生来参加同一场考试。
研究团队首先将训练数据按照AI对这些知识的掌握程度分成了五个等级。第一级是AI完全不会的知识,就像让一个从未学过法语的人回答法语问题;第五级是AI已经掌握得很好的知识,就像让一个数学高手解决基础的加减法问题。中间的几级则代表了不同程度的半生不熟状态。
当研究团队开始用不同数量的训练样本来训练这些AI模型时,他们发现了第一个令人震惊的现象。无论使用哪种类型的训练数据,AI模型都在使用240个训练样本时达到了最佳表现。这就像发现学生做240道练习题时考试成绩最好,但如果让他们做更多题目,成绩反而会下降。
更令人困惑的是,当训练样本增加到1920个时,有些模型的表现比只用240个样本时差了8.86%。这种现象在所有测试的模型中都出现了,就像所有参加实验的学生都出现了同样的"学习倦怠"现象。研究团队甚至发现,当使用全部可用的训练数据时,AI的表现几乎降到了所有测试中的最低点。
第二个令人意外的发现是,当训练数据达到一定规模(比如1920个样本)时,AI的表现会根据训练数据中知识的掌握程度发生显著变化。用AI完全不懂的知识来训练它,就像用高难度的题目来训练初学者,结果是AI在其他方面的表现也变差了。相反,如果用AI已经掌握得很好的知识来训练,虽然不会造成太大伤害,但对于提升AI处理新知识的能力也没有太大帮助。
研究团队发现,用中等掌握程度的知识来训练AI效果最好,这就像给学生选择难度适中的练习题,既不会让他们感到过于困难而产生挫败感,也不会因为过于简单而无法提升能力。当使用AI完全不懂的知识训练时,模型在处理其他类型问题时的表现会大幅下降,而使用AI已经熟练掌握的知识训练时,虽然不会造成太大损害,但也无法有效提升整体能力。
二、深入调查:AI说话方式的变化透露了什么秘密
为了理解为什么会出现这种反常现象,研究团队决定深入分析AI在训练前后说话方式的变化。他们使用了一种叫做"KL散度"的数学工具来测量这种变化,就像用精密仪器测量一个人说话语调的细微变化一样。
研究团队发现了一个有趣的规律:当训练数据较少时(比如60个样本),AI的说话方式会发生很大变化,这是因为数据太少导致训练不稳定,就像一个人刚开始学习新语言时说话会很不自然。随着训练数据增加到240个样本左右,AI的说话方式逐渐稳定下来,与原来的表达方式差异最小。
然而,当训练数据继续增加时,一个意想不到的现象出现了:AI的说话方式又开始偏离原来的模式,而且偏离程度越来越大。这种现象在使用AI不熟悉的知识进行训练时尤其明显,就像一个人被强迫学习完全陌生的内容时,不仅没有掌握新知识,连原来会说的话都变得不自然了。
研究团队通过仔细分析发现,AI说话方式的变化程度与其表现下降程度高度相关。当AI的表达方式偏离原来的模式越远,它在回答问题时的准确率就越低。这就像一个原本口齿伶俐的人,如果说话方式突然变得奇怪,那么他表达的内容准确性也会下降。
这个发现特别重要,因为研究团队选择的测试问题都是AI在训练前就能较好回答的问题。当AI在大量训练后反而无法正确回答这些问题时,说明训练过程中发生了"灾难性遗忘"——AI在学习新内容时忘记了原来已经掌握的知识,就像一个学生在学习新课程时把以前学过的内容都忘了。
研究团队还发现,使用AI完全不熟悉的知识进行大规模训练时,这种负面影响最为严重。AI不仅无法掌握新知识,还会严重损害原有的知识储备。这种现象提示我们,AI的学习过程并不是简单的"知识累积",而是一个复杂的"知识重组"过程,不当的训练方式可能会破坏这个精密的系统。
三、惊人发现:90%的AI大脑变化都是无用的
基于前面的发现,研究团队提出了一个大胆的假设:也许训练过程中对AI大脑(参数)的大部分修改都是不必要的,甚至是有害的。为了验证这个想法,他们设计了一个巧妙的实验——逐步将训练后的AI大脑"恢复"到训练前的状态,看看这样做会对AI的表现产生什么影响。
研究团队首先分析了训练过程中AI大脑的所有变化,就像医生分析病人身体各个部位的变化一样。他们发现了一个令人震惊的事实:超过70%的总体变化集中在不到1%的参数上。这就像发现一个人身体的大部分变化都集中在很小的一部分器官上,而其他大部分器官的变化都很微小。
接下来,研究团队开始了他们的"恢复实验"。他们按照变化程度的大小,逐步将那些变化最大的参数恢复到训练前的状态,然后观察AI的表现如何变化。结果让所有人都大吃一惊:不管使用什么类型的训练数据,将一部分参数恢复到训练前状态都能提升AI的表现。
更令人震惊的是,当研究团队恢复了20%变化最大的参数后,所有模型的表现都得到了改善。对于那些用AI完全不懂的知识训练的模型,这种改善尤其明显,性能提升了9.85%。这意味着训练过程中引入的大量参数变化不仅没有帮助AI学到新知识,反而损害了它的整体能力。
研究团队进一步发现,对于用1920个样本训练的模型,即使恢复了40%的参数变化,AI的表现仍然在持续改善。而对于只用240个样本训练的模型,通常在恢复20%的参数后就开始出现性能下降。这说明大规模训练确实引入了更多无用甚至有害的参数变化。
最令人惊讶的发现是,这种参数恢复不仅改善了AI在测试集上的表现,甚至连在训练集上的表现也得到了提升。这就像发现一个学生不仅在新考试中表现更好,连在练习过的题目上也答得更准确了。这强烈暗示训练过程中的许多参数更新既不能帮助AI记住训练内容,也不能提升它的泛化能力,纯粹是"画蛇添足"。
研究团队还测试了这种发现在其他任务上的适用性。他们在文本摘要和数学问题解答等不同类型的任务上验证了参数恢复的效果,发现这种方法的改善效果具有一定的普遍性,尽管改善程度取决于任务与AI原有知识的相关性。
四、深层原理:为什么会出现这种反常现象
通过深入分析,研究团队发现了两个重要的规律,这些规律帮助我们理解为什么会出现这种看似反常的现象。
首先,用更大规模数据训练的AI模型受到无用参数变化的影响更严重。当研究团队比较用240个样本和1920个样本训练的模型时,发现后者可以承受更大比例的参数恢复而不损失性能。这说明大规模训练确实引入了更多不必要的"噪音"变化,就像一个人接受了过多混乱信息后,大脑中产生了许多无用的神经连接。
其次,用AI不熟悉的知识进行训练会产生更多有害的参数变化。无论训练规模如何,用AI完全不懂的知识训练的模型总是能够承受更大比例的参数恢复,并且获得更显著的性能提升。这就像强迫一个人学习完全陌生的内容时,不仅学不会新知识,还会在大脑中产生许多混乱的连接,影响原有知识的正常运作。
研究团队还发现,参数变化的集中程度非常高。在所有测试的模型中,无论训练数据规模如何,都有超过90%的总变化量集中在不到20%的参数中。这种高度集中的变化模式暗示,AI在学习过程中确实存在某些"关键节点",这些节点的变化对整体性能有决定性影响。
更深入的分析显示,那些变化最大的参数往往不是对提升性能最重要的参数。这就像在调整一台精密仪器时,那些看起来变化最大的部件实际上可能是最不重要的,而真正关键的调整往往是细微而精准的。这个发现挑战了我们对AI学习过程的传统理解,暗示现有的训练方法可能存在根本性的效率问题。
研究团队通过对比不同类型训练数据的影响,发现了训练数据质量与参数变化模式之间的密切关系。用AI已经部分掌握的知识进行训练时,产生的无用参数变化相对较少,而用完全陌生或已经完全掌握的知识训练时,都会产生大量无用的参数变化。这说明AI的最佳学习状态存在于一个特定的"知识边界"上,既不能太简单也不能太困难。
五、实际意义:这项发现将如何改变AI训练
这项研究的发现对AI开发和应用具有深远的实际意义。首先,它彻底颠覆了"数据越多越好"的传统观念。研究结果表明,盲目增加训练数据不仅浪费计算资源,还可能损害AI的性能。这就像发现给学生布置过多作业不仅不能提高成绩,反而会让他们产生学习疲劳和知识混乱。
对于AI开发者来说,这项研究提供了一个全新的优化思路。与其花费大量资源收集和处理更多训练数据,不如专注于提高训练数据的质量和相关性。研究显示,用适量的高质量数据进行训练,然后通过参数恢复技术去除无用的变化,可能是一种更高效的AI训练方法。
这种发现也为解决AI训练中的"灾难性遗忘"问题提供了新的解决方案。传统上,研究人员试图通过各种复杂的技术来防止AI在学习新知识时忘记旧知识。而这项研究表明,简单地恢复一部分参数就能有效缓解这个问题,这种方法不仅简单易行,而且效果显著。
从计算资源的角度来看,这项发现具有重要的经济意义。如果90%的参数变化都是无用的,那么我们可以大幅减少训练过程中的计算需求,同时获得更好的性能。这就像发现了一种新的节能技术,既能提高效率又能降低成本。
对于普通用户来说,这项研究的意义在于未来的AI产品可能会变得更加智能和可靠。通过更精确的训练方法,AI可以在保持原有知识的基础上更好地学习新技能,减少出现错误或"胡言乱语"的情况。这意味着我们日常使用的AI助手、翻译工具、写作软件等产品都可能变得更加准确和有用。
研究团队还指出,这种参数恢复技术可以与其他AI优化方法结合使用。比如,可以先用传统方法训练AI,然后应用参数恢复技术进行优化,或者在训练过程中实时监控参数变化,及时调整训练策略。这种组合方法可能会产生更好的效果。
六、未来展望:AI训练的新时代
这项研究开启了AI训练领域的一个新时代,但同时也提出了许多需要进一步探索的问题。研究团队坦承,虽然他们发现了问题并提出了解决方案,但还没有开发出一套完整的新训练方法。这就像发现了一个新大陆,但还需要更多的探索才能充分开发其潜力。
目前的研究主要集中在LLaMA系列模型上,虽然初步验证显示这些发现具有一定的普遍性,但还需要在更多不同类型的AI模型上进行验证。不同的AI架构可能会表现出不同的参数变化模式,需要针对性地调整优化策略。
研究团队提出了几个值得进一步探索的方向。首先是开发自适应的训练策略,能够根据训练过程中的参数变化情况实时调整训练方法,最大化有用变化的同时最小化无用变化。其次是研究如何在训练开始前就预测哪些参数变化可能是有用的,从而从源头上提高训练效率。
另一个重要的研究方向是理解为什么会出现这种现象的深层机制。虽然研究团队观察到了参数变化的规律,但对于为什么会产生这么多无用变化的根本原因还需要更深入的理论研究。这种理解将有助于开发更加根本性的解决方案。
从技术应用的角度来看,这项研究为开发新一代AI训练工具提供了理论基础。未来可能会出现专门的参数优化工具,帮助AI开发者自动识别和去除无用的参数变化。这种工具不仅能提高AI的性能,还能大幅降低训练成本和时间。
对于AI安全和可靠性来说,这项研究也具有重要意义。通过更好地控制AI的学习过程,我们可以减少AI出现意外行为的可能性,提高AI系统的可预测性和稳定性。这对于在关键应用领域部署AI系统尤其重要。
说到底,这项研究告诉我们一个简单而深刻的道理:在AI的世界里,"精准"比"大量"更重要。就像一个好老师不会给学生布置无意义的大量作业,而是会精心选择最有价值的学习内容一样,训练AI也需要更加精准和有针对性的方法。这不仅能让AI学得更好,还能让整个训练过程变得更加高效和经济。
这项研究为我们展示了AI训练的一个新方向,虽然还有很多问题需要解决,但它已经为构建更智能、更高效的AI系统奠定了重要基础。随着更多研究者加入这个领域,我们有理由相信,未来的AI将会变得更加聪明、可靠和实用。有兴趣深入了解这项研究细节的读者,可以通过论文编号arXiv:2509.16596v1查询完整的研究报告。
Q&A
Q1:为什么给AI更多训练数据反而让它表现变差?
A:研究发现,当训练数据超过一定量(如240个样本增加到1920个)时,AI会产生大量无用甚至有害的参数变化。这些变化不仅不能帮助AI学到新知识,还会干扰它原有的知识,就像学生做太多练习题反而会产生混乱一样。高达90%的参数更新实际上对提升AI能力没有帮助。
Q2:什么是参数恢复技术,它是如何改善AI性能的?
A:参数恢复技术是指将AI训练后发生最大变化的那些参数恢复到训练前的状态。研究团队发现,恢复20-40%变化最大的参数后,AI的表现反而提升了10%以上。这说明训练过程中的许多参数变化是不必要的"噪音",去除这些噪音能让AI回到更好的状态。
Q3:这项研究对普通人使用AI产品有什么实际意义?
A:这项研究将让未来的AI产品变得更智能、更可靠。通过更精确的训练方法,AI助手、翻译工具、写作软件等日常AI产品将减少出错和"胡言乱语"的情况,同时能更好地保持原有知识的同时学习新技能。此外,这种方法还能降低AI训练成本,可能让AI产品变得更便宜、更普及。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。