微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

剑桥大学最新突破：让AI既聪明又富有创造力的秘诀

人工智能机器学习新型算法

剑桥大学最新突破：让AI既聪明又富有创造力的秘诀

作者：科技行者

2026-01-09 11:00

分享至：

剑桥大学研究团队提出分布式创造性推理框架，首次解决大型语言模型训练中正确性与创造力的矛盾。研究发现传统训练方法会导致AI思维单一化，并提出包含多样性能量函数的DCR方法，通过创造力核函数实现既正确又富有创造性的AI系统，为未来AI发展提供重要理论指导。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-01-09 11:00 • 科技行者

这项由英国剑桥大学的Max Ruiz Luyten和Mihaela van der Schaar教授团队开展的突破性研究发表于2026年1月2日，论文编号为arXiv:2601.00747v1。对这一前沿研究感兴趣的读者可以通过该编号查阅完整论文。这项研究首次解决了当前大型语言模型训练中面临的一个核心矛盾：如何让AI在变得更加正确的同时，还能保持创造力和多样性。

要理解这个问题，我们可以把AI的学习过程想象成培养一个学生解决数学题的过程。传统的训练方法就像一个严厉的老师，只奖励那些能够得出正确答案的解题方法，久而久之，学生就只记住了一两种"标准答案"的套路，虽然考试成绩很好，但面对新题型时就束手无策了。这就是研究团队发现的"创造力崩塌"现象。

现实中，当我们训练大型语言模型时，通常会让模型尝试很多不同的推理路径，然后重点强化那些能得出正确结果的路径。这种方法确实能提高模型的准确率，但副作用是模型的思维变得越来越单一化。就像一个原本思维活跃的学生，经过反复的"标准答案"训练后，虽然能在熟悉的题目上表现优异，但在面对全新挑战时却失去了灵活变通的能力。

研究团队通过深入分析发现，这种创造力的丧失并非偶然现象，而是当前主流训练方法的必然结果。他们研究了三种最常用的AI训练方法：STaR（自我训练推理）、GRPO（群组强化策略优化）和DPO（直接偏好优化），发现每种方法都会以不同的方式导致模型思维的单一化。

STaR方法就像一个极度偏心的老师，一旦发现某个学生的某种解题方法效果不错，就会疯狂表扬这种方法，导致其他所有方法都被忽视，最终整个班级都只会用同一种解题思路。这种"赢者通吃"的模式会让模型快速收敛到单一的推理模式上。

GRPO方法则像一个相对公平的老师，对所有正确的解题方法都给予相等的认可，理论上应该能保持多样性。但问题是，这种方法缺乏主动保护多样性的机制，就像一个中性的环境，很容易受到随机干扰的影响。在实际训练中，由于小批量采样的噪声影响，模型最终还是会偶然地偏向某些特定方法，导致多样性的缓慢流失。

DPO方法则采用了完全不同的策略，它像一个追求"平均主义"的老师，会主动让所有正确的解题方法获得相等的关注度。虽然这确实避免了"一家独大"的情况，但它只是机械地平均分配概率，并不能真正促进不同解题思路之间的概念差异性。

针对这些问题，研究团队提出了一个全新的解决方案：分布式创造性推理（Distributional Creative Reasoning，简称DCR）。这个方法的核心思想是在训练过程中明确地奖励多样性，就像设计一个既要求正确答案、又鼓励思维创新的综合评分系统。

DCR框架的巧妙之处在于它引入了一个"多样性能量"函数，这个函数有两个重要组成部分。第一部分是香农熵，它鼓励模型在多种不同的推理路径上分配概率，确保基本的多样性水平。但仅有香农熵是不够的，因为它只关注概率分布的广度，而不关心内容的实际差异性。这就好比一个老师只统计学生使用了多少种不同的解题步骤，但不管这些步骤在本质上是否真的不同。

因此，DCR的第二部分引入了"核心覆盖"项，通过一个巧妙设计的相似性核函数来衡量不同推理路径之间的语义相似度。这个机制会惩罚那些表面上不同、但本质上相似的推理方法，从而鼓励模型发展出真正具有概念差异性的多元化策略。

为了确保这种多样性机制真正有效，研究团队还设计了一个"创造力核函数"。这个函数的作用类似于一个智能的相似度检测器，能够识别出哪些推理路径在本质上是相似的，哪些是真正不同的。更重要的是，这个函数可以进行"门控"设计，即只在正确的推理路径之间应用多样性压力，避免浪费资源去鼓励"多样化的错误方法"。

通过严格的数学推导，研究团队证明了DCR方法具有三个重要的理论保证。首先，它能确保训练过程收敛到一个独特、稳定且多样化的策略组合，从根本上避免创造力崩塌。其次，这种收敛是全局性的，无论从什么起点开始训练，最终都会达到这个理想的平衡状态。第三，通过调整创造力核函数的设计和相关参数，可以精确控制正确性和多样性之间的平衡。

研究团队还提供了具体的实施指导。在实际应用中，创造力核函数可以采用多种形式。比如基于嵌入的核函数，通过计算不同推理路径的语义表示来衡量相似度；或者针对特定领域设计的核函数，比如在数学推理中，可以根据证明步骤或定理依赖关系来定义相似度，使相似性反映的是策略层面的共同点，而不仅仅是表面措辞的相似。

为了验证理论预测，研究团队进行了一系列精心设计的实验。他们构建了一个包含12个推理轨迹的合成环境，其中8个是正确的，分为三个语义簇，每个簇代表一种不同的解题策略。实验结果完美验证了理论预测：STaR方法确实表现出"赢者通吃"的快速崩塌，模型几乎立即收敛到单一策略；GRPO方法显示出缓慢的随机漂移，最终在噪声驱动下固化在低多样性状态；DPO方法则在正确策略间实现均质化，但缺乏结构化的语义多样性。

相比之下，DCR方法展现出了截然不同的行为模式。它成功地收敛到一个稳定的内部均衡点，在这个状态下，模型既保持了高准确率，又维持了丰富的策略多样性。更令人鼓舞的是，这种多样性不是随机的，而是结构化的，不同的策略簇都得到了适当的概率分配。

这项研究的实际意义深远。在AI系统面临分布外任务时，创造性问题解决能力往往是高性能的核心要求。单一的推理模板在遇到新颖条件时必然会失效，而多样化的高效推理策略组合则能提供更强的泛化能力、稳健的规划能力和真正的发现能力。

研究团队特别强调了他们方法的实用性。虽然核函数的计算复杂度为平方级别，但在小批量训练的框架下，这种计算开销是完全可以接受的，与对比学习和度量学习方法的标准复杂度相当。更重要的是，他们提供了详细的超参数调优指导，将多样性保护从临时性启发式方法转变为有原则的设计过程。

从技术实现的角度来看，DCR方法的一个关键优势是其统一性。它将现有的多种训练方法（STaR、GRPO、DPO）都纳入了同一个理论框架，作为特殊情况进行分析。这种统一视角不仅有助于理解为什么现有方法会出现多样性崩塌，还为开发新的训练策略提供了理论指导。

研究还揭示了一个有趣的权衡关系。在DCR的平衡点上，错误推理路径的抑制程度与正确路径之间的核函数惩罚强度直接相关。这意味着核函数的权重需要精心调节：太弱则无法有效促进多样性，太强则会削弱对错误答案的抑制。研究团队给出的经验法则是，正确路径之间的核惩罚强度不应超过单位效用增益。

这项工作也开辟了未来研究的新方向。研究团队指出，创造力核函数的设计空间还有很大的探索潜力，特别是在如何更好地捕捉推理路径的语义相似性方面。此外，如何将DCR框架扩展到更复杂的多目标优化场景，以及如何在大规模实际应用中高效实现，都是值得深入研究的问题。

说到底，这项研究为我们提供了一个全新的视角来思考AI训练的本质。它告诉我们，追求正确性和保持创造力并不是不可调和的矛盾，关键在于设计合适的激励机制。正如研究团队所言，他们的工作首次为训练既正确又具有创造性的大型语言模型提供了有原则的配方。这不仅是技术上的突破，更是对AI发展方向的重要指导。对于关注AI技术发展的读者，这项研究无疑提供了深刻的洞察，值得持续关注其后续发展和应用前景。

Q&A

Q1：什么是分布式创造性推理DCR？

A：DCR是剑桥大学研究团队提出的一种新型AI训练方法，它通过引入"多样性能量"函数来平衡AI的正确性和创造力。简单说，就是在训练AI时不仅奖励正确答案，还特别鼓励使用不同的思考方式，避免AI思维过于单一化。

Q2：为什么传统的AI训练方法会导致创造力崩塌？

A：传统方法只关注正确性，就像只奖励标准答案的应试教育。STaR方法会让AI只记住一种最有效的解题方式，GRPO方法虽然相对公平但缺乏保护多样性的机制，DPO方法只是机械地平均分配，都无法真正促进思维的多样化。

Q3：DCR方法如何在实际应用中确保AI既正确又有创造力？

A：DCR使用两个核心机制：香农熵确保基本的多样性，创造力核函数识别并鼓励真正不同的推理策略。通过精心调节这两个机制的权重，可以让AI在保持高准确率的同时，维持丰富的解题策略库，提高面对新问题时的适应能力。

人工智能机器学习新型算法

分享至