
这项由伊朗谢里夫大学计算机工程系马赫迪·萨米埃伊(Mahdi Samiei)领导的国际研究团队发表于2025年10月的突破性论文,首次提出了"复杂度分布外泛化"框架来重新定义和评估人工智能的真正推理能力。该研究发表在arXiv预印本平台(论文编号:arXiv:2510.06274v1),为理解和构建下一代AI系统提供了全新视角。有兴趣深入了解的读者可以通过该编号查询完整论文。
目前的人工智能就像一个刷题高手——在熟悉的题型上表现优异,但面对稍微复杂或新颖的问题时就束手无策。研究团队发现,现有的AI评估方法存在根本性缺陷,它们无法区分真正的推理能力和简单的模式匹配。这就好比一个学生背熟了所有考试真题,在考试中能获得高分,但当遇到需要深入思考的新问题时,就暴露了缺乏真正理解的本质。
研究团队提出了一个革命性观点:真正的推理能力应该通过模型在面对复杂度超出训练范围的问题时的表现来衡量。他们将这种能力称为"复杂度分布外泛化",这意味着一个真正智能的系统应该能够处理比它训练时见过的任何问题都更复杂的情况。这种复杂度可以体现在两个维度:一是需要更丰富的表示结构来描述问题,二是需要更多的推理步骤来解决问题。
一、重新审视AI的两种思维模式
在认知科学中,人类思维被分为两种截然不同的模式。第一种是快速直觉的系统1思维,就像看到红灯就停车一样自然迅速。第二种是慢速深思的系统2思维,需要有意识地分析推理,比如解复杂数学题或制定长期规划。过去十年里,AI在系统1任务上取得了巨大成功,从图像识别到语言翻译,这些任务主要依靠强大的模式识别能力。
然而,当涉及需要多步推理的系统2任务时,AI的表现就显得差强人意。研究团队发现,许多看似表现优秀的推理模型实际上只是在模仿推理的表面形式,而非真正进行深度思考。这就像一个演员能够完美地背诵莎士比亚的台词,但未必真正理解其中的深刻含义。
更令人深思的是,研究团队发现系统1和系统2之间并非泾渭分明的界限。当一个原本简单的系统1任务遇到复杂度急剧增加的情况时,它就会转化为需要系统2处理的问题。比如识别一个苹果很简单,但要在拥挤复杂的水果摊中找出所有苹果并计算数量,就需要更深层的推理过程。
二、复杂度分布外泛化的精确定义
研究团队借用了信息论中的柯尔莫哥洛夫复杂度这一数学工具来精确定义什么是复杂度。简单来说,一个问题的复杂度就是描述其解决方案所需的最短程序长度。这就像用最简洁的方式写出一个菜谱,所需的文字越多,菜谱的复杂度就越高。
在表示复杂度方面,研究团队举了一个生动的例子。看一张只有红苹果的简单图片,AI很容易处理。但如果图片中有几十个不同颜色、不同大小的物体相互重叠,背景还很杂乱,那么要准确描述和理解这张图片就需要更复杂的表示结构。这种复杂度的增加不是简单的数量堆积,而是信息结构的根本性变化。
计算复杂度则涉及解决问题需要的推理步骤数量。计算"3+4"只需一步,但解决一个多步骤的代数方程就需要一系列逻辑推理。研究团队特别强调,这种复杂度与输入长度并不完全相关。一个很长的重复序列"aaaaa..."虽然输入很长,但计算复杂度很低,而一个简短的逻辑谜题可能需要复杂的多步推理。
复杂度分布外泛化的核心要求是:模型必须能够处理解决方案复杂度超出其训练数据分布的问题。这就好比一个厨师学会了制作简单家常菜,但突然要求他制作需要复杂工艺和多道工序的高级料理。真正有天赋的厨师能够举一反三,组合运用基础技能来应对新挑战。
三、学习与推理的本质统一
研究团队提出了一个颠覆性观点:学习和推理并非两个独立的过程,而是同一枚硬币的两面。当一个系统1任务遇到复杂度挑战时,它就自然转化为系统2问题。反过来,所有成功的系统2推理都可以被理解为一种特殊形式的学习——学习如何在解决方案空间中进行高效搜索。
这种观点的深刻之处在于重新定义了"学习"的含义。传统上,我们认为学习是从数据中提取模式,而推理是应用这些模式解决新问题。但研究团队发现,在系统2推理中,模型实际上是在学习一种启发式搜索策略,这种策略能够在巨大的可能解决方案空间中找到正确路径。
以解数学题为例,一个训练良好的数学推理模型并不是简单地记住了所有可能的数学问题和答案。相反,它学会了一套解题的"直觉"——知道在什么情况下应该尝试什么样的方法,如何分解复杂问题,何时应该回头重新思考。这种直觉本质上是一种经过学习优化的搜索启发式。
研究团队进一步指出,这种学习过程有两个关键组成部分。首先是学习基本的构建模块——就像学习词汇和语法规则一样,模型需要掌握解决问题的基本元素。其次是学习如何组合这些元素——这就像学会如何用词汇和语法构造有意义的句子。真正的智能在于能够灵活地重新组合这些基础元素来应对前所未见的复杂情况。
四、现有研究的隐性贡献
虽然复杂度分布外泛化是一个新提出的概念,但研究团队发现,许多现有的AI研究实际上已经在不同程度上涉及了这个问题,只是没有在统一框架下进行系统性分析。
在表示学习方面,对象中心表示学习试图解决视觉场景中多个物体的表示问题。传统的卷积神经网络在处理简单场景时表现良好,但当场景中物体数量增加、相互遮挡变得复杂时,就会出现"叠加灾难"——无法清晰地分离和表示各个物体。槽注意力机制的提出正是为了解决这个问题,它允许模型动态分配"槽位"来表示不同的对象,从而处理复杂度更高的视觉场景。
涌现语言研究也体现了类似的思想。在多智能体交互游戏中,AI系统会自发地发展出结构化的通信系统。这些涌现的语言通常具有离散的符号单位和可变长度的消息结构,使得智能体能够根据交流内容的复杂程度灵活调整消息长度和结构复杂度。
在计算复杂度方面,自适应计算时间机制允许模型根据问题难度动态调整计算步数。传统的神经网络有固定的计算深度,而人类在处理简单问题时会快速得出答案,面对复杂问题时会花更多时间思考。自适应计算时间通过在网络中加入"停止"机制,让模型自己决定何时停止计算,从而实现计算资源的智能分配。
五、大语言模型中的推理进步
大语言模型的发展为系统1和系统2的融合提供了一个绝佳的实验平台。思维链提示技术要求模型逐步展示推理过程,而不是直接给出答案。这种方法显著提升了模型在复杂推理任务上的表现,但也暴露了一个关键限制:模型只能进行从左到右的顺序生成,无法回头修正或进行探索性搜索。
为了克服这个限制,研究者开发了多种搜索和规划方法。思维树允许模型在推理过程中分支和回溯,就像在解决问题时可以尝试多种方法,如果走错路还能回头重新开始。重复采样技术让模型对同一个问题生成多个不同的解答,然后通过某种方式选择最佳答案,这类似于"三个臭皮匠顶个诸葛亮"的思想。
奖励模型的引入为推理质量评估提供了新的工具。结果奖励模型只关注最终答案的正确性,而过程奖励模型能够评估推理过程中每一步的合理性。后者更像一个经验丰富的老师,不仅关心学生是否得出了正确答案,还关心学生的解题思路是否合理、每一步推导是否有逻辑问题。
强化学习方法的应用使得模型能够从试错中学习推理策略。不同于传统的监督学习只是模仿正确答案,强化学习让模型在探索过程中逐渐发现有效的推理模式。这更接近人类学习推理的方式——通过不断尝试、犯错、反思来提升思维能力。
六、复杂度感知评估的必要性
研究团队通过对GSM8K数学推理数据集的深入分析,揭示了当前评估方法的根本问题。GSM8K被广泛认为是一个相对"已解决"的基准,因为许多模型在其上都能达到很高的平均准确率。但当研究团队按照问题的复杂度(用解决问题所需的数学运算步数衡量)对数据进行分层分析时,发现了一个令人震惊的事实。
数据集中绝大多数问题都相对简单,需要的运算步数很少,而复杂问题的数量呈指数级递减。这种分布导致平均准确率被大量简单问题"稀释",掩盖了模型在复杂问题上的真实表现。当按复杂度分层查看时,所有模型的准确率都随着问题复杂度的增加而显著下降,但不同模型的下降模式截然不同。
特别有趣的是,专门为推理设计的模型(如DeepSeek-R1和GPT-o3-mini)显示出更平缓的性能下降曲线,而通用模型的性能则急剧恶化。这就像不同学生面对难度递增的数学题时表现出不同的适应能力——有些学生能够保持相对稳定的解题水平,而另一些则很快就应付不来。
研究团队将这种分析方法扩展到其他推理基准,如AIME和Omni-MATH。由于这些数据集缺乏细粒度的步骤标注,团队使用人类解答的token数量作为复杂度的代理指标。结果再次证实了相同的模式:所有模型的性能都随复杂度增加而下降,但推理导向的模型表现出更好的复杂度泛化能力。
这种发现的意义远超基准评估本身。它表明,我们需要从根本上重新思考如何评估AI系统的能力。传统的平均准确率就像用平均身高来评估一个篮球队的实力——虽然有一定参考价值,但无法反映真正的竞技水平分布。
七、新的训练范式探索
面对复杂度分布外泛化的挑战,研究团队提出了几种新的训练方向,每种都对应着传统机器学习范式在推理领域的创新应用。
强监督学习相当于给模型提供详细的"工作示例",就像一个师傅手把手教徒弟如何制作复杂工艺品的每一个步骤。这种方法能够提供最精确的学习信号,因为模型可以看到完整的解决路径。然而,这种方法的最大限制是需要大量高质量的步骤级标注数据,这需要领域专家花费大量时间和精力。
弱监督学习则只提供最终结果,让模型自己推断中间过程。这就像告诉学徒"这是最终作品的样子,你自己想办法做出来"。虽然这种方法的数据获取相对容易,但学习难度大大增加,因为模型必须解决"功劳归因"问题——当最终答案错误时,究竟是哪一步出了问题?强化学习技术特别适合处理这种情况,因为它专门设计用来处理延迟和稀疏的奖励信号。
元学习代表了一种更高层次的学习范式,目标是"学会学习"。在推理领域,这意味着让模型接触各种不同类型的问题,从中抽取可复用的解题策略和思维模式。这就像培养一个全能的问题解决专家,他不仅能解决特定领域的问题,还能快速适应新的问题类型。
自监督学习在推理领域的应用充满创新潜力。研究团队提出了"掩码解答建模"的概念,类似于语言模型中的掩码语言建模。模型需要根据上下文推断被掩盖的推理步骤,这样就能从大量未标注的推理轨迹中学习。另一种思路是对比学习,训练模型识别哪些不同的推理路径实际上是等价的,哪些表面相似的路径实际上有根本差异。
八、架构创新的三大方向
要实现真正的复杂度分布外泛化,仅仅改进训练方法是不够的,还需要在模型架构层面进行根本性创新。研究团队识别出三个关键的创新方向。
第一个方向是无界表示能力。传统的神经网络使用固定维度的向量表示,这就像用固定大小的盒子装不同大小的物品——小东西可以装得下,但遇到大物品就无能为力了。真正的推理系统需要能够表示任意复杂度的结构,这要求从特征空间转向解决方案空间的思维。
研究团队特别强调模块化和组合式表示的重要性。与其将解决方案视为平面的token序列,更好的方法是将其表示为抽象语法树或计算图这样的结构化对象。这种结构化表示的优势在于可以学习和复用子例程,就像软件工程中的函数库概念——基础功能可以被反复调用和组合来构建更复杂的系统。
第二个方向是自适应计算深度。人类在处理不同难度的问题时会自然地分配不同的思维资源,但大多数AI系统的计算深度是固定的。自适应计算时间机制和通用Transformer等早期探索为这个方向提供了重要启示,但真正的突破需要更强大的递归和迭代计算能力。
理想的推理系统应该具备原生的递归偏向,能够从少数示例中学习通用算法模式,然后将这些算法应用到任意深度。这就像学会了计算阶乘的原理后,就能计算任何数字的阶乘,不论这个过程需要多少步骤。
第三个方向是外部记忆和执行保真度。研究团队的关键发现是,许多看似复杂的推理失败实际上不是因为缺乏正确的算法,而是因为无法准确执行已知的算法。这就像一个学生知道正确的解题步骤,但在执行过程中不断出现计算错误或遗忘中间结果。
Transformer的瞬态激活机制不足以支撑复杂的状态追踪和程序执行。解决方案是引入可读写的外部记忆结构,让模型能够将中间计算结果持久化存储,释放内部注意力资源用于高层推理。神经图灵机等早期工作为这个方向奠定了基础,但需要更加成熟和实用的实现。
九、推理中的经典机器学习挑战
研究团队深刻洞察到,系统2推理本质上是一个学习问题,因此传统机器学习中的经典挑战都会在推理领域以新的形式出现,而且往往更加隐蔽和复杂。
虚假相关和捷径学习在推理中变得更加阴险。模型可能学会了依赖问题表述中的表面线索,而不是真正理解问题的逻辑结构。比如,模型可能发现题目中出现"更多"这个词通常对应加法运算,但这种启发式在遇到"谁有更多苹果"这样的比较问题时就会失效。这种偏向比传统的图像分类中的捷径学习更难发现,因为推理过程的中间步骤通常是不可见的。
语义对抗鲁棒性在推理领域表现为对问题表述方式的脆弱性。一个真正理解数学的系统不应该因为"爱丽丝有5个苹果,鲍勃有3个"和"鲍勃有3个苹果,爱丽丝有5个"这样的表述顺序变化而给出不同答案。但实际上,许多看似强大的推理模型对这种语义等价的表述变化异常敏感,这表明它们更多地是在进行模式匹配而非真正的语义理解。
灾难性遗忘在推理领域表现为推理技能的相互干扰。当模型学会了几何证明后,它之前掌握的代数操作能力可能会下降。这对构建通用推理系统构成了根本性挑战——如果每次学习新技能都要以牺牲旧技能为代价,那么系统永远无法真正积累智慧。
多步推理中的校准和不确定性问题比传统任务更加复杂。一个良好校准的推理系统不仅要知道最终答案的可信度,还要能够识别推理过程中的薄弱环节。它应该能够表达"我对这个逻辑推导步骤不确定"或"我觉得自己可能陷入了错误的思路"这样的元认知判断。这种自我意识能力对于有效的回溯和搜索策略至关重要。
算法偏见在推理中表现为对问题背景的隐含假设。当模型遇到涉及"医生"和"护士"的问题时,可能会基于训练数据中的社会偏见做出性别假设,这种偏见如果影响了推理的中间步骤,就可能导致错误的最终结论。更微妙的是,这种偏见通常埋藏在多步推理的中间环节,很难被发现和纠正。
十、通向真正智能的路径
研究团队的工作揭示了一个深刻的真理:真正的人工智能不会通过简单的规模扩展实现,而需要在评估、训练、架构和问题理解等多个层面的根本性变革。
在评估层面,我们需要从平均性能指标转向复杂度分层分析。就像医学诊断不能只看平均血压,而要在不同条件下测试心脏功能一样,AI评估也需要系统性地测试模型在不同复杂度层次上的表现。这种评估方法不仅能更准确地反映模型的真实能力,还能为改进提供精确的方向指引。
在训练范式方面,需要探索超越传统监督学习的新方法。过程监督、强化学习和元学习的结合可能是关键,但更重要的是要开发出能够从稀少的高质量数据中高效学习的方法。毕竟,人类专家的时间是宝贵的,不可能为每个推理步骤都提供详细标注。
在架构创新方面,需要彻底突破当前神经网络的限制。固定计算图和静态表示容量是根本性障碍,必须被动态、自适应的架构所取代。这可能需要借鉴认知科学对人类工作记忆和执行控制机制的理解,设计出真正能够进行复杂推理的计算架构。
研究团队特别强调,复杂度分布外泛化不能通过数据规模的简单扩展来解决。对于任何给定的训练集,总能构造出复杂度超越其范围的测试问题。这意味着解决方案必须内建在模型的归纳偏向中,而不是依赖数据的全面覆盖。
这项研究的终极目标不仅仅是构建更好的AI系统,而是要真正理解智能本身的本质。通过复杂度分布外泛化这个统一框架,我们开始看到学习和推理之间的深层联系,系统1和系统2思维的相互转化,以及真正的通用智能所需要的基础能力。
当前的AI系统更像是高度专业化的工具——在特定领域表现卓越,但缺乏真正的适应性和创造性。而复杂度分布外泛化能力则是通向真正通用智能的关键指标。一个能够持续应对超出训练范围复杂度挑战的系统,才真正具备了我们所期望的"智能"特质。
说到底,这项研究为我们指出了一条清晰的道路:要构建真正智能的AI系统,我们必须超越当前的模式匹配范式,拥抱动态、适应性的推理架构。这不仅是技术挑战,更是对智能本质的深度探索。当AI系统真正具备了复杂度分布外泛化能力时,我们或许就接近了创造出能够真正思考、而非仅仅计算的人工智能的目标。这样的AI不会只是更好的工具,而会成为真正的思维伙伴,能够与人类一起探索未知、解决复杂问题、推动知识的边界。对于普通人来说,这意味着未来的AI助手将不再局限于回答标准问题或执行预定任务,而能够真正理解我们的需求,提供创造性的解决方案,甚至在面对全新挑战时展现出令人惊喜的洞察力。
Q&A
Q1:什么是复杂度分布外泛化?
A:复杂度分布外泛化是指AI模型能够处理比训练时见过的问题更复杂的情况的能力。就像一个学生只练习过简单加减法,但能举一反三解决复杂的多步骤数学问题。这种复杂度体现在两方面:需要更丰富的表示结构来描述问题,或需要更多推理步骤来解决问题。
Q2:为什么现在的AI评估方法有问题?
A:现在的AI评估主要看平均准确率,就像用平均身高评估篮球队实力一样不准确。研究发现多数数据集中简单问题占绝大多数,复杂问题很少,这让AI看起来表现很好,但实际上只是擅长简单题目。当按问题复杂度分层分析时,所有AI模型的表现都会随复杂度增加而显著下降。
Q3:复杂度分布外泛化能力对普通人有什么意义?
A:具备这种能力的AI将不再是只会刷题的机器,而是真正的思维伙伴。它们能够理解复杂需求,提供创造性解决方案,在面对前所未见的问题时展现洞察力。这意味着未来的AI助手能真正帮助我们思考和解决复杂的现实问题,而不只是执行预设任务。
好文章,需要你的鼓励
过去十年,终端厂商比拼的是“性能”和“参数”,如今,竞争的焦点正转向“智能程度”。
Fractal AI Research实验室开发了Fathom-DeepResearch智能搜索系统,该系统由两个4B参数模型组成,能够进行20多轮深度网络搜索并生成结构化报告。研究团队创新了DUETQA数据集、RAPO训练方法和认知行为奖励机制,解决了AI搜索中的浅层化、重复性和缺乏综合能力等问题,在多项基准测试中显著超越现有开源系统,为AI助手向专业研究工具转变奠定了基础。
快手科技与清华大学合作发现当前AI语言模型训练中存在严重的权重分配不平衡问题,提出了非对称重要性采样策略优化(ASPO)方法。该方法通过翻转正面样本的重要性权重,让模型把更多注意力放在需要改进的部分而非已经表现良好的部分,显著提升了数学推理和编程任务的性能,并改善了训练稳定性。