在人工智能领域中,大语言模型(LLMs)如OpenAI的o1和DeepSeek的R1已经在数学和编程等复杂推理任务上表现出色。然而,这些模型在解决那些无需专业知识、人类却能轻松应对的拼图类问题上,仍然存在明显的短板。为了解决这一问题,字节跳动Seed团队、复旦大学、清华大学AIR研究院等多家机构的研究人员联合推出了一项开创性研究——Enigmata,这项研究已于2025年5月26日发布在arXiv(arXiv:2505.19914v1)上。
这项研究由字节跳动Seed的陈江杰领衔,与复旦大学的何倩宇、袁思宇、陈爱莉等多位研究者合作完成。研究团队还包括来自南京大学、上海交通大学等多家学术机构的专家,共同打造了这个拼图推理的综合训练系统。
想象一下,你正在教一个聪明但经验不足的学生解决各种拼图游戏。这位学生在复杂的数学问题上表现优异,却在看似简单的数独或华容道上犯难。Enigmata就像是为这样的"学生"(也就是大语言模型)设计的一套专门训练课程,帮助它们掌握人类直觉认为简单的逻辑推理能力。
大语言模型通过可验证奖励的强化学习(RLVR)方法,在数学和编程等领域取得了显著进步。然而,现有的拼图数据集往往缺乏多样性和可扩展性,覆盖的拼图类型有限,难度也不可控。Enigmata的创新之处在于,它是第一个全面的解决方案,不仅提供了丰富多样的拼图数据,还配备了训练方法,让大语言模型在逻辑推理能力上实现质的飞跃。
Enigmata包含36种任务,涵盖7大类推理能力,每种任务都具备两个关键组件:一个可以生成无限数量、难度可控的示例的生成器,以及一个能够自动评估模型回答正确性的验证器。这种设计使得Enigmata能够完美融入现有的RLVR训练框架,支持大规模、多任务的强化学习训练,同时允许研究人员进行细粒度分析。
研究团队基于此数据集开发了Enigmata-Eval评估基准,并设计了优化的多任务RLVR训练策略。他们训练出的模型Qwen2.5-32B-Enigmata在拼图推理基准测试上的表现超越了o3-mini-high和o1等顶尖模型,在ARC-AGI上提升了32.8%,在ARC-AGI 2上提升了0.6%。更令人惊喜的是,这个模型在领域外的拼图基准测试和数学推理上也表现出色,证明了其出色的泛化能力。
当研究团队将训练规模扩大到更大的模型(如Seed1.5-Thinking,拥有200亿激活参数和2000亿总参数)时,他们发现Enigmata的拼图数据不仅提升了模型的拼图解决能力,还意外地增强了模型在高级数学和STEM推理任务上的表现,如AIME(2024-2025)、BeyondAIME和GPQA(钻石级)。这表明,通过纯粹的逻辑推理训练,可以获得意想不到的"免费午餐"——模型的整体推理能力都得到了提升。
接下来,让我们深入了解Enigmata的设计理念、数据构建方法、训练策略以及实验结果,看看这个综合框架如何帮助大语言模型迈向更高级的逻辑推理能力。
一、Enigmata数据集:多样化的拼图宝库
Enigmata数据集就像一个精心设计的拼图游戏乐园,里面包含了从简单到复杂的各种逻辑谜题。研究团队设计了36种不同类型的任务,涵盖7大类推理能力,每一类都针对特定的思维技能。
首先,我们来看看这七大类拼图:
**密码拼图**是关于加密和模式识别的挑战,如KPA和KKA任务要求模型解码加密信息或解决密码学难题,测试它们处理隐藏或编码信息的能力。这就像给模型出一道谜语:"如果APPLE变成了DSSOH,那么ORANGE会变成什么?"模型需要找出字母替换的规律才能解答。
**算术拼图**挑战模型在约束条件下进行数值推理和基本算术运算。例如Game24和Countdown这样的游戏要求模型使用给定的几个数字和基本运算符,得到特定的目标数值。想象你手里有几张写着数字的卡片,需要通过加减乘除组合出数字24。
**逻辑拼图**评估模型的演绎推理能力。Knights and Knaves(骑士与恶棍)和Zebra Logic(斑马逻辑)等拼图要求模型通过应用逻辑规则来解决问题。这类似于我们小时候解的那种"张三说李四在说谎,李四说王五是好人,如果只有一个人说了真话,那么谁是好人?"的推理题。
**网格拼图**包括需要在结构化网格中解决问题的任务。这类拼图如数独和星际战役(Star Battle)要求模型在网格格式中推理数字、模式和位置,测试逻辑和空间推理能力。就像填报纸上的数独游戏,但难度和变化更多。
**图拼图**涉及模型需要对节点、边和路径进行推理的任务。例如汉密尔顿路径和NL导航这样的挑战测试模型理解和遍历图的能力,评估其路径查找和网络导航能力。想象你在规划一次旅行,需要找出一条能够不重复地经过所有城市的路线。
**搜索拼图**包括要求模型在特定规则和约束下高效探索状态空间以找到正确解决方案的任务。这类拼图如扫雷和井字棋挑战模型模拟或搜索潜在的动作序列,评估游戏或拼图状态,并做出最佳决策。这些任务强调规划、局部和全局搜索以及在不确定性下的推理。
**序列拼图**专注于涉及理解和预测步骤序列的任务。例如八数码和十五数码拼图测试模型操作序列中的对象或遵循一系列逻辑步骤以达到解决方案的能力。这就像是玩那种小塑料方块拼图,你需要滑动数字块,最终将它们排列成正确的顺序。
这些拼图类型构成了一个全面的训练场,能够锻炼大语言模型的各种推理技能。而Enigmata的独特之处在于,它不仅提供了丰富多样的拼图类型,还为每种拼图配备了自动生成器和验证器。
数据构建过程分为三个阶段:首先是任务收集和设计,研究团队精心挑选和设计了36个需要复杂推理能力的逻辑拼图任务,其中30个任务配备了可扩展的自定义生成器,用于创建额外的拼图实例,而其余6个任务则从现有数据集中抽取拼图实例。
接着是自动生成器和验证器开发。团队为Enigmata中的30个任务配备了自定义拼图实例自动生成器,这使得数据可以自动扩展,生成针对o1类复杂推理研究的训练和评估数据。此外,所有36个拼图任务都有相应的自动验证器,这些验证器经过人工验证,可以评估模型输出的正确性或为完整推理链提供结果奖励和惩罚分数。
最后是滑动难度控制。对于每个拼图任务,研究团队识别了控制难度的关键变量,例如Binario(二进制拼图)中的网格大小和空白单元格数量。这些变量作为自动生成器中的参数,用于创建不同难度级别的拼图实例。
Enigmata数据集的每个任务都经过精心设计,难度可控,验证自动化,使其成为训练和评估大语言模型逻辑推理能力的理想工具。与现有的拼图推理基准相比,Enigmata是唯一一个涵盖多个任务类别、提供可扩展性、自动验证且公开可用的数据集。更重要的是,它采用RLVR方法从根本上增强模型的拼图推理能力。
二、Enigmata-Model:训练强大的推理模型
培养语言模型的高级逻辑推理能力需要一个精心设计的训练方法,这个方法要能够发展多样化的推理技能,同时避免对特定问题类型的过度拟合。研究团队设计了一个两阶段的训练流程:首先是拒绝微调(rejection fine-tuning),建立基础推理模式;然后是多任务强化学习,发展能够跨多样化问题领域迁移的通用推理技能。
在拒绝微调阶段,直接对基础模型应用强化学习可能导致训练不稳定,可能无法充分发挥模型的潜力。为解决这个问题,研究团队首先进行拒绝微调,即在监督微调期间利用高质量解决方案建立坚实的基础推理模式。在训练数据中,研究团队战略性地将数学问题与拼图结合起来,因为数学能够引发多样化的推理模式,有助于模型泛化。
对于拼图部分,研究团队从Enigmata数据集中均匀采样任务和难度级别,以确保全面覆盖和平衡分布推理模式。他们还在RFT数据中包含了ARC-AGI拼图的训练数据,因为这类拼图如果没有RFT作为冷启动,学习起来太困难。对于每个拼图实例,他们使用DeepSeek-R1生成8个候选解决方案,从中选择正确的解决方案进行RFT。
数学部分则由精心策划的来自高质量R1蒸馏数学数据集的例子组成。在整个RFT过程中,研究团队保持了拼图和数学问题之间1:1的平衡比例,以确保跨领域的综合推理能力发展。
在强化学习阶段,研究团队使用VC-PPO(一种PPO变体)来训练模型。Enigmata中的36个任务每个都有一个自动验证器vi,可以立即将响应评分为正确或不正确。对于30个任务,他们还有一个生成器gi,可以创建任意难度的示例;其他6个任务则从固定池Fi中抽取。对于每个任务i和难度级别d∈Di,他们选择使用多少示例Ni,d。
完整的训练集S是所有任务示例的并集,总大小为|S|=∑i|si|。通过改变Ni,d,他们可以轻松调整:1)每个任务的示例数量,2)简单与困难项目的混合,3)整体数据集大小。在训练过程中,每个生成的示例都会被输入到其验证器vi中,后者返回一个VC-PPO用来更新策略的奖励。这个循环提供了一个完全自动化的拼图推理RL管道。
为了构建强大、可迁移的问题解决能力,研究团队探索了两种多任务训练方法:混合训练RL和多阶段RL。这是因为单任务训练往往会导致狭窄的专业知识,无法很好地迁移到新的拼图。
丰富多样的任务可以显著增强泛化能力,并积极防止过度专门化。因此,研究团队采用混合训练RL在训练过程中同时整合多种拼图类型。他们的方法涉及一个精心构建的数据集,整合了三个关键组成部分:a)Enigmata的训练拆分,具有平衡的任务和难度分布;b)ARC-AGI 1和2的公共训练集,提高现有推理能力向未见任务的泛化能力;c)AIME数学问题(1983-2023),这些问题足够困难,能够引发多样化的推理模式并增强泛化能力。在整个训练过程中保持1:1的拼图与数学比例,以促进模型内部互补推理系统的发展。
混合训练RL提供了对不同拼图类型的广泛接触,但任务之间所需的各种推理技能可能会导致冲突。为了解决这个问题,研究团队采用了多阶段RL,这是一种基于课程的方法,在引入新挑战之前先建立核心技能。对于像ARC-AGI这样的困难任务,他们使用两阶段策略:1)在ARC-AGI 1、2和AIME上进行密集训练,直到模型泛化良好且性能稳定;2)逐步引入Enigmata-Data,同时保留早期数据以避免遗忘。这种逐步方法帮助模型更有效地学习复杂推理,并保持在早期任务上的强大性能。
三、实验结果:突破性能提升的证明
研究团队采用多个具有挑战性的推理基准进行评估:Enigmata-Eval,以及以其极端难度著称的抽象推理挑战ARC-AGI 1和ARC-AGI 2。他们还包括了知识正交推理基准KOR-Bench,其中包含来自五个类别的拼图。为了检验泛化能力,他们还评估了模型在2024年AIME高级数学基准上的表现。每个AIME问题评估32次,其他则评估4次,以确保可靠性。
研究团队从Qwen2.5-32B-Instruct开始训练,这是训练强大推理模型的坚实起点。获得RFT模型(Qwen2.5-32B-RFT)后,他们使用混合训练方法进行了370个训练步骤,得到了RL模型(Qwen2.5-32B-Enigmata),该模型在实验中表现出色。
实验结果令人振奋。他们的模型在Enigmata-Eval上的表现超过了大多数公共模型,证明了他们数据集和训练方法的有效性。此外,他们的模型在具有挑战性的ARC-AGI基准上表现突出,超过了强大的推理模型如Gemini 2.5 Pro、o3-mini和o1。此外,RFT和多任务RL训练策略在OOD基准上产生了显著的性能提升,表明他们的训练方法有效地增强了模型的通用逻辑推理能力,并能泛化到未见任务。更重要的是,RL训练后,他们的模型保持了从拒绝微调获得的可比较数学推理能力,表明他们的训练策略在增强特定逻辑技能的同时保留了通用推理能力。
进一步详细分析Enigmata-Eval中的推理类别,Qwen2.5-32B-Enigmata在结构化推理类别中表现出色,特别是在Crypto、Arithmetic和Logic任务中。这表明他们的训练方法有效地发展了基于规则的推理能力,能够处理明确的约束和模式。此外,他们的模型在搜索任务中也表现出色,超过了大多数基线模型。搜索问题需要战略性地探索解决方案空间和规划能力,强大的表现表明他们的方法有效地发展了这些高阶推理技能。
值得注意的是,大多数模型在各类别上表现出一致的性能层次。Crypto和Arithmetic任务往往产生最高的准确率,而空间和序列任务仍然更具挑战性。这些挑战指出了未来工作的有希望方向。
最令人惊讶的是,当研究团队将实验规模扩大到更大的模型时,逻辑推理数据的泛化效果更加明显。他们遵循Seed1.5-Thinking的方法,在RL阶段从相同的Mixture-of-Experts(MoE)模型训练,该模型具有200亿激活参数和2000亿总参数。为了公平比较,他们采用了相同的基础模型(20B/200B)和相同的RL训练数据,只是额外加入了20K Enigmata-Data,并训练了可比较的PPO步骤。
令人惊讶的是,结果显示他们的数据集增强了像数学和STEM问题解决这样的通用能力。与领先的推理模型Seed1.5-Thinking相比,额外训练Enigmata(即Seed1.5-Thinking-Enigmata)通常提高了AIME 2024和2025、BeyondAIME(一个专家策划的更具挑战性的评估数据集)和GPQA Diamond的性能。考虑到进一步提高像Seed1.5-Thinking这样的SoTA模型的难度,简单地在RL训练阶段融合Enigmata的合成拼图数据,似乎是扩展推理模型能力谱的一个"免费午餐",甚至在通用高级推理方面也有泛化改进。
四、深入分析:模型训练的关键因素
为了深入了解影响模型性能的因素,研究团队进行了一系列详细的消融研究。首先,他们研究了在多阶段训练的第二阶段中Enigmata-Train数据大小的影响。为确保公平比较,所有检查点都是在第150步从相同的阶段1检查点评估的,所有难度级别采样均等。
结果揭示了几个关键洞见:首先,在第二阶段使用少量Enigmata-Train数据显著提高了Enigmata-Eval性能,同时更好地保留了第一阶段知识和OOD性能。其次,增加Enigmata-Train数据逐渐增强了领域内Enigmata-Eval性能。第三,过多的Enigmata-Train数据导致灾难性遗忘和OOD性能略有下降。
在数据难度控制方面,研究团队研究了数据难度分布如何影响性能。他们比较了多阶段训练第二阶段的两种比例:均衡(每个难度级别各占三分之一)与中等为主(简单:中等:困难 = 2:6:2)。后一种设置量化了极端样本如何破坏RL训练。他们还与历史奖励变化(HRV)作为基线数据选择策略进行比较。结果表明,均衡难度比例(1:1:1)使模型表现出更强健的复杂推理性能。此外,基于Enigmata数据中难度标签的简单难度控制方法在Enigmata-Eval上表现可比于HRV,同时在OOD基准上提供更好的结果。
在多任务训练方面,研究团队评估了SFT/RFT对两种训练范式(多阶段RL和混合训练RL)的影响,使用两种变体:1)SFTPart,排除三个任务(Countdown、Minesweeper、Light Up)以测试迁移能力;2)SFTAll,包括所有任务作为完整基线。为确保公平比较,所有检查点训练的总步骤相同:(1)多阶段训练包括第1阶段200步和第2阶段225步;(2)混合训练使用组合数据集进行所有425步。
研究发现,多阶段和混合训练方法显示出互补优势。多阶段建立更深入的特定任务推理,而混合训练改善泛化。其次,在预训练数据有限的情况下,多阶段更好地迁移到未见任务,特别是像Enigmata和ARC-AGI这样的复杂任务,反映了课程学习的好处。第三,混合训练更好地泛化到OOD任务,表明多样化训练帮助模型学习超越特定任务的更广泛推理策略。
通过分析不同任务的奖励曲线,研究团队发现简单任务如Countdown,所有方法都能取得类似的改进,表明SFT不是必需的。对于中等复杂性任务如Minesweeper,没有SFT的混合训练挣扎,而多阶段RL仍然有效学习。当任务包含在SFTAll中时,两种方法都从更高的基线开始,并快速优化到接近完美的准确率。这种模式对于具有固定解决方案模式或捷径的任务是典型的——一旦模型掌握了解决方法,性能就会显著提高。对于高复杂性任务如Light Up,综合SFT和多阶段RL的组合显著优于所有其他方法,特别是对于任务的困难变种。有趣的是,没有相关SFT的混合训练RL失败,突显复杂推理任务既需要强大的基础知识(来自相关SFT),也需要结构化学习方法(来自多阶段RL)才能取得最佳结果。
此外,研究团队还分析了代码使用对拼图推理的影响。他们使用关键词检测和模式匹配识别模型输出中的代码元素,并相应地分类响应。结果表明,代码使用阻碍了拼图任务的性能,这表明在没有执行代码的情况下,当前模型无法有效地使用代码解决复杂的推理任务。
五、研究意义与未来展望
Enigmata的研究意义不仅仅在于它提供了一个全面的拼图数据集,更在于它为增强大语言模型的逻辑推理能力提供了一个完整的解决方案。通过将可控难度的生成器和自动验证器相结合,Enigmata为研究人员提供了一个强大的工具,可以系统地训练和评估大语言模型的推理能力。
研究团队通过消融研究和详细分析揭示了几个关键洞见:首先,多阶段训练和混合训练各有优势,前者擅长建立深度特定任务推理能力,后者则提高了模型的泛化能力。其次,数据难度控制是训练有效模型的关键因素,均衡的难度分布比偏向某一难度级别的分布效果更好。第三,适当数量的训练数据能够显著提高模型性能,但过多的数据可能导致灾难性遗忘。
更令人惊奇的是,研究团队发现,通过纯粹的逻辑推理训练,模型在数学和STEM等需要专业知识的领域也获得了性能提升。这种"免费午餐"现象表明,逻辑推理能力可能是多种高级认知任务的基础,培养这种能力可以带来广泛的好处。
未来的研究方向可能包括:探索更多类型的拼图和推理任务,进一步优化多任务训练策略,探索如何更有效地平衡不同任务的训练,以及研究如何将逻辑推理能力与其他形式的推理(如因果推理、物理推理等)结合起来。此外,研究团队也可能探索如何将Enigmata的方法应用到多模态模型中,使模型能够处理涉及图像、音频等的逻辑推理任务。
总之,Enigmata为增强大语言模型的逻辑推理能力提供了一个全面、可控的框架。通过这个框架,研究人员可以系统地训练模型掌握各种推理技能,使它们在解决人类认为简单的拼图问题上取得突破性进展。这不仅填补了当前大语言模型能力的一个重要空白,也为未来发展更全面、更强大的人工智能系统铺平了道路。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。