这项由上海人工智能实验室的李宇、潘卓实、林泓霖等研究人员领导的研究发表于2025年7月,论文题目为《Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning》。有兴趣深入了解的读者可以通过https://github.com/Leey21/A-Data-Centric-Study访问完整的研究代码和资料。
当我们学会了骑自行车,是否更容易掌握摩托车?当一个人精通数学,是否在解决逻辑推理问题时也会更得心应手?在人工智能的世界里,这个问题同样引人深思。研究团队就像是AI教育专家,专门研究如何让人工智能在不同"科目"之间融会贯通。
过去,科学家们通常让AI专攻单一领域——要么专门解数学题,要么专门写代码,要么专门解逻辑谜题,就像培养专科医生一样。但现实世界的问题往往需要综合运用多种技能。比如,设计一个智能游戏既需要数学计算能力,又需要编程技能,还需要逻辑推理能力。那么,能否让AI像全科医生一样,在多个领域都游刃有余呢?
研究团队选择了三个最具代表性的"学科"来进行这场教育实验:数学推理(相当于理科思维)、代码生成(相当于工程思维)和逻辑谜题求解(相当于哲学思维)。他们使用了强化学习这种训练方法,这就像是给AI设置了一个奖励机制——做对了就给糖果,做错了就不给奖励,让AI在反复尝试中学会正确的解题方式。
更有趣的是,研究团队还探索了许多影响AI学习效果的细节因素。比如,用什么样的"话术"来跟AI对话(模板一致性),如何安排学习的先后顺序(课程学习),用什么样的奖励方式来激励AI(奖励设计),以及用中文还是英文来训练AI(语言敏感性)等等。这些看似微小的细节,却可能对AI的学习效果产生意想不到的巨大影响。
经过大量实验,研究团队得出了一系列令人惊喜的发现。他们发现,数学训练和逻辑谜题训练确实能够互相促进,就像学好数学有助于提高逻辑思维能力一样。但代码训练的效果则比较复杂,有时候能帮助其他能力提升,有时候反而会产生干扰。同时,他们还发现,让AI先学习基础指令再进行强化学习,效果会显著提升;训练和测试时使用一致的对话模板至关重要;而用中文训练的AI在推理能力上普遍不如用英文训练的AI。
一、数学训练:AI的理科思维养成记
当研究团队开始训练AI解数学题时,就像是在培养一个理科学霸。他们选择了两个具有挑战性的数学数据集:DeepScaleR和CountDown。前者包含各种复杂的数学问题,后者则是一种特殊的数字游戏,要求用给定的几个数字通过加减乘除运算得到目标数字,每个数字只能用一次。
实验结果让人既惊喜又意外。数学训练确实大幅提升了AI在数学领域的表现能力。以基础模型为例,在MATH500这个权威数学测试中,AI的正确率从56.40%跃升到76.00%,提升了近20个百分点。在CountDown数字游戏中,提升更加惊人,从最初的1.05%一跃达到76.61%,几乎是从完全不会到相当熟练的水平。
更令人惊喜的发现是,数学训练产生了意想不到的"跨界效应"。就像一个数学好的学生往往在逻辑推理方面也表现出色一样,接受数学训练的AI在解决逻辑谜题时也展现出了更强的能力。基础模型在逻辑谜题方面的平均得分从9.07分提升到24.08分,提升幅度超过了一倍半。这种现象充分说明了数学思维和逻辑思维之间确实存在着某种内在的联系。
然而,事情并非完全美好。数学训练似乎对AI的编程能力产生了负面影响。在代码生成任务中,经过数学训练的AI表现反而有所下降,就像有些理论派学者在实际操作方面可能不如专业技术人员那样。这种现象提醒我们,不同类型的思维模式之间可能存在某种竞争关系。
研究还发现了一个有趣的细节:基础AI模型在CountDown游戏上的糟糕表现主要源于它无法严格遵循"每个数字只能用一次"这个规则。这暴露了基础模型在指令理解方面的局限性,也解释了为什么经过指令微调的模型通常表现更好。
二、代码训练:工程思维的双刃剑效应
编程训练就像是教AI成为一名工程师,不仅要理解逻辑,还要将想法转化为可执行的代码。研究团队使用了CodeR1-12k数据集,其中包含了来自LeetCode和TACO等知名编程平台的12000个编程问题。这些问题涵盖了从基础语法到复杂算法的各个层面。
代码训练的直接效果是显著的。在HumanEval这个经典的代码生成测试中,基础模型的成功率从70.12%提升到80.49%,提升了超过10个百分点。在MBPP测试中,成功率也从64.80%增长到67.40%。更令人印象深刻的是,经过指令微调的模型在代码训练后能够达到84.15%的HumanEval成功率,这已经是相当优秀的表现了。
不过,代码训练的跨领域效应呈现出了复杂的双面性,就像一把双刃剑。对于经过指令微调的模型来说,代码训练通常能够带来正面的溢出效应,在其他领域的测试中也表现更好。但对于基础模型来说,情况就截然不同了。代码trainining往往导致基础模型在其他任务上的表现下降,特别是在需要灵活输出格式的任务上。
研究团队深入分析后发现,这种现象的根源在于代码数据的结构化特性。编程代码有着严格的语法规则和固定的格式要求,这种刚性结构会让基础模型的输出变得过于僵化。当面对需要自然语言表达的数学问题或逻辑谜题时,这种僵化的输出模式反而成为了障碍,导致AI无法正确提取答案,即使推理过程可能是正确的。
这个发现揭示了一个重要的训练原理:不同类型的数据会塑造AI的"思维习惯"。代码训练让AI习惯了精确、结构化的表达方式,但这种习惯在需要灵活表达的场景中可能成为负担。这就像一个长期从事精密工程工作的人,在需要发挥创意的艺术创作中可能会显得拘谨一样。
三、逻辑谜题训练:哲学思维的奇妙力量
逻辑谜题训练是这项研究中最有趣的部分,就像是在培养AI的"哲学思维"。研究团队选择了两类经典的逻辑问题:Knights-and-Knaves(骑士与恶棍问题)和Logic Puzzle Baron(逻辑推理男爵问题)。前者是经典的逻辑哲学问题,每个角色要么总是说真话(骑士),要么总是说假话(恶棍),AI需要通过分析他们的话来判断身份。后者则是更复杂的网格逻辑谜题,需要根据多个线索填充信息表格。
逻辑训练的直接效果非常显著。在Knights-and-Knaves问题上,基础模型的准确率从17.86%飙升到94.29%,这几乎是从完全不懂到接近完美的跨越。在Logic Puzzle Baron问题上,准确率也从0.27%提升到34.60%,虽然绝对数值不如前者,但提升幅度同样令人印象深刻。
更令人兴奋的是,逻辑训练展现出了强大的跨领域迁移能力。接受逻辑训练的AI在数学推理方面也表现出色,基础模型在MATH500测试中的得分从56.40分提升到68.40分,在AIME24测试中从10.00分提升到20.00分。这种提升几乎让基础模型达到了指令微调模型的原始水平,充分说明了逻辑思维训练的价值。
这种现象可以用认知科学的理论来解释。无论是数学推理还是逻辑推理,都需要系统性的思考、严密的推理链条和准确的因果分析能力。当AI通过解决逻辑谜题训练了这些核心能力后,自然能够将这些技能迁移到数学问题的求解中。这就像一个经常玩逻辑游戏的人,在解决数学应用题时往往也会表现得更加出色。
然而,逻辑训练对编程能力的影响相对有限,甚至在某些情况下还会产生轻微的负面效应。这再次证实了不同思维模式之间的差异性。逻辑推理更注重抽象思维和概念分析,而编程更需要具体的实现能力和操作技巧,两者的思维模式存在一定的差异。
研究还发现了一个有趣的训练策略:将不同难度的逻辑问题混合训练比单独训练某一类问题更有效。这种做法能够避免AI过度拟合某种特定的问题格式,保持更好的泛化能力。
四、跨领域组合训练:1+1是否大于2?
在验证了单领域训练的效果后,研究团队开始探索更加复杂的问题:如果让AI同时学习多个领域,效果会如何?这就像是让一个学生同时学习数学、编程和逻辑学,看看这种"全才"教育模式是否真的更有效。
双领域组合训练展现出了复杂而有趣的结果。数学与逻辑谜题的组合堪称黄金搭档,两者相互促进,效果显著。在这种组合训练下,AI在数学任务上的平均表现达到49.72分,超过了纯数学训练的47.48分。逻辑谜题的表现也达到49.78分,虽然略低于纯逻辑训练的61.98分,但考虑到同时还要学习数学,这已经是相当不错的表现了。
逻辑谜题与代码的组合同样表现出色,整体平均分达到50.89分,是所有双领域组合中表现最好的。这种组合似乎找到了抽象思维与具体实现之间的平衡点,让AI既保持了逻辑思维的严密性,又具备了代码实现的实用性。
然而,数学与代码的组合结果却相对平庸,整体表现为48.92分。虽然在各自的专业领域都有不错的表现,但缺乏明显的协同效应。这或许反映了纯理论思维与工程实践思维之间存在一定的隔阂。
最令人惊喜的发现来自三领域组合训练。当AI同时学习数学、代码和逻辑谜题时,整体平均表现达到了56.57分,超越了所有双领域组合。虽然在逻辑谜题这个单项上的表现有所下降(从双领域的55.15分降到49.73分),但数学能力达到了最高水平(49.75分),代码能力也保持在较高水平(73.63分)。
这个结果验证了一个重要的教育理念:虽然专业化训练能够在特定领域达到更高的成就,但全面的多领域训练能够培养出更加均衡和适应性更强的能力。就像现实中的全才虽然在某个专业上可能不如专家,但在需要综合运用多种技能的复杂任务中往往表现更出色。
研究团队还观察到一个有趣的现象:多领域训练能够提高AI的"抗风险"能力。在单领域训练中,如果AI在某个特定类型的问题上表现不佳,整体成绩就会大幅下降。但在多领域训练中,即使在某个领域表现不理想,其他领域的良好表现也能提供"保险",让整体水平保持相对稳定。
五、模板一致性:对话方式的巨大影响
在AI训练过程中,研究团队发现了一个容易被忽视但影响巨大的因素:模板一致性。这里的"模板"就像是与AI对话的"话术"或"格式",看似微不足道,实际上却能决定AI的表现好坏。
设想一个场景:你平时习惯了用某种方式与朋友交流,突然有一天朋友改变了交流方式,你可能就会感到困惑,无法正常发挥。AI也面临同样的问题。如果训练时使用了一种对话模板,测试时却使用了另一种模板,AI的表现就会大幅下降。
研究团队使用了三种不同的对话模板进行实验:R1模板(类似于深度思考式的对话方式)、Qwen模板(更加直接简洁的方式)和基础模板(最简单的问答方式)。结果显示,模板不匹配时,AI的表现会出现戏剧性的下降。
以基础模型为例,当训练和测试使用相同的R1模板时,平均表现为47.84分。但如果训练用R1模板,测试却用基础模板,成绩就会骤降到27.27分,降幅超过40%。对于指令微调模型,这种差异同样明显:匹配模板时得分54.56分,不匹配时只有17.54分,降幅高达67%。
这种现象的根本原因在于AI在训练过程中形成了特定的"思维习惯"。当它习惯了某种对话方式后,就会按照这种方式来组织思路和输出答案。一旦对话方式发生变化,AI就像是被要求用外语思考问题的人一样,需要额外的认知负担来适应新的表达方式,从而影响了解题的准确性。
更深层的分析揭示,不同模板之间的差异不仅仅是表面的格式问题,还涉及到思维模式的根本差异。R1模板鼓励AI进行深入思考,通过标签来展示推理过程,这培养了AI的逐步推理习惯。而基础模板更注重直接给出答案,这会让AI形成快速响应的习惯。当这两种思维模式混合使用时,就会产生认知冲突。
这个发现对实际应用具有重要意义。它提醒我们,在部署AI系统时,必须确保训练环境和应用环境的一致性。如果训练时使用了某种特定的交互方式,那么在实际使用时也应该保持相同的方式,否则就可能无法发挥AI的真实能力。
六、课程学习:循序渐进的智慧
就像人类学习需要循序渐进一样,AI的学习也能从合理的课程安排中受益。研究团队在逻辑谜题领域实施了课程学习策略,就像是为AI制定了一个从易到难的学习计划。
他们以Knights-and-Knaves问题为例,根据每个问题中包含的子问题数量来划分难度等级。包含3个子问题的被归类为最简单的级别,包含8个子问题的则是最难的级别。AI按照从简单到复杂的顺序依次学习这些问题,就像学数学时先学加减法,再学乘除法,最后学复杂运算一样。
标准课程学习的结果已经相当令人满意。通过循序渐进的训练,AI的最终表现达到了97.29%的准确率,相比随机混合训练的94.29%有了明显提升。更重要的是,课程学习让AI的学习过程更加稳定,避免了在难题上的过度挫败和在简单题上的过度自信。
研究团队还提出了一个创新的"策略刷新"方法。在传统的课程学习中,AI会一直使用同一个参考模型来评估自己的进步。但在策略刷新方法中,每当AI完成一个难度等级的学习后,就会更新参考模型,并重置优化器的状态,就像是给AI一个"重新开始"的机会。
这种策略刷新的效果非常显著。最终的准确率达到了惊人的99.71%,几乎接近完美。更重要的是,从第二个学习阶段开始,采用策略刷新的AI就一直保持领先,最终的收敛速度也更快。
策略刷新之所以有效,是因为它避免了学习过程中的"历史包袱"。在传统学习中,AI可能会对早期遇到的简单问题形成固化的处理模式,这些模式在面对更复杂问题时可能成为桎梏。通过定期"刷新",AI能够以更加灵活的心态面对新的挑战,避免被过去的经验所束缚。
这种发现对人类学习也有一定的启发意义。有时候,完全忘记过去的方法,以全新的视角来看待问题,可能会取得更好的效果。当然,这并不意味着要完全抛弃过去的经验,而是要在保持核心能力的同时,保持思维的灵活性。
七、奖励设计:激励机制的学问
在强化学习中,奖励设计就像是制定激励政策,直接影响着AI的学习动机和方向。研究团队发现,不同类型的问题需要不同的奖励策略,就像管理不同性格的员工需要不同的激励方式一样。
对于Knights-and-Knaves问题,简单的二元奖励(做对了给1分,做错了给0分)效果最好。这是因为这类问题相对简单,AI经过一定训练后通常能够完全正确地解决,此时清晰明确的奖励信号最有助于强化正确的行为模式。就像教小孩子算术,对就是对,错就是错,简单明了的反馈更有效。
但对于Logic Puzzle Baron这类复杂问题,情况就完全不同了。这类问题通常包含多个需要填空的单元格,AI很少能一次性全部答对。如果仍然使用二元奖励,AI就很少能得到正面反馈,学习过程会变得极其困难,甚至可能完全无法学会。
因此,研究团队为复杂问题设计了比例奖励系统。AI不需要全部答对才能得到奖励,而是根据答对的比例来获得相应的分数。比如,如果一个问题有10个空格,AI答对了7个,就能得到0.7分的奖励。这种"部分成功也值得鼓励"的理念让AI能够从每次尝试中都获得有价值的学习信号。
研究团队还尝试了其他几种奖励策略。格式奖励会额外奖励AI使用正确的输出格式,就像老师不仅看答案是否正确,还会看解题步骤是否规范一样。重新缩放奖励则将奖励范围扩展到-1到1之间,对错误答案给予负分,就像是既有奖励也有惩罚的双向激励机制。
实验结果显示,最适合的奖励策略高度依赖于任务的特性。对于AI能够相对容易掌握的简单任务,清晰的二元奖励最有效。但对于复杂任务,过于严格的标准反而会阻碍学习,需要更加灵活和渐进的奖励机制。
这个发现揭示了一个重要的教育原理:激励机制必须与学习者的能力水平相匹配。对初学者过于严格的要求可能会打击学习积极性,而对高水平学习者过于宽松的标准则可能导致满足于现状。最好的激励策略是能够在挑战性和可达成性之间找到平衡点。
八、语言因素:中英文差异的意外发现
在全球化的今天,AI系统的多语言能力越来越重要。研究团队特别关注了训练语言对AI推理能力的影响,结果发现了一个令人深思的现象:用中文训练的AI在推理任务上普遍不如用英文训练的AI。
为了确保中文训练的有效性,研究团队采用了严格的语言控制策略。他们使用语言检测工具来监控AI的输出,只有当AI用中文进行推理且答案正确时才给予奖励。如果AI虽然答对了但使用的是英文思考,也不会得到奖励。这种严格的控制是必要的,因为他们发现,如果不加限制,AI即使面对中文问题也会习惯性地用英文来思考。
然而,即使在这种严格控制下,中文训练的效果仍然明显逊色于英文训练。在各项测试中,中文训练的AI得分都明显低于英文训练的同类模型,差距往往达到数十个百分点。这种差异不仅体现在直接的语言理解上,更重要的是体现在深层的推理能力上。
造成这种差异的原因可能是多方面的。首先,当前大多数AI模型的预训练数据中英文内容占据主导地位,模型对英文语言模式的学习更加充分。其次,在数学、逻辑等抽象思维领域,英文相关的训练资源更加丰富,相关的表达方式也更加成熟。此外,中英文在表达逻辑关系时的语言结构差异也可能影响AI的推理过程。
这个发现提醒我们,要真正实现AI的多语言智能,仅仅翻译训练数据是不够的。需要在更深层次上理解不同语言的思维模式差异,并针对性地设计训练策略。对于中文AI的发展来说,这既是挑战也是机遇,需要更多针对中文思维特点的专门研究。
值得注意的是,这种语言差异并不意味着中文在逻辑表达上存在天然劣势。在人类的认知研究中,不同语言背景的人在逻辑推理能力上并没有显著差异。AI表现出的语言差异更多反映的是当前训练方法和数据分布的问题,而非语言本身的特性。
九、监督微调的重要作用:基础与进阶的关键桥梁
研究过程中,一个重要发现是监督微调(SFT)在强化学习中发挥的关键作用。这就像是在学习高难度技能之前先掌握基础技能一样,监督微调为后续的强化学习奠定了重要基础。
监督微调就像是给AI上"基础课程",教会它基本的对话礼仪和回答格式。在这个过程中,AI学会了如何理解人类的指令,如何组织自己的回答,以及如何在给定的框架内表达想法。这些看似简单的能力,实际上为后续的复杂学习提供了必要的支撑。
对比实验清楚地展示了监督微调的价值。在几乎所有的测试中,经过监督微调的模型(指令模型)都比基础模型表现更好,而且这种优势在强化学习过程中还会进一步放大。例如,在代码生成任务中,基础模型经过强化学习后达到80.49%的成功率,而指令模型则能达到84.15%的成功率。
更重要的是,监督微调让AI的学习过程更加稳定。基础模型在强化学习过程中容易出现性能波动,有时甚至会出现训练崩溃的情况。而经过监督微调的模型则表现得更加稳健,能够持续稳定地提升性能。
这种稳定性的来源在于监督微调建立了可靠的"思维框架"。当AI遇到新问题时,这个框架为它提供了处理问题的基本思路和表达方式。即使在强化学习的探索过程中遇到困难,AI也不会完全迷失方向,而是能够回到这个基础框架上来重新思考。
监督微调的另一个重要作用是提高了AI的"交流能力"。在强化学习中,AI需要通过输出来表达自己的思考过程,这个表达的质量直接影响奖励的获得。监督微调让AI学会了更好的表达方式,从而能够更有效地参与强化学习过程。
这个发现对AI训练策略具有重要指导意义:虽然强化学习能够带来显著的性能提升,但它不应该被视为独立的训练方法,而应该与监督微调相结合,形成一个完整的训练流程。先通过监督微调建立基础能力,再通过强化学习进行精细调优,这样的组合策略能够取得最佳效果。
十、实验细节与发现总结
通过这一系列广泛而深入的实验,研究团队得出了许多有价值的发现,这些发现不仅对AI研究有重要意义,也为我们理解智能学习过程提供了新的视角。
在跨领域学习方面,数学推理和逻辑推理确实表现出了良好的互补性,这验证了抽象思维能力的通用性。当AI掌握了严密的逻辑推理能力后,这种能力能够自然地迁移到数学问题的求解中。同时,数学训练中培养的定量分析能力也能增强逻辑推理的精确性。
代码训练的效果则更加复杂。对于具备良好基础的指令模型,代码训练通常能够带来正面的迁移效应。但对于基础模型,代码训练可能会带来意想不到的负面影响,主要是因为代码的结构化特性可能会限制模型在其他任务中的表达灵活性。
多领域组合训练展现出了"集成学习"的优势。虽然在某些单项能力上可能不如专门训练,但整体表现更加均衡和稳定。三领域组合训练的最佳表现证明了多样化学习的价值,这与人类教育中提倡的全面发展理念不谋而合。
模板一致性的重要性提醒我们,AI系统的部署需要更加细致的考虑。训练和应用环境的任何不一致都可能导致性能的显著下降。这不仅是技术问题,也是系统设计和用户体验的问题。
课程学习和策略刷新的有效性证明了渐进式学习的价值。特别是策略刷新策略,通过定期"重置"学习状态,能够避免早期经验的负面影响,让AI以更加开放的心态面对新挑战。
奖励设计的实验揭示了"因材施教"的重要性。不同复杂度的任务需要不同的激励策略,过于严格或过于宽松的标准都可能影响学习效果。最佳的奖励设计应该与任务难度和学习者能力相匹配。
语言因素的发现虽然令人意外,但也提醒我们在追求AI全球化的过程中需要更加重视不同语言文化背景的特殊性。简单的翻译可能无法解决根本问题,需要更深入的跨语言研究。
监督微调的重要作用证明了基础能力培养的价值。强化学习虽然强大,但需要建立在扎实的基础能力之上才能发挥最大效果。这与人类学习的规律是一致的:基础不牢,地动山摇。
说到底,这项研究最大的价值在于系统性地探索了AI多领域学习的可能性和规律。就像人类社会中的通才与专才各有价值一样,AI系统也需要在专业化和通用化之间找到平衡。研究团队的发现为未来AI系统的设计提供了重要参考,帮助我们更好地理解如何培养既有专业深度又有跨领域适应能力的AI系统。
更重要的是,这些发现揭示了智能学习的一些普遍规律。无论是人工智能还是人类智能,都需要在不同能力之间找到协调统一的方式。有些能力之间确实存在互补和促进关系,有些则可能存在竞争和冲突。理解这些关系,对于设计更好的学习策略具有重要意义。
随着AI技术的不断发展,我们相信会有更多类似的研究涌现,帮助我们更深入地理解智能的本质和学习的规律。这不仅对AI技术本身有重要意义,也可能为人类教育和认知科学提供新的启发。毕竟,智能的探索永远是一个充满惊喜的旅程。
有兴趣深入了解这项研究细节的读者,可以访问研究团队提供的完整资料和代码:https://github.com/Leey21/A-Data-Centric-Study,其中包含了所有实验的详细数据和实现方法。
Q&A
Q1:这个研究中的"跨领域学习"具体是什么意思?会不会让AI变得样样通但样样松?
A:跨领域学习就是让AI同时学习数学、编程和逻辑推理等不同技能,就像培养多才多艺的学生。研究发现确实存在这个担心的情况——AI在某些单项能力上可能不如专门训练的模型,但整体表现更均衡稳定。特别是三领域组合训练的AI总分最高,虽然逻辑推理单项有所下降,但数学能力达到了最高水平,编程能力也保持很好。
Q2:为什么用中文训练的AI表现比英文的差?这是否意味着中文不适合AI推理?
A:这个差异主要反映的是当前AI训练资源和方法的问题,而非中文语言本身的问题。研究发现,即使严格控制AI用中文思考,其推理表现仍明显低于英文训练的模型。这是因为目前大多数AI的预训练数据以英文为主,在数学、逻辑等领域的英文资源也更丰富。这提醒我们需要更多针对中文思维特点的专门研究,而不是简单的翻译。
Q3:这个"模板一致性"听起来很抽象,对普通用户使用AI有什么实际影响吗?
A:模板一致性就是AI的"对话习惯",影响比想象中大得多。研究发现,如果训练时AI习惯了某种对话方式,测试时换了另一种方式,性能会下降40-67%。对普通用户来说,这意味着使用AI时最好保持一致的提问方式和格式。比如,如果某个AI在特定的问答格式下表现很好,就尽量使用相同的格式,而不要随意改变交流方式。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。