微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ServiceNow团队如何让15B参数的小模型追平千亿级大模型?揭秘Apriel-1.5-15B-Thinker的训练奇迹

ServiceNow团队如何让15B参数的小模型追平千亿级大模型?揭秘Apriel-1.5-15B-Thinker的训练奇迹

2025-10-31 13:14
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-31 13:14 科技行者

这项由ServiceNow公司SLAM实验室团队完成的研究发表于2025年1月,研究论文编号为arXiv:2510.01141v1。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。

在人工智能发展的浪潮中,一个令人困扰的问题始终存在:为什么拥有最强AI能力的模型往往需要数千亿甚至万亿参数,消耗巨大的计算资源?这就好比要做一道简单的家常菜,却需要动用整个酒店厨房的设备。对于那些资源有限的组织来说,这种"大炮打蚊子"的方式显然不现实。

ServiceNow的研究团队决定挑战这个看似不可能的任务:能否用一个相对"小巧"的15亿参数模型,达到那些千亿参数巨无霸的性能水平?这就像是要用一辆小型轿车跑出跑车的速度,听起来天方夜谭,但他们真的做到了。

研究团队开发的Apriel-1.5-15B-Thinker模型在人工智能评测基准上获得了52分的成绩,这个分数与需要大量计算资源的DeepSeek-R1-0528模型完全相同。更令人惊讶的是,在十项图像理解测试中,这个小模型的表现平均只比谷歌的Gemini-2.5-Flash和Claude Sonnet-3.7落后5分。考虑到后两者的规模和资源投入,这个差距几乎可以忽略不计。

整个研究的核心思想可以用烹饪来类比:与其简单地增加食材分量(参数数量),不如精心设计烹饪流程(训练方法)。研究团队将训练过程设计成三个精心安排的阶段,就像制作一道精品菜肴需要经历前期准备、主要烹饪和最后调味三个步骤。

首先是"扩容改造"阶段。研究团队以Pixtral-12B作为基础模型,这就像选择了一个性能还不错的基础厨具。但是要处理更复杂的任务,他们需要给这个"厨具"增加一些"功能模块"。具体来说,他们将模型的隐藏层从40层增加到48层,就像给厨房增加了更多的操作台面。这种"深度扩展"的方法比从零开始训练一个大模型要经济得多,就像在现有厨房基础上扩建,而不是推倒重建。

第二阶段是"持续预训练",这个阶段又分为两个子步骤。第一个子步骤像是让"厨师"(模型)学习基础技能。研究团队准备了一个包含50%文本内容的训练菜单,涵盖数学科学推理、编程任务和常识知识;20%的内容用于复习之前学过的内容;剩下30%则是多模态内容,包括文档理解、图表分析、图像描述等技能。这就像让厨师既要学会处理各种食材,也要掌握看菜谱、理解顾客需求等综合能力。

第二个子步骤更像是"专业技能强化训练"。研究团队专门针对视觉推理能力进行了深度优化。他们设计了一套巧妙的合成数据生成系统,就像为厨师准备了各种特殊的练习题。这些练习包括图像重建(学会整体观察和细节把握)、视觉匹配(提高对应和辨别能力)、物体检测(增强定位和识别能力)、以及计数任务(训练精确观察特定元素的能力)。

为了验证这个专业强化训练的效果,研究团队做了一个对照实验。他们用第一阶段结束的模型和第二阶段结束的模型分别进行了小规模的监督训练,结果发现第二阶段的模型在多个视觉任务上都有显著提升。比如在MathVerse视觉主导任务上提升了9.65分,在CharXiv描述性任务上提升了5.98分,这证明了专业强化训练的价值。

第三阶段是"监督精调",这相当于最后的"调味"过程。研究团队面临一个现实约束:他们没有足够的计算资源来训练一个更大的"教师"模型,也无法进行大规模的后训练优化。因此,他们选择了一条更加务实的道路:精心策划高质量的训练数据,并使用开源模型作为"指导老师"。

在数据准备上,研究团队采用了严格的多步骤筛选流程。首先进行彻底的去重复处理以增强数据多样性,然后过滤掉不安全或不合适的内容,接着使用启发式方法移除低质量样本。在这个基础清理之后,他们使用语言模型评判和基于执行的验证来确认数据正确性,并通过拒绝采样丢弃不正确或低质量的指令-回答对。

最终的训练数据集包含了数百万个高质量的指令-回答对,每个回答都包含明确的推理步骤,就像是详细的解题过程。这些数据涵盖了数学推理、编程、科学推理、工具调用、通用推理、知识密集型任务、对话、指令跟随、安全性、内容审核和鲁棒性等多个领域。

训练过程分为三个小步骤:首先进行4轮基础精调,使用32768的序列长度;然后进行两个较小的精调实验,一个使用25%的分层数据集再训练4轮,另一个专门处理更长序列的数据。最后,研究团队将这两个小实验的结果进行权重平均,产生最终的模型。

那么这个"小而精"的模型表现如何呢?在文本推理能力测试中,Apriel-1.5-15B-Thinker在人工智能分析智能指数上获得了52分,与DeepSeek-R1-0528持平,超过了许多更大的开源模型,如Llama Nemotron Super 49B v1.5(45分)和gpt-oss-20B(43分)。

更详细地看各项测试结果,这个模型在AIME2025数学竞赛中达到了87%的准确率,在IF-Bench指令跟随测试中得到62%,在τ?-Bench电信领域专业测试中获得68%。这些成绩充分展示了模型在数学推理、指令理解和专业领域问题解决方面的强大能力。

在多模态能力测试中,虽然受到参数规模限制,但Apriel-1.5-15B-Thinker仍然表现出色。在MMMU多模态理解基准测试中获得70.2%的成绩,MathVista数学视觉任务得到75.5%,CharXiv图表理解达到88.2%。特别值得注意的是,在文档理解和图表分析任务上,这个小模型展现出了与大型专有模型相当的能力。

然而,模型也存在一些局限性。在纯视觉推理任务上,比如MMMU-PRO视觉部分,模型得分48.21%,显示出在处理完全依赖视觉信息的复杂推理任务时还有提升空间。研究团队发现了一个有趣的规律:模型在结合视觉和文本信息的任务上表现更好,而在纯视觉推理上相对较弱。

这种性能差异反映了一个重要现象:CharXiv描述性任务(88.20%)和CharXiv推理任务(50.10%)之间存在38.1个百分点的差距,这说明模型在表面文档理解和深层上下文推理之间还存在能力差异。

研究团队的成功秘诀可以总结为几个关键原则。首先是"精准扩容而非盲目放大"。他们通过增加模型深度而非宽度的方式来提升容量,这种方法在保持计算效率的同时增强了推理能力。其次是"分阶段渐进式训练"。就像学习一门技能需要从基础到高级循序渐进一样,模型训练也采用了从基础能力建立到专业技能强化的渐进策略。

第三个关键是"数据质量优于数量"。面对计算资源限制,研究团队选择了精心筛选和处理高质量数据,而非简单地增加数据量。这就像是选择新鲜优质食材制作精品菜肴,而不是用大量普通食材做大锅饭。

最后是"合成数据的巧妙运用"。研究团队开发了针对性的合成数据生成策略,专门训练模型的特定能力,这种方法既经济又高效。

这项研究的意义远超技术层面。它证明了在AI发展中,创新的训练方法和精心设计的数据策略可以在很大程度上弥补计算资源的不足。对于那些无法负担大规模计算资源的组织来说,这提供了一条可行的替代路径。

更重要的是,这种"小而精"的模型更适合实际部署应用。它可以在单个高端GPU上运行,大大降低了部署成本和技术门槛。这意味着更多的公司和研究机构可以使用接近前沿水平的AI技术,而无需投资昂贵的基础设施。

当然,这项研究也揭示了一些有趣的发展方向。研究团队指出,虽然当前模型在文本推理方面已经达到了很高水平,但在多模态能力特别是纯视觉推理方面还有很大提升空间。未来的工作将更多关注多模态能力的全面发展和智能体能力的增强。

从更广阔的视角来看,这项研究代表了AI发展思路的一个重要转变:从单纯追求规模到追求效率和实用性。就像汽车工业从早期的"越大越好"逐渐发展到现在注重燃油效率和环保性能一样,AI模型的发展也开始更多考虑资源效率和实际可用性。

说到底,ServiceNow团队的这项工作向我们展示了一个振奋人心的可能性:通过巧妙的工程设计和精心的训练策略,我们可以用相对有限的资源达到令人惊讶的效果。这不仅为资源受限的组织提供了希望,也为整个AI行业指明了一个更加可持续和包容的发展方向。

归根结底,这项研究告诉我们,在AI的世界里,智慧的设计往往比蛮力更重要。就像一位技艺精湛的厨师可以用简单的食材做出美味佳肴一样,巧妙的训练方法可以让小模型发挥出大模型的威力。这或许就是人工智能未来发展的一个重要启示:效率、创新和可及性,比单纯的规模更有价值。

Q&A

Q1:Apriel-1.5-15B-Thinker与其他大模型相比有什么优势?

A:Apriel-1.5-15B-Thinker最大的优势是用15亿参数实现了与千亿参数模型相当的性能,在人工智能评测中获得52分,与DeepSeek-R1-0528持平。它可以在单个GPU上运行,大大降低了部署成本,让资源有限的组织也能使用接近前沿水平的AI技术。

Q2:ServiceNow团队是如何让小模型达到大模型性能的?

A:研究团队采用了三阶段精心设计的训练策略:首先通过深度扩展增加模型层数而非参数量,然后进行分阶段持续预训练,最后使用高质量数据进行监督精调。关键在于数据质量优于数量,以及针对特定能力的合成数据生成,就像精心设计烹饪流程而非简单增加食材。

Q3:这个模型在哪些任务上表现最好,有什么局限性?

A:模型在数学推理(AIME2025达87%)、指令跟随和文档理解任务上表现优异,特别是在结合文本和视觉信息的任务中表现突出。但在纯视觉推理任务上相对较弱,比如MMMU-PRO视觉部分只有48.21%,说明在完全依赖视觉信息的复杂推理方面还有提升空间。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-