
这项由IBM研究院与南卡罗来纳大学人工智能研究所联合开展的研究,以预印本形式发布于2026年5月12日,论文编号为arXiv:2605.18827,有兴趣深入了解的读者可通过该编号查询完整论文。
**研究概要:一个关于"考试辅助"的大胆实验**
考虑这样一个场景:你是一名基础知识有限的学生,面对一份选择题试卷。如果让你独立作答,正确率可能只有三四成。但如果有一位经验丰富的助教,提前为每道题专门设计了一套解题框架——告诉你该从哪些角度分析、用什么步骤推导、做完之后再用什么方法验证——你的得分会不会大幅提升?
这正是IBM与南卡罗来纳大学研究团队做的事情,只不过"学生"换成了小型语言模型(Small Language Models,简称SLM),"助教"变成了一段由强大AI生成的Python程序。这套被命名为"代码引导推理"(Code-Guided Reasoning,CGR)的方法,是一套专门用来测量这种"辅助效果"的评测框架。
研究结果出人意料地显著:在核心对比组中,有了这套代码辅助脚手架之后,小模型的答题准确率从38.11%跃升至66.21%,整整提高了28.10个百分点。这不是某一道题偶然答对的运气,而是横跨九个不同知识领域、六种不同小模型的系统性观察结果,数据来自超过两万条有效记录。
当然,研究团队非常诚实地指出,这个数字背后有很多需要交代清楚的条件——辅助路径消耗了约七倍于直接回答的计算资源,答案提取机制并不完美,有一个数据集甚至出现了准确率下降的"倒退"现象。正因如此,这篇论文的价值不仅仅在于那个亮眼的数字,更在于它提供了一套完整的"检查清单",让后来的研究者能够看清每一个数字背后的来龙去脉。
---
**一、为什么直接让AI回答选择题,其实是一种"裸考"**
日常生活中,当我们评价一个学生的能力时,通常有两种方式。一种是把他单独关在考场里,不给任何工具,直接看他能答对多少题。另一种是给他计算器、参考书、草稿纸,甚至允许他把大题拆成小步骤逐一推导,然后再看他的最终成绩。显然,这两种场景测出来的东西是不一样的。
然而,当研究人员评测AI语言模型时,长期以来默认采用的都是第一种方式:给模型一道选择题,要求它直接输出A、B、C或D中的某个字母,然后对答案,完事。这种"裸考"模式在大型模型时代或许勉强够用——那些千亿参数的巨型模型本身就储存了海量知识,直接回答往往还不错。
但现实中,越来越多的AI应用场景并不是让单个模型孤立地回答问题。工程师们早就开始构建更复杂的系统:一个控制程序把问题拆解成若干步骤,调用模型多次,汇总结果,排除矛盾,最终给出答案。这种有外部"脚手架"支撑的工作方式,才是小型模型在实际部署中真正的样子。
小型模型之所以被广泛使用,原因很实际:它们更便宜、可以在本地运行、对数据隐私友好、延迟低。但它们的知识储量和推理能力通常不如大模型,在裸考状态下表现有限。CGR框架的核心问题就是:如果给这些小模型配备一套精心设计的代码脚手架,它们的表现会发生什么变化?
---
**二、"助教"是怎样工作的:三条答题通道的设计**
CGR框架的运作方式,可以用一个学校考试的比喻来理解。有一位经验丰富的"出题助教"(在实验中是一个强大的大型AI,被称为生成模型),还有一名"应试学生"(被评测的小型模型,被称为求解模型)。
整个过程分两条并行的路径推进。第一条路径是"裸考":直接把选择题丢给小模型,要求它输出一个选项字母,这就是直接基线答案。第二条路径是"辅助考试":先让助教AI针对这道题专门写一段Python程序,这段程序相当于一份定制化的解题指南——它可以把题目拆成几个角度分别分析,把每个角度的问题依次发给小模型,收集小模型的回答,比对是否一致,如果不一致再发一道"决胜题"来打平分,最后汇总出一个最终答案。这就是辅助路径答案。
第三个通道有些特殊:助教AI在写这段程序的时候,自己也在心里预判了一个答案,这个答案被保存在程序里作为"生成模型侧答案"。这个通道存在的意义是诊断性的——如果辅助路径的准确率很高,研究人员需要分辨这究竟是因为小模型真的被帮助了,还是因为助教AI自己的答案"泄露"进了程序。
这三条通道必须分开记录、分开计分,绝不能混为一谈。把它们混在一起看,就像把老师自己的答案和学生通过辅助答出来的答案算在一起,那就什么都说明不了了。
从工程层面来说,每段Python程序都有一个固定的"返回合同":必须返回三个值——求解模型选的答案、生成模型预判的答案、生成模型估计的题目难度。程序里可以调用两个工具函数:一个是调用小模型的接口,另一个是从模型回复中提取选项字母的提取器(它的规则很简单:找第一个独立出现的大写字母A到Z,找不到就返回X表示提取失败)。
---
**三、九个考场、六位"学生":实验的规模和覆盖范围**
为了让这套评测框架的结论足够可信,研究团队为它配备了相当丰富的考题库。他们把九个来源各异的选择题数据集汇编成一个标准化题库,总共保留了超过两万条有效结果记录。
这九个数据集覆盖的领域差异显著。MMLU-Pro包含500道需要深度推理的多领域学术选择题,难度远高于普通常识问答。OpenBookQA收录了500道小学科学类问题,考察的是将基本知识灵活应用于新场景的能力。SuperGPQA的500道题横跨285个研究生级别学科,从神经科学到材料工程无所不包。MedQA的500道题来自医学执照考试,需要在复杂临床场景中做出鉴别诊断。PhysicsQA则收录了45道物理学题,这批题来自一项专门研究如何帮助大模型改善物理推理的项目。
Time-MQA是一个特别的数据集,它把时间序列分析——也就是分析随时间变化的数据趋势——包装成了自然语言选择题的形式,500道题考察的是对时序数据模式的理解。CorrectBenchQA的494道题来自一项研究AI自我纠错能力的基准测试。FailureSensorIQ的500道题聚焦工业4.0场景,考察对传感器关系和设备故障模式的推理能力——研究团队特别提醒,这个数据集里的知识高度专业且容错率极低,AI给出的任何答案都不能直接用于实际工业诊断,必须经过专家验证。AIME则收录了2025年美国邀请数学考试的30道竞赛题,题目本身受版权保护,论文中没有复现题目原文。
担任"应试学生"角色的六个小模型,分属不同的模型家族和参数规模,涵盖了来自IBM的Granite系列(包括针对代码优化的Granite 8B Code和更小的Granite 4H Small)、Meta的Llama 3.2 11B、Mistral的Small 3.1 24B,以及更新一批的Google Gemma 4 E2B和英伟达的Nemotron-3-Nano-4B。这六个模型并非按照参数量对齐的严格对比组,而是代表了实际工程应用中会被选用的不同类型小模型。所有模型都以温度值0.0运行以尽量保证结果可复现,求解模型的回复上限为2000个词元,而生成助教程序的强大模型的上限则高达8192个词元。
---
**四、核心数据:那28个百分点背后的完整故事**
当所有结果汇总之后,研究团队得到了三张截然不同的"成绩单"。
第一张是对所有两万多条记录不加区分地统计:小模型直接回答的微平均准确率是23.27%,辅助路径的准确率是62.41%,而助教AI自己预判的准确率是79.19%。三者之间相差悬殊,辅助路径比直接回答提高了约39个百分点。
但这张成绩单掺杂了一个难以解释的情况:有些小模型在某些数据集上,不管题目怎么出,直接回答全部错误,准确率为零。这种情况下,如果辅助路径突然答对了很多题,我们根本无法判断这是代码脚手架真正帮助了模型推理,还是模型连基本题意都没理解,辅助路径只是碰巧从格式混乱的回复中提取出了正确字母。这就好比一个学生考试交了白卷,但老师改卷时发现草稿纸上的涂鸦恰好写对了答案,你该怎么算这道题的分数?
因此,第二张成绩单才是研究的"主角":把那些"直接回答完全为零分"的数据集-模型组合剔除出去,只保留至少有一道题答对了的组合,再对每个数据集-模型配对计算宏平均准确率(也就是给每个配对相同的权重,不让题目多的数据集把结果拉偏)。在这个口径下,直接回答的宏平均准确率是38.11%,辅助路径是66.21%,差值是28.10个百分点。
研究团队还设置了一个更严格的门槛:只保留直接回答准确率超过30%的配对——也就是说,模型在裸考状态下已经能答对至少三成题目,具备一定直接能力的情况下,辅助路径还能进一步提升多少?答案是14.11个百分点。这个数字比28.10小了一半,但依然正向,说明辅助效果并不只是在模型完全抓瞎的时候才出现。
这两个数字放在一起,传递了一个关键信号:那28个百分点的提升,一部分来自帮助原本就有一点能力的模型"把能力发挥出来",另一部分则更难区分清楚,可能混入了纯粹因为调用次数更多、格式处理更好而带来的收益。研究团队用对数据集-模型配对进行自举法重采样的方式估计了不确定性,得到了[20.32, 36.43]这个95%置信区间——换句话说,这28.10这个点估计,在合理的统计波动范围内是可信的,但绝不是精确到小数点的定论。
第三张成绩单是"零分诊断组":那些直接回答全部错误的配对,辅助路径的宏平均准确率达到了62.19%。这组数据单独列出作为诊断参考,不纳入主要结论。
---
**五、助教程序是如何工作的:以一道"雾天选择题"为例**
论文中有一个具体到代码层面的例子,非常清楚地说明了辅助路径和直接路径的区别。
题目是OpenBookQA中的一道题:"下面哪个地方最有可能出现雾?A.沼泽地,B.冻土带,C.平原,D.沙漠。"正确答案是A。
当Granite 4H Small小模型直接面对这道题时,它回答了"E"——这个字母根本不在选项范围内,直接算作错误。
而辅助路径是这样工作的:助教AI生成了一段Python代码,代码里先从物理学角度定义了雾的形成机制(近地面空气冷却到露点温度),然后分别从四个维度对比了沼泽、冻土带、平原和沙漠的特征:水分可用性如何、冷却机制是什么、风速怎样、露点温差有多大。程序把这些分析包装成一道"分析题"提示词,发给小模型,得到一个回答,再把这个回答包装成一道"验证题"提示词,再次发给小模型,得到第二个回答,提取两次回答的选项字母。如果两次一致,就取那个字母;如果不一致,再发一道"决胜题",取第三次回答作为最终答案。在这个具体例子中,两次回答都是A,直接取A,答对了。与此同时,助教AI在程序里自己也留了一个答案:A,也是对的。
这段代码的结构简化版大致如下:先调用模型做分析,提取字母;再调用模型做验证,提取字母;如果两个字母相同,就把它作为最终的求解模型答案;如果不同,再调用模型做一次决胜判断;最后程序固定返回求解模型答案、助教AI预判答案以及难度估计这三个值。
---
**六、有人进步,有人退步:结果的差异性远比平均值更有意思**
28.10个百分点是所有数据对的平均,但如果把每个数据集-模型配对单独列出来,会看到一幅更复杂的图景。
提升最大的几个案例令人印象深刻。MedQA医学题组里,Llama 3.2 11B在直接回答时准确率只有1.20%,辅助路径下飙升到84.57%,提升了83.37个百分点。同样是MedQA,Mistral Small 3.1 24B从3.38%跃升到78.22%,提升了74.84个百分点。在AIME数学竞赛题组里,Mistral Small 3.1 24B从3.33%升至83.33%,提升了80个百分点。这些数字看起来惊人,但研究团队提醒要谨慎解读:直接准确率只有个位数,意味着小模型在裸考状态下基本上不具备这个领域的有效知识,辅助路径的大幅提升有相当部分可能来自助教AI自身知识的渗透,而非小模型推理能力的真正释放。
Gemma 4 E2B在MedQA上的情况则更有力:它的直接准确率是52.91%,已经不低了,辅助路径进一步升至91.58%,提升了38.68个百分点。Nemotron-3-Nano-4B在MMLU-Pro上从64.13%升至86.77%,提升22.65个百分点。这两组数据更能说明辅助脚手架在模型本身已有一定能力的基础上仍然能带来显著改善。
然而Time-MQA时序问答数据集里出现了令人不安的相反案例。在这个数据集上,直接准确率越强的模型,辅助路径反而表现越差。Gemma 4 E2B的直接准确率是61.65%,辅助路径下降到56.22%,下滑了5.42个百分点。Granite 8B Code从31.70%跌到29.24%,下滑2.45个百分点。Nemotron-3-Nano-4B从62.25%小降到61.04%。反倒是原来直接准确率只有个位数的几个弱模型,在辅助路径下有了较明显的提升。
研究团队对这个现象提出了一个合理但未经严格验证的解释:对于时序数据判断题,直接看数字趋势可能是更高效的路径,而把题目拆解成多个语言化的子问题、通过文字分析得出结论的做法,反而可能把本来清晰的数字信号打散,引入了更多干扰。这就好比一个熟练的厨师在凭直觉判断火候的时候,如果强迫他按照复杂的分析清单逐项检查,反而可能让他手忙脚乱。
实验中所有出现辅助路径比直接路径差的数据集-模型配对,全部来自Time-MQA,这个规律性非常强,成为了整套实验最重要的边界案例。
---
**七、三个数字为何不能混为一谈:答题通道的"不可交换性"**
研究团队花了相当篇幅解释一个看似简单实则微妙的问题:直接路径准确率、辅助路径准确率和助教AI预判准确率这三个数字,不是同一件事的三种描述,它们在逻辑上不可互换。
在所有两万多条记录中,有75.50%的情况下辅助路径答案和助教AI预判答案是相同的,这意味着约四分之一的时候两者是不同的。更重要的是,有3,688条记录(占17.99%)出现了助教AI猜对但小模型辅助路径答错的情况,而仅有249条记录(占1.21%)出现了小模型辅助路径答对但助教AI猜错的情况。
这组数据揭示了一个关键事实:助教AI在绝大多数情况下比小模型更可靠,但它的答案是通过生成代码这个间接方式"记录"在程序里的,而不是直接传递给小模型的。小模型得到的只有脚手架程序安排的一系列提示词,而不是助教AI的直接答案。如果把辅助路径准确率和助教AI预判准确率混在一起当成小模型的成绩,那就相当于把学生靠辅助工具答对的题和老师自己答对的题都算在学生头上,这显然不对。
因此,辅助路径准确率测量的是:在有一套专门设计的解题程序辅助的情况下,小模型自己选出的答案有多少是正确的。这个数字依然受到多种因素的影响,包括脚手架程序的质量、小模型响应提示的能力,以及答案提取机制是否可靠。
---
**八、那些被记录在案的"瑕疵":研究的透明度令人注目**
这项研究有一个值得称道的特点:研究团队没有只展示好看的数字,而是系统性地记录了实验中所有已知的问题和局限。
最直接的问题是计算成本的不对等。辅助路径平均每道题调用小模型7.18次,最多的一道题调用了90次,而直接路径平均只调用1.01次。辅助路径消耗的词元总量约为1.48亿,直接路径约为2012万,前者是后者的7.36倍。这意味着如果要公平比较,应该考虑在相同计算预算下,多次直接回答+取多数答案(自洽投票)的方法能达到什么准确率。这个对照实验没有在当前研究中进行,是一个明确的缺口。
答案提取机制也有明显缺陷。辅助路径的提取失败率(返回X表示没找到合法字母)达到15.67%,而直接路径只有0.44%。当程序无法从小模型的回复中提取出明确的选项字母时,就只能记录失败。这在零分诊断组(17.92%的失败率)中尤为突出——那些完全不会直接回答的模型,在辅助路径中也更容易给出格式混乱的回复。
生成的Python程序并非总是遵守"不许写死答案"的规定。静态扫描发现3569个生成程序文件中有43个包含类似`solverLLM_answer = "A"`这样的直接赋值语句,这些语句绕过了真正调用小模型的环节,让脚手架程序直接把助教AI预判的答案当成了求解模型的答案。这43个文件对应251条结果记录。不过研究团队计算了把这251条记录剔除之后的差值,结论是提升幅度几乎没有变化(从+28.10变为+28.11),说明这个问题对整体结论的影响极小,但它的存在本身就是一个需要在未来版本中解决的合规问题。
此外,助教程序的"不超过10次调用"限制只是提示词里写的要求,Python运行时并不强制执行,加上笔记本环境允许对无效输出重试最多3次,实际上调用次数完全可能超标。90次这个最大值就是在这种情况下发生的。
最后,整套实验只保留了每道题的单次运行结果,没有做重复生成的不确定性估计。如果对同一道题重新生成程序、重新执行,结果可能有所不同,但这种变异性没有被量化。
---
**九、难度越高,辅助效果反而更稳定?一个有趣的内部诊断**
助教AI在写程序的同时,还会为每道题打一个1到9的"难度分"。虽然这个难度分是AI自己估计的,并非题目本身经过权威认定的难度等级,但它提供了一个有趣的内部视角。
随着难度分从1升到9,直接回答准确率从38.69%一路下滑到12.84%,这与直觉完全吻合——越难的题,小模型裸考越差。然而辅助路径准确率在整个难度范围内基本保持在50%以上,没有随着难度升高而成比例下滑。在难度为7、8、9的极高难题上,辅助路径准确率甚至略有回升,在58%到60%左右。
这个模式暗示,对于小模型来说,辅助脚手架在高难度题上的相对贡献可能更大——毕竟在容易的题上小模型自己也能答对,脚手架的边际贡献有限;而在极难的题上,直接路径几乎无能为力,脚手架至少还能把问题结构化地拆解开来,给模型提供更有针对性的提示。
---
**十、"我只能到这里":研究的边界和它留下的问题**
研究团队在论文结尾非常坦率地列举了当前结论无法支持的说法。这套框架无法证明辅助方式和直接方式是等成本的竞争者,因为辅助路径明显消耗更多资源。无法证明这种提升是普遍适用的,因为Time-MQA就出现了退步。无法证明这种方法在医疗或工业安全场景中是可靠的,因为基准测试结果和真实部署安全性是完全不同的事情。也无法从纯粹的Python代码结构中分离出"是代码的控制流带来了改善"还是"只是多调用了几次模型就改善了",因为缺乏匹配计算成本的直接自洽投票对照组。
研究团队提出了未来版本需要解决的几个关键问题:需要能够感知选项集合的更智能答案提取器(而不是简单取第一个大写字母);需要运行时强制执行的调用次数上限;需要真正沙盒隔离的执行环境;需要对每道题生成多个程序并观察结果波动;需要在相同计算预算下的直接自洽投票对照组。
把这些改进全部做到之后,CGR框架才能从一套"观察性的审计工具"升级为一套"可控的基准测试"。
---
说到底,这项研究做的事情可以用一句话来概括:它精心设计了一套测量工具,用来观察同一个小模型在两种不同工作模式下的表现差异,并且把观察过程中所有值得怀疑的地方都公开记录了出来。那个28个百分点的提升是真实的,但它是在特定的测量条件下、特定的模型和题目组合上观察到的,有七倍的计算成本差异,有15%以上的答案提取失败率,有一个数据集持续出现退步,还有极少数程序里藏着"写好答案"的小把戏。
归根结底,这套框架的价值不在于它证明了"给AI加代码脚手架总是更好",而在于它提供了一种让我们能够有条有据地讨论这个问题的工具——什么时候有效、有多有效、背后是什么原因、哪些情况下会适得其反。对于正在思考如何在实际工程系统中部署小语言模型的人来说,这些细节比一个漂亮的平均数字要有用得多。
有兴趣深入研究这套框架的读者,可以通过arXiv编号2605.18827查阅完整论文,其中包含了所有实验数据、生成程序样例、完整的审计记录和分区定义。
---
Q&A
Q1:代码引导推理(CGR)框架和普通的提示词工程有什么本质区别?
A:普通提示词工程是改变给模型的问法,模型还是只调用一次、输出一个答案。CGR框架则是让一个强大的AI预先为每道题写一段Python程序,这个程序可以把问题拆成多个步骤,多次调用小模型,对比不同步骤的回答,最终汇总出一个答案。本质区别在于CGR引入了可执行的代码作为"中间层",让小模型不再是在孤立地回答一个问题,而是在一套精心设计的流程里逐步作答。
Q2:Time-MQA时序问答数据集为什么在辅助路径下反而准确率下降?
A:研究团队观察到,在时序问答中,直接准确率已经较强的模型(如Gemma 4 E2B的61.65%和Nemotron-3-Nano-4B的62.25%),辅助路径后准确率分别下降了约5和1个百分点。一个可能的解释是:时序分析本质上需要直接感知数字趋势,而将题目拆解成多个语言化子问题的做法反而打散了这种直觉判断,引入了额外干扰。不过研究团队明确表示这只是合理推测,需要专门的消融实验来验证。
Q3:CGR框架的结论能直接用来指导在医疗或工业场景部署AI模型吗?
A:不能直接套用。研究团队明确指出,MedQA和FailureSensorIQ上的高准确率是基准测试结果,不代表在真实临床或工业环境中的可靠性。医疗诊断和工业故障分析都是高风险领域,AI生成的推理链可能产生看起来合理但实际上错误的解释。CGR的结论只能说明这套框架在标准化测试题上的表现,任何实际部署都需要经过领域专家的独立验证。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。