
这项由加州大学圣克鲁兹分校的Kyle Montgomery、Yuqi Chen和Chenguang Wang,以及加州大学伯克利分校的Sijun Tan、Siyuan Zhuang、Tianjun Zhang和Raluca Ada Popa共同完成的研究,发表于2025年10月的arXiv预印本(编号:arXiv:2510.14913v1)。
在AI快速发展的今天,让人工智能系统变得更聪明的方法通常只有一种:烧钱。就像养育孩子一样,想要AI在数学、编程这些复杂任务上表现得更好,传统做法就是投入更多计算资源,训练更大的模型,或者在推理时让AI多思考几遍。这种"用算力砸出智能"的策略确实有效,但代价高昂,就像让一群专家开会讨论每道题一样。
然而,研究团队发现了一个令人意外的现象:当你的预算有限时,雇佣一个"快速判断员"可能比请一群"深度思考专家"更明智。这就是他们提出的"判别式验证"方法的核心思想。
一、AI推理中的计算经济学困境
当前AI系统解决复杂问题的主流方法叫做"测试时扩展",可以把它想象成考试策略。传统方法是让学生(AI)针对同一道题写出多个答案,然后要么简单投票选最频繁的答案,要么请一位资深老师(生成式验证器)仔细阅读每个答案并写出详细评语来判断对错。
这种"资深老师"方法虽然准确,但成本极高。每次验证一个答案,这位老师都要写出一长篇分析报告,解释为什么这个答案对或错。这个过程消耗的计算资源甚至可能超过学生写答案本身的成本。研究发现,如果考虑到验证成本,这种方法需要8倍的计算资源才能达到简单投票法的效果,而即使给它128倍的预算,提升也很有限。
问题的根源在于一个残酷的现实:无论验证器多么强大,如果学生的所有答案都是错的,再好的老师也无法从中挑出正确答案。这就像在一堆烂苹果中找好苹果一样不可能。而且,简单的投票法已经相当有效,要想超越它,验证器必须既能在大多数人正确时认同多数,又能在大多数人错误时识破真相,这是一个极其苛刻的要求。
二、"快速判断员"的智慧:判别式验证
面对这个困境,研究团队提出了一个精妙的替代方案:用"快速判断员"代替"资深老师"。这个判断员不会写长篇分析,而是快速给每个答案打个分数,就像给试卷打分一样简单直接。这种方法叫做判别式验证。
判别式验证的最大优势是速度。它只需要进行一次"前向传播"(可以理解为快速浏览一遍),就能给出评分,避免了生成长篇文字的昂贵过程。在实际测试中,验证32个数学解答只需要1.66秒,仅占生成这些解答时间的0.1%。相比之下,生成式验证需要3423.7秒,是生成时间的两倍多。
然而,判别式验证器也有弱点:当候选答案很多时,它容易被那些看起来很有信心但实际错误的答案误导。这就像一个快速判断员可能被表面功夫迷惑一样。为了解决这个问题,研究团队开发了两种"混合策略"。
三、混合策略的智慧结合
第一种策略叫做"加权自洽性"。传统投票是简单计数,但这种方法会考虑验证器的评分。如果某个答案不仅出现频繁,而且验证器也给了高分,那它就更可能被选中。这就像既考虑观众投票又考虑专业评委打分的选秀节目。
第二种策略叫做"悲观验证",这个名字听起来有点消极,但实际上很聪明。它会对那些只有少数支持者的答案进行"惩罚",减少选择孤立答案的机会。具体做法是计算每个答案的平均验证分数,然后根据支持人数给予不同程度的惩罚。支持者越少,惩罚越重。这种方法的逻辑是:如果一个答案连基本的支持都得不到,那即使验证器给了高分,也要谨慎对待。
研究团队发现了一个有趣的平衡点:当惩罚系数设为0.5时效果最佳。这意味着对少数答案既不能过度怀疑,也不能完全无视其孤立性。
四、训练判别式验证器的秘诀
为了训练这个"快速判断员",研究团队采用了一种叫做"Bradley-Terry排序"的方法。简单来说,就是让AI学会比较:给它看大量正确和错误的数学解答,训练它学会给正确答案打高分,给错误答案打低分。
他们从各种数学竞赛和考试中收集了32000个问题,然后用10个不同的AI模型来解答,产生了大量正确和错误的解答样本。有趣的是,他们发现去掉AI的"思考过程"(那些被<think>标签包围的推理内容),只保留最终答案,反而能让验证器表现更好。这就像考试时只看答案不看解题过程一样,有时候过多的信息反而会造成干扰。
训练过程中,他们使用了一个巧妙的损失函数,不仅要求正确答案得高分,还加入了正则化项防止评分过于极端。这就像训练一个既不过分严厉也不过分宽松的评委。
五、令人印象深刻的实验结果
在AIME2025这个权威数学竞赛数据集上的测试结果让人眼前一亮。在相同的计算预算下,混合判别式验证方法比最先进的生成式验证方法准确率高出15.3%。这不是一个小幅提升,而是一个显著的飞跃。
更具体地说,当使用32个候选答案时,悲观验证方法在AIME2025上的准确率达到69.1%,比简单的自洽性方法高出2.5%,比单纯的最佳选择法高出8.3%。令人惊讶的是,即使在生物、物理、化学等跨领域的GPQA数据集上,这种方法依然有效,比自洽性方法高出2.1%。
从计算效率角度看,结果更加令人震撼。在实际的GPU测试中,验证32个解答用判别式方法只需1.66秒,而生成式方法需要3423.7秒,差距超过2000倍。这意味着在相同时间内,判别式方法可以处理数千倍的问题。
六、扩展性与适用性分析
研究团队还测试了这种方法在不同规模模型上的表现。他们使用了从15亿到320亿参数的不同大小的AI模型,发现无论模型大小如何,混合判别式验证都能保持相对于简单投票的优势。这就像一个好的评判标准,无论选手水平高低都能发挥作用。
在推理时间扩展实验中,他们发现即使限制AI的思考时间(从0到16384个词汇单位),混合方法依然能保持优势。这证明了这种方法的鲁棒性,不会因为外部条件变化而失效。
研究还深入分析了计算成本。他们发现,在现实的计算预算限制下(比如22.5分钟的推理时间),判别式验证几乎总是更优选择。只有当预算极其充裕时,生成式验证才开始显示优势,但这种情况在实际应用中很少见。
七、方法论的深层智慧
这项研究的深层智慧在于重新思考了"验证"的本质。传统观念认为,更复杂、更详细的验证一定更好,就像认为写得越长的评语越有价值。但这个研究证明,在资源受限的现实世界中,简单高效的判断往往更实用。
判别式验证的成功还揭示了一个重要原理:在AI系统中,把大部分计算资源用于生成更多候选解答,而不是过度验证少数解答,通常能获得更好的整体效果。这就像在有限时间内,让学生多做几道题比在一道题上花费过多时间更有效。
混合策略的设计体现了"协同智能"的思想:既不完全依赖数量(投票),也不完全依赖质量评分(验证器),而是巧妙地结合两者的优势。这种平衡艺术在许多现实决策场景中都有借鉴价值。
八、实际应用前景与影响
这项研究的实际影响远超学术范围。在商业AI应用中,计算成本直接关系到服务价格和普及程度。一个能在相同成本下提供更好性能的方法,意味着AI服务可以更便宜、更快速地服务更多用户。
在教育领域,这种技术可以让AI辅导系统更高效地验证学生答案,提供即时反馈。在科研领域,研究人员可以用更少的计算资源处理更多问题,加速发现过程。
更重要的是,这种"预算感知"的设计理念为AI发展指出了一个现实可行的方向。不是所有改进都需要无限的计算资源,聪明的算法设计往往能用更少的资源达到更好的效果。
说到底,这项研究最大的价值不在于发明了一个全新的技术,而在于重新定义了"效率"在AI系统中的含义。它告诉我们,在追求AI性能的道路上,有时候快速而巧妙的方法比昂贵而复杂的方案更值得追求。这种"以小搏大"的智慧,正是当前AI发展所需要的务实精神。对于那些希望在有限预算下获得最佳AI性能的开发者和研究者来说,这项研究提供了一个极具价值的参考范例,证明了技术创新的真正价值不在于炫耀复杂性,而在于解决实际问题。
Q&A
Q1:什么是判别式验证,它和传统的生成式验证有什么区别?
A:判别式验证就像一个快速打分员,只给每个答案打个分数,而不写详细评语。传统的生成式验证像资深老师,要为每个答案写长篇分析报告。判别式验证速度快、成本低,验证32个答案只需1.66秒,而生成式验证需要3423.7秒,成本差距超过2000倍。
Q2:为什么混合判别式验证方法效果更好?
A:因为它结合了投票和评分的双重优势。单纯的投票可能选中错误但流行的答案,单纯的评分可能被表面功夫迷惑。混合方法既考虑答案的支持度,又考虑验证器的评分,还会对孤立答案进行适当惩罚,这样能更准确地识别真正正确的答案。
Q3:这种方法在实际应用中能节省多少成本?
A:在相同计算预算下,这种方法比最先进的生成式验证准确率高出15.3%,而计算开销仅增加2%。这意味着你可以用几乎相同的成本获得显著更好的性能,或者用更少的成本达到相同的效果。对于商业AI应用来说,这种效率提升直接转化为成本节约和服务质量提升。
好文章,需要你的鼓励
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。
英国国王学院研究团队开发了潜在精炼解码(LRD)技术,解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程:先让AI在连续空间中"深思熟虑",保持多种可能性的混合状态,然后"果断行动",逐步确定答案。实验显示,LRD在编程和数学推理任务中准确性提升最高6.3个百分点,生成速度提升最高10.6倍,为AI并行文本生成开辟了新路径。
清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法,巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中,让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法,特别是在处理模型知识盲区时表现突出,同时有效避免了灾难性遗忘问题,为AI训练提供了更高效稳定的新范式。