微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

思考还是不思考？为视觉-语言模型打造通过强化学习的选择性推理

人工智能强化学习选择性推理

思考还是不思考？为视觉-语言模型打造通过强化学习的选择性推理

作者：科技行者

2025-05-28 07:48

分享至：

这项由香港中文大学和新加坡国立大学研究者合作开发的"思考或不思考"（TON）框架，通过创新的"思考丢弃"策略和两阶段训练方法，实现了让视觉-语言模型能够像人类一样根据问题难度选择性推理的能力。实验表明，TON可减少高达90%的输出长度，同时保持或提升性能，在计数、数学和导航等多种任务中展现出显著优势，为AI系统在保持推理质量的同时大幅提升效率提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-28 07:48 • 科技行者

在我们日常生活中，面对不同难度的问题，我们会灵活调整思考方式：简单问题一眼就能给出答案，复杂问题则需要认真思考每一步。但当前的人工智能模型却不太会这样"见机行事"，它们往往对所有问题都进行详尽推理，就像一个无论面对"1+1=?"还是复杂数学题都要拿出演算纸的学生。这种"想得太多"的做法虽然安全，却极其浪费计算资源。

近日，来自香港中文大学的王佳琦和新加坡国立大学Show实验室的林庆宏、郑锦辉以及邹铮生等研究者发表了一篇题为《思考还是不思考？为视觉-语言模型打造通过强化学习的选择性推理》的研究论文，提出了一种名为TON（Think-or-Not，思考或不思考）的训练策略，让AI模型能够像人类一样，根据问题难度自动决定何时需要详细推理，何时可以直接作答。该研究在预印本平台arXiv上发布于2024年5月22日，论文编号为arXiv:2505.16854v1。

想象一下，在学校里，当老师问"2+3=?"时，你可能立刻回答"5"；但面对"在三角形ABC中，若已知两个角为30°和45°，求第三个角的度数"时，你可能需要暂停一下，推理出三角形内角和为180°，然后计算180°-30°-45°=105°。人类自然地会根据问题难度调整思考模式，而研究团队希望AI也能学会这种灵活性。

以往的视觉-语言模型（VLM）在接受强化学习训练时，往往被教导对每个问题都生成完整的推理过程。特别是一种名为GRPO（Group Relative Policy Optimization，群组相对策略优化）的方法，虽然提高了模型的推理能力，但也导致了不必要的长篇推理和计算资源浪费。研究团队发现，在AITZ（一个手机界面导航任务数据集）上，有51%的问题即使完全跳过推理过程也能得到正确答案！这意味着大量的"思考"其实是可以省略的。

针对这一问题，研究团队提出了TON训练策略，包含两个阶段：首先是一个监督微调阶段，使用了一个简单而有效的"思考丢弃"（thought dropout）操作，随机将推理过程替换为空白；然后是GRPO阶段，让模型自由探索何时应该思考、何时可以直接回答，同时最大化任务相关的奖励。

实验结果令人惊喜：TON方法可以减少高达90%的输出长度，同时保持甚至提高了性能。研究团队在多种视觉-语言任务上进行了评估，包括计数任务（CLEVR和SuperCLEVR）、移动代理导航（AITZ）和数学推理（GeoQA），覆盖了从简单到复杂的各种推理难度。结果显示，随着训练的进行，模型逐渐学会了跳过不必要的推理步骤，像人类一样变得更加高效。

让我们深入了解这项研究如何教会AI"三思而后行"，或者更准确地说——"要不要思考，这是个问题"。

一、为什么我们需要"选择性思考"的AI？

强化学习已经成为提升视觉-语言模型推理能力的主流策略，特别是在监督微调（SFT）之后。想象一下，监督微调就像给学生提供标准答案和解题步骤让他们模仿学习，而强化学习则像是让学生自己尝试解题，然后根据结果给予奖励或惩罚，引导他们找到更好的解题方法。

在众多强化学习方法中，GRPO表现尤为突出。它通过基于规则驱动的奖励和KL散度损失来增强模型的推理能力。然而，这种方法有一个明显的缺点：它鼓励模型对每个问题都生成完整的推理过程，就像要求一个学生无论面对"1+1=?"还是"微积分难题"都必须写出详细的解题步骤。这导致了不必要的长篇输出和计算资源浪费。

为了解决这个问题，一些研究者尝试通过在预训练阶段引入基于规则的奖励惩罚或外部控制机制来缩短推理链。但这些方法往往比较复杂或不够自然。研究团队认为，一个更自然的解决方案是让模型自己决定何时需要思考——就像人类在面对不同难度的问题时会自然地调整认知努力一样。

研究团队首先通过实验证明，思考并非总是必要的。在AITZ数据集上，他们发现有51%的问题即使完全省略推理过程也能得到正确答案，这意味着可以节省大量的思考令牌（token）。这个发现凸显了选择性推理策略在提高效率方面的巨大潜力。

其次，通过探索一种简单的提示策略——允许模型在较简单的问题上跳过推理步骤——研究团队观察到，即使是经过数学增强的视觉-语言模型也难以自适应地省略冗余的思考生成。相反，它们倾向于采取保守策略，无论任务难度如何都生成完整的推理过程。这表明，"思考或不思考"的能力并不仅仅取决于推理能力，而应该被视为一种需要通过监督微调阶段的格式遵循显式激活的独特技能。

二、TON：教会AI知道何时该思考

受上述观察的启发，研究团队提出了TON（Think-or-Not），这是一个两阶段训练框架，包含一个简单而有效的"思考丢弃"方法。

### 第一阶段：监督微调中的思考丢弃

在初始阶段，模型通常会在"思考-回答"格式的数据上进行微调，其中"思考"部分包含高质量的推理过程，作为冷启动。要将这种预定义的推理能力扩展到选择性推理，研究团队将"思考"与"不思考"视为输出格式本身的一部分，通过在训练过程中丢弃"思考"组件来实现。

由于很难确定哪些样本应该被跳过（因为不同的模型表现出不同的推理能力），研究团队从随机丢弃开始，然后让模型在第二个强化学习阶段自行决定。他们提出的"思考丢弃"操作只需要少量代码更改，就可以随机注入空"思考"段落：

``` def thought_dropout(thought, dropout_prob): if random.random() < dropout_prob: thought = "\n\n" return thought ```

这种方法在第二个强化学习阶段之前，将答案格式和跳过思考格式作为先验知识注入。

但高质量的"思考"数据从何而来呢？传统方法是依赖外部模型（如闭源API），但这并不理想。研究团队采用了一种反向思考策略：利用基础模型本身生成丰富的思考序列语料库。具体来说，给定视觉上下文、文本查询和正确答案，他们提示模型推导出相应的中间思考过程：

``` T ← πθ(V, Q, S*) ```

他们使用以下提示进行反向思考：

``` 基于以下问题和图像，生成一个思考过程来解释如何从输入中得出答案。图像：{图像} 问题：{问题} 答案：{答案} 不要输出答案，只生成推理过程。使用简洁的语言表述您的输出。 ```

这样，他们无需依赖外部模型就能获得足够的思考数据。这些数据作为冷启动训练语料库，使他们能够在监督微调过程中应用思考丢弃策略，激活模型跳过思考的能力。

### 第二阶段：群组相对策略优化

虽然监督微调教会了模型跳过思考的格式，但它仍然留下一个核心问题未解决：何时应该跳过思考，何时应该保留？理想情况下，模型应该自己学会探索这个决定。为此，研究团队采用了通过GRPO的强化学习来增强模型自主探索这一决策的能力。

给定图像v和文本查询q，GRPO从策略πθ中采样N个候选响应，变体为{o1, o2, ..., oN}，并使用奖励函数r(·)评估每个响应的质量。为了确定这些响应的相对质量，GRPO通过计算它们的均值和标准差来归一化奖励，并随后推导出优势：

``` Ai = (r(oi) - mean{r(o1), r(o2), ..., r(oN)}) / std{r(o1), r(o2), ..., r(oN)} ```

其中Ai表示候选响应oi相对于其他采样响应的优势。GRPO通过更新策略πθ来鼓励模型生成组内具有更高优势的响应。

与之前的工作（如DAPO）强调通过在稀疏奖励空间中动态采样来强调优势分布Ai不同，TON关注的是响应的潜在分布空间，从而增强了公式中α和β项的多样性。这一变化源于TON允许模型在推理步骤中选择"空思考"T\n\n，从而导致非思考响应（oi ~ T\n\n）和思考响应（oi ~ T）之间的分布有显著差异，这与仅生成思考响应（oi ~ T）的传统GRPO相比。

在设计奖励时，研究团队考虑了两种主要匹配类型：

1. 离散匹配：对于具有确定性、分类或数值输出的任务（如分类、计数或数学问题），使用二元值奖励rd(s, g) = 1(s = g)：如果预测答案s与标准答案g匹配，则rd = 1；否则，rd = 0。

2. 连续匹配：对于产生连续输出的任务（如UI导航或对象定位中的空间坐标），允许一个容错区域。例如，对于一个预测点p = [x, y]和一个标准边界框b = [x1, y1, x2, y2]，定义： - 如果p在b内，rc(p, b) = 1；否则，rc(p, b) = 0。 - 如果只有一个标准点p*可用，使用距离阈值θ：如果||p - p*||2 ≤ θ，则rc(p, p*) = 1；否则，rc(p, p*) = 0。

在实践中，研究团队将适用的组件相加形成一个结果奖励：ro = rd + rc。这个简单而灵活的方案可以覆盖分类、数值推理和定位任务。

三、实验：省思考、增性能的双赢结果

研究团队在多种视觉-语言任务上进行了广泛评估，涵盖计数（CLEVR、SuperCLEVR）、移动代理导航（AITZ）和数学推理（GeoQA），这些任务共同覆盖了推理难度的广泛范围和不同的任务设置。他们使用Qwen-2.5-VL系列作为基础模型，进行实验。

在CLEVR和GeoQA基准测试上，TON与普通GRPO相比表现如何？结果表明，TON可以显著减少平均完成长度（高达90%），同时保持甚至提高性能。在CLEVR上，TON将平均完成长度从227个标记减少到28个（减少87%），同时将准确率从93.5%提高到98.5%。在GeoQA上，TON将平均完成长度从272个标记减少到96个（减少65%），同时将准确率从37%提高到51%。

特别值得注意的是，在多步导航任务AITZ上，TON将平均任务级输出长度从3.6K减少到0.9K标记。更令人惊讶的是，省略推理过程不仅没有降低性能，反而在某些情况下提高了性能：在GeoQA上，TON的准确率比普通GRPO基线高出17%，展示了一种"免费午餐"效应，即更短的推理优于或匹配更长的轨迹。

研究团队还研究了TON在域外（OOD）场景中的泛化能力。在AITZ上，他们评估了模型在未见过的领域（如Google Apps、网络购物和安装）上的表现。结果显示，TON展示了与GRPO相当的OOD泛化性能，同时显著减少了任务级输出长度。这凸显了TON在不牺牲性能的情况下大幅减少完成长度的潜力。

此外，研究团队还分析了"思考丢弃率"在训练过程中的演变。他们观察到，随着训练奖励的提高，跳过思考的比例逐渐增加。这一现象表明，模型逐渐内化了推理过程，学会了选择性地绕过不必要的推理步骤，以适应性方式。

研究团队还探索了不同思考丢弃概率（20%、50%和80%）对训练过程的影响。虽然丢弃概率不同，但TON始终表现出随着训练进行而增加跳过率的趋势。值得注意的是，20%的设置显示出跳过率的快速增加，而较高的80%设置在整个训练过程中保持相对稳定。这一发现表明，可以从较低的丢弃概率开始，然后根据奖励信号动态优化TON。

那么，我们真的需要SFT阶段的思考丢弃吗？研究团队探索了一个更简单的替代方案：修改提示以鼓励模型自动省略推理步骤，从而实现直接GRPO训练，无需单独的SFT阶段。然而，实验结果表明，混合提示与普通GRPO在完成长度上只有微小差异。此外，在GeoQA上，GRPO在训练和推理过程中生成的所有样本中只有2个"跳过"案例，在AITZ上则没有。这表明模型倾向于通过生成长而详细的推理来保持安全，这与其在预训练或SFT期间学到的根深蒂固的行为模式一致。

这些发现强调了TON框架中SFT阶段与思考丢弃的必要性，以建立所需的格式遵循行为。

四、实际案例：看AI如何学会"三思而后行"

为了直观理解TON的工作原理，让我们看几个实际例子。

在AITZ基准测试上（一个多步手机导航任务），当普通GRPO在每一步都生成冗长的推理时，TON则自适应地跳过了不必要的思考步骤。例如，对于"在Google相册应用中找照片"这样的任务，GRPO会在每个导航步骤中生成详细的推理过程，而TON则能够识别简单的步骤（如点击明显的图标）并直接给出操作，只在需要复杂判断的步骤才会生成推理。这种方法将令牌使用减少了60%，同时保持了任务准确性。

在CLEVR计数任务中，TON也展示了选择性激活推理的能力。当面对只有3个明显对象的简单图像时，TON会跳过推理，直接给出"3"的答案。但当面对包含多个、可能部分被遮挡的对象的复杂图像时，它会生成详细的、逐步的推理来准确计数。这展示了TON能够适应不同难度任务的能力——在简单任务上一眼就能答对，在复杂任务上则进行深入思考。

在数学推理任务GeoQA上，TON也表现出类似的适应性。对于"如图所示，AB // CD，EF与AB和CD在点E、F相交，角1 = 50.0度，则角2的度数是多少"这样的问题，当关系直接时，TON会跳过推理；但对于"如图所示，三角形ABC是圆O的内接三角形，角OAB = 35.0度，则角ACB的度数是多少"这样的复杂几何问题，它会生成完整的数学推理过程。

这些例子清晰地展示了TON如何模仿人类的思考模式——简单问题直接回答，复杂问题认真思考，实现了计算效率和推理准确性的双赢。

五、结论与未来展望

TON提出了一个简单而有效的两阶段训练框架，使视觉-语言模型能够学会何时需要推理——将选择性推理引入为一种可控制和可训练的行为。通过将监督微调过程中的思考丢弃与GRPO引导的精炼相结合，TON显著减少了完成长度（高达90%），同时在各种推理任务上保持甚至提高了性能。

这项研究的发现挑战了"完整推理过程总是有益的"这一假设，为多模态智能和强化学习中更高效、更人性化的推理策略铺平了道路。就像人类在解决问题时会根据难度调整思考深度一样，TON教会了AI模型在简单问题上直接作答，复杂问题上深入思考的能力。

这种方法不仅提高了模型的效率，还可能对实际应用产生深远影响，特别是在资源受限的环境中。想象一下，在手机或嵌入式设备上运行的AI助手，能够在保持高质量回答的同时，大幅减少计算需求和响应时间。

未来的研究方向可能包括进一步优化思考丢弃策略，例如开发自适应丢弃率机制，或者探索如何将这种选择性推理能力扩展到更多领域和更大规模的模型中。另一个有趣的方向是研究如何让模型不仅决定是否思考，还能决定思考的深度和广度，进一步模拟人类灵活的认知过程。

正如莎士比亚在《哈姆雷特》中的名言："思考还是不思考，这是一个问题。"对于现代AI系统来说，这个问题已经有了答案：两者都需要，关键在于何时选择哪一种。TON向我们展示了，通过适当的训练，AI可以像人类一样灵活选择思考策略，这无疑是朝着更智能、更高效的AI系统迈出的重要一步。

人工智能强化学习选择性推理

分享至