这项由ByteDance(字节跳动)的赖昕和香港大学的赵恒爽领导的研究发表于2025年9月,论文全名为《Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search》。有兴趣深入了解的读者可以通过项目主页 https://github.com/Mini-o3/Mini-o3 访问完整论文和代码。
想象你正在一张巨大的"寻找沃尔多"拼图前,画面中密密麻麻地分布着各种物体、文字和细节。作为人类,你会做什么?你可能会先看整体,然后把目光聚焦到某个区域,仔细观察,发现不对劲后退一步,再换个角度继续寻找,甚至可能需要反复检查好几遍才能找到目标。这种"试错-探索-验证"的思维过程,正是人类解决复杂视觉问题时的自然反应。
然而,现有的AI视觉模型就像是一个急性子的学生,往往看一眼就给出答案,缺乏这种深度思考的能力。当面对真正困难的视觉搜索任务时,比如在高分辨率图片中寻找特定的文字或物体,这些模型的表现就会大打折扣。研究团队发现,即使是表现不错的开源模型DeepEyes,在困难的视觉搜索任务上准确率也只有35.1%,远远不能满足实际应用需求。
更关键的是,这些模型的思考过程过于单调,通常只进行一两轮简单的观察就结束了,就像一个走马观花的游客,根本无法应对需要反复探索的复杂场景。这就好比让一个从未学过下棋的人直接参加围棋比赛,自然难以取得好成绩。
正是在这样的背景下,ByteDance的研究团队开发了Mini-o3系统。这个名字的灵感来自于OpenAI的o3模型,但它专门针对视觉搜索任务进行了深度优化。Mini-o3最大的特色就是能够像人类侦探一样进行深度、多轮的推理思考,在面对困难问题时,它可以进行多达几十轮的交互探索,准确率会随着思考轮数的增加而显著提升。
一、构建挑战性的"训练场":Visual Probe数据集
要训练一个擅长深度思考的AI系统,首先需要给它提供足够有挑战性的"练习题"。研究团队发现,现有的视觉搜索数据集大多过于简单,就像是给奥运会运动员安排小学生的训练内容,根本无法激发出模型的潜能。
因此,他们专门构建了Visual Probe数据集,这个数据集就像是为AI设计的"地狱级"视觉搜索挑战。与以往数据集不同,Visual Probe具有三个显著特点:目标物体极其微小、干扰物体众多、图像分辨率极高。
以寻找集装箱上特定编号为例,在一张7952x5304像素的高清图片中,可能密布着数百个集装箱,每个集装箱上都印有各种编号、标识和文字。要在这样的图片中准确找到"67.200"这个特定数字下方的编号"22G1",就需要AI系统具备极强的耐心和系统性搜索能力。这种任务对人类来说都颇具挑战性,更不用说对AI系统了。
另一个典型场景是在繁忙的城市街道中寻找特定的交通标志。画面中可能同时存在十几个不同的标志牌、广告牌和指示牌,要准确识别出"PARKING"字样下方箭头的指向,就需要AI系统能够逐一排查,反复验证,并在发现错误时及时调整策略。
Visual Probe数据集包含4000个训练样本和500个测试样本,涵盖简单、中等和困难三个级别。这些样本的设计初衷就是让AI系统无法一眼看出答案,必须通过多轮探索才能找到正确结果。这种设计理念类似于为学生设计渐进式的学习课程,从基础练习逐步过渡到高难度挑战。
二、教AI学会"思考的艺术":多样化推理模式
拥有了挑战性的训练数据还不够,更重要的是要教会AI系统如何进行有效的思考。研究团队发现,如果直接用强化学习来训练模型,AI往往会"偷懒",给出过于简洁的回答,就像是一个不愿动脑的学生总是选择最简单的解题方法。
为了解决这个问题,团队采用了一种巧妙的"冷启动"策略。他们首先精心制作了6个典型的示例轨迹,每个轨迹都展示了不同的推理策略和思考模式。这些示例就像是优秀学生的作业范本,为AI系统提供了学习的参考标准。
第一种推理模式是深度优先搜索,类似于考古学家的工作方式。当AI系统在图片中发现一个可能包含目标的区域时,它会持续深入探索这个区域,不断放大、细化搜索范围,直到找到答案或确认此路不通。
第二种是试错探索模式,就像是一个经验丰富的侦探。AI系统会基于初步观察提出假设,然后主动寻找证据来验证或推翻这个假设。当发现某个假设不成立时,它会及时调整思路,从新的角度继续探索。
第三种是目标维持模式,类似于GPS导航系统的工作原理。AI系统会始终记住自己的搜索目标,在探索过程中不断检查当前的发现是否与目标匹配,避免偏离主要任务。
通过这种方式,团队用现有的视觉语言模型生成了大约6000个多轮对话轨迹。这些轨迹展示了各种不同的思考路径和解题策略,为后续的强化学习训练提供了丰富的"思考模板"。
三、突破训练瓶颈的"过轮掩码"技术
在强化学习训练过程中,研究团队遇到了一个棘手的问题。传统的训练方法会对那些超出预设轮数限制的"超时"回答进行惩罚,就像是在考试中对没有在规定时间内完成答题的学生扣分一样。
这种做法看似合理,但实际上产生了严重的副作用。AI系统为了避免被惩罚,开始倾向于给出过早的、可能不准确的答案,而不是进行充分的思考。这就像是让学生养成了草率答题的坏习惯,虽然能在时间限制内完成,但准确率大幅下降。
更重要的是,这种训练方式限制了AI系统在实际应用中的扩展能力。如果一个系统只在6轮交互的限制下训练,那么面对需要更多轮思考的复杂问题时,它就会显得力不从心。
为了解决这个问题,团队提出了创新的"过轮掩码"技术。这种技术的核心思想是:对于那些因为超出轮数限制而无法给出完整答案的情况,系统不再进行惩罚,而是简单地忽略它们,就像是告诉学生"如果题目太难需要更多时间思考,那就不要勉强回答,也不会因此扣分"。
具体来说,系统会为每个回答分配一个"完成掩码",标记该回答是否在规定限制内完成。对于那些被标记为"未完成"的回答,系统在计算训练损失时会将其屏蔽掉,使它们不会对模型参数的更新产生负面影响。
这种方法带来了显著的效果。虽然训练时只使用了6轮交互的限制,但测试时AI系统能够自然地扩展到数十轮思考,并且准确率随着思考轮数的增加而持续提升。这就像是培养出了一个具有自我调节能力的学生,能够根据问题的难度自动调整思考时间。
四、系统架构设计:模拟人类的视觉探索过程
Mini-o3的整体架构设计充分借鉴了人类进行视觉搜索时的认知过程。当人类面对一个复杂的视觉场景时,通常会经历"观察-思考-行动-验证"的循环过程,这正是Mini-o3系统的核心工作流程。
在每个交互轮次中,系统首先会产生一个"思考"过程,就像是人类在心中默默分析当前看到的内容。这个思考过程包括对当前观察结果的分析、对搜索策略的调整,以及对下一步行动的规划。系统可能会思考:"我在这个区域看到了一些文字,但不够清晰,需要进一步放大"或者"这里看起来不像是目标所在的位置,应该换个区域搜索"。
紧接着,系统会基于思考结果选择具体的行动。目前系统支持两种主要行动:区域放大和给出最终答案。区域放大就像是使用放大镜仔细观察图片的某个部分,系统需要指定一个边界框来定义要放大的区域。更巧妙的是,系统不仅可以对原始图片进行操作,还可以对之前任何一轮的观察结果进行进一步探索,这就像是人类可以回到之前看过的内容重新审视一样。
每次行动后,环境会返回一个新的观察结果,通常是一个裁剪后的图像区域。这个新的观察结果会被添加到历史记录中,为下一轮的思考提供更多信息。整个过程会持续进行,直到系统确信找到了答案,或者达到了预设的交互限制。
为了应对长序列带来的计算负担,团队在实现上做了多项优化。他们将图像的最大像素数从默认的1200万降低到200万,这样可以在同样的上下文长度限制内容纳更多的交互轮次。同时,他们在推理时使用温度参数为1.0的采样策略,以减少重复文本的产生,确保每轮的思考都能带来新的信息。
五、训练策略:两阶段精心调教
Mini-o3的训练过程分为两个精心设计的阶段,就像是培养一个专业侦探的完整流程。
第一阶段是监督微调阶段,使用之前生成的6000个多样化轨迹对基础模型(Qwen2.5-VL-7B-Instruct)进行训练。这个阶段的目标是让AI系统学会基本的多轮思考模式,就像是让学生先掌握基本的解题方法和思路。训练过程中,学习率设置为1×10^-5,批次大小为32,训练3个轮次。
第二阶段是强化学习阶段,采用GRPO(Group Relative Policy Optimization)算法对模型进行进一步优化。这个阶段的关键是使用外部的大语言模型作为"判官"来评估答案的正确性。由于许多答案需要语义理解而不仅仅是字符串匹配,使用AI判官能够更准确地评估答案质量。
在强化学习阶段,团队特别注重训练的稳定性和效率。他们采用了多项技术来确保训练过程的平稳进行,包括动态采样、分层剪切等。同时,为了平衡训练效率和模型性能,他们将最大交互轮次限制在6轮,最大上下文长度限制在32K个标记。
训练数据方面,除了Visual Probe数据集外,团队还从DeepEyes数据集中随机采样了8000个样本,以确保模型在简单任务上的性能不会退化。这种混合训练策略类似于让学生既要掌握高难度题目,也不能忽视基础练习。
六、实验结果:全面超越现有方法
Mini-o3在多个视觉搜索基准测试中都取得了显著的性能提升,充分证明了其深度推理能力的有效性。
在最具挑战性的VisualProbe-Hard测试集上,Mini-o3达到了48.0%的准确率,相比之前最好的开源模型DeepEyes的35.1%有了大幅提升。更重要的是,这种提升不是通过增加模型参数或计算资源实现的,而是通过更好的推理策略和训练方法获得的。
在V*Bench、HR-Bench等其他视觉搜索基准上,Mini-o3同样表现出色,全面超越了现有的开源模型。特别是在需要高精度视觉理解的任务上,Mini-o3的优势更加明显。
最令人印象深刻的是Mini-o3展现出的"测试时扩展"能力。虽然训练时只使用了最多6轮的交互限制,但在测试时,当允许更多轮次的思考时,模型的准确率会持续提升。从4轮到32轮,准确率呈现出稳定的上升趋势,这表明模型确实学会了如何进行更深入的思考。
通过对正确答案轨迹的统计分析,研究团队发现Mini-o3倾向于使用更多的交互轮次。在正确回答的案例中,约53.3%的答案需要4-8轮思考,32.4%需要8-16轮,还有一部分甚至需要16轮以上的深度探索。这与传统模型主要依赖1-4轮简单交互的模式形成了鲜明对比。
七、深入分析:各组件的关键作用
为了深入理解Mini-o3成功的关键因素,研究团队进行了全面的消融实验,就像是拆解一台精密机器来了解每个部件的作用。
首先是困难训练数据的重要性。当移除VisualProbe中的困难样本时,模型在挑战性任务上的表现下降了约8.6个百分点。这说明要培养AI的深度思考能力,必须给它提供足够有挑战性的"练习题"。就像是要培养一个优秀的围棋手,不能只让他下简单的定式,必须让他面对各种复杂的实战局面。
其次是冷启动监督学习的必要性。如果跳过这个阶段直接进行强化学习,模型的表现会大幅下降,平均交互轮数从5.5轮降低到仅1.0轮。这表明基础模型缺乏进行多轮交互的基本能力,需要通过监督学习来"启发"这种能力。
过轮掩码技术的效果同样显著。使用这项技术后,模型的平均交互轮数从3.0轮增加到5.5轮,准确率也有相应提升。更重要的是,这项技术使得测试时的扩展成为可能,让模型能够根据问题难度自动调整思考深度。
图像像素预算的设置也很关键。太高的像素预算(如1200万)会导致模型过早停止思考,因为高分辨率图像很快就会耗尽上下文长度。太低的预算(如50万)则会产生过多的感知错误。研究团队发现200万像素是一个很好的平衡点,既能保证足够的视觉细节,又能支持多轮深入的思考。
训练时的交互轮数上限设置体现了效率与性能的权衡。使用6轮限制的训练收敛更快,大约在150步就能达到较好的性能。使用12轮限制虽然最终性能稍好,但收敛速度明显较慢。考虑到实际的计算资源限制,6轮限制是一个更实用的选择。
八、技术创新的深层意义
Mini-o3的成功不仅仅是在特定任务上的性能提升,更重要的是它展示了一种全新的AI系统设计理念。传统的视觉语言模型往往追求"一步到位"的能力,希望模型能够在看到图片后立即给出正确答案。但Mini-o3证明了"慢思考"的价值,展示了如何让AI系统像人类专家一样进行深入、系统的分析。
这种设计理念的转变具有深远的意义。在现实世界中,许多复杂的问题确实需要反复思考和多次验证才能得出可靠的结论。无论是医学诊断中的影像分析、工业质检中的缺陷检测,还是自动驾驶中的场景理解,都需要AI系统具备这种深度推理的能力。
Mini-o3的另一个重要贡献是证明了测试时计算的有效性。传统的AI系统性能主要由训练时的模型大小和数据量决定,但Mini-o3表明,通过更好的推理策略,可以在不增加模型参数的情况下显著提升性能。这为未来的AI系统设计提供了新的思路。
过轮掩码技术的提出也具有重要的方法学意义。这种技术本质上是在训练过程中引入了一种"不确定性容忍"机制,允许模型在面对困难问题时使用更多的思考时间,而不会因此受到惩罚。这种思想可以推广到其他需要多步推理的AI任务中。
九、实际应用前景与挑战
Mini-o3展示的深度视觉推理能力在多个实际应用领域都有巨大的潜力。在医疗影像分析中,这种系统可以像放射科医生一样,先对整张CT或MRI图像进行全局观察,然后聚焦到可疑区域进行详细分析,必要时还可以调整窗宽窗位或切换到不同的观察角度。
在工业质量检测中,Mini-o3可以应用于复杂产品的缺陷检测。比如在电路板检测中,系统可以先识别出各个主要区域,然后逐一检查每个区域中的元件排列、焊接质量等细节,发现异常时还可以进一步放大验证。
在自动驾驶领域,这种深度推理能力对于处理复杂的交通场景特别有价值。系统可以先识别出道路上的主要参与者,然后分析每个参与者的行为意图,在不确定的情况下持续观察直到做出可靠的判断。
在文档分析和信息提取中,Mini-o3可以应用于复杂表格、图表或技术文档的理解。系统可以先理解文档的整体结构,然后定位到相关区域,逐步提取所需信息。
当然,这种深度推理方法也面临一些挑战。首先是计算效率问题。多轮推理必然需要更多的计算时间和资源,如何在准确率和效率之间找到最佳平衡是一个重要问题。其次是推理过程的可解释性。虽然系统会产生思考过程,但如何确保这些思考过程真实反映了系统的决策逻辑仍需进一步研究。
另一个挑战是如何将这种方法扩展到更广泛的视觉任务中。目前的研究主要集中在视觉搜索任务上,但许多其他视觉任务,如图像生成、视频理解等,是否也能从这种深度推理方法中受益,还需要进一步的探索。
十、研究的局限性与未来方向
尽管Mini-o3取得了显著的成功,但研究团队也清醒地认识到当前方法的一些局限性。首先是任务范围的限制。目前的研究主要针对视觉搜索任务,虽然这类任务具有很强的代表性,但AI系统面临的视觉挑战远不止于此。如何将这种深度推理能力扩展到图像生成、视频理解、3D场景分析等更广泛的视觉任务中,是未来研究的重要方向。
其次是推理策略的多样性问题。虽然系统展示了深度优先搜索、试错探索等多种推理模式,但这些模式主要是通过人工设计的示例轨迹来引导的。如何让AI系统自主学习和发现新的推理策略,而不是仅仅模仿人类的思考方式,是一个更具挑战性的问题。
评估方法的完善也是一个重要课题。目前的评估主要基于最终答案的正确性,但如何评估推理过程的质量和效率,如何判断一个推理轨迹是否真正体现了深度思考,这些问题都需要更系统的研究。
此外,当前的方法在处理需要常识推理或领域专业知识的视觉任务时可能会遇到困难。虽然系统能够进行深入的视觉探索,但如果缺乏相关的背景知识,再多的观察也难以得出正确的结论。如何将视觉推理与知识推理有机结合,是未来需要解决的重要问题。
从更广阔的视角来看,Mini-o3的成功为AI系统的发展提供了新的启示。它表明,提升AI能力不一定需要无限增大模型规模或数据量,通过更好的推理方法和训练策略同样可以取得显著进展。这种思路对于资源有限的研究团队和实际应用场景都具有重要意义。
未来的研究可能会朝着几个方向发展。一是探索更多样化的推理策略,包括并行推理、分层推理等。二是研究如何在不同类型的视觉任务中应用深度推理方法。三是开发更高效的训练和推理算法,降低多轮推理的计算成本。四是构建更完善的评估体系,能够全面衡量AI系统的推理能力。
说到底,Mini-o3的出现标志着AI视觉理解能力的一个重要里程碑。它不仅在技术上取得了突破,更重要的是展示了一种全新的思路:让AI系统学会像人类专家一样深入思考,而不是急于给出肤浅的答案。这种"慢思考"的理念可能会影响未来AI系统的设计方向,推动整个领域向更加智能化、更加可靠的方向发展。
对于普通人来说,Mini-o3的成功意味着未来的AI助手将具备更强的问题解决能力。当你需要在复杂的文档中寻找特定信息,或者需要分析一张包含大量细节的图片时,AI系统将能够像一个耐心的专家一样,系统地进行分析,直到找到准确的答案。这种能力的提升将使AI在教育、医疗、工业等各个领域都能发挥更大的作用,真正成为人类可靠的智能伙伴。
Q&A
Q1:Mini-o3和传统的AI视觉模型有什么区别?
A:传统AI视觉模型通常看一眼图片就给出答案,就像急性子学生匆忙答题。而Mini-o3能像人类侦探一样进行深度思考,通过多达几十轮的观察、分析、验证来解决复杂的视觉搜索问题,准确率会随着思考轮数增加而提升。
Q2:Visual Probe数据集为什么这么重要?
A:Visual Probe数据集专门设计了"地狱级"的视觉搜索挑战,包含目标物体极小、干扰物众多、图像分辨率极高的困难场景。这就像给AI提供了足够有挑战性的"练习题",只有通过这种困难训练,AI才能学会真正的深度思考能力。
Q3:过轮掩码技术解决了什么问题?
A:传统训练方法会惩罚那些思考时间过长的AI回答,导致AI养成草率答题的坏习惯。过轮掩码技术不再惩罚这些"超时"回答,而是简单忽略它们,让AI可以根据问题难度自动调整思考时间,实现了从训练时6轮到测试时数十轮的自然扩展。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。