这项由韩国Nota公司的李俊沅(Jewon Lee)、申旭洙(Wooksu Shin)、杨承民(Seungmin Yang)等研究团队开发的创新技术于2025年9月发表在计算机视觉领域的预印本论文中,论文编号为arXiv:2509.21991v1。感兴趣的读者可以通过该编号查询完整的技术论文。
想象一下,当你在寻找一张巨大拼图中的某个小细节时,你会怎么做?大多数人都会先从整体看一遍,找到大概位置,然后再仔细观察那个区域。但现在的AI视觉模型却像是用放大镜逐寸扫描整张拼图,既费时又费力。Nota公司的研究团队意识到了这个问题,于是开发出了一种名为ERGO的新技术,让AI能够像人类一样"聪明地看图"。
现代的大型视觉语言模型在处理高分辨率图像时面临着一个根本性难题。当图像分辨率越来越高时,AI需要处理的视觉信息量会呈指数级增长,就像一个人试图同时记住一本百科全书的每一个字一样困难。更重要的是,并非图像中的每个像素都对回答特定问题有帮助。比如当你问"照片中的咖啡杯是什么颜色"时,AI其实只需要关注咖啡杯那一小块区域,而不需要分析整个厨房的每一个细节。
ERGO技术的核心思想是建立一个"粗到细"的两阶段视觉推理流程。在第一阶段,系统会接收一张经过压缩的低分辨率图像,就像鸟瞰整个森林一样,快速识别出与问题相关的重要区域。然后在第二阶段,系统会像使用望远镜一样,只对这些关键区域进行高分辨率的详细分析。这种方法既节省了计算资源,又保持了对重要细节的敏锐感知。
研究团队发现,现有的视觉推理模型在这种"粗到细"的场景下表现不佳,主要原因在于它们采用的是"感知驱动推理"的方式。这些模型就像近视眼的侦探,必须看清楚物体的每一个细节才能进行推理。当图像被压缩到低分辨率时,许多关键物体变得模糊不清,导致模型无法准确定位目标区域。
为了解决这个问题,ERGO采用了一种全新的"推理驱动感知"策略。这种方法让AI学会利用上下文信息进行推理,即使看不清具体物体也能找到正确位置。举个例子,当AI无法在低分辨率图像中清楚看到吸管时,它会通过推理"吸管通常出现在咖啡杯附近的桌子上"这样的常识,来确定应该关注的区域。这就像一个经验丰富的侦探,即使证据不完整也能通过逻辑推理找到线索。
在实际验证中,研究团队通过一个巧妙的实验证明了这种方法的有效性。他们使用知名的Qwen2.5-VL模型在V*基准测试上进行评估,发现当把原始的高分辨率图像中与任务相关的关键区域直接提供给模型时,即使在像素受限的条件下,模型的表现仍然能够达到77.0分的高水平。这个发现表明,关键在于找到正确的区域,而不是处理整张图像的每一个像素。
然而,让AI自动识别这些关键区域并非易事。研究团队测试了现有的"图像思维"模型,发现它们在低分辨率输入条件下很难准确预测目标区域的位置。这些模型就像习惯了高清晰度显微镜的科学家,当只能使用普通放大镜时就变得束手无策。
ERGO的核心创新在于其精心设计的奖励机制,这个机制通过强化学习的方式训练AI模型。整个训练过程就像教导一个学生如何高效地阅读教科书。系统首先接收原始图像和问题,然后预测一个包含相关信息的边界框区域。接下来,系统会裁剪出这个区域的高分辨率版本,并基于这个裁剪图像生成最终答案。
这个奖励机制包含三个核心组件,每个都有特定的教育目标。第一个是区域验证奖励,它确保AI选择的区域确实包含了回答问题所需的所有信息。这就像检查学生画的重点标记是否真的涵盖了考试要点。关键的是,这个验证过程只使用裁剪后的区域图像,不依赖原始完整图像,这样可以确保选择的区域是"自给自足"的。
第二个组件是边界框调整奖励,它防止AI采用"偷懒"策略——总是选择整张图像作为关键区域。就像老师会限制学生在教科书上画重点的范围一样,这个机制鼓励AI选择尽可能小而精准的区域。研究团队通过分析多个数据集发现,大多数与问题答案相关的区域实际上占据整张图像面积的60%以下,因此他们将这个阈值设定为0.6。
第三个组件是任务驱动的上下文探索奖励,它将前两个组件结合起来,形成一个平衡的训练目标。这种设计让AI学会在准确性和效率之间找到最佳平衡点。
除了这些核心奖励,ERGO还使用了两个辅助奖励来完善训练过程。准确性奖励确保AI最终能够正确回答问题,而格式奖励则确保AI的输出符合预期的结构化格式,包括正确使用特定的标签来标记思考过程、最终答案和区域选择操作。
在训练算法方面,ERGO采用了分组奖励策略优化(GRPO)框架,这是一种在分组反馈设置下特别高效的强化学习方法。整个训练过程就像组织一个学习小组,让多个AI"学生"同时练习同一个问题,然后根据它们的集体表现来调整学习策略。
为了验证ERGO的有效性,研究团队进行了全面的实验评估。他们选择了Qwen2.5-VL-7B-Instruct作为基础模型,并使用更大的Qwen2.5-VL-72B-Instruct作为奖励模型来提供训练信号。训练数据包括V*训练集和ArxivQA数据集的子集,训练过程在4个H100 GPU上进行,总共需要约150个GPU小时。
实验结果令人印象深刻。在像素受限的场景下,ERGO在多个高分辨率视觉问答基准测试中都显著超越了现有方法。特别是在V*基准测试中,当使用640×28×28的像素限制时,ERGO达到了81.7分,而原始的Qwen2.5-VL-7B模型在16384×28×28像素条件下只能达到77.0分。更重要的是,ERGO只使用了1025个视觉标记,而原始模型需要4471个标记,这意味着在提高准确性的同时实现了超过4倍的效率提升。
在实际应用性能方面,研究团队使用生产级的vLLM推理引擎在单个H100 GPU上进行了延迟测试。结果显示,ERGO在V*基准测试上不仅准确率从77.0分提升到81.7分,而且平均推理时间从4.89秒缩短到1.61秒,实现了约3倍的速度提升。这种实际的性能改进证明了ERGO不仅在理论上有效,在实际部署中也具有显著优势。
研究团队还进行了深入的分析实验来理解ERGO成功的原因。他们设计了一个目标对象遮盖实验,通过人为遮挡图像中的关键物体来测试模型利用上下文信息的能力。结果显示,ERGO在目标对象被完全遮盖的情况下仍能保持较高的性能,这证明了它确实学会了通过推理来定位相关区域,而不是简单地依赖视觉特征。
为了验证边界框调整常数的有效性,研究团队分析了ERGO在不同数据集上预测的区域大小分布。结果表明,ERGO能够根据不同数据集的特点灵活调整区域大小,而不是被训练常数固化为某种特定的选择模式。这种适应性证明了ERGO学到的是真正的推理能力,而不是简单的模式记忆。
在传统多模态基准测试上的评估显示,ERGO不仅保持了基础模型的原有能力,在某些任务上还实现了改进。这表明ERGO的训练过程增强了模型在语义相关区域进行推理的能力,这种能力的提升对各种视觉任务都有帮助。
通过详细的消融实验,研究团队证明了每个奖励组件的重要性。特别值得注意的是,仅使用任务驱动上下文探索奖励训练的模型,即使从未显式训练过回答问题的能力,也能超越仅使用准确性奖励训练的模型。这个发现强调了高质量区域选择在粗到细推理流程中的核心重要性。
ERGO的成功不仅在于其技术创新,更在于它代表了一种新的AI视觉理解范式。传统的方法试图让AI看得更清楚,而ERGO教会了AI如何更聪明地看。这种转变就像从改进放大镜的清晰度转向培养观察者的洞察力,前者需要更多的硬件资源,后者则通过智能算法实现突破。
从更广阔的视角来看,ERGO技术的意义远不止于提高计算效率。它展示了人工智能如何通过模仿人类的认知策略来解决复杂问题。人类在处理视觉信息时天然具备这种"粗到细"的注意力机制,我们首先快速扫描整体场景,然后将注意力集中在重要区域进行详细观察。ERGO成功地将这种认知策略编码到AI系统中,这为开发更加类人化的AI视觉系统指明了方向。
这项研究也揭示了当前AI视觉模型的一个根本局限性。许多现有模型过分依赖清晰的视觉特征进行推理,缺乏利用常识和上下文信息的能力。ERGO通过强化学习训练出了这种推理能力,表明AI系统可以学会更加灵活和智能的视觉理解策略。
在实际应用前景方面,ERGO技术可能会对多个领域产生重要影响。在移动设备上运行的AI应用中,计算资源和电池续航都是宝贵的,ERGO的高效性使得复杂的视觉AI功能在手机和平板电脑上变得更加可行。在自动驾驶系统中,实时性要求极高,ERGO的快速推理能力可能有助于提高系统的响应速度。在医疗影像分析中,AI通常需要在大尺寸的医学图像中寻找特定的病理特征,ERGO的精准定位能力可能会提高诊断效率和准确性。
当然,ERGO技术也存在一些潜在的局限性和改进空间。当前的实现仍然依赖于人工标注的训练数据,这在一定程度上限制了其泛化能力。未来的研究可能需要探索如何让AI系统自主学习更好的区域选择策略,减少对人工标注数据的依赖。此外,现有的边界框机制相对简单,可能无法完美适应所有类型的视觉推理任务,未来可能需要开发更加灵活的注意力机制。
说到底,ERGO代表了AI视觉理解领域的一个重要进步。它不是简单地提高AI的"视力",而是教会了AI如何更智能地"观察"。这种从硬件依赖向算法智能的转变,不仅提高了系统效率,也为AI技术的普及和应用开辟了新的可能性。对于普通用户而言,这意味着未来的AI视觉应用可能会变得更快、更省电,同时保持甚至提高准确性。无论是手机摄影中的智能场景识别,还是视频会议中的实时背景分析,ERGO这样的技术都可能在幕后默默改善我们的数字生活体验。
这项研究的成功也提醒我们,有时候最好的解决方案不是让机器变得更强大,而是让它们变得更聪明。正如人类通过学习和经验积累来提高处理复杂任务的效率一样,AI系统也可以通过巧妙的算法设计学会更加高效的工作方式。ERGO技术的出现,为这种"智能优于蛮力"的AI发展理念提供了一个令人信服的例证。
Q&A
Q1:ERGO技术的核心工作原理是什么?它如何实现高效的图像处理?
A:ERGO采用"粗到细"的两阶段处理方式。首先用低分辨率图像快速定位关键区域,就像鸟瞰森林找到重要位置,然后只对这些区域进行高分辨率分析。这样既节省计算资源又保持准确性,比传统方法效率提升3-4倍。
Q2:ERGO与传统AI视觉模型有什么本质区别?
A:传统模型采用"感知驱动推理",必须看清每个细节才能分析,就像近视眼侦探必须凑近看。ERGO使用"推理驱动感知",通过上下文和常识推理找到目标位置,即使看不清具体物体也能准确定位,更像经验丰富的侦探。
Q3:ERGO技术在实际应用中有哪些优势和潜在影响?
A:ERGO能显著提高AI视觉应用的效率和速度,使复杂功能在手机等移动设备上更可行。在自动驾驶、医疗影像分析、智能摄影等领域都有应用前景,能让AI视觉应用变得更快、更省电,同时保持高准确性。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。