微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 南洋理工大学团队重新定义AI看世界:让机器像人类一样观察和思考

南洋理工大学团队重新定义AI看世界:让机器像人类一样观察和思考

2026-01-06 09:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-01-06 09:47 科技行者

这项由南洋理工大学、南京理工大学、阿德莱德大学、百度、CSIRO以及商汤科技等多家知名机构合作的研究发表于2024年12月,研究团队包括唐伟、孙彦鹏、张珊、李晓凡等众多学者。有兴趣深入了解的读者可以通过论文编号arXiv:2512.01988v1查询完整论文。这项名为"Artemis"的研究彻底颠覆了当前AI视觉理解的方式,让机器真正学会了"用眼睛思考"。

当你看到一张照片时,你的大脑是怎样工作的?比如看到一群动物的照片,你会先扫视整个场景,然后把注意力集中到特定区域,最后锁定目标。你不会像背课文一样在心里描述"这里有一只棕色的动物,那里有一只黑色的动物",而是直接在视觉空间里进行推理——你的眼睛会在不同位置之间跳跃,大脑会同时处理位置信息和物体特征。

然而,目前的AI系统在处理视觉任务时却采用了完全不同的方法。它们就像一个失明的人在听别人描述照片内容,然后基于这些语言描述来回答问题。当被问及"照片中最短的运动员在哪里"时,这些AI系统会先生成一长串文字描述:"三名运动员穿着白色运动服,看起来正在交谈,其中一人拿着棒球棒……"然后基于这些模糊的语言描述来猜测答案。结果往往是错误的定位,因为语言描述无法精确传达空间位置信息。

正是认识到这个根本性问题,研究团队开发出了Artemis框架,这是一个让AI真正学会"用眼睛思考"的突破性系统。就像训练一个孩子观察世界一样,Artemis不再依赖语言描述来理解图像,而是直接在视觉空间中进行结构化推理。

Artemis的核心创新在于一种全新的"结构化视觉推理"方法。传统AI系统在"思考"时会产生大段文字,而Artemis的思考过程则体现为一系列(标签,边界框)对。这就像一个专业摄影师在构图时会在取景器中标记不同区域一样——每个重要对象都有明确的位置坐标和清晰的标识。

这种方法的优势是显而易见的。当Artemis处理"找到最短运动员"这样的任务时,它会首先识别出场景中的所有人物,为每个人物标记准确的位置边界,然后通过比较这些空间信息来确定答案。整个过程都在视觉空间中进行,避免了语言描述带来的信息损失和歧义。

研究团队采用了一种名为GRPO(群体相对策略优化)的强化学习方法来训练Artemis。这个训练过程很像教一个学生画素描——老师不仅要检查最终作品的质量,还要观察学生的作画过程,及时纠正错误的观察角度和绘画顺序。在Artemis的训练中,系统不仅因为正确的最终答案获得奖励,更重要的是,它的每一步推理过程都会得到精确的指导和评估。

为了验证Artemis的能力,研究团队构建了一个包含约7.7万个训练样本的数据集。这个数据集巧妙地结合了两种核心视觉任务:视觉定位和物体检测。视觉定位任务训练系统精确锁定特定目标,就像训练一个狙击手瞄准靶心。物体检测任务则培养系统的整体场景感知能力,让它能像安保人员一样快速扫描并识别环境中的所有重要对象。

实验结果展现了Artemis令人惊叹的能力。在标准的视觉定位测试中,Artemis在所有评测指标上都超越了现有的最先进系统。特别是在高精度要求的测试中(IoU@95),Artemis在RefCOCO testB数据集上达到了33.4%的准确率,比之前的最佳系统提高了4.6个百分点。这个提升听起来可能不大,但在AI视觉领域,这样的进步相当于从"大概知道在那个区域"提升到"能够精确指出具体位置"。

更令人惊喜的是Artemis的泛化能力。就像一个在城市里学会开车的人能够很快适应乡村道路一样,Artemis在自然图像上学到的视觉推理能力能够无缝转移到完全不同的领域。在数学图形理解任务中,Artemis取得了49.3%的平均准确率,大幅超越了其他系统。当面对几何图形中的形状分类和空间关系判断时,这种训练于自然场景的系统表现出了惊人的适应性。

在零样本视觉计数任务中,Artemis的表现更是让人刮目相看。虽然从未专门训练过计数能力,但它能够通过内在的结构化推理自然地完成计数任务。在Pixmo-Count测试中,Artemis达到了81.4%的准确率,比专门训练的系统还要高出3.3个百分点。这就像一个从未学过珠算的人,仅凭对数字的基本理解就能比专业珠算师算得更准确。

Artemis的推理过程展现了与人类观察模式的惊人相似性。当处理复杂场景时,它会首先进行全局扫描,识别出场景中的主要对象,然后根据任务需求将注意力聚焦到相关区域。比如在寻找"最凶猛的动物"时,Artemis会先识别出图像中的大象、老虎、长颈鹿等动物,然后基于对这些动物特征的理解,最终锁定老虎作为答案。整个过程中的每一步推理都是可验证和可解释的。

研究团队还进行了深入的对比实验,揭示了不同推理形式对视觉理解的影响。他们发现,完全不进行推理的系统虽然在特定训练任务上表现不错,但缺乏泛化能力,就像一个只会背标准答案的学生无法应对变化的考题。而使用传统语言推理的系统则经常出现推理过程与最终答案不一致的问题,比如在推理中正确描述了场景,但最终却给出错误的定位结果。

只有Artemis的结构化视觉推理方法能够保持推理过程的一致性和可靠性。通过将推理锚定在具体的视觉坐标上,系统避免了语言描述的模糊性,每一步推理都有明确的空间对应关系。这种方法不仅提高了准确性,还使得整个推理过程变得透明可控。

研究还发现了一个有趣的现象:联合训练比分步训练更有效。当系统同时学习定位和检测任务时,两种能力会相互促进,形成一种协同效应。这就像学习乐器时,同时练习技巧和乐感比单独练习每一项更能提升整体水平。这种联合训练帮助Artemis构建了更加完整和鲁棒的视觉理解能力。

从技术实现角度来看,Artemis基于Qwen2.5-VL-3B模型构建,这是一个相对轻量级的基础模型。研究团队通过精心设计的奖励机制和训练策略,在不大幅增加计算成本的情况下实现了显著的性能提升。这种效率优势使得Artemis具备了实际部署的可行性,不仅仅是实验室里的概念验证。

训练过程中的奖励设计特别巧妙。系统不仅因为最终答案的正确性获得奖励,更重要的是,它的每一步推理过程都会得到细致的评估。研究团队为关键对象设置了更高的奖励权重,同时也为上下文相关的对象提供适当的正向反馈。这种设计确保了系统既能准确锁定目标,又能理解周围环境的相关信息。

Artemis的成功还体现在其强大的零样本迁移能力上。在MATHGLANCE数学图形理解基准测试中,系统需要处理与训练数据完全不同的抽象几何图形。这些图形在语义上稀疏但结构上丰富,需要对几何基元有真正的理解才能完成任务。Artemis在这类任务中的出色表现证明了其学到的不是浅层的模式匹配,而是深层的视觉推理能力。

特别值得注意的是,Artemis在需要精细定位的任务中表现尤为突出。在数学图形的定位任务中,它达到了24.2%的准确率,而其他强化学习模型的准确率都低于5%。这种差距反映了结构化视觉推理相对于传统方法的根本优势——它能够真正理解空间关系,而不是简单地记忆表面特征。

研究团队还验证了Artemis在一般多模态任务上的表现。令人惊喜的是,专门针对视觉推理优化的训练不仅没有损害系统在其他任务上的表现,反而带来了全面的提升。在MMBench、MMVet、SeedBench等综合评测中,Artemis都取得了比基础模型更好的成绩。这表明更强的视觉理解能力能够促进整体智能水平的提升。

从实际应用的角度来看,Artemis的意义远不止于学术研究。当前的AI视觉系统在实际部署中经常遇到泛化问题——在训练环境中表现良好的系统到了真实世界往往表现不佳。Artemis的结构化推理方法为解决这一问题提供了新的思路。通过将推理过程锚定在视觉空间中,系统获得了更强的鲁棒性和适应性。

这项研究的另一个重要贡献是为视觉AI的发展指明了新方向。传统方法试图通过更大的模型、更多的数据来提升性能,而Artemis证明了通过改进推理机制同样能够获得显著提升。这种方法论上的创新可能比单纯的规模扩张更具可持续性和可解释性。

研究过程中的一个有趣发现是,人类的视觉认知过程确实为AI系统的设计提供了宝贵启发。认知科学研究表明,人类在处理复杂视觉场景时会采用一种"移动聚光灯"的注意机制,顺序地将注意力投向不同区域。Artemis的设计正是借鉴了这种机制,将计算类比于这种"移动聚光灯",其中边界框坐标提供精确的空间定位,类别标签表明对象身份。

与传统的语言推理相比,这种结构化方法避免了自由形式语言描述中固有的不确定性。语言推理容易产生与实际视觉内容不符的幻觉描述,或者遗漏关键的空间约束信息。而Artemis的每一步推理都必须对应到具体的视觉区域,这种强制性的空间锚定确保了推理过程的可靠性和可验证性。

实验数据显示,这种设计选择带来了实质性的性能提升。在RefCOCO系列测试中,Artemis在所有IoU阈值下都取得了最佳性能,特别是在高精度要求(IoU@95)的测试中,提升幅度更加显著。这表明Artemis不仅能够大致定位目标区域,更能够实现像素级的精确定位。

研究团队还深入分析了不同训练策略对系统性能的影响。他们发现,仅使用监督学习很难有效训练结构化推理能力,主要原因是数据量不足以覆盖复杂推理过程的所有可能路径。而强化学习方法能够让系统在探索过程中自主发现有效的推理策略,从而在相对有限的数据上取得更好的效果。

特别是在冷启动阶段的设计上,研究团队采用了循序渐进的策略。他们首先让系统在物体检测任务上建立基本的视觉感知能力,然后再引入更复杂的推理任务。这种分阶段的训练方法避免了过早引入复杂性导致的学习困难,确保了系统能够稳步提升推理能力。

从计算效率的角度来看,Artemis的设计也颇具巧思。虽然引入了结构化推理,但系统的推理过程是高度并行化的,不会显著增加计算时间。而且由于推理过程更加精确,系统往往能够用更少的推理步骤达到目标,在某些情况下甚至比简化的方法更加高效。

值得一提的是,研究团队在评估方法上也有所创新。传统的评估通常只关注最终答案的准确性,而忽略了推理过程的质量。Artemis的评估体系不仅考察最终结果,还对推理过程中的每一步进行详细分析。这种全过程评估能够更好地反映系统的真实能力,也为进一步改进提供了有价值的诊断信息。

在与其他方法的对比中,Artemis展现出了全面的优势。相比于跳过推理直接给出答案的方法,Artemis通过显式的推理过程获得了更强的泛化能力。相比于使用语言推理的方法,Artemis避免了语言描述与视觉内容之间的不一致问题。相比于专门针对单一任务优化的方法,Artemis展现出了更好的通用性和可扩展性。

研究结果还揭示了一个重要的技术原理:在视觉推理任务中,推理形式的选择比推理内容的复杂性更加重要。一个简单但结构化的推理过程往往比一个复杂但无结构的推理过程更加有效。这个发现对于未来AI系统的设计具有重要的指导意义。

说到底,Artemis代表了AI视觉理解领域的一次重要突破。它不仅在技术性能上取得了显著提升,更重要的是,它为AI系统如何真正理解和推理视觉信息提供了一个全新的范式。这种方法让机器第一次具备了类似人类的视觉推理能力——不再是基于语言描述的间接推理,而是直接在视觉空间中进行结构化思考。

这项研究的影响将远远超出学术范围。在实际应用中,更强的视觉推理能力意味着AI系统能够更好地理解复杂场景,更准确地执行视觉任务,更可靠地与现实世界交互。无论是自动驾驶汽车的环境感知,还是医疗图像的精确分析,亦或是机器人的视觉导航,这种结构化视觉推理方法都有望带来实质性的改进。

研究团队已经将Artemis的代码和数据公开发布,这为整个研究社区的进一步探索提供了坚实基础。可以预见,这种结构化视觉推理的思想将激发更多创新研究,推动整个AI视觉理解领域向更加智能和可靠的方向发展。而对于普通人来说,这意味着未来的AI助手将具备更加精准和可信的视觉理解能力,能够更好地协助我们处理各种涉及视觉信息的任务。

Q&A

Q1:Artemis的结构化视觉推理与传统AI视觉方法有什么区别?

A:传统AI系统处理图像时像失明的人听别人描述照片,先生成大段文字描述再基于语言猜测答案,容易出错。而Artemis直接在视觉空间思考,用(标签,边界框)对来表示每个推理步骤,就像专业摄影师在取景器中标记不同区域,避免了语言描述的模糊性。

Q2:为什么Artemis在没有专门训练的任务上也表现很好?

A:Artemis学到的是深层的视觉推理能力,不是浅层模式匹配。它的结构化推理方法让系统真正理解空间关系和对象特征,就像在城市学会开车的人能快速适应乡村道路。这种能力可以无缝转移到数学图形、计数等完全不同的视觉任务上。

Q3:Artemis如何确保推理过程的准确性?

A:Artemis通过强化学习训练,不仅最终答案会得到评估,推理过程中的每一步都会接受精确指导。系统的每个推理步骤都必须对应具体的视觉区域,这种空间锚定机制确保了推理的可验证性,避免了语言推理中常见的描述与实际不符的问题。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-