微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

像你一样思考：链式推理让计算机更好地理解我们的指令

人工智能链式推理视觉识别

像你一样思考：链式推理让计算机更好地理解我们的指令

作者：科技行者

2025-06-07 16:01

分享至：

这项研究由IDEA、华南理工大学和北京大学联合开发的Rex-Thinker系统，通过模仿人类的链式思考方式来解决物体指代问题。与传统直接输出边界框的方法不同，它采用规划-行动-总结的三步骤推理，使AI能像人类一样逐步分析图像中的候选物体，并在找不到匹配物体时拒绝作答。通过构建90,824样本的HumanRef-CoT数据集和两阶段训练方法，系统在精度、可解释性和泛化能力上均取得了显著进步。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-07 16:01 • 科技行者

在人工智能研究领域，有一个关键问题长期困扰着科学家们：如何让机器准确理解并执行我们的指令？特别是当我们要求计算机识别图像中特定物体时，这个挑战变得尤为复杂。由国际数字经济研究院(IDEA)、华南理工大学和北京大学的研究团队最近带来了令人振奋的突破。他们的研究成果《Rex-Thinker: 基于链式推理的物体指代定位》于2025年6月4日发布在arXiv预印本平台（arXiv:2506.04034v1），为解决这一难题提供了全新思路。

想象一下，如果有人让你"找出戴着黄色领带的人右边的女士"，你会怎么做？你可能会先找到戴黄色领带的人，然后看看他右边是否有女士。这个看似简单的思考过程，恰恰是当前人工智能系统所缺乏的。大多数现有的AI系统更像是一个黑盒子，它们直接给出答案，却无法解释思考过程，更无法在找不到匹配对象时坦率地说"没有找到"。

蒋庆、陈星宇和他们的研究团队认为，一个真正可靠的物体指代系统应该具备两个关键特性：一是可验证性，能够提供清晰的推理过程来证明它的判断；二是可信任性，在图像中没有匹配物体时能够主动拒绝作答。为此，他们开发了名为"Rex-Thinker"的系统，将物体指代任务转变为一个显式的链式推理过程。

这个系统的工作方式非常像人类的思考方式。例如，当我们要求它"找出穿红色衬衫的人"时，Rex-Thinker会先识别出图像中所有的人，然后逐一检查每个人的衣着，最后才给出最终判断。整个过程分为规划、行动和总结三个阶段，就像我们解决问题时会先制定计划，然后按计划行动，最后总结结果一样。

为了让这个系统能够学会这种人类式的推理，研究团队构建了一个名为"HumanRef-CoT"的大规模数据集，其中包含了90,824个示例，每个示例都配有详细的推理过程。他们通过提示GPT-4o模型在HumanRef数据集上生成这些推理过程，确保每个推理都遵循规划-行动-总结的结构，使模型能够学习分解式、可解释的推理能力。

研究团队采用了两阶段训练方法：首先进行监督式微调，教会模型如何执行结构化推理；然后使用基于GRPO（群体相对策略优化）的强化学习来进一步提高准确性和泛化能力。实验结果显示，Rex-Thinker在精确度和可解释性方面都超过了标准基线方法，尤其在拒绝幻觉输出方面表现出色。此外，即使在域外评估中，该模型也展示了强大的泛化能力。

让我们通过一个具体例子来理解Rex-Thinker的工作方式。假设我们请它找出"坐在龟背上的人"。Rex-Thinker会先制定计划：第一步识别所有的龟，第二步检查每只龟背上是否有人。在执行阶段，它会仔细分析图像中的每个区域，比如"人物1穿着红色衣服站在秋千上，没有坐在龟背上"，"人物3戴着红帽子，穿着红色衣服，正坐在绿色的龟背上"。最后，它会总结结果："人物3是坐在龟背上的人"。整个过程清晰可见，让用户能够理解系统是如何得出结论的。

相比传统方法直接输出边界框坐标，Rex-Thinker的链式推理方法提供了更高的透明度和可靠性。当图像中没有符合描述的物体时，它能够明确表示"图像中没有这样的物体"，避免了强行给出错误答案的问题。

研究团队进一步研究了他们的方法在不同场景下的表现。在HumanRef基准测试中，Rex-Thinker在属性、位置、交互、推理和名人识别等各种类别中都取得了优异成绩。特别是在拒绝测试中，该模型实现了68.2%的得分，远高于其他方法。在域外评估中，即使是在未曾见过的RefCOCOg数据集上，仅用HumanRef-CoT训练的模型也表现出强大的零样本泛化能力。

这项研究的意义不仅限于技术突破。想象一下，当我们要求自动驾驶汽车"避开那个骑自行车的孩子"，或者请智能家居系统"关掉厨房里的灯"时，系统能够像人类一样理解并解释它的行动，这将极大地提高AI系统的可用性和安全性。

虽然Rex-Thinker展示了令人印象深刻的性能，但研究团队也指出了一些局限性。例如，在处理涉及多个物体之间复杂互动关系的场景时，该模型表现相对较弱。另外，由于采用了链式推理的方式，Rex-Thinker的推理速度比直接预测方法慢，这可能会在某些实时应用中造成挑战。

总的来说，Rex-Thinker代表了物体指代领域的重要进步，它不仅提高了准确性，更引入了可解释性和可靠性这两个关键特性。通过模仿人类的思维过程，AI系统离真正理解我们的指令又近了一步。对于普通用户来说，这意味着未来的AI助手将能更准确地理解我们的复杂指令，并在无法完成任务时坦率地告诉我们原因，而不是给出令人困惑的错误回应。

有兴趣深入了解这项研究的读者可以访问研究团队的项目网站https://rexthinker.github.io/，或者查阅他们在GitHub上发布的代码https://github.com/IDEA-Research/Rex-Thinker。

人工智能链式推理视觉识别

分享至

0赞

好文章，需要你的鼓励

推荐文章

人工智能
数据合成
大语言模型

2025-07-16 10:01

北航大学团队推出Easy Dataset：让普通人也能制作AI训练数据的神奇工具

北航团队推出Easy Dataset框架，通过直观的图形界面和角色驱动的生成方法，让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能，在金融领域实验中显著提升了AI模型的专业表现，同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
人工智能
自然语言处理
网络安全

2025-07-16 10:01

网络安全AI助手：让电脑漏洞危险等级一秒识别的RoBERTa智能系统

卢森堡计算机事件响应中心开发的VLAI系统，基于RoBERTa模型，能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练，准确率达82.8%，已集成到实际安全服务中。研究采用开源方式，为网络安全专家提供快速漏洞风险评估工具，有效解决了官方评分发布前的安全决策难题。
人工智能
推理模型评估
xVerify系统

2025-07-16 10:00

人工智能评判官：xVerify如何解决复杂推理模型的评估难题

中国电信研究院等机构联合开发的xVerify系统，专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出，在准确率和效率方面均超越现有方法，为AI评估领域提供了重要突破。
多模态推理
视觉语言模型
深度学习

2025-07-16 10:00

只需输入音频就能生成说话人视频？昆仑集团推出的Skywork R1V让AI同时看懂图片和推理数学

昆仑公司Skywork AI团队开发的Skywork R1V模型，成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能，在MMMU测试中达到69.0分，在MathVista获得67.5分，同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术，成功实现了视觉理解与逻辑推理的完美结合，并将所有代码和权重完全开源。