在人工智能研究领域,有一个关键问题长期困扰着科学家们:如何让机器准确理解并执行我们的指令?特别是当我们要求计算机识别图像中特定物体时,这个挑战变得尤为复杂。由国际数字经济研究院(IDEA)、华南理工大学和北京大学的研究团队最近带来了令人振奋的突破。他们的研究成果《Rex-Thinker: 基于链式推理的物体指代定位》于2025年6月4日发布在arXiv预印本平台(arXiv:2506.04034v1),为解决这一难题提供了全新思路。
想象一下,如果有人让你"找出戴着黄色领带的人右边的女士",你会怎么做?你可能会先找到戴黄色领带的人,然后看看他右边是否有女士。这个看似简单的思考过程,恰恰是当前人工智能系统所缺乏的。大多数现有的AI系统更像是一个黑盒子,它们直接给出答案,却无法解释思考过程,更无法在找不到匹配对象时坦率地说"没有找到"。
蒋庆、陈星宇和他们的研究团队认为,一个真正可靠的物体指代系统应该具备两个关键特性:一是可验证性,能够提供清晰的推理过程来证明它的判断;二是可信任性,在图像中没有匹配物体时能够主动拒绝作答。为此,他们开发了名为"Rex-Thinker"的系统,将物体指代任务转变为一个显式的链式推理过程。
这个系统的工作方式非常像人类的思考方式。例如,当我们要求它"找出穿红色衬衫的人"时,Rex-Thinker会先识别出图像中所有的人,然后逐一检查每个人的衣着,最后才给出最终判断。整个过程分为规划、行动和总结三个阶段,就像我们解决问题时会先制定计划,然后按计划行动,最后总结结果一样。
为了让这个系统能够学会这种人类式的推理,研究团队构建了一个名为"HumanRef-CoT"的大规模数据集,其中包含了90,824个示例,每个示例都配有详细的推理过程。他们通过提示GPT-4o模型在HumanRef数据集上生成这些推理过程,确保每个推理都遵循规划-行动-总结的结构,使模型能够学习分解式、可解释的推理能力。
研究团队采用了两阶段训练方法:首先进行监督式微调,教会模型如何执行结构化推理;然后使用基于GRPO(群体相对策略优化)的强化学习来进一步提高准确性和泛化能力。实验结果显示,Rex-Thinker在精确度和可解释性方面都超过了标准基线方法,尤其在拒绝幻觉输出方面表现出色。此外,即使在域外评估中,该模型也展示了强大的泛化能力。
让我们通过一个具体例子来理解Rex-Thinker的工作方式。假设我们请它找出"坐在龟背上的人"。Rex-Thinker会先制定计划:第一步识别所有的龟,第二步检查每只龟背上是否有人。在执行阶段,它会仔细分析图像中的每个区域,比如"人物1穿着红色衣服站在秋千上,没有坐在龟背上","人物3戴着红帽子,穿着红色衣服,正坐在绿色的龟背上"。最后,它会总结结果:"人物3是坐在龟背上的人"。整个过程清晰可见,让用户能够理解系统是如何得出结论的。
相比传统方法直接输出边界框坐标,Rex-Thinker的链式推理方法提供了更高的透明度和可靠性。当图像中没有符合描述的物体时,它能够明确表示"图像中没有这样的物体",避免了强行给出错误答案的问题。
研究团队进一步研究了他们的方法在不同场景下的表现。在HumanRef基准测试中,Rex-Thinker在属性、位置、交互、推理和名人识别等各种类别中都取得了优异成绩。特别是在拒绝测试中,该模型实现了68.2%的得分,远高于其他方法。在域外评估中,即使是在未曾见过的RefCOCOg数据集上,仅用HumanRef-CoT训练的模型也表现出强大的零样本泛化能力。
这项研究的意义不仅限于技术突破。想象一下,当我们要求自动驾驶汽车"避开那个骑自行车的孩子",或者请智能家居系统"关掉厨房里的灯"时,系统能够像人类一样理解并解释它的行动,这将极大地提高AI系统的可用性和安全性。
虽然Rex-Thinker展示了令人印象深刻的性能,但研究团队也指出了一些局限性。例如,在处理涉及多个物体之间复杂互动关系的场景时,该模型表现相对较弱。另外,由于采用了链式推理的方式,Rex-Thinker的推理速度比直接预测方法慢,这可能会在某些实时应用中造成挑战。
总的来说,Rex-Thinker代表了物体指代领域的重要进步,它不仅提高了准确性,更引入了可解释性和可靠性这两个关键特性。通过模仿人类的思维过程,AI系统离真正理解我们的指令又近了一步。对于普通用户来说,这意味着未来的AI助手将能更准确地理解我们的复杂指令,并在无法完成任务时坦率地告诉我们原因,而不是给出令人困惑的错误回应。
有兴趣深入了解这项研究的读者可以访问研究团队的项目网站https://rexthinker.github.io/,或者查阅他们在GitHub上发布的代码https://github.com/IDEA-Research/Rex-Thinker。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。