微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 像你一样思考:链式推理让计算机更好地理解我们的指令

像你一样思考:链式推理让计算机更好地理解我们的指令

2025-06-07 16:01
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 16:01 科技行者

在人工智能研究领域,有一个关键问题长期困扰着科学家们:如何让机器准确理解并执行我们的指令?特别是当我们要求计算机识别图像中特定物体时,这个挑战变得尤为复杂。由国际数字经济研究院(IDEA)、华南理工大学和北京大学的研究团队最近带来了令人振奋的突破。他们的研究成果《Rex-Thinker: 基于链式推理的物体指代定位》于2025年6月4日发布在arXiv预印本平台(arXiv:2506.04034v1),为解决这一难题提供了全新思路。

想象一下,如果有人让你"找出戴着黄色领带的人右边的女士",你会怎么做?你可能会先找到戴黄色领带的人,然后看看他右边是否有女士。这个看似简单的思考过程,恰恰是当前人工智能系统所缺乏的。大多数现有的AI系统更像是一个黑盒子,它们直接给出答案,却无法解释思考过程,更无法在找不到匹配对象时坦率地说"没有找到"。

蒋庆、陈星宇和他们的研究团队认为,一个真正可靠的物体指代系统应该具备两个关键特性:一是可验证性,能够提供清晰的推理过程来证明它的判断;二是可信任性,在图像中没有匹配物体时能够主动拒绝作答。为此,他们开发了名为"Rex-Thinker"的系统,将物体指代任务转变为一个显式的链式推理过程。

这个系统的工作方式非常像人类的思考方式。例如,当我们要求它"找出穿红色衬衫的人"时,Rex-Thinker会先识别出图像中所有的人,然后逐一检查每个人的衣着,最后才给出最终判断。整个过程分为规划、行动和总结三个阶段,就像我们解决问题时会先制定计划,然后按计划行动,最后总结结果一样。

为了让这个系统能够学会这种人类式的推理,研究团队构建了一个名为"HumanRef-CoT"的大规模数据集,其中包含了90,824个示例,每个示例都配有详细的推理过程。他们通过提示GPT-4o模型在HumanRef数据集上生成这些推理过程,确保每个推理都遵循规划-行动-总结的结构,使模型能够学习分解式、可解释的推理能力。

研究团队采用了两阶段训练方法:首先进行监督式微调,教会模型如何执行结构化推理;然后使用基于GRPO(群体相对策略优化)的强化学习来进一步提高准确性和泛化能力。实验结果显示,Rex-Thinker在精确度和可解释性方面都超过了标准基线方法,尤其在拒绝幻觉输出方面表现出色。此外,即使在域外评估中,该模型也展示了强大的泛化能力。

让我们通过一个具体例子来理解Rex-Thinker的工作方式。假设我们请它找出"坐在龟背上的人"。Rex-Thinker会先制定计划:第一步识别所有的龟,第二步检查每只龟背上是否有人。在执行阶段,它会仔细分析图像中的每个区域,比如"人物1穿着红色衣服站在秋千上,没有坐在龟背上","人物3戴着红帽子,穿着红色衣服,正坐在绿色的龟背上"。最后,它会总结结果:"人物3是坐在龟背上的人"。整个过程清晰可见,让用户能够理解系统是如何得出结论的。

相比传统方法直接输出边界框坐标,Rex-Thinker的链式推理方法提供了更高的透明度和可靠性。当图像中没有符合描述的物体时,它能够明确表示"图像中没有这样的物体",避免了强行给出错误答案的问题。

研究团队进一步研究了他们的方法在不同场景下的表现。在HumanRef基准测试中,Rex-Thinker在属性、位置、交互、推理和名人识别等各种类别中都取得了优异成绩。特别是在拒绝测试中,该模型实现了68.2%的得分,远高于其他方法。在域外评估中,即使是在未曾见过的RefCOCOg数据集上,仅用HumanRef-CoT训练的模型也表现出强大的零样本泛化能力。

这项研究的意义不仅限于技术突破。想象一下,当我们要求自动驾驶汽车"避开那个骑自行车的孩子",或者请智能家居系统"关掉厨房里的灯"时,系统能够像人类一样理解并解释它的行动,这将极大地提高AI系统的可用性和安全性。

虽然Rex-Thinker展示了令人印象深刻的性能,但研究团队也指出了一些局限性。例如,在处理涉及多个物体之间复杂互动关系的场景时,该模型表现相对较弱。另外,由于采用了链式推理的方式,Rex-Thinker的推理速度比直接预测方法慢,这可能会在某些实时应用中造成挑战。

总的来说,Rex-Thinker代表了物体指代领域的重要进步,它不仅提高了准确性,更引入了可解释性和可靠性这两个关键特性。通过模仿人类的思维过程,AI系统离真正理解我们的指令又近了一步。对于普通用户来说,这意味着未来的AI助手将能更准确地理解我们的复杂指令,并在无法完成任务时坦率地告诉我们原因,而不是给出令人困惑的错误回应。

有兴趣深入了解这项研究的读者可以访问研究团队的项目网站https://rexthinker.github.io/,或者查阅他们在GitHub上发布的代码https://github.com/IDEA-Research/Rex-Thinker。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-