
这项由伊利诺伊大学厄巴纳-香槟分校、佐治亚理工学院、亚马逊AGI和韩国大学联合完成的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.15764。有兴趣深入阅读原文的读者,可以通过该编号在arXiv平台上检索完整论文。
**当机器不懂"眼色"的时候**
假设你正在观看一段聚餐视频,桌边坐着五个人。其中一个人转向旁边的朋友,眼神停留了两秒,另一个人注意到这个眼神,随即也把头转向同一方向。与此同时,对面的人伸出手指,指向桌上的一盘菜,引来了其他三个人的目光。这整个过程里,没有人开口说一句话,但每个在场的人都清楚地知道:谁在跟谁说话,谁在关注什么,谁刚刚引起了大家的注意。
人类天生就能读懂这些无声的信号。眼神、手势、点头、侧身——这些细微的非言语动作构成了人类社交互动最底层的"语言"。然而,当下最先进的多模态大语言模型(可以理解为能同时看图像、看视频、理解文字的超级AI)却在这件事上表现得出人意料地笨拙。它们能识别画面里有几个人,能描述大概发生了什么,但如果你问它"视频里Person 2在指着谁",或者"Person 3的目光是跟着谁的眼神移动的",模型往往答得一塌糊涂——不是因为它没有"看",而是因为它根本不知道该"看"什么。
正是为了解决这个问题,研究团队构建了一个名为GRASP的大规模数据集,并配套提出了一种全新的训练方法,帮助AI模型真正学会"读懂"多人社交视频中的眼神与手势互动。
---
一、为什么AI读不懂眼色?问题究竟出在哪里
要理解这个问题,先来做个类比。假设你是个侦探,要弄清楚一个派对上究竟谁跟谁有关联。你手里有一张派对的照片,照片上有十个人。如果有人告诉你"照片里有人互相看着对方",你大概能猜到可能是谁,但你无法确定;如果有人告诉你"第3秒时,左边戴帽子的人把目光移向了右边穿蓝衣服的人,而此时中间拿饮料的人正好用手指向桌上的盘子",你的判断就精准得多了。
当前的AI模型面临的困境,很像一个只被告知"照片里有人互相看"的侦探。现有的研究把眼神估计和手势识别分成了两个完全独立的领域:一边的模型专门负责预测"某个人在看哪里",另一边的模型专门负责识别"这个手势是什么类型"。这两件事做得各自不错,但没有人把它们放在一起,也没有人试图回答更重要的问题:在一个多人场景里,这些眼神和手势组合在一起,到底说明了什么社交关系?
更糟糕的是,当研究人员尝试让现有的大型多模态AI直接回答社交推理问题时,模型倾向于走捷径——它们会根据语言层面的常识和场景整体印象来猜答案,而不是真正去分析视频里每个人的行为细节。就像一个侦探不去查指纹、不去问目击者,而是根据"这种事通常是谁干的"来下结论。这在日常闲聊中或许够用,但在真正复杂的社交推理面前,这种做法会频繁出错。
---
二、GRASP数据集:给AI一套"社交教材"
研究团队为了从根本上解决这个问题,选择了一条"从头打地基"的路——构建一个真正面向社交推理的大规模训练数据集,取名GRASP(Grounded Reasoning And Social Perception,扎根式推理与社会感知)。
GRASP包含了来自六类多人社交视频的内容:多方电视对话(如美剧Friends)、社会智能推理视频、多人演讲场景、具身式多人行为视频,以及社会推理游戏视频(比如狼人杀类型的游戏)。这些视频来源非常多样,涵盖了餐桌对话、室内聚会、游戏对局等各种日常社交场景,总计46000个视频片段,时长合计749小时。
在这些视频的基础上,研究团队设计了一套自动化处理流水线,将每个视频片段转化成结构化的"社交事件图谱"。这套流水线分三个主要步骤进行。
第一步是人物追踪与目光标注。对于每一段视频,系统首先用一个名为SAM 3的目标检测模型,将视频中每个出现的人用边框标记出来,并且在整个视频里保持同一个人的ID不变——换句话说,同一个人从头到尾都叫"Person 2",不会因为摄像机角度变化而搞混。接着,系统用一个专门的人脸检测工具找到每个人的脸部位置,再用GazeAnywhere这个模型估计每个人在每一帧里"在看哪里",输出一个归一化的坐标点。这样下来,每个视频里的每个人,在每个时刻,都有了一条稳定的"目光轨迹"记录。
原始的目光数据有很多噪声——人脸被遮挡时会有缺失,摄像机移动时会有抖动。为了得到干净可用的数据,系统对短暂缺失的帧做了插值补全,并且将目光运动的速度计算从"相对于画面"改为"相对于自己的脸部",这样摄像机运动就不会干扰目光方向的判断。此外,系统还计算了一个"群体聚焦分数"——如果视频里多个人的目光方向都指向差不多同一个位置,这个分数就高;如果大家看的方向很分散,分数就低。
基于这些处理后的数据,系统定义了五种社交目光事件。相互注视,指的是两个人互相看着对方的脸;共同关注,指的是多个人同时把目光投向同一个目标;目光跟随,指的是某个人看向了另一个人之前刚才看过的方向,有一定的时间延迟;注意力捕获,指的是三个及以上的人几乎同时把目光移向同一方向;以及突然目光转移,即某个人的目光方向发生了急速变化。整个数据集最终提取到了21万条高可信度的目光事件。
第二步是手势检测。这里研究团队用了Gemini这个大型语言视觉模型作为标注工具。为了让Gemini能准确识别谁在做手势、手势从什么时候开始到什么时候结束,团队给每一帧视频叠加上了人物ID标签和时间戳水印——相当于在视频画面里直接印上"当前时间t=3.50秒"和"此人是P2"。这种设计让模型可以像读文字一样读取时间和身份信息,大大减少了时间定位的错误。
系统只关注四种"指示性手势":指向某人或某物、展示物品供他人观看、将物品递给另一人、伸手去拿某个物品。这四种手势都有明确的社交意图和目标指向,不会引入太多歧义。为了确保标注质量,系统还设计了一个自我纠错循环——每次标注完成后,另一个验证程序会给结果打分,如果分数不够高,就用上一次的结果和评分报告作为反馈,重新生成标注,直到质量达标为止。最终得到了88000条可信手势记录。
第三步是将目光事件和手势事件合并成统一的社交图谱。这个图谱里的每个节点都是一个社交事件,带有事件类型、参与者ID、起止时间等信息。如果一个目光事件和一个手势事件在时间上相差不超过3秒,它们就会被连接成一对"联合模态事件"——比如"Person 1在指向Person 3的同时,Person 2的目光跟着转向了Person 3"。这类联合事件正是最复杂、也最有价值的社交推理素材。整个数据集共构建了24.5万个社交事件,横跨46000个视频片段。
---
三、16类问答体系:从最简单到最烧脑
有了这套结构化的社交图谱,研究团队设计了一套16类问答分类体系,用于生成训练和评测用的问答题。这16类覆盖了从最基础的感知问题到最复杂的跨模态推理问题,按照难度分为三个层级。
目光推理类(T1至T6)从最基础的"Person 0在2.7秒时在看谁"开始,逐步升级到"在1.5秒到3秒的目光跟随事件里,谁先看向目标",再到"在2到3秒的共同关注事件里,哪个人不在这个群体里"。前几类直接问感知结果,后几类需要理解时间顺序和群体动态。
手势推理类(G1至G6)同样从基础开始,"3到5秒之间Person 3在指向谁"属于简单类,中等难度的问题涉及手势时长和顺序,难度最高的问题要求分析手势链条——"Person 1在7.5到10秒之间指向了某人,那个被指向的人后来做了什么手势"。
联合推理类(J1至J4)是整个分类体系中最具挑战性的部分,因为回答这些问题需要同时理解目光和手势两种信号。比如J1类问"Person 0的突然目光转移和指向Person 2的手势,哪个先发生";J2类问"就在Person 0开始指向卡牌的那一刻,他在跟谁对视";J4类则需要跨越整个视频时间轴,找到"谁既参与了展示手势又参与了所有目光事件"。
这套分类体系一共生成了29万个问答对,其中多选题格式的有23.8万条用于后续的强化学习训练,开放式回答格式的有5.2万条用于第一阶段的监督微调训练。另外还专门划出了1000条精选题目作为GRASP-Bench评测集,用于比较不同模型的表现。
---
四、Social Grounding Reward:给AI装一个"对准目标"的罗盘
有了数据集还不够。研究团队发现,直接把多选题扔给AI训练并不能解决"走捷径"的问题。这就像给侦探学员一堆案件让他们练习,但如果从不检查他们是否真的去查了证据、还是只是靠猜测答对了,那么学员很快就会学会靠猜而不是靠推理来通过测试。
为此,研究团队设计了一套两阶段训练方法,核心是一个名为Social Grounding Reward(社会锚定奖励,简称SGR)的学习信号。
第一阶段是监督微调热身。在直接进行强化学习之前,模型先要经历一轮"手把手教"的过程。研究团队为每道题提供了标准的回答格式:模型在思考过程中必须明确写出"这段时间里谁的目光发生了什么"和"这段时间里谁做了什么手势",然后才能给出最终答案。这种格式要求模型在回答之前,先把相关的视觉证据"翻译"成语言——就像侦探在下结论之前必须先把调查到的线索一一陈列清楚。
第二阶段是强化学习精调。在热身阶段之后,模型进入强化学习训练,通过生成多个候选答案并根据奖励信号来优化自己的策略。这里的奖励信号由四部分组成。答案正确性奖励最为基础,答对了才给分。输出格式奖励确保模型始终按要求的结构来回答。结构标签奖励则专门检查模型是否在思考过程中使用了目光标签和手势标签,鼓励它把非言语证据明确表达出来。
最关键的是第四个部分:社会锚定奖励(SGR)。这个奖励的逻辑非常直接——对于每道题,研究者知道这道题背后涉及了哪些人(比如这道题是关于Person 1和Person 3之间的目光跟随事件的)。如果模型在它的目光标签和手势标签里,确实提到了这两个人,就说明它的推理过程"对准"了正确的参与者;如果它提到了很多无关的人,或者只提到了其中一个人而漏掉了另一个,奖励就会相应降低。
这种奖励设计的妙处在于它的精准性。它不要求模型解释为什么这两个人重要,也不要求它对整个场景做全面分析——它只问一个问题:你在推理过程中有没有关注到真正相关的那几个人。这把"推理有没有对准目标"这件原本难以量化的事情,变成了一个可以自动计算的信号。
---
五、实验结果:SGR的效果究竟如何
研究团队在GRASP-Bench上对大量模型进行了系统评测,比较对象涵盖了三类:Claude Sonnet、GPT-5、Gemini 3.1 Pro等商业闭源模型;Qwen2.5-VL、InternVL3.5、LLaVA-OV等开源指令微调模型;以及VL-Rethinker、Video-R1、VideoChat-R1.5等经过强化学习后训练的推理模型。
在评测结果里,有几个现象值得特别关注。
首先,商业大模型并不总是最强的。Gemini 3.1 Pro在整体上以50.5分的平均准确率位居榜首,GPT-5达到43.9分,但仅经过指令微调的开源模型Qwen3.5-9B已经能达到43.0分的水平,相差不大。
其次,"多想一会儿"不一定有帮助。研究团队发现,在这个任务上,推理型模型(即被训练成在回答之前先做长篇思考的模型)并不比非推理的指令微调模型表现好,有时甚至更差。比如Qwen3.5-9B在思考模式下只有31.7分,而在普通指令模式下却有43.0分。这说明对这类社交推理任务而言,问题不在于"想得不够多",而在于"想偏了"——模型花了很多时间在语言层面的逻辑推断上,而忽略了真正需要的视觉证据分析。
在论文中展示的一个具体例子很能说明问题:一道题问"Person 2在3到8秒之间指向Person 0,在同一时间段里Person 3在跟随谁的目光"。Video-R1和VL-Rethinker两个模型都产生了很长的思考过程,但它们最终的逻辑是"Person 2在指Person 0,所以Person 3应该也在看Person 2的方向,也就是Person 0"——这是一种基于常识推断的捷径,而不是真正分析视频里Person 3的目光移动轨迹。这两个模型都答错了。相比之下,加了SGR训练的模型在思考过程中明确写出了"3到4秒:Person 3跟随了Person 1的目光方向;6到8秒:Person 3再次跟随了Person 1的目光方向",然后得出"Person 3在追踪Person 1的注意力方向,而不是指向目标Person 0",答案为Person 1,完全正确。
用了SGR训练的两个模型在GRASP-Bench上的表现分别是:Qwen3-VL-8B+SGR达到50.4分,Qwen3.5-9B+SGR达到52.6分,双双超越了所有其他开源模型,也基本持平甚至略超GPT-5。
更重要的是,SGR训练带来的提升具有跨任务迁移性。研究团队在三个额外的社交推理基准上进行了零样本测试(即完全不在这些测试集上训练,直接测试),包括MMSI(多人社交推理,包含发言目标识别、代词指代解析和玩家预测三个子任务)、Online-MMSI(同样的任务但只用历史帧)和TVQA+(基于TV剧的时空定位问答)。结果显示,SGR训练的模型在这三个基准上的表现与对应的基础模型相当甚至略有提升,说明GRASP的训练没有导致过度专门化,学到的是真正可以迁移的社交推理能力。
---
六、为什么SGR有效:精准比冗长更重要
研究团队对SGR的内在机制做了深入分析,揭示了一些颇为有趣的规律。
通过统计每个模型在推理过程中提到的"相关参与者比例"——也就是说,模型的分析里提到的人,有多少是这道题真正涉及的人——研究者发现这个比例和模型的最终准确率之间存在明显的正相关,相关系数达到0.64。换句话说,推理过程中"指对了人"的模型,答题正确率也更高。这验证了SGR的设计假设:对准目标人物是社交推理成功的核心前提。
有趣的是,大多数基线模型(特别是强化学习训练的推理模型)在分析时倾向于把场景里所有可见的人都提一遍——这是一种"万一说错了就多说几个"的策略,但它反而拉低了推理的精准度,导致答案判断出现混乱。SGR训练的模型则相反,它们提到的人更少、更精准,只关注真正相关的参与者,因而分析更清晰,答对率也更高。
研究团队还专门做了一个"ID污染"测试,用来排除一种潜在的担忧:SGR训练的模型会不会只是学会了"复制题目里提到的人的ID"这种表面技巧,而不是真正理解视频内容。测试方法是把题目和选项里所有的人物ID都统一替换成另一套编号,但视频本身保持不变,且正确答案的位置字母不变。如果模型只是在复制ID,那么这种替换不应该影响它的表现;但如果模型真的在把文字ID对应到视频里的具体人物上,这种替换就会导致准确率下降。结果表明,SGR训练的模型在ID替换后,准确率从50.4分大幅下降至32.6分,Qwen3.5-9B+SGR从52.6分降至32.0分,证明模型确实依赖于文字ID与视频内容的对应关系,而非表面的ID复制。
关于推理长度,研究团队的发现也颇有启示意义。在所有基线模型中,推理过程越长并不意味着答题越准确——两者之间几乎没有相关性(相关系数仅0.039)。而SGR训练的模型不仅准确率更高,推理的平均长度还略有缩短。这说明在社交推理任务里,关键不在于"想得多",而在于"想得准"。
---
七、失败案例与局限性:诚实面对还没解决的问题
研究团队没有回避系统的局限性,在论文里明确展示了两类典型的失败案例。
第一类是手势的视觉歧义。在某个例子里,被询问的时间段内,Person 0的动作处于一个"伸手过渡状态"——在这几秒里,手的动作既像在指向,又像在伸手取物。模型根据这段时间的视觉信息判断为"指向",但实际答案是"伸手取物",因为后续帧里手的动作更明确地显示出了取物意图。这类视觉层面的歧义即使对人类标注者来说也有难度,对模型来说更是挑战。
第二类是密集目光事件的混淆。当一段视频里同时发生多个目光事件,且涉及多个不同的人时,模型有时会漏掉其中某一个关键的目光转移,导致推理链条出现缺口,最终答案出错。
在整体数据集质量方面,人工验证结果显示约74.2%的问答对可以被评为"视觉支撑充分、时间定位准确、答案无歧义",手势类和联合类问答的质量略高(分别为78.9%和80.0%),目光类问答的质量相对低一些(65.6%),主要是因为多人密集场景下目光方向的视觉判断本身就比较模糊。研究者承认,自动化流水线在这种场景下仍然会产生一定比例的噪声标注。
---
八、这意味着什么:社交智能的下一步
说到底,GRASP和SGR这套框架做的事情,是把一个原本极度依赖人工、成本高昂的工作——标注视频里每个人在每个时刻的目光和手势——变成了一个可以自动扩展的流水线,并在此基础上提供了一个直接、有效的训练信号,让模型学会在推理时关注正确的人。
这个研究的意义并不仅仅在于GRASP-Bench上那几个百分点的提升。它指向了一个更根本的问题:AI系统要真正理解人类社交互动,仅仅识别"画面里有人在指东西"是远远不够的。它必须知道是谁在指、指向谁、在什么时间背景下、其他人的目光反应是什么——这些信息组合起来,才构成一个可以被解读的社交事件。
对于未来的应用,这套框架有着相当直接的落地路径。在辅助技术领域,理解社交非言语信号的AI可以帮助自闭症谱系人士理解他们可能不擅长解读的社交线索;在人机交互领域,能理解多人会议中眼神和手势的AI助手可以更准确地判断谁在跟谁说话;在具身智能领域(即有实体形态、能在现实世界行动的机器人),一个能读懂"有人伸手指向某处"这一信号的机器人,才能更自然地响应人类的引导。
不过,研究者也明确指出,SGR目前的验证深度停留在"参与者层面"——它检查的是模型有没有关注到对的人,但还没有延伸到"时间对不对"和"事件逻辑对不对"这两个层面。未来的工作中,加入更严格的时间一致性验证和更丰富的社交线索类型(比如肢体语言、面部表情),将会是继续推进这个方向的重要课题。
对于普通读者而言,这项研究最值得带走的思考是:我们每天与他人交流时依赖的那些无声信号,远比我们意识到的更加复杂和信息丰富。让AI真正学会理解这套"无声语言",不仅需要更好的模型,还需要更好的数据——以及更聪明的方式告诉模型"你需要关注的是这个人,不是所有人"。GRASP和SGR是这条路上一个扎实的起点,但离终点,还有很长的距离要走。对此有兴趣的读者,可以通过arXiv编号2605.15764查阅完整论文,了解所有技术细节和实验数据。
---
Q&A
Q1:GRASP数据集和普通视频问答数据集有什么本质区别?
A:GRASP的核心区别在于它的问答是从自动提取的"社交事件"生成的,每个问题都对应视频里发生的真实目光或手势互动,答案来自结构化字段而非人工编写,因此规模大(29万条)且可验证。普通视频问答数据集通常关注事件识别或场景描述,不涉及具体人物间的非言语互动关系,也不追踪谁在什么时间看了谁、指了谁。
Q2:Social Grounding Reward具体是怎么打分的?
A:SGR的打分逻辑是精准比对。对于每道题,系统知道这道题背后涉及的正确参与者是哪些人。训练时,模型在思考过程中写出的目光和手势分析里,提到了哪些人名会被提取出来,和正确参与者做精确度和召回率的计算——既惩罚把所有人都提一遍的"乱枪打鸟",也惩罚漏掉关键人物的情况,最终给出一个介于0到1之间的奖励值。
Q3:这类研究对普通人的日常生活会有什么影响?
A:短期内,这类技术可能会让视频会议工具更智能(比如自动识别会议里谁在引导讨论、谁的发言被忽视),让辅助沟通工具更精准(比如帮助沟通困难人群理解他人眼神意图),以及让家庭机器人更自然地响应人类指引手势。长期来看,能真正理解社交非言语信号的AI是构建具备社会智能的通用助手的基础。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。