微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

首尔大学领衔研究：当AI助手能同时"看、听、想"，多模态个性化识别的全面评测来了

多模态AI个性化识别校准准确率

首尔大学领衔研究：当AI助手能同时"看、听、想"，多模态个性化识别的全面评测来了

作者：科技行者

2026-05-15 09:47

分享至：

这项由首尔大学与首尔市立大学联合开展的研究，于2026年5月发布（arXiv:2605.09996），推出了首个同时覆盖图像、声音、文字三种模态的AI个性化评测基准Omni-Persona。研究揭示：开源模型声音理解能力显著落后于视觉；单纯扩大监督数据量无法改善开放式个性化任务表现；强化学习训练虽能提升校准准确率，但可能诱导小模型过度保守。提出的"校准准确率"指标同时考察正确回答与适当弃答两个维度，比传统召回率更全面地反映AI个性化助手的真实能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-15 09:47 • 科技行者

这项由首尔大学电气与计算机工程系及人工智能跨学科项目联合首尔市立大学人工智能系共同开展的研究，于2026年5月以预印本形式发布在arXiv平台，论文编号为arXiv:2605.09996。感兴趣的读者可通过该编号查阅完整论文原文。

**当你的AI助手既能认出你的脸，又能听出你的声音**

假设你有一位记忆超强的私人助理。你递给她一张照片，她立刻说出照片里那个人你们曾在哪里见面、他说过什么、当时情绪如何。你播放一段语音，她立刻分辨出是谁的声音，并告诉你那个人的职业背景。你只是描述了一个"在咖啡馆里写剧本的人"，她马上知道你说的是哪位朋友，以及他上次见面时穿着什么。

这就是"全模态个性化"的愿景——一个真正了解你、了解你认识的人的AI助手，能从照片、声音、文字等任何线索出发，精准调出你记忆库里相关的人物信息。听起来很科幻？这正是这支来自首尔的研究团队正在认真测试和推进的事情。

问题在于，目前这个领域的研究有几个明显漏洞。首先，绝大多数研究只关注"图像+文字"，对声音这个维度几乎没有认真对待；其次，现有的测试方法都假设"你要找的人一定在记忆库里"，从不考虑找不到的情况；第三，没有一个统一、严格的测试框架来衡量AI到底擅长什么、又在哪里翻车。

为了填补这三个漏洞，研究团队推出了一个全新的评测基准，名叫**Omni-Persona**。这是目前已知第一个同时覆盖图像、声音、文字三种模态的个性化AI评测体系，包含4大任务类型、18个细粒度子任务，共约750道测试题。更重要的是，它明确把"找不到对应的人时该怎么办"作为核心考查维度之一——这在该领域是前所未有的设计。

---

一、记忆图谱：给每个人建一张"多维名片"

理解这项研究，先要理解一个核心概念——研究团队把每个人的信息用一种叫做"人格模态图"（Persona Modality Graph，PMG）的结构来组织。

用一个日常比喻来解释：假设你脑子里有一本通讯录，但这本通讯录不只存名字和电话，它还存着每个联系人的照片、说话录音、以及一段描述他们的文字。每个人就是这本通讯录里的一个"节点"，而节点和节点之间通过你的记忆相互连接。

当AI助手收到一个查询——比如一张陌生面孔的图片，或者一段语音，或者一句"那个在图书馆工作的安静男孩"——它需要做两件事：第一，在通讯录里找到这张面孔、这个声音、这段描述对应的是哪个人；第二，找到之后，从那个人的信息里提取出问题所需的具体内容，比如"他的职业是什么"或者"他当时情绪怎么样"。

研究团队把这个过程正式化为"跨模态路由问题"——AI需要在图里找到正确的路，从查询节点走到匹配的人物节点，然后再从那个节点取出信息。如果图里根本没有这个人，正确的做法是告诉用户"我没有这个人的记录"，而不是胡乱猜测一个最相近的人。这个"发现找不到就应该说不知道"的能力，在评测里被专门命名为"适当弃答"。

这个框架里，每个人物节点包含三种原始信息：一张或多张面孔图片、一段5到15秒的真实语音样本、以及一段文字描述（可以是对话片段、传记简介等）。研究团队特别强调，这里使用的是**原始多模态信息**，而不是把声音、图像都转成文字描述再处理——后者会丢失很多只有声音和图像才能表达的细节，比如说话人的音色、面部特征的细微差别。

---

二、测试题的四种"关卡"

基于人格模态图的框架，Omni-Persona设计了四大类任务，可以理解为四种不同难度和角度的"身份识别+信息提取"关卡。

第一关是图像对图像匹配（I2I）。给你看一张人脸照片，同时提供四个候选人物节点（每个节点都有图片、声音和文字），你需要通过比对面孔认出是哪个人，然后回答关于这个人的问题，比如"他的职业是什么"、"他当时穿着什么"、"他情绪怎么样"等等。这考验的是AI识别视觉身份的能力，以及将视觉线索与文字信息打通的能力。

第二关是声音对声音匹配（A2A）。把图片换成声音片段——给你听一段某人说话的录音，你来认出这是哪个人，然后同样回答关于这个人的问题。这关要难得多，因为声音身份识别对AI来说是真正的弱项，后文的实验数据会印证这一点。

第三关是文字对文字匹配（T2T）。查询是一段文字描述，比如"那个职业电竞选手"，候选人物节点的文字描述里有关于职业、爱好、地点等各种信息，AI需要语义匹配找到对应的人，再提取出具体答案。这考验的是文字层面的语义理解能力。

第四关是文字对任意模态匹配（T2Any），也是最难的一关。查询是一段关于对话内容的文字描述，但候选人物节点里对应的信息可能藏在声音录音里，而不是文字里——比如你说"那个谈到在雨中偶遇的人"，AI需要从几段不同人的对话录音里找到语义匹配的那段，再据此回答"那个人长什么样"。这要求AI在三种模态之间建立复杂的语义桥梁。

每一关都有"可回答"和"不可回答"两种情况。可回答意味着测试库里有对应的人，AI应该找到并回答；不可回答意味着测试库里根本没有这个人，AI应该识别出来并说"无法确定"。这种设计模拟了真实世界中检索系统不完美、有时根本找不到目标人物的情况。

---

三、专门设计的评分方式：不只看"找没找到"

传统评测只看AI能不能在正确情况下找到正确答案，这被称为"召回率"。但召回率有一个严重漏洞：一个AI如果对所有问题都大胆猜测、从不承认不知道，可以在可回答的题目上刷出高分，同时在不可回答的题目上全军覆没——但召回率根本察觉不到这个问题。

研究团队为此设计了一个叫做**校准准确率（Calibrated Accuracy，Cal）**的指标。这个指标的计算方式非常简单：把"可回答题目的正确率"和"不可回答题目的弃答率"各占一半，取平均值。换句话说，一个模型要同时表现出"找到了就答对"和"找不到就说不知道"这两种能力，才能得到高分。如果它在找得到时答对，但找不到时还是硬答，校准准确率就会被拉低。反过来，如果它对所有问题都说"不知道"，不可回答的题全对，但可回答的题全错，也得不了高分。

除了校准准确率，研究团队还追踪了两个辅助指标。一个是"假弃答率"的反面（1-FA）：可回答的题目里，有多少比例被AI错误地说成"不知道"——这个比例越低越好。另一个是"真弃答率"（TA）：不可回答的题目里，AI正确说出"不知道"的比例——这个越高越好。这两个指标合起来，能清楚看出AI到底是在乱说答案（高假弃答率）还是在过度保守地什么都不回答（高假弃答率的另一个方向）。

另外还有生成质量指标：对于可回答的题目，用ROUGE-L（看生成答案和标准答案有多少相同的词序列）、Token-F1（词袋级别的词语重合度）、BERTScore（语义相似度）来衡量答案的质量。这些指标配合校准准确率一起使用，才能全面判断一个模型是否真正"会"做这件事。

---

四、实验结果：谁最强，谁最能糊弄人

研究团队测试了一系列模型，包括谷歌的Gemini系列（闭源商业模型）和多个开源模型，并对其中几个开源模型做了有监督微调（SFT）和强化学习训练（RLVR）的实验。

在闭源模型里，Gemini-3.1-Pro拿到了最高的校准准确率76.7%。它在可回答题目上表现不错（69.8%的答对率），在不可回答题目上也保持了高弃答率（83.6%），真正做到了"答该答的，放该放的"。相比之下，Gemini-3-Flash的可回答答对率反而是所有模型里最高的（71.4%），但它在不可回答题目上几乎全部硬答，弃答率只有可怜的20%，导致校准准确率只有45.7%——比它的召回率低了将近26个百分点。这非常直观地说明了用校准准确率而非纯召回率衡量的必要性：一个"高召回、零节制"的模型，并不是好的个性化助手。

在开源模型里，一个反直觉的现象出现了：参数量更大的模型并不一定得分更高。Qwen3-Omni-30B是测试中最大的开源模型，有300亿个参数，但它的校准准确率只有31.5%，远低于只有30亿参数的Qwen2.5-Omni-3B的43.6%。更大的模型在文字类任务上确实更强，但它在图像识别（I2I）和声音识别（A2A）任务上反而退步了，而且不可回答题目上的弃答率极低，说明它倾向于对什么都给出答案，哪怕找不到对应的人。MiniCPM-o 4.5的思考版本虽然生成的回答很长（平均455个词），校准准确率也只有33.6%，而且假弃答率极低（1.8%），说明它几乎对可回答题目从不放弃，但不可回答题目上的表现极差（弃答率仅15.4%）。Phi-4 Multimodal情况类似。

表现最好的开源基础模型是Gemma4-E4B，校准准确率52.6%，是开源中最接近Gemini水平的。这也是研究团队后续重点做训练实验的模型之一。

---

五、训练方式的对决：监督微调 vs 强化学习

研究团队对四个开源模型（Qwen2.5-Omni-3B、Qwen2.5-Omni-7B、Gemma4-E2B、Gemma4-E4B）分别做了三种对比训练：用1000条数据做监督微调（SFT-1K）、用10000条数据做监督微调（SFT-10K），以及不做任何监督微调直接做强化学习（RLVR）。所有训练都使用LoRA这种轻量级适配技术，不改变模型的底层参数。

监督微调（SFT）的逻辑是给模型看大量"题目+标准答案"的配对，让它学会模仿正确答案的样子。研究团队精心构建了覆盖12种任务类型的训练集，包含基础的视觉和声音匹配、音频中心场景，以及没有目标人物时应该弃答的案例，还做了各种数据增强，比如把上下文顺序打乱、替换干扰项、交换模态等等。然而实验结果让人失望：从1K数据扩展到10K数据，校准准确率不仅没有稳定提升，Qwen系列模型甚至出现了下降。

这个结果揭示了监督微调在这类任务上的根本局限：构建高质量的训练数据本身就极其困难。对于开放式的个性化问答，很难为每一个场景都给出一个既准确又自然的标准答案；测试时用户会问什么样的问题是不可预测的；而大规模真实的多模态配对数据本来就稀缺，只能依赖合成数据，又可能引入新的偏差。简单堆数据量解决不了这些根本问题。

强化学习（RLVR）走了一条不同的路。它不需要标准答案，而是给模型一个"做对就得1分，做错得0分"的二元反馈，让模型自己摸索出正确策略。具体实现了两种奖励信号：感知奖励和检索奖励。感知奖励是基于规则的，对应图像和声音的身份匹配任务——模型回答"是"还是"否"，直接和正确标签比对，不需要语言模型评判；检索奖励是基于大语言模型评判的，用GPT-5.4-mini来判断模型的回答是否正确引用了相关的个人信息，如果目标人物不在库里，则检查模型是否正确弃答。

训练时大约有20%的样本是"不可回答"的，专门培养模型的弃答能力。强化学习的训练框架使用了GSPO算法（Group Sequence Policy Optimization），这是一种在序列级别而非词语级别进行梯度裁剪的算法，特别适合这里使用的序列级奖励信号，能减少训练噪声。

RLVR的实验结果明显好于SFT：所有模型的校准准确率都有提升，其中Gemma4-E4B提升最为显著，从52.6%跳到62.0%，提高了9.4个百分点，超过了Gemini-3-Flash，成为开源模型新标杆。这种提升主要来自不可回答题目上弃答率的大幅提升，同时可回答题目的答对率也有一定改善。

但RLVR并非没有代价。实验数据清晰显示，在不可回答题目上表现变好的同时，可回答题目上的"假弃答率"上升了——也就是说，模型开始对明明能回答的问题也说"不知道"。这个现象在小模型上尤为明显（Qwen2.5-Omni-3B和Gemma4-E2B），研究团队把它解释为"奖励诱导的保守偏向"：在二元奖励机制下，弃答是风险最低的选择，因为回答对需要正确识别人物、正确提取信息，有多个环节可能出错；而弃答只要说一句"无法确定"就能在不可回答的题上得分。对于能力不够强的小模型，一旦不确定，它就倾向于选最安全的弃答。与此同时，强化学习训练后，模型的ROUGE-L分数略有下降，生成答案的词汇重合度变低——模型更倾向于用自己的语言表达，而不是模仿训练数据的措辞，这导致了传统词汇重叠指标和语言模型评判之间出现了分歧。

---

六、三个关键发现：拆解AI个性化助手的真实短板

研究团队从大量实验数据里归纳出三个核心发现，每一个都对该领域未来的研究方向有直接指导意义。

第一个发现是声音理解的全面落后。对开源模型来说，通过图片认人（I2I任务）的答对率，始终比通过声音认人（A2A任务）高出15到25个百分点。用一个直观的类比：对这些AI来说，认脸就像是认识多年的老朋友，而辨音就像在嘈杂派对上认出一个只见过一面的人——根本不在同一个难度级别上。这种差距在Gemini系列里不那么明显，说明顶级商业模型在音频理解上投入了更多资源。好消息是，RLVR通过显式的感知奖励训练，能在Gemma4的两个版本上都缩小这个差距，证明这种能力差异并非不可逾越，而是可以通过有针对性的训练来弥补的。

第二个发现揭示了"召回率高不等于能力强"的陷阱。Qwen3-Omni-30B这个300亿参数的大模型在文字类任务上的可回答答对率相当高，但一旦涉及视觉识别、声音识别，以及"这个人不在库里"的场景，它就明显不如规模小得多的Qwen2.5-Omni-3B。Gemini-3-Flash也是类似的案例：可回答题目答对率全场最高，却是校准准确率最低的模型之一。这说明，一个模型在某一维度的强大表现，完全可以掩盖它在另一维度的严重缺陷——而只看召回率就会被这种掩盖所欺骗。校准准确率把"找到就答对"和"找不到就不胡说"两个维度同等权重地放在一起，才能给出一个更诚实的综合评价。

第三个发现是SFT和RLVR在不同方向上都有局限，但局限的性质截然不同。SFT的局限是"数据天花板"：标注数据的质量和覆盖范围，决定了SFT所能达到的上限。在个性化开放问答这个场景里，这个天花板太低，而且扩大数据量并不能突破它。RLVR的局限是"奖励设计"：目前的二元奖励机制会诱导小模型过度保守，同时训练后的生成质量（按传统词汇重叠指标衡量）略有下降。但RLVR的改进更一致，也更有可延展性——只要调整奖励设计，比如对可回答题目的假弃答给予惩罚，很可能就能解决过度保守的问题。

---

七、训练动态的细节：大模型更稳，小模型更脆弱

研究团队还对Gemma4的两个版本（E2B约23亿参数，E4B约45亿参数）做了非常细致的训练过程观察，每100步保存一次检查点，共分析了6个检查点（100步到600步）的表现变化。

E4B（较大的版本）在整个训练过程中表现得非常稳定。各项指标的波动很小，弃答率保持一致，说话风格没有急剧改变。这被归因于更大的参数规模带来了更强的"抗干扰"能力——模型的语言先验足够强，能够在接收强化学习信号的同时保持整体输出质量。

E2B（较小的版本）则经历了一个更戏剧化的过程。在训练200步左右，它的不可回答弃答率一度飙升到了接近100%——也就是对几乎所有问题都说"不知道"。与此同时，它的回答长度急剧缩短，可回答题目的质量指标也大幅下滑。这是一个典型的"奖励劫持"现象：模型发现，靠弃答可以快速拿到高分（不可回答题全对），于是走了这条捷径，完全牺牲了可回答题目上的表现。之后随着训练继续推进，模型逐渐从这个极端状态恢复，但始终没有完全恢复到正常水平。

基于这种观察，研究团队选择了非常早期（约100步）的检查点作为最终报告的RLVR结果，因为在那个阶段，感知能力已经有所提升，而生成质量还没有明显退化。这提示了一个重要的工程经验：对于较小的模型，RLVR训练需要更精细的早停策略和奖励平衡机制。

---

八、这项研究还揭示了什么：词语重叠指标的局限

研究中有一个统计发现值得专门提及。研究团队把LLM评判（语言模型打分）和传统词汇重叠指标（如ROUGE-L）在可回答和不可回答题目上的相关性做了系统分析。

在可回答题目上，ROUGE-L和LLM评判之间存在中等程度的正相关（Spearman ρ = 0.59，统计显著）——也就是说，词汇重叠越高，语言模型也倾向于判断为正确，两者大方向一致，但并不完全吻合。

在不可回答题目上，ROUGE-L和LLM评判之间的相关性接近零（Spearman ρ = 0.05，统计不显著）。这个结果说明，弃答能力完全不能用词汇重叠来衡量——一个模型说"我无法确定"还是说出一堆错误信息，在词汇层面可能有完全不同的表现，但ROUGE-L完全感知不到这种差别。

进一步分析还发现，SFT训练后的模型，其LLM评判结果和ROUGE-L的相关性，和基础模型相差无几——SFT没有显著改变模型的词汇风格。但RLVR训练后的模型，LLM评判和ROUGE-L的相关性明显下降——模型的表达方式变了，不再紧紧贴着训练数据的词汇模式，而是更倾向于用自己的语言组织回答。这既是RLVR的特点，也解释了为什么RLVR之后ROUGE-L会下降，但LLM评判的正确率反而上升：ROUGE-L用的是词汇重叠，LLM评判看的是语义是否正确，两者衡量的不是同一件事。

---

归根结底，这项研究的意义在于：它为全模态个性化AI的研究提供了一面照妖镜。以往那种只看"能不能找到对的答案"的测评方式，掩盖了AI在"不应该乱答"这个维度上的大量问题。声音理解是当前开源模型的真实短板，光靠堆大模型或者堆数据量是解决不了的。强化学习提供了一条更可行的路，但奖励设计的细节至关重要，否则模型会走捷径。而对这一切的判断，都需要一套像校准准确率这样能同时衡量"答对"和"知道不该答"的双轴评测体系。

对于普通用户来说，这项研究的意义在于：你未来期待的那个"真正了解你、了解你认识的人"的AI助手，在真正到来之前，还需要克服相当多的技术难关——尤其是在辨认声音、以及在信息不够时知道说"我不确定"这两件事上。这篇论文至少让研究界清楚地知道了，路还有多远，难在哪里。

有兴趣深入了解的读者，可以通过论文编号arXiv:2605.09996查阅完整的原始论文。

---

Q&A

Q1：Omni-Persona评测基准和之前的多模态个性化评测有什么本质区别？

A：Omni-Persona最核心的两点不同：第一，它正式将声音（语音样本）纳入为独立的人格识别模态，而不仅是图像和文字；第二，它把"目标人物根本不在记忆库里"的场景作为正式评测维度，测试AI是否能正确说出"不知道"。之前的评测几乎都假设目标人物一定存在，只测能否找到，完全无法检测AI在信息缺失时是否会乱答。

Q2：校准准确率和普通的召回率相比，有什么实际优势？

A：普通召回率只看AI能不能在可回答的情况下给出正确答案，一个"什么都敢答"的模型可以刷出高召回率，但它对找不到的情况也会胡说。校准准确率把"可回答题目的答对率"和"不可回答题目的弃答率"各占一半计算，强制要求模型既会答又知道该放弃，单纯靠乱答或者全部说不知道都无法得高分，更真实地反映了AI在实际使用场景中的综合能力。

Q3：强化学习训练为什么会让AI变得过于保守、不敢回答可以回答的问题？

A：Omni-Persona研究中用的是二元奖励：答对得1分，答错得0分。对于不确定的可回答问题，AI如果选择弃答，在不可回答的题上稳得高分，风险远低于尝试回答但可能因找错人或信息错误而得0分。小模型因为感知能力弱、不确定情况多，更容易把弃答作为"安全牌"。这种现象被称为奖励劫持，解决方案是设计非对称奖励，对可回答题目上的假弃答给予惩罚，但这方面还需要进一步研究。

多模态AI个性化识别校准准确率

分享至