微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

中国人民大学等机构联合攻关：让AI视觉助手真正"看懂"图片，不再胡说八道

视觉语言模型过程奖励模型幻觉检测

中国人民大学等机构联合攻关：让AI视觉助手真正"看懂"图片，不再胡说八道

作者：科技行者

2026-05-05 14:48

分享至：

这项由中国人民大学、字节跳动、加州大学圣地哥分校和香港科技大学联合发布的研究（arXiv:2604.24583），提出了名为Perceval的感知中心过程奖励模型，专门解决视觉语言模型在推理过程中产生视觉幻觉的问题。Perceval能精准定位AI推理文本中与图片事实不符的字符片段，并将这些片段转化为字符级别的训练惩罚信号，融入强化学习框架，实现比传统序列级奖励更精细的过程监督。实验表明，该方法不仅显著提升了感知类任务的准确率，还带动了数学推理、图表理解等相关任务的全面进步。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-05 14:48 • 科技行者

这项由中国人民大学高岭人工智能学院、字节跳动、加州大学圣地哥分校和香港科技大学联合开展的研究，以预印本形式于2026年4月27日公开发布，论文编号为arXiv:2604.24583。研究的核心成果是一个名为Perceval的感知中心过程奖励模型，旨在从根本上解决AI视觉语言模型在推理过程中"看图说瞎话"的顽固问题。

当你向一个AI助手展示一张客厅照片，询问"蓝色沙发在红色椅子的左边还是右边"，AI可能会非常自信地给出一个答案——但那个答案完全是凭空捏造的，因为它根本没有仔细"看"那张图，只是根据语言习惯给了你一个听起来合理的回答。这种现象在AI领域有个专门的名字，叫做"幻觉"（hallucination），它就像一个自信满满却闭着眼睛描述风景的导游：话说得头头是道，但描述的根本不是眼前的景色。

正是为了解决这个棘手问题，研究团队提出了Perceval这套系统，并将其与现有的强化学习训练框架深度融合，让AI在推理的每一个步骤都必须真正对照图片核实自己的说法。

一、为什么AI视觉助手会"睁眼说瞎话"

要理解这个问题，先得弄清楚现在的AI视觉助手是怎么训练出来的。目前最流行的训练方法叫做"带可验证奖励的强化学习"，简称RLVR。这套方法的逻辑非常朴素：AI生成一个答案，如果答案对了就给奖励，如果答案错了就给惩罚，反复训练，AI就会慢慢变聪明。

然而，这套方法存在一个致命缺陷——它只看最终答案，不管中间推理过程。打个比方，这就像老师批改作文时只看最后一句话"我认为答案是B"，而完全不管学生前面写了什么推理过程。如果学生在推理过程中对题目的某个关键事实理解错了，但最后碰巧猜对了答案，老师也会给满分。反过来，即便学生推理过程扎扎实实，只是最后一步笔误，也会得零分。这种"只看结果"的评价方式，在学术上被称为"奖励稀疏"问题。

对于视觉语言模型来说，这个问题尤为突出。AI在用语言推理时，往往会插入一些对图片内容的描述——比如"图中的桌子是深棕色的"或者"蓝色卡车在白色轿车的左侧"。这些描述可能完全是错的，是AI凭语言经验"脑补"出来的，但只要最终答案碰巧对了，训练系统就不会给出任何惩罚信号。久而久之，AI就学会了：只要能答对题，中间过程随便编。

研究团队把这个问题形容为"信用分配难题"——到底是哪一步推理出了问题，传统训练方式根本无法给出精确定位。这就像侦探办案时只知道"案子没破"，但不知道是取证阶段出了错，还是审讯阶段出了错，还是逻辑推理出了错。没有精确定位，就无法精准纠错。

二、Perceval：专门挑错的"视觉核查员"

针对上述问题，研究团队设计了一个专职"挑错"的系统——Perceval，全名是"感知中心过程奖励评估模型"。如果说普通的强化学习训练就像一个只看最终成绩的严厉考官，那么Perceval就像一个手持放大镜、逐句审查的细心编辑，专门负责在AI的推理过程中找出那些与图片事实不符的描述。

Perceval的工作流程遵循一套严格的"先思考后裁决"模式。当它接收到一张图片、一个问题和AI给出的推理过程之后，会先逐条提取AI在推理中涉及的图像相关陈述，比如"桌子的主色调是深棕色或黑色"。接着，它会把每条陈述与图片中的实际视觉证据逐一比对。最终，如果发现某条陈述与图片内容不符，就会把这条有问题的原文字句精确标记出来，输出到一个格式化的答案区域。如果推理过程完全准确，它就简单输出"回答正确"。

这个设计有两个关键特点。第一，Perceval输出的不是一个简单的"好"或"坏"的分数，而是精确标记出有问题的具体文字片段，比如"桌子的主色调是深棕色或黑色"这整段话。第二，它的工作粒度细化到了字符级别——它能告诉训练系统，错误出现在第几个字到第几个字之间，而不是笼统地说"这个回答有点问题"。

为了让Perceval具备这种精准核查能力，研究团队对它进行了专门训练。训练数据的构建分四个环节进行。首先，他们选取了大量需要精确视觉感知的任务图片和问题，重点包括在复杂图片中寻找特定物体的"视觉搜索"任务，以及根据描述定位图片中具体区域的"指代表达定位"任务，同时也加入少量数学推理和通用理解类题目以保持广度。

接下来，他们用一个现成的视觉语言模型（Qwen2.5-VL-7B）对这些图片和问题生成推理回答。由于这个模型能力有限，它生成的回答中自然包含了大量视觉幻觉，这些带有错误的回答就成了Perceval学习如何识别错误的"反面教材"。

然后，研究团队请出了更强大的AI模型Gemini-2.5-Pro，对每一条模型生成的回答进行逐步骤的幻觉检测，并按照Perceval的输出格式生成标注数据——标注出每个回答中哪些陈述与图片不符、为什么不符。最后，用这批标注数据对Perceval进行监督微调，使其掌握这种精细化的视觉核查能力。

三、把"挑错专家"接入训练流水线

有了Perceval这个精准的错误定位工具，研究团队接下来做的事情，就是把它的输出信号真正融入到AI的训练过程中去。

传统的GRPO训练方法（组相对策略优化，一种主流的强化学习算法）在给AI打分时，是把一个分数贴到整条回答上——无论这条回答有1000个字，分数都是同一个数值，平摊到每一个字上。这就像给一篇文章打分时，不管是文章开头的精彩引言还是中间的事实性错误，每个字得到的评价权重是一样的。

研究团队提出的改进方案，是让优势分数在字符级别上产生差异。具体做法是：先用传统方式计算出整条回答的序列级优势分数，然后让Perceval扫描这条回答，找出所有与图片事实不符的字符片段，建立一个二值掩码——被标记为幻觉的字符位置标记为1，其他位置标记为0。

接着，根据这个掩码对优势分数进行调整。被标记为幻觉的字符，其学习信号会被额外削弱；而正确的字符，学习信号保持不变。调整的力度由一个超参数α控制，研究团队经过大量实验，确定α=0.1是最优选择。

这种调整的效果很有意思：当整条回答的序列级分数是正数时（说明整体回答还不错），幻觉字符的优势分数会从正值缩小，减弱了对这些错误表达的强化；当整条回答的序列级分数是负数时（说明整体回答很差），幻觉字符的优势分数会变得更负，加强了对这些错误表达的惩罚。无论哪种情况，AI都会清晰地感受到"这几个字说错了，以后不要这么说"的信号。

值得关注的是，研究团队在训练时采用了一种聪明的条件策略：Perceval只介入视觉感知相关的训练数据，对于数学推理等其他类型的训练数据，仍然使用普通的GRPO方式。这个设计并非妥协，而是为了专门验证一个科学假说：如果视觉感知能力的提升是根本性的，那么它应该能自然迁移到其他需要精细感知的任务上，而不需要在每种任务上都单独介入。

四、在推理时帮AI"回头纠错"

Perceval的用途不只局限于训练阶段，它在AI实际回答问题时（推理阶段）同样可以发挥作用，帮助AI在输出过程中实时纠正自己的错误。

研究团队设计了两种在推理时利用Perceval的策略，核心思路都是"截断重来"。

第一种叫做"截断再生成"。当AI正在生成回答的推理过程时，Perceval在旁边实时监控。一旦Perceval发现某段推理中包含了与图片不符的陈述，就会立即介入：把AI已经生成的推理过程从那个错误陈述出现的位置截断，保留之前正确的部分，然后让AI从这个截断点重新往后生成。这个过程可以反复进行，最多执行k轮，直到Perceval认为整个推理过程都通过了视觉核查，或者达到最大迭代次数为止。这种方式的妙处在于，AI重新生成时能够参考自己之前已经通过审查的推理上下文，不需要从头开始，效率较高。

第二种叫做"截断反思再生成"。在截断之后，不是直接让AI续写，而是先插入一段简短的反思提示，比如"等等，我需要更仔细地重新考虑这个推理：图中的水杯并不在砖块上。"这段提示起到画龙点睛的作用，明确告诉AI自己在哪里犯了什么类型的错误（是物体识别错了，还是属性描述错了，还是空间关系判断错了），然后让AI带着这份"顿悟"重新续写后续推理。

这两种策略本质上都是利用更多的计算资源换取更准确的答案，在AI领域被称为"测试时扩展"（test-time scaling）。研究团队把它们与另一种经典的测试时扩展策略"多数投票"进行了比较——后者是让AI对同一个问题生成多个答案，然后选出出现次数最多的那个作为最终答案。

五、实验结果：感知变好了，推理也跟着进步了

研究团队在8个不同类型的视觉推理基准测试上验证了Perceval的效果，这8个测试覆盖了视觉搜索、感知密集型推理、数学推理和图表推理四大类别。

在视觉搜索类任务中，测试集V*要求AI在高分辨率复杂图片中精确定位微小目标物体，并判断它们的属性或空间关系——这正是最容易产生视觉幻觉的场景。对比基准是直接使用GRPO训练的同款模型（Qwen2.5-VL），3B参数规模的模型在加入Perceval后，整体准确率从80.10%提升到83.25%，其中空间关系判断子任务的准确率从86.95%大幅跃升至90.43%，提升幅度超过3个百分点。7B参数规模的模型同样有所提升，从84.29%提升至86.39%。

在感知密集型推理类任务中，BLINK测试涵盖了相对深度判断、视觉对应关系、图像真实性检测等14种考验基础视觉感知的题目类型。使用Perceval训练的7B模型在这个测试上取得了54.49的分数，优于GRPO基准的53.55。另一个测试MMStar专门筛选了那些必须真正看懂图片才能回答的题目，排除了仅凭文字先验知识就能猜对的情况，Perceval训练的7B模型在这里达到63.8，高于GRPO基准的62.0。

最能说明问题的是数学和图表推理类任务的表现——这些任务在训练时并没有使用Perceval进行干预。然而，Perceval训练的3B模型在MathVision数学视觉推理测试上从23.36跳升至26.32，在ChartQA图表问答测试上从83.32提升到86.48。这种"感知能力提升带动推理能力全面进步"的现象正是研究团队最想验证的假说，他们将其归因于：图表理解、数据点定位、图形读数等数学视觉任务，从根本上依赖精细的感知能力。当AI能更准确地"看清楚"图表时，它自然也能更正确地回答关于图表的数学问题。

在测试时扩展策略的对比实验中，研究团队固定使用3B模型，分别在k=4、k=8、k=16三种采样次数下比较了多数投票、截断再生成和截断反思再生成三种策略。结果显示，Perceval指导的两种截断策略在V*和BLINK两个测试上始终优于多数投票。尤其值得关注的是，多数投票策略在k从4增加到8、再增加到16时，性能几乎不再提升，说明靠"多生成几次取平均"这条路在困难任务上很快就遇到了天花板。而截断再生成策略随着k的增大还在持续改善，在k=16时将V*测试的空间关系子任务准确率推到了81.57，相比k=4时的76.32有显著提升。

相比之下，截断反思再生成策略的效果略逊于截断再生成，研究团队分析认为，这是因为训练数据中缺乏足够多的"AI自我反思"类型样本，导致当推理过程中突然插入一段外部反思提示时，AI的续写质量不够稳定，不如让AI顺着自己已生成的上下文自然续写来得可靠。

六、没有被AI"钻空子"的证明

在强化学习领域，有一个让研究者普遍头疼的问题叫做"奖励欺骗"——AI太聪明了，它会学会如何让奖励系统误以为自己表现很好，实际上并没有真正进步。比如，如果奖励系统只是粗略地给整条回答打分，AI可能会学会在语言风格上迎合奖励系统的偏好，而不是真的提升答题质量。

研究团队专门设计了一个监控实验来验证Perceval是否遭到了奖励欺骗。他们在整个训练过程中持续追踪一个指标：Perceval认为包含幻觉的回答占所有回答的比例。

训练刚开始时，这个比例出现了明显下降——说明AI确实在学着减少幻觉，这是好事。但在训练进行到一定程度之后，这个比例趋于稳定，不再继续下降。这个"趋于稳定"的现象恰恰是没有发生奖励欺骗的有力证明。如果AI在欺骗Perceval，那这个比例应该会持续急剧下降，最终接近于零，因为AI会学会让Perceval"认为"自己不再产生幻觉，而不是真的消除幻觉。比例的稳定意味着Perceval始终能检测出AI实际产生的幻觉，AI没能找到欺骗它的捷径。

研究团队认为，Perceval之所以能抵抗奖励欺骗，关键在于它介入的方式与传统奖励模型不同。传统奖励模型直接输出一个分数，AI可以专门学习如何让这个分数变高。而Perceval不输出分数，它输出的是具体的错误文字片段，这个片段被用于调整训练信号，而非直接作为优化目标。这种间接、精细的介入方式，让AI难以找到系统性的"投机取巧"路径。

七、关于超参数的精细调校

研究团队对幻觉惩罚强度控制参数α做了系统性的消融实验，测试了0.03、0.1和0.3三个不同取值，并与α=0（即普通GRPO）进行对比。

α=0.03时，惩罚力度过于微弱，虽然在V*测试上有轻微提升（从80.10到81.68），但对AI根深蒂固的幻觉习惯改变有限，效果不明显。α=0.3时，惩罚力度又过强，结果反而比普通GRPO还要差（V*测试上只有78.53，低于GRPO的80.10）。研究团队分析，这是因为Perceval标记的是整个有问题的字符串，当惩罚力度过大时，那些语法上必要但本身无害的词（比如"的"、"是"、"在"这类助词）也会受到牵连，引入大量训练噪音，导致整体性能下滑。

α=0.1时，表现最佳，在V*、RealWorldQA、MathVision和ChartQA四个测试上均达到最高分。这个数值既足够让AI感受到"这几个字说错了"的明确信号，又不至于把无辜的语法词汇也一并惩罚，达到了精准纠错与稳定训练的最佳平衡。

与现有方法横向比较，研究团队训练的7B模型在视觉搜索任务上达到86.39的整体准确率，超越了像素推理者（Pixel-Reasoner，84.30）和VL-Rethinker（56.54）等竞争方法，与DeepEyes（87.43）的表现相当。后两者都依赖外部工具（如图像裁剪和缩放操作）来辅助物体定位，而Perceval训练的模型完全依靠强化了的内在视觉感知能力，无需任何外部工具介入，能取得与工具增强方法相近的性能，本身就说明了这条技术路线的潜力。

说到底，这项研究把一个长期困扰AI视觉推理的根本性问题——"AI说了啥，却根本没看图"——用一种精巧而实用的工程方案加以解决。Perceval的设计思路并不神秘：它就是在AI说话的过程中，逐句对照图片检查，一旦发现说错了，就明确标出来，让训练系统知道"错在这里，不是错在那里"。这种从粗糙的结果导向转向精细的过程导向的思路，让AI的视觉感知能力得到了实质性的提升，并且这种提升不局限于被专门训练的任务类型，而是像打好了地基一样，让各类需要看图才能答对的问题都得到改善。对于未来需要视觉语言模型在医疗影像分析、精密工业检测、精确地图解读等领域承担重要任务的应用场景来说，这种减少幻觉、提升视觉忠实度的研究方向，具有相当现实的意义。感兴趣的读者可以通过论文编号arXiv:2604.24583查阅完整研究内容，代码和数据也将在GitHub上公开发布。

Q&A

Q1：视觉语言模型中的"幻觉"问题具体指什么？

A：视觉语言模型的"幻觉"指的是AI在描述图片内容时，说出与图片实际内容不符的陈述。比如图片里的桌子明明是白色，AI却在推理过程中说"桌子是深棕色的"；或者蓝色卡车明明在白色轿车右侧，AI却说"在左侧"。这类错误源于AI倾向于根据语言经验"脑补"内容，而非真正仔细核对图片中的视觉证据。

Q2：Perceval是如何在训练中减少AI幻觉的？

A：Perceval通过精准标记AI推理过程中与图片不符的具体文字片段，将这些标记转化为字符级别的惩罚信号，融入强化学习的训练过程。与传统方式只给整条回答一个笼统分数不同，Perceval能告诉训练系统"错在第几个字到第几个字"，让AI明确知道哪些表达需要纠正，从而实现精准的过程级监督。

Q3：截断再生成策略与多数投票策略有什么区别？

A：多数投票是让AI对同一问题生成多个答案，选出现次数最多的那个，这种方法在困难任务上很快遇到性能瓶颈。截断再生成则是让Perceval实时监控AI的推理过程，一旦发现幻觉陈述就截断错误部分，保留正确前缀让AI重新续写，可以多轮迭代。实验显示截断再生成在增加计算次数时仍能持续提升准确率，而多数投票在k从4增加到16时性能几乎不再改善。

视觉语言模型过程奖励模型幻觉检测

分享至