
这项由中国人民大学高岭人工智能学院、字节跳动、加州大学圣地哥分校和香港科技大学联合开展的研究,以预印本形式于2026年4月27日公开发布,论文编号为arXiv:2604.24583。研究的核心成果是一个名为Perceval的感知中心过程奖励模型,旨在从根本上解决AI视觉语言模型在推理过程中"看图说瞎话"的顽固问题。
当你向一个AI助手展示一张客厅照片,询问"蓝色沙发在红色椅子的左边还是右边",AI可能会非常自信地给出一个答案——但那个答案完全是凭空捏造的,因为它根本没有仔细"看"那张图,只是根据语言习惯给了你一个听起来合理的回答。这种现象在AI领域有个专门的名字,叫做"幻觉"(hallucination),它就像一个自信满满却闭着眼睛描述风景的导游:话说得头头是道,但描述的根本不是眼前的景色。
正是为了解决这个棘手问题,研究团队提出了Perceval这套系统,并将其与现有的强化学习训练框架深度融合,让AI在推理的每一个步骤都必须真正对照图片核实自己的说法。
一、为什么AI视觉助手会"睁眼说瞎话"
要理解这个问题,先得弄清楚现在的AI视觉助手是怎么训练出来的。目前最流行的训练方法叫做"带可验证奖励的强化学习",简称RLVR。这套方法的逻辑非常朴素:AI生成一个答案,如果答案对了就给奖励,如果答案错了就给惩罚,反复训练,AI就会慢慢变聪明。
然而,这套方法存在一个致命缺陷——它只看最终答案,不管中间推理过程。打个比方,这就像老师批改作文时只看最后一句话"我认为答案是B",而完全不管学生前面写了什么推理过程。如果学生在推理过程中对题目的某个关键事实理解错了,但最后碰巧猜对了答案,老师也会给满分。反过来,即便学生推理过程扎扎实实,只是最后一步笔误,也会得零分。这种"只看结果"的评价方式,在学术上被称为"奖励稀疏"问题。
对于视觉语言模型来说,这个问题尤为突出。AI在用语言推理时,往往会插入一些对图片内容的描述——比如"图中的桌子是深棕色的"或者"蓝色卡车在白色轿车的左侧"。这些描述可能完全是错的,是AI凭语言经验"脑补"出来的,但只要最终答案碰巧对了,训练系统就不会给出任何惩罚信号。久而久之,AI就学会了:只要能答对题,中间过程随便编。
研究团队把这个问题形容为"信用分配难题"——到底是哪一步推理出了问题,传统训练方式根本无法给出精确定位。这就像侦探办案时只知道"案子没破",但不知道是取证阶段出了错,还是审讯阶段出了错,还是逻辑推理出了错。没有精确定位,就无法精准纠错。
二、Perceval:专门挑错的"视觉核查员"
针对上述问题,研究团队设计了一个专职"挑错"的系统——Perceval,全名是"感知中心过程奖励评估模型"。如果说普通的强化学习训练就像一个只看最终成绩的严厉考官,那么Perceval就像一个手持放大镜、逐句审查的细心编辑,专门负责在AI的推理过程中找出那些与图片事实不符的描述。
Perceval的工作流程遵循一套严格的"先思考后裁决"模式。当它接收到一张图片、一个问题和AI给出的推理过程之后,会先逐条提取AI在推理中涉及的图像相关陈述,比如"桌子的主色调是深棕色或黑色"。接着,它会把每条陈述与图片中的实际视觉证据逐一比对。最终,如果发现某条陈述与图片内容不符,就会把这条有问题的原文字句精确标记出来,输出到一个格式化的答案区域。如果推理过程完全准确,它就简单输出"回答正确"。
这个设计有两个关键特点。第一,Perceval输出的不是一个简单的"好"或"坏"的分数,而是精确标记出有问题的具体文字片段,比如"桌子的主色调是深棕色或黑色"这整段话。第二,它的工作粒度细化到了字符级别——它能告诉训练系统,错误出现在第几个字到第几个字之间,而不是笼统地说"这个回答有点问题"。
为了让Perceval具备这种精准核查能力,研究团队对它进行了专门训练。训练数据的构建分四个环节进行。首先,他们选取了大量需要精确视觉感知的任务图片和问题,重点包括在复杂图片中寻找特定物体的"视觉搜索"任务,以及根据描述定位图片中具体区域的"指代表达定位"任务,同时也加入少量数学推理和通用理解类题目以保持广度。
接下来,他们用一个现成的视觉语言模型(Qwen2.5-VL-7B)对这些图片和问题生成推理回答。由于这个模型能力有限,它生成的回答中自然包含了大量视觉幻觉,这些带有错误的回答就成了Perceval学习如何识别错误的"反面教材"。
然后,研究团队请出了更强大的AI模型Gemini-2.5-Pro,对每一条模型生成的回答进行逐步骤的幻觉检测,并按照Perceval的输出格式生成标注数据——标注出每个回答中哪些陈述与图片不符、为什么不符。最后,用这批标注数据对Perceval进行监督微调,使其掌握这种精细化的视觉核查能力。
三、把"挑错专家"接入训练流水线
有了Perceval这个精准的错误定位工具,研究团队接下来做的事情,就是把它的输出信号真正融入到AI的训练过程中去。
传统的GRPO训练方法(组相对策略优化,一种主流的强化学习算法)在给AI打分时,是把一个分数贴到整条回答上——无论这条回答有1000个字,分数都是同一个数值,平摊到每一个字上。这就像给一篇文章打分时,不管是文章开头的精彩引言还是中间的事实性错误,每个字得到的评价权重是一样的。
研究团队提出的改进方案,是让优势分数在字符级别上产生差异。具体做法是:先用传统方式计算出整条回答的序列级优势分数,然后让Perceval扫描这条回答,找出所有与图片事实不符的字符片段,建立一个二值掩码——被标记为幻觉的字符位置标记为1,其他位置标记为0。
接着,根据这个掩码对优势分数进行调整。被标记为幻觉的字符,其学习信号会被额外削弱;而正确的字符,学习信号保持不变。调整的力度由一个超参数α控制,研究团队经过大量实验,确定α=0.1是最优选择。
这种调整的效果很有意思:当整条回答的序列级分数是正数时(说明整体回答还不错),幻觉字符的优势分数会从正值缩小,减弱了对这些错误表达的强化;当整条回答的序列级分数是负数时(说明整体回答很差),幻觉字符的优势分数会变得更负,加强了对这些错误表达的惩罚。无论哪种情况,AI都会清晰地感受到"这几个字说错了,以后不要这么说"的信号。
值得关注的是,研究团队在训练时采用了一种聪明的条件策略:Perceval只介入视觉感知相关的训练数据,对于数学推理等其他类型的训练数据,仍然使用普通的GRPO方式。这个设计并非妥协,而是为了专门验证一个科学假说:如果视觉感知能力的提升是根本性的,那么它应该能自然迁移到其他需要精细感知的任务上,而不需要在每种任务上都单独介入。
四、在推理时帮AI"回头纠错"
Perceval的用途不只局限于训练阶段,它在AI实际回答问题时(推理阶段)同样可以发挥作用,帮助AI在输出过程中实时纠正自己的错误。
研究团队设计了两种在推理时利用Perceval的策略,核心思路都是"截断重来"。
第一种叫做"截断再生成"。当AI正在生成回答的推理过程时,Perceval在旁边实时监控。一旦Perceval发现某段推理中包含了与图片不符的陈述,就会立即介入:把AI已经生成的推理过程从那个错误陈述出现的位置截断,保留之前正确的部分,然后让AI从这个截断点重新往后生成。这个过程可以反复进行,最多执行k轮,直到Perceval认为整个推理过程都通过了视觉核查,或者达到最大迭代次数为止。这种方式的妙处在于,AI重新生成时能够参考自己之前已经通过审查的推理上下文,不需要从头开始,效率较高。
第二种叫做"截断反思再生成"。在截断之后,不是直接让AI续写,而是先插入一段简短的反思提示,比如"等等,我需要更仔细地重新考虑这个推理:图中的水杯并不在砖块上。"这段提示起到画龙点睛的作用,明确告诉AI自己在哪里犯了什么类型的错误(是物体识别错了,还是属性描述错了,还是空间关系判断错了),然后让AI带着这份"顿悟"重新续写后续推理。
这两种策略本质上都是利用更多的计算资源换取更准确的答案,在AI领域被称为"测试时扩展"(test-time scaling)。研究团队把它们与另一种经典的测试时扩展策略"多数投票"进行了比较——后者是让AI对同一个问题生成多个答案,然后选出出现次数最多的那个作为最终答案。
五、实验结果:感知变好了,推理也跟着进步了
研究团队在8个不同类型的视觉推理基准测试上验证了Perceval的效果,这8个测试覆盖了视觉搜索、感知密集型推理、数学推理和图表推理四大类别。
在视觉搜索类任务中,测试集V*要求AI在高分辨率复杂图片中精确定位微小目标物体,并判断它们的属性或空间关系——这正是最容易产生视觉幻觉的场景。对比基准是直接使用GRPO训练的同款模型(Qwen2.5-VL),3B参数规模的模型在加入Perceval后,整体准确率从80.10%提升到83.25%,其中空间关系判断子任务的准确率从86.95%大幅跃升至90.43%,提升幅度超过3个百分点。7B参数规模的模型同样有所提升,从84.29%提升至86.39%。
在感知密集型推理类任务中,BLINK测试涵盖了相对深度判断、视觉对应关系、图像真实性检测等14种考验基础视觉感知的题目类型。使用Perceval训练的7B模型在这个测试上取得了54.49的分数,优于GRPO基准的53.55。另一个测试MMStar专门筛选了那些必须真正看懂图片才能回答的题目,排除了仅凭文字先验知识就能猜对的情况,Perceval训练的7B模型在这里达到63.8,高于GRPO基准的62.0。
最能说明问题的是数学和图表推理类任务的表现——这些任务在训练时并没有使用Perceval进行干预。然而,Perceval训练的3B模型在MathVision数学视觉推理测试上从23.36跳升至26.32,在ChartQA图表问答测试上从83.32提升到86.48。这种"感知能力提升带动推理能力全面进步"的现象正是研究团队最想验证的假说,他们将其归因于:图表理解、数据点定位、图形读数等数学视觉任务,从根本上依赖精细的感知能力。当AI能更准确地"看清楚"图表时,它自然也能更正确地回答关于图表的数学问题。
在测试时扩展策略的对比实验中,研究团队固定使用3B模型,分别在k=4、k=8、k=16三种采样次数下比较了多数投票、截断再生成和截断反思再生成三种策略。结果显示,Perceval指导的两种截断策略在V*和BLINK两个测试上始终优于多数投票。尤其值得关注的是,多数投票策略在k从4增加到8、再增加到16时,性能几乎不再提升,说明靠"多生成几次取平均"这条路在困难任务上很快就遇到了天花板。而截断再生成策略随着k的增大还在持续改善,在k=16时将V*测试的空间关系子任务准确率推到了81.57,相比k=4时的76.32有显著提升。
相比之下,截断反思再生成策略的效果略逊于截断再生成,研究团队分析认为,这是因为训练数据中缺乏足够多的"AI自我反思"类型样本,导致当推理过程中突然插入一段外部反思提示时,AI的续写质量不够稳定,不如让AI顺着自己已生成的上下文自然续写来得可靠。
六、没有被AI"钻空子"的证明
在强化学习领域,有一个让研究者普遍头疼的问题叫做"奖励欺骗"——AI太聪明了,它会学会如何让奖励系统误以为自己表现很好,实际上并没有真正进步。比如,如果奖励系统只是粗略地给整条回答打分,AI可能会学会在语言风格上迎合奖励系统的偏好,而不是真的提升答题质量。
研究团队专门设计了一个监控实验来验证Perceval是否遭到了奖励欺骗。他们在整个训练过程中持续追踪一个指标:Perceval认为包含幻觉的回答占所有回答的比例。
训练刚开始时,这个比例出现了明显下降——说明AI确实在学着减少幻觉,这是好事。但在训练进行到一定程度之后,这个比例趋于稳定,不再继续下降。这个"趋于稳定"的现象恰恰是没有发生奖励欺骗的有力证明。如果AI在欺骗Perceval,那这个比例应该会持续急剧下降,最终接近于零,因为AI会学会让Perceval"认为"自己不再产生幻觉,而不是真的消除幻觉。比例的稳定意味着Perceval始终能检测出AI实际产生的幻觉,AI没能找到欺骗它的捷径。
研究团队认为,Perceval之所以能抵抗奖励欺骗,关键在于它介入的方式与传统奖励模型不同。传统奖励模型直接输出一个分数,AI可以专门学习如何让这个分数变高。而Perceval不输出分数,它输出的是具体的错误文字片段,这个片段被用于调整训练信号,而非直接作为优化目标。这种间接、精细的介入方式,让AI难以找到系统性的"投机取巧"路径。
七、关于超参数的精细调校
研究团队对幻觉惩罚强度控制参数α做了系统性的消融实验,测试了0.03、0.1和0.3三个不同取值,并与α=0(即普通GRPO)进行对比。
α=0.03时,惩罚力度过于微弱,虽然在V*测试上有轻微提升(从80.10到81.68),但对AI根深蒂固的幻觉习惯改变有限,效果不明显。α=0.3时,惩罚力度又过强,结果反而比普通GRPO还要差(V*测试上只有78.53,低于GRPO的80.10)。研究团队分析,这是因为Perceval标记的是整个有问题的字符串,当惩罚力度过大时,那些语法上必要但本身无害的词(比如"的"、"是"、"在"这类助词)也会受到牵连,引入大量训练噪音,导致整体性能下滑。
α=0.1时,表现最佳,在V*、RealWorldQA、MathVision和ChartQA四个测试上均达到最高分。这个数值既足够让AI感受到"这几个字说错了"的明确信号,又不至于把无辜的语法词汇也一并惩罚,达到了精准纠错与稳定训练的最佳平衡。
与现有方法横向比较,研究团队训练的7B模型在视觉搜索任务上达到86.39的整体准确率,超越了像素推理者(Pixel-Reasoner,84.30)和VL-Rethinker(56.54)等竞争方法,与DeepEyes(87.43)的表现相当。后两者都依赖外部工具(如图像裁剪和缩放操作)来辅助物体定位,而Perceval训练的模型完全依靠强化了的内在视觉感知能力,无需任何外部工具介入,能取得与工具增强方法相近的性能,本身就说明了这条技术路线的潜力。
说到底,这项研究把一个长期困扰AI视觉推理的根本性问题——"AI说了啥,却根本没看图"——用一种精巧而实用的工程方案加以解决。Perceval的设计思路并不神秘:它就是在AI说话的过程中,逐句对照图片检查,一旦发现说错了,就明确标出来,让训练系统知道"错在这里,不是错在那里"。这种从粗糙的结果导向转向精细的过程导向的思路,让AI的视觉感知能力得到了实质性的提升,并且这种提升不局限于被专门训练的任务类型,而是像打好了地基一样,让各类需要看图才能答对的问题都得到改善。对于未来需要视觉语言模型在医疗影像分析、精密工业检测、精确地图解读等领域承担重要任务的应用场景来说,这种减少幻觉、提升视觉忠实度的研究方向,具有相当现实的意义。感兴趣的读者可以通过论文编号arXiv:2604.24583查阅完整研究内容,代码和数据也将在GitHub上公开发布。
Q&A
Q1:视觉语言模型中的"幻觉"问题具体指什么?
A:视觉语言模型的"幻觉"指的是AI在描述图片内容时,说出与图片实际内容不符的陈述。比如图片里的桌子明明是白色,AI却在推理过程中说"桌子是深棕色的";或者蓝色卡车明明在白色轿车右侧,AI却说"在左侧"。这类错误源于AI倾向于根据语言经验"脑补"内容,而非真正仔细核对图片中的视觉证据。
Q2:Perceval是如何在训练中减少AI幻觉的?
A:Perceval通过精准标记AI推理过程中与图片不符的具体文字片段,将这些标记转化为字符级别的惩罚信号,融入强化学习的训练过程。与传统方式只给整条回答一个笼统分数不同,Perceval能告诉训练系统"错在第几个字到第几个字",让AI明确知道哪些表达需要纠正,从而实现精准的过程级监督。
Q3:截断再生成策略与多数投票策略有什么区别?
A:多数投票是让AI对同一问题生成多个答案,选出现次数最多的那个,这种方法在困难任务上很快遇到性能瓶颈。截断再生成则是让Perceval实时监控AI的推理过程,一旦发现幻觉陈述就截断错误部分,保留正确前缀让AI重新续写,可以多轮迭代。实验显示截断再生成在增加计算次数时仍能持续提升准确率,而多数投票在k从4增加到16时性能几乎不再改善。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。