微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 UC伯克利用"边生成边验证"新技术让AI视觉模型告别"睁眼说瞎话"

UC伯克利用"边生成边验证"新技术让AI视觉模型告别"睁眼说瞎话"

2025-07-14 09:51
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-14 09:51 科技行者

这项由加州大学伯克利分校(UC Berkeley)和韩国浦项科技大学(POSTECH)的研究团队于2025年5月发表的研究,为解决人工智能视觉模型的"幻觉"问题提供了突破性方案。该论文题为《Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling》,有兴趣深入了解的读者可以通过arXiv:2504.13169v2访问完整论文。研究团队由UC伯克利的吴宗翰(Tsung-Han Wu)、李熙京(Heekyung Lee)、葛嘉欣(Jiaxin Ge)、Joseph E. Gonzalez、Trevor Darrell和David M. Chan等人组成。

当前的视觉语言模型虽然在理解图像内容方面表现出色,但经常出现一个令人头疼的问题:它们会"看到"实际并不存在的东西,就像一个过度想象的人,明明图片里只有一只猫,却非要说还有一只狗在旁边。这种现象被称为"视觉幻觉",在自动驾驶汽车、医疗诊断等安全关键领域可能带来严重后果。

现有的解决方案主要分为两类:一类是在生成过程中调整AI的行为,就像给一个爱夸大其词的朋友提前打预防针;另一类是生成内容后再请外部"专家"来检查纠错,类似于写完作文后找老师批改。然而,前者一旦说错就无法纠正,后者则需要复杂的多重验证流程,往往只能选择拒绝回答而非主动改正。

研究团队开发的REVERSE系统(全称"REtrospective VERification and SElf-correction",即"回顾性验证与自我纠正")首次将两种方法完美融合,让AI模型能够在生成内容的同时监控自己是否在"胡说八道",一旦发现问题就立即回退重新思考,就像一个会自我反省的聪明学生。

一、让AI学会自我怀疑:打造"幻觉感知"模型

传统的AI模型就像一个过分自信的学生,无论说什么都很肯定,从不怀疑自己可能出错。REVERSE系统的第一个创新是教会AI模型学会"自我怀疑",让它能够识别自己可能在胡说八道的时刻。

研究团队构建了一个包含130万个样本的特殊训练数据集,这个数据集的巧妙之处在于既包含正确的描述,也包含错误的描述,并且用特殊标记来区分它们。具体来说,他们引入了三个特殊的标记符号:``标记重要短语的开始,``标记可信内容的结束,``标记不可信内容的结束。

这就好比教一个孩子看图说话时,不仅要告诉他"这是正确的说法",还要展示"这是错误的说法",并且明确标注哪些是对的哪些是错的。通过这种方式,AI模型学会了在生成内容时自动评估每个短语的可信度。

在训练过程中,研究团队采用了一种巧妙的损失函数设计。对于标记为不可信的内容,模型在训练时不会受到"惩罚",这样避免了模型学会胡乱猜测的坏习惯。同时,模型被鼓励在遇到不确定内容时生成``标记,相当于教会它说"我不确定这个"。

这种训练方法的效果相当显著。经过训练的模型不再是那个盲目自信的"学霸",而是变成了一个懂得质疑自己的"谨慎学生"。当它描述图片内容时,会在内心给每个短语打分,判断这个描述是否靠谱。

二、实时"回头看":创新的回溯重采样机制

REVERSE系统的第二个核心创新是"回溯重采样"技术,这就像给AI模型装上了一个实时的"良心检测器"。当模型正在生成描述时,系统会持续监控生成``标记的概率。一旦这个概率超过预设阈值,就像警报器响起一样,系统立即触发自我纠错流程。

这个过程可以用开车导航来类比。普通的导航系统一旦选定路线就会一直走下去,即使前方堵车也不会改变。而REVERSE系统就像一个智能导航,会实时监控路况,一旦发现前方有问题,立即回到最近的安全路口重新选择路线。

具体的回溯策略采用了分层设计。系统首先会回到最近的一个"可信检查点"(标记为``的位置),尝试从那里重新生成内容。如果在同一个位置多次失败,系统会判断问题可能出现得更早,于是回退到上一个句号位置重新开始。这种设计确保了即使遇到复杂的错误情况,系统也能找到合适的回退点。

回溯后的重新生成过程使用了两种互补策略。第一种是"拒绝采样",通过提高生成温度增加输出的多样性,然后从多个候选中选择最可信的版本。第二种是"查询重写",系统会修改原始问题,添加类似"注意:可能的错误短语包括..."这样的提示信息,帮助模型避免重复犯错。

这种实时监控和纠错机制的优势在于它是完全自主的。不需要外部的检查程序,模型自己就能发现和纠正错误,就像一个具备自我修正能力的智能助手。

三、从数据制作到模型训练:构建可信AI的完整流程

为了训练出具备自我验证能力的模型,研究团队精心设计了数据制作流程。他们从现有的LLaVA-v1.5数据集出发,这个数据集包含约66.5万个图像-问答对,但都是"正确"的样本。

研究团队的创新在于系统性地生成"负面样本"。他们设计了一套规则和AI辅助的方法来创造错误的描述。对于简单的问题,比如计数或是非判断,他们使用规则方法直接生成错误答案。对于复杂的描述性问题,他们利用GPT-4o-mini来生成高质量的错误描述,确保这些错误既逼真又具有挑战性。

生成负面样本的过程非常细致。系统会自动识别原始答案中的关键短语,然后用同类但不正确的内容替换。比如,如果原始描述中有"红色塑料杯",可能会被替换为"绿色玻璃瓶"。这种替换保持了语义的连贯性,但改变了事实内容,创造出了高质量的"迷惑性"错误样本。

最终的数据集包含130万个训练样本,共680万个问答轮次,其中380万个是正确答案,290万个是错误答案。这种平衡的设计确保模型既能学会生成正确内容,也能识别错误内容。

训练过程采用了改进的交叉熵损失函数。关键创新在于对不同类型的标记使用不同的权重。正确内容的标记获得正常权重,而错误内容的标记被屏蔽(权重为零),这样模型在学习时不会被错误内容误导,但同时学会了如何识别和标记不可信的内容。

四、实验验证:多项指标全面领先

研究团队在多个标准数据集上验证了REVERSE系统的效果,结果令人印象深刻。在图像描述任务中,REVERSE在CHAIR-MSCOCO基准上将幻觉率降低了12%,在HaloQuest数据集上更是达到了34%的显著改进。

CHAIR-MSCOCO是评估视觉幻觉的经典基准,它会检查模型生成的描述中提到的物体是否真实存在于图像中。传统的LLaVA-v1.5模型在这个测试中的CHAIRi得分(物体级幻觉率)为15.4%,而REVERSE系统在保守设置下可以降至10.3%,在更严格设置下甚至可以降至6.1%。

在处理包含错误前提的问题时,REVERSE表现尤为出色。HaloQuest数据集专门设计了三类挑战性问题:错误前提问题、视觉证据不足问题和视觉复杂问题。传统模型往往会被错误前提误导,给出不正确的答案。而REVERSE系统学会了识别这些陷阱,在错误前提问题上的准确率从17.1%提升到31.8%,在证据不足问题上从10.7%提升到26.9%。

系统的另一个优势是可控性。通过调整检测阈值,用户可以在"保守程度"和"表达丰富度"之间找到平衡。较低的阈值让系统更加谨慎,减少幻觉但可能使描述变得简洁;较高的阈值则允许更丰富的表达但承担更多风险。这种灵活性让REVERSE能够适应不同应用场景的需求。

在计算效率方面,REVERSE的开销是可接受的。验证过程只在63%的情况下被触发,而且基于轻量级的概率检查而非复杂的外部模型调用。在触发验证的情况下,超过一半的幻觉问题可以通过单轮重新生成解决,平均计算开销增加不到50%。

五、技术细节:让AI"回头看"的工程实现

REVERSE系统的技术实现包含几个关键组件。首先是阈值设定机制,不同的模型需要不同的阈值参数。研究团队发现,LLaVA系列模型适合使用0.003的阈值,而Qwen2.5-VL模型则需要0.01的阈值。这种差异反映了不同模型架构在置信度校准方面的特性。

回溯策略采用了多层次设计。系统维护两种检查点:局部检查点(最近的``标记)和全局检查点(最近的句号位置)。当局部纠错连续失败10次时,系统会回退到全局检查点重新开始,总共允许50次纠错尝试。这种设计平衡了纠错能力和计算效率。

温度调整策略也很巧妙。系统从基础温度开始,每次失败后增加0.1,最高不超过基础温度加0.5。这种渐进式升温策略在保持输出质量的同时增加了多样性,提高了找到正确答案的概率。

查询重写功能通过修改输入提示来引导模型避免重复错误。系统会自动在原始问题后添加"提示:可能的错误短语包括..."等信息,这种方法在训练时随机使用(20%的概率),让模型学会理解和响应这类提示。

针对开放式问答任务,系统还实现了特殊的处理机制。当模型检测到问题可能包含错误前提或证据不足时,会生成空白回应。此时系统自动切换到第二轮推理,使用修改后的提示:"对于这个问题,请指出错误前提或说明缺失的信息,而不是直接回答。"这种两阶段处理确保了系统能够优雅地处理无法回答的问题。

六、创新意义:重新定义AI的可信边界

REVERSE系统的出现标志着AI可信性研究的一个重要里程碑。传统的幻觉缓解方法要么是"一次性"的生成调整,要么是"事后诸葛亮"式的外部检查。REVERSE首次实现了真正的"边生成边验证",让AI模型具备了类似人类的自我反省能力。

这种能力对于AI的实际应用具有深远意义。在医疗影像分析中,一个能够表达不确定性的AI系统比一个过度自信的系统更值得信任。在自动驾驶领域,能够识别和纠正感知错误的系统将大大提高安全性。在教育辅助工具中,会承认"我不确定"的AI比给出错误答案的AI更有价值。

从技术角度看,REVERSE展示了"自监督学习"的新可能性。通过让模型学会评估自己的输出质量,系统实现了某种形式的"元认知"能力。这种能力不仅适用于视觉语言任务,也为其他AI应用提供了新的思路。

系统的模块化设计也具有重要价值。REVERSE的核心思想可以应用到其他类型的生成模型中,比如纯文本生成、代码生成等领域。只要是存在"幻觉"或错误输出问题的生成任务,都可以借鉴这种"生成-验证-纠错"的框架。

七、局限性与未来展望:仍待完善的AI良心

尽管REVERSE系统取得了显著进展,但研究团队也诚实地指出了当前的局限性。首先,系统主要针对生成式任务进行了优化,在判断式任务(如是非题)上的改进有限。这是因为是非题的答案空间很小,回溯重采样的作用相对有限。

数据集质量是另一个潜在限制。虽然130万样本的规模令人印象深刻,但数据主要来源于MS-COCO等现有数据集,可能存在一定的偏见。比如,这些数据集在性别、种族、地理区域等方面的代表性可能不够均衡。未来需要更多样化、更高质量的训练数据来进一步提升系统的公平性和准确性。

阈值设定目前还依赖于经验调优,不同模型需要不同的参数设置。理想情况下,未来的系统应该能够自适应地调整这些参数,根据具体任务和用户需求自动优化置信度阈值。

计算开销虽然可接受,但仍有优化空间。目前的回溯重采样过程可能需要多轮迭代,在某些实时应用中可能成为瓶颈。未来的研究可以探索更高效的验证机制,比如并行生成多个候选答案然后选择最优的。

从更广阔的视角看,REVERSE代表了AI安全研究的一个重要方向:让AI系统具备自我监督和纠错能力。这种能力对于实现真正可信的人工智能至关重要。随着AI系统变得越来越复杂和强大,单纯依靠外部监督已经不够,必须让AI系统学会自我约束和自我改进。

未来的研究可能会探索更复杂的自我验证机制,比如引入因果推理、常识知识库或多模态交叉验证等。也可能会将这种思想扩展到更多领域,比如科学计算、创意写作或战略规划等高级认知任务。

说到底,REVERSE系统最重要的贡献不仅仅是技术上的突破,更是为AI发展指明了一个新方向:不是让AI变得更加"强大",而是让它变得更加"谦逊"和"可信"。在这个AI能力快速提升的时代,学会说"我不确定"的AI可能比无所不知的AI更有价值。毕竟,一个懂得自我质疑的智能系统,才是真正值得人类信任的伙伴。

对于普通用户而言,REVERSE系统的普及意味着未来的AI助手将更加可靠。当你问AI一张照片里有什么时,它不会再信口开河地编造不存在的细节,而是会诚实地告诉你哪些地方它不确定。这种改变看似微小,实际上是AI从"炫技工具"向"可信伙伴"转变的关键一步。

想要深入了解这项研究的技术细节和实验数据的读者,可以访问论文的完整版本和相关代码。研究团队已经在MIT许可证下开源了完整的代码和训练数据,为学术界和工业界的进一步研究提供了宝贵资源。

Q&A

Q1:什么是AI的"视觉幻觉"问题?为什么需要解决? A:AI的"视觉幻觉"是指AI模型在描述图片时会"看到"实际不存在的东西,比如明明图片里只有一只猫,AI却说还有一只狗。在自动驾驶、医疗诊断等安全关键领域,这种错误可能带来严重后果,因此亟需解决。

Q2:REVERSE系统和传统方法有什么不同? A:传统方法要么在生成前调整AI行为(但一旦出错无法纠正),要么生成后用外部程序检查(复杂且只能拒绝而非改正)。REVERSE首次实现了"边生成边验证",让AI能够实时监控自己是否在胡说八道,一旦发现问题就立即回退重新思考。

Q3:普通用户什么时候能用上这种更可靠的AI? A:目前REVERSE还处于研究阶段,但研究团队已经开源了完整代码和数据。随着技术成熟,预计未来1-2年内就会有商业产品采用类似技术,届时AI助手将变得更加诚实可信,不再随意编造不存在的内容。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-