微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 马里兰大学等机构联合研究:AI视觉模型的"火眼金睛"训练法

马里兰大学等机构联合研究:AI视觉模型的"火眼金睛"训练法

2025-06-19 12:55
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-19 12:55 科技行者

这项由马里兰大学的王习尧、微软的杨正远等多位研究者联合完成的研究于2025年6月11日发表在arXiv预印本平台上(论文编号:arXiv:2506.10128v1),有兴趣深入了解的读者可以通过论文编号在arXiv官网访问完整论文。这个研究团队来自马里兰大学帕克分校、微软、密歇根大学和卡迪夫大学等知名机构,他们的发现可能会彻底改变AI视觉模型的训练方式。

想象一下,你正在训练一个AI助手来看图说话,就像教一个小孩子描述眼前看到的画面。传统的训练方法就像让孩子看一幅画,然后写一篇200字的作文来描述这幅画。问题是,这样的作文很难打分——每个人都可能写出不同但都正确的描述。这就好比问十个人同一道菜的味道,你可能得到十种不同的答案,但很难说哪个是"标准答案"。

研究团队发现了一个聪明的解决方案。他们不再让AI写完整的作文,而是给AI一篇几乎完全正确的图片描述,但故意在其中埋藏一个小错误,然后让AI像侦探一样找出这个错误在哪里。就像在一本书中故意印错一个词,然后请读者找出来一样。这样的话,答案就变得非常明确了——要么找对了,要么找错了,没有模糊地带。

这种训练方法被研究团队称为"ViCrit",全称是"视觉图像描述幻觉批评家"。听起来很复杂,但本质就是训练AI成为一个超级细心的"找茬专家"。研究人员从一个包含384,000张图片和详细描述的数据库开始工作,每张图片都配有大约200字的人工撰写描述。然后,他们使用GPT-4这个强大的语言模型来巧妙地修改这些描述,在每一段描述中只改动一个小细节。

这些修改非常狡猾。比如,原本描述中说桌子上有一个"iPad",他们可能会改成"MacBook Pro";或者把"黑色旗帜上写着'true'和'false'"改成"黑色旗帜上写着'tree'"。这些变化看起来很小,但要求AI具备非常精确的视觉理解能力才能发现。就像玩"大家来找茬"游戏一样,需要极其敏锐的观察力。

研究团队选择这种方法有着深刻的考虑。传统的AI训练就像让学生背诵标准答案,学生可能会死记硬背一些常见的物体组合,比如"厨房里通常有冰箱、炉子、橱柜",然后在看到厨房图片时就机械地输出这些词汇,而不是真正仔细观察图片中的具体内容。这种"死记硬背"的问题在AI领域被称为"表面记忆"。

相比之下,ViCrit训练法迫使AI必须真正"看懂"图片的每一个细节。因为错误可能出现在任何地方——可能是某个小物件的颜色不对,可能是物体的数量有误,也可能是空间关系的描述错误。这就像训练一个质检员,必须对产品的每个部分都仔细检查,不能放过任何细节。

为了验证这种训练方法的效果,研究团队进行了大规模的实验。他们使用了两个不同规模的AI模型进行测试:一个是70亿参数的"小型"模型,另一个是720亿参数的"大型"模型。这就像比较一个刚入学的小学生和一个大学生的学习能力差异。

实验结果令人印象深刻。经过ViCrit训练的AI模型在多个测试中都表现出了显著的改善。最直观的改善体现在减少"幻觉"现象上——也就是AI看到图片中并不存在的东西。在一项名为CHAIR的标准测试中,720亿参数的模型经过训练后,幻觉错误率从26.4%降低到了21.0%。这意味着AI现在能更准确地描述它真正看到的内容,而不是胡乱猜测。

更有趣的是,这种训练方法的好处远远超出了研究人员的预期。就像学会了仔细观察的学生,不仅在"找茬"游戏中表现更好,在其他需要观察力的任务中也会有所提升。经过ViCrit训练的AI模型在数学视觉推理、图表理解、抽象图像分析等各种任务中都表现得更好。

具体来说,在MathVision这个数学视觉推理测试中,720亿参数的模型准确率从35.2%提升到了40.1%。在VLMsAreBlind这个专门测试AI视觉盲点的基准测试中,准确率从61.3%上升到65.8%。在图表推理任务Charxiv中,表现从45.5%提升到49.4%。这些提升看似数字不大,但在AI研究领域,每一个百分点的提升都代表着巨大的进步。

这种跨领域的改善特别令人惊喜,因为AI在训练过程中主要接触的是自然图像,但它学到的观察技能却能够迁移到数学图形、抽象图像和图表分析等完全不同的领域。这就像一个人通过练习找茬游戏,意外地提高了解数学题和阅读图表的能力。这说明ViCrit训练法真正教会了AI如何"看",而不仅仅是如何记忆常见的图像-文字配对。

为了更好地评估AI的视觉理解能力,研究团队还创建了一个新的测试基准,叫做"ViCrit-Bench"。这个测试集就像是专门为AI设计的"视觉能力测试",包含了607个精心设计的测试样本。每个样本都包含一张图片和一段故意包含一个错误的描述,测试AI能否准确找出错误所在。

这个测试基准的设计非常周全。研究人员将图片分为四大类:自然图像(比如风景、动物、人物照片)、文档图像(比如表格、图表、截图)、文字密集图像(比如路标、海报、漫画)和抽象图像(比如几何图形、艺术插画)。同时,他们将可能的错误类型细分为八种:物体错误、颜色错误、材质错误、空间关系错误、数量错误、形状错误、文字错误和状态条件错误。

测试结果显示,即使是目前最先进的AI系统,在这个测试中的表现也相当有限。OpenAI公司最新的o3模型只达到了47.7%的准确率,而谷歌的Gemini-2.5-Pro模型准确率为45.2%。这就像一个视力测试,即使是"视力最好"的AI,也只能看清一半的细节。经过ViCrit训练的720亿参数模型达到了43.0%的准确率,在开源模型中表现最佳。

特别值得注意的是,研究人员发现了一个有趣的规律:在ViCrit-Bench测试中表现越好的AI模型,在其他各种视觉-语言任务中的综合表现也越好。这种强相关性(相关系数达到0.96)说明ViCrit-Bench确实能够有效评估AI的核心视觉理解能力,就像视力表能够反映一个人的整体视觉健康状况一样。

研究团队还提供了一些生动的案例来展示训练效果的差异。在一个需要数数和识别颜色的数学题中,普通的AI模型可能会遗漏某些物体或者搞错颜色,导致计算错误。而经过ViCrit训练的模型则会更加仔细地检查图片中的每个物体,按顺序识别它们的属性,然后进行准确的计算。这就像一个经过专业训练的会计师,会仔细核对每一笔账目,而不是匆忙估算。

在另一个图形推理的例子中,任务是找出序列中缺失的图形。普通模型可能只注意到图形的大致轮廓,而忽略了边数的变化规律。经过ViCrit训练的模型则会仔细分析每个图形的边数、颜色等细节特征,从而找出正确的模式和答案。

这种改善不仅体现在准确性上,还体现在AI的"思考过程"上。研究人员发现,经过ViCrit训练的AI在回答问题时,会展现出更加系统化的分析方法。它们会先仔细观察图片的各个部分,识别关键信息,然后进行逻辑推理。这种"慢思考"的模式虽然可能稍微降低回答速度,但大大提高了答案的准确性和可靠性。

从技术实现的角度来看,ViCrit训练使用了一种叫做"强化学习"的方法。简单来说,就是给AI设置明确的奖惩机制:找对错误就给奖励,找错了就不给奖励。这种即时反馈机制让AI能够快速学习如何更好地观察和分析图片。与传统的监督学习不同,这种方法更像是通过大量练习来培养直觉和技能。

整个训练过程使用了875,000个样本,每个样本都包含一张图片和一段带有人工植入错误的描述。训练时间根据模型大小从几天到几周不等。虽然这听起来工作量很大,但相比传统方法需要人工标注大量完美的图片描述,ViCrit方法其实更加高效,因为它可以利用现有的图片描述数据,只需要自动化地植入错误即可。

研究团队还将ViCrit训练法与传统的监督学习方法进行了对比。结果显示,虽然传统方法也能在一定程度上减少AI的幻觉现象,但在提升AI的整体推理能力方面,效果远不如ViCrit训练法。这就像比较死记硬背和理解学习的区别——死记硬背可能在特定考试中有用,但理解学习能够提升整体的思维能力。

这项研究的意义不仅限于技术层面,它还为AI训练开辟了一个新的思路。以往的AI训练往往追求让模型产生"好"的输出,但很难定义什么算是"好"。ViCrit方法巧妙地将问题转换为识别"错误",这样就有了明确的对错标准。这种思路可能会启发更多类似的训练方法。

此外,这项研究还暴露了当前AI视觉理解能力的局限性。即使是最先进的AI系统,在需要精确视觉理解的任务中仍然有很大的改进空间。这提醒我们,尽管AI在很多任务中表现出色,但在需要细致观察和精确理解的场景中,仍然需要谨慎使用。

从实际应用的角度来看,这项研究的成果可能会对多个领域产生影响。在医疗影像诊断中,更准确的视觉理解能力可能帮助AI更好地识别病变;在自动驾驶领域,更精确的视觉感知可能提高行车安全性;在教育辅助工具中,能够准确理解图表和图形的AI可能提供更好的学习支持。

研究团队也坦诚地指出了他们方法的一些局限性。比如,在某些特定类型的错误识别中,ViCrit训练后的模型表现反而有所下降,特别是在空间关系和文字识别方面。研究人员认为这可能是因为训练数据中这些类型的样本相对较少,导致了数据不平衡的问题。

此外,对于720亿参数的大型模型,ViCrit训练的改善幅度相对较小。研究人员推测这可能是因为大型模型本身已经具备了相当强的视觉理解能力,需要更具挑战性的训练数据才能进一步提升。这就像一个已经很优秀的学生,需要更难的题目才能继续进步。

展望未来,研究团队计划在几个方向上继续改进他们的方法。首先是扩大训练数据的规模和多样性,特别是增加更多具有挑战性的样本。其次是探索更复杂的错误类型,比如逻辑推理错误和常识错误。最后是将这种训练方法扩展到视频理解和3D场景理解等更复杂的任务中。

这项研究也引发了对AI训练哲学的思考。传统的AI训练往往追求让模型"知道更多",而ViCrit方法则强调让模型"看得更准"。这种从"知识积累"到"能力培养"的转变,可能代表了AI发展的一个重要方向。毕竟,在信息爆炸的时代,准确理解和分析信息的能力比单纯记忆信息更加重要。

总的来说,这项由马里兰大学领衔的多机构合作研究为AI视觉理解能力的提升提供了一个创新而有效的解决方案。虽然还有改进的空间,但ViCrit训练法已经展现出了显著的效果和广阔的应用前景。这项研究不仅推进了AI技术的发展,也为我们理解和改进AI的学习过程提供了新的视角。对于那些关心AI发展前沿的读者,可以通过arXiv:2506.10128v1这个论文编号在arXiv网站上查阅完整的研究报告,深入了解这一创新训练方法的技术细节和实验结果。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-