微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

让视觉语言模型真正"看"懂世界：加州伯克利大学团队打造会"视觉思考"的AI新系统

人工智能视觉推理多模态模型

让视觉语言模型真正"看"懂世界：加州伯克利大学团队打造会"视觉思考"的AI新系统

作者：科技行者

2026-01-15 09:20

分享至：

加州伯克利大学团队开发了Chain-of-Visual-Thought（CoVT）框架，让AI模型能够进行"视觉思考"。该方法使用20个视觉标记表示分割、深度、边缘和语义信息，让AI在连续视觉空间中推理，而非转换为文字描述。CoVT在多个视觉推理基准上实现3-16%的性能提升，特别是深度理解任务提升达14%，同时具备良好的可解释性，能将AI的思考过程可视化。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-01-15 09:20 • 科技行者

这项由加州伯克利大学王旭东教授团队联合加州大学洛杉矶分校和松下人工智能研究院共同完成的研究发表于2025年11月，论文编号为arXiv:2511.19418v1。研究团队包括第一作者秦一鸣、魏博敏、葛嘉欣等多位研究者，他们开发了一种名为"视觉思维链"(Chain-of-Visual-Thought, CoVT)的革命性框架。有兴趣深入了解的读者可以通过论文编号在学术数据库中查询完整论文。

当前的视觉语言模型就像一个只会"背书"而不会"观察"的学生。它们虽然能够用流利的语言描述图片内容，但在需要精确理解图片细节的任务上却频频出错。比如数一张图片里有几个物体、判断两个点哪个更靠近相机、或者识别图片中的精细结构等等。这种局限性的根本原因在于，现有模型将丰富的视觉信息压缩成简单的文字描述，就像试图用几句话来完整描述一幅画作的所有细节一样，必然会丢失大量关键信息。

想象一下人类是如何解决视觉问题的。当我们看到一张复杂的图片时，大脑会同时处理多种视觉信息：物体的轮廓、深度关系、边缘结构、色彩分布等等。这些信息并不需要转化为语言，而是以某种"视觉思维"的形式存在于我们的意识中。加州伯克利的研究团队正是受到这种人类视觉认知模式的启发，开发出了让AI也能进行"视觉思考"的新方法。

传统的解决方案通常依赖外部视觉工具，就像给一个近视的人配备各种专业仪器来帮助观察。这种方法虽然能在一定程度上改善性能，但增加了系统的复杂度和计算成本，而且受限于外部工具的能力边界。另一种尝试是让模型在推理过程中生成或裁剪图像，但这些方案仍然需要将图像信息转换为文本空间，核心问题并没有得到解决。

有趣的是，研究团队发现即使是目前最先进的模型，在使用文本形式的思维链推理时，视觉任务的表现反而会下降。这就像让一个画家用文字而不是颜料来作画一样，本质上是在用错误的"语言"来处理问题。

一、开创性的"视觉思维"机制

CoVT的核心创新在于让AI模型能够在一个连续的视觉空间中进行推理，而不是将所有内容都转换为离散的文字标记。这种方法就像是给AI安装了一个"视觉大脑"，让它能够直接处理和思考视觉信息。

具体来说，CoVT使用了大约20个特殊的"视觉标记"来表示不同类型的视觉信息。这些标记就像是AI的"视觉词汇"，每一个都承载着丰富的视觉含义。研究团队选择了四种互补的视觉特征：分割信息用于识别物体的位置和形状、深度信息用于理解三维空间关系、边缘信息用于捕捉结构细节、以及DINO特征用于提取语义信息。

这四种特征的组合就像是给AI配备了一套完整的"视觉感知系统"。分割特征帮助AI理解"这里有什么物体"，深度特征告诉AI"什么在前什么在后"，边缘特征让AI看清"物体的轮廓和结构"，而DINO特征则提供"这个物体的本质特征"。

为了让这些视觉标记真正有意义，研究团队采用了一种巧妙的训练策略。他们让模型学会预测这些视觉标记，然后通过专门的解码器将这些标记重新转换为可以验证的视觉输出。这个过程就像训练一个学生既要会"看"也要会"画"，通过不断练习看图画图的过程来提升视觉理解能力。

有趣的是，在实际应用时，模型并不需要将这些视觉标记解码成具体的图像。AI可以直接在这个抽象的视觉空间中进行推理，就像人类可以在大脑中"想象"物体而不需要画出来一样。只有当需要向人类展示AI的思考过程时，才会将这些视觉思维"翻译"成我们能够理解的图像形式。

二、精心设计的多阶段训练策略

CoVT的训练过程采用了一个循序渐进的四阶段策略，就像教会一个孩子逐步掌握复杂技能的过程。

第一个阶段是"理解阶段"，在这个阶段中，模型学习理解这些视觉标记的基本含义。就像教孩子认识字母一样，AI首先需要明白每种视觉标记代表什么样的视觉概念。研究团队会在图像后面直接插入相应的视觉标记，让模型逐渐建立起视觉信息与抽象标记之间的对应关系。

第二个阶段是"生成阶段"，模型学习根据输入的图像主动生成相应的视觉标记。这就像是从"认字"进步到"写字"的过程。在这个阶段，AI开始具备将视觉信息转换为内在表示的能力。

第三个阶段是"推理阶段"，这是最关键的一步。模型学习在回答问题时使用这些视觉标记进行思考。就像人类在解决视觉问题时会在脑海中"想象"和"分析"一样，AI学会了在给出最终答案之前先进行"视觉思考"。

第四个阶段是"高效推理阶段"，模型学习根据不同的问题类型灵活选择需要的视觉思维类型。有些问题可能只需要形状信息，有些问题需要深度信息，而有些复杂问题则需要综合多种视觉特征。这种灵活性让AI能够在保证推理质量的同时提高效率。

这种渐进式训练策略的设计非常巧妙。如果跳过前两个基础阶段，模型的表现会明显下降。这就好比试图教一个不认识字母的人直接写作文，效果必然不理想。

三、四种互补的视觉特征设计

研究团队选择的四种视觉特征各有其独特的作用，它们的组合形成了一个全面的视觉理解系统。

分割特征相当于AI的"物体识别系统"。它使用8个特殊标记，每个标记都可以定位图像中的一个特定区域或物体。这些标记通过与SAM(Segment Anything Model)的配合工作，能够精确地识别出图像中各种物体的位置和轮廓。就像人类能够一眼识别出图像中的汽车、行人、建筑物等不同物体一样，这些分割标记让AI具备了类似的能力。

深度特征则是AI的"三维空间感知系统"，使用4个标记来理解图像中的深度关系。这个功能对于回答"哪个物体更靠近相机"或"哪个物体在最远处"等问题至关重要。通过与DepthAnything v2模型的配合，这些标记能够构建出图像的三维空间理解。

边缘特征充当AI的"结构分析系统"，同样使用4个标记来捕捉图像中的线条、轮廓和几何结构。当需要数清楚图像中有多少条线，或者分析物体的几何形状时，这些边缘特征就发挥了关键作用。它们通过与PIDINet模型协作，能够精确提取图像的结构信息。

DINO特征则扮演"语义理解系统"的角色，用4个标记来捕捉图像的高级语义信息。这些特征能够理解物体的本质属性，比如区分不同类型的动物、识别场景的整体氛围等。

这四种特征的配合就像一个完整的视觉团队：分割特征负责"在哪里"，深度特征负责"多远"，边缘特征负责"什么形状"，DINO特征负责"是什么"。当面对复杂的视觉推理任务时，AI可以综合运用这些不同类型的视觉思维，就像人类大脑整合不同感知信息来形成完整理解一样。

四、惊人的性能提升表现

CoVT在多个视觉推理任务上都展现出了显著的性能提升，这些改进的幅度甚至超出了研究团队的预期。

在CV-Bench这个综合性视觉推理基准测试中，CoVT实现了5.5%的整体性能提升。更令人瞩目的是，在深度理解子任务上，性能提升高达14.0%。这意味着AI对三维空间的理解能力得到了极大增强。在HRBench高分辨率图像理解测试中，CoVT也实现了4.5%的显著提升。

为了验证CoVT的通用性，研究团队还在其他基础模型上进行了测试。当将CoVT应用到LLaVA-v1.5-13B模型上时，在深度相关任务上的提升更是达到了惊人的12.9%，在计数任务上提升了26.6%。这些数字背后反映的是AI视觉理解能力的质的飞跃。

特别有趣的是，研究团队发现不同类型的视觉特征对不同任务的贡献并不相同。分割特征对计数和物体定位任务帮助最大，深度特征对空间推理任务最为关键，边缘特征在结构分析任务中表现突出，而DINO特征则在语义理解任务中发挥重要作用。这种专业化分工让CoVT能够针对不同类型的问题调用最合适的"视觉技能"。

研究团队还进行了一系列对比实验来证明CoVT方法的有效性。他们将CoVT与传统的文本思维链方法进行对比，发现文本形式的推理不仅无法改善视觉任务的表现，在某些情况下甚至会导致性能下降。这进一步证实了"视觉问题需要视觉思维"这一核心观点的正确性。

在可解释性方面，CoVT也表现出色。当研究人员将AI的视觉思考过程"翻译"成人类可以理解的图像时，发现AI确实在关注正确的视觉特征。比如在回答深度相关问题时，AI生成的深度图准确反映了图像中物体的前后关系；在计数任务中，AI的分割结果精确标出了需要计数的目标物体。

五、技术实现的巧妙之处

CoVT的技术实现体现了研究团队的深厚功底和巧妙设计。整个系统的核心是如何将连续的视觉特征与离散的语言模型无缝集成。

研究团队采用了一种称为"投影层"的技术来连接视觉特征和语言模型。这个投影层就像是一个翻译器，能够将视觉标记转换为语言模型可以理解的形式，同时保持视觉信息的丰富性。投影层的设计包含交叉注意力机制和全连接层，确保信息转换的准确性和效率。

在与专业视觉模型的对接方面，CoVT采用了两种不同的策略。对于任务导向的模型如SAM和DepthAnything，CoVT在解码器层面进行对接，让视觉标记直接作为解码器的输入提示。对于表征学习模型如DINO，则在特征层面进行对接，通过特征空间的相似性来训练视觉标记。

训练过程中的损失函数设计也很有讲究。除了标准的语言模型交叉熵损失外，CoVT还引入了多个视觉任务的重构损失。这些损失函数的权重经过仔细调整，确保语言能力和视觉能力的平衡发展。

在计算效率方面，CoVT的设计相当经济。仅用大约20个额外的标记就实现了如此显著的性能提升，这相当于在输入中增加不到1%的信息量。而且由于这些视觉标记只在推理时生成，不需要额外的存储空间，实际部署的负担很小。

特别值得一提的是，CoVT的设计具有很好的扩展性。研究团队设计了一个清晰的框架，使得未来可以方便地增加新的视觉特征类型。只需要定义新的投影层和对应的重构损失，就可以将新的视觉能力集成到系统中。

六、实际应用效果的生动展示

为了直观展示CoVT的能力，研究团队提供了大量真实的应用案例，这些案例清楚地展现了AI"视觉思考"的过程和效果。

在一个关于深度判断的例子中，问题是判断图像中两个标记点哪个更靠近相机。传统模型给出了错误的答案，而CoVT则先在思考过程中生成了分割图和深度图，准确识别出点B位于人脸区域，深度图显示人脸区域确实更靠近相机，从而得出正确答案。这个过程就像人类在判断距离时会下意识地分析物体的相对位置和深度关系一样。

在另一个计数任务中，需要数出图像中未切开的水果数量。CoVT在思考过程中生成的分割图准确标出了所有水果的位置，并能够区分哪些是完整的，哪些是被切开的，最终给出正确的计数结果。而基础模型由于无法精确定位和识别，给出了错误的答案。

一个场景理解的例子展示了CoVT综合运用多种视觉特征的能力。问题询问床后面的墙上是否有画。CoVT先通过分割特征识别床和墙的位置，再通过深度特征确定空间关系，最后通过语义特征识别墙上的装饰品，综合这些信息得出准确答案。

这些案例的共同特点是，CoVT的推理过程清晰可见且符合人类直觉。当需要解释AI为什么得出某个结论时，研究人员可以将AI的视觉思考过程"可视化"，让人类看到AI在关注哪些视觉特征，这种可解释性对于建立人类对AI系统的信任非常重要。

研究团队还测试了CoVT在非视觉中心任务上的表现，发现它并没有因为增强视觉能力而损失其他能力。在OCR、数学推理、常识问答等任务上，CoVT保持了与基础模型相当的性能，有些任务甚至略有提升。

七、与现有方法的深入对比

CoVT与现有的多模态推理方法相比具有明显的优势，这些优势体现在多个维度上。

传统的视觉CoT方法依赖文本描述来表达视觉信息，就像试图用语言来描述一幅画的所有细节一样，必然会丢失大量信息。而CoVT直接在视觉空间中进行推理，保持了信息的完整性和准确性。

一些方法通过生成或编辑图像来进行视觉推理，虽然在某种程度上保持了视觉信息，但计算成本非常高，而且生成的图像质量会影响推理效果。CoVT使用抽象的视觉表示，既保持了视觉信息的丰富性，又避免了图像生成的复杂性和不确定性。

外部工具增强的方法虽然能够提供专业的视觉分析能力，但存在几个问题：首先是增加了系统的复杂性和部署难度；其次是推理过程变得不透明，难以调试和优化；最后是性能受限于外部工具的能力边界。CoVT将这些能力直接内化到模型中，形成了一个自包含的系统。

Aurora等基于感知令牌的方法虽然也尝试将视觉信息直接集成到推理过程中，但它们通常只关注单一类型的视觉特征，而CoVT整合了多种互补的视觉特征，形成了更全面的视觉理解能力。

在实际性能对比中，CoVT在各个基准测试上都显著超越了这些现有方法。特别是在需要精确视觉理解的任务上，CoVT的优势更加明显。这种性能提升不是通过简单的参数增加实现的，而是通过根本性的架构创新获得的。

八、技术细节的深入解析

CoVT的技术实现涉及多个精心设计的组件，每个组件都经过仔细优化以确保整体系统的高效性和可靠性。

在视觉标记的设计上，研究团队经过大量实验确定了最优的标记数量配置。8个分割标记能够覆盖大多数图像中的主要物体，4个深度标记足以表示复杂的空间关系，4个边缘标记可以捕捉关键的结构信息，4个DINO标记则提供充分的语义表示。这种配置在表达能力和计算效率之间达到了很好的平衡。

训练数据的构建也体现了研究团队的深思熟虑。他们从LLaVA-OneVision数据集中精心筛选了视觉中心的子集，并特别增加了TallyQA计数数据集和ADE20K深度数据集。由于原始TallyQA数据集中包含大量答案为零的样本，研究团队重新平衡了数据分布，确保模型能够学习到更丰富的计数技能。

损失函数的设计需要平衡语言建模和视觉重构两个目标。研究团队通过实验发现，将所有损失权重设置为1.0能够获得最好的效果。这种简单的权重设置反映了CoVT架构设计的合理性，不需要复杂的超参数调优就能达到良好的性能。

在实际推理过程中，CoVT可以根据任务需求灵活选择需要生成的视觉标记类型。这种动态选择机制不仅提高了推理效率，还避免了不必要的计算开销。比如对于纯计数任务，模型主要使用分割标记；对于深度判断任务，则重点使用深度标记。

模型的可扩展性设计也很出色。新的视觉特征可以通过定义相应的投影层和重构损失轻松集成到系统中。这种模块化设计为未来的功能扩展提供了便利。

九、局限性与未来发展方向

尽管CoVT取得了显著的成功，但研究团队也坦诚地指出了当前方法的一些局限性，并为未来的研究指明了方向。

当前的视觉特征选择虽然经过了仔细考虑，但仍然有进一步优化的空间。研究团队主要关注了分割、深度、边缘和语义四个维度，但视觉理解还涉及其他重要特征，比如运动信息、纹理细节、光照条件等。未来的研究可以探索更丰富的视觉特征组合，或者设计自适应的特征选择机制。

另一个重要的局限性是CoVT目前还没有实现完全交错的多模态推理。虽然它能够生成视觉思维并用于推理，但这些视觉思维与文本推理之间的交互还不够深入。理想的系统应该能够在视觉思维和文本思维之间自由切换，形成真正统一的多模态推理过程。

在训练效率方面，四阶段训练策略虽然有效，但也增加了训练的复杂性。未来可能可以设计更简单的训练方法，或者通过更好的预训练来减少训练阶段。

计算效率虽然相对较好，但在某些应用场景下仍有优化空间。特别是当需要处理高分辨率图像或视频序列时，如何保持CoVT的优势同时控制计算成本是一个需要解决的问题。

从更宏观的角度看，CoVT为下一代多模态AI系统的发展提供了重要的技术基础。未来的研究可能会在此基础上发展出更加智能和通用的多模态推理系统，这些系统不仅能够像人类一样思考，还能够以人类理解的方式表达它们的思考过程。

研究团队表示，他们的最终目标是创建能够在语言和视觉之间自由思考的AI系统，这种系统将具备自包含性和可解释性，能够成为真正实用的智能助手。CoVT代表着向这个目标迈出的重要一步。

说到底，CoVT的意义远远超出了技术本身。它展示了一种新的AI设计哲学：不是简单地堆砌更多的数据和参数，而是深入思考AI系统应该如何模拟人类的认知过程。通过让AI学会"视觉思考"，我们不仅提升了它们的能力，更重要的是让它们更接近人类的思维方式。

这种接近不仅体现在性能上，更体现在可解释性上。当我们能够"看到"AI是如何思考视觉问题的时候，我们对AI系统的信任就会大大增加。这对于AI技术在关键应用领域的部署具有重要意义。

未来，随着这种技术的进一步发展和普及，我们可能会看到更多能够真正"理解"而不仅仅是"识别"视觉内容的AI系统。这些系统将能够成为我们在工作和生活中真正有用的智能伙伴，帮助我们处理各种涉及视觉理解的复杂任务。对于普通用户来说，这意味着未来的AI助手将能够更准确地理解我们展示给它们的图片和视频，提供更精准和有用的帮助。

Q&A

Q1：什么是Chain-of-Visual-Thought (CoVT)？

A：CoVT是加州伯克利大学开发的一种新型AI框架，让视觉语言模型能够进行"视觉思考"。它使用约20个特殊的视觉标记来表示分割、深度、边缘和语义信息，让AI在连续视觉空间中推理，而不是将所有内容转换为文字描述。

Q2：CoVT相比传统方法有什么优势？

A：传统方法将视觉信息转为文字描述会丢失大量细节，而CoVT直接在视觉空间思考，保持信息完整性。实验显示CoVT在视觉推理任务上提升3-16%，特别是深度理解任务提升高达14%，同时还能将AI的思考过程可视化。

Q3：CoVT如何训练和应用？

A：CoVT采用四阶段渐进式训练：理解视觉标记含义、学习生成视觉标记、在推理中使用视觉思考、灵活选择所需特征。应用时AI可直接用视觉标记思考并给出答案，需要时还能将思考过程转换为人类可理解的图像。

人工智能视觉推理多模态模型

分享至