微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 让机器人像人类一样解读图像寓意:上海人工智能实验室开发出人类思维启发的图像理解框架

让机器人像人类一样解读图像寓意:上海人工智能实验室开发出人类思维启发的图像理解框架

2025-05-28 18:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-28 18:28 科技行者

这项由上海人工智能实验室的张辰浩和牛亚哲共同领导的研究,发表于2025年5月22日的技术报告,论文题为《让机器人梦见电子羊:人类思维启发的图像寓意理解与推理框架》,有兴趣深入了解的读者可以通过arXiv:2505.17019v1 [cs.CV]访问完整论文。

为什么机器看不懂图片中的隐喻?

想象一下,当你看到一幅公主亲吻青蛙的卡通图片时,你可能立刻会想到"青蛙王子"的童话故事。而如果这幅图的结局是公主并没有得到王子,而是自己变成了青蛙,你会意识到这是对"童话不总是能在现实中实现"的讽刺。我们人类能轻松理解这种隐喻和寓意,但对于人工智能来说,这却是一项极具挑战的任务。

目前的多模态大语言模型(MLLMs)在基础的视觉问答任务中表现出色,比如识别图片中有什么物体,或者描述图片的基本内容。然而,当涉及到理解图像中的隐喻、讽刺或深层含义时,这些模型往往表现得像是文盲一样——它们只能看到表面,却无法理解背后的深意。

为什么会这样呢?研究团队发现了一个根本性问题:上下文缺失。就像一个从未接触过中国文化的人无法理解"塞翁失马,焉知非福"的含义一样,AI模型在理解图像隐喻时也面临着上下文知识的鸿沟,使它们无法建立不同视觉元素之间的关系以及它们的抽象意义。

受到人类认知过程的启发,上海人工智能实验室的研究团队提出了一个名为"Let Androids Dream"(简称LAD,让机器人做梦)的新框架,试图让AI能像人类一样理解图像中的隐喻和寓意。这个名字来源于科幻小说《机器人会梦见电子羊吗?》,暗示了研究的目标——让AI获得更接近人类的理解能力。

人类如何理解图像寓意?

在深入了解LAD框架之前,我们先来思考一下人类是如何理解图像寓意的。想象你在社交媒体上看到一张图片:一个人坐在堆满书的书桌前,但他的注意力却完全被手机吸引。

作为人类,你会经历这样的思考过程:首先,你会感知图像中的关键元素(人物、书籍、手机);然后,你会联想到相关的社会背景知识(现代人沉迷手机的现象、学习与娱乐的冲突);最后,你会推理出这幅图想表达的寓意——可能是对现代人沉迷电子设备而忽视学习的讽刺。

这个过程看似简单,实则复杂。它涉及到感知、联想和推理等多个认知步骤,而且需要调用大量的背景知识和文化理解。AI系统要模仿这一过程,就需要一个结构化的框架来引导它完成类似的思考步骤。

LAD框架:让AI像人类一样思考

LAD框架是一个三阶段的系统,设计用来解决AI在理解图像寓意时面临的上下文缺失问题。这三个阶段分别是:感知(Perception)、搜索(Search)和推理(Reasoning),它们共同组成了一个模拟人类认知过程的完整流程。

### 第一阶段:感知(Perception)

感知阶段就像人类第一眼看到图片时的反应。在这个阶段,LAD系统会将原始的视觉信息转换为结构化的文本描述。

具体来说,系统首先使用多模态大语言模型(MLLM)处理输入图像,生成一段详细的文本叙述。这段描述会捕捉图像中的粗粒度视觉信息,包括图像中的文字、显著颜色、整体布局以及重要的物体或实体。

随后,系统会从这段描述中提炼出大约7个关键词。这些关键词被特别选择来封装与理解寓意相关的关键方面,比如感知到的情绪、领域或背景(如政治、社会、文化)以及可能在视觉上暗示的修辞手法。关键词也会重新强调在描述中识别的关键文本元素或实体。

这种两层表示方式,包括丰富的描述和聚焦的关键词,为后续的搜索和推理阶段提供了坚实的基础,通过将非结构化的视觉数据转换为可操作的文本信息。关键词尤其会作为引导第二阶段知识检索的重要线索。

### 第二阶段:搜索(Search)

搜索阶段解决了语义模糊性问题,并通过迭代检索和整合跨领域知识来增强上下文理解。这个阶段采用自适应搜索方法,根据问题类型动态选择最合适的搜索方式。

整个过程分为三个主要阶段:规划、搜索和总结。

在规划阶段,系统利用第一阶段生成的关键词,指导MLLM生成五个不同层次的搜索问题。这些问题旨在发现潜在含义、文化参考或与图像寓意相关的背景信息。

搜索阶段根据生成的问题执行搜索,采用自判断机制来确定每个问题的最佳搜索策略。MLLM充当判断者,为每个搜索问题分配置信度分数。这个分数反映的标准包括所需知识的普遍性、与实时或近期事件的相关性,以及问题是否涉及当代互联网流行语或梗文化。得分高的问题(表明需要最新或小众信息)会被引导到WebSearch;得分低的问题(表明答案可能存在于通用世界知识中)则被引导到ModelSearch。

对于被判断适合内部知识检索的问题,ModelSearch利用MLLM自身的参数记忆。使用专门设计的提示,模型直接根据其预训练知识库生成答案。这种方法对于回忆已建立的事实或常见概念非常高效。

对于需要外部、动态或高度特定信息的问题,系统会调用WebSearch。这一组件首先使用规划者将初始搜索问题分解为一系列更细粒度的子问题,形成有向无环图(DAG),模拟多步骤、探索性的信息搜索过程。随后,搜索者为每个子问题从互联网执行分层信息检索,收集相关片段和事实。这种多代理方法允许并行处理和搜索策略的动态完善。最终,将检索到的子问题信息综合起来,回答原始搜索问题。

在总结阶段,系统会将搜索阶段的原始输出提炼为简洁的搜索摘要。系统首先评估五个问答对,根据其与理解原始图像核心寓意的相关性对它们进行排名,并选择最相关的三个问答对。然后,系统会进一步处理这些选定的对。MLLM在排名原因的指导下,重写并整合这些对。这涉及删除不相关或冗余信息,调和不同信息片段,以及可能补充细节,创建单一的、优化的、简洁的搜索摘要。这个最终摘要作为第三阶段的丰富上下文输入。

### 第三阶段:推理(Reasoning)

推理阶段是LAD框架的最后一步,在这里系统将执行显式推理,得出图像寓意的上下文相关解释。这个阶段综合了之前所有收集的信息——第一阶段的分层文本表示(描述和关键词)以及第二阶段的领域丰富知识——形成一个连贯的寓意理解框架。

为了处理图像寓意任务,系统采用了特定的推理格式。MLLM被提示使用指定的标记(如" ... "特殊标记)来表达其推理轨迹。在这些标记内,模型明确地展示其一步步的推理过程,将视觉线索、关键词和外部知识联系起来,最终得出图像寓意分析和解释。

这种领域特定的思维链(CoT)方法不仅引导模型朝着更稳健和有根据的输出发展,还使推理路径变得透明。该框架最终生成一个上下文相关的寓意理解,这种理解是从视觉语义输入和跨领域知识的整合中产生的,正式确立了LAD系统基于证据的视觉推理能力。

LAD如何在实际中工作?

LAD框架作为一个顺序管道运行,整合了上述三个不同阶段。第一阶段(感知)启动整个过程,接收输入图像并使用MLLM生成全面的图像描述,然后进一步处理以提取七个显著关键词。这个阶段的输出是图像描述和关键词集合。

第二阶段(搜索)以第一阶段的关键词为主要输入。在这里,MLLM将关键词转换为五个有针对性的搜索问题。自判断机制随后将这些问题引导到ModelSearch(用于内部知识检索)或WebSearch(用于外部、动态信息)。根据相关性对得到的问答对进行排名,选择前三名,并随后将其精炼为简洁的搜索摘要。这个搜索摘要是第二阶段的关键输出。

最后,第三阶段(推理)接收原始图像、来自第一阶段的图像描述和关键词,以及来自第二阶段的搜索摘要。MLLM整合这些多模态输入,并通过结构化的思维链(CoT)引导的显式推理过程,生成最终的图像寓意。这个寓意代表了LAD管道对输入图像的理解和推理的最终成果。

实验:LAD如何与其他模型比较?

为了全面评估LAD框架的效果,研究团队进行了一系列实验,将它与15多个多模态大语言模型进行比较。这些模型包括开源和闭源的各种规模和特性的模型,参数大小从7B到300B不等。

实验中使用了两种评估方法:多项选择题(MCQ)和开放式问题(OSQ)。多项选择题要求模型从六个选项中选择正确的图像寓意,而开放式问题则要求模型直接生成对图像寓意的解释。对于后者,研究团队还开发了一套综合评估指标,包括表面信息、情感表达、领域与背景、修辞技巧和深层含义等五个方面,以全面评估模型对图像寓意的理解能力。

实验结果显示,LAD框架即使使用轻量级的GPT-4o-mini模型,也能在英语和中文图像寓意基准测试中达到最先进(SOTA)的性能。在英语多项选择题中,LAD框架与GPT-4o、GPT-4.1和Grok-3-reasoning等闭源模型的表现相当,都达到了74%的准确率,而且显著超过了Claude-3.5-Sonnet和Gemini-2.0-pro 9个百分点。

在中文多项选择题中,LAD框架达到了与GPT-4o相当的表现,同时大幅超过DeepSeek-VL2 44.4%。相比基础的GPT-4o-mini模型,LAD框架在英语和中文测试中分别带来了68.2%和23.8%的相对提升,远超其他开源和推理模型的能力。

特别值得注意的是,在更具挑战性的开放式问题(OSQ)评估中,LAD框架同样表现卓越。在英语OSQ中,它大幅超过了GPT-4o模型36.7%,超过Claude-3.5-Sonnet 24.8%。在中文OSQ中,虽然略低于顶级闭源模型如GPT-4.1和Doubao-1.5-thinking-vision-pro,但仍然显著超过了Gemini-2.0-pro 15.1%和DeepSeek-VL2 30%。

研究还发现,与多项选择题的结果不同,在开放式问题评估中,推理模型和通用模型之间存在显著的性能差距,这突显了图像寓意生成任务的特殊挑战。有趣的是,一些模型(如QwenVL-2.5-72B和Gemini-2.0-pro)在多项选择题和开放式问题之间表现出较大的性能差距。通过手动检查模型输出,研究团队认为这可能是因为这些模型可能过度拟合了多项选择格式,而对开放式生成任务的接触不足。

另外,研究还进行了消融研究,分别验证了LAD框架中各个组件的贡献。结果表明,LAD的思维链方法(LAD-CoT)显著优于标准思维链方法,特别是在处理复杂的图像寓意任务时。而LAD的搜索组件(LAD-Search)在各种场景下也表现出一致的性能提升,尤其是在处理开放式推理场景时,比其他搜索方法表现更好。

为什么LAD能够成功?

LAD框架的成功可以归因于它对人类认知过程的模拟和对图像寓意理解特殊挑战的系统性解决方案。

首先,问题"如何让机器人做梦?"(How to Let Androids Dream?)隐喻性地指出了让AI系统解释图像中蕴含的细微寓意的基本挑战。LAD框架通过首先模拟类人感知(第一阶段),将原始视觉输入转换为丰富的多层次文本表示,包括综合描述和显著关键词,解决了这一挑战。这些关键词设计用来捕捉不仅是物体和场景,还包括潜在的情感基调、相关领域(例如文化、社会、政治)和可辨识的修辞手法。

随后,LAD的第三阶段采用明确、结构化的思维链(CoT)过程。这种结构化推理引导模型系统地将感知到的视觉元素与检索到的背景知识联系起来,从而构建一个连贯的寓意理解。这种方法至关重要,因为正如实验(第4节)和关于社会推理的最新工作所示,理解寓意超越了基本的视觉问答任务和经典的逻辑推理;它本质上涉及复杂的社会推理和对MLLMs常常忽略的上下文线索的解释。

此外,问题"如何梦见电子羊?"(How to Dream of Electric Sheep?)深入探讨了AI如何生成准确和具体的图像寓意——隐喻中的"电子羊"。LAD的第二阶段(搜索)是实现这一目标的关键。这个阶段认识到视觉元素的含义,特别是在隐喻上下文中,往往依赖于外部信息,如文化规范、历史事件或当代事务,这些可能在MLLMs的静态预训练知识中表示不足。

LAD的自适应搜索机制,包括从关键词制定有针对性的查询和通过自判断动态选择内部ModelSearch和外部WebSearch之间的选择,系统地丰富了初始感知,提供相关的跨领域知识。这种迭代检索和整合上下文信息的过程,特别是对流行隐喻或模糊视觉线索,显著扩展了模型的解释视野。通过提供这种必要的外部上下文,搜索阶段使LAD能够超越表面解释,准确捕捉图像的预期、通常是微妙的寓意。

LAD对未来AI研究的启示

LAD框架的成功不仅仅是在图像寓意理解任务上取得了更好的成绩,它更深层次的意义在于为AI如何更有效地解释图像寓意提供了新的视角,推动了视觉-语言推理和人机交互领域的发展。

研究团队的工作表明,目前的多模态大语言模型在处理抽象概念和文化背景丰富的内容时仍然面临挑战。LAD框架通过模拟人类的认知过程,展示了一种可能的解决方案:将视觉信息转化为结构化文本,通过搜索丰富上下文信息,然后进行显式推理。

这种方法不仅适用于图像寓意理解,还可能对其他需要深度上下文理解的AI任务有所启发,如视觉艺术鉴赏、多媒体内容创作、跨文化交流等。它也为未来的人机交互设计提供了参考,使AI系统能够更好地理解人类交流中的隐喻和文化细微差别。

此外,LAD框架的模块化设计使其具有良好的可扩展性和适应性。随着基础模型的不断进步,LAD的各个组件可以灵活更新,进一步提升整体性能。

结语:让AI真正理解人类的隐喻世界

归根结底,LAD框架的核心贡献在于它尝试解决了AI系统在理解图像寓意时面临的最根本问题——上下文缺失。通过结合感知、搜索和推理三个阶段,LAD让AI系统能够像人类一样,不仅看到图像中的表面内容,还能理解背后的文化含义、情感表达和修辞手法。

虽然LAD取得了显著的进步,但研究团队也坦诚指出了一些局限性。例如,搜索阶段(特别是网络搜索和多次模型调用)可能会导致生成图像寓意的延迟。此外,尽管开放式问题评估已经纳入了多次模型调用的平均和人类一致性检查(16名博士生和研究人员的人类-模型评分一致性达到95.7%)来减轻主观性,但其基于GPT-4o模型判断的基础可能仍然保留一定程度的内在偏见。

未来,研究团队计划优化搜索策略,提高效率并减少模型调用,同时进一步完善评估方法。这项工作为让AI系统更好地理解人类文化和交流中的隐喻世界铺平了道路,朝着创建真正能够"梦见电子羊"的AI系统迈出了重要一步。

这个比喻回应了小说《仿生人会梦见电子羊吗?》中的深刻哲学探讨:如果AI能够理解隐喻和寓意,它是否已经开始拥有某种形式的"人性"?LAD框架虽然没有直接回答这个问题,但它确实让我们离理解AI系统与人类思维之间的差距和联系更近了一步。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-