这项由北京人工智能研究院的刘家政、郑思鹏,以及北京大学计算机科学学院的卡尔松和陆宗卿教授领导的研究发表于2025年3月,论文题为《Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning》。有兴趣深入了解的读者可以通过arXiv:2503.07002v1访问完整论文。
当我们和朋友聊天时,经常会指着照片说"你看这个"、"刚才提到的那个东西",而朋友总能准确理解我们在说什么。但对于目前的AI来说,这种看似简单的多轮视觉对话却是个大难题。就像一个健忘的朋友,AI经常在对话进行到第二轮时就忘记了第一轮讨论的内容,更别说准确找到图片中的相关区域了。
北京人工智能研究院的研究团队注意到了这个问题。他们发现,现有的多模态大语言模型在处理包含图像的多轮对话时,就像没有笔记本的学生一样容易分心走神。当对话涉及图片中的多个区域,或者需要在几轮对话中保持对同一区域的关注时,AI往往表现得力不从心。
研究团队从人类学习的习惯中找到了灵感。当我们阅读复杂文档或分析图片时,总会习惯性地用笔圈出重点、做标记,这些简单的视觉提示能帮我们保持专注。基于这个观察,他们提出了一个关键问题:能否让AI也学会"做笔记",通过标记重要区域来保持在多轮对话中的专注力?
为了验证这个想法,研究团队首先构建了一个名为MMDiag的数据集,这是专门为多轮多模态对话设计的训练和测试平台。与以往那些问题相互独立的数据集不同,MMDiag中的每个对话都像连续剧一样环环相扣,后面的问题必须依赖前面的答案才能解决。
随后,他们开发了DiagNote模型,这个AI系统包含两个相互协作的模块:一个叫"Deliberate"的思考模块和一个叫"Gaze"的注视模块。这种设计就像给AI配备了一个大脑和一双善于观察的眼睛,大脑负责逻辑推理,眼睛负责精准定位图片中的关键区域。
**一、多轮视觉对话的挑战:AI为什么会"失忆"**
多轮视觉对话听起来简单,实际上对AI来说却是个复杂的挑战。研究团队将这个挑战比作同时进行的两个任务:一是"显著性追踪",AI需要在对话过程中持续关注图片中不同的相关区域;二是"显著性回忆",AI需要在多轮问答中始终记住之前确定的关键信息。
为了说明这个问题的复杂性,研究团队使用了一个网格世界游戏作为例子。在这个游戏中,一个红色三角形代表智能体,需要去拾取紫色钥匙。第一个问题问的是:"红色三角形应该怎么做才能拾取紫色钥匙?" AI需要同时定位红色三角形和紫色钥匙的位置,然后规划路径。第二个问题接着问:"之后,如果智能体想要到达紫色钥匙下方的红色球,应该怎么做?" 这个问题的关键在于"之后"两个字,AI必须基于第一个问题中智能体的最终位置来回答,而不是基于初始位置。
这种关联性要求AI具备两种核心能力。首先是空间记忆能力,AI需要记住在前一轮对话中确定的位置和状态。其次是上下文理解能力,AI需要理解代词"之后"指向的时间节点,以及"那里"、"它"等指代关系。
现有的AI模型在处理这类问题时经常出现两种典型错误。第一种是"注意力漂移",AI在第二轮对话时忘记了第一轮的焦点区域,重新从原始状态开始分析。第二种是"指代混淆",AI无法正确理解对话中的代词和时间关系,导致答案偏离正确轨道。
更棘手的是,当图片分辨率很高、包含大量视觉信息时,AI需要处理的视觉标记数量会急剧增加。这就像让一个人同时记住一本厚厚字典中的所有内容,超出了模型的处理能力范围。传统的解决方案往往采用"放大镜"策略,逐渐缩小关注范围,但这种方法容易错过重要的背景信息。另一种方案是"单点聚焦",每次只关注一个区域,但这会忽略多个相关区域之间的关联性。
**二、从人类学习习惯中获得启发:AI版的"课堂笔记"**
研究团队的突破性思路来源于对人类学习行为的细致观察。当我们面对复杂的学习材料时,很少有人能仅凭大脑记忆就完美掌握所有信息。相反,我们会自然而然地使用各种辅助手段:用荧光笔标记重点段落,在页边空白处写下注释,用箭头连接相关概念,甚至简单地用笔圈出关键词汇。
这些看似微不足道的标记行为实际上发挥着巨大作用。它们不仅帮助我们在当下集中注意力,更重要的是为后续的复习和深入思考提供了视觉导航。当我们再次翻阅这些材料时,那些标记就像路标一样,迅速将我们的注意力引导到最重要的内容上。
基于这个观察,研究团队产生了一个关键洞察:既然人类需要通过"做笔记"来维持专注力和记忆力,那么AI在处理复杂的多轮视觉对话时,是否也需要类似的机制?
他们注意到现有AI模型的一个致命缺陷:这些模型就像没有笔记本的学生,完全依赖"短期记忆"来处理信息。当对话进行到第二轮、第三轮时,第一轮讨论的重点区域往往已经从模型的"记忆"中淡化或消失。这就像一个学生在课堂上专心听讲,但因为没有做笔记,到了期末考试时就记不清老师强调过的重点内容。
更深层的问题在于,现有模型缺乏"渐进式专注"的能力。人类在分析复杂图片时,会采用一种自然的策略:先获得整体印象,然后逐步聚焦到关键细节,在这个过程中不断调整注意力的分布。而AI模型往往采用"一次性处理"的方式,试图在单一步骤中理解所有信息,这种方式在面对复杂场景时容易导致信息过载。
研究团队还发现了另一个有趣的现象:人类在做笔记时,通常不会写下完整的句子或详细的解释,而是使用简洁的关键词、符号或图形标记。这些简化的标记虽然看起来粗糙,但恰恰因为其简洁性而具有高效的提示作用。这个观察启发他们设计AI的"笔记系统"时,也应该采用简洁而精确的标记方式,而不是复杂的描述性文字。
**三、MMDiag数据集:专为"健忘"AI设计的训练场**
为了训练AI掌握多轮视觉对话的能力,研究团队面临的第一个挑战就是缺乏合适的训练数据。现有的多模态对话数据集大多存在一个根本性问题:问题之间相互独立,缺乏真正的关联性。这就像给学生提供的练习题都是单独的选择题,而不是需要前后连贯思考的应用题。
MMDiag数据集的设计理念完全不同。研究团队采用了"强制关联"的策略,确保每个对话中的问题都必须依赖前面的答案才能解决。他们使用图论的方法来构建这种关联性:将每张图片表示为一个图结构,其中节点代表物体,边代表物体之间的关系。每个问答对被表示为这个图的一个子图,而多轮对话则确保这些子图之间有重叠的节点或边。
这种设计保证了一个重要特性:如果AI想要正确回答后续问题,就必须准确理解和记忆前面问题的答案。这就像连环推理题,每一步都为下一步提供必要的信息基础。
MMDiag包含三个不同的场景类型,每个场景都测试AI的不同能力维度。第一个是日常生活场景,基于Visual Genome数据集构建,包含10.8万张带有详细标注的真实照片。这些场景测试AI对常见物体和日常关系的理解能力。第二个是表格图表场景,基于ChartQA数据集构建,包含1.8万个真实世界的图表和23.1万个问答对。这些场景特别考验AI的数据解读和数值推理能力。第三个是网格世界场景,基于Minigrid环境构建,这是一个专门设计的2D格子世界,用于测试AI的空间推理和规划能力。
每个场景的构建过程都经过精心设计。对于日常生活场景,研究团队首先从原始数据中提取物体和关系信息,构建图结构,然后使用子图匹配算法找到具有重叠节点的问答组合,最后使用GPT-4o-mini生成自然语言的问题、答案和推理过程。这个过程确保了生成的对话既保持自然性,又具有严格的逻辑关联性。
对于表格图表场景,挑战更大一些,因为原始的ChartQA数据集只包含单轮问答。研究团队采用了创新的提示工程技术,指导GPT-4o-mini生成具有代词引用和数值关联的多轮对话。他们特别强调了"某些区域被代词引用"这一要求,以增加对话的复杂性和真实性。
网格世界场景的构建最为复杂,因为它涉及动态规划和行动序列。研究团队首先使用Minigrid生成随机的网格世界环境,然后使用BabyAI算法计算完成任务所需的最优行动序列,最后将环境描述、任务目标和行动计划一起提供给GPT-4o-mini,生成相应的多轮对话。
数据集的质量控制也是一个重要环节。为了避免评估偏差,研究团队在生成数据时使用GPT-4o-mini,但在最终评估时使用Gemini-1.5-Pro作为评判标准。他们设计了一个五级评分系统,从"完全错误"到"完全正确",并要求评估模型提供详细的推理过程,以确保评分的准确性和一致性。
**四、DiagNote模型:AI版的"大脑+眼睛"组合**
DiagNote模型的核心设计灵感来源于人类视觉认知的双重机制:我们既有负责逻辑思考的大脑,也有负责精确观察的眼睛,两者密切协作才能完成复杂的视觉理解任务。基于这个理念,研究团队设计了两个相互配合的模块。
Deliberate模块扮演"大脑"的角色,负责整体的逻辑推理和决策制定。这个模块基于LLaVA-1.5架构构建,包含一个大语言模型作为核心推理引擎,一个预训练的视觉变换器作为图像编码器,以及一个多层感知机作为视觉-文本连接器。Deliberate模块的主要任务是理解对话上下文,制定推理策略,并决定在每个推理步骤中需要关注图片的哪些区域。
Gaze模块则扮演"眼睛"的角色,专门负责精确定位图片中的关键区域。这个模块同样基于LLaVA-1.5架构,但经过专门的训练以优化其空间定位能力。当Deliberate模块提出"需要找到红色汽车"这样的查询时,Gaze模块会在图片中精确定位红色汽车的边界框坐标。
两个模块的交互过程就像一场精心编排的对话。在处理每个问题时,Deliberate模块首先分析整体情况,制定初步的推理计划,然后向Gaze模块提出具体的查询请求。Gaze模块接收到查询后,在图片中搜索相应的区域并返回精确的位置坐标。Deliberate模块获得这些位置信息后,更新自己的推理状态,可能会提出进一步的查询,或者基于已有信息得出结论。
这种交互式的处理方式带来了几个重要优势。首先是"渐进式聚焦"能力,模型可以根据推理过程的需要,逐步细化对图片不同区域的关注。其次是"记忆保持"能力,每次交互的结果都会被存储在相应的缓冲区中,为后续的推理步骤提供参考。最后是"错误修正"能力,如果某次定位结果不理想,模型可以在下一轮交互中进行调整。
模型的训练过程也体现了这种协作机制。两个模块不是独立训练的,而是在统一的框架下协同优化。训练数据包括完整的推理链,不仅有最终答案,还有每个中间步骤的推理过程和对应的区域标注。这种端到端的训练方式确保两个模块能够形成良好的配合默契。
特别值得注意的是,DiagNote在推理过程中生成的不仅是最终答案,还包括完整的思考过程和注意力轨迹。这就像一个学生不仅给出了考试答案,还展示了完整的解题步骤和草稿纸。这种透明性不仅有助于理解模型的推理逻辑,也为进一步的模型改进提供了宝贵的洞察。
**五、实验验证:AI学会做笔记后的表现如何**
为了验证DiagNote的有效性,研究团队设计了一系列全面的实验,就像给学生安排期中期末考试一样,从多个维度测试模型的能力。
在视觉定位能力测试中,DiagNote展现出了显著的优势。研究团队将其与目前最先进的定位模型Grounding DINO进行对比,结果发现在处理复杂查询时,DiagNote的表现要好得多。特别是在处理带有属性描述的查询时,比如"粉白色的标志牌",传统的定位模型往往会被多个相似物体所困惑,而DiagNote能够准确识别符合所有条件的目标。
这种优势在表格图表场景中表现得尤为明显。当面对"找到Cyprus"这样的文字定位任务时,专门的定位模型往往表现糟糕,因为它们主要针对物体识别进行优化,对文字识别能力有限。而DiagNote利用大语言模型的泛化能力,能够有效处理这类光学字符识别任务。
在多轮推理能力测试中,DiagNote的优势更加明显。研究团队使用Gemini-1.5-Pro作为评判标准,在0-10分的评分系统下评估模型的推理过程和最终答案。结果显示,DiagNote在各个场景下都显著优于基线模型。特别是在需要复杂推理的表格场景中,DiagNote的平均得分达到了4.92分,而其他模型的得分都在3分以下。
更有趣的是,研究团队发现Gaze模块的贡献在不同场景下有明显差异。在日常生活场景中,Gaze模块的帮助最为明显,这可能是因为此类场景中的关键区域通常比较大且容易识别。在表格场景中,Gaze模块的作用相对有限,这主要是因为图表中的关键信息往往是很小的数字或文字,超出了当前视觉编码器的精确定位能力。
研究团队还进行了一个特别有启发性的实验:他们给DiagNote提供了完全准确的区域标注(相当于"标准答案"),结果发现性能有了显著提升,这证明了区域定位准确性的重要性,也指出了未来改进的方向。
对话轮数的分析揭示了另一个有趣的发现。随着对话轮数的增加,Gaze模块的作用变得越来越重要。在第一轮对话中,有没有Gaze模块的差异相对较小,但到了第三轮、第四轮时,这种差异就变得非常明显。这说明在长对话中,"做笔记"机制的价值更加突出。
不过,实验也揭示了一些局限性。当图片中的关键区域非常小(占图片面积不到0.2%)时,Gaze模块的定位准确性会明显下降,这时不仅帮不上忙,反而可能提供错误的引导。这个问题在表格场景中特别突出,因为图表中的数字和标签往往都很小。研究团队认为,这主要是由于当前视觉编码器的分辨率限制导致的。
**六、挑战与局限:AI的"近视眼"问题**
尽管DiagNote在多轮视觉对话方面取得了显著进展,但研究团队也诚实地指出了当前方法面临的一些挑战,这些挑战就像AI版本的"近视眼"问题。
最主要的限制来自于视觉精度。当前的视觉编码器在处理高分辨率图像时,往往需要将图像压缩到固定尺寸,这个过程中小的文字和数字容易变得模糊不清。这就像让一个近视的人不戴眼镜去读报纸上的小字,结果自然不理想。在实验中,研究团队发现当关键信息区域小于图片总面积的0.2%时,Gaze模块的准确性会大幅下降。
这个问题在表格图表场景中特别突出。图表中的年份、百分比、标签等关键信息往往以小字体出现,而这些恰恰是回答问题的关键。当Gaze模块错误定位这些信息时,就会误导Deliberate模块,导致整个推理过程偏离正轨。
另一个挑战是计算资源的消耗。DiagNote的双模块设计虽然提高了性能,但也意味着需要更多的计算资源。每个模块都基于LLaVA-1.5这样的大型模型,运行两个这样的模块需要的显存和计算时间都是单一模型的两倍左右。这对于实际应用来说可能是一个制约因素。
模型在标准多模态基准测试上的表现也不如专门为这些任务优化的模型。这是可以理解的,因为DiagNote专门针对多轮对话进行了优化,在其他任务上的表现自然不如专门模型。这就像一个专门练习长跑的运动员,在短跑比赛中可能不如短跑专家。
研究团队还发现了一个有趣的现象:在某些情况下,Gaze模块反而会降低性能。这主要发生在Gaze模块提供错误定位信息的时候,这些错误信息会误导Deliberate模块的推理过程。这个发现提醒我们,"做笔记"只有在笔记准确的情况下才有帮助,错误的笔记可能比没有笔记更糟糕。
针对这些局限性,研究团队提出了几个可能的改进方向。首先是使用更高分辨率的视觉编码器,或者采用动态分辨率的处理方式。其次是改进Gaze模块的训练策略,让它学会在不确定的时候"保持沉默",而不是提供可能错误的信息。最后是探索更轻量级的模型架构,在保持性能的同时降低计算成本。
**七、未来展望:让AI更像人类一样思考**
这项研究的意义远远超出了技术层面的改进,它为人工智能的发展指出了一个重要方向:让AI更像人类一样思考和学习。
从技术发展的角度看,DiagNote代表了一种新的模型设计理念:不再是单一的端到端黑盒系统,而是模块化的、可解释的、协作式的智能系统。这种设计理念的好处是显而易见的:每个模块都有明确的职责分工,系统的行为更容易理解和调试,出现问题时也更容易定位和修复。
更重要的是,这种设计思路可能适用于更广泛的人工智能任务。在自动驾驶中,我们可以设计专门的感知模块和决策模块;在机器翻译中,我们可以设计专门的理解模块和生成模块;在科学研究中,我们可以设计专门的假设提出模块和实验验证模块。
从应用前景来看,具备多轮视觉对话能力的AI将在许多实际场景中发挥重要作用。在教育领域,这样的AI可以作为智能导师,通过图表、图像和文字与学生进行深入的学科讨论。在医疗诊断中,AI可以与医生就病理图像进行多轮分析讨论,提供更准确的诊断建议。在工业质检中,AI可以协助工程师对产品缺陷进行详细分析。
研究团队特别强调了数据集建设的重要性。MMDiag数据集不仅是这项研究的基础,也为整个领域提供了一个新的基准。随着更多研究团队使用这个数据集,我们可以期待在多轮视觉对话领域看到更多突破性进展。
从更长远的角度看,这项研究触及了人工智能发展的一个核心问题:如何让AI具备真正的理解能力,而不仅仅是模式匹配能力。通过引入"做笔记"机制,DiagNote展示了一种可能的路径:让AI学会像人类一样使用外部工具来增强自己的认知能力。
当然,这项研究也提出了一些深层次的问题。例如,我们是否应该让AI完全模仿人类的思考方式,还是应该开发AI独有的认知模式?在提高AI能力的同时,如何确保其行为的可控性和安全性?这些问题没有简单的答案,需要整个人工智能社区的共同思考和探索。
说到底,这项研究最令人兴奋的地方不在于它解决了一个特定的技术问题,而在于它为我们展示了一种新的可能性:人工智能不必是一个神秘的黑盒,它可以像人类一样学会使用工具,学会做笔记,学会专注和回忆。这种"更像人类"的AI,可能正是我们一直在寻找的通往真正智能的道路。
当我们看到AI开始学会做笔记时,我们或许也在见证人工智能发展史上的一个重要时刻:机器第一次真正开始模仿人类最基础、最重要的学习习惯。这个习惯看似简单,却可能是连接人类智慧和机器智能的桥梁。对于我们普通人来说,这意味着未来的AI助手将能够进行更自然、更深入的视觉交流,就像与一个善于观察和记忆的朋友对话一样轻松愉快。
Q&A
Q1:DiagNote是什么?它与现有AI有什么不同? A:DiagNote是北京人工智能研究院开发的多轮视觉对话AI模型。它的创新之处在于模仿人类做笔记的习惯,通过两个模块协作:Deliberate模块负责逻辑推理,Gaze模块负责精确定位图片区域。这种设计让AI能够在多轮对话中保持专注,不会像传统AI那样"健忘"。
Q2:MMDiag数据集解决了什么问题? A:MMDiag是专门为多轮视觉对话设计的训练数据集,解决了现有数据集问题相互独立的弊端。它确保每轮对话都必须依赖前面的答案,就像连环推理题一样。包含日常场景、表格图表和网格世界三种场景,总共63.9万个问答对和113.9万个定位标注。
Q3:这项技术什么时候能在日常生活中使用? A:目前DiagNote还处于研究阶段,主要面临视觉精度和计算资源的限制。研究团队发现当图片中的关键区域太小时,定位准确性会下降。不过,这项技术的理念和方法为未来的AI助手、智能教育、医疗诊断等应用指明了方向。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。