在日本漫画文化中,一本好漫画往往通过图像和文字的精妙结合讲述引人入胜的故事。现在,东京大学的研究团队希望让人工智能也能像人类一样理解和欣赏这种独特的艺术形式。这项研究成果《MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding》由东京大学的白晶勋(Jeonghun Baek)、江头和希(Kazuki Egashira)、小野原翔太(Shota Onohara)、宫井淳之(Atsuyuki Miyai)、今宿由纪(Yuki Imajuku)、生田光(Hikaru Ikuta)和相泽清晴(Kiyoharu Aizawa)共同完成,于2025年5月26日发表在arXiv预印本平台,论文编号为2505.20298v1。
想象一下,你是一位漫画创作者,正在绘制一个复杂的故事。如果有一个助手能够阅读你的作品,理解故事情节,并给出有用的反馈,那会多么便利!这正是东京大学研究团队的愿景:让AI能够理解漫画的多模态叙事方式,从而帮助创作者反思和完善他们的故事。
在这个数字时代,大型多模态模型(LMMs)已经能够处理图像和文本的结合,但要让它们理解日本漫画这种独特的叙事形式仍然面临挑战。漫画不仅仅是简单的图文组合,它有着复杂的分格布局、丰富的视觉表现手法,以及直接嵌入图像中的文字对话和拟声词。要理解一本漫画,AI需要同时掌握视觉和文字信息,并且能够在连贯的叙事中跟随上下文——就像人类读者一样。
研究团队发现,虽然已有一些研究如Magi和CoMix尝试解决漫画理解问题,但它们主要专注于从漫画页面生成文字转录,而没有评估模型在多大程度上能够准确识别页内文本(OCR)或基于该文本通过视觉问答(VQA)理解内容。简单来说,现有研究还无法确定AI是否真的像人类一样理解漫画内容。
为了解决这一问题,东京大学的团队提出了两个基准测试:MangaOCR和MangaVQA。MangaOCR专注于检测和识别漫画中的文本内容,如对话和音效。研究团队整合了知名的Manga109数据集和漫画拟声词数据集的现有注释来构建这一基准。更重要的是,作为主要贡献,他们提出了MangaVQA,一个新型基准,旨在评估AI模型通过视觉问答准确回答基于视觉和文本上下文的针对性问题的能力。它由526个高质量、手动构建的问答对组成,涵盖各种叙事和视觉场景,使得评估更加可靠。
基于这两个基准测试,研究团队开发了MangaLMM,一个专门用于漫画理解的模型。这个模型是在开源大型多模态模型Qwen2.5-VL的基础上微调得到的,能够同时处理OCR和VQA两项任务。通过大量实验,包括与GPT-4o和Gemini 2.5等专有模型的比较,团队评估了LMM模型理解漫画的能力。
这项研究的意义不仅在于技术突破,更在于它为漫画创作者提供了潜在的创作辅助工具。未来,这种技术可能会像一个熟练的编辑或助手一样,帮助创作者反思和改进他们的故事,使漫画创作过程更加高效和有创意。
一、漫画理解的挑战与MangaOCR基准
漫画是一种独特的多模态叙事形式,它与普通图文结合的内容有着本质区别。想象你正在阅读一本漫画,你会发现它有着特定的阅读顺序(日本漫画通常是从右到左),复杂的分格布局,以及直接融入图像中的文字。这些文字可能是角色对话,也可能是"轰"、"啪"等拟声词,它们都是故事叙述的重要组成部分。
为了让AI系统能够理解漫画,研究团队首先需要解决的问题是:如何让AI正确"读取"漫画中的文字?这就像教一个外国人不仅要看懂漫画的图像,还要能读懂上面的文字一样。这个任务在AI领域被称为光学字符识别(OCR)。
研究团队选择了广泛使用的Manga109数据集作为研究基础。这个数据集包含109卷日本漫画,具有开放访问许可,多样化的漫画标题,以及丰富的注释和元信息。它捕捉了漫画的许多独特特征,包括其主要黑白的艺术风格,双页展开,从右到左的阅读顺序,垂直文本布局,以及融入插图的风格化拟声词。
基于Manga109数据集,研究团队构建了MangaOCR基准。这个基准专注于两类嵌入文本:对话和拟声词。通过整合Manga109数据集和漫画拟声词数据集的现有注释,MangaOCR包含约20.9万个叙事文本实例,涵盖各种视觉风格和布局。
值得注意的是,研究团队采用了基于作者信息的数据集分割协议。在原始分割中,109卷漫画被分为训练集、验证集和测试集。为了评估同一系列内的泛化能力,十个测试卷中的五个属于与训练集相同的系列,其中第一卷包含在训练集中,最后一卷在测试集中。这样设置可以测试模型是否能够从系列的开始泛化到后期。另外,为了评估作者内泛化能力,剩余五个测试卷是由在训练集中有其他作品的作者创作的。这使团队能够评估模型是否能够在同一作者的不同作品之间泛化。
此外,为了评估与作者身份相关的分布外泛化能力,研究团队将验证集中的三个卷移至测试集。这些卷由在训练集中没有贡献任何作品的个人创作。
总体而言,MangaOCR包含约20.9万个文本实例,其中训练集有17万个,验证集有1.3万个,测试集有2.6万个。通过这个基准,研究团队能够评估AI模型识别漫画中文本的能力,这是理解漫画内容的基础步骤。
二、深入理解漫画内容:MangaVQA基准
想象你正在与朋友讨论一本刚读完的漫画。你们可能会问:"这个角色为什么要这么做?"或"这个情节转折有什么意义?"这种对内容的深入理解和讨论正是人类读者自然而然会做的事情。但对AI来说,仅仅能识别出漫画中的文字(OCR)还远远不够,它还需要理解这些文字在故事情境中的含义。
这就是为什么研究团队提出了MangaVQA基准。与仅关注文本识别的MangaOCR不同,MangaVQA旨在评估AI模型对漫画内容的理解程度。想象MangaVQA就像是给AI出一份漫画理解测验,测验中的问题需要AI不仅能"看"到图像,"读"出文字,还能理解它们共同讲述的故事。
为了创建高质量的评估集,研究团队的五位标注者基于Manga109中的图像手动创建了问答对。他们专注于有明确答案的问题,避免那些仅凭图像模糊印象就能推断出的问题。这确保了评估的可靠性和无歧义性。
MangaVQA的问题类型设计基于四个关键维度:
首先是"所需信息"维度,问题可能需要来自个别分格的信息(约45.4%)或整个页面的信息(约54.6%)。这反映了人类读者如何在不同层面理解漫画内容。
第二个维度是"理解类型",分为三类:精确提取(44.1%),即答案直接从图像中提取;多模态理解(52.1%),即答案需要理解故事的上下文;图像理解(3.8%),即不需要参考文本就能回答的问题。
第三个维度是基于5W1H(Who, What, When, Where, Why, How)的问题类型。其中,"What"(什么)类问题占49.8%,"Why"(为什么)类问题占22.8%,"Who"(谁)类问题占17.3%,其他类型分别占较小比例。
最后一个维度是"作者类型",即问题所涉及的漫画是否来自训练集中包含的作者。这包括见过的作者(不同标题)占31.9%,见过的标题(不同卷)占33.8%,和未见过的作者占34.2%。
举个例子,在"精确提取"类别中,问题可能是:"风子收到的人偶叫什么名字?"答案是"芙酱",这直接写在对话中。这类问题评估AI的基本理解能力,即识别和提取漫画中的正确答案部分。
在"多模态理解"类别中,问题可能是:"接球手注意到击球手有什么变化?"正确答案是:"他以前站姿开放,但现在站姿封闭。"这类问题允许评估AI是否不仅能识别对话,还能理解其在叙事背景下的潜在含义。
在"图像理解"类别中,问题可能是:"右下角的男人试图攻击什么?"答案是:"婴儿"。这类问题纯粹依赖于对角色及其行为的视觉描绘,允许AI即使在没有对话的情况下也能推断出正确答案。
通过这些多样化的问题类型,MangaVQA提供了一个全面的框架来评估AI模型对漫画内容的理解能力。这不仅仅是识别文字,而是理解文字和图像如何共同讲述一个连贯的故事。
三、MangaLMM:专为漫画理解打造的AI模型
有了MangaOCR和MangaVQA这两个基准测试,研究团队的下一步是开发一个能够像人类一样阅读和理解漫画的AI模型。这就是MangaLMM的诞生过程。
想象你正在教一个从未接触过漫画的外国朋友如何阅读日本漫画。你需要教他不仅要看懂图像,还要读懂文字,并且理解故事情节。同样,研究团队需要"教导"AI模型完成这些任务。
他们选择了开源大型多模态模型Qwen2.5-VL作为基础,并对其进行微调以创建MangaLMM。选择Qwen2.5-VL是因为它是一个强大的多语言模型,能够处理日语,并且具有出色的日语OCR能力,这对理解漫画至关重要。
为了训练MangaLMM,研究团队构建了两种类型的训练数据:
首先是OCR训练集(TOCR)。对于OCR任务,他们使用前面描述的MangaOCR训练集。对于每个图像,他们将文本注释序列格式化为JSON格式,包含文本的坐标位置和内容。
其次是合成VQA训练集(TVQA)。对于VQA任务,他们使用GPT-4o为每个图像生成五个问题,同时利用图像和其OCR注释。虽然他们要求GPT-4o为每个图像生成五个问题,但有时它返回的问题少于五个。最终,他们从8,379个图像创建了总共39,837个合成VQA样本。
训练过程采用了持续微调的策略,在预训练的Qwen2.5-VL 7B模型上进行。大多数超参数遵循原始Qwen2.5-VL配置,只有少数修改。对于Manga109图像(1654×1170分辨率),他们遵循Qwen2.5-VL的图像调整机制,该机制基于像素计数阈值,其中输入像素的最小和最大数量分别为3,136和2,116,800。
训练时间方面,每个数据集训练一个周期。使用四个NVIDIA A100 GPU训练Qwen2.5-VL 7B模型,使用TOCR或TVQA大约需要1小时,而同时使用TOCR和TVQA则需要约2小时。
这样,MangaLMM成为了一个专门用于漫画理解的模型,能够同时处理OCR和VQA任务。它就像一个熟练的漫画读者,不仅能看懂图像,读懂文字,还能理解故事情节,为漫画创作者提供有价值的反馈。
四、实验与结果:MangaLMM的表现如何?
研究团队进行了一系列实验,以评估MangaLMM以及其他多模态大语言模型在漫画理解任务上的表现。这就像是一场AI漫画阅读比赛,参赛者包括商业模型如GPT-4o和Gemini 2.5,以及开源模型如Phi-4和Qwen2.5-VL。
对于MangaOCR任务的评估,研究团队遵循先前OCR研究和ICDAR 2019多语言OCR竞赛的评估协议。首先,如果预测的边界框与真实边界框的交并比(IoU)超过0.5,则被视为正确检测。基于匹配的框,计算精确率(P)、召回率(R)和它们的调和平均值(Hmean)。其次,对于每个匹配的框,计算预测文本和真实文本之间的归一化编辑距离(NED)作为字符级指标。
由于大语言模型有时会重复输出相同的单词,研究团队应用了后处理步骤,排除出现超过十次的重复文本段,将其视为噪声。
对于MangaVQA任务的评估,研究团队采用了"LLM-as-a-judge"方法。他们提供GPT-4o问题、人工编写的答案以及模型的回应。基于人工编写的答案,GPT-4o评估模型的回应是否适当且与问题相关,使用1-10的评分尺度。
主要实验结果表明:
1. 在MangaOCR任务上,MangaLMM取得了71.5%的Hmean评分,远超GPT-4o、Gemini 2.5、Phi-4和原始Qwen2.5-VL的表现,这些模型的评分接近零。
2. 在MangaVQA任务上,MangaLMM获得了6.57/10的评分,超过了GPT-4o的5.76分、Gemini 2.5的3.87分、Phi-4的3.08分和原始Qwen2.5-VL的5.36分。
为什么商业模型在MangaOCR任务上表现如此糟糕?研究团队分析认为,这可能有两个主要原因:一是这些模型不熟悉漫画数据,二是它们的检测能力较弱,可能限制了OCR性能。先前的研究表明,例如GPT-4o的检测能力较差,这可能也适用于其他模型。
有趣的是,尽管这些模型在OCR任务上得分接近零——不仅位置信息缺失,甚至正确的文本内容也未生成——它们仍然能够回答某些需要解释图像中文本的VQA问题。这有些反直觉。虽然模型未能明确输出正确的OCR结果,但它们似乎能够从图像中捕获一些文本语义。这表明它们能够提取回答VQA问题所需的相关信息,即使没有正确执行OCR。
研究团队还分析了微调的效果。在TOCR和TVQA上微调Qwen2.5-VL使模型能够专注于各自的任务。在MangaOCR上,微调后的模型取得了显著改进,达到74.9%的得分。在MangaVQA上,虽然模型最初表现不如GPT-4o,但它表现出明显的性能提升,甚至超过了GPT-4o。这些结果突显了合成VQA训练集TVQA的有效性。
从任务干扰的角度来看,在TOCR和TVQA上联合微调的MangaLMM与仅在TOCR上微调相比,OCR性能略有下降,但与仅在TVQA上微调相比,VQA得分略有提升。多任务学习中的一个常见问题是任务干扰,即在多个任务(如A和B)上联合训练的模型往往在任务A上的表现比仅在A上训练的模型差。在这种假设下,人们可能会预期联合训练的OCR+VQA模型在VQA上的表现相对于仅VQA模型会下降。有趣的是,研究团队观察到联合训练下VQA得分略有提升,这与典型的干扰预期相反。这表明,尽管可能存在任务干扰,但增强的OCR能力可能提供了有益的文本线索,从而略微改善了VQA表现。
研究团队还研究了模型大小和数据集大小的影响。他们比较了不同大小(3B和7B)的Qwen2.5-VL模型在各种微调设置下的表现。与7B模型类似,3B模型在同时在TOCR和TVQA上微调时,MangaOCR性能略有下降,而MangaVQA性能略有提升。他们还测试了不同的数据集大小(25%、50%、75%和100%),发现随着数据集大小的增加,性能通常会提高。
在MangaOCR的性能分析中,研究团队发现,检测的Hmean为78.6%,而端到端的Hmean达到71.5%,这意味着一旦检测到文本区域,模型可以以约91.0%(=71.5/78.6)的准确率读取它们。当模型预测图像中确实存在但未包含在注释中的文本时,会出现一些假阳性——例如,页码或不属于叙事内容(如对话或拟声词)的编辑标记。因此,精确率不太可能达到100%。与精确率相比,召回率相对较低(68.5%)。这表明约31.5%的真实叙事文本未被检测到,这表明在捕获所有语义相关内容方面还有改进空间。
在MangaVQA的性能分析中,研究团队对模型在MangaVQA的注释类别上的表现进行了细分。他们观察到几乎所有标签在每个注释类别中的表现都有所提升,这表明他们的训练有助于VQA能力的一致和平衡提升。例如,也许令人惊讶的是,模型对来自未见过作者的问题泛化得很好,尽管与其他标签相比,性能提升略小。
唯一的例外是不需要文本信息的问题("理解类型 = 图像")。在这种情况下,训练后观察到轻微的性能下降。研究团队假设这是因为他们的训练强烈依赖文本——不仅模型在MangaOCR上训练,而且合成VQA生成也由文本注释引导。考虑到漫画的独特性在于其多模态性,且非文本理解的用例相对较少,研究团队认为这不是主要限制,但更适合此类情况的训练方法留待未来研究。
研究团队还研究了在生成VQA数据时OCR注释的影响。在创建用于训练的合成QA对时,他们向GPT-4o提供OCR注释作为提示的一部分。他们通过比较使用和不使用文本注释制作的VQAs的效果来评估这一影响。结果表明,没有OCR信息生成的VQA数据训练的模型(得分5.44)没有超过GPT-4o自身的得分(5.76)。相比之下,OCR引导的VQAs显著提高了得分(6.57),甚至超过了GPT-4o。这些结果表明,OCR注释帮助GPT-4o生成超越其固有表现的高质量QA对。
研究团队还对MangaVQA进行了定性分析。他们提供了几个例子,比较原始Qwen模型和经过训练的模型的输出。在一个例子中,原始模型基于问题中人物出现的分格生成了一个一般性答案,而经过训练的模型的答案基于文本气泡的内容,更加具体,导致评分从3分增加到10分。在另一个例子中,原始模型提取了与问题无关的文本,而经过训练的模型提取了正确的文本,导致评分从2分增加到10分。
这些实验结果表明,MangaLMM不仅在MangaOCR和MangaVQA任务上表现出色,而且比许多商业模型更好地理解漫画内容。这为未来开发更先进的漫画理解AI系统提供了重要基础。
五、MangaLMM的意义与未来展望
MangaVQA和MangaLMM的研究不仅是技术上的突破,更代表了AI向理解更复杂叙事形式迈出的重要一步。就像一个外国读者逐渐掌握阅读日本漫画的技巧一样,这项研究帮助AI系统学习理解漫画这种独特的多模态叙事形式。
这项研究的意义首先体现在它为评估AI系统对漫画理解能力提供了全面的基准测试。MangaOCR评估模型识别漫画中文本的能力,而MangaVQA则评估模型对漫画内容的深入理解。这两个基准测试共同涵盖了漫画理解的文本和叙事方面。
其次,MangaLMM作为一个开源基线模型,展示了专门用于漫画理解的AI系统的潜力。实验结果表明,即使是最先进的商业LMM模型也难以处理漫画的独特复杂性,而MangaLMM通过针对性的训练,在两项任务上都表现出色。
对于漫画创作者和编辑来说,这项研究开启了新的可能性。未来,像MangaLMM这样的系统可能会像熟练的编辑一样,帮助创作者反思和完善他们的故事。它可以提供关于故事连贯性、角色发展、情节节奏等方面的反馈,使创作过程更加高效和有创意。
对于AI研究社区来说,这项研究提供了一个重要的案例研究,展示了如何使AI系统适应特定领域的多模态内容。研究中使用的方法和发现可能对其他涉及复杂多模态叙事的领域也有启示。
当然,这项研究也存在一些局限性。首先,MangaLMM的OCR推理速度较慢。大型语言模型比专用的OCR模型慢得多;例如,处理1,166张测试图像中的25,651个文本需要几个小时的A100 GPU时间。相比之下,像DeepSolo这样的专用OCR模型,运行速度超过10 FPS,只需约2分钟就能完成。这种减速源于大量的输出标记和推理过程中偶尔的重复或循环输出。
此外,关于版权问题,漫画数据通常涉及复杂的版权问题。例如,PoPManga的训练数据不公开可用,其测试数据由于版权限制在几个亚洲国家无法访问。相比之下,研究团队使用的Manga109数据集仅包含已经获得漫画作者明确研究使用许可的作品。研究团队希望未来在漫画领域的研究能够越来越多地依赖像Manga109这样的版权清晰的数据集,使该领域能够以更干净、更可靠的方式向前发展。
总的来说,MangaVQA和MangaLMM代表了AI向理解更复杂叙事形式迈出的重要一步。通过发布开放基准、合成数据和强大的开源基线,研究团队为推进多模态漫画理解的研究做出了贡献。未来,这项研究可能会促进更多创新,使AI系统能够更好地理解和支持各种叙事形式,不仅仅是漫画,还包括其他复杂的多模态内容。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。