这项由清华大学徐鹏、武汉理工大学熊圣武等领导的大规模研究于2025年9月发表在国际计算机视觉大会(ICCV 2025)的MARS2研讨会上。研究涉及80多位来自清华大学、武汉理工大学、中科院自动化所、牛津大学、首尔国立大学等知名机构的学者,论文可通过arXiv:2509.14142获取完整内容。
当我们看到一张复杂的照片时,比如一个繁忙的街头场景,我们的大脑会瞬间处理无数信息:识别不同的物体、理解它们之间的空间关系、推断发生的事情,甚至预测接下来可能发生什么。这种看似简单的能力,实际上涉及了从基础感知到高级推理的完整认知过程。如今,人工智能已经在很多单一任务上表现出色,但要让机器像人类一样进行复杂的多模态推理,仍然是一个巨大挑战。
现在的大型语言模型虽然在文字处理上已经相当出色,但当需要同时处理图像、视频和文字,并进行深层推理时,它们往往力不从心。这就好比一个只会看书的学霸突然被要求同时观看电影、听音乐并写评论一样困难。更具挑战性的是,现实世界的推理往往不是简单的"如果A那么B"这种直线式思维,而是需要综合多种信息、考虑各种可能性的复杂过程。
为了推动人工智能在这个关键领域的发展,研究团队组织了一场名为MARS2的大型挑战赛,就像是为AI设计的"奥林匹克竞赛"。这次比赛不同于以往那些相对简单的测试,而是专门针对现实世界中的复杂场景和专业领域设计的。研究团队发布了两个全新的数据集:Lens和AdsQA,前者包含了12种日常生活场景中的复杂推理任务,后者则专门针对广告视频中的创意理解和推理。
这次挑战赛历时两个多月,吸引了76支来自知名学术机构和工业界的团队参与,包括字节跳动、美团、英伟达、三星等公司的研究团队。参赛者们提交了超过1200份方案,最终有40多份有效提交被纳入最终排名。比赛设置了三个不同的赛道,分别考察AI在真实场景中的视觉定位、空间感知问答以及创意广告视频理解等能力。
一、突破传统的数据集设计理念
传统的AI测试往往像是给学生出一套标准化考试题目,每道题都有明确的答案,测试的也多是孤立的技能。但现实世界的推理远比这复杂得多。研究团队意识到,如果我们想让AI真正智能化,就必须让它面对更接近人类日常体验的挑战。
Lens数据集的设计就体现了这种全新思路。这个数据集包含了3400张图像和超过6万个人工编写的问题,覆盖了从基础感知到复杂推理的三个层次。更重要的是,每张图像都配备了八种不同类型的任务标注,这意味着AI需要对同一张图片进行多角度、多层次的理解。这就好比让一个学生不仅要看懂一幅画,还要能描述画中的物体、分析它们的关系、推断画家的意图等等。
特别值得注意的是,Lens数据集中53%的图像都是2025年1月之后发布的最新内容,这确保了测试的时效性和挑战性。这种设计避免了AI简单地"背答案"的可能性,因为这些图像在训练阶段是不存在的。数据集涵盖了街道、车站、学校、家庭等12种日常生活场景,每个场景都包含了丰富的物体类别和复杂的空间关系。
AdsQA数据集则开辟了一个全新的研究方向。这个数据集包含了1544个广告视频,总时长达22.7小时,提供了超过1万个视频片段。与一般的视频理解任务不同,广告视频的理解需要AI能够把握隐含的情感表达、营销策略和目标受众分析。这就像是要求AI不仅能看懂一部电影,还要能分析导演的拍摄手法、理解其想要传达的深层含义。
广告视频之所以特别具有挑战性,是因为它们包含了大量非显性的信息。一个简单的画面可能蕴含着复杂的文化符号、情感暗示和说服策略。比如,一个家庭聚餐的场景不仅仅是在展示食物,更是在传达家庭温暖、传统价值观等抽象概念。AI需要学会识别这些微妙的暗示,并理解它们是如何服务于整体的营销目标的。
二、三大赛道全面考察AI推理能力
为了全面评估AI的多模态推理能力,研究团队设计了三个相互补充的比赛赛道,每个赛道都针对特定的能力维度进行深入考察。
第一个赛道"真实场景中的视觉定位"主要考察AI在复杂环境中准确定位目标物体的能力。这听起来可能很简单,但实际上充满挑战。在真实世界中,物体经常被部分遮挡,光线条件变化多样,背景也可能非常复杂。这就好比在一个拥挤的集市里找一个特定的摊位,不仅要能识别摊位本身,还要理解它与周围环境的关系。
参赛的AI系统需要根据文字描述在图像中准确框出目标区域,评判标准是预测框与真实答案的重叠度必须超过50%才算正确。这个看似简单的要求实际上考验着AI对语言的理解、对视觉特征的提取以及二者之间的精确对应关系。很多在实验室环境下表现优秀的模型,在面对这些来自真实社交媒体的复杂图像时,准确率大幅下降。
第二个赛道"空间感知视觉问答"则进一步提升了难度。这个赛道不仅要求AI能够识别物体,还要理解它们之间的空间关系,并能进行基于空间推理的问答。比如,当被问到"如果我坐在白色椅子上,门在我的哪个方向"时,AI需要理解人的视角、空间方位概念以及相对位置关系。
这种空间推理能力对人类来说是如此自然,以至于我们很少意识到它的复杂性。但对AI来说,这需要将二维图像信息转换为三维空间理解,建立坐标系统,计算相对位置,并将结果转换为人类可理解的方向描述。更具挑战性的是,许多问题涉及多轮对话,AI需要保持上下文的一致性,记住之前确立的视角和参考系。
第三个赛道"创意广告视频推理"可能是最具挑战性的。这个赛道要求AI理解广告视频中的创意元素、情感表达、说服策略和目标受众等抽象概念。与前两个赛道不同,这里的"正确答案"往往不是客观的事实,而是需要深层理解和主观判断的结论。
广告视频的推理涉及多个层面的理解。首先是表面层面的视觉和听觉信息提取,然后是对这些信息背后文化含义的理解,最后是对整体营销策略和传播效果的分析。这就像是要求AI不仅能看懂一首诗的字面意思,还要理解其中的比喻、象征和情感表达。
三、参赛团队的创新解决方案
在这次挑战赛中,各个参赛团队展现了令人印象深刻的创新能力,他们的解决方案不仅在技术上有所突破,更重要的是展现了解决复杂AI问题的不同思路。
在视觉定位赛道中,获得冠军的ActiveAlphaAgent团队提出了一个多阶段训练策略。他们的方法就像是培养一个专业侦探的过程:首先让AI学习基础的观察技能,然后通过强化学习让它学会从错误中改进,最后通过知识蒸馏技术将大模型的能力传授给小模型,实现效率和性能的平衡。
这个团队特别注重数据质量的提升。他们开发了一个信噪比筛选机制,就像是给训练数据设置了一个质量检测器,只保留那些真正有助于提升AI能力的高质量样本。他们还根据不同场景的特点进行了针对性的数据增强,比如针对交通场景中的小物体遮挡问题,专门收集和标注了更多此类样本。
Star_s团队则采用了一种"通才与专家结合"的策略。他们让通用的多模态大模型负责初步的物体检测,然后使用专门的定位模型进行精确校验和优化。这种方法就像是让一个博学的通才先做初步判断,然后由领域专家进行最终确认,既保证了覆盖面又确保了精确度。
在空间感知问答赛道中,Echoch团队的获胜方案展现了数据处理的重要性。他们构建了一个包含17万样本的多语言训练集,并通过自一致性策略生成多个候选答案,然后使用投票机制选择最可靠的结果。这种方法类似于让多个专家独立分析同一个问题,然后综合所有意见得出最终答案。
更有趣的是,这个团队还使用了视角转换技术来增强AI的空间理解能力。他们通过模拟不同观察角度来训练模型,让AI能够像人类一样从不同视角理解同一个场景。这种训练方法显著提升了模型在处理"从我的角度看"这类问题时的准确性。
在广告视频推理赛道中,gogogo_truefaler团队提出了分层推理架构。他们的方法分为四个步骤:首先进行全局的音视频整合分析,然后进行片段级的细节推理,接着进行分层的因果推理,最后整合所有信息生成答案。这个过程就像是专业的广告分析师的工作流程:先把握整体印象,再分析具体细节,然后理解深层逻辑,最后形成综合判断。
四、突破性的评估体系设计
传统的AI评估往往只看最终的准确率数字,但这次挑战赛在评估方式上也有重要创新。研究团队意识到,复杂推理任务的评估不能简单地用对错来衡量,而需要更加细致和全面的评估标准。
对于视觉定位任务,评估不仅看定位的准确性,还考虑了不同IoU阈值下的表现。这就像是评价一个射箭手,不仅要看是否命中靶心,还要看在不同距离和条件下的稳定性。研究团队发现,即使是表现最好的模型,在面对小物体定位和复杂背景时仍然存在明显困难。
空间感知问答的评估采用了大语言模型辅助评分的方法。由于很多空间推理问题的答案可能有多种正确表达方式,传统的精确匹配评估方法会过于严格。因此,研究团队使用GLM4-flash模型作为评估助手,通过多轮生成和投票机制来判断答案的正确性,这种方法更接近人类的评判方式。
广告视频推理的评估最为复杂,需要同时考虑答案的准确性和完整性。评估系统会检查生成的答案是否包含了参考答案中的关键要素,同时也会惩罚那些包含错误信息的回答。这种评估方式就像是给一篇创意分析文章打分,既要看观点是否正确,也要看分析是否全面。
五、令人深思的实验发现
通过对40多个基线模型和参赛方案的全面评估,研究团队获得了一系列令人深思的发现,这些发现揭示了当前AI技术的真实水平和发展方向。
首先,即使是最先进的商业模型,在复杂推理任务上的表现也远未达到令人满意的水平。在Lens数据集上,没有任何模型在推理任务上达到60%以上的准确率。这个结果特别值得关注,因为这些模型在很多其他任务上都表现出色,但面对需要多步推理和空间理解的任务时,它们的局限性就暴露出来了。
更具体地说,在视觉定位任务中,即使是目前最好的开源模型Qwen2.5-VL-32B,准确率也只有48.47%。这意味着在一半以上的情况下,AI无法准确理解和定位人类用自然语言描述的目标物体。这种差距在处理小物体、复杂背景或者需要精确空间推理的情况下更加明显。
在空间感知任务中,研究团队发现了一个有趣的现象:AI模型往往在处理"距离"概念时表现不佳,经常混淆相对位置关系。比如,当被问及两个物体之间的距离时,模型可能能正确识别物体,但对它们的空间关系却判断错误。这表明当前的AI在将视觉信息转换为空间概念方面还有很大改进空间。
广告视频理解任务的结果更是发人深省。即使是表现最好的模型,准确率也只有56%左右,而人类评估者在相同任务上的平均准确率达到71.4%。这个差距反映了AI在理解抽象概念、文化内涵和创意表达方面的不足。
研究团队还发现了一些有趣的技术规律。比如,集成多个模型的方法普遍比单一模型表现更好,这表明不同模型可能会捕捉到不同方面的信息。强化学习训练对于复杂推理任务特别有效,很多获胜团队都使用了这种方法。此外,精心设计的提示词工程也能显著提升模型性能,这说明人机交互的方式对AI表现有重要影响。
六、技术方案的深度解析
参赛团队的技术方案展现了当前AI领域的最新进展和创新思路。这些方案不仅在具体技术上有突破,更重要的是体现了解决复杂AI问题的系统性思维。
在数据处理方面,几乎所有成功的团队都投入了大量精力进行数据增强和质量控制。ActiveAlphaAgent团队开发了一套基于信噪比的数据筛选机制,他们首先使用多个先进模型的集成结果来生成初始数据集,然后通过计算合成数据与基准数据的性能比值来评估数据质量。只有那些能够提升模型性能的高质量样本才会被保留用于训练。
这种数据处理方法的创新之处在于,它不是简单地增加数据量,而是专注于提升数据的有效性。团队还根据不同场景的特点进行了针对性的数据收集,比如针对交通枢纽场景中小物体识别困难的问题,他们专门收集了更多包含此类挑战的样本。
在模型训练方面,多阶段训练策略成为了一个重要趋势。大多数获胜团队都采用了"冷启动监督微调+强化学习"的组合方案。冷启动阶段主要是让模型适应特定任务的数据分布和输出格式,而强化学习阶段则是通过奖励机制来优化模型的推理质量。
Tele_AI团队的SMART框架展现了这种方法的精妙之处。他们首先构建了一个多模态推理和思维数据集,然后使用位置感知的数据准备方法,让模型学会生成包含明确推理链的回答。在强化学习阶段,他们使用了DAPO算法,通过标准化优势函数来计算奖励信号,确保训练过程的稳定性。
模型协作是另一个值得关注的创新方向。Star_s团队的成功很大程度上归功于他们将通用多模态模型与专门的定位模型结合使用。通用模型负责理解复杂的语言描述和生成候选区域,而专门的定位模型则对这些候选区域进行精确的验证和筛选。这种分工协作的方式不仅提升了最终的准确性,还提高了系统的可解释性。
在处理空间推理任务时,多个团队都强调了多轮对话一致性的重要性。SRCN-AIVL团队开发了一种指代消解和因果提示方法,专门用于处理多轮对话中的空间推理问题。他们发现,当问题被孤立处理时,往往会丢失重要的上下文信息,导致推理错误。通过将所有相关问题作为一个整体来处理,模型能够更好地理解空间关系和视角转换。
七、面向未来的技术展望
这次挑战赛不仅展现了当前AI技术的水平,更重要的是为未来的研究方向提供了宝贵的指引。通过对参赛方案的深入分析和实验结果的全面总结,研究团队提出了几个值得关注的发展方向。
首先是可信度和泛化能力的提升。当前的AI模型虽然在特定任务上能够达到不错的性能,但在面对分布外数据时表现往往会大幅下降。研究团队指出,很多参赛方案过度依赖于IoU分数这样的任务特定奖励,这可能会损害模型在其他能力维度上的表现。未来的研究需要找到平衡任务性能和整体能力保持的方法。
多模态融合的深度是另一个关键挑战。虽然现在的模型能够处理图像、文本和音频等多种模态的信息,但这种处理往往还是相对浅层的。真正的多模态推理需要能够在不同模态之间建立深层的语义对应关系,理解它们之间的相互作用和依赖关系。广告视频理解任务的结果表明,当前的AI在这方面还有很大的改进空间。
推理链的可解释性也是一个重要的发展方向。虽然很多模型能够产生正确的答案,但它们的推理过程往往是不透明的。在复杂的多步推理任务中,能够提供清晰、可验证的推理链不仅有助于调试和改进模型,也是构建可信AI系统的重要基础。
领域适应性是另一个值得关注的问题。这次挑战赛的结果显示,通用模型和专门模型各有优势,如何在保持通用性的同时提升在特定领域的表现,是一个需要深入研究的问题。一些团队采用的混合专家模型架构为这个方向提供了有价值的探索。
计算效率也是不可忽视的现实考量。虽然大规模模型在性能上有优势,但它们的计算成本和能耗也相当可观。如何通过知识蒸馏、模型压缩等技术在保持性能的同时降低计算需求,是推动AI技术实用化的关键因素。
八、对AI发展的深层思考
这次挑战赛的结果引发了对AI发展现状和未来方向的深层思考。当我们看到即使是最先进的AI模型在复杂推理任务上仍然表现不佳时,这提醒我们AI的真正智能化之路还很漫长。
现有的AI系统主要擅长模式识别和统计学习,但在需要真正理解和推理的任务上仍然力不从心。这种局限性在需要空间推理、常识推理和创意理解的任务中表现得尤为明显。比如,当AI被要求理解广告中的隐喻表达或文化符号时,它往往只能抓住表面的视觉特征,而无法深入理解其背后的深层含义。
这种差距的根本原因可能在于当前AI系统缺乏真正的世界模型和因果理解能力。人类的推理建立在对物理世界和社会世界的深层理解之上,我们知道物体如何运动、人们如何思考、社会如何运作。而当前的AI系统主要是通过大量数据学习统计规律,缺乏这种基础性的世界理解。
另一个值得思考的问题是AI系统的鲁棒性。这次挑战赛中使用的很多图像都是来自社交媒体的真实数据,包含了各种噪声、遮挡和异常情况。结果显示,即使是在实验室环境下表现优秀的模型,在面对这些真实世界的复杂性时也会出现明显的性能下降。这提醒我们,在追求高性能的同时,也需要关注模型的鲁棒性和实用性。
从更广的角度来看,这次挑战赛也反映了AI研究范式的变化。传统的AI研究往往专注于在特定任务上达到最高性能,但现在越来越多的研究者意识到,真正的智能需要的是综合性的推理能力和适应性。这要求我们不仅要关注单一任务的性能,更要关注不同能力之间的协同效应和迁移能力。
这次挑战赛的组织方式本身也体现了AI研究的新趋势。通过设置多个相互关联的赛道,研究团队不仅评估了AI在不同任务上的表现,还考察了这些能力之间的协同效应。这种综合性的评估方法为AI能力的全面评价提供了新的思路。
说到底,这次MARS2挑战赛给我们带来的不仅仅是技术上的进步,更是对AI发展方向的深入思考。它让我们看到了当前AI技术的真实水平,也为未来的研究指明了方向。虽然离真正的人工智能还有很长的路要走,但通过这样的挑战和探索,我们正在一步步接近那个目标。
对于关注AI发展的读者来说,这项研究提供了一个很好的观察窗口,让我们能够了解AI技术的前沿进展和面临的挑战。同时,这也提醒我们在享受AI技术带来便利的同时,也要保持理性的态度,认识到AI技术的局限性和发展空间。随着研究的不断深入和技术的持续进步,我们有理由相信,更加智能、更加可靠的AI系统终将到来。
有兴趣深入了解这项研究的读者可以通过arXiv:2509.14142访问完整论文,或者访问MARS2挑战赛的官方网站和GitHub页面获取更多详细信息和最新进展。
Q&A
Q1:MARS2挑战赛具体考察AI的哪些能力?
A:MARS2挑战赛设置了三个赛道来全面考察AI的多模态推理能力。第一个赛道考察AI在复杂真实场景中准确定位目标物体的能力,第二个赛道测试AI对空间关系的理解和基于空间的问答推理,第三个赛道则挑战AI理解广告视频中的创意元素、情感表达和营销策略等抽象概念的能力。
Q2:当前最先进的AI模型在这些复杂推理任务上表现如何?
A:结果显示即使是最先进的AI模型表现也不理想。在Lens数据集的推理任务上,没有模型达到60%以上准确率,最好的开源模型Qwen2.5-VL-32B在视觉定位任务上准确率仅48.47%。在广告视频理解任务中,最佳模型准确率约56%,而人类评估者平均达到71.4%,显示AI与人类还有明显差距。
Q3:这次挑战赛对AI发展有什么重要意义?
A:这次挑战赛首次提供了针对复杂多模态推理的综合评估基准,揭示了当前AI技术在处理真实世界复杂推理任务时的局限性。通过76支团队的1200多份提交方案,展现了解决复杂AI问题的创新思路,为未来AI发展指明了方向,特别是在提升AI的空间推理、常识理解和抽象概念把握能力方面。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。