这项由上海交通大学赵向宇、华东师范大学张培源、同济大学汤可贤、上海交通大学朱小荣等研究团队领导的突破性研究发表于2025年5月的arXiv预印本平台,论文编号arXiv:2504.02826v4。有兴趣深入了解的读者可以通过GitHub项目页面https://github.com/PhoenixZ810/RISEBench访问完整研究资料和代码。
日常生活中,当我们看到一张照片时,大脑会自动进行各种复杂的推理。比如看到一个苹果,我们知道放置一周后它会怎么变化;看到冰块,我们知道在阳光下它会融化;看到一个拼图缺了一块,我们能想象完整的样子。然而,当前最先进的AI图像编辑工具却无法做到这些看似简单的事情。它们可以改变图片的颜色、添加滤镜,甚至替换背景,但如果要求它们"画出这个苹果一周后的样子",大多数AI就会陷入困境。
这个问题的根源在于,现有的AI图像编辑工具缺乏真正的"推理"能力。它们就像一个只会按照固定模板操作的工匠,而不是一个能够理解物理规律、因果关系和逻辑推理的智者。这种局限性严重制约了AI在现实世界中的应用潜力。
为了解决这个根本问题,上海交通大学等机构的研究团队开发了一个名为RISEBench的全新评估体系。RISE代表"Reasoning-Informed viSual Editing"(推理驱动的视觉编辑),这是首个专门评估AI模型在图像编辑中推理能力的基准测试。研究团队精心设计了360个测试样本,涵盖了四个核心推理类别:时间推理、因果推理、空间推理和逻辑推理。
更重要的是,这项研究对包括GPT-4o-Image、Gemini-2.0等在内的八个顶级AI模型进行了全面测试。结果令人震惊:即使是表现最好的GPT-4o-Image,准确率也仅有28.8%,这意味着超过七成的推理任务都无法正确完成。这个发现不仅揭示了当前AI技术的重大缺陷,也为未来的研究指明了方向。
一、构建推理能力的四重考验
要理解这项研究的深刻意义,我们可以把AI的推理能力比作一位全能的生活顾问。一个真正优秀的顾问不仅要知道事物现在的状态,还要能预测未来的变化,理解不同事件之间的因果关系,掌握空间布局的规律,并且具备逻辑思维能力。
研究团队将推理能力细分为四个核心维度,每一个都对应着人类日常思维的重要方面。这种分类方式不是随意划分的,而是基于对人类认知过程的深入分析。
时间推理能力就像一位经验丰富的园丁,能够预测植物在不同季节的生长变化。研究团队设计了85个相关测试案例,涵盖了从生命进程到环境变化的各种时间维度。比如,给AI展示一张幼苗的图片,要求它画出十年后这棵树的样子。这听起来简单,但实际上需要AI理解植物的生长规律、环境影响因素,以及时间尺度的概念。
因果推理能力则像一位物理学家,能够理解外力作用下物体的变化规律。研究团队准备了90个测试样本,包括结构变形、状态转换、化学生物变化和物理现象四个子类别。当给AI展示一个苹果的图片,并要求它画出"被人咬一口后的样子"时,AI需要理解咬合动作对苹果结构造成的具体影响,这远比简单的图像处理复杂得多。
空间推理能力可以比作一位建筑师,需要在三维空间中理解物体的位置关系和几何结构。研究团队设计了100个相关测试,包括组件装配、物体排列、视角生成、结构推理和布局分析五个方面。例如,给AI展示散落的钟表零件,要求它组装成一个显示特定时间的完整时钟。这需要AI理解每个零件的功能、它们之间的连接方式,以及最终的空间配置。
逻辑推理能力就像一位数学老师,需要按照严格的规则进行推演和计算。研究团队准备了85个逻辑谜题,包括数独、迷宫、井字棋等经典问题。当要求AI解决一个数独谜题时,它不仅要理解游戏规则,还要进行系统性的逻辑推演,这与简单的图像识别或生成有着本质区别。
这四个维度的划分不是孤立的,它们在现实应用中往往相互交织。比如,预测一栋建筑在地震中的损坏情况,既需要时间推理(地震持续时间的影响),也需要因果推理(地震力与结构损坏的关系),还需要空间推理(建筑的三维结构特征)。
二、严格而全面的评估体系
为了确保评估结果的客观性和准确性,研究团队开发了一套三维评估框架,就像一位严格的考官从多个角度审查学生的答卷。这套评估体系不满足于简单的对错判断,而是深入分析AI模型在不同方面的表现。
指令理解能力的评估就像检查学生是否真正理解了题目要求。研究团队发现,许多AI模型在这个基础环节就出现了问题。它们可能理解了指令的字面意思,但忽略了隐含的推理要求。比如,当指令是"画出这个苹果发酵后的样子"时,AI需要理解"发酵"这个概念涉及的生物化学过程,而不仅仅是改变苹果的颜色或形状。
为了精确评估这一点,研究团队采用了两种评估方法。对于相对简单的场景,他们提供详细的文字描述作为标准答案,让AI评判员比较生成图像是否符合描述。对于复杂的空间结构或独特形状,他们提供标准图像作为参考,进行视觉对比评估。这种双重标准确保了评估的全面性和准确性。
外观一致性的评估则像检查学生在解题过程中是否保持了原始条件的完整性。在图像编辑任务中,AI应该只改变指令明确要求修改的部分,而保持其他元素不变。研究团队发现,许多AI模型在执行编辑任务时容易"过度创作",添加或修改了不应该改变的元素。
这种评估特别重要,因为它区分了两类不同的AI模型:一类是基于原图进行精确编辑的模型,另一类是重新生成整个场景的模型。后者虽然可能产生视觉效果不错的图像,但由于缺乏对原始内容的保持,在实际应用中价值有限。就像修复一幅古画,好的修复师会保持原作的精神和细节,而不是重新创作一幅类似的作品。
视觉合理性的评估关注生成图像是否符合物理定律和现实世界的约束。研究团队发现,即使AI模型正确理解了指令并保持了外观一致性,生成的图像仍可能存在不合理的元素。比如,在模拟水流动的场景中,AI可能让水向上流动,或者在光照场景中产生不符合物理规律的阴影效果。
这种评估维度特别重要,因为它关系到AI生成内容在现实世界的可信度。一个在物理上不合理的图像,即使在艺术上可能有趣,在科学教育、工程设计或医学应用中都是有害的。
为了提高评估效率和一致性,研究团队还开发了基于大型语言模型的自动评估系统。他们使用GPT-4.1作为评判员,设计了详细的评估提示和评分标准。为了验证这种自动评估的可靠性,研究团队进行了人工评估对比实验,发现AI评判员与人类专家的一致性很高,平均绝对误差在0.4到0.7之间(满分5分),这证明了自动评估系统的有效性。
三、令人震惊的测试结果
当研究团队对八个顶级AI模型进行全面测试时,结果远比预期的更加严峻。这就像给一群看起来很聪明的学生出了一套综合性考试,结果发现即使是最优秀的学生也只能勉强及格。
GPT-4o-Image作为目前最先进的商业AI模型之一,在这次测试中表现最佳,但其28.8%的整体准确率仍然令人担忧。这意味着在十个推理任务中,它只能正确完成不到三个。更令人惊讶的是,它在不同推理类型上的表现极不均衡。
在时间推理任务中,GPT-4o-Image达到了34.1%的准确率,这是它表现最好的领域。它能够较好地处理生命进程变化,比如预测植物的生长、动物的成长,或者预测物体的自然老化过程。然而,当涉及社会变迁这样的复杂时间概念时,它的表现就明显下降了。
因果推理任务中,GPT-4o-Image的准确率为32.2%,略低于时间推理。它在处理简单的物理因果关系时表现尚可,比如物体受力变形、冰块融化等。但当面对复杂的化学反应或生物过程时,它往往无法准确预测结果。研究团队发现,AI模型特别难以处理那些需要深层科学知识的因果关系。
空间推理是GPT-4o-Image相对擅长的领域,准确率达到37.0%。它在视角转换和基本的几何操作方面表现不错,能够理解简单的空间关系变化。但在处理复杂的三维结构装配或需要精确空间计算的任务时,仍然困难重重。
最令人担忧的是逻辑推理领域,GPT-4o-Image的准确率仅有10.6%。这意味着在十个逻辑谜题中,它几乎只能解决一个。研究团队进一步分析发现,AI在数学推导类任务中表现相对较好(35.7%),但在模式预测和谜题解决方面几乎完全失败,准确率分别只有3.2%和7.5%。
其他模型的表现更加糟糕。Gemini-2.0系列模型分别达到13.3%和9.4%的准确率,虽然远低于GPT-4o-Image,但仍然是第二梯队的表现。值得注意的是,实验版本的Gemini-2.0在空间推理方面表现突出(23.0%),但预览版本在这方面明显退步(11.0%),这反映了模型开发过程中的不稳定性。
开源模型的表现令人失望。BAGEL、Step1X-Edit、OmniGen、EMU2等模型的整体准确率都在6%以下,其中一些模型在某些推理类型上几乎完全失败。HiDream-Edit和FLUX.1-Canny的表现更是接近零,这说明当前的开源技术与商业领先模型之间存在巨大差距。
通过详细的错误分析,研究团队发现了AI模型失败的几种典型模式。首先是指令误解,许多模型无法准确理解复杂指令中的隐含推理要求。其次是知识缺陷,模型缺乏必要的物理、化学、生物等领域知识来支持推理过程。第三是逻辑能力不足,特别是在需要多步推理或抽象思维的任务中表现极差。
四、深入分析模型的优势与局限
为了更好地理解不同AI模型的特点,研究团队进行了深入的性能分析,就像一位经验丰富的教练分析运动员的技术特点和改进空间。
GPT-4o-Image在所有评估模型中表现最为稳定和全面。它的一个显著优势是具备良好的"保守策略"——当面对不确定的指令时,它倾向于保持原图的大部分内容不变,而不是进行激进的修改。这种策略虽然可能导致一些创新性的缺失,但大大提高了结果的可靠性。研究团队发现,即使在GPT-4o-Image误解指令的情况下,它生成的图像在外观一致性和视觉合理性方面仍然能够获得较高分数。
然而,GPT-4o-Image也存在明显的局限性。在逻辑推理任务中,它经常出现"聪明的错误"——能够理解问题的基本结构,但在关键的推理步骤上出错。比如在解决数独问题时,它能够理解游戏规则和基本约束,但无法进行系统性的逻辑推演,经常产生违反规则的解答。
Gemini-2.0系列模型展现出了有趣的特点。实验版本在某些特定任务上表现出色,特别是在需要精确空间操作的任务中。但预览版本的性能明显下降,这可能反映了在模型优化过程中的取舍选择。研究团队注意到,Gemini模型经常表现出"过度创新"的倾向,它们会在编辑过程中添加原本不存在的元素,或者对场景进行超出指令要求的修改。
这种过度创新的问题在一个具体例子中表现得尤为明显:当要求模型"画出苹果被咬一口后的样子"时,Gemini不仅在苹果上添加了咬痕,还改变了苹果的颜色、背景甚至添加了盘子等额外物品。虽然结果可能在视觉上更加丰富,但违背了精确编辑的要求。
开源模型的分析揭示了当前技术发展的瓶颈。BAGEL在指令理解方面表现相对较好,这表明它在语言理解和图像理解的结合方面有一定优势。但它在图像生成质量方面存在明显不足,经常产生模糊、扭曲或不自然的图像。
Step1X-Edit展现出了有趣的特化能力,它在外观一致性方面表现突出,能够很好地保持原图的基本特征。但这种保守的策略也限制了它处理需要显著变化的编辑任务的能力。当面对需要添加新元素或进行结构性修改的任务时,它往往无法产生符合要求的结果。
OmniGen和EMU2等模型的分析显示了自回归生成范式在这类任务中的局限性。这些模型在文本生成方面表现出色,但在处理需要精确空间关系或物理准确性的视觉任务时,往往力不从心。它们生成的图像虽然可能在局部细节上很精美,但整体的逻辑一致性和物理合理性较差。
研究团队还发现了模型性能与任务复杂度之间的有趣关系。在相对简单的推理任务中,不同模型之间的性能差距较小,但随着任务复杂度的增加,性能差距会急剧扩大。这说明当前的AI技术在处理简单推理时已经具备一定能力,但在面对复杂、多步骤的推理任务时仍然存在根本性的困难。
五、人工评估与AI评估的一致性验证
为了确保评估结果的可靠性,研究团队进行了一项重要的验证实验,就像医学研究中需要多位专家独立诊断来确保结果准确性一样。他们邀请了六位人类专家对随机选择的100个模型输出进行评估,并将结果与AI评判员的评分进行对比。
这项验证实验的结果令人鼓舞。在三个主要评估维度中,AI评判员与人类专家的平均绝对误差分别为0.5(指令推理)、0.7(外观一致性)和0.4(视觉合理性)。考虑到评分范围是1到5分,这样的误差水平表明AI评判员基本能够复现人类专家的判断标准。
更有趣的是,研究团队发现AI评判员与人类专家在不同评分档位上的一致性存在差异。在极端情况下(评分为1分或5分),两者的一致性最高。当AI评判员给出1分的低分时,对应的人类专家平均评分为1.1分,误差仅为0.1分。当AI评判员给出5分的满分时,人类专家的平均评分在4.7到4.8分之间,误差在0.2到0.3分之间。
这种在极端情况下的高一致性特别重要,因为它表明AI评判员能够准确识别明显的成功案例和失败案例。在实际应用中,这种能力比精确的中等评分更加重要。毕竟,我们更关心一个系统是否能够可靠地完成任务,而不是它在模糊的中间地带的细微表现差异。
然而,在中等评分档位(2分到4分),AI评判员与人类专家的一致性有所下降。这主要是由于评估标准的主观性造成的。即使是人类专家之间,在这些模糊情况下也存在一定的分歧。研究团队发现,人类专家在外观一致性和视觉合理性方面倾向于给出比AI评判员更宽松的评分,这可能反映了人类评估者更强的容错性和对细微缺陷的忽略能力。
这种差异具有重要的方法学意义。AI评判员可能对图像细节进行更精细的检查,能够发现人类评估者可能忽视的微小不一致之处。这既是优势也是局限——虽然提供了更严格的评估标准,但可能过于苛刻,不符合实际应用中的用户期望。
通过这项验证实验,研究团队确认了自动评估系统的有效性,同时也为未来的改进指明了方向。他们建议在未来的研究中,可以结合AI评判员的精确性和人类评估者的宽容性,开发更加平衡的评估标准。
六、揭示当前技术的根本局限
通过对大量测试案例的深入分析,研究团队识别出了当前AI技术在推理驱动图像编辑方面的几个根本性问题,这些发现就像医生通过症状诊断出疾病的根本原因一样重要。
最核心的问题是缺乏真正的因果理解能力。当前的AI模型虽然能够识别图像中的物体和场景,但它们对物体之间的因果关系缺乏深入理解。比如,当要求AI画出"苹果掉落后的样子"时,大多数模型无法正确模拟重力作用、碰撞效果和可能的形变。它们可能简单地改变苹果的位置,但忽略了掉落过程中的物理效应。
这种因果理解的缺失在化学和生物过程中表现得更加明显。当要求模型展示"面包发酵后的变化"时,AI往往无法理解发酵这个生物化学过程涉及的微观机制,只能根据表面特征进行简单的形状或颜色修改。这反映了当前AI模型缺乏对科学原理的深层掌握。
第二个关键问题是时间概念的模糊性。虽然AI模型在某种程度上能够处理"变老"、"生长"这样的时间概念,但它们对时间尺度的理解往往不准确。研究团队发现,AI经常混淆短期变化和长期变化,或者对时间进程的速度产生错误估计。比如,当要求展示"十分钟后的变化"和"十年后的变化"时,AI可能产生相似程度的修改,显示出对时间尺度的误解。
第三个重要局限是逻辑推理能力的根本缺陷。在处理需要多步推理的任务时,AI模型经常在早期步骤就出错,导致整个推理链的崩溃。这在数独、迷宫等逻辑谜题中表现得尤为明显。AI可能理解游戏的基本规则,但无法进行系统性的逻辑推演,经常产生自相矛盾的结果。
空间推理方面的问题则主要体现在三维空间理解的不足。当前的AI模型虽然能够处理二维图像中的空间关系,但在理解三维结构、投影关系和空间变换时仍然困难重重。这在需要组装立体结构或进行视角转换的任务中表现得特别明显。
研究团队还发现了一个有趣的现象:AI模型在处理熟悉场景时表现较好,但在面对新颖或罕见情况时性能急剧下降。这表明当前的AI主要依赖于训练数据中的模式识别,而不是真正的推理能力。当遇到训练数据中没有见过的情况时,AI就无法进行有效的推理和预测。
这些根本性局限不仅影响了AI在图像编辑方面的表现,也对AI在其他需要推理的应用领域产生了重要影响。比如在自动驾驶中,AI需要预测其他车辆的行为;在机器人操作中,AI需要理解物理交互的后果;在科学研究中,AI需要基于观察数据进行假设和预测。
七、对未来发展的深远影响
这项研究的意义远远超出了技术评估本身,它为AI发展的未来方向提供了重要指引,就像灯塔为航行中的船只指明方向一样。
首先,这项研究明确了AI发展的下一个重要里程碑:从模式识别向真正推理的转变。当前的AI技术虽然在图像识别、文本生成等任务上已经达到甚至超越人类水平,但在需要深层推理的任务上仍然存在巨大差距。这个发现提醒整个AI研究社区,需要将更多注意力转向推理能力的提升。
在教育应用方面,这项研究的影响尤为重要。当前许多教育技术公司正在开发基于AI的个性化学习系统,但如果AI无法进行有效的因果推理和逻辑思维,它们就无法真正理解学生的学习过程,也无法提供有效的指导。这项研究的发现促使教育技术开发者重新评估AI在教育中的角色和限制。
在科学研究领域,AI的推理能力局限对科学发现的自动化产生了重要影响。许多研究团队希望利用AI来分析实验数据、提出假设和预测实验结果,但这项研究显示,当前的AI技术还远未达到这样的能力水平。科学家们需要更加谨慎地使用AI工具,确保在关键的推理环节保持人类的参与和监督。
对于AI安全和可靠性研究,这项研究提供了重要的警示。如果AI系统在基本的推理任务上都存在如此高的错误率,那么在更复杂、风险更高的应用场景中,其可靠性将面临更大挑战。这促使研究者需要开发更好的AI能力评估方法和安全保障机制。
从技术发展路径来看,这项研究指出了几个重要的研究方向。首先是需要开发更好的因果推理算法,让AI能够理解事件之间的因果关系。其次是时间推理能力的提升,让AI能够准确理解和预测时间进程。第三是逻辑推理框架的改进,特别是多步推理和抽象思维能力的增强。
这项研究还对AI产业的发展策略产生了重要影响。许多公司正在大力投资图像生成和编辑技术,但这项研究显示,仅仅追求视觉效果的提升是不够的,更重要的是提升AI的推理能力。这可能促使产业界重新调整研发重点,更多地关注AI的认知能力而不是单纯的生成质量。
对于消费者和用户,这项研究提供了重要的期望管理。虽然当前的AI工具在许多方面已经非常强大,但用户需要了解它们在推理任务上的局限性,避免在需要复杂推理的场景中过度依赖AI系统。
最后,这项研究为AI伦理和治理提供了新的思考角度。当AI在基本推理任务上都存在显著错误时,我们需要重新评估AI在法律、医疗、金融等关键领域的应用边界。这不是要阻止AI的发展,而是要确保AI的应用与其实际能力相匹配。
说到底,这项开创性的研究就像给AI发展历程中的一个重要阶段拍了一张"全身体检照片"。结果显示,虽然AI在某些方面已经表现出色,但在推理这个核心认知能力上还有很长的路要走。正如一位明智的医生会根据体检结果制定合理的治疗方案,AI研究社区也需要根据这些发现来调整未来的发展方向。
这并不意味着悲观,相反,清晰地认识现状是走向进步的第一步。研究团队创建的RISEBench评估体系为未来的技术改进提供了明确的目标和衡量标准。随着更多研究者关注推理能力的提升,我们有理由相信,AI在理解和改造视觉世界方面将会取得突破性进展。
对于普通用户来说,这项研究提醒我们在使用AI工具时保持适当的期望和谨慎。虽然AI可以帮助我们完成许多任务,但在需要复杂推理和判断的情况下,人类的智慧仍然不可替代。未来的AI发展方向应该是增强人类能力而不是简单替代,让人机协作发挥出更大的潜力。
有兴趣深入了解这项研究技术细节的读者,可以访问研究团队在GitHub上开源的完整代码和数据:https://github.com/PhoenixZ810/RISEBench,那里有更详细的实验设置、评估方法和测试案例,为后续研究提供了宝贵的基础资源。
Q&A
Q1:RISEBench是什么?它主要评估AI的哪些能力? A:RISEBench是首个专门评估AI推理驱动视觉编辑能力的基准测试系统。它主要评估AI在四个核心推理维度的表现:时间推理(预测物体随时间的变化)、因果推理(理解外力作用的结果)、空间推理(处理三维空间关系)和逻辑推理(解决逻辑谜题)。就像给AI进行"智力测试",检验它是否真正理解世界运行规律。
Q2:目前最先进的AI模型在推理任务上表现如何? A:结果令人震惊地差。即使是表现最好的GPT-4o-Image,整体准确率也只有28.8%,意味着十个推理任务中只能正确完成不到三个。在逻辑推理方面更是糟糕,准确率仅10.6%。其他模型表现更差,多数开源模型的准确率接近零。这说明当前AI虽然在图像生成方面看起来很强大,但缺乏真正的推理理解能力。
Q3:这项研究对普通用户使用AI工具有什么启示? A:用户需要合理调整对AI的期望。虽然AI在简单的图像编辑、风格转换方面表现不错,但不要指望它能进行复杂的推理性编辑,比如准确预测物体变化或解决逻辑问题。在需要科学准确性或逻辑严密性的场景中,仍需要人类监督和验证。未来AI更适合作为辅助工具而非完全替代人类判断。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。