微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

上海人工智能实验室团队让AI学会了"边思考边画画"：首个能进行推理的图像生成模型问世

人工智能图像生成推理算法

上海人工智能实验室团队让AI学会了"边思考边画画"：首个能进行推理的图像生成模型问世

作者：科技行者

2026-03-23 14:29

分享至：

这项由上海人工智能实验室领导的突破性研究开发出首个能进行推理的图像生成AI系统EndoCoT。该系统模仿人类思考过程，在生成图像时能一步步推理，而非简单模式匹配。在迷宫、数独等复杂任务中平均准确率达92.1%，显著超越现有方法。研究证明AI可进行真正推理，为构建更智能可靠的AI系统指明方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-23 14:29 • 科技行者

当我们人类解决复杂问题时，比如规划一条最短路线或者解一道数独题，我们不会一下子就得出答案，而是会在脑海中一步步推演。现在，人工智能也学会了这种"思考"的艺术。

这项由上海人工智能实验室联合西安交通大学、上海交通大学、中国科学技术大学、复旦大学、香港中文大学等多所知名院校共同完成的研究，发表于2026年3月的计算机视觉顶级期刊，论文编号为arXiv:2603.12252v1。研究团队开发出了名为"EndoCoT"的革命性框架，这是第一个能够在生成图像的过程中进行真正推理的AI系统。

传统的图像生成AI就像一个只会按菜谱做菜的厨师，给它什么指令就机械地执行什么操作，无法处理需要逻辑思考的复杂任务。而EndoCoT就像一位经验丰富的大厨，不仅能按菜谱做菜，还能在烹饪过程中不断调整火候、品尝味道、思考下一步该怎么做，最终做出完美的菜品。

研究团队在迷宫寻路、旅行商问题、数独解题和视觉空间规划等四个需要复杂推理的任务上测试了EndoCoT，结果令人印象深刻：平均准确率达到92.1%，比之前最强的基线方法高出8.3个百分点。更重要的是，当任务变得越来越复杂时，EndoCoT表现出了惊人的稳定性——在32×32规模的迷宫中达到90%的准确率，在35×35的数独中达到95%的准确率，远超其他方法。

一、现有AI图像生成的局限性：只会"照葫芦画瓢"

目前主流的AI图像生成模型虽然能创造出令人惊叹的视觉效果，但它们在处理需要逻辑推理的任务时就显得力不从心了。这些模型就像一个只会临摹的画家，能够根据给定的描述生成美丽的图像，但当面临需要步骤性思考的复杂问题时，就会出现各种错误。

为了深入了解这个问题，研究团队对现有模型进行了详细的"体检"。他们发现了两个关键问题。第一个问题是"推理深度不足"。现有的多模态语言模型在处理复杂任务时，往往试图在一次性的编码过程中解决所有问题，这就像让一个人在一瞬间就解出一道复杂的数学题，显然是不现实的。研究团队通过实验发现，在简单的8×8迷宫中，AI还能勉强找到正确路径，但在复杂的32×32迷宫中，生成的路径经常会"穿墙"，违反了迷宫的基本规则。

第二个问题是"静态指导失效"。即使AI的大脑部分（多模态语言模型）能够产生完美的推理，但这种推理信息在传递给图像生成部分（扩散变换器）的过程中会变得混乱。研究团队通过分析注意力熵发现，当面对复杂的空间拓扑时，AI的注意力分布变得过于分散，就像一个人试图同时关注太多事情，结果什么都关注不好。

研究团队还进行了逐层敏感性分析，发现推理能力主要集中在模型的视觉编码器和语言模型的接合部位。这个发现揭示了一个重要事实：AI的逻辑推理主要依赖于多模态语言模型，而图像生成部分更擅长的是将抽象概念转化为具体的视觉表现。

二、EndoCoT的核心创新：让AI学会"边想边画"

基于对现有问题的深入分析，研究团队设计了EndoCoT框架，这个名字来源于"Endogenous Chain-of-Thought"，意思是"内生的思维链"。这个框架的核心思想是让AI在生成图像的过程中能够进行真正的推理，而不是一次性地生成最终结果。

EndoCoT的工作原理可以比作一位优秀的象棋大师下棋的过程。普通的AI就像一个只能看一步的新手，每次移动棋子都是基于当前局面的简单反应。而EndoCoT则像经验丰富的大师，会在心中模拟多个回合的走法，考虑每一步可能带来的后果，然后才决定最佳的下一步。

具体来说，EndoCoT包含两个关键组件。第一个组件是"迭代思维引导模块"。这个模块让AI能够在潜在的思维空间中不断更新自己的理解状态。就像人类解决复杂问题时会在脑海中反复思考一样，AI也会通过多次迭代来逐步完善自己对问题的理解。在每一次迭代中，AI都会基于前一次的思考结果来更新自己的内在表示，这个过程就像在大脑中不断地"自问自答"。

第二个组件是"终端思维接地模块"。这个模块确保AI的推理过程始终与正确的答案保持一致，防止在多次迭代过程中出现"思维漂移"。这就像给一个正在思考的人提供一个参照标准，确保他的思考不会偏离正确的方向。

EndoCoT还采用了一个巧妙的两阶段训练策略。在第一阶段，AI学习如何进行步骤性推理，就像一个学生在学习解题的步骤和方法。在第二阶段，AI专注于提高最终答案的准确性，就像学生在熟悉了解题方法后，重点练习如何得出正确答案。

三、推理过程的可视化：看得见的"AI思考"

EndoCoT最令人兴奋的特点之一是它的推理过程是完全可见的。研究团队展示了AI在解决各种问题时的"思考轨迹"，这些轨迹清晰地展现了AI是如何一步步接近正确答案的。

在迷宫寻路任务中，AI不会一下子就画出完整的路径，而是从起点开始，一步步地探索可能的路线。在每一个推理步骤中，AI都会更新自己对当前位置和目标的理解，然后决定下一步应该往哪个方向走。这个过程就像一个真正的探险者在迷宫中寻路，会根据已经走过的路径来调整后续的策略。

在数独解题中，AI展现出了更加复杂的推理能力。它会识别哪些格子可以填入数字，然后根据数独的规则逐个填入。每填入一个数字，AI都会重新评估整个棋盘的状态，并调整后续的填数策略。这种行为与人类数独高手的解题过程非常相似。

在旅行商问题中，AI需要找出访问所有城市的最短路径。EndoCoT会逐步构建路径，在每一步中都会考虑当前位置、已访问的城市和剩余的城市，然后选择最优的下一个目的地。这个过程体现了真正的路径规划能力。

四、性能表现：全面超越现有方法

研究团队在四个不同的推理任务上对EndoCoT进行了全面测试，结果显示它在所有任务上都显著超越了现有的最佳方法。

在迷宫任务中，EndoCoT在不同规模的迷宫中都表现出色。在8×8和16×16的简单迷宫中达到了100%的准确率，在32×32的复杂迷宫中也达到了90%的准确率。相比之下，之前最好的方法DiffThinker在32×32迷宫中只能达到65%的准确率。更重要的是，EndoCoT生成的路径不仅正确，而且与真实最短路径的重合度也非常高，在8×8和16×16迷宫中达到了100%，在32×32迷宫中也达到了98.13%。

在数独任务中，EndoCoT表现出了惊人的稳定性。在不同难度的数独题目中，它的准确率始终保持在95%以上，即使在最具挑战性的35×35数独中也达到了95%的准确率，而DiffThinker在同样条件下只有55%的准确率。

在旅行商问题中，EndoCoT在12个城市到18个城市的不同规模问题中都表现优异，准确率在73%到77%之间。虽然这个任务本身的复杂度很高，但EndoCoT仍然显著超越了其他方法。

在视觉空间规划任务中，EndoCoT在标准规模的问题中达到了近乎完美的表现，即使在最困难的32×32超大规模问题中也达到了85%的准确率。

五、深度分析：为什么EndoCoT如此有效

研究团队进行了大量的分析实验来理解EndoCoT成功的原因。他们发现了几个关键因素。

首先，语义损失函数的重要性。这个函数确保AI的思维过程始终与正确答案保持一致。当研究团队移除这个函数时，AI的表现急剧下降，在复杂任务中几乎完全失效。这说明仅仅依靠视觉监督是不够的，AI还需要明确的文本指导来保持正确的推理方向。

其次，隐式标记与显式标记的对比。研究团队尝试了让AI显式地生成文本推理步骤，但发现这种方法容易导致错误累积。AI在生成长序列文本时容易陷入重复循环，最终完全偏离正确答案。相比之下，EndoCoT使用的隐式连续标记能够更好地保持推理的连贯性。

第三，联合训练的必要性。研究团队发现，单独使用多模态语言模型或单独使用扩散变换器都无法取得好的效果。多模态语言模型虽然具有强大的逻辑推理能力，但缺乏精确的空间定位能力。扩散变换器虽然擅长图像生成，但逻辑推理能力有限。只有将两者结合起来并进行联合训练，才能发挥出最佳效果。

第四，推理步数的可扩展性。EndoCoT支持在推理时动态调整推理步数。研究团队发现，增加推理步数能够显著提升复杂任务的表现。在32×32迷宫任务中，当推理步数从2步增加到50步时，准确率从11%提升到90%，路径重合度从45.26%提升到98.13%。这种推理时扩展能力为处理更复杂的任务提供了可能。

六、创新的训练策略：两阶段渐进学习

EndoCoT采用了一个创新的两阶段训练策略，这个策略类似于人类学习复杂技能的过程。

在第一阶段"推理发展"中，AI学习如何进行步骤性视觉推理。在这个阶段，所有的推理步骤都会得到监督，AI需要学会在每一步中都产生合理的中间结果。这就像教一个学生解数学题时，不仅要求他得出正确答案，还要求他展示每一步的计算过程。通过这种方式，AI学会了如何构建连贯的、递增的推理轨迹。

在第二阶段"终端巩固"中，AI专注于提高最终输出的视觉质量。在这个阶段，中间推理步骤会在前向传播中保持，但梯度只在最终输出上计算。这种做法确保了AI不会忘记已经学会的推理能力，同时专注于优化最终结果的准确性。

这种两阶段策略解决了一个重要的训练困境：中间推理步骤和最终输出有着不同的优化目标。中间步骤更注重推理的连贯性和逻辑性，而最终输出更注重准确性和视觉质量。直接同时优化这两个目标可能会导致梯度冲突，影响训练效果。

七、技术细节：在潜在空间中的思维迭代

EndoCoT的核心技术创新在于它在连续潜在空间中进行推理，而不是在离散的符号空间中。这种方法有几个重要优势。

首先，连续空间推理避免了离散符号生成中的错误累积问题。在传统的符号推理中，一旦生成了错误的符号，后续的所有推理都可能受到影响。而在连续空间中，即使某一步的推理不够完美，也可以在后续步骤中进行修正。

其次，连续空间推理能够更好地利用深度神经网络的表示能力。神经网络天然地在连续空间中工作，将推理过程也放在连续空间中能够更好地发挥网络的优势。

EndoCoT的推理过程可以用数学公式来描述。设P为输入的前缀嵌入，h_τ表示第τ步的思维状态，那么每一步的状态更新可以表示为：h_τ = f_φ([P; h_{τ-1}])，其中f_φ是多模态语言模型，[·;·]表示张量连接。这个公式看起来简单，但实际上蕴含着复杂的推理动力学。

每个推理步骤τ都对应一个完整的图像生成过程，条件是当前的思维状态h_τ。这意味着AI在每一步思考后都会生成一个中间视觉结果，这些中间结果逐步接近最终的正确答案。

八、泛化能力：举一反三的智能

EndoCoT展现出了令人印象深刻的泛化能力，这在AI领域是一个重要的评价指标。研究团队测试了AI在面对训练时未见过的场景时的表现。

在迷宫任务中，AI在不同规模的迷宫之间展现出了良好的泛化能力。即使训练时只见过16×16的迷宫，AI也能在32×32的更大迷宫中保持相当的性能。这说明AI学会的不仅仅是记忆特定的路径，而是真正掌握了寻路的一般性策略。

在数独任务中，AI展现出了对不同字体和分辨率的适应能力。当数独题目以不同的视觉风格呈现时，AI仍然能够准确识别数字并应用正确的逻辑规则。这种跨域泛化能力表明AI理解的是数独的抽象逻辑，而不是特定的视觉模式。

研究团队还测试了统一训练的效果，即用一个模型处理所有四种不同类型的推理任务。结果显示，即使在这种更具挑战性的设置下，EndoCoT仍然能够保持竞争性的性能。这说明该方法学到的是通用的推理能力，而不是任务特定的技巧。

九、效率优势：智能与速度的平衡

EndoCoT不仅在准确性上表现出色，在计算效率方面也有独特优势。传统的方法往往需要重复运行整个图像生成过程，这在计算上非常昂贵。而EndoCoT通过在潜在空间中进行推理，显著减少了计算开销。

具体来说，EndoCoT的推理时间主要花费在多模态语言模型的迭代上，而图像生成部分（扩散变换器）只需要在最后一步运行一次。这种设计使得推理时间的增长主要与推理步数成线性关系，而不是与图像生成的复杂度成正比。

研究团队进行的时间分析显示，即使将推理步数从2步增加到50步，总的推理时间也只是从16.02秒增加到24.81秒，增幅相对较小。而在高分辨率任务中，这种效率优势更加明显，因为图像生成部分的计算复杂度随分辨率的增加而快速增长，而推理部分的复杂度基本保持不变。

这种效率特性使得EndoCoT在实际应用中具有很大优势，特别是在需要处理大量推理任务或高分辨率图像的场景中。

十、未来展望：从实验室到现实世界

EndoCoT的成功为AI图像生成领域开启了新的方向，但研究团队也清醒地认识到当前方法的局限性和改进空间。

目前，EndoCoT需要高质量的中间监督数据，这在实际应用中可能难以获得。研究团队正在探索如何减少对显式中间监督的依赖，例如通过自监督学习或弱监督学习的方法。

另一个挑战是推理步数的自动调节。目前需要人工设定最优的推理步数，这在不同任务和复杂度下可能有所不同。理想的系统应该能够根据任务的复杂度自动调整推理深度。

研究团队还在探索将EndoCoT扩展到更广泛的任务领域。目前的实验主要集中在具有明确规则的逻辑推理任务上，未来可能扩展到更开放、更创造性的任务中，如故事性图像生成、艺术创作等。

从技术发展的角度看，EndoCoT代表了AI系统向更高级认知能力迈进的重要一步。它表明AI不仅能够模仿人类的输出，还能模仿人类的思考过程。这种能力对于构建更可靠、更可解释的AI系统具有重要意义。

研究团队相信，随着技术的进一步发展，这种"会思考的AI"将在更多实际应用中发挥作用，从智能设计助手到教育工具，从科学研究到创意产业，都可能受益于这种能够进行复杂推理的图像生成技术。

说到底，EndoCoT最重要的贡献不仅仅是在特定任务上的性能提升，更在于它证明了AI可以进行真正的推理，而不仅仅是模式匹配。这为构建更智能、更可靠的AI系统指明了方向，让我们距离真正理解和模拟人类智能又近了一步。这项研究发表于2026年3月12日的arXiv预印本平台，编号为arXiv:2603.12252v1，有兴趣深入了解的读者可以通过该编号查询完整论文。

Q&A

Q1：EndoCoT与普通AI图像生成模型有什么区别？

A：普通AI图像生成模型就像按菜谱做菜的厨师，只能机械执行指令，无法处理需要逻辑推理的复杂任务。而EndoCoT就像经验丰富的大厨，能在生成过程中不断思考和调整，一步步推理出正确答案。它首次让AI具备了在图像生成过程中进行真正推理的能力。

Q2：EndoCoT的推理过程是怎样的？

A：EndoCoT的推理过程完全可见，类似人类解决复杂问题的思考轨迹。比如在迷宫寻路中，AI会从起点开始一步步探索，每一步都会更新对当前位置的理解；在数独中会逐格填数并重新评估整个棋盘。这种步骤性推理让AI能处理需要复杂逻辑的任务。

Q3：EndoCoT在实际应用中有什么优势？

A：EndoCoT不仅准确率高（平均92.1%，比最强基线高8.3个百分点），还具有很好的效率优势。它通过在潜在空间推理，避免了重复运行昂贵的图像生成过程。即使推理步数增加25倍，计算时间也只增加约50%，特别适合处理复杂任务和高分辨率图像。

人工智能图像生成推理算法

分享至