
这项由上海AI实验室的何泽丰、瞿晓烨、李亚夫、朱桐、黄思远等研究人员以及中文大学的成宇教授共同完成的研究,发表在2025年1月的arXiv预印本平台,论文编号为arXiv:2512.24165v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们遇到一个复杂的数学题或者迷宫游戏时,通常会用笔在纸上画图来帮助思考。然而,目前最先进的多模态AI系统,比如GPT-5和Gemini等,在面对需要视觉推理的问题时,却只会"嘴上说说"——它们用大段的文字来描述推理过程,就像一个人蒙着眼睛试图指导别人走出迷宫一样。
这种做法带来了显而易见的问题。当AI需要解决一个复杂的空间规划任务,比如规划最短路径或者拼图游戏时,它只能输出一长串文字描述,既容易出错,又难以验证。这就好比让一个人闭着眼睛描述如何组装一件复杂的家具——即使描述得再详细,也很难保证结果正确。
上海AI实验室的研究团队提出了一个根本性的解决方案:既然这些任务本质上是视觉的,为什么不让AI直接"画出"答案呢?他们开发的DiffThinker系统就像给AI配备了一支画笔,让它能够直接在图像上展示自己的推理过程和最终答案。
这种方法的核心思想非常直观。当你要解决一个迷宫问题时,最自然的做法就是在迷宫图上画出路径。当你要解决数独游戏时,最直接的方式就是在空格里填入数字。DiffThinker正是模仿了这种人类最自然的问题解决方式。
研究团队将这种新方法称为"生成式多模态推理"。与传统的文字推理不同,这种方法将推理过程完全转移到视觉空间中进行。AI不再需要用文字描述"向右走三步,然后向下走两步",而是直接在图像上画出一条红色的路径线。这就像从口述地图路线升级到了GPS导航系统——直观、准确、易于理解。
为了实现这个想法,研究团队使用了一种叫做扩散模型的技术。如果把传统的AI推理比作写作文,那么扩散模型就像是绘画。它从一片噪声开始,逐步细化,最终生成清晰的图像。在DiffThinker中,这个过程被巧妙地用来生成包含推理轨迹的解决方案图像。
整个推理过程就像看一部延时摄影作品。最开始,画面是模糊混乱的,但随着时间的推移,AI逐渐在画面中勾勒出多条可能的路径。这些路径就像多条平行的思维线索,AI会同时探索它们。随着推理的深入,一些明显错误的路径会逐渐消失,而正确的路径会变得越来越清晰,最终形成一条完整的解决方案。
这种并行探索的能力是DiffThinker的一个独特优势。传统的AI系统只能按照线性顺序思考——先考虑选项A,然后是选项B,如果都不对再考虑选项C。但DiffThinker可以同时考虑多个选项,就像一个经验丰富的棋手可以同时在脑海中推演多个棋局走法一样。
研究团队在七个不同的任务上测试了DiffThinker的能力,这些任务涵盖了四个主要领域。在空间规划类任务中,比如经典的冰湖导航游戏,AI需要找到从起点到终点的安全路径,避开路上的陷阱。在传统版本中,AI可能需要输出"右、右、下、左、下"这样的指令序列,而DiffThinker直接在冰湖地图上画出一条连续的红线。
在迷宫任务中,挑战变得更加复杂。迷宫的墙壁形成了复杂的障碍网络,需要AI找到唯一正确的路径。传统AI往往在复杂迷宫中迷失方向,因为它们难以在脑海中维持整个迷宫的空间结构。而DiffThinker能够直接在迷宫图像上标出路径,就像用荧光笔在纸质迷宫上标记一样直观。
旅行商问题代表了组合优化的经典挑战。设想你是一个快递员,需要访问城市中的所有客户,然后回到起点,同时要让总路程最短。这是一个看似简单但实际上极其复杂的问题,因为随着城市数量的增加,可能的路径组合呈指数级增长。传统AI通常输出一串坐标序列,很难直观地验证路径是否真的是最短的。DiffThinker则直接在地图上画出完整的环形路径,让人一眼就能看出路线的合理性。
数独游戏测试了AI的约束满足能力。每个空格的填入都必须满足行、列、九宫格三重约束。传统AI需要输出一个包含81个数字的序列,人们很难快速验证这个序列是否正确。DiffThinker直接在数独网格上填入数字,就像人类玩家一样,让验证过程变得简单直观。
拼图任务则考验了AI的空间配置能力。给定一堆打散的图片块,需要将它们重新组合成完整的图像。这类似于儿童玩具中的拼图游戏,但对AI来说却是一个复杂的视觉推理挑战。DiffThinker能够直接重建完整图像,而不是仅仅输出一个数字序列来表示拼接顺序。
在所有这些测试中,DiffThinker都表现出了显著优势。与GPT-5相比,它的平均准确率提升了314.2%,与Gemini-3-Flash相比提升了111.6%。更令人印象深刻的是,即使与在相同数据上精心训练的传统多模态模型相比,DiffThinker仍然保持了39.0%的性能优势。
这些数字背后反映的是两种根本不同的推理范式之间的差异。传统的文本推理就像通过电话描述一幅画,而视觉推理则像直接展示这幅画。前者不仅容易产生误解,还会随着描述的复杂度增加而变得越来越不可靠。
研究团队还发现了DiffThinker的四个核心特性,每一个都解决了传统方法的关键痛点。首先是效率特性。传统的多模态AI训练通常需要复杂的强化学习过程,就像训练一个学生不断重复考试直到得高分。这个过程不仅耗时,还需要大量的计算资源。DiffThinker的训练更像是教会学生绘画技巧,一旦掌握了基本方法,就能应用到各种不同的画作上。在实际测试中,DiffThinker的训练时间仅为传统方法的八分之一。
第二个特性是可控性。传统AI的推理过程就像一个话痨,有时候简洁明了,有时候长篇大论,推理时间完全不可预测。这就像请一个顾问解决问题,你永远不知道他会用五分钟还是五小时来回答。DiffThinker则像一个训练有素的画家,总是用固定的步数完成作品,推理时间完全可预测。
第三个特性是天然的并行推理能力。传统AI就像一个人在房间里踱步思考,只能按顺序考虑各种选项。DiffThinker则像一个围棋大师,可以同时在脑海中推演多个棋局分支,并逐渐筛选出最优方案。这种并行能力使得它在处理复杂问题时更加高效和准确。
第四个特性是协作能力。研究团队发现,DiffThinker不是要取代传统的文本AI,而是可以与它们形成完美的搭档关系。在一个有趣的实验中,研究人员让DiffThinker生成多个候选解决方案,然后让传统AI来评判哪个最好。这种组合的效果超过了任何单一方法,就像让一个擅长画图的人和一个擅长分析的人合作解决问题。
为了更深入地了解DiffThinker的工作原理,研究团队进行了详细的分析实验。他们发现,在推理过程的早期阶段,DiffThinker确实会同时探索多条可能的路径,就像一个探险家在未知地形中同时派出多个侦察队。随着推理的深入,那些走向死胡同的路径会逐渐消失,而正确的路径会变得越来越清晰。
这个过程可以通过中间步骤的可视化清楚地观察到。在迷宫任务中,最初的几个步骤会显示出模糊的、多方向的线条,就像用多种颜色的铅笔同时在纸上作画。到了中期,一些明显错误的方向开始消失,剩下的路径变得更加明确。最终,只有一条清晰的红线连接起点和终点,完美地避开了所有障碍。
研究团队还测试了推理步数对性能的影响。他们发现,仅仅10个步骤就足以解决大多数问题,这证明了方法的效率。当步数增加到20时,性能达到最佳平衡点。继续增加步数虽然不会损害性能,但也不会带来显著改善,这表明DiffThinker能够快速收敛到正确答案。
在训练数据的规模实验中,研究人员发现了一个有趣的现象。当训练数据较少时,DiffThinker主要学习如何正确地"画图"——比如确保线条连续、网格对齐等基本的视觉规则。随着数据量的增加,它开始学习真正的推理规则,比如如何避开障碍、如何满足约束条件。这个过程就像一个孩子学画画,先学会握笔和画线,然后才学会表达想法。
为了验证方法的普适性,研究团队还尝试了将推理过程扩展到视频生成。他们开发了DiffThinker-Video变体,让AI生成展示推理过程的短视频。在迷宫任务中,这个版本会生成一个小球从起点滚动到终点的视频,完整展示整个解决过程。虽然这种方法在概念上很有吸引力,但目前的计算成本较高,推理时间是图像版本的两倍。
研究结果还揭示了传统文本推理方法的一个根本局限。当问题的复杂度增加时,传统方法的性能会急剧下降。这就像让一个人蒙着眼睛描述越来越复杂的地图——随着地图变得复杂,纯粹的文字描述变得越来越不可靠。相比之下,DiffThinker的性能下降要缓慢得多,因为视觉表示天然适合处理空间复杂性。
在一个特别有趣的对比实验中,研究团队让最先进的传统AI模型尝试解决同样的问题。以一个复杂迷宫为例,传统模型通常会输出这样的解决方案:"从起点开始,向右移动4步,然后向下移动2步,接着向左移动1步..."这样的描述不仅冗长,而且当路径变得复杂时,很容易在某个步骤出错,导致整个解决方案失效。
而DiffThinker的解决方案则是一条清晰的红线,直观地展示从起点到终点的完整路径。这种视觉化表示不仅更容易验证,还能让人立即理解解决方案的合理性。更重要的是,即使在路径的某个局部出现小错误,整体解决方案仍然是可理解和可修正的。
研究团队特别强调了这种方法在实际应用中的潜力。目前的AI助手在处理空间相关问题时往往表现不佳,比如为用户规划路线、设计房屋布局或者解释复杂的图表。DiffThinker的方法为这些应用提供了新的可能性。未来的AI助手可能不再是纯粹的对话系统,而是能够通过图像直接展示想法的视觉推理伙伴。
在分析失败案例时,研究团队发现了一些有趣的模式。DiffThinker的错误通常发生在两种情况下。第一种是在非常简单的任务中,它可能会"想太多",同时探索过多的可能性,导致最终输出变得模糊。这就像一个经验丰富的专家在处理简单问题时反而容易过度分析。第二种是在极其复杂的长距离任务中,它可能无法维持足够长的推理链,类似于人类在处理超出工作记忆容量的问题时会遇到的困难。
研究团队还进行了一系列技术细节的优化实验。他们测试了不同的引导强度参数,发现适度的引导能够让AI产生更加清晰和确定的解决方案。引导强度就像画家手中颜料的浓度——太淡了画面会模糊不清,太浓了又会失去细节层次。通过精心调节这个参数,DiffThinker能够在逻辑准确性和视觉清晰度之间找到最佳平衡点。
这项研究的意义远不止于技术创新。它代表了AI推理范式的一次根本性转变——从纯粹的符号操作转向更加直观的视觉思维。这种转变模仿了人类认知的一个重要特征:我们在解决复杂问题时,往往会借助图表、草图和视觉化工具来辅助思考。
当然,这种方法也有其局限性。目前的DiffThinker主要适用于具有明确视觉结构的问题。对于纯粹抽象的逻辑推理或者文本理解任务,传统的语言模型仍然具有优势。研究团队认为,未来最理想的AI系统应该是能够根据任务性质灵活选择推理模式的混合系统——对于空间问题使用视觉推理,对于语言问题使用文本推理,对于复合问题则将两者结合起来。
从更广阔的视角来看,这项研究为AI的发展指出了一个重要方向。随着AI系统变得越来越复杂,我们需要更多元化的表示和推理方式。DiffThinker证明了,通过将推理过程本身变成可视的、可交互的,我们不仅能够提高AI的性能,还能增强人类对AI决策过程的理解和信任。
Q&A
Q1:DiffThinker是什么工作原理?
A:DiffThinker是由上海AI实验室开发的AI系统,它改变了传统AI只能用文字描述解决方案的局限,让AI直接"画出"推理过程和答案。就像人类解决迷宫时会在图上画路径一样,DiffThinker使用扩散模型技术,从模糊的噪声开始,逐步生成清晰的解决方案图像,能同时探索多种可能性并逐步收敛到最优答案。
Q2:DiffThinker相比传统AI有什么优势?
A:DiffThinker在空间推理任务上比GPT-5和Gemini等传统模型准确率提升了数倍。它具有四大优势:训练效率高,推理时间可预测,能并行探索多个解决方案,以及可与传统AI协作。更重要的是,它的视觉化输出让人能直观验证答案正确性,解决了传统文本推理容易出错且难以验证的问题。
Q3:DiffThinker能解决哪些类型的问题?
A:DiffThinker主要擅长解决空间和视觉相关的推理问题,包括迷宫导航、路径规划、旅行商问题、数独游戏和拼图任务等。它特别适合那些人类通常会用画图方式解决的问题。不过对于纯文本理解或抽象逻辑推理,传统语言模型仍有优势,研究团队认为未来最理想的是根据任务特点灵活选择推理方式的混合系统。
好文章,需要你的鼓励
openGauss的目标是探索oGRAC和超节点深度融合的可能,打造超节点原生数据库。
清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。
字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。
上海AI实验室团队开发的Yume1.5是一个革命性的AI视频生成系统,能够从单张图片或文字描述创造无限可探索的虚拟世界。用户可通过键盘控制实时探索,系统8秒内完成生成,响应精度达0.836,远超现有技术。该系统采用创新的时空通道建模和自强制蒸馏技术,支持文本控制的事件生成,为虚拟现实和内容创作领域开辟了新的可能性。