
这项由香港科技大学(广州)与香港科技大学联合领导、并有新加坡国立大学参与的研究,于2026年5月发布于预印本平台arXiv,论文编号为arXiv:2605.21605。有兴趣深入了解的读者可通过该编号查询完整论文。
研究背景:当"一句话生图"变得远远不够用
假设你想画一幅画,要求是:维也纳那栋由弗里登斯莱希·洪德特瓦瑟设计的彩色凹凸公寓楼在左边,右边是鹿特丹那些由皮特·布洛姆设计的倾斜黄色方块屋,左楼入口上方挂着一块木牌写着"ORGANIC",右楼上方挂着金属牌写着"GEOMETRIC"。你把这段话发给目前最先进的AI绘图软件,结果发现它画出来的两栋楼几乎挤成了一团,木牌和金属牌贴错了位置,"ORGANIC"这几个字也歪七扭八几乎认不出来。
这并不是AI能力不足,而是这类请求本身就超出了"给一段话、生成一张图"这种简单流程所能处理的范围。当请求涉及真实世界的具体知识、多个物体的精确空间关系、特定文字的渲染质量,以及对参考图片的准确参照,单靠一个文本描述根本无法告诉AI那栋楼究竟长什么样、两栋楼之间应该间隔多远、木牌和金属牌各自在哪个建筑上。
这正是香港科技大学研究团队要解决的问题。他们提出了一个名为GenEvolve的系统,核心思路是:不要把生图当成一个单步操作,而是把它变成一个像经验丰富的老画师一样工作的"智能助手"——先查资料、找参考图、调用专业画技知识,再写出一份完整的"委托书"交给绘图工具执行。更关键的是,这个助手还能从自己的失败经历中学习,越画越好。
一、为什么AI画图还需要"查资料"和"找参考图"?
平时我们用AI生图,流程很简单:写个提示词,等几秒钟,图就出来了。这在生成那种泛泛的风景图或者卡通形象时没什么问题。但当请求变得具体和有要求时,困难就来了。
以洪德特瓦瑟那栋楼为例,它外墙颜色鲜艳、轮廓凹凸不平、没有一条直线,是非常独特的建筑风格。如果AI没见过这栋楼的照片,光凭文字描述几乎不可能画准确。同样,鹿特丹的立方体黄房子也有它非常具体的倾斜角度和几何形态。这类信息必须来自真实世界的图片参考,而不是凭空想象。
除了视觉参考,有些请求还涉及事实性知识。比如"画出2023年斯诺克世界锦标赛冠军的国旗纹样铺在球台上",AI需要先知道那年的冠军是谁、来自哪个国家、国旗是什么颜色和图案,然后才能去画。这类知识需要通过检索来获取,不能靠猜。
研究团队因此设计了一套"工具箱",助手可以按需调用三类工具。第一类叫文字搜索,用来查找真实世界的事实信息,比如比赛结果、历史事件、人物资料等。第二类叫图片搜索,用来找视觉参考图,让AI知道那栋楼、那个奖杯、那件服装究竟长什么样。第三类叫内部技能调用,这是一套预先编写好的"专业绘画指导手册",包括文字渲染技术、空间布局技术、数量计数技术、人体结构技术、材质物理特性技术、美学风格技术等八大类,助手可以按需取用,就像厨师根据菜肴特点翻阅不同的烹饪技法手册一样。
这三类工具组合起来,让助手不再是"只能用脑子里已有东西画画的画师",而变成了一个能主动查资料、找参考、调用专业技能的"有备而来的创作者"。
二、助手是怎么工作的?从接单到交稿的完整流程
用烹饪来类比这个系统的工作方式会很直观。助手收到一个"出餐请求"(用户的画图指令),不会立刻动手炒菜,而是先做一系列准备工作:查菜谱、找食材、拿出专业厨具,然后写一份详细的"制作方案"交给真正执行的厨房设备(即下游绘图模型)。
具体来说,每次收到请求后,助手会进入一个多轮决策过程。每一轮,它都要思考目前手头有什么信息、还缺什么、下一步该用哪个工具。它可以先搜索文字确认一个事实,然后搜索图片找到视觉参考,再调用"空间布局"技能获取关于多物体位置排列的专业指导,最后调用"文字渲染"技能了解如何在图片里正确呈现清晰可读的文字。这些工具可以以任意顺序调用,顺序完全根据请求的实际需求灵活决定。
所有准备工作完成后,助手会输出一份"创作指令书",里面包含两样东西:一段精心写就的文字指令,以及一组精选的参考图片。文字指令里会用"第一张参考图"、"第二张参考图"这样的表述来明确引用图片,而不是粘贴原始图片链接,这样下游绘图模型就能清楚知道该参照哪张图的哪些特征来生成最终图像。
这份"创作指令书"是整个系统的核心产出。研究团队把它称为"提示-参考程序",它的质量直接决定最终图像的好坏。好的指令书会把用户原始需求、搜索到的事实、选取的参考图片特征、专业技能指导融合成一份清晰、可执行、信息丰富的创作方案;差的指令书则会遗漏关键信息或者包含错误事实,导致绘图模型"按图索骥"却画出截然不同的结果。
三、数据从哪来?自己造了一套"训练教材"
训练这样一个助手,需要的不是普通的"提示词-图片"配对数据,而是完整的"操作过程记录"——每一步用了什么工具、怎么思考的、最后写出了什么指令书、生成了什么图片。这类数据在现实世界中几乎不存在,研究团队只好自己从头构建,这个数据集被称为GenEvolve-Data。
构建过程从"出题"开始。研究团队设计了一套结构化的出题配方,每道题都有明确规定:属于哪类场景、缺少什么外部知识、需要什么视觉参考、主要考验哪种绘画能力、难度级别是什么。按照这套配方生成的题目分为两大类:一类叫知识锚定型,专门考验需要查资料才能画准的情况,比如具体人物、历史事件、特定地点;另一类叫质量锚定型,专门考验画图质量上的挑战,比如文字是否清晰、空间布局是否正确、物体数量是否准确、材质质感是否真实。最终构建了将近两万道有效题目,涵盖建筑、街景、公众人物、产品、交通工具、科学图示、文字排版等十六大类别。
有了题目之后,研究团队请了两个能力强大的AI教师(字节跳动的Seed2.0和谷歌的Gemini 3 Pro)来"做题示范",为每道题生成一套完整的操作轨迹记录:从搜什么词、找什么图、用什么技能,到最后写出什么指令书,全程记录在案。这些示范轨迹经过严格筛查,剔除了工具调用不完整、参考图选错、指令书写得不达标等问题案例,最终保留了一万三千多条高质量轨迹。
筛选下来的高质量指令书还被送去实际生图,用当时画质最好的Nano Banana Pro模型(基于谷歌Gemini 3 Pro图像生成能力构建)渲染成真实图片,再经过一轮质量审核,最终留下三千多张"标准答案图"。这些图片后来成为评分和自我进化阶段的重要参照。
整个数据集最终被切分成三部分:一部分用于让助手学会基本操作流程,一部分用于自我进化训练,最后一部分被锁起来专门用作最终考试——这就是GenEvolve-Bench评测集。
四、最核心的创新:从失败中学习,还要学得明白
让一个AI系统从自己的生成结果中学习并不稀奇,但GenEvolve的学习方式和通常的做法有本质区别,这也是整个研究最独特的地方。
通常的做法是这样的:让系统生成一批图片,然后给每张图打一个分数,分高的操作被鼓励,分低的被压制。这就像老师给学生的作业打个总分,但从不解释哪里做对了、哪里做错了、为什么做错了。学生只知道这次考了80分、上次考了60分,但不知道具体是哪一步出了问题。
GenEvolve做的是不一样的事情。它会让助手对同一道题生成多份答案,然后找出得分最高的那份和得分最低的那份,专门比较这两份的差异,提炼出"为什么好的好在哪里、坏的坏在哪里"的具体教训,形成结构化的经验总结。这份经验总结包含五个方面:搜索策略上的差异(好答案是怎么查资料的,坏答案在哪步查错了)、技能调用上的差异(好答案激活了哪些专业技能,坏答案漏了什么)、参考图选择上的差异(好答案怎么挑图的,坏答案选了哪些没用甚至误导的图)、指令书写作上的差异(好答案怎么组织信息的,坏答案在哪里写得含糊)、以及失败教训(坏答案里出现了什么典型错误需要未来避免)。
这份经验总结有个特别的用法:它只会在训练时出现,而且只会给"有特权的老师版本"看,普通的学生版本看不到它。训练时,老师版本和学生版本都去处理同一道题、评估同一批答案,但老师看得到过去的失败经验和总结,学生看不到。通过比较老师和学生在每个具体词语判断上的差异,系统就能知道哪些决策点是老师(有了经验后)会做出不同选择的地方,然后引导学生向老师的判断靠拢。
这种机制的精妙之处在于它非常精准。它不是笼统地说"整体要更好",而是聚焦到具体的决策词语上——比如在助手思考"要不要调用空间布局技能"这个问题时,老师有了经验会更确定地选择调用,而学生此时还犹豫,训练就会在这个具体的决策节点上纠正学生的判断。为了让这种纠正更有效率,系统还专门筛选出老师和学生判断分歧最大的那10%的关键词语来重点学习,避免在已经判断正确的地方浪费资源。
研究团队把这个机制称为"视觉经验蒸馏"——把从真实图像反馈中提炼出的操作经验,通过训练的方式"蒸馏"进助手的判断能力里。训练完成后,助手在实际工作时并不需要依赖这套经验记忆,它已经把这些经验内化成了自己的判断本能。
五、三个真实失败案例:错误是怎么发生的,又是怎么避免的
研究团队在论文中详细展示了三组真实的"好答案vs坏答案"对比,非常具体地说明了经验学习在实际中是如何起作用的。这三个案例每一个都揭示了不同类型的错误来源,值得仔细了解。
第一个案例涉及斯诺克世界锦标赛。题目要求画出一个赛场,球台毡布颜色要符合2023年世界冠军所在国的国旗颜色。好的答案在第一步就搜索了"2023年斯诺克世界锦标赛冠军国籍",得知冠军是来自比利时的卢卡·布雷切尔,然后把球台毡布画成了比利时国旗的黑黄红三色竖条纹。坏的答案只在搜索词里加了一个词——把"冠军国籍"改成了"冠军国旗",结果搜索引擎被"国旗"这个词干扰,返回了混乱的结果,助手误判冠军是中国选手吴一泽,于是把球台毡布画成了红底黄星的中国国旗样式。这个案例说明,哪怕只是在搜索关键词里加了一个不必要的视觉属性词,就能完全搞乱后续的所有判断。提炼出的经验教训是:当要查某个实体的属性时,先查实体本身,再从结果里推断属性,而不是把属性词直接放进搜索词里。
第二个案例是1970年代风格的交通运输海报,要展示法国气垫列车Aérotrain I80,并在海报上以复古大字显示它创造世界速度纪录时的速度和年份。好的答案和坏的答案都通过搜索正确找到了数据(430.4公里每小时,1974年),但坏的答案没有调用文字渲染技能,而是把所有文字揉成了一个长字符串用竖线分隔:"Aérotrain I80 | 官方世界速度纪录:430.4公里每小时(267英里每小时)| 1974"。结果绘图模型不知道该如何排布这串文字,生成的海报上文字叠压混乱完全无法辨读。好的答案调用了文字渲染技能,把文字拆分成三行,每行分别描述内容、位置和字体风格,最终生成的海报文字清晰、布局工整、复古感十足。这个案例说明,光有正确的内容还不够,"如何把内容传达给绘图工具"本身也是一项需要专业知识支持的技能。
第三个案例就是本文开头提到的那道双建筑题。好的答案在找到两栋楼的参考图之后,专门调用了空间布局技能,获取了关于多物体帧内坐标定位的专业指导,在指令书里明确写出了"画面中景左侧是洪德特瓦瑟公寓,画面中景右侧是立方体黄房子,两者间隔约三米,中间是人行道"这样精确的空间描述。坏的答案调用了文字渲染技能但跳过了空间布局技能,只写了一句"两栋楼并排放置、宽度相等",结果绘图模型不知道两栋楼该分别占据画面的哪个区域,生成的图里两栋建筑几乎融合在一起,木牌和金属牌也挂错了位置。这个案例说明,当需要在画面里安置多个物体时,模糊的"并排"指令远远不够,必须用帧内坐标式的精确语言来锁定每个物体的位置。
六、评测结果:到底比别人好多少?
研究团队构建了一套完整的评分体系来衡量生成图片的质量,这套评分从四个维度打分:图片内容与请求描述的吻合度、视觉细节的准确性(比如建筑外形对不对、人物服装符不符合)、文字渲染的清晰度、以及整体美感。这四项分数加权组合成一个总分,叫做KScore。
在研究团队自建的测试集上,对比了十多个直接出图的AI模型(包括FLUX、Stable Diffusion系列、Qwen-Image、Z-Image等),以及几个近期发布的智能助手式生图系统(如GenAgent、Gen-Searcher、Mind-Brush)。结果显示,直接出图的模型里最强的Qwen-Image总分只有约0.30,属于中等水平的Nano Banana Pro直接出图也只有约0.53。GenEvolve搭配开源绘图模型(Qwen-Image-Edit)时,总分达到约0.37,超过了同样使用该绘图模型的竞争对手Gen-Searcher(约0.35)。当GenEvolve搭配更强的Nano Banana Pro时,总分进一步提升到约0.57,在所有对比系统中拿到了最高分,并且在知识锚定和质量锚定两个子类别上都领先。
为了验证这套系统不只是在自家测试集上好看,研究团队还拿GenEvolve去参加了一个公开的、与本研究无关的外部测试——WISE评测集,这套测试专门考验图片生成中的世界知识理解能力,分文化、时间、空间、生物、物理、化学六大类别。GenEvolve在总分上拿到了0.82,而此前最好的直接生图模型GPT-4o是0.80,此前最好的智能助手系统Mind-Brush是0.78。特别是在化学(0.83)和生物(0.83)两个类别里,GenEvolve的优势最为明显,这恰好是最需要事实性知识支撑的领域。这说明这套系统学到的能力是真实的、可迁移的,而不是针对特定测试集过度优化的结果。
研究团队还做了一组剖析实验,逐步去掉各个组件,看每个环节对最终效果的贡献。不训练只靠初始模型做工具调用,总分是0.33;加上监督学习初始化,提升到0.35;再加上强化学习(但没有经验蒸馏),提升到0.35多;完整版加上经验蒸馏,最终到0.37。视觉准确性这一分维度的提升尤为明显,说明经验蒸馏对帮助系统学会正确获取和使用参考图确实有独到贡献。
七、训练过程中,"老师"和"学生"之间发生了什么?
研究团队还做了一个很有意思的细节分析,专门查看在训练过程中,拥有经验的老师版本和普通学生版本在哪些具体词语上出现了最大的判断分歧,以此验证经验蒸馏是否真的在起作用。
他们选了一道题作为案例:画出德国伍珀塔尔悬挂单轨列车的风格化插画,要求画面里能看到来自特定视角的特定数量车厢。这道题同时考验真实地标的外观准确性、数量计数技术,以及视角和空间布局。检索到的经验提示是:先用图片参照验证特定视角下可见车厢的数量,然后再调用数量计数技能。
分析结果表明,老师和学生之间的分歧主要体现在两类词语上。第一类是老师会"纠正"的词——在学生倾向于使用某个模糊或错误的词时,老师集中把概率压到另一个更准确的词上。比如学生想写"shape"(形状),老师改成"layout"(布局),因为这是调用空间布局技能的关键触发词;学生写"correct"(正确的),老师改成"factual"(基于事实的),因为这是强调信息要来自搜索而非主观判断的重要措辞;学生写"first"(首先),老师改成"query"(查询),因为第一步要做的事情是发起搜索而不是开始描述。第二类是老师会"强化"的词——当学生已经在往正确方向走但还不够确定时,老师大幅提升同一个词的概率,让学生更果断。比如"spatial"(空间的,即调用空间布局技能)从0.53提升到0.96,"count"(数量,即调用计数技能)从0.64提升到0.79,"search"(搜索)从0.62提升到0.85。这些数字清楚地说明,经验蒸馏确实在帮助系统在正确的决策节点上做出更果断、更准确的选择,而不是笼统地改变整体风格。
说到底,GenEvolve做的事情可以用一句话概括:把"生成一张图"从一个简单的单步操作,变成了一个像有经验的老专家一样工作的完整流程——查资料、找参考、用技能、写方案,而且每次做完都能从成功和失败的对比里学到东西,让下次做得更好。
这项研究对普通用户最直接的意义是:将来你想生成一张需要真实地标、特定人物、精确文字、复杂空间关系的图片时,不再需要自己花大量时间写超长提示词、反复修改、碰运气。这类工作可以交给一个懂得主动查资料、找参考、调用专业技能的智能助手来完成,而且它还会越用越好。
当然,这项研究也有它目前的局限。从测试数字来看,即使是最好的结果(总分0.57),距离完美还有相当距离,说明这类复杂请求对当前所有系统来说仍是难题。此外,系统目前依赖特定的下游绘图模型,模型更换后效果会有所变化,虽然研究已初步验证了一定程度的可迁移性。另外,经验积累的质量依赖于成对比较中能否找到"足够好"和"足够差"的答案,如果某类题目所有答案都差不多,就很难提炼出有用的经验。
对于普通读者来说,一个有趣的思考问题是:如果AI可以像老专家一样通过失败经验越画越好,那在什么类型的请求上这种学习会最有效果,又在什么类型的请求上几乎没有帮助?有兴趣深入探索这些问题的读者,可以通过arXiv:2605.21605查找完整论文。
Q&A
Q1:GenEvolve和普通的AI生图软件有什么本质区别?
A:普通AI生图软件是"一句话生一张图",直接把文字描述转换成图像。GenEvolve则像一个会主动工作的助手,它先去搜索相关事实、找视觉参考图、调用专业绘画技能指导,再写出一份详细的创作方案交给绘图工具执行,整个过程有多个决策步骤,而不是一步到位。
Q2:GenEvolve的视觉经验蒸馏是怎么让AI越画越好的?
A:GenEvolve对同一道题生成多份答案,找出最好和最差的进行详细对比,提炼出"好在哪里、差在哪里"的具体经验。训练时,这份经验只让"老师版本"看到,通过比较老师和学生在具体词语判断上的分歧,系统学会在关键决策点上做出更准确的选择。训练结束后,助手不需要依赖经验记忆,已经把这些经验内化成本能。
Q3:GenEvolve在公开测试集WISE上的表现怎么样?
A:GenEvolve在WISE评测集上拿到了0.82的总分,超过了此前最好的直接生图模型GPT-4o(0.80)和智能助手系统Mind-Brush(0.78)。在最需要事实知识的化学和生物类别上优势最明显,说明这套系统学到的能力可以迁移到完全不同的测试场景,而不只是在自家测试集上好看。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。