微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 阿里巴巴推出Visual-CoG:AI绘画终于学会"分步思考"了

阿里巴巴推出Visual-CoG:AI绘画终于学会"分步思考"了

2025-09-01 15:52
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-01 15:52 科技行者

这项由阿里巴巴集团的李亚琪、陈鹏、韩明阳等研究团队开发的Visual-CoG(视觉引导链)技术发表于2025年8月,论文题为《Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation》。有兴趣深入了解的读者可以通过arXiv:2508.18032v1访问完整论文。

当你对AI说"画一个穿着红裙子的小女孩站在蓝色汽车左边"时,你可能会发现AI经常会搞砸一些细节:要么裙子变成了绿色,要么小女孩跑到了汽车右边,要么干脆画出了两个小女孩。这就像是一个很聪明但有点心不在焉的画家,总体能力不错,但在处理复杂要求时容易丢三落四。

为什么会出现这种情况呢?当前的AI绘画系统就像是一个着急的学生,拿到题目后立马就开始画,画完了才发现理解错了要求。更要命的是,即使最终作品有问题,它也不知道到底是在哪个环节出了错:是一开始就理解错了你的意思,还是在绘画过程中走偏了,还是最后的细节处理有问题。

阿里巴巴的研究团队注意到了这个问题,他们发现现有的AI绘画系统有两大短板。首先是面对复杂描述时容易犯糊涂,比如当你要求"画出法国最著名的大教堂,要有两扇彩色玻璃窗"时,AI可能不知道你说的是巴黎圣母院,或者虽然画出了教堂,但玻璃窗的数量不对。其次是现有的训练方式有问题,就像只在考试结束后才告诉学生哪道题做错了,而不在做题过程中给出提示,这样的反馈来得太晚,效果自然不好。

为了解决这些问题,研究团队开发了一套名为Visual-CoG的新方法。这个方法最大的特点是把AI绘画变成了一个三步走的过程,就像一个专业画家的创作流程一样。

第一步是"语义推理"阶段。在这个阶段,AI不急着动笔,而是先仔细思考你的要求到底是什么意思。比如当你说"画出雨果小说中出现的法国大教堂"时,AI会先推理出"雨果最著名的小说是《巴黎圣母院》,所以用户要的是巴黎圣母院"。然后它会把原始要求改写得更具体:"一座法国哥特式大教堂,有飞扶壁,两扇彩色玻璃窗,营造温暖祥和的氛围"。这就像是一个细心的翻译,把模糊的指令翻译成清晰的行动方案。

第二步是"过程优化"阶段。在实际绘画过程中,AI不再是一口气画完,而是边画边检查。这就像是一个画家会不时停下来审视自己的作品,看看哪里需要调整。技术上,研究团队设计了一个巧妙的机制:让AI在绘画的每个中间步骤都尝试重建图像的某些部分,如果重建效果不好,说明这一步的绘画质量有问题,需要调整。

第三步是"结果评估"阶段。画作完成后,AI会对最终结果进行全面检查,就像是一个严格的美术老师在批改作业。它会检查颜色是否正确、物体数量是否准确、空间位置是否合理,甚至整体的美感如何。比如检查"红裙子"是不是真的是红色的,"两扇窗户"是不是确实有两扇,"左边"是不是真的在左边。

这三个阶段最重要的创新在于,每个阶段都会给AI即时的反馈信息,告诉它这一步做得好不好。这就像是一个耐心的老师,不仅在考试结束后给分数,还在学生做题的每个关键步骤都给出指导意见。

为了训练这套系统,研究团队使用了一种叫做"强化学习"的方法。简单来说,就是通过奖励和惩罚来引导AI学习。当AI在某个阶段表现好时,就给它正面奖励;表现不好时,就给负面反馈。与传统方法不同的是,Visual-CoG在三个阶段都提供反馈,而不是只在最后给个总分。

在语义推理阶段,奖励机制是这样工作的:AI用原始指令和改写后的指令分别画一幅图,然后比较两幅图的质量。如果改写后的指令能产生更好的图画,说明语义推理做得好,就给正奖励;反之则给负奖励。这就像是通过对比考试来检验学生是否真正理解了题目。

在过程优化阶段,系统引入了一个"老师模型"的概念。可以把它想象成一个经验丰富的画家导师,它知道在每个绘画步骤应该如何处理。学生AI需要尽量模仿这个老师的绘画过程,越接近老师的标准,奖励越高。这种方法确保了AI在绘画的中间过程就能得到指导,而不是画完才知道对错。

在结果评估阶段,研究团队设计了一套全面的评分标准,包括空间关系、数量准确性、颜色正确性和整体美感。比如对于"三个人"这样的要求,系统会自动数一下画中确实有几个人,如果数量不对就扣分。对于"红色汽车在蓝色房子左边"这样的要求,系统会检查汽车是否确实在房子的左边,颜色是否正确。

为了验证Visual-CoG的效果,研究团队进行了大量的测试。他们不仅在现有的标准测试集上进行了评估,还专门创建了一个新的测试集叫做VisCog-Bench(视觉认知基准),专门用来测试AI处理复杂和需要推理的绘画要求的能力。

这个新测试集包括四类特别有挑战性的任务。第一类是"异常位置"任务,比如要求画"紫色的狗和黑色的餐桌",考验AI能否正确处理不常见的颜色搭配。第二类是"异常组合"任务,要求把平时不太会放在一起的物品画在同一幅图中。第三类是"异常颜色"任务,要求给物品涂上不寻常的颜色。第四类是"推理"任务,就像前面提到的"雨果小说中的大教堂"那样,需要AI通过常识推理才能知道具体要画什么。

测试结果显示,Visual-CoG在各项指标上都有显著提升。在GenEval这个标准测试集上,总体性能比基准方法提升了15%,在一些具体指标上提升更为明显:计数准确性提升了14.69%,位置准确性提升了47.97%,颜色准确性提升了15.36%。在另一个测试集T2I-CompBench上,Visual-CoG在颜色处理方面达到了78.92%的准确率,在空间关系处理方面达到了43.71%的准确率,都是目前最好的成绩。

更令人惊喜的是在新创建的VisCog-Bench测试集上的表现。对于那些需要推理的复杂任务,Visual-CoG的成功率高达77.5%,相比之下,没有语义推理功能的版本只有49.75%的成功率。这说明"先思考再动笔"的策略确实有效。

研究团队还专门分析了三个阶段各自的贡献。他们发现,语义推理阶段主要帮助提升位置关系的准确性,提升了6.99个百分点;过程优化阶段主要改善了计数准确性,提升了7.96个百分点;结果评估阶段则主要提升了颜色准确性,提升了9.53个百分点。这就像是一个团队合作,每个成员都有自己的专长,合在一起效果更好。

从实际的画作效果来看,Visual-CoG生成的图像确实更加精确和丰富。比如在处理"一张蛋糕和一只斑马的照片"这样的要求时,基础版本可能只会画出两个互不相干的物品,而Visual-CoG会创造出一个合理的场景,比如斑马在生日派对上准备享用蛋糕。在处理"三个人"这样的计数要求时,基础版本经常画错人数,而Visual-CoG几乎总是能准确画出三个人。

这种改进不仅体现在准确性上,还体现在画面的丰富度和艺术性上。通过语义推理,AI能够理解用户的真实意图,创造出更有意义的场景。通过过程优化,绘画的每个细节都更加精致。通过结果评估,整体画面的协调性和美感都得到了提升。

Visual-CoG的意义不仅仅在于技术上的突破,更在于它代表了AI绘画发展的一个重要方向:从简单的图像生成转向智能的创意理解和表达。就像人类画家需要理解、构思、创作和完善这样一个完整的创作过程,AI也需要学会这样的系统性思维。

对于普通用户来说,这意味着与AI的交流可以更加自然和高效。你不再需要绞尽脑汁地用标准化的描述来迁就AI,而是可以用更接近自然语言的方式表达你的创意想法,AI能够理解你的意图并创造出符合期望的作品。

当然,这项技术也还有进一步改进的空间。目前的语义推理主要依赖于预训练的语言模型的知识,对于一些非常专业或者非常新颖的概念可能还会有理解偏差。过程优化阶段虽然能够改善绘画质量,但计算成本相对较高,需要在效果和效率之间找到更好的平衡点。结果评估阶段虽然全面,但主要还是基于规则的评判,对于艺术性和创意性的判断还有待完善。

尽管如此,Visual-CoG仍然代表了AI绘画领域的一个重要进步,它证明了通过模仿人类的创作思维过程,AI可以在理解复杂指令和生成高质量图像方面取得显著提升。随着技术的不断完善,我们有理由相信,未来的AI绘画工具将会变得更加智能、更加贴近人类的创作需求,真正成为创意工作者的得力助手。

Q&A

Q1:Visual-CoG和普通的AI绘画工具有什么不同?

A:普通AI绘画工具就像一个着急的学生,拿到描述就直接开始画,经常会搞错细节。而Visual-CoG就像一个专业画家,会先仔细理解你的要求(语义推理),然后边画边检查(过程优化),最后全面检查作品质量(结果评估)。这种三步走的方式让AI能更准确地理解复杂指令,画出更符合要求的图片。

Q2:Visual-CoG在哪些方面的表现提升最明显?

A:Visual-CoG在处理复杂描述时表现尤其出色。比如在计数准确性上提升了14.69%,位置关系准确性提升了47.97%,颜色准确性提升了15.36%。特别是对于需要推理的任务,比如"画出雨果小说中的大教堂"这样的要求,成功率高达77.5%,而普通方法只有49.75%。

Q3:普通人现在可以使用Visual-CoG技术吗?

A:目前Visual-CoG还主要是一项研究成果,阿里巴巴团队计划很快会公开相关资源。不过这项技术代表的"分步思考"理念已经开始影响AI绘画工具的发展方向,未来会有更多融合类似技术的产品面向普通用户,让AI绘画变得更智能、更准确。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-