微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 香港理工大学研究团队:AI生成的艺术作品,机器真的"看懂"了吗?

香港理工大学研究团队:AI生成的艺术作品,机器真的"看懂"了吗?

2026-04-20 17:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-20 17:34 科技行者

这项由香港理工大学领导的研究发表于2026年,论文编号为arXiv:2604.08641,有兴趣深入了解的读者可以通过该编号查询完整论文。

你有没有看过一幅抽象画,然后花了好几分钟盯着它,试图弄清楚画家想说什么?那种"它到底在表达什么"的感觉,正是艺术最迷人的地方。现在,当AI开始创作艺术作品时,一个新的问题出现了:我们怎么判断AI的作品是不是真的"好艺术",而不只是看起来漂亮的图片?香港理工大学的研究团队正是为了回答这个问题,开展了这项研究。

一、被忽略的问题:AI艺术评审员只会看脸

当我们想判断一幅AI生成的画好不好时,通常的做法是什么?现有的评分工具大多在做一件事:把AI生成的图片和输入的文字说明对比,看看"画出来的东西"和"说要画的东西"像不像。比如,你告诉AI画一只猫,它画了一只毛茸茸的橘猫,评分系统就说:不错,很像猫,高分。

但艺术本来就不是这么运作的。

毕加索的《格尔尼卡》画的是战争,但画里几乎没有任何逼真的战争场景——扭曲的人体、破碎的几何形状、黑白灰的色调,这一切共同传达出一种震撼人心的反战情绪。如果用现有的AI评分工具来打分,它可能会觉得这幅画"不够逼真",甚至给低分。这就是问题所在:艺术的意义,往往不藏在表面,而藏在象征、隐喻和联想里。

研究团队发现,现有的AI艺术评估体系存在两个根本性的缺陷。第一个缺陷是,艺术意义无法被简化为表面外观。真正有力量的艺术往往通过非字面的方式传达意思——通过并置、抽象、隐喻,让观者自己去感受和解读。如果评分系统只看"画面像不像",就会把艺术质量等同于视觉保真度,奖励那些漂亮但空洞的图片。第二个缺陷是,艺术意图无法被简化为文字提示的字面含义。当一个人对AI说"画一幅有格尔尼卡精神的作品",这句话不是在描述具体的视觉元素,而是在传递一种情感基调、一种反战立场、一种艺术风格的影响。现有的评分工具直接比对文字和图像,完全跳过了这个"理解意图"的关键步骤。

二、符号学:理解艺术语言的古老钥匙

研究团队没有试图修补现有工具的小漏洞,而是回到了一个更根本的问题:艺术意义到底是怎么传递的?他们找到的答案来自一门叫做"符号学"的学科——一门研究"意义是如何通过符号传达"的科学。

符号学里有一位重要的思想家叫皮尔斯(Charles Sanders Peirce),他提出了一个三角关系模型:任何意义的传达,都涉及三个要素——符号(你看到的东西)、对象(符号所指代的现实或概念)、解释项(你心里产生的理解和感受)。

举个具体的例子:一幅画里有一只白鸽(这是符号),它指代的是"和平"(这是对象),而你看到它产生的感受是"渴望和平、厌恶战争"(这就是解释项)。这三者之间的关系,就是符号的意义。

更有意思的是,皮尔斯把符号与对象之间的关系分成了三种类型。第一种叫"图像性"(iconic),指符号通过视觉相似来传达意义,比如一幅人物肖像和真人长得像;第二种叫"象征性"(symbolic),指符号通过约定俗成的文化惯例来传达意义,比如红色代表危险或热情;第三种叫"索引性"(indexical),指符号通过因果关系或物理联系来传达意义,比如烟雾指向火焰,画家的笔触风格指向创作状态。

研究团队指出,现有的AI艺术评分系统几乎完全活在"图像性"的世界里——它们只会比对视觉相似度,对"象征性"和"索引性"这两种更深层的意义传达方式完全视而不见。这就好比你学英语只会认字母,却完全不懂单词的含义和句子的语法,自然读不懂文章。

三、人与AI的艺术对话:一场接力赛

研究团队用符号学的视角,重新描述了人与AI生成艺术之间的整个互动过程,他们称之为"人类-生成艺术交互"(Human-GenArt Interaction,简称HGI)。

这个过程是一场接力赛,每一棒都涉及意义的传递和转化。第一棒是创作者:人类用户心里有一个想表达的意图(比如"我想表达战争的残酷和对和平的渴望"),但这个意图是藏在心里的,AI看不见。于是用户把它转化成一段文字提示,这段文字就是符号,承载着用户的意图。第二棒是AI模型:AI读取这段文字,用自己的方式理解它,然后生成一幅图像。这个过程本身就是一次"符号解读"——AI把文字符号转化成视觉符号。第三棒是观看者:最后,一个人看到这幅AI生成的图像,根据自己的知识、文化背景和审美经验,理解这幅画想表达什么,形成自己的解读。

在这三棒接力中,每一次传递都可能发生偏差——用户的意图可能没有被AI正确理解,AI生成的图像可能没有把象征意义传达给观看者。研究团队把最终观看者理解到的意义和最初创作者的意图之间的差距,称为"符号鸿沟"(Semiosis Gap)。

现有的评分工具实际上只在比较第一棒(文字提示)和第二棒(生成图像)的表面相似度,完全没有评估"意义有没有真正传达到位"这个核心问题。

四、SemJudge:一个真正懂艺术的AI评审

基于这套符号学理论,研究团队开发了一个新的评估工具,叫做SemJudge。这个工具的核心是一种叫做"层次符号图"(Hierarchical Semiosis Graph,简称HSG)的结构。

HSG的工作原理可以用一个侦探故事来理解。当一位侦探调查案件时,他不会只看表面现象——他会把所有线索整理成一张关系网络图:这个证物指向哪个嫌疑人,这个嫌疑人和那个案发地点有什么关联,多条线索交汇指向什么结论。HSG对一幅艺术作品做的,正是类似的事情。

具体来说,HSG把一幅图像(或者一段文字提示)分解成多个意义单元。对于整幅画,HSG会建立一个"根符号",包含对整体画面的描述(符号)、画面所指代的主题或概念(对象)以及它应该让观看者产生的感受或理解(解释项)。在根符号之下,HSG会进一步分解出若干"子符号",每个子符号对应画面里的一个具体视觉元素——比如一个特定的人物形象、一个颜色区域、一种艺术风格——并同样分析它的对象和解释项,以及它与整体主题的关系。

以论文中展示的一个例子为例:一幅以毕加索分析立体主义风格描绘"天使报喜"(圣经中天使告知玛利亚将诞生耶稣)的抽象画。HSG会这样分析:整幅画的全局符号是"用立体主义风格描绘的宗教场景",对象是"天使报喜这一圣经事件",解释项是"精神庄严感和对古典宗教题材的现代抽象再诠释",连接符号与对象的基础是图像性与象征性并存的关系。在子符号层面,左侧有翅膀结构的破碎人形指向"大天使加百列",通过图像性(翅膀、人形)和象征性(天使作为信使)来传达意义;上方白色鸟形指向"圣灵和神圣之光",通过象征性(鸽子代表圣灵)来传达;整体的尖锐角度和交叉平面指向"毕加索的分析立体主义风格",通过索引性(笔触和碎片化指向艺术家的技法)来传达。

这个分析框架让评估工具不再只是"看脸",而是真正追踪了意义的传递路径:提示词想表达什么?图像用什么视觉手段传达这个意思?这些手段是通过外形相似、文化约定还是因果联系来工作的?最终,观看者能不能从中重建出原始意图?

SemJudge的工作流程分三个阶段。首先,它分析用户的文字提示,构建一个提示词的HSG,理解用户的真实意图。然后,它分析两幅需要比较的AI生成图像,分别构建它们的HSG,追踪每幅图像中的意义传递路径。最后,它把提示词的HSG和两幅图像的HSG进行对比,判断哪幅图像更好地实现了用户的意图传达,并给出具体的、有证据支持的理由——包括指向画面中具体区域的边界框标注,以及指向提示词中具体文字片段的引用。

五、SemiosisArt:专门测试艺术理解力的新考卷

为了验证SemJudge的效果,研究团队还专门构建了一个新的数据集,叫做SemiosisArt。这个数据集的特别之处在于,它专门针对那些依赖象征性和索引性意义传达的艺术任务,而不是那些只需要"画得像"的任务。

现有的AI艺术评估数据集大多偏向图像性任务——比如"画一只在草地上奔跑的金毛犬",这类任务的好坏评判标准相对简单直观。而SemiosisArt收录的是那些需要深度文化理解和符号解读的任务,比如"用德国浪漫主义风格创作一幅三联画,从左到右依次描绘浮士德的三个场景:与魔鬼的契约、格雷琴的悲剧和海伦的插曲",或者"用奥斯曼伊兹尼克瓷砖艺术风格描绘鲁米《玛斯纳维》中的敲门寓言"。

数据集的构建过程颇为严谨。研究团队与12位专家合作,将任务锚定在有明确文化传统和解读惯例的经典母题上,涵盖基督教、伊斯兰教、印度教、东亚文化(包括中国、佛教、日本)等传统,以及艺术史上的"虚空派"画、三联画等形式,还有现代视觉传统如信息图表、漫画和原生艺术。这样做的目的是降低解读的主观随意性——有文化传统背书的符号,其意义相对稳定,不同背景的人更容易形成共识。

在质量控制方面,研究团队还众包了38155条非专家判断,用于筛选那些主观性过强、难以形成共识的任务。最终,数据集包含187个提示任务,16个生成模型产生的935幅图像,1870个两两比较的判断任务,以及600个细粒度的视觉问答题目,整体标注一致性(科恩Kappa系数)达到0.58——考虑到艺术评判本身的高度主观性,这个数字实际上相当可观。

数据集中还有一个有趣的维度:研究团队让专家对每个任务标注其"净图像性分数",也就是这个任务主要依靠视觉相似度来评判(高图像性),还是主要依靠象征和文化理解来评判(低图像性)。比如"用卡拉瓦乔风格画一个戏剧性的明暗对比人物"就是高图像性任务,而"用毕加索分析立体主义风格描绘天使报喜的神学母题"就是低图像性任务。

六、实验结果:数字说明了什么

研究团队把SemJudge和一大批现有工具放在一起,在SemiosisArt数据集上进行了系统性比较,结果相当清晰地展示了不同工具之间的差距。

现有的基于视觉相似度的评分工具,表现令人失望。CLIPScore(一个广泛使用的文图匹配评分工具)与专家判断的相关性极低;PickScore(一个根据用户偏好训练的评分模型)在某些指标上好一些,但整体仍然偏低;各种图像质量评分和审美偏好评分工具,与专家判断几乎没有相关性,有些甚至呈现负相关——也就是说,这些工具认为"好"的作品,专家反而觉得差。

加入了结构化分析的工具表现略好一些,比如VIEScore(通过问答评估图像生成质量)和ArtCoT(用多模态大模型进行艺术形式分析),但与专家判断的相关性仍然有限。即使这些工具使用了和SemJudge相同的底层语言模型,表现也明显落后于SemJudge——这说明差距不在于模型本身有多强,而在于评估框架有没有真正抓住意义传达这个核心。

SemJudge的表现则显著不同。以Kendall's Tau(一种衡量两组排名一致性的指标)为例,SemJudge(使用Qwen-9B模型)达到了0.533,而最好的竞争方法只有约0.3;使用更大的Gemini-Flash模型后,SemJudge的Kendall's Tau进一步提升至0.746。在Spearman相关系数上,SemJudge(Gemini-Flash)达到了0.964,已经非常接近人类非专家判断者之间的相关性(0.924),甚至在某个指标上超过了非专家水平,向专家水平(93.2%准确率)靠拢——SemJudge(Gemini-Flash)在视觉问答任务上的准确率达到92.4%。

更直接地验证了"图像性偏见"这一核心理论预测的是一组专门的统计测试。研究团队对每个评估工具都计算了一个叫做"图像性偏见指数"的指标(用Δ表示):当一个工具与人类判断一致时,那些案例是不是倾向于具有更高图像性(视觉相似度更高)?如果是,说明这个工具有图像性偏见,只在"容易"的、主要靠看外形就能判断的案例上和人类意见一致,一遇到需要理解象征意义的案例就判断错了。

结果正如理论预测:ImageReward的Δ为0.086,PickScore的Δ为0.126,DSG的Δ为0.087,ArtCoT的Δ为0.182,所有这些工具都具有统计学显著的图像性偏见。而SemJudge的Δ为-0.010,不显著异于零——这意味着SemJudge与人类判断的一致性,并不依赖于案例是否具有高图像性,它在象征性和索引性的艺术案例上同样表现稳定。

七、人类评价:不只是数字,还有质量

除了与人类判断的相关性这个定量指标,研究团队还专门做了一个用户研究,让70位参与者从四个维度评价不同工具生成的艺术解读文本的质量。

第一个维度是"因果一致性"(仅专家评价):工具给出的判断理由,是不是真正抓住了专家认为重要的决定性因素,而不是在胡乱归因?第二个维度是"深度":解读是不是超越了表面的物体识别和风格描述,达到了真正的意义层面(象征主义、隐喻、神学传统等)?第三个维度是"启迪价值":看了这个解读之后,你对这幅画"作者在表达什么"的理解,有没有比只看图像和提示词时更深?第四个维度是"证据支撑":解读中的关键判断,有没有具体指向画面的某个区域或提示词的某段文字作为依据?

在所有四个维度上,SemJudge都以统计显著的优势(p < 0.05)胜过了所有对比方法。对比工具的解读主要停留在"这幅画里有什么物体""用了什么艺术风格"这样的表面层面,而SemJudge的解读能够追踪象征意义的来源、说明文化传统中的惯例,并把每个判断落实到画面的具体位置或提示词的具体措辞上。参与者也普遍反映,SemJudge的解读有助于他们理解创作者的意图,而不只是对图像内容的复述。

八、HSG到底有多重要:消融实验的发现

研究团队还做了一系列消融实验,专门测试HSG这个结构化分析框架本身的贡献,把它与单纯增大语言模型规模的效果区分开来。

实验结果揭示了几个很有意思的规律。固定使用同一个语言模型时,引入标准HSG结构能明显提升表现,Kendall's Tau从0.48提升到0.55;但如果把HSG做得过于复杂(允许更多子符号和更详细的描述),弱一些的语言模型反而难以准确地生成如此复杂的HSG,导致效果反而略有下降。这说明HSG的复杂度需要与底层模型的能力相匹配。

更有意思的发现是关于"强HSG提升弱模型"的效果。研究团队用一个强大的模型(Gemini-Flash)来构建HSG,然后把这个高质量的HSG喂给一个很小的模型(Qwen-2B)来做最终判断。结果显示,即使是这个很小的模型,有了高质量HSG的帮助后,表现也从几乎随机猜测(Kendall's Tau为-0.04)跃升到了0.27——尽管还比不上直接用大模型,但提升幅度相当显著。这说明,评估质量的主要瓶颈往往不在于最终判断阶段用多大的模型,而在于能不能先构建出一个质量足够好的意义理解框架。

在视觉问答任务上,HSG的效果更加突出。用Gemini-Flash构建HSG后,即使是Qwen-4B这样相对小的模型做判断,视觉问答准确率也能从56.8%大幅提升至86.8%,接近直接用Gemini-Flash做整个流程的92.4%。这与人类用户研究的结果高度一致:HSG结构对艺术解读的深度和准确性帮助最大。

归根结底,这项研究做的事情,是把一个长期被忽视的问题摆到了台面上:AI生成艺术的评估,不能只停留在"画得像不像"的层面。艺术是一种意义的传递,而意义的传递远比视觉相似复杂得多。研究团队用一套来自符号学的理论框架,不仅解释了为什么现有工具会系统性地误判艺术质量,还给出了一套可操作的解决方案,并通过大量实验验证了这套方案的有效性。

当然,这项研究也有它的局限性。SemiosisArt数据集虽然跨越了多种文化传统,但对文化少数群体和当代概念艺术的覆盖仍然不足——这两类艺术形式的评判标准本身在理论上就难以达成共识,构建可靠的标注数据集难度极大。此外,SemJudge在预测边界框时的表现还不够精确,这是多模态大模型在空间理解方面的普遍弱点,未来可以通过引入专门的视觉定位模块来改善。

由此可见,这项研究不只是在改善一个技术工具,它实际上是在推动一个更大的转变:让AI不只是生成"好看"的图片,而是开始理解和表达复杂的人类经验。有兴趣深入探索的读者,可以通过arXiv:2604.08641查阅完整论文,项目代码和数据集也已在GitHub(songrise/SemJudge)上开源。

Q&A

Q1:符号学中的图像性、象征性和索引性在艺术评估中分别指什么?

A:图像性指通过视觉相似传达意义,比如肖像画和真人长得像;象征性指通过文化惯例传达意义,比如白鸽代表和平;索引性指通过因果关联传达意义,比如画家独特的笔触风格透露其创作状态。现有AI评分工具主要只识别图像性,对后两者几乎无法评估,这正是它们与人类审美判断产生系统性偏差的根本原因。

Q2:SemJudge和传统AI艺术评分工具的核心区别是什么?

A:传统工具直接比较文字提示和生成图像的视觉相似度,相当于只看外形打分。SemJudge则先构建层次符号图(HSG),分析提示词和图像各自的意义结构——包括表达了什么概念、通过什么方式传达、与整体主题关系如何——再对比两者的意义传递路径是否一致,判断艺术意图是否真正实现。

Q3:SemiosisArt数据集和已有的AI艺术评估数据集有什么不同?

A:现有数据集大多是"画只猫"这类主要靠外形判断的图像性任务。SemiosisArt专门收录需要深度文化和符号理解的任务,比如描绘特定宗教故事或哲学概念,涵盖基督教、伊斯兰教、印度教、东亚等多种文化传统,并通过专家标注和大规模众包质量控制,确保评判标准有跨文化共识基础而非个人主观偏好。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-