微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 西班牙和芬兰顶尖大学联合揭示:人工智能绘画界的"破案神探"其实是个近视眼

西班牙和芬兰顶尖大学联合揭示:人工智能绘画界的"破案神探"其实是个近视眼

2025-08-07 14:19
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-07 14:19 科技行者

当下最热门的人工智能话题之一,就是AI能否真正"看懂"艺术。这项由南京航空航天大学的付塔里安、马德里理工大学的哈维尔·孔德等六位研究者组成的国际团队完成的研究,发表于2025年8月5日,论文标题为《人工智能与艺术中的错误信息:视觉语言模型能否判断画布背后是人手还是机器?》。这篇研究就像一场大规模的"艺术真伪鉴定实验",让我们看到了当今最先进AI模型在艺术领域的真实表现。

艺术品真伪鉴定一直是个让专家都头疼的难题。想象一下,你在古董市场看到一幅声称是梵高真迹的画作,你会怎么判断它的真假?传统上,这需要艺术史专家凭借多年经验,仔细观察画风、笔触、颜料等细节。但现在,越来越多的人开始求助于AI,就像问一个无所不能的电子顾问:"这幅画是谁画的?"

然而,这种信任可能是危险的。研究团队发现,即使是最先进的视觉语言模型,在识别画作真正作者这件事上,表现得就像一个经验不足的新手鉴定师。更令人担忧的是,当AI生成的仿制画作混入其中时,这些"电子专家"往往分不清哪些是人类画家的真迹,哪些是机器制造的赝品。

这项研究的规模堪称前所未有。研究团队收集了近4万幅来自128位艺术家的真实画作,涵盖了从文艺复兴巨匠达芬奇、米开朗琪罗,到现代艺术大师毕加索、梵高等各个时期的代表性画家。然后,他们又使用三种不同的AI图像生成工具,创造了数万幅模仿这些艺术家风格的人工画作。这就像是搭建了一个巨大的"艺术品鉴定考场",让六个不同公司开发的顶尖AI模型来接受测试。

要理解这个实验的设计思路,可以把它想象成一场特殊的"认人游戏"。研究者会拿出一幅画,然后问AI:"这是毕加索画的吗?请回答是或不是。"接着,他们又会拿出同一幅画问:"这是梵高画的吗?"一个真正懂艺术的AI应该能够准确回答:如果这确实是毕加索的作品,第一个问题答"是",第二个问题答"不是"。

然而,实验结果让人大跌眼镜。这些被寄予厚望的AI模型表现得就像是戴着厚厚眼镜却依然看不清楚的近视鉴定师。有些模型过于保守,几乎对所有画作都摇头说"这不是某某画的";有些则过于自信,看什么都觉得像是大师手笔。最优秀的两个模型,谷歌开发的Gemma3-12B和Meta公司的LLaMa3.2-11B,在最理想情况下也只能达到60%左右的准确率,这意味着十次判断中有四次是错的。

更加戏剧性的发现出现在AI生成画作的测试中。当研究者把AI制造的"赝品"拿给这些模型鉴定时,结果因生成工具的不同而大相径庭。面对Stable Diffusion生成的仿制画,大多数AI模型都被"欺骗"了,经常把机器制作的画当成人类艺术家的真迹。但当面对Flux和F-Lite这两个生成工具的作品时,同样的AI模型却能轻松识破,准确率接近100%。这就好比同一个人面对不同质量的假钞,对高仿的分不出真假,对粗制滥造的却一眼就能看穿。

这种差异背后隐藏着一个有趣的现象:AI图像生成技术虽然都在模仿人类艺术家,但每种技术都有自己独特的"指纹"。Stable Diffusion在模仿梵高时,经常会不分青红皂白地在画面中加入《星空》中那种标志性的漩涡图案,即使原作中根本没有这样的元素。这就像一个不太高明的模仿者,只记住了被模仿对象的一个特征,然后到处乱用。

研究团队还发现了一个令人意外的规律:艺术家的知名度与AI识别准确率之间的关系并不像人们想象的那样直接。一些世界级的艺术巨匠,比如梵高和达利,反而在AI识别准确率排行榜上垫底。相反,一些相对不那么家喻户晓的画家,比如日本浮世绘大师歌川国芳,却获得了最高的识别准确率。这种现象的原因可能在于,过于知名的艺术家作品在互联网上有太多变形、复制和戏仿版本,反而让AI模型"看花了眼"。

这项研究的意义远远超出了艺术鉴定本身。在当今这个AI助手无处不在的时代,millions的人每天都在向ChatGPT、Claude等AI模型提问,寻求各种问题的答案。如果有人上传一幅画问"这是谁的作品",AI给出的答案很可能是错误的。更严重的是,这些错误信息可能会大规模传播,因为AI系统也被用来自动标注互联网上的海量图片内容。

设想这样一个场景:一个艺术爱好者在网上看到一幅美丽的画作,用AI工具查询后被告知这是某位大师的作品,于是兴高采烈地分享给朋友们。但实际上,这可能是一幅AI生成的仿制品,或者根本就是另一位艺术家的作品。随着这种错误信息的传播,艺术史知识可能会被扭曲。

研究者为了确保实验的公正性和可重复性,特别设计了一套标准化的评估方法。他们没有让AI自由回答"这是谁画的"这样的开放性问题,因为这样会让答案难以统一评判。取而代之的是,他们采用了简单的是非题形式,这样既便于大规模自动化测试,又能准确衡量AI的判断能力。

整个研究过程就像是在不同的"考场"中进行多轮测试。每个AI模型都要面对相同的题目:真实画作的正确归属测试、真实画作的错误归属排除测试、AI生成画作的识别测试等。通过这种系统性的测试设计,研究者能够全面评估每个模型的优缺点。

从技术层面来看,这些AI模型的失误揭示了当前人工智能技术的一个根本局限:它们虽然能够处理海量信息,但在需要深度艺术理解和历史文化知识的任务上,仍然力不从心。这就像让一个记忆力超强但缺乏美学训练的人去鉴定艺术品,虽然能记住很多画作的表面特征,但缺乏真正的理解和判断力。

研究团队在论文中特别强调了这个问题的紧迫性。随着AI生成艺术作品越来越逼真,而普通人又越来越依赖AI获取信息,错误的艺术归属信息可能会大量涌现。这不仅会误导艺术爱好者,还可能影响艺术市场的正常秩序,甚至扭曲人们对艺术史的认知。

为了解决这个问题,研究者建议,在AI技术达到足够可靠的水平之前,人们应该谨慎对待AI提供的艺术鉴定信息,将其仅作为参考而非权威答案。同时,AI开发公司也应该在其产品中加入适当的警告和免责声明,提醒用户AI在艺术鉴定方面的局限性。

这项研究还为未来的AI发展指明了方向。要让AI真正胜任艺术鉴定工作,不仅需要更大的数据库和更强的计算能力,更需要让AI理解艺术创作的深层规律、历史背景和文化内涵。这可能需要将艺术史、美学理论和文化研究等人文学科知识融入AI的训练过程中。

值得注意的是,研究团队还发现了一些特别有趣的案例。比如,荷兰版画家埃舍尔的作品,AI在识别真迹时表现最差,但在识别AI仿制品时却表现最好。这种反差可能与埃舍尔独特的几何艺术风格有关,这种风格既难以被AI准确理解,又难以被AI完美模仿。

另一个引人深思的发现是,即使是最著名的艺术作品,比如达芬奇的《蒙娜丽莎》或克里姆特的《吻》,也没有被任何一个AI模型正确识别。这就像让世界上最先进的人脸识别系统去辨认最著名的人物照片,结果却完全失败了。这个例子特别能说明当前AI技术在艺术理解方面的不足。

研究的另一个重要贡献是创建了大量的测试数据和评估工具。团队不仅公开了所有的测试数据,还开发了一个交互式网站,让其他研究者和感兴趣的公众都能查看详细的测试结果。这种开放的研究态度大大提高了研究的透明度和可验证性。

从更广阔的角度来看,这项研究反映了AI时代一个普遍存在的问题:技术能力的快速发展与应用场景复杂性之间的不匹配。AI可以在围棋、象棋等规则明确的游戏中战胜人类顶尖高手,也可以在语言翻译、图像识别等有明确标准的任务中表现优异。但在艺术鉴赏这样需要深厚文化底蕴和主观判断的领域,AI仍然是个"门外汉"。

随着AI生成内容在互联网上越来越普遍,如何准确识别和标注这些内容成为了一个重要的社会问题。这项研究为相关领域的发展提供了重要的基础数据和评估标准,也为政策制定者和技术开发者敲响了警钟。

研究团队在论文结尾处指出,解决这个问题需要多方面的努力。技术层面上,需要开发更加精准的AI模型,特别是专门针对艺术领域的模型。教育层面上,需要提高公众对AI局限性的认识,避免盲目依赖。监管层面上,可能需要建立相应的标准和规范,确保AI生成内容得到适当的标识。

说到底,这项研究让我们看到了一个有趣的现象:在AI快速发展的今天,机器在某些看似简单的任务上反而表现不佳。艺术鉴定这件事对人类专家来说已经够有挑战性了,对AI来说更是难上加难。但正是这种挑战,推动着技术的不断进步和人类对AI能力边界的深入理解。

归根结底,这项研究提醒我们,虽然AI在很多领域都展现出了惊人的能力,但在需要深度文化理解和艺术鉴赏的任务上,我们仍然不能过分依赖机器的判断。真正的艺术鉴定,可能永远需要人类的智慧、经验和直觉。在AI技术继续发展的同时,保持对其局限性的清醒认识,才是明智的态度。

这项研究的完整论文可以通过arXiv平台访问,论文编号为arXiv:2508.01408v1,有兴趣深入了解技术细节的读者可以查阅原文。研究团队还建立了专门的网站展示所有实验数据和结果,为这个重要议题的进一步研究奠定了坚实基础。

Q&A

Q1:视觉语言模型在识别真实画作方面表现如何?

A:表现相当有限。即使是最优秀的AI模型,比如谷歌的Gemma3-12B和Meta的LLaMa3.2-11B,准确率也只有60%左右,意味着十次判断中有四次是错的。更令人意外的是,连《蒙娜丽莎》这样的世界名画都无法被正确识别。

Q2:AI能否准确识别AI生成的仿制艺术品?

A:这取决于生成工具的类型。面对Stable Diffusion生成的画作,大多数AI模型都被"欺骗"了,经常误判为真迹。但面对Flux和F-Lite生成的作品,同样的AI模型却能轻松识破,准确率接近100%。这说明不同AI生成工具有各自独特的"指纹"。

Q3:为什么梵高、达利这些著名画家反而识别准确率很低?

A:研究发现知名度与识别准确率并不成正比。过于知名的艺术家作品在互联网上有太多变形、复制和戏仿版本,反而让AI模型"看花了眼"。相比之下,一些相对不那么知名但风格独特的画家,比如歌川国芳,获得了最高的识别准确率。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-