艺术品的归类与分析向来以困难著称,只有极少数专业人士拥有发言权,人工智能在这一领域的应用更是长期空白。但最近,已经有多个研究小组做出尝试,希望将机器学习与大型艺术品数据库相结合,以有意义的方式对作品做出分类与描述。
首先,来自杭州的浙江工业大学研究人员对多种神经网络做出比较,希望了解它们在艺术品归类方面表现如何。他们使用来自WikiArt及其他数字馆藏的图像进行神经网络训练,帮助模型了解特定艺术流派所对应的画作拥有哪些共性。以此为基础,他们进一步尝试使用不同神经网络模型识别其他画作的艺术风格。
很明显,这项工作即使对人类来说都颇为困难。一部分画作在绘制方法上有着非常强烈的风格与流派特征,相对更容易识别。对于神经网络来说,找出归属于立体主义流派的作品并不是问题;真正的问题在于,某些流派之间非常相似,甚至在绘画过程中的呈现点位也高度一致,导致程序很难做出准确判断。
▲ 在德国柏林一场展览中亮相的文森特·梵高的《星空》。人工智能也在研究中使用这幅作品尝试进行艺术流派归类
此外,艺术归类神经网络还面临着很多完全影响不到人类的微小细节,例如,区分城市景观与自然景观间的差异。人类无需任何思考,就能指明建筑物与自然风光间的区别;但在计算机看来,二者似乎都代表着典型的“户外”元素,而界定户外的关键特征“云”与“天”并不能帮助模型真正看懂画面内容。
对于人类艺术爱好者,了解一件艺术品属于哪种流派或者类别,属于一种相对直接而且客观的判断。与神经网络类似,我们可以观看大量艺术品并从中寻找同流派作品的共通模式。但相较于人类,计算机却很难更进一步:形成对于艺术的自主观点,并用言语分享观看时产生的感受。但到底只是更难,还是根本不可能?
人工智能的根基源自训练数据。因此,要教会AI形成关于艺术风格的观点与情感陈述,我们还需要投入大量人工,建立起关于不同艺术品的描述内容。斯坦福大学、巴黎综合理工学院以及阿卡杜拉国王科技大学的研究人员们决定做出尝试,他们创建起ArtEmis数据集,其中包含超过40万项情感属性以及整理自WikiArt的超过8万张画作的描述信息。
为了创建ArtEmis数据集,研究团队要求志愿者们分享自己对于艺术品的直观感受,并用语言做出评述。可以想见,人们对于相同作品往往有着截然不同的感受。您眼中安详宁静的田野画面,在我眼中可能压抑而阴郁。实际上,这种对同一幅画作做出正面与负面感受的情况非常普遍,在ArtEmis数据库的全部画作中占比高达61%。
接下来就看AI的表现了。在接受ArtEmis数据集的训练之后,各AI系统开始尝试为给定的艺术品生成标题。其中一些结果颇具说服力,当然也有不少完全是驴唇不对马嘴。例如,AI对伦勃朗的画作《被斩首的施洗约翰》做出的描述包括“女性看起来很开心”及“中间位的男性看起来很痛苦”。结合画面中的场景,这很明显是在胡说八道。
▲ 某AI算法会根据从画面中识别出的人类情感生成图像描述。此算法在描述伦勃朗的《被斩首的施洗约翰》时提到“女性看起来很开心”、“中间位的男性看起来很痛苦”
但好消息是,计算机生成的描述中约有半数通过了图灵测试,意味着AI确实可以学会生成令人信服的原创艺术品描述。但目前的情况还远不够完美,毕竟神经网络连准确判断画中是自然风光还是城市景观都有困难。
必须承认,不少艺术品本身天然难以归类,人们对绘画的观点也具有很强的主观性,这就导致人工智能更难理解我们的归类与描述方式。但此次最新研究表明,计算机在某些任务的处理方面一直在进步。也许与人类的艺术品归类与描述能力仍然无可匹敌,但AI程序已经迈出了追赶的脚步!
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。