在人工智能飞速发展的今天,AI已经能够读懂图片、理解语言,甚至与人对话。但如果让AI看着一张照片写诗,或者根据图片设计海报文案,它们的表现又如何呢?这个问题听起来简单,实际上却涉及了AI最复杂的能力之一——创造力。最近,由上海AI实验室联合浙江大学、同济大学、南京大学等多所知名高校组成的研究团队,发表了一项关于多模态大语言模型(MLLMs)创意能力评估的重磅研究。这项名为"Creation-MMBench"的研究成果发表于2025年3月,感兴趣的读者可以通过GitHub平台(https://github.com/opencompass/Creation-MMBench)获取完整的研究数据和代码。
从传统意义上讲,创造力一直被视为人类独有的天赋。然而,随着GPT-4、Gemini等大型语言模型的涌现,AI在创作诗歌、撰写故事、生成创意文案等方面表现出了令人惊叹的能力。但这些AI模型大多只能处理文字,无法直接"看懂"图片并基于视觉内容进行创作。而新一代的多模态AI模型,比如GPT-4V、Claude等,已经能够同时理解文字和图像。那么,当这些"多才多艺"的AI面对需要视觉理解与创意表达相结合的任务时,它们的表现到底如何呢?
研究团队发现了一个令人意外的现象:尽管现有的AI评估基准测试已经非常丰富,涵盖了数学推理、科学知识、逻辑分析等各个方面,但在创意能力评估这个领域却存在着巨大的空白。这就好比我们有各种标准化考试来测试学生的数学、语文能力,却没有专门的测试来评估他们的艺术创作天赋。为了填补这个空白,研究团队开发了Creation-MMBench——一个专门用于评估多模态AI创意能力的全新基准测试。
这个测试系统的设计理念源于心理学中著名的"智力三元理论"。该理论将人类智力分为三个主要部分:分析智力(处理信息和解决问题的能力)、实用智力(在现实环境中应用知识的能力)和创造智力(产生新颖且合适解决方案的能力)。现有的AI测试主要集中在前两种智力上,而对创造智力的评估严重不足。研究团队认为,这种不平衡的评估方式无法全面反映AI的真实能力水平,特别是在日常生活中需要创意思维的场景下。
Creation-MMBench包含了765个精心设计的测试案例,覆盖51种不同类型的创意任务。这些任务被巧妙地分为四大类别。首先是"文学写作"类别,就像让AI当一回诗人或小说家,要求它们根据图片内容创作诗歌、编写故事或者设计对话场景。比如,给AI展示一张黄昏时分的湖边风景照,要求它写一首表达宁静与思考的诗歌。
第二类是"日常功能性写作",这类任务更贴近普通人的生活需求。比如让AI看着一张美食照片撰写社交媒体文案,或者根据获奖证书的图片写一段朋友圈分享文字。这类任务考验的是AI能否将视觉信息转化为实用的日常表达。
第三类是"专业功能性写作",这要求AI具备特定领域的专业知识。例如,让AI扮演室内设计师的角色,根据房屋户型图分析空间布局的优缺点并提出改进建议;或者让AI作为营养师,根据一道菜的图片分析其营养价值并给出饮食建议。
最后一类是"创意多模态理解",这类任务最为复杂,要求AI不仅要理解图片内容,还要挖掘其背后的深层含义。比如分析一张广告海报的创意策略,或者解释一个网络表情包的幽默点在哪里。
为了确保测试的公正性和准确性,研究团队没有采用传统的标准答案对比方式,而是开发了一套基于AI评判的评分系统。他们让GPT-4o充当"评委",根据详细的评分标准对AI生成的创意作品进行评判。这种方法类似于让经验丰富的老师来评阅学生的作文——不是简单地对答案,而是从创意性、逻辑性、语言表达等多个维度进行综合评价。
研究团队还特别设计了两套评价指标。一套是"视觉事实准确性评分",用来检验AI是否准确理解了图片内容。另一套是"奖励评分",通过将待测试的AI模型与基准模型(GPT-4o)进行对比,评估其创意表现的相对水平。这就好比在钢琴比赛中,不仅要看选手是否弹对了音符,还要评判其演奏的艺术表现力。
通过对20个主流多模态AI模型的测试,研究团队得出了一些令人深思的结论。在商业化的AI模型中,Google的Gemini-2.0-Pro表现最为出色,与OpenAI的GPT-4o水平相当,特别是在日常功能性写作方面表现突出。这两个模型就像是班级里的优等生,在各种创意任务中都显示出了较强的综合能力。
然而,开源AI模型的表现则相对逊色。即使是表现最好的开源模型Qwen2.5-VL-72B,其创意能力也明显落后于顶级商业模型。这种差距就像是校队选手与职业选手之间的区别——虽然都具备基本技能,但在复杂任务的处理上还有明显差距。
更有趣的是,研究团队发现了一个意想不到的现象:当AI模型经过视觉训练以获得"看图"能力后,它们原本的文字创作能力竟然会有所下降。这种现象被称为"视觉指令调优的负面影响"。为了验证这一发现,研究团队创建了Creation-MMBench-TO,这是一个纯文字版本的测试,其中图片被替换为详细的文字描述。
结果显示,当移除视觉输入改用文字描述时,大部分多模态AI模型的创意表现都有所提升。这个发现类似于发现某些学生在听课时比看书学得更好——不同的信息输入方式会影响AI的创意表达能力。这一现象提醒我们,在追求AI多功能化的同时,也要关注不同能力之间可能存在的相互影响。
在不同类型的创意任务中,AI模型的表现也呈现出明显的差异。专业功能性写作任务对所有模型来说都是最大的挑战,这类任务不仅需要创意思维,还需要深厚的专业知识储备。相比之下,日常功能性写作任务的表现最好,这可能是因为这类任务更接近AI在训练过程中接触到的常见文本类型。
为了验证测试结果的可靠性,研究团队还进行了人类评估实验。他们邀请志愿者对部分AI生成的创意作品进行评判,并将结果与AI评委的判断进行对比。结果显示,GPT-4o作为评委的判断与人类评价者的意见具有较高的一致性,这证明了评估方法的有效性。
这项研究的价值不仅在于揭示了当前AI模型在创意能力方面的现状,更重要的是为未来的AI发展指明了方向。研究结果表明,虽然AI在某些创意任务上已经表现不错,但在需要深度专业知识支撑的复杂创意任务中,还有很大的提升空间。这就好比AI现在能够写出不错的日记和简单故事,但要创作出深刻的学术论文或专业技术文档,还需要进一步的发展。
研究团队还发现,当前的开源AI模型与商业模型之间存在显著的创意能力差距。这种差距不仅体现在技术实现上,也反映了数据资源、训练方法和计算能力等方面的综合差异。这个发现对AI技术的普及和应用具有重要意义——它提醒我们,真正高质量的AI创意能力可能仍然掌握在少数技术领先的公司手中。
对于普通用户而言,这项研究的结果具有很强的实用价值。当我们在选择AI工具来协助创意工作时,可以根据具体需求来选择合适的模型。如果需要处理日常的文案写作或社交媒体内容创作,目前的主流AI模型已经能够提供相当不错的帮助。但如果涉及专业领域的创意工作,比如市场营销策略设计或技术文档撰写,可能还需要更多的人工干预和专业指导。
展望未来,这项研究为AI创意能力的发展提供了重要的参考基准。随着技术的不断进步,我们可以期待AI在创意领域的表现会越来越好。但同时也要认识到,创意不仅仅是技术问题,它还涉及文化背景、情感表达、审美判断等复杂因素。真正的创意AI不仅要学会模仿人类的创作模式,更要发展出自己独特的"创意风格"。
说到底,这项研究为我们揭示了AI创意能力发展的现状和挑战。虽然AI在某些创意任务上已经展现出令人印象深刻的能力,但距离真正的创意专家还有一段路要走。归根结底,AI的创意能力正在快速发展,但在复杂的专业创意任务中,人类的经验、直觉和专业判断依然不可替代。这个发现既让我们对AI的潜力感到兴奋,也提醒我们在享受AI便利的同时,不要忽视人类创意思维的独特价值。对于有兴趣深入了解这项研究的读者,可以访问GitHub平台获取完整的研究数据和评估代码,亲自体验这套创意能力测试系统。
Q&A
Q1:Creation-MMBench是什么?它有什么特别之处? A:Creation-MMBench是专门评估多模态AI创意能力的测试系统,包含765个创意任务。它的特别之处在于这是首个专门测试AI"看图创作"能力的基准,填补了AI创意评估的空白,就像为AI设计的"创意高考"。
Q2:为什么AI学会看图后文字创作能力会下降? A:研究发现这种现象叫"视觉指令调优的负面影响"。当AI同时学习处理图像和文字时,两种能力之间会产生竞争,就像一个人同时学多种技能时可能会相互干扰,需要在不同能力间找到平衡点。
Q3:普通人如何利用这项研究成果选择AI工具? A:根据研究结果,如果你需要日常文案写作或社交媒体内容,主流AI已经很好用;但如果涉及专业领域创意工作,最好选择顶级商业模型如GPT-4或Gemini,并做好人工审核和调整的准备。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。