微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

ArtifactsBench：腾讯混元团队重新定义AI代码生成评测标准，让机器写出真正能看能用的界面程序

人工智能视觉交互代码生成自动化评测系统

ArtifactsBench：腾讯混元团队重新定义AI代码生成评测标准，让机器写出真正能看能用的界面程序

作者：科技行者

2025-07-11 10:13

分享至：

腾讯混元团队推出ArtifactsBench，这是全球首个专门评测AI生成视觉交互代码质量的综合基准系统。该系统包含1825个真实应用场景测试任务，创新性地通过实际运行代码、动态截图、多模态AI评委等方式，从功能性、美观度、用户体验等十个维度进行评测。实验结果显示其与人类专家判断一致性超过90%，与业界金标准WebDev Arena的一致性达94.4%，为AI代码生成能力评估树立了新标准。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-11 10:13 • 科技行者

这项由腾讯混元团队进行的开创性研究发表于2025年7月，论文编号为arXiv:2507.04952v1，有兴趣深入了解的读者可以通过https://artifactsbenchmark.github.io/访问完整论文和开源工具。

当下的人工智能正在经历一场巨大变革。以前，我们让AI写代码主要是为了解决数学题或者处理数据，就像让一个聪明的计算器帮我们算账。但现在，AI开始尝试做更复杂的事情——创造出那些我们能够看到、点击、互动的程序界面，比如网页、游戏、数据图表等等。这就好比从让AI写说明书，进步到让AI直接制作一个完整的、可以实际操作的产品。

然而，这里出现了一个严重问题。传统的AI代码评测方法就像只看菜谱是否正确，却从不品尝做出来的菜是否好吃。现有的评测标准主要关注代码是否能跑通、逻辑是否正确，但完全忽略了最终呈现出来的界面是否美观、是否好用、用户体验如何。这就导致了一个尴尬局面：AI可能写出了技术上完美的代码，但做出来的网页却丑得不忍直视，或者按钮根本点不动。

腾讯混元团队意识到了这个关键问题，他们发现整个AI代码生成领域缺少一套能够全面评估"视觉交互效果"的标准。就像评价一家餐厅，你不能只看厨师的刀工技术，还要看端上桌的菜品色香味如何，用餐环境是否舒适。同样道理，评价AI生成的代码，不能只看算法逻辑，还要看最终的视觉效果和用户体验。

于是，他们开发出了ArtifactsBench——这是全世界第一个专门用来评测AI生成"视觉交互代码"质量的综合性基准测试系统。这套系统的革命性在于，它不仅会检查AI写的代码是否正确，更重要的是，它会实际运行这些代码，截取运行时的画面，然后像人类用户一样去评判这些界面是否美观、是否好用。

**一、突破性的评测理念：从纸上谈兵到实战检验**

传统的AI代码评测就像让学生只在纸上画设计图，然后根据图纸的精美程度打分，却从不让他们真正动手搭建实物。ArtifactsBench的创新之处在于，它会让AI真正"动手做事"。

具体来说，当AI提交了一段代码后，ArtifactsBench不会简单地检查语法是否正确，而是会在一个安全的虚拟环境中实际运行这段代码。就像一个严格的产品经理，它会在不同的时间点对运行结果进行"截屏"，记录下界面在各个状态下的表现。比如，如果这是一个游戏界面，它会记录游戏刚启动时的样子、玩家点击按钮后的变化、以及游戏进行过程中的动态效果。

更进一步，这套系统还引入了多模态大语言模型作为"AI评委"。这个AI评委就像一个既懂技术又有审美的专业评审员，它能够同时理解代码逻辑和视觉效果。它会综合分析代码质量、界面美观度、交互流畅性等多个维度，给出详细的评分和改进建议。

这种评测方式的革命性意义在于，它首次实现了对AI代码生成能力的"端到端"评估。不再是单纯的技术测试，而是真正从用户角度出发的综合评判。就好比不再只看演员的台词功底，而是要看整部电影的最终呈现效果。

**二、海量真实场景测试：覆盖生活方方面面的1825个挑战**

为了构建这套评测系统，腾讯混元团队做了一件极其庞大的工程——他们收集并精心设计了1825个不同类型的测试任务。这些任务就像一本超大的"AI作业集"，涵盖了现实生活中几乎所有需要用到视觉界面的场景。

这1825个任务被巧妙地分为九大类别，每一类都代表着不同的应用领域。游戏开发类别包括了从简单的拼图游戏到复杂的策略游戏，就像从儿童积木到专业建筑模型的区别。网页应用类别涵盖了各种常见的网站功能，比如在线购物、社交平台、教育网站等，这些都是我们日常上网时经常接触的场景。

管理系统类别则涉及各种办公和管理软件界面，比如文件管理器、数据库管理工具等，这些是企业和机构日常运营必不可少的工具。多媒体编辑类别包含了图片处理、音频编辑、视频制作等创意工作相关的界面设计。数据科学类别专注于各种数据可视化界面，比如图表制作、统计分析界面等。

模拟仿真类别涉及各种物理模拟和数学建模的可视化界面，这类应用在科研和工程领域应用广泛。SVG图形生成类别专门测试AI生成矢量图形的能力，这在图标设计、插画制作等领域很重要。快速工具类别包含各种实用小工具的界面设计，比如计算器、单位转换器等日常工具。

更重要的是，研究团队还根据难度将所有任务分为三个等级：简单、中等、困难。这种分级就像驾驶考试中的科目一、科目二、科目三，可以系统性地测试AI在不同复杂度下的表现能力。简单任务可能是制作一个基本的按钮界面，中等任务可能是开发一个具有多个功能的小应用，而困难任务则可能要求创建复杂的交互式可视化系统。

为了确保这些测试任务的质量和实用性，研究团队采用了多阶段的严格筛选流程。他们首先从专家社区、开源数据集、技术博客等多个渠道收集原始素材，然后通过人工审核和AI辅助的方式对这些素材进行精炼和改进。每个任务都经过了多轮优化，确保既有挑战性又具有现实意义。

**三、创新的多维度评分体系：像专业评委一样严格打分**

传统的代码评测通常只给出"对"或"错"的简单判断，就像只会说"及格"或"不及格"的老师。但ArtifactsBench开发了一套极其精细的多维度评分体系，就像奥运会体操比赛中的评分系统，会从多个角度对选手的表现进行详细评判。

这套评分系统包含十个不同的评估维度，每个维度都对应着实际使用中的重要方面。功能性维度检查AI生成的界面是否实现了预期的所有功能，就像检查一辆汽车的各个部件是否都能正常工作。稳定性维度评估界面在各种操作下是否稳定可靠，不会出现崩溃或错误，这就像测试手机在各种使用场景下是否会死机。

工程实践维度关注代码的专业性和可维护性，比如代码结构是否清晰、命名是否规范等，这就像评判一栋建筑的施工质量是否达标。功能冗余维度检查是否存在不必要的功能或代码，避免画蛇添足的情况。创新性维度奖励那些具有独特创意和巧妙设计的作品，鼓励AI不仅要完成任务，还要有所突破。

美学质量维度评估界面的视觉设计是否美观、色彩搭配是否和谐、布局是否合理等，这就像评判一幅画作的艺术价值。用户体验维度关注界面是否易于使用、操作是否直观、反馈是否及时等，这直接影响用户的使用感受。

特别值得一提的是，这套评分系统会根据任务的具体要求生成定制化的检查清单。就像不同类型的比赛有不同的评分标准，网页设计任务和游戏开发任务会有各自专门的评估重点。这种个性化的评分方式确保了评估结果的准确性和公正性。

为了保证评分的客观性和一致性，研究团队还开发了详细的评分规则和标准。每个维度都有明确的打分依据和扣分标准，就像考试中的标准答案和评分细则。这样可以最大程度地减少主观因素的影响，确保不同的AI模型在同样的标准下接受评估。

**四、自动化评测流程：让机器成为公正的裁判员**

ArtifactsBench最令人印象深刻的创新之一，就是实现了完全自动化的评测流程。传统的界面质量评估往往需要大量人工参与，就像每次考试都需要老师一对一地看学生答题。但这套系统创造性地让AI成为了AI的评判者，实现了高效、客观、可重复的自动化评测。

整个自动化流程就像一条高度精密的生产线。首先，系统会从AI提交的响应中提取出可执行的代码，这就像从作文中找出关键段落。然后，这些代码会在一个专门设计的安全沙盒环境中运行，就像在一个隔离的实验室里进行测试，确保不会对系统造成任何损害。

接下来是最关键的动态监测环节。系统会使用自动化工具对运行中的程序进行实时监控，在预设的时间点自动截取界面截图。这就像给电影拍摄花絮照片，记录下程序在不同状态下的表现。这种时序截图技术能够捕捉到界面的动态变化过程，比如按钮被点击时的反馈效果、动画的播放过程、数据的实时更新等。

最后，多模态大语言模型会作为"AI评委"登场。这个AI评委同时具备理解代码和分析视觉内容的能力，就像一个既懂技术又有艺术修养的专家。它会综合分析代码质量、界面截图和预设的评估清单，然后给出详细的评分和评价。

这种自动化评测的最大优势是效率和一致性。人工评测可能会因为评审员的个人偏好、疲劳程度、时间压力等因素产生差异，但AI评委能够始终保持相同的标准和严格程度。同时，自动化流程可以同时处理大量的测试任务，大大提高了评测效率。

为了验证这套自动化评测系统的可靠性，研究团队进行了大量的对比验证实验。他们让人类专家和AI评委对同一批测试结果进行评分，结果发现两者的一致性达到了90%以上。这意味着AI评委的判断已经非常接近人类专家的水平，可以作为可靠的评测标准。

**五、震撼的实验结果：重新绘制AI能力版图**

当这套全新的评测系统正式投入使用时，研究团队对超过30个当前最先进的AI模型进行了全面测试，结果揭示了许多令人意外的发现，彻底颠覆了人们对AI代码生成能力的传统认知。

最引人注目的发现是，在视觉交互代码生成这个综合性任务中，通用型AI模型往往表现得比专门的代码生成模型更出色。这就像在制作一道复杂菜肴时，全才厨师可能比专业的切菜师傅做得更好。比如，通用的Qwen2.5-Instruct模型在综合评分上超越了专门针对代码优化的Qwen-2.5-coder模型，甚至在某些维度上还超过了专门处理视觉任务的Qwen2.5-VL模型。

这个发现背后的原因很有趣。创造优秀的视觉交互界面不仅需要扎实的编程技能，还需要设计美学、用户体验、创意思维等多方面的综合能力。通用型模型在训练过程中接触了更加多样化的内容，包括设计理论、美学原则、用户心理学等，这些知识在创建视觉界面时发挥了重要作用。相比之下，专门的代码模型虽然在纯技术实现上可能更强，但在创意设计和用户体验方面可能有所欠缺。

实验结果还显示，模型的规模和性能之间存在明显的正相关关系。在同一个模型系列中，参数量更大的版本通常能取得更好的成绩。比如，Qwen2.5系列中，从7B版本到72B版本，性能呈现出明显的阶梯式提升。这说明处理复杂的视觉交互任务确实需要更强大的计算能力和更丰富的知识储备。

另一个有趣的发现是，那些具有"思考链"能力的模型——也就是能够进行多步骤推理的模型——在这项测试中表现特别出色。这类模型在生成代码之前会进行更详细的分析和规划，就像建筑师在动工前会仔细设计图纸一样。这种深度思考的能力在处理复杂的视觉界面设计时显得尤为重要。

在不同类型的任务中，AI模型展现出了明显的能力差异。相对来说，静态视觉任务（比如制作简单的图标或布局）对大多数模型来说比较容易应对。但涉及复杂交互和动态效果的任务就困难得多，即使是最优秀的模型在这些高难度任务上的得分也很难超过50分（满分100分）。

特别值得关注的是，在"管理系统"类别的任务中，几乎所有模型的表现都相对较弱。这类任务通常需要处理复杂的数据关系、多层级的用户权限、复杂的业务逻辑等，这对AI来说是一个巨大的挑战。这也提示了未来AI发展的一个重要方向——如何更好地理解和实现复杂的业务需求。

**六、权威性验证：与人类专家判断高度一致**

为了证明ArtifactsBench评测结果的可信度，研究团队进行了一系列严格的验证实验，结果令人信服地证明了这套自动化评测系统的准确性和权威性。

最重要的验证来自与WebDev Arena的对比。WebDev Arena是目前业界公认的网页开发能力评测金标准，它通过大规模的人类投票来排名不同AI模型的表现，就像选举中的民意调查一样具有权威性。当研究团队将ArtifactsBench的评测结果与WebDev Arena的排名进行对比时，发现两者的一致性达到了惊人的94.4%。这意味着ArtifactsBench的自动化评测结果与人类用户的真实感受高度吻合。

相比之下，之前的一些自动化评测方法与WebDev Arena的一致性只有69.4%左右，这巨大的差距凸显了ArtifactsBench的革命性进步。这就好比从一个经常误诊的普通医生进步到了与顶级专家诊断结果高度一致的AI医生。

为了进一步验证系统的可靠性，研究团队还专门组织了人类专家评测实验。他们邀请了多名具有丰富前端开发经验的工程师，对280个随机选取的测试样本进行独立评分。这些专家在不知道AI评测结果的情况下，按照相同的评分标准对这些样本进行评估。

实验采用了严格的双盲设计，确保评测过程的客观性。专家们不知道哪些代码是由哪个AI模型生成的，所有样本都以随机顺序呈现。最终的人类专家评分取所有评审员评分的中位数，以减少个体差异的影响。

结果显示，AI评委与人类专家的评分一致性超过了90%。更重要的是，在那些人类专家和AI评委出现分歧的案例中，进一步分析发现，AI评委往往能够发现一些人类专家可能忽略的技术细节。比如，某个代码在表面上看起来工作正常，但实际上存在性能问题或潜在的安全隐患，这些问题AI评委能够通过代码分析发现，但可能不会立即影响人类专家的直观感受。

研究团队还进行了一项有趣的对比实验，测试了不同评测方式的效果。他们发现，仅仅依靠代码分析而不看实际运行效果的评测方式，准确率明显较低。而只看运行截图不分析代码的评测方式也存在局限性。只有将代码分析和视觉效果评估相结合，才能达到最高的评测准确度。这进一步证明了ArtifactsBench多维度综合评测方法的科学性。

**七、深度分析揭示的行业洞察**

通过大规模的测试数据分析，研究团队发现了许多关于当前AI代码生成能力的深层规律，这些发现为整个行业的发展提供了重要的指导方向。

最重要的发现之一是，AI模型在视觉相关评分和代码质量评分之间存在强烈的正相关关系。简单来说，那些能够生成美观界面的AI模型，通常在代码质量方面也表现出色，反之亦然。这说明优秀的视觉界面设计能力和扎实的编程功底是相辅相成的，不是孤立的技能。

这个发现对AI训练和评估具有重要启示。传统的AI训练往往将代码生成和视觉设计视为两个独立的领域，分别进行优化。但ArtifactsBench的结果表明，这两种能力实际上是深度融合的，应该进行统一的训练和评估。

另一个重要发现是关于任务难度的分层效应。研究团队将所有测试任务分为简单、中等、困难三个等级，结果发现即使是最优秀的AI模型，在困难任务上的表现也很难超过50分。这说明当前的AI技术在处理复杂视觉交互任务方面还有很大的提升空间。

特别值得注意的是，不同难度等级的任务中，AI模型的相对排名基本保持一致。这意味着ArtifactsBench不仅能够准确评估AI的绝对能力水平，还能够稳定地区分不同模型之间的能力差异，具有很好的区分度和可靠性。

在具体的任务类别分析中，研究团队发现了AI模型能力的明显短板。在需要处理复杂业务逻辑的管理系统类任务中，几乎所有模型的表现都相对较弱。这类任务往往涉及多步骤的用户操作流程、复杂的数据关系、严格的权限控制等，这些都是当前AI技术的薄弱环节。

相比之下，AI模型在游戏开发和数据可视化类任务中表现相对较好。这可能是因为这些领域的设计模式相对固定，网络上也有大量的开源代码和教程资源，AI模型在训练过程中接触过大量相关内容。

研究还发现，那些支持长文本输入的模型在复杂任务中表现更好。这是因为复杂的视觉界面往往需要详细的需求描述和设计规范，能够处理更长输入的模型可以更好地理解这些复杂要求。

**八、对未来发展的深远影响**

ArtifactsBench的问世不仅仅是一个新的评测工具，更是整个AI代码生成领域发展方向的重要指引。它揭示了当前技术的局限性，同时也为未来的改进提供了清晰的路线图。

从技术发展角度来看，这项研究明确指出了AI代码生成的下一个重要发展方向：从单纯的功能实现转向用户体验导向的全栈开发。未来的AI不仅要能写出正确的代码，还要能够创造出真正优秀的用户界面和交互体验。这就像从培养只会解题的学生，转向培养既有扎实基础又有创新思维的综合型人才。

对于AI模型的训练方式，这项研究也提供了重要启示。传统的代码生成训练主要关注算法逻辑和语法正确性，但ArtifactsBench的结果表明，未来的训练还需要加入大量的设计知识、用户体验原则、美学理论等内容。这种多学科融合的训练方式将成为新的趋势。

从实际应用角度来说，ArtifactsBench为企业和开发者提供了一个强有力的工具来评估和选择AI代码生成服务。过去，选择AI工具主要依靠主观体验或简单的功能测试，现在有了客观、全面的评估标准。这就像从凭感觉买车转向有了详细的性能测试报告。

这套评测系统的开源特性也具有重要意义。研究团队将整个评测框架、数据集和基准结果都公开发布，这意味着全球的研究者和开发者都可以使用这套标准来改进自己的AI模型。这种开放合作的方式将大大加速整个领域的发展进步。

对于教育领域，ArtifactsBench也提供了新的可能性。计算机科学教育可以利用这套系统来训练学生的综合开发能力，不仅要求掌握编程技术，还要具备设计思维和用户体验意识。这种综合性的能力培养更符合现代软件开发的实际需求。

从更宏观的角度来看，这项研究代表了AI评测方法学的一次重要进步。它从单一维度的评测转向多维度综合评估，从静态分析转向动态验证，从技术指标转向用户体验。这种评测理念的转变将影响到整个AI领域的发展方向。

**九、技术挑战与未来展望**

虽然ArtifactsBench已经取得了显著的成果，但研究团队也坦诚地指出了当前技术的局限性和未来需要改进的方向。

当前最主要的技术挑战是对复杂交互行为的评估。现在的系统主要通过定时截图的方式来捕捉界面的动态变化，这种方法对于评估基本的交互效果是有效的，但对于那些需要长时间、多步骤操作的复杂交互场景，可能无法完全捕捉到所有的细节。比如，一个复杂的在线表单可能需要用户进行多次输入、选择、确认等操作，每一步都可能影响后续的界面状态，当前的评测方法可能难以全面覆盖这些复杂的交互路径。

另一个重要挑战是评测的可扩展性。随着AI生成的界面越来越复杂，评测任务的设计和维护也变得更加困难。每个新的应用领域可能都需要专门的评测标准和检查清单，这对评测系统的灵活性和适应性提出了更高要求。

为了应对这些挑战，研究团队提出了几个重要的发展方向。首先是开发更先进的动态交互分析技术。未来的系统可能会采用更智能的方式来模拟用户操作，比如自动识别界面中的可交互元素，然后系统性地测试各种操作路径。这就像让一个智能机器人真正地使用这些界面，从而发现可能存在的问题。

其次是向代理式评测方向发展。当前的评测主要关注单次代码生成的结果，但实际的软件开发往往是一个迭代改进的过程。未来的评测系统可能会模拟这种迭代开发流程，让AI根据反馈不断改进自己的作品，直到达到满意的效果。这种评测方式更接近真实的开发场景。

研究团队还计划扩展评测的覆盖范围。目前的测试主要集中在网页和简单应用程序上，未来可能会扩展到移动应用、桌面软件、甚至虚拟现实和增强现实应用。每个新的平台都有自己独特的设计规范和用户习惯，这将进一步丰富评测系统的内容。

在评测方法学方面，研究团队也在探索更多元化的评估维度。比如，加入可访问性评估，确保AI生成的界面对残障用户友好；加入跨文化适应性评估，测试界面在不同文化背景下的适用性；加入性能优化评估，确保界面在各种设备上都能流畅运行。

长远来看，ArtifactsBench代表的不仅是一种新的评测工具，更是AI与人类协作方式的一次重要探索。它展示了如何让AI更好地理解和满足人类的需求，创造出真正有用、美观、易用的软件产品。这种技术方向的意义远远超出了代码生成本身，它为AI在创意设计、用户体验、人机交互等领域的应用开辟了新的可能性。

说到底，ArtifactsBench的最大价值在于它重新定义了我们对AI能力的评估标准。它告诉我们，真正优秀的AI不应该只是一个高效的代码生成器，而应该是一个能够理解用户需求、具有设计美感、关注用户体验的智能助手。这种更高的标准将推动整个AI行业向着更加人性化、更加实用的方向发展。随着这套评测标准的普及和应用，我们有理由相信，未来的AI将能够创造出更多令人惊艳的数字产品，真正改变我们与技术互动的方式。这项由腾讯混元团队开创的研究工作，无疑将在AI发展史上留下重要的一笔。

Q&A

Q1：ArtifactsBench是什么？它与传统代码评测有什么区别？ A：ArtifactsBench是腾讯混元团队开发的首个专门评测AI生成视觉交互代码质量的系统。与传统只检查代码逻辑的评测不同，它会实际运行代码、截取界面画面，然后像人类用户一样评判界面是否美观好用，评估维度包括功能性、美观度、用户体验等十个方面。

Q2：为什么通用AI模型在视觉代码生成上比专业代码模型表现更好？ A：创造优秀的视觉界面不仅需要编程技能，还需要设计美学、用户体验、创意思维等综合能力。通用模型在训练时接触了更多样化的内容，包括设计理论、美学原则等，这些知识在创建界面时发挥重要作用，而专业代码模型虽然技术强但在创意设计方面可能有所欠缺。

Q3：ArtifactsBench的评测结果有多可靠？ A：非常可靠。研究显示ArtifactsBench的自动化评测结果与WebDev Arena（业界金标准）的一致性达到94.4%，与人类专家评分的一致性超过90%。这意味着它的判断已经非常接近人类专家水平，可以作为权威的评测标准使用。

人工智能视觉交互代码生成自动化评测系统

分享至