微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

代码评测界的新突破：让AI当场运行代码再决定谁更厉害

人工智能代码生成实验验证

代码评测界的新突破：让AI当场运行代码再决定谁更厉害

作者：科技行者

2025-11-14 10:25

分享至：

蒙纳士大学郑特雨教授团队发布的BIGCODEARENA研究，通过让AI代码在真实环境中运行来评测编程能力，而非仅看代码文本。研究收集了超过14000次用户交互数据，发现执行反馈显著提高评测准确性。结果显示OpenAI的o3-mini等模型表现最佳，该平台已开源供开发者使用。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-11-14 10:25 • 科技行者

这项由蒙纳士大学的郑特雨教授领导的国际研究团队发表于2025年1月的重要研究成果，汇聚了来自全球28个顶尖机构的70多位研究者的智慧。论文标题为"BIGCODEARENA: UNVEILING MORE RELIABLE HUMAN PREFERENCES IN CODE GENERATION VIA EXECUTION"，感兴趣的读者可以通过arXiv:2510.08697v1查询完整论文。这项研究彻底改变了我们评价AI编程能力的方式，就像从纸上谈兵变成了实战演练。

想象一下你在面试两个程序员。传统的方法就像只看他们写在纸上的代码，然后猜测哪个更好。但这项研究做了一件更聪明的事情：让代码真正跑起来，看看实际效果如何。这就是BIGCODEARENA项目的核心理念——通过实际运行代码来评判AI的编程能力，而不是仅仅看代码表面写得如何。

研究团队发现了一个有趣的现象：当人们只看代码文本时，很难判断哪段代码更好。但是当代码真正运行起来，显示出实际效果时，优劣立判。就好比两个厨师都声称自己做的菜更美味，但真正品尝后才知道高下。这个发现推动研究团队建立了一个全新的代码评测平台，让AI生成的代码在真实环境中运行，然后让用户体验实际效果来做判断。

经过五个多月的数据收集，研究团队从全球500多个不同的用户那里收集了超过14000次对话记录，涵盖了Python、JavaScript、HTML等10种编程语言和React、Vue、PyGame等8种运行环境。更重要的是，他们从中筛选出了4700多次高质量的对话，每次对话都包含了人类的真实偏好选择。这些数据就像是一个庞大的"味觉测试"记录，告诉我们在真实使用场景中，哪些AI模型生成的代码更受欢迎。

研究结果显示，目前最强的代码生成模型是OpenAI的o3-mini和o1-mini，它们在各种编程任务中都表现出色。紧随其后的是Anthropic的Claude-3.5-Sonnet。有趣的是，当代码能够实际运行并展示效果时，人们对代码质量的判断变得更加准确和一致。这就像是从看菜谱变成了真正品尝菜品——判断标准变得更加可靠。

一、传统代码评测的困境与新思路

传统的AI代码评测方式就像是让人们仅仅通过看食谱来判断哪道菜更好吃。研究团队发现，这种方式存在严重的问题。当评测人员面对两段看似都正确的代码时，往往很难做出准确判断。特别是对于复杂的编程任务，仅凭阅读代码文本来评判质量，就像是试图通过看建筑图纸来判断房子住起来是否舒适一样不可靠。

更糟糕的是，即使是有经验的程序员，在不运行代码的情况下也经常会误判。研究表明，人们往往会被代码的表面复杂度或优雅程度所迷惑，而忽略了代码的实际功能性。这就好比一个装修精美但漏水的房子，从外观看起来很棒，但实际住起来却问题重重。

BIGCODEARENA的创新之处在于将代码评测从"纸上谈兵"转变为"实战演练"。这个平台不仅让AI生成代码，还要让代码在真实环境中运行，产生可见的结果。用户可以直接与生成的网页、游戏或应用程序进行交互，然后基于实际体验来判断哪个AI表现更好。这种方法就像是从看汽车广告变成了试驾——判断标准变得更加真实可靠。

平台支持多种运行环境，从简单的网页设计到复杂的游戏开发，从数据可视化到创意编程。每当用户提出一个编程需求时，平台会让两个不同的AI模型同时生成代码，然后在沙箱环境中运行这些代码，最终展示实际效果供用户比较。这种做法确保了评测的公平性和实用性。

二、构建真实世界的代码竞技场

BIGCODEARENA就像是为AI模型搭建了一个真实的编程竞技场。在这个竞技场里，AI不仅要写出代码，还要让代码真正运行起来，产生实际效果。研究团队精心设计了这个平台的每一个细节，确保评测过程既公平又贴近真实使用场景。

平台的核心设计理念是"所见即所得"。当用户提出一个编程需求，比如"制作一个响应式的图片展示网站"时，系统会同时让两个AI模型生成代码，然后在隔离的运行环境中执行这些代码。用户看到的不是冗长的代码文本，而是两个实际运行的网站。这种直观的比较方式让用户能够基于真实体验做出判断，就像是在两家餐厅之间做选择——不是看菜单，而是品尝实际的菜品。

为了确保评测的公平性，研究团队实施了严格的同步机制。两个AI模型的代码必须同时生成完毕并运行成功后，才会同时展示给用户。这样避免了因为响应速度差异而产生的偏见。同时，平台采用了匿名评测的方式，用户在做出选择之前不知道代码是由哪个AI模型生成的，只有在投票后才会揭晓"庐山真面目"。

平台还支持多轮对话和迭代改进。用户可以提出修改建议，AI模型会根据反馈调整代码，然后再次运行展示效果。这种互动式的评测方式更贴近真实的软件开发场景，在这种场景中，开发者需要根据用户反馈不断优化产品。通过这种方式，研究团队能够更全面地评估AI模型在复杂、多轮交互中的表现能力。

三、十种语言八种环境的全方位测试

BIGCODEARENA支持的编程语言和运行环境就像是一个多元化的测试实验室。研究团队精心选择了10种最常用的编程语言，包括Python、JavaScript、TypeScript、HTML、C、C++、Java、Go、Rust和Markdown。这些语言涵盖了从网页开发到系统编程，从数据科学到游戏开发的各个领域，确保测试的全面性。

在运行环境方面，平台提供了8种不同的执行环境，每种都针对特定的应用场景。React环境专门用于现代网页应用开发，Vue环境支持另一种流行的前端框架，而Core Web环境则提供了最基础的HTML、CSS和JavaScript运行支持。对于数据科学和机器学习应用，平台提供了Streamlit和Gradio环境，让AI可以快速创建交互式的数据分析应用。PyGame环境专门用于游戏开发，而Mermaid环境则支持图表和流程图的生成。

每个运行环境都像是一个专门的工作坊，配备了相应的工具和材料。比如在React环境中，系统预装了最新版本的React框架、TypeScript编译器和Tailwind CSS样式库，确保AI生成的现代网页应用能够顺利运行。在Python环境中，系统预装了101个最受欢迎的科学计算库，包括pandas、matplotlib、numpy等，为数据科学应用提供完整的支持。

这种多样化的测试环境设计反映了现代软件开发的复杂性和多样性。在真实世界中，程序员需要在不同的平台和框架中工作，面对不同类型的编程挑战。通过在多种环境中测试AI模型，研究团队能够更准确地评估这些模型在实际应用中的表现，避免因为测试环境单一而产生的评估偏差。

四、五个月收集的宝贵数据

经过五个多月的持续数据收集，BIGCODEARENA积累了令人印象深刻的数据宝库。这些数据来自全球500多个不同IP地址的真实用户，涵盖了超过14000次完整的对话记录。这个规模就像是收集了一个中等城市所有程序员的编程偏好数据，具有很强的代表性和统计意义。

在这14000次对话中，研究团队筛选出了4731次高质量的多轮对话记录，这些对话至少包含两轮交互，并且代码都成功运行并产生了可评估的结果。每次对话都记录了用户的完整偏好选择，包括认为哪个AI模型表现更好，以及选择的具体理由。这些数据就像是一个庞大的"品尝笔记"集合，记录了人们在实际使用中对不同AI代码生成能力的真实感受。

数据分析显示，用户的编程需求呈现出明显的分布特征。网页设计类任务占据了最大比例（36.1%），反映了现代软件开发中前端开发的重要性。问题解决类任务占22.8%，游戏开发占16.0%，科学计算占13.9%，创意编程占8.0%，图表制作占3.1%。这种分布反映了不同编程领域的相对重要性和用户关注度。

更有趣的是，研究团队发现了一个重要现象：当代码能够实际运行并展示效果时，用户的判断变得更加一致和可靠。统计数据显示，用户在看到执行结果后做出的选择，比仅仅基于代码文本的选择更加稳定和可预测。这就像是从猜测菜品味道变成了实际品尝——判断的准确性显著提高。

五、十大AI模型的实力排行榜

基于收集到的海量数据，研究团队构建了一个全面的AI编程能力排行榜。这个排行榜采用了ELO评分系统，这个系统最初用于国际象棋等竞技比赛的选手排名，能够根据胜负关系准确反映不同选手的相对实力水平。在代码生成领域应用这个系统，就像是为AI模型建立了一个公平的竞技积分制度。

排在榜首的是OpenAI的o3-mini模型，紧随其后的是同样来自OpenAI的o1-mini。这两个模型在各种编程任务中都表现出色，无论是网页开发、游戏制作还是数据分析，都能生成高质量的代码。排在第三位的是Anthropic公司的Claude-3.5-Sonnet，这个模型在创意编程和复杂逻辑处理方面表现尤为突出。

中等水平的模型包括GPT-4o、o1和Gemini-2.0系列。这些模型各有所长，在特定领域表现不俗，但整体稳定性和通用性相比顶尖模型还有一定差距。比如GPT-4o在网页开发方面表现很好，但在多语言支持方面稍显不足。Gemini-2.0-Pro在科学计算领域有不错表现，但在创意编程方面相对较弱。

开源模型中表现最好的是阿里巴巴的Qwen2.5系列和Meta的Llama-3.3-70B。虽然这些模型在整体排名中位置相对靠后，但考虑到它们的开源性质和免费使用特点，仍然具有很高的实用价值。特别是在一些基础编程任务中，这些开源模型已经能够提供相当不错的代码生成质量。

六、不同领域的AI专长分析

通过深入分析不同类型编程任务的表现数据，研究团队发现AI模型在各个领域展现出了有趣的专长差异。这就像是发现不同的厨师在不同菜系上各有所长一样，每个AI模型都有自己的"拿手好戏"。

在网页开发领域，o3-mini和Claude-3.5-Sonnet表现最为突出。它们生成的网页不仅功能完整，而且用户界面美观，响应式设计处理得很好。这些模型似乎特别擅长理解现代网页设计的最佳实践，能够合理使用Tailwind CSS等流行框架，生成符合当前设计趋势的网页应用。

游戏开发是另一个有趣的领域。在这个领域中，o3-mini依然保持领先，但Gemini-2.0-Pro也表现出了不错的竞争力。这些模型能够处理复杂的游戏逻辑，实现物理引擎、碰撞检测和用户交互等高级功能。特别是在使用PyGame创建2D游戏时，它们展现出了对游戏开发概念的深刻理解。

创意编程领域的结果令人意外。Claude-3.5-Sonnet在这个领域表现尤为出色，经常能够生成富有创意和视觉吸引力的代码作品。无论是生成SVG艺术图形、创建动画效果，还是实现有趣的视觉特效，这个模型都展现出了超出预期的创造性思维能力。

科学计算领域则是Python生态系统的天下。在这个领域中，模型需要熟练运用NumPy、Pandas、Matplotlib等科学计算库。o3-mini和o1-mini在这方面表现最佳，它们能够正确使用各种科学计算API，生成准确的数据分析和可视化代码。令人印象深刻的是，这些模型甚至能够实现一些相对复杂的算法，如扩散限制聚集模拟等。

七、两个重要的评测基准诞生

基于BIGCODEARENA收集的丰富数据，研究团队开发了两个重要的评测基准：BIGCODEREWARD和AUTOCODEARENA。这两个基准就像是为代码生成领域提供了标准化的"考试题目"和"评分标准"，让研究者能够更客观地比较不同AI模型的能力。

BIGCODEREWARD专门用于评测奖励模型的准确性。在AI训练过程中，奖励模型就像是一个"评审团"，需要判断生成的代码质量如何。这个基准测试奖励模型的判断是否与人类专家的评价一致。研究发现，当奖励模型能够看到代码的实际运行结果时，它们的判断准确性显著提高。这就像是让评审团不仅看到菜谱，还能品尝实际做出的菜品，判断自然变得更加准确。

测试结果显示，大部分先进的AI模型都能够胜任代码质量评判工作，其中表现最好的是Qwen2.5-VL-72B和各种Claude模型。有趣的是，开源模型和商业模型在这项任务上差距不大，这意味着代码质量评判能力可能比代码生成能力更容易实现民主化。

AUTOCODEARENA则是一个自动化的评测系统，它模拟BIGCODEARENA的人工评测过程，但使用AI评审代替人类用户。这个系统从收集的数据中筛选出600个具有代表性的编程任务，然后让不同的AI模型生成代码解决这些问题，最后使用Claude-3.7-Sonnet作为评审来判断哪个解决方案更好。

这种自动化评测方式的优势是能够快速、大规模地测试新模型。传统的人工评测需要数月时间收集足够的数据，而自动化系统可以在几天内完成同样规模的测试。当然，自动化评测的准确性依赖于评审模型的质量，但研究表明，当前最先进的AI模型已经能够相当准确地模拟人类专家的判断。

八、最新AI模型实力大揭秘

使用AUTOCODEARENA对最新的AI模型进行测试，研究团队发现了一些令人惊讶的结果。在这个更大规模的测试中，GPT-5首次登场并显示出了压倒性的优势，明显超越了其他所有模型。这就像是一个新的冠军选手出现在竞技场上，立即改变了整个格局。

Claude系列模型也表现出色，Claude-Opus-4和Claude-Sonnet-4分别占据第二和第三位。这些模型在复杂推理任务中表现尤为出色，特别是在需要多步骤逻辑思考的编程问题上。它们生成的代码不仅功能正确，而且结构清晰，注释完整，展现出了对编程最佳实践的深刻理解。

开源模型中的表现令人鼓舞。虽然整体上仍然落后于顶级商业模型，但差距正在缩小。特别是Kimi-K2、GLM-4.5和Qwen3-Coder等模型，在特定领域已经能够与中等水平的商业模型竞争。这种进步趋势预示着代码生成能力的民主化程度会越来越高。

有趣的是，研究团队发现推理能力强的模型（如o1系列）在代码生成任务中并不总是表现最好。虽然这些模型在复杂问题解决方面有优势，但在需要快速生成简洁代码的场景中，传统的生成模型有时反而更有效率。这提醒我们，不同类型的AI模型适用于不同的应用场景，没有"万能"的最佳选择。

九、执行反馈的神奇力量

研究最重要的发现之一是执行反馈对代码质量评判的巨大影响。当评测者能够看到代码的实际运行结果时，他们的判断准确性和一致性都显著提高。这个发现就像是发现了提高"味觉敏感度"的秘诀——从看菜谱变成品尝实际菜品。

在传统的代码评测中，评审人员往往需要在脑中模拟代码的执行过程，这不仅耗时耗力，而且容易出错。即使是经验丰富的程序员，在面对复杂代码时也可能误判其实际效果。但当代码真正运行起来，产生可见的结果时，优劣立判。一个网页是否美观易用，一个游戏是否好玩有趣，一个数据可视化图表是否清晰准确，这些都可以通过直接体验来判断。

研究数据显示，在有执行反馈的情况下，不同评审者之间的判断一致性提高了约15-20%。这意味着执行反馈不仅提高了判断的准确性，还增强了评测结果的可靠性和可重复性。这对于AI模型的客观评估具有重要意义。

更有趣的是，执行反馈还揭示了一些仅凭阅读代码难以发现的问题。比如某些代码在语法上完全正确，逻辑看起来也很清晰，但实际运行时却因为边界条件处理不当而出现bug。还有一些代码虽然功能正确，但用户体验很差，比如网页加载缓慢或者界面布局混乱。这些问题只有在实际运行时才会暴露出来。

十、对未来的启示与影响

BIGCODEARENA的研究成果不仅改变了我们评测AI编程能力的方式，还为整个代码生成领域的发展指明了方向。这项研究就像是在软件开发的历史上树立了一个重要的里程碑，标志着我们从"纸上谈兵"时代进入了"实战演练"时代。

对于AI开发者而言，这项研究强调了代码实际执行效果的重要性。未来的AI模型不仅需要能够生成语法正确的代码，更需要确保代码在真实环境中能够正常运行并产生预期效果。这推动AI开发者更加重视模型的实用性和可靠性，而不仅仅是代码生成的流畅性。

对于软件开发行业来说，这种基于执行的评测方法可能会逐渐普及到更多场景。传统的代码审查流程可能会融入更多自动化执行和测试环节，确保代码质量评估更加客观准确。这种变化有助于提高整个行业的软件质量标准。

研究团队还指出了一些值得关注的发展方向。比如如何让AI模型更好地理解用户需求，如何提高代码生成的创造性，如何在不同编程范式和语言之间保持一致的高质量表现等。这些挑战为未来的研究提供了明确的目标。

同时，开源模型的快速进步也让人看到了代码生成能力民主化的希望。随着开源社区的持续努力和计算资源的不断普及，高质量的AI编程助手可能会变得更加触手可及，让更多的开发者能够享受到AI技术带来的便利。

说到底，BIGCODEARENA不只是一个评测平台，更是对整个AI代码生成领域发展方向的重要探索。它告诉我们，真正有价值的AI工具不是那些能写出看起来漂亮代码的系统，而是那些能够解决实际问题、创造真正价值的智能助手。这种以实用性为导向的评测理念，必将推动整个领域向着更加务实和用户友好的方向发展。

对于普通开发者和编程学习者来说，这项研究也提供了重要启示：在学习和使用AI编程工具时，不要仅仅满足于生成能够通过语法检查的代码，更要关注代码的实际执行效果和用户体验。只有这样，我们才能真正发挥AI技术的潜力，创造出既智能又实用的软件产品。研究团队已经将BIGCODEARENA平台完全开源，有兴趣的读者可以通过GitHub和Hugging Face平台访问相关资源，亲自体验这种革命性的代码评测方式。

Q&A

Q1：BIGCODEARENA和传统的代码评测方式有什么区别？

A：传统代码评测就像只看菜谱来判断菜品好坏，而BIGCODEARENA让代码真正运行起来，用户可以直接体验网页、游戏或应用程序的实际效果再做判断。这种方式更加直观准确，避免了仅凭代码文本难以判断实际质量的问题。

Q2：研究发现哪些AI模型的编程能力最强？

A：根据超过14000次真实用户测试，OpenAI的o3-mini和o1-mini表现最佳，Anthropic的Claude-3.5-Sonnet紧随其后。在最新测试中，GPT-5显示出压倒性优势。开源模型中，阿里巴巴的Qwen系列和Meta的Llama模型表现相对较好。

Q3：普通开发者可以如何使用BIGCODEARENA平台？

A：BIGCODEARENA平台已完全开源，开发者可以通过GitHub和Hugging Face平台免费访问。平台支持10种编程语言和8种运行环境，用户可以提出编程需求，让不同AI模型生成代码并实际运行，然后比较效果选择最佳方案。

人工智能代码生成实验验证

分享至