微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

软件工程基准测试迎来自动化革命：图灵公司如何让AI编程评测变得更聪明更全面

软件工程自动化基准测试AI编程评测

软件工程基准测试迎来自动化革命：图灵公司如何让AI编程评测变得更聪明更全面

作者：科技行者

2025-12-23 21:29

分享至：

图灵公司研究团队开发的SWE-Bench++是一个革命性的AI编程能力测评框架，能够从GitHub开源项目中自动生成大规模、多语言的编程测试题目。该系统通过四阶段流水线处理，从3,971个项目中生成了11,133个测试实例，覆盖11种编程语言，相比传统方法规模提升数百倍。更重要的是，它能将困难测试转化为高质量训练数据，显著提升AI编程能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-12-23 21:29 • 科技行者

这项由图灵公司研发部门的王利琳、卢卡斯·拉马尔霍、艾伦·塞莱斯蒂诺等九位研究人员共同完成的突破性研究，于2025年12月发表在计算机科学领域的预印本平台arXiv上，论文编号为arXiv:2512.17419v1。对于想深入了解这项技术的读者，可以通过该编号查询到完整的研究论文。

在当今这个AI编程助手遍地开花的时代，如何准确评判这些智能编程工具的真实能力，已经成为整个科技行业面临的一个重大挑战。就好比我们想知道不同品牌的汽车哪个更好，总得有个公平的测试跑道和统一的评判标准。而在AI编程领域，这个"测试跑道"就是各种编程基准测试。

目前最知名的编程基准测试叫做SWE-bench，它就像是给AI编程助手设置的一场标准化考试。然而，这个考试存在着一个致命的问题——完全依靠人工来出题和批改，就像一所学校的所有考卷都得老师一张一张手工制作一样。这种做法不仅效率低下，而且覆盖面极其有限，目前只能测试12个Python项目，这对于评判AI在真实软件开发中的表现来说，实在是杯水车薪。

更要命的是，这种人工制作的考试还面临着"题目泄露"的风险。由于大多数考题都是在AI模型训练之前就已经存在的，很可能这些题目早已被AI在训练过程中"见过"了，就像学生提前拿到了考试答案一样，这样的测试结果自然不够客观。

图灵公司的研究团队意识到了这个问题的严重性，决定从根本上革新整个基准测试的制作方式。他们开发出了一个名为SWE-Bench++的全自动化框架，这个框架就像是一个永不疲倦的超级工厂，能够从GitHub这个全球最大的开源代码库中自动挖掘和生产高质量的编程测试题目。

这个自动化工厂的工作原理相当巧妙。它会定期扫描GitHub上的各种开源项目，寻找那些被开发者们修复的真实bug和新增的功能。每当发现一个符合条件的代码修改，它就会自动将这个修改转化成一道测试题：给出修改前的代码状态和问题描述，看AI能否像人类开发者一样找出问题并修复代码。这种方法的妙处在于，它产生的测试题目都来自真实的软件开发场景，而不是人为构造的理想化问题。

为了确保这个自动化过程的质量和安全性，研究团队设计了一套极其精密的四阶段流水线。第一阶段叫做"程序化采购"，就像是一个智能筛选器，从海量的GitHub项目中筛选出那些活跃且有代表性的项目。这个筛选器会检查项目的维护状态、社区活跃度、代码复杂度等多个指标，确保选中的项目都是真正有价值的测试素材。

第二阶段是"环境合成"，这可能是整个系统中最具技术挑战性的部分。要知道，每个软件项目都有自己独特的运行环境要求，就像每道菜都有自己的烹饪方法和配料一样。传统的做法是让人工专家逐个分析每个项目的环境需求，然后手动配置测试环境，这种方法既耗时又容易出错。

研究团队采用了一种创新的"模板引导合成"方法来解决这个问题。这种方法就像是准备了一套标准的厨房设备和基础调料，然后让AI助手根据每道菜的特点来添加特殊配料和调整烹饪参数。具体来说，他们为不同的编程语言准备了一套经过安全验证的Docker模板，这些模板包含了基本的运行环境和安全配置。当遇到具体项目时，AI会分析项目的依赖关系和构建脚本，自动在模板中填入相应的配置参数。

这种做法的优势在于既保证了环境配置的安全性和规范性，又能灵活适应不同项目的特殊需求。实验结果显示，这种方法的成功率比传统的人工配置方法高出约137%，大大提升了整个系统的处理效率。

第三阶段是"测试预言提取"，这个名字听起来很神秘，其实就是自动判断AI的答案对不对的机制。在传统的基准测试中，判断标准通常很简单：要么测试通过，要么测试失败。但在真实的软件开发中，情况要复杂得多。

研究团队创新性地提出了"状态差分分类"的概念。这种方法会比较代码的三个状态：修改前的基础状态、只添加了测试代码的状态，以及完整修复后的状态。通过分析这三个状态之间的差异，系统能够准确识别出哪些是bug修复任务，哪些是新功能开发任务。这种区分非常重要，因为这两种任务的难度和评判标准完全不同。

更有趣的是，系统还能自动处理那些"构建失败"的情况。在传统方法中，如果代码无法编译通过，通常会被直接丢弃。但研究团队意识到，有些构建失败其实是有意义的——比如当开发者正在添加一个新功能时，在功能完成之前，相关的测试代码当然无法通过编译。通过分析构建失败的具体原因，系统能够将这些有价值的"失败"案例转化为有效的测试题目。

第四阶段是"自动化质量保证"，这是整个流水线的最后一道防线。就像工厂生产线上的质检环节一样，这个阶段会对前面生成的测试题目进行全面的质量检查。检查内容包括环境的稳定性、测试的确定性、问题描述的清晰度等多个维度。

环境稳定性检查会确保同一个测试在多次运行中都能产生一致的结果，避免那些因为时间、网络等外部因素导致的不稳定测试。测试确定性检查会验证测试结果的可重复性，确保不会因为偶然因素影响评判的公正性。问题描述清晰度检查则使用AI助手来评估问题描述是否足够清晰，是否包含了解决问题所需的关键信息。

经过这四个阶段的严格筛选和处理，研究团队成功构建了一个包含11,133个测试实例的庞大基准测试集。这些实例来自3,971个不同的开源项目，覆盖了Python、Java、JavaScript、Go、Rust等11种主流编程语言。相比于传统SWE-bench仅有的12个Python项目，这个规模简直是天壤之别。

研究团队对这个基准测试集进行了深入的分析。从任务类型来看，大约61%的测试任务是bug修复，31%是新功能开发，其余则是代码重构和性能优化等其他类型的任务。这种分布更真实地反映了软件开发的日常工作构成。从难度分布来看，测试集包含了从简单的单行修改到复杂的多文件重构的各种难度级别，为全面评估AI编程能力提供了丰富的测试场景。

为了验证这个基准测试的有效性，研究团队对当前最强的AI编程模型进行了全面测试。结果令人印象深刻同时也发人深省。最强的模型Claude Sonnet 4.5在pass@10评测中达到了36.20%的成功率，GPT-5紧随其后达到34.57%，而GPT-4o只有16.89%的成功率。这些数字看起来可能不够高，但要知道这些都是来自真实软件项目的复杂问题，远比人工构造的简单测试要困难得多。

更有趣的是，研究团队发现了明显的语言偏向性现象。AI模型在Python和Java等主流语言上的表现明显好于Go、C++等相对小众的语言。这种现象很可能反映了AI训练数据中不同编程语言的分布差异。Python代码在互联网上随处可见，而某些系统编程语言的高质量代码相对较少，这直接影响了AI在这些语言上的表现。

除了构建基准测试，研究团队还探索了如何将这个系统用于提升AI编程能力。他们开发了一种"提示引导轨迹合成"的技术，这种技术能够将那些连最强AI模型都无法解决的困难问题转化为有价值的训练数据。

这个过程的工作原理相当巧妙。当发现一个AI模型完全无法解决的问题时，系统会分析正确答案的代码结构，提取出关键的函数签名、依赖关系等提示信息。然后，系统会将这些提示信息以自然语言的形式融入问题描述中，为AI提供必要的指导。在这种指导下，AI的成功率能从0%提升到约70%，这样就能收集到AI解决困难问题的完整思考过程。

更重要的是，系统还会对这些解决过程进行"思维重写"，移除其中明显依赖提示的部分，保留纯粹的推理逻辑。这样生成的训练数据既包含了解决复杂问题的方法，又避免了AI对提示信息的过度依赖。

为了验证这种训练数据的有效性，研究团队进行了精心设计的实验。他们使用了两种不同规模的AI模型（7B和32B参数的Qwen2.5-Coder），在不同的数据配置下进行微调训练。实验结果显示，仅仅添加145个来自SWE-Bench++的高质量训练轨迹，就能将模型在多语言基准测试中的表现从1.6%提升到3.6%，效果提升非常显著。

这种提升不仅体现在数值上，更重要的是体现在AI解决问题的思路和方法上。通过学习这些来自真实项目的解决过程，AI能够更好地理解复杂软件系统的结构，掌握更实用的调试和修复技巧。

当然，这项研究也面临一些挑战和局限。首先是评判标准的问题。虽然通过测试是一个客观的标准，但测试通过并不总是意味着代码质量高。有些AI可能会写出功能正确但结构混乱的代码，这种代码在短期内可能工作正常，但长期维护会很困难。如何在自动化评测中考虑代码质量、可维护性等因素，仍然是一个需要进一步探索的问题。

其次是数据污染的风险。虽然SWE-Bench++采用了时间过滤等方法来减少数据污染，但完全消除这种风险仍然很困难。随着AI模型训练数据的不断扩大，确保基准测试的"新鲜度"变得越来越重要。

第三是覆盖面的问题。虽然SWE-Bench++已经覆盖了11种编程语言，但在某些特定领域（如嵌入式系统、分布式系统）的覆盖仍然有限。不同类型的软件项目面临的挑战差异很大，需要更有针对性的测试设计。

尽管存在这些挑战，SWE-Bench++的贡献仍然是巨大的。它不仅为AI编程能力的评测提供了一个更全面、更真实的基准，更重要的是，它展示了自动化基准测试生成的可能性。这种自动化的方法可以持续地从最新的开源项目中提取测试素材，确保基准测试能够跟上软件开发技术的快速发展。

从更广阔的视角来看，这项研究反映了AI评测领域的一个重要趋势：从静态的人工构造测试向动态的自动化生成转变。这种转变不仅能够解决测试规模和覆盖面的问题，更能够确保测试内容与真实应用场景的一致性。

对于AI开发者来说，SWE-Bench++提供了一个更严格、更全面的测试平台，有助于发现和改进AI模型的薄弱环节。对于软件工程师来说，这个基准测试能够帮助他们更好地了解不同AI编程助手的能力边界，从而更有效地利用这些工具。

更重要的是，这项研究为整个AI评测领域树立了一个新的标杆。它证明了通过精心设计的自动化流程，我们能够构建出既保持高质量标准，又具备规模化能力的评测系统。这种方法不仅适用于编程任务，也为其他类型的AI能力评测提供了有价值的参考。

随着AI技术的不断发展，评测方法也必须与时俱进。SWE-Bench++所代表的自动化、多语言、实时更新的评测理念，很可能会成为未来AI评测的主流方向。对于整个AI行业来说，拥有更准确、更全面的评测工具，意味着能够更好地指导技术发展方向，避免盲目的技术竞赛。

归根结底，衡量AI编程能力不应该是一场标准化考试，而应该是一次真实的工作体验。SWE-Bench++朝着这个方向迈出了重要的一步，它让AI编程能力的评测变得更加贴近真实的软件开发实践。随着这种评测方法的推广和完善，我们有理由期待，未来的AI编程助手会变得更加实用、更加可靠，真正成为软件开发者的得力伙伴。

Q&A

Q1：SWE-Bench++与传统的SWE-bench相比有什么主要区别？

A：SWE-Bench++最大的区别在于完全自动化的测试生成过程。传统SWE-bench只覆盖12个Python项目且需要人工制作测试题目，而SWE-Bench++能自动从3,971个项目中生成11,133个测试实例，覆盖11种编程语言，大大提升了测试的规模和多样性。

Q2：这个自动化框架是如何保证生成的测试题目质量的？

A：研究团队设计了四阶段流水线来保证质量：程序化采购筛选优质项目，环境合成自动配置测试环境，测试预言提取判断答案正确性，最后通过自动化质量保证检查环境稳定性和问题描述清晰度。每个阶段都有严格的质量控制标准。

Q3：SWE-Bench++生成的训练数据真的能提升AI编程能力吗？

A：实验证明效果显著。研究团队使用仅145个来自SWE-Bench++的训练轨迹对AI模型进行微调，就将其在多语言基准测试中的表现从1.6%提升到3.6%。这些训练数据来自真实项目，能让AI学习到更实用的编程和调试技巧。

软件工程自动化基准测试AI编程评测

分享至