微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Salesforce再下一城:FARE评估模型让AI判断AI变得更精准可靠

Salesforce再下一城:FARE评估模型让AI判断AI变得更精准可靠

2025-12-04 20:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-04 20:56 科技行者

这项由Salesforce AI Research团队的Austin Xu、Xuan-Phi Nguyen、Yilun Zhou等研究人员完成的突破性研究,发表于2025年10月,论文编号为arXiv:2510.17793v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究开发出了名为FARE(Foundational Automatic Reasoning Evaluators)的AI评估模型家族,专门用来判断其他AI系统生成内容的质量好坏。

在当今AI技术飞速发展的时代,我们面临着一个有趣却又棘手的问题:当AI系统越来越智能,能够生成各种复杂内容时,我们如何判断这些AI生成的内容是否准确、有用呢?这就像是需要一位经验丰富的美食评委来品鉴各种菜肴的质量一样。传统的做法是让人类专家来评判,但这既耗时又昂贵,就好比请米其林大厨来品尝每一道家常菜一样不现实。

Salesforce的研究团队意识到,随着AI系统在训练和实际应用中的广泛使用,对高质量、可扩展的评估方法需求变得前所未有地迫切。他们发现,现有的评估方法要么过于专门化,只能处理特定类型的任务,要么训练规模太小,无法应对复杂多样的评估需求。这就像是用专门切水果的刀来处理所有厨房工作一样,效果自然不尽如人意。

为了解决这个问题,研究团队采用了一种全新的方法。他们精心收集了250万个涵盖多种评估任务和领域的训练样本,这个数据规模相当于传统方法的数十倍。这些样本涵盖了五种不同的评估任务:成对比较(判断两个回答哪个更好)、步骤级评估(找出推理过程中的错误步骤)、基于参考答案的验证、无参考答案的验证,以及单一评分。涉及的领域包括数学推理、代码编程、工具使用、自然语言推理等多个方面。

在数据收集方面,研究团队采用了两种互补的策略。首先,他们利用了现有的高质量训练数据集,这些数据集已经被证明能够产生有效的评估器。这就像是收集各地名厨的经典菜谱作为基础。然后,他们还通过合成方法生成了大量新的训练数据。在这个过程中,他们使用了程序化错误注入技术,比如在正确的工具调用中故意加入类型错误或语法错误,创造出对比样本。另外,他们还采用了"生成再评分"的策略,让多个不同的AI模型对同一个问题生成回答,然后根据正确答案对这些回答进行分类和配对,形成训练数据。

在模型训练方面,研究团队开发了一种名为"迭代拒绝采样监督微调"的新方法。这个方法的巧妙之处在于,它既避免了传统教师模型方法中的分布偏移问题,又比复杂的强化学习方法更加稳定和高效。具体来说,他们将训练数据分成若干批次,每一批次都让当前的模型生成多个回答,然后只保留与正确答案匹配的回答来更新模型。这个过程就像是让一个学生反复练习,每次只保留做对的题目来巩固学习,逐步提高准确率。

基于这种方法,研究团队训练出了两个版本的FARE模型:FARE-8B和FARE-20B,分别拥有80亿和200亿(其中36亿处于活跃状态)个参数。这两个模型在各种评估基准测试中都表现出色,FARE-8B能够挑战比它大得多的专门化强化学习训练的评估器,而FARE-20B更是为开源评估器设立了新的标准,超越了许多700亿参数以上的专门化评估器。

在实际应用测试中,FARE模型展现出了令人印象深刻的多功能性。当用作推理时重新排序工具时,FARE-20B在数学问题求解方面达到了接近理想状态的性能表现。在强化学习训练过程中用作验证器时,FARE将下游强化学习训练模型的性能提升了高达14.1%,远超传统的字符串匹配验证器。当作为领域特定微调的初始化模型时,从FARE开始训练的代码评估模型在测试用例质量评估方面比同类模型高出65%。

研究团队还发现了一个有趣的现象:随着训练数据规模的增长,FARE模型在成对比较任务中的位置偏见问题会逐渐减少。位置偏见是指评估器的判断会受到回答在输入中出现顺序的影响,这是评估器常见的一个问题。通过大规模训练,FARE模型学会了更加客观公正的评估,就像是一位经验丰富的评委逐渐摆脱了先入为主的偏见一样。

在具体的评估任务中,FARE模型展现出了全面而均衡的能力。在推理评估方面,无论是数学、科学还是因果推理,FARE都能准确识别出正确和错误的回答。在偏见和鲁棒性测试中,FARE能够抵抗细微的风格偏见,专注于内容的实质。在工具使用评估中,FARE表现尤为突出,这对于日益普及的智能体工作流程来说意义重大。在步骤级错误识别方面,FARE不仅能够判断最终答案的正确性,还能精准定位推理过程中的具体错误步骤。

研究团队还进行了详细的消融实验,探索了不同训练组件对模型性能的影响。他们发现,直接判断数据的比例、连续课程学习的使用,以及对于gpt-oss模型特殊的思维链处理方式,都对最终性能有着重要影响。这些发现为未来的评估器训练提供了宝贵的指导原则。

值得注意的是,FARE模型的设计哲学注重效率和实用性。与一些需要生成冗长思考过程的评估器不同,FARE采用了紧凑的或无思考链设计,以满足推理时重新排序或强化学习验证等对延迟敏感的应用需求。同时,FARE避免让评估器生成参考答案,因为这不仅会将相对简单的评估任务转换为更困难的生成任务,还可能在参考答案错误时严重影响性能。

在与其他评估方法的比较中,FARE模型展现出了明显的优势。在推理时计算扩展方面,使用32次自一致性采样的FARE模型在多个数据集上都实现了进一步的性能提升,与其他先进评估器的差距进一步拉大。在不同生成器的测试中,FARE-20B是唯一一个能够在所有生成器和基准测试中都改善性能的评估器,显示出了良好的通用性。

研究还揭示了一个重要的实践发现:大规模多任务训练不仅能提高评估器的准确性,还能增强其鲁棒性和一致性。这种方法产生的评估器不仅在静态基准测试中表现优异,在实际应用中也展现出了强大的适应性和可靠性。

FARE模型的成功还体现在其优秀的可扩展性上。研究团队证明,通过相对少量的领域特定数据进行持续微调,FARE可以快速适应新的应用场景。这种灵活性使得FARE不仅是一个强大的通用评估器,也是各种专门应用的优秀起点。

从技术创新的角度来看,这项研究最重要的贡献在于证明了通过数据规模化和简单但有效的训练方法,可以在评估器训练领域取得突破性进展。这种方法避免了复杂强化学习训练的不稳定性,同时实现了比传统监督学习更好的性能,为未来的评估器研究指明了一个明确而可行的方向。

说到底,这项研究解决了AI发展中的一个关键瓶颈问题。随着AI系统越来越强大,能够处理越来越复杂的任务,我们需要同样强大和可靠的评估工具来确保这些系统的输出质量。FARE模型就像是为AI世界培养出了一批经验丰富、公正客观的评委,能够准确判断各种AI系统的表现,为AI技术的进一步发展和应用提供了重要保障。

这项研究的意义不仅在于技术层面的突破,更在于为整个AI生态系统提供了一个可靠的质量控制工具。无论是在AI模型的训练过程中需要实时反馈,还是在部署后需要监控输出质量,FARE这样的评估器都将发挥不可替代的作用。对于普通用户来说,这意味着未来我们使用的AI服务将更加可靠和值得信赖。

Q&A

Q1:FARE评估模型具体能做什么?

A:FARE是一个AI评估系统,主要功能是判断其他AI生成内容的质量。它能进行五种评估任务:比较两个AI回答哪个更好、找出推理步骤中的错误、验证答案是否正确、对回答打分等。就像是AI界的专业评委,能够客观公正地评判各种AI系统的表现。

Q2:FARE评估模型比其他评估方法好在哪里?

A:FARE的优势主要体现在规模和通用性上。它使用了250万个训练样本,是传统方法的数十倍,涵盖数学、代码、工具使用等多个领域。在实际测试中,80亿参数的FARE-8B能够挑战更大的专门化模型,200亿参数的FARE-20B更是超越了700亿参数以上的评估器,同时还能适应不同的应用场景。

Q3:普通人什么时候能用到FARE评估模型?

A:虽然FARE主要是为AI开发者和研究人员设计的工具,但普通用户将间接受益。当AI公司使用FARE来训练和改进他们的AI系统时,我们日常使用的AI服务(如聊天机器人、翻译软件、代码助手等)质量会显著提升,变得更加准确可靠。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-