这项由ZeroEntropy团队的Nicholas Pipitone、Ghita Houir Alami、Advaith Avadhanam、Anton Kaminskyi和Ashley Khoo等人完成的研究发表于2025年9月,论文题目为"zELO: ELO-inspired Training Method for Rerankers and Embedding Models",感兴趣的读者可以通过arXiv:2509.12541访问完整论文。
当你在搜索引擎中输入一个问题时,系统需要从数百万个文档中找出最相关的答案。这个过程就像在图书馆里找书一样,需要先筛选出可能有用的书籍,然后再仔细挑选出最合适的那几本。在AI系统中,这个精挑细选的过程被称为"重排序",而执行这个任务的AI模型就叫做"重排序器"。
然而,训练这些重排序器一直面临着一个棘手的问题。传统方法就像让学生通过对比"好"和"坏"的例子来学习,但问题是,谁来判断什么是"好"什么是"坏"呢?如果请人类专家来标注,成本高昂且效率低下。如果用其他AI系统来生成"坏"例子,又可能出现一个奇怪的现象:AI生成的"坏"例子实际上比人类标注的"好"例子还要好,这就像让学生看着错误答案反而学到了正确知识一样。
ZeroEntropy团队提出的zELO方法就像给这个问题找到了一把新钥匙。他们借鉴了国际象棋比赛中使用的ELO评分系统,将文档排序问题转化为类似体育比赛的评分问题。在国际象棋中,每个棋手都有一个ELO分数,通过与其他棋手的对战结果来调整分数。研究团队将这个思路巧妙地应用到了文档排序任务中:让多个先进的AI模型对文档进行两两比较,就像举办"文档相关性大赛"一样,最终为每个文档计算出一个绝对的相关性分数。
这种方法的巧妙之处在于,它完全绕过了传统方法中"需要人类标注绝对好坏"的难题。相反,它只需要AI模型进行相对比较,判断"文档A是否比文档B更相关",这种相对判断比绝对评分要准确得多。就好比你可能很难准确评价一道菜值几分,但要判断两道菜哪个更好吃就容易多了。
基于这种创新的训练方法,研究团队开发出了两个重排序模型:zerank-1和zerank-1-small。这两个模型在多个领域的测试中都表现出色,包括金融、法律、医学、编程和科学技术等领域。更令人印象深刻的是,这些模型不仅在公开数据集上表现优异,在私人客户数据上的表现也同样出色,说明它们具有很好的泛化能力,不会出现"死记硬背"的问题。
一、传统方法的困境:为什么现有技术遇到了瓶颈
要理解zELO方法的价值,我们首先需要明白传统重排序器训练方法遇到了什么问题。重排序器就像一个挑剔的图书管理员,需要根据读者的问题从一堆候选书籍中挑出最有用的那几本。这个"图书管理员"需要通过学习大量例子来提高自己的判断能力。
传统的训练方法采用"对比学习"的策略,就像给学生提供"好"答案和"坏"答案的对比例子。对于每个查询问题,系统会准备一个"正面"文档(相关的)和一个"负面"文档(不相关的),让模型学会区分两者。问题的关键在于如何生成这些"负面"例子。
最简单的方法是随机选择负面例子,但这就像让学生通过对比"苹果"和"飞机"来学习水果知识一样,对比太过明显,学习效果很差。因此,研究者们发明了"硬负样本挖掘"的方法,试图找到那些看起来相关但实际上不如正面例子的文档作为负面例子。这就像故意选择一些"假苹果"来和"真苹果"对比,让学生学会更细致的判断。
然而,研究团队发现了一个令人意外的现象,他们称之为"拉弗曲线"效应。拉弗曲线原本是经济学概念,描述了税率和税收收入之间的关系:税率太低收不到税,税率太高又会抑制经济活动反而减少税收,只有适中的税率才能获得最大税收。类似地,当"硬负样本挖掘"的智能程度越来越高时,训练效果反而开始下降。
这种现象的根本原因在于,当AI系统变得足够聪明时,它挖掘出的"负面"例子实际上比人类标注的"正面"例子还要好。这就像让一个经验丰富的厨师来挑选"不好的"食材,结果他挑出来的"次品"反而比普通人选的"好"食材更优质。在这种情况下,模型接收到了错误的学习信号,性能自然会下降。
研究团队通过实验验证了这个现象,他们发现即使是那些具有强大零样本(不需要额外训练就能处理新任务)能力的大型模型,如8B和70B参数的模型,使用传统方法也能获得20%和10%的性能提升,最终在某个数据集上达到93%的准确率,远超其他方法的75%-81%。这说明传统方法确实存在根本性的局限。
更重要的是,这些使用新方法训练的模型在私有数据上的表现也同样出色,而竞争对手的模型在私有数据上性能会明显下降。这表明传统方法容易过度拟合评估数据集,就像学生只会做练习册上的题目,遇到新题型就不知所措。
二、zELO方法的核心思想:从象棋比赛到文档排序
zELO方法的灵感来源于国际象棋比赛中广泛使用的ELO评分系统。在象棋世界里,每个棋手都有一个ELO分数,这个分数会根据比赛结果动态调整。当一个低分棋手击败高分棋手时,低分棋手的分数会大幅上升,而高分棋手的分数会相应下降。反之,如果高分棋手击败低分棋手,分数变化就会很小,因为这是"理所当然"的结果。
研究团队巧妙地将这个思想应用到了文档排序任务中。他们不再让模型学习绝对的"好"和"坏",而是让多个AI模型对文档进行两两比较,就像组织一场"文档相关性锦标赛"。每轮比赛中,两个文档"对战",AI裁判们投票决定哪个文档对查询问题更相关。
具体来说,研究团队首先使用传统的检索系统(如BM25关键词搜索和向量相似度搜索的组合)为每个查询问题找出大约100个候选文档。然后,他们从这些候选文档中选择部分文档对进行比较。这种选择并非随机进行,而是遵循特定的策略来确保比较结果的可靠性。
在每次比较中,他们使用多个先进的大语言模型作为"评委团"。每个模型会仔细分析查询问题和两个候选文档,然后给出判断:哪个文档更相关。为了确保结果的可靠性,他们会继续进行比较,直到评委团的意见趋于一致,标准误差小于0.1为止。
这些两两比较的结果被组织成一个"比赛矩阵",记录了每对文档之间的胜负关系。然后,研究团队使用数学方法从这个矩阵中计算出每个文档的绝对ELO分数。这个过程类似于根据所有比赛结果计算每个棋手的最终排名。
为了确保计算结果的准确性,研究团队还需要解决一个技术挑战:如何在不进行所有可能的两两比较的情况下得到可靠的ELO分数。毕竟,100个文档的所有可能配对有近5000种,全部比较既耗时又昂贵。他们采用了图论中的方法,确保比较图具有三个关键特性:连通性(每个文档都能通过比较链条与其他文档建立关系)、最小度数约束(每个文档至少参与足够多的比较以确保评分稳定)和低直径(任意两个文档之间的比较路径尽可能短)。
通过巧妙的采样策略,他们只需要进行大约400次比较(总可能比较数的0.4%)就能得到高质量的ELO分数。这就像通过精心安排的部分比赛就能准确计算出所有选手的实力排名一样。
三、技术实现的精妙之处:从理论到实践
zELO方法的实现涉及多个技术层面的创新,每一个环节都经过了精心设计。整个过程可以分为几个相互关联的阶段,就像一条精密的生产流水线。
首先是数据准备阶段。研究团队收集了112,000个来自不同领域的查询问题,涵盖金融、法律、医学、编程和科学技术等多个专业领域。对于每个查询,他们使用混合检索方法获得候选文档。这种混合方法结合了传统的关键词搜索(BM25)和现代的向量相似度搜索,就像同时使用字典查找和语义理解两种方式来寻找相关信息。
在文档比较阶段,他们采用了一个由三个先进语言模型组成的"评委团"。选择三个模型是在成本和准确性之间找到的平衡点:单个模型可能存在偏见,而更多模型会显著增加计算成本。每个模型都会收到特别设计的提示词,要求它仔细分析查询问题和两个候选文档,给出详细的推理过程,最后在-1到1的范围内给出偏好评分。
为了消除模型可能存在的位置偏见(比如总是偏好第一个文档),研究团队会随机调换文档的展示顺序,并相应地调整评分符号。这种做法确保了比较结果的公正性,就像在盲品测试中随机安排样品顺序一样。
在数据稀疏性处理方面,研究团队面临着一个重要的权衡:是对更多文档对进行比较,还是对更多查询进行处理。经过实验,他们发现后者更有价值。与其在同一个查询下进行更多文档比较,不如将计算资源投入到处理更多不同的查询上,这样能获得更丰富多样的训练信号。
ELO分数计算采用了Bradley-Terry模型的变种。在这个模型中,两个文档的相对胜率可以通过它们ELO分数的差值来预测。具体来说,如果文档A的ELO分数比文档B高100分,那么A胜过B的概率大约是64%。研究团队使用梯度下降法来优化这些ELO分数,确保它们最好地解释观察到的比较结果。
为了处理计算复杂性,研究团队开发了一种基于随机正则图的稀疏采样策略。他们生成多个随机循环,然后将这些循环的边集合并,形成一个具有良好连通性和低直径的比较图。这种方法不仅在理论上有保证,在实践中也表现出色,能够用很少的比较次数获得高质量的ELO估计。
在模型训练的最后阶段,研究团队将计算得到的ELO分数作为监督信号,使用标准的均方误差损失函数来训练点式重排序器。这个过程相对直接,但关键在于前面阶段生成的高质量训练数据。
四、渐进式改进:让AI学会从错误中学习
zELO方法不是一次性的训练过程,而是采用了一种类似人类学习的渐进式改进策略。就像学生通过不断练习和纠错来提高成绩一样,研究团队设计了一个多轮迭代的训练流程。
在第一轮训练完成后,研究团队会用训练好的重排序器在验证数据上进行测试,特别关注那些表现不佳的案例。对于每个查询,他们会找出人类标注分数最高的文档,然后检查这个文档在AI重排序结果中的排名。如果这个"应该排在前面"的文档被排到了后面位置,就被认为是一个"失败案例"。
这种失败检测机制就像老师检查学生作业时发现的错误。不同的是,研究团队不是简单地告诉AI"这里错了",而是进一步分析错误的原因。他们会找到被错误排在失败文档前面的那个文档,然后让评委团AI模型对这两个文档进行新的比较。
有趣的是,在这种"复查"过程中,评委团通常会强烈偏向人类标注的高分文档,这证实了原始排序确实存在问题。这些新的比较结果会被添加到训练数据中,用于训练第二轮的配对比较模型。
这种方法的巧妙之处在于,它结合了AI评委团的大规模处理能力和人类标注的高质量信号。AI评委团能够进行大量的文档比较,提供丰富的训练信号,而人类标注虽然数量有限,但质量很高,能够帮助发现和纠正系统性错误。
通过这种"AI为主,人类纠错"的混合策略,研究团队成功地避免了传统方法中完全依赖人类标注的高成本问题,同时也规避了纯AI生成数据可能存在的系统性偏见。最终的模型既保持了大规模训练的优势,又具备了人类专家知识的精准性。
这种渐进式改进还带来了另一个好处:模型的鲁棒性得到了显著提升。第一轮训练让模型学会了基本的相关性判断,第二轮训练则让模型学会了更细致的区分,特别是那些容易混淆的边界案例。这就像学生先掌握基础知识,然后通过做错题集来提高对难题的处理能力。
五、实验结果:真金不怕火炼的性能验证
研究团队对zerank-1和zerank-1-small进行了全面而严格的性能测试,就像新车需要经过各种路况测试一样。测试结果显示,这两个模型在多个维度上都表现出色,不仅在准确性上超越了现有的商业重排序器,在计算效率和泛化能力方面也有显著优势。
在准确性测试中,研究团队选择了多个不同领域的公开数据集进行评估,使用NDCG@10这一标准指标来衡量性能。NDCG@10可以理解为"前10个搜索结果的质量得分",分数越高说明模型能更好地将相关文档排在前面。结果显示,zerank-1在所有测试领域都获得了最高分数:在代码搜索任务上得分0.754,对话搜索任务上得分0.596,金融领域得分0.894,法律领域得分0.821,医学领域得分0.796,科学技术领域得分0.694。
更令人印象深刻的是,即使是较小的zerank-1-small模型,其性能也非常接近大模型,在大多数任务上的得分差距都在0.02-0.03之间。这说明zELO训练方法能够有效地将知识压缩到较小的模型中,实现了"小而精"的效果。
在与商业竞争对手的对比中,zerank-1的优势更加明显。与Cohere的rerank-v3.5相比,zerank-1在所有测试任务上都有显著提升,最大提升幅度达到5个百分点。与Salesforce的Llama-rank-v1相比,提升幅度甚至更大。这种全面的性能优势表明zELO方法确实能够训练出更好的重排序器。
特别值得注意的是在私有客户数据上的测试结果。许多AI模型在公开数据集上表现很好,但在实际应用的私有数据上性能会显著下降,这种现象被称为"过拟合"。然而,zerank模型在私有数据上的表现甚至比在公开数据上更好,在法律、企业搜索、对话和医疗等领域的得分都有进一步提升。这表明zELO方法训练出的模型具有很好的泛化能力,能够适应各种不同的实际应用场景。
在计算效率方面,zerank-1也表现出色。在处理12KB大小的文档时,zerank-1的平均响应时间为149.7毫秒,而Cohere的rerank-v3.5需要171.5毫秒。在处理150KB的大文档时,这种优势更加明显:zerank-1只需314.4毫秒,而竞争对手需要459.2毫秒。这意味着zerank-1不仅更准确,而且更快速,在实际应用中能够提供更好的用户体验。
研究团队还进行了一个有趣的对比实验:直接使用最新的Gemini Flash 2.0模型来进行文档排序,而不是训练专门的重排序器。结果显示,即使是这样强大的通用语言模型,其排序性能也明显低于zerank模型。这说明专门的重排序器训练确实是必要的,通用模型无法直接替代专门优化的重排序器。
六、开源贡献:让技术普惠更多开发者
研究团队不仅开发了性能优异的模型,还体现了开源精神,为整个AI社区做出了重要贡献。他们发布了两个完整的重排序模型:zerank-1基于Qwen3-4B初始化,zerank-1-small基于Qwen3-1.7B初始化。这两个模型的权重都可以在Hugging Face平台上获得,为开发者和研究者提供了宝贵的资源。
特别值得称赞的是,zerank-1-small采用了完全开放的Apache 2.0许可证,这意味着任何人都可以自由地使用、修改和分发这个模型,甚至用于商业目的。这种开放的许可政策大大降低了先进AI技术的使用门槛,让更多的初创公司和个人开发者能够受益。
除了模型权重,研究团队还开源了他们的评估pipeline和训练数据生成工具zbench。zbench工具实现了完整的zELO方法,包括文档比较、ELO分数计算和模型训练等所有步骤。这意味着其他研究者不仅可以使用现成的模型,还可以根据自己的需求重现整个训练过程,或者在自己的数据上应用zELO方法。
这种全面的开源策略具有重要的科学意义。它确保了研究结果的可重现性,让其他研究者可以验证、改进或扩展这项工作。同时,它也促进了学术界和工业界的合作,加速了整个领域的发展。
从实用角度来看,这些开源资源为企业提供了强大的工具来改进自己的搜索和推荐系统。企业可以直接使用预训练的模型,也可以使用zbench工具在自己的私有数据上进行进一步训练,实现个性化的优化。
研究团队还展示了zELO方法在生产环境中的应用潜力。由于整个方法是完全自动化的,它可以用于实时的生产评估。企业可以定期从查询日志中随机抽样,使用zELO方法自动标注,然后用这些数据来发现和修复检索系统中的问题,或者对重排序器进行在线优化。这种能力对于需要持续改进搜索质量的大规模应用来说非常有价值。
七、技术创新的深层意义:重新定义AI训练范式
zELO方法的意义远超出了重排序任务本身,它实际上提出了一种全新的AI训练范式,这种范式可能对整个机器学习领域产生深远影响。传统的监督学习依赖大量人工标注的绝对标签,而zELO方法证明了通过相对比较可以获得更好的训练效果。
这种转变的哲学意义在于,它更接近人类的学习方式。人类很少通过记忆绝对标准来学习,而是通过比较和对比来理解事物的相对质量。比如,我们判断一幅画好不好,往往是通过与其他画作的比较,而不是根据某个绝对的"好画"标准。zELO方法将这种相对判断的智慧引入了AI训练中。
从计算经济学的角度来看,zELO方法也提供了一个重要启示:有时候"间接"的方法比"直接"的方法更有效。传统方法试图直接让AI学习"什么是好的",但zELO方法让AI学习"什么比什么更好",然后通过数学方法推导出绝对质量。这种间接路径虽然看起来复杂,但实际上更加稳定和可靠。
该方法还展示了"集体智慧"在AI训练中的价值。通过让多个AI模型形成"评委团",zELO方法有效地利用了模型的多样性和互补性。这种集体决策机制不仅提高了判断的准确性,还增强了系统的鲁棒性。即使单个模型出现偏见或错误,集体决策也能在很大程度上纠正这些问题。
zELO方法的成功还验证了一个重要假设:在许多任务中,AI系统已经超越了人类专家的标注质量。这并不意味着AI比人类更聪明,而是说明在处理大规模、重复性的判断任务时,AI系统能够保持更高的一致性和客观性。这种认识对于未来的AI系统设计具有重要指导意义。
从实际应用的角度来看,zELO方法解决了AI训练中的一个根本性难题:标注质量与标注成本之间的矛盾。高质量的人工标注成本高昂且难以扩展,而低成本的自动标注往往质量不佳。zELO方法通过巧妙的设计找到了第三条路:使用AI系统进行相对比较,然后通过数学方法获得高质量的绝对标签。
这种方法的可扩展性也值得关注。随着AI模型能力的不断提升,zELO方法的效果也会相应改善。更强大的评委模型会产生更准确的比较结果,从而训练出更好的下游模型。这形成了一个正向的反馈循环,推动整个系统不断进步。
八、未来展望:开启智能搜索的新时代
zELO方法的成功不仅解决了当前的技术挑战,更重要的是它为未来的发展开辟了新的可能性。随着这种训练方法的普及和改进,我们可以期待看到搜索和信息检索领域的根本性变革。
在个性化搜索方面,zELO方法展现出巨大的潜力。由于该方法可以在私有数据上进行训练而不需要大量人工标注,企业可以更容易地为特定用户群体或应用场景定制专门的重排序器。这意味着未来的搜索系统将能够更好地理解用户的个性化需求,提供更精准的搜索结果。
多语言和跨文化搜索也将从这项技术中受益。传统方法需要为每种语言收集大量标注数据,成本高昂且效果有限。而zELO方法可以利用多语言AI模型的比较能力,快速为不同语言构建高质量的重排序器。这将大大促进信息技术在全球范围内的普及和应用。
在专业领域的应用方面,zELO方法特别适合那些需要专业知识但难以获得大量专家标注的领域。比如医学文献搜索、法律案例检索、科学研究查找等。通过使用该领域的专业AI模型作为评委,可以快速构建高质量的专业搜索系统。
实时优化和自适应学习是另一个令人兴奋的发展方向。由于zELO方法是完全自动化的,搜索系统可以根据用户的实际查询和反馈不断调整和改进。这种持续学习的能力将使搜索系统变得越来越智能,越来越符合用户的实际需求。
在技术架构方面,zELO方法也可能推动搜索系统向更加模块化和灵活的方向发展。传统的搜索系统往往是一个整体,难以针对特定需求进行调整。而基于zELO训练的重排序器可以作为独立的模块,与不同的初始检索系统组合,形成灵活多样的搜索解决方案。
从更广阔的AI发展角度来看,zELO方法代表的相对比较训练范式可能会扩展到其他领域。比如图像质量评估、文本生成质量评价、代码质量判断等。这种训练方法的普及可能会推动整个AI领域向更加智能和高效的方向发展。
随着计算能力的不断提升和AI模型的持续改进,我们可以预期zELO方法本身也会不断演进。更大规模的评委团、更复杂的比较策略、更精细的ELO计算方法等都是可能的发展方向。这些改进将进一步提升重排序器的性能,为用户提供更好的搜索体验。
说到底,zELO方法的价值不仅在于它解决了一个具体的技术问题,更在于它展示了一种全新的思考方式。在AI快速发展的今天,我们需要的不仅仅是更大更强的模型,还需要更聪明更高效的训练方法。zELO方法正是这种创新思维的体现,它告诉我们,有时候改变问题的问法比寻找问题的答案更重要。通过将绝对判断转化为相对比较,从人工标注转向AI协作,这项研究为我们展示了AI训练的新可能性,也为构建更智能、更实用的搜索系统指明了方向。
Q&A
Q1:什么是zELO方法?它是如何工作的?
A:zELO是一种新的AI训练方法,借鉴了国际象棋ELO评分系统的思想。它让多个AI模型对文档进行两两比较,就像组织"文档相关性比赛",然后通过数学方法计算出每个文档的绝对相关性分数,用来训练重排序器。这种方法避免了传统方法中需要大量人工标注的问题。
Q2:zerank模型相比其他重排序器有什么优势?
A:zerank模型在准确性、速度和泛化能力三个方面都有显著优势。在多个领域的测试中,zerank-1的NDCG@10得分都超过了商业竞争对手,提升幅度最高达5个百分点。同时,它的响应速度更快,在私有数据上的表现也更好,说明泛化能力强,不容易过拟合。
Q3:普通开发者如何使用这些模型?
A:研究团队在Hugging Face平台上开源了两个模型:zerank-1和zerank-1-small,其中zerank-1-small采用Apache 2.0开源许可证,可以免费商用。他们还提供了完整的训练工具zbench,开发者可以直接使用预训练模型,也可以在自己的数据上重现训练过程。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。