微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 传统强化学习新变革:谷歌等研究机构发现语言模型可以跳过数字评分直接从文字反馈中学习

传统强化学习新变革:谷歌等研究机构发现语言模型可以跳过数字评分直接从文字反馈中学习

2025-10-20 10:42
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-20 10:42 科技行者

在传统的人工智能训练中,就像老师给学生打分一样,系统通常需要将复杂的文字反馈转换成简单的数字评分才能进行学习。然而,新加坡国立大学、南洋理工大学和加拿大滑铁卢大学的研究团队最近发表了一项突破性研究,彻底改变了这种做法。这项研究发表于2025年1月,论文编号为arXiv:2509.22638v1,题为《语言模型可以从文字反馈中学习而无需标量奖励》,为人工智能的训练方式带来了革命性的改变。

传统的人工智能训练就像一个严格按照数字评分的考试系统。当AI完成一个任务后,比如回答数学问题或写代码,系统会将各种复杂的反馈意见压缩成一个简单的分数,比如8.5分或者6.2分。然而,这种做法就像把一篇详细的作文评语简化成一个分数一样,丢失了大量有价值的信息。

考虑这样一个场景:两个学生都得了80分,但老师对第一个学生说"你的答案正确但过于冗长",对第二个学生说"你的答案简洁但有很多拼写错误"。如果只看分数,这两个学生似乎表现相同,但实际上他们需要改进的方向完全不同。传统的AI训练方法就面临着类似的问题。

研究团队意识到,现在的大型语言模型已经具备了理解复杂文字反馈的能力,就像一个能够理解各种评语和建议的聪明学生。因此,他们提出了一个大胆的想法:为什么不让AI直接从文字反馈中学习,而不是先把这些反馈转换成冰冷的数字呢?

这个创新思路的灵感来源于文本生成图像的技术。在图像生成领域,AI可以根据"一只香蕉在海上冲浪"这样从未见过的描述,通过组合已知的概念"香蕉"和"海上冲浪"来创造出全新的图像。研究团队认为,语言模型同样可以通过组合不同类型的文字反馈来产生更好的回应。

一、反馈丢失的困扰:数字评分制的局限性

在现实生活中,人们给出的反馈往往是复杂多样的。比如用户可能会说"我很高兴你给出了正确答案,但解释太冗长了",或者"我不太确定,也许可以再试一次?"这些反馈包含了情感、不确定性和具体的改进建议。然而,传统的训练方法必须将这些丰富的信息压缩成一个数字分数。

这种压缩过程就像把一幅色彩丰富的画作转换成黑白照片一样,虽然主要轮廓还在,但细节和层次完全丢失了。更糟糕的是,不同任务领域的评分标准很难统一。解决一道简单数学题获得好评比完成复杂编程任务获得好评要容易得多,这就造成了训练过程中的不平衡。

研究团队发现,传统方法存在三个主要问题。首先是信息丢失,就像前面提到的,复杂的文字反馈被简化成单一数字,大量有用信息被抛弃。其次是模糊性问题,面对"我很开心"或"我不确定"这样的反馈时,很难准确地转换成数字分数。最后是不同任务间的评分标准难以统一,导致训练偏差。

二、文字反馈条件策略:让AI直接理解文字评价

面对这些挑战,研究团队提出了一个叫做"反馈条件策略"(FCP)的新方法。这种方法的核心思想是让AI直接学习如何根据文字反馈来调整自己的行为,而不需要中间的数字转换步骤。

这个过程可以用烹饪来类比。传统方法就像一个厨师只能根据"好吃"或"不好吃"的简单评价来改进菜谱,而新方法则允许厨师直接理解"味道不错但太咸了"、"口感很好但需要更多香料"这样具体的建议,从而更精准地调整配方。

在技术实现上,研究团队采用了一种巧妙的数学框架。他们将问题转化为:给定一个指令和期望的反馈类型,AI应该如何生成最可能收到该类型反馈的回应。这就像是在问:"如果我希望得到'简洁而准确'的评价,我应该怎样回答这个问题?"

整个训练过程分为两个阶段。第一阶段是离线训练,AI学习各种回应与其对应反馈之间的关系模式。第二阶段是在线提升,AI根据积极的反馈条件生成候选回应,然后获得新的反馈来进一步完善自己。

三、实验验证:数学推理和通用推理的双重考验

为了验证这种新方法的有效性,研究团队在数学推理和通用推理两个领域进行了大量实验。他们选择这些领域是因为传统的数字评分方法在这些方面已经相当成功,如果新方法能在这里取得comparable的效果,就证明了其可行性。

在数学推理方面,研究团队使用了包含25万个数学问题的Big-Math数据集。这些问题涵盖了从基础数学到高级竞赛题的各个难度层次。实验结果显示,新的反馈条件策略在平均准确率上达到了38.7%,与传统的强化学习方法GRPO的38.4%基本持平,甚至略有超越。

更令人印象深刻的是训练过程的稳定性。传统方法往往会出现"奖励黑客"现象,即AI学会了获得高分数但实际表现并不好的策略,就像学生学会了应付考试但没有真正掌握知识。而新方法避免了这个问题,因为文字反馈提供了更全面的信息,AI更难钻空子。

在通用推理测试中,新方法在GPQA-Diamond、MMLU-Pro和TheoremQA三个标准测试集上的表现同样令人满意。这些测试涵盖了科学推理、多学科知识和定理证明等不同方面,证明了新方法的广泛适用性。

四、灵活的行为控制:一个模型适应多种需求

新方法最有趣的特性之一是其灵活的行为控制能力。通过改变输入的反馈条件,同一个AI模型可以展现出完全不同的行为风格。这就像一个演员能够根据不同的剧本要求调整自己的表演风格一样。

研究团队设计了一个巧妙的实验来验证这种灵活性。他们让AI在不同的反馈条件下解决同样的数学问题。当输入"完全正面"的反馈期望时,AI的正确率达到68.5%,表现优异。而当输入"完全负面"的反馈期望时,正确率降至17.1%,远低于基础模型的63.8%。这表明AI确实学会了根据反馈条件调整自己的行为。

更有趣的是,当研究人员输入"需要包含代码"的反馈期望时,AI生成包含代码的回应比例从正常情况下的22.7%跃升至74.3%。这种精确的行为控制能力在实际应用中具有巨大价值,用户可以根据具体需求定制AI的回应风格。

这种灵活性的另一个体现是对混合反馈的处理能力。在现实中,用户的反馈往往是复杂的,可能同时包含赞扬和批评。传统方法很难处理这种混合信息,而新方法可以自然地理解和整合这些复杂反馈。

五、真实用户反馈与专业评价的对比分析

研究团队还深入研究了不同类型反馈的效果差异。他们将反馈分为两类:真实用户风格的反馈和专业评审风格的反馈。前者更加主观和口语化,比如"我觉得你说得对,但你的解答太长太复杂了"。后者更加客观和结构化,比如"答案正确且清晰,推理简洁有效"。

令人惊讶的是,即使是质量较低的用户风格反馈,新方法仍然能够有效学习。虽然专业评审风格的反馈效果更好,但用户风格反馈的表现也相当不错,比基础模型提高了5.8个百分点。这个发现具有重要的实用价值,因为收集大量高质量的专业反馈成本很高,而普通用户的反馈相对容易获得。

这种对低质量反馈的适应能力解决了实际应用中的一个重要问题。在真实场景中,大部分反馈来自普通用户而非专业评审员,这些反馈往往带有个人色彩、情绪化或不够准确。传统方法很难有效利用这些"噪声较大"的反馈,而新方法展现出了更强的鲁棒性。

研究团队还发现,与简单的批评微调(CFT)方法相比,新的反馈条件策略在处理粗粒度反馈时表现更优。CFT方法需要高质量、详细的批评才能有效工作,而FCP可以从高层次、粗略的反馈中学习,这大大降低了数据标注的成本。

六、训练稳定性和长期效果分析

在训练稳定性方面,研究团队发现了一些有趣的现象。新方法在大多数情况下都表现出良好的稳定性,但有一个值得注意的例外:当反馈条件涉及回应长度时,训练可能变得不稳定。

具体来说,当AI被训练去生成"简洁"的回应时,它可能会逐渐学会生成越来越短的回应,最终导致回应过于简略而失去有用信息。这种现象就像一个人为了节省时间而不断缩短自己的回答,最终变得过于简短而无法有效沟通。

研究团队通过过滤掉长度相关的反馈条件解决了这个问题。他们发现,当移除这些条件后,训练过程变得更加稳定,AI能够生成长度适中、内容丰富的回应。

在长期效果方面,新方法展现出了良好的泛化能力。在训练域之外的测试中,比如指令遵循任务IFEval,新方法的表现与传统方法相当,证明了其学习的知识能够有效迁移到新的任务类型。

七、计算效率和实用性考虑

从计算效率的角度来看,新方法相比传统的强化学习方法具有一定优势。传统方法需要训练额外的奖励模型来将文字反馈转换为数字分数,这个过程不仅增加了计算开销,还可能引入额外的误差。

新方法直接在文字反馈上训练,避免了中间转换步骤,从而减少了计算资源的需求。虽然模型需要处理更长的输入序列(因为包含了文字反馈),但这个额外开销相对较小,特别是考虑到现代大型语言模型已经具备了处理长文本的能力。

在实用性方面,新方法的一个重要优势是其数据利用率更高。传统方法通常需要过滤掉那些难以转换为数字分数的反馈,导致大量数据被浪费。而新方法可以利用几乎所有类型的文字反馈,包括混合的、不确定的或情绪化的反馈。

研究团队还测试了不同的训练配置。他们发现,部分在线更新策略(即每次收集更多样本再进行批量更新)比完全在线策略效果更好,这为实际部署提供了有用的指导。

八、理论基础和数学框架

从理论角度来看,新方法建立在坚实的数学基础之上。研究团队证明了,在某些条件下,他们提出的反馈条件策略等价于传统强化学习中的最优策略,但避免了奖励函数设计的复杂性。

这个理论联系可以通过一个简单的例子来理解。传统方法就像通过中间翻译来学外语:先把外语翻译成母语理解,再把母语翻译成外语表达。而新方法则是直接学习外语思维,避免了翻译过程中的信息丢失和误差积累。

在数学表达上,新方法将问题框架化为学习一个条件概率分布,即给定指令和期望反馈类型,如何生成最合适的回应。这个框架自然地整合了先验知识(从参考模型中获得)和环境反馈(从用户或评估系统中获得)。

研究团队还建立了与逆向动力学建模的联系。在传统强化学习中,行为克隆对应于模仿学习,前向动力学对应于世界建模,而他们的方法对应于逆向动力学建模。这种对应关系为理解新方法在强化学习框架中的位置提供了清晰的视角。

九、应用前景和扩展方向

新方法的应用前景非常广阔。最直接的应用是改进现有的AI助手和聊天机器人,让它们能够更好地理解和响应用户的复杂反馈。用户不再需要将自己的想法转化为简单的好坏评价,而可以用自然语言表达具体的需求和建议。

在教育领域,这种方法可以开发出更智能的个性化学习系统。系统可以根据教师或学生的详细反馈调整教学策略,而不仅仅是基于对错的简单判断。比如,系统可以理解"解答正确但步骤跳跃太大"这样的反馈,并相应地调整解释的详细程度。

在创意产业中,新方法可以帮助开发更好的AI创作工具。作家可以给AI提供"风格太正式,需要更加轻松幽默"这样的反馈,AI可以直接理解并调整其写作风格,而不需要将这种复杂的风格要求转化为数字评分。

研究团队还提出了几个有前景的扩展方向。首先是结合可验证奖励,在有可靠数字评分的任务中将其作为补充信息。其次是扩展到多轮对话,让AI能够在对话过程中逐步融入反馈。第三是测试时适应,允许AI根据少量用户样例快速调整到个人偏好。

十、挑战与局限性

尽管新方法展现出了巨大潜力,但研究团队也坦诚地指出了当前的一些挑战和局限性。首先是对反馈质量的依赖性。虽然方法对低质量反馈有一定鲁棒性,但极度误导性或恶意的反馈仍可能导致不良结果。

其次是长度相关反馈的处理问题。如前所述,涉及回应长度的反馈可能导致训练不稳定,这限制了方法在某些应用场景中的直接使用。研究团队正在探索更好的解决方案来处理这类反馈。

另一个挑战是多语言和跨文化的适应性。目前的实验主要基于英文反馈,不同语言和文化背景下的反馈表达方式可能存在显著差异,这需要进一步研究。

计算资源的需求也是一个考虑因素。虽然新方法在某些方面更高效,但处理长文本反馈仍然需要相当的计算能力,这可能限制其在资源受限环境中的应用。

最后,如何确保AI对反馈的理解与人类的意图一致仍然是一个开放性问题。语言的歧义性和上下文依赖性可能导致AI误解用户的真实意图。

十一、与现有方法的比较和优势

与现有的AI训练方法相比,新的反馈条件策略展现出了几个显著优势。相比传统的拒绝采样微调(RFT),新方法不需要依赖外部验证器来判断回应的正确性,这在很多实际应用中是一个重要优势,因为设计可靠的验证器往往比获得人类反馈更困难。

与强化学习方法GRPO相比,新方法避免了奖励黑客问题。GRPO等方法可能会学会获得高奖励分数但实际表现不佳的策略,而新方法由于直接基于文字反馈学习,更难被"欺骗"。实验数据显示,虽然新方法在某些标准奖励评分上可能略低,但其实际表现质量更加稳定和可靠。

与批评微调(CFT)方法相比,新方法在处理粗粒度、低质量反馈方面表现更优。CFT需要高质量的详细批评才能有效工作,而FCP可以从简单的用户反馈中学习,大大降低了数据收集的门槛。

新方法的另一个独特优势是其行为控制的灵活性。传统方法训练出的模型通常具有固定的行为模式,而新方法允许用户在推理时通过指定期望的反馈类型来动态调整AI的行为风格。

十二、实验设计的创新之处

研究团队在实验设计上也有许多创新之处。为了确保比较的公平性,他们使用同一个反馈源(GPT-5-nano)同时生成文字反馈和数字评分,消除了因反馈源不同而产生的偏差。

在反馈模拟方面,研究团队设计了一个统一的提示模板,能够同时产生三种类型的输出:真实用户风格的反馈、专业评审风格的反馈和数字评分。这种设计不仅确保了实验的一致性,也为研究不同反馈类型的效果提供了便利。

实验还包含了丰富的消融研究,系统性地分析了各个组件的贡献。比如,研究团队测试了不同的损失聚合方式、批次大小设置、在线更新策略等,为实际应用提供了详细的配置指导。

在评估方法上,研究团队不仅使用了传统的准确率指标,还分析了回应长度、代码包含比例等多维度指标,全面评估了模型的行为变化。这种多维度评估为理解模型的学习机制提供了更深入的洞察。

说到底,这项研究的真正价值在于重新思考了AI训练的基本假设。长期以来,研究者们认为数字化的奖励是AI学习的必要条件,就像认为所有的评价都必须转化为分数才有意义一样。然而,这项研究证明了AI可以直接从丰富的文字反馈中学习,就像人类从复杂的语言交流中获得知识一样。

这种转变的意义远超技术层面。它意味着AI系统可以更自然地与人类协作,理解人类细腻的表达和复杂的需求。未来的AI助手不再是冰冷的分数追求者,而可能成为真正理解人类意图、能够灵活适应不同需求的智能伙伴。

当然,这项研究还只是开始。就像所有突破性的科学发现一样,它提出的问题可能比解答的问题更多。如何确保AI正确理解人类反馈的真实意图?如何处理不同文化背景下的反馈差异?如何平衡效率与效果?这些都是需要进一步探索的重要方向。

不过,这项由新加坡国立大学、南洋理工大学和滑铁卢大学研究团队完成的工作,无疑为AI的发展开辟了一条新的道路。它提醒我们,有时候最好的解决方案不是让机器更像机器,而是让机器更好地理解人类的表达方式。对于那些希望深入了解这项研究技术细节的读者,可以通过论文编号arXiv:2509.22638v1查询完整的学术论文。

Q&A

Q1:反馈条件策略是什么?它与传统AI训练方法有什么不同?

A:反馈条件策略(FCP)是一种让AI直接从文字反馈中学习的新方法,而不需要将复杂的文字评价转换成数字分数。传统方法就像把详细的作文评语简化成一个分数,会丢失大量有价值信息。而FCP让AI像人类一样直接理解"答案正确但太冗长"这样的具体建议,从而更精准地改进表现。

Q2:这种新方法在实际应用中有什么优势?

A:新方法的主要优势包括:能够利用更丰富的反馈信息,不会因为转换成数字而丢失细节;可以处理混合的、情绪化的用户反馈;同一个模型可以根据不同的反馈期望调整行为风格;避免了传统方法中的"奖励黑客"问题,表现更稳定可靠。这让AI助手能更自然地与人类协作。

Q3:反馈条件策略的训练效果如何?有没有局限性?

A:实验显示,FCP在数学推理任务上达到38.7%的准确率,与传统强化学习方法相当甚至略优。在通用推理和指令遵循任务上表现也很好。但也存在一些局限,比如处理涉及回应长度的反馈时可能不稳定,对极度误导性反馈的鲁棒性还需提升,且主要在英文环境下测试。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-