微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

香港科技大学团队让AI学会"自主调节"：解决人工智能自学训练中的探索与利用平衡难题

人工智能自主学习动态平衡算法

香港科技大学团队让AI学会"自主调节"：解决人工智能自学训练中的探索与利用平衡难题

作者：科技行者

2026-03-10 10:49

分享至：

香港科技大学团队提出B-STAR方法，解决人工智能自主学习中的核心难题。通过动态平衡探索与利用两个关键要素，让AI系统能够持续自我改进而不陷入停滞。该方法在数学推理、编程和常识推理任务上均显著超越现有技术，为开发更智能的自主学习系统开辟新路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-10 10:49 • 科技行者

这项由香港科技大学、北京人工智能研究院和腾讯公司联合开展的研究发表于2025年的国际学习表征会议（ICLR 2025），该研究提出了一种名为B-STAR的全新方法来解决人工智能系统在自我训练过程中的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2412.17256v2查询完整论文。

要理解这项研究的重要意义，我们可以将人工智能的学习过程比作一个学生的自学历程。当一名学生在家自学数学时，他面临着一个经典的两难选择：是应该多做不同类型的题目来扩展视野（探索），还是应该专注于自己已经掌握的题型来巩固基础（利用）？如果过分探索，可能会浪费时间在超出能力范围的难题上；如果过分利用，又可能陷入舒适圈，无法真正提升能力。

现在的人工智能系统在自我训练时也面临着完全相同的困境。当前大型语言模型在处理复杂推理任务时，往往需要依赖自己生成的数据来不断改进性能，因为获取大量人工标注的高质量数据既昂贵又耗时。然而，研究人员发现，现有的自我改进方法通常在仅仅3到5轮训练后就会停滞不前，无法继续提升性能。这就像一个学生在自学几天后就再也学不到新东西，进步完全停滞。

研究团队通过深入分析发现，问题的根源在于人工智能系统在自我训练过程中无法有效平衡"探索"和"利用"这两个关键要素。具体来说，探索指的是模型生成多样化的正确答案的能力，就像学生尝试用不同方法解决同一个问题；而利用则是指外部奖励机制能够准确识别和选择高质量答案的能力，就像老师能够准确评判学生答案的好坏。

为了量化衡量这两个要素，研究团队开发了一套创新的评估体系。对于探索能力，他们使用了"Pass@K"指标，这个指标衡量的是在模型生成的K个候选答案中至少有一个正确答案的概率。为了更准确地反映探索的稳定性，他们还提出了"Pass@K-S"指标，要求在K个候选答案中至少有S个独特的正确答案。这就像评估一个学生的创造性思维——不仅要看他能否找到正确答案，还要看他能找到多少种不同的正确解法。

对于利用能力的评估，团队引入了"Best-of-K"准确率和"Reward@K-S"指标。前者衡量奖励函数排序最高的答案是否正确，后者则评估排序前S名的答案是否都正确。这相当于测试一个老师的评分能力——看他能否准确识别出学生作业中的优秀答案。

通过对数学推理任务的深入案例研究，研究团队发现了一个令人担忧的现象：随着训练的进行，模型的探索能力会急剧下降。具体表现为生成答案的多样性显著减少，模型开始产生越来越相似的回答。同时，利用效果也会随着模型能力的变化而波动。这种现象可以用学习疲劳来类比——学生在长时间自学后，思维开始变得僵化，只会用熟悉的方法解题，失去了尝试新方法的动力和能力。

更重要的是，研究团队发现探索和利用之间存在着复杂的动态关系。在训练的不同阶段，最优的平衡点是不断变化的。早期训练时，模型能力较弱，需要更保守的探索策略和更严格的筛选标准；而在后期训练中，随着模型能力的提升，需要更大胆的探索和相对宽松的筛选。这就像一个学生的学习策略需要随着知识水平的提升而调整——初学者需要稳扎稳打，高手则需要敢于挑战更难的题目。

基于这些发现，研究团队开发了B-STAR（平衡式自学推理器）系统。这个系统的核心创新在于能够自动监控和调节探索与利用之间的平衡。B-STAR引入了一个"平衡分数"的概念，这个分数综合考虑了两个关键因素：一是选中的高质量答案的绝对数量，二是高质量答案在所有选中答案中的比例。

平衡分数的设计非常巧妙。假设我们希望每个问题至少选出n*个正确答案，那么对于第i个问题，如果实际选出了n'i个独特正确答案，总共选出了ni个答案，则平衡分数为：min(n'i/n*, 1) × n'i/ni。这个公式的第一部分确保有足够数量的正确答案用于训练，第二部分确保选中答案的质量比例足够高。这就像制定一个既考虑数量又考虑质量的选拔标准。

B-STAR系统通过动态调整两个关键配置来优化平衡分数：采样温度和奖励阈值。采样温度控制着模型生成答案的随机性，温度越高，生成的答案越多样化，但也可能更不准确；奖励阈值则决定了筛选答案的严格程度，阈值越高，筛选越严格。

在实际应用中，B-STAR的调节策略展现出了明显的智能性。在训练初期，系统倾向于使用较低的采样温度和较高的奖励阈值，这相当于让初学者先掌握基础知识，不要急于求成。随着训练的深入，系统逐渐提高采样温度并适当降低奖励阈值，鼓励模型进行更多样化的探索，同时在筛选上给予更多的灵活性。

研究团队在多个具有挑战性的任务上验证了B-STAR的效果，包括GSM8K和MATH数学推理任务、APPS编程挑战，以及ARC-Challenge常识推理任务。结果令人印象深刻：在GSM8K任务上，B-STAR达到了53.8%的准确率，显著超过了在线拒绝采样微调方法的46.8%；在更困难的MATH任务上，B-STAR的准确率达到27.8%，相比基线方法的23.2%有了显著提升。

特别值得注意的是，B-STAR不仅在最终性能上表现出色，在整个训练过程中也展现出了持续的改进能力。传统方法通常在几轮训练后就会陷入停滞，而B-STAR能够保持稳定的上升趋势。这种持续改进的能力源于其动态平衡机制——系统能够根据当前状态自动调整策略，避免陷入局部最优。

为了验证动态调整的必要性，研究团队进行了对比实验。他们发现，即使使用最优的固定配置，效果也远不如B-STAR的动态调整。这证明了自适应策略的重要价值。就像一个优秀的教练会根据学生的不同阶段调整训练方法，而不是始终使用同一套方案。

研究团队还测试了B-STAR在更强大的模型上的表现。使用Llama-3.1-8B模型的实验结果表明，B-STAR的优势不仅仅局限于特定模型，而是具有良好的通用性。这为该方法的广泛应用奠定了基础。

从技术实现的角度看，B-STAR的一个重要优势是计算成本的可控性。系统只需要在小规模数据子集上计算平衡分数来确定最优配置，然后将这些配置应用到完整的训练数据上。这种设计使得额外的计算开销相对较小，不会显著增加训练成本。

这项研究的意义远不止于技术层面的改进。它为理解人工智能自主学习的内在机制提供了新的视角。通过明确定义和量化探索与利用的概念，研究为这一长期存在但缺乏系统性研究的问题提供了理论框架。这就像为一个模糊的概念找到了精确的测量工具。

从更广阔的角度来看，B-STAR代表了人工智能向更智能、更自主方向发展的一个重要步骤。传统的机器学习方法往往依赖固定的超参数设置，而B-STAR展示了系统自适应调整策略的可能性。这种能力对于未来开发能够在复杂、动态环境中持续学习和改进的人工智能系统具有重要价值。

当然，这项研究也存在一些局限性。目前的方法主要通过调整采样温度和奖励阈值来控制探索与利用的平衡，未来可能需要探索更精细的控制机制。此外，研究主要集中在数学推理、编程和常识推理等任务上，在其他类型的任务上的表现还需要进一步验证。

展望未来，这项研究为人工智能自主学习开辟了新的研究方向。研究团队建议，未来的工作可以探索更高级的解码方法来直接控制生成数据的探索性，以及通过更新奖励模型来改进利用效果。这些方向的探索有望进一步提升自主学习系统的性能和适用范围。

说到底，B-STAR的成功在于它解决了一个看似简单但实际上非常复杂的问题：如何让机器在学习过程中自主找到探索与利用的最佳平衡点。这个问题不仅存在于人工智能领域，在人类学习、企业创新、科学研究等多个领域都有类似的挑战。B-STAR提供的解决思路和方法，可能会对这些领域产生更广泛的启发意义。

对于普通人而言，这项研究预示着未来的人工智能系统将变得更加智能和自主。我们可能很快就会看到能够持续自我改进的AI助手，它们不需要人类的频繁干预就能适应新的任务和挑战。这将为教育、工作、娱乐等各个方面带来革命性的变化。当然，这也提醒我们需要思考如何确保这些越来越自主的AI系统始终服务于人类的福祉。

Q&A

Q1：B-STAR是什么，它解决了什么问题？