
这项由香港中文大学、IDEA研究院和澳门大学共同完成的重要研究发表于2026年的国际学习表征会议(ICLR)。该研究的预印本编号为arXiv:2603.21972v1,感兴趣的读者可以通过这个编号查询完整论文。
想象一下,你正在计划一次复杂的旅行:不仅要订机票、酒店,还要考虑预算、个人喜好,甚至要确保不会订到虚假信息。这种需要多步骤、长时间规划的任务,对人工智能来说是个巨大挑战。就像教会一个孩子不仅要学会走路,还要学会在复杂的城市中找到正确的路径一样困难。
研究团队发现,目前的AI系统在处理这种"长期规划"任务时经常表现不佳。即使是最先进的AI模型,在需要协调多个工具、满足复杂约束条件的任务中,成功率往往不到15%。这就像让一个人在黑暗中组装复杂的家具,没有说明书,成功的概率可想而知。
为了解决这个问题,研究团队选择了一个既复杂又实用的测试环境——旅行规划。这个环境完美模拟了现实世界中的长期规划挑战:需要使用多种工具查询信息,同时满足预算限制、个人偏好等多重约束条件。更重要的是,这个环境可以在本地运行,不需要昂贵的外部API调用,为大规模训练提供了可能。
研究的核心创新在于他们开发了一套名为STAR的训练流程,就像是为AI制定的"完整食谱"。这个食谱包含三个关键步骤:首先合成高质量的训练数据,然后进行监督微调让AI学会基本技能,最后通过强化学习让AI在试错中不断完善自己的规划能力。
经过系统性的实验,研究团队发现了一个有趣的现象:训练AI做长期规划并不是"一刀切"的过程,而需要根据AI模型的"体型大小"采用不同的策略。小型AI模型就像是刚开始学习的学生,需要循序渐进的指导和更多的探索机会;而大型AI模型则像是经验丰富的专家,可以直接处理复杂的反馈信号,用最直接的方法达到最好效果。
更令人惊喜的是,他们训练出的AI模型在旅行规划测试中取得了突破性成果。即使是相对较小的AI模型,经过这套"秘方"训练后,也能显著超越目前最强的商业AI系统。这就像是用正确的方法训练,让一个普通学生在考试中超越了资深专家。
一、为什么长期规划对AI如此困难?
当我们想到人工智能时,往往会想到那些能够快速回答问题或识别图片的系统。但现实世界中的许多任务远比这复杂得多。就好比烹饪一道复杂的菜肴,你不仅需要准备各种食材,还要掌握火候时机,协调多个烹饪步骤,最终呈现出完美的成品。
研究团队指出,传统的AI训练方法主要关注短期任务,比如回答一个问题或执行一个简单指令。但长期规划需要AI在多个步骤间保持一致性,就像下棋时不仅要考虑当前这步棋,还要预测接下来十几步的走法。这种能力被称为"长期依赖性",是AI领域的一个核心挑战。
在旅行规划这个具体场景中,AI需要面对三重挑战。第一重挑战是工具协调:AI需要学会使用多种查询工具,比如搜索航班、查找酒店、计算路线距离等,就像一个旅行代理需要熟练使用各种预订系统。第二重挑战是约束满足:AI必须同时满足预算限制、个人偏好、时间安排等多重条件,这就像在有限的预算内既要住得舒适,又要吃得美味,还要玩得尽兴。第三重挑战是避免幻觉:AI必须严格基于真实数据做决策,不能编造不存在的航班或酒店信息,就像一个负责任的旅行顾问绝不会推荐虚假的服务。
研究团队通过大量实验发现,即使是当前最先进的AI系统,在这种复杂规划任务中的成功率也极低。以Kimi-K2.5这样的顶级商业AI为例,在旅行规划任务中的成功率仅为11.8%。这个数字揭示了一个重要事实:仅仅拥有强大的语言理解能力还不够,AI还需要专门的训练来掌握长期规划技能。
更有趣的是,研究团队发现长期规划的难点并不仅仅在于技术复杂性,还在于奖励信号的稀疏性。在传统的机器学习中,AI可以立即得到对错反馈,就像学生做数学题能立即知道答案是否正确。但在长期规划中,只有当整个任务完成时,AI才能知道自己的表现如何。这就像是在黑暗中拼图,只有最后一块拼好时才能看到完整画面。
二、STAR训练流程:让AI学会长期规划的完整食谱
面对长期规划的挑战,研究团队设计了一套名为STAR的完整训练流程。如果把训练AI比作培养一个专业的旅行规划师,那么STAR就是一套从入门到精通的完整课程体系。
这套体系的第一步是数据合成,就像为学生准备教材一样重要。研究团队并不是简单地收集现有的旅行规划案例,而是主动生成了大量高质量、难度可控的训练样本。他们首先采样各种旅行元素,比如出发地、目的地、日期、预算等,然后验证这些元素组合在现实中是否可行。只有通过可行性验证的元素组合才会被用来生成自然语言查询。这个过程就像是先确认食材的新鲜度和搭配合理性,再动手制作菜肴。
为了控制训练难度,研究团队将合成的查询分为三个等级。简单级别通常只涉及单人旅行和基本预算约束,就像制作简单的家常菜。中等级别会增加住宿偏好、特殊要求等约束条件,相当于制作需要多种调料的复杂菜肴。困难级别则包含多维度约束和长期行程规划,就像准备一场正式宴会,需要协调多道菜的时间和口味。
第二步是监督微调阶段,相当于让AI接受基础培训。研究团队使用一个强大的"老师"AI模型来演示如何完成旅行规划任务,然后让目标AI模型学习这些示范案例。这个过程类似于师傅带徒弟,徒弟通过观察师傅的操作来学习基本技能。通过这种方式,AI学会了如何使用各种工具、如何组织规划步骤、如何生成合理的输出格式。
关键的第三步是强化学习阶段,这是整个训练过程的核心。如果说监督微调让AI学会了基本操作,那么强化学习就是让AI在实践中不断完善自己的决策能力。研究团队设计了多种奖励信号来指导AI的学习过程。这些奖励信号就像是不同类型的反馈,帮助AI理解什么样的规划是好的,什么样的规划需要改进。
在强化学习中,AI不断尝试完成旅行规划任务,每次尝试后都会收到详细的反馈。如果AI成功满足了所有约束条件,就会得到正面奖励;如果违反了某些规则或约束,就会得到相应的负面反馈。通过无数次这样的试错和调整,AI逐渐学会了如何在复杂约束下做出最优决策。
整个STAR流程的独特之处在于它的系统性和适应性。不同规模的AI模型需要不同的训练策略,就像不同年龄的学生需要不同的教学方法。小型模型需要更多的指导和循序渐进的学习过程,而大型模型则可以直接处理复杂的学习任务。
三、规模决定策略:不同大小的AI需要不同的训练方法
研究团队的一个重要发现是,训练AI做长期规划并不存在通用的最佳方法。相反,最有效的训练策略高度依赖于AI模型的规模大小。这个发现颠覆了许多人对AI训练的传统认知,揭示了一个更加细致和个性化的训练哲学。
对于参数量为15亿的小型AI模型,研究团队发现它们在面对复杂规划任务时就像是初学者,需要更多的耐心指导和循序渐进的学习过程。这些模型在处理稀疏奖励信号时容易迷失方向,就像在没有路标的森林中容易走错路。因此,最适合小型模型的训练方法是课程式奖励系统。
课程式奖励系统的工作原理类似于学校的分级教学。在训练初期,系统会给予AI更多详细的反馈和指导,帮助它理解每个决策步骤的好坏。比如,当AI正确选择了一个符合预算的酒店时,系统会立即给予正面反馈;当AI违反了某个约束条件时,系统也会及时指出问题所在。随着训练的进展,系统逐渐减少这种详细指导,最终只在任务完成时给予总体评价。这种从密集反馈到稀疏反馈的过渡,帮助小型模型逐步适应复杂的规划环境。
除了奖励设计,小型模型还受益于更强的探索机制。研究团队使用了一些特殊的算法变体,这些算法能够鼓励AI尝试更多不同的解决方案,而不是过早地固定在某种特定模式上。这就像是鼓励学生多尝试不同的解题思路,而不是只背诵标准答案。
对于参数量达到70亿的大型AI模型,情况则完全不同。这些模型就像是有经验的专家,具备更强的理解能力和更稳定的学习特性。研究团队发现,大型模型实际上更适合直接面对复杂的挑战,而过多的指导反而可能限制它们的发挥。
大型模型的最佳训练策略是使用密集奖励信号,也就是对AI的每个决策步骤都提供详细的反馈。这种方法类似于给专业人士提供丰富的数据和信息,让他们基于全面的信息做出最优决策。由于大型模型具备更强的信息处理能力,它们能够有效利用这些详细反馈来快速改进自己的决策策略。
更有趣的是,研究团队发现大型模型对算法复杂性的需求反而更低。那些为小型模型设计的复杂探索机制,在大型模型上的效果并不明显,有时甚至可能产生负面影响。这是因为大型模型本身就具备较强的探索能力,额外的探索机制可能会干扰其自然的学习过程。
中等规模的30亿参数模型则处于两者之间的平衡点。对于这类模型,研究团队发现课程式学习仍然有效,但可以使用相对简化的课程设计。这些模型既不需要像小型模型那样细致的指导,也不具备大型模型那样强大的直接学习能力。
这个发现对AI训练领域具有重要意义。它表明,随着AI技术的发展和模型规模的扩大,我们的训练策略也需要相应调整。过去那种"一刀切"的训练方法可能并不是最优选择,个性化的训练策略才能真正发挥不同规模AI模型的潜力。
四、数据的黄金平衡点:多少训练样本才够用?
在AI训练中,数据质量和数量的平衡一直是一个关键问题。就像烹饪时食材的分量需要恰到好处一样,训练数据的规模也存在一个最佳平衡点。研究团队通过系统性实验发现了一个出人意料的结果:在长期规划任务中,数据并不是越多越好。
研究团队测试了从100个样本到2000个样本的不同数据规模。结果显示,当训练样本数量达到1000个左右时,AI模型的表现达到了一个理想的平衡点。继续增加数据量虽然能略微提升模型在训练任务上的表现,但却会损害模型的泛化能力,也就是在新任务上的表现能力。
这个现象可以用过度拟合来解释。当AI模型接受过多特定类型的训练时,就像学生过度练习某一类题目,虽然在这类题目上表现很好,但面对新类型题目时反而不如适度练习的学生。在1000个样本的训练规模下,AI既能掌握长期规划的核心技能,又保持了足够的灵活性来处理新的、未见过的规划任务。
数据的难度构成同样重要。研究团队发现,单纯使用简单样本或困难样本进行训练都不是最佳策略。最有效的方法是混合不同难度的样本,具体比例为简单、中等、困难样本按4:3:3的比例组合。这种混合策略的原理类似于健身训练中的渐进式负荷:先用简单任务建立基础能力,再用中等难度任务巩固技能,最后用困难任务挑战极限。
当研究团队尝试只用简单样本训练AI时,模型虽然能够掌握基本的规划逻辑,但在面对复杂约束时往往表现不佳。这就像只练习基础数学的学生,虽然计算能力不错,但解决复杂应用题时就显得力不从心。相反,如果只用困难样本训练,AI模型往往在训练初期就遇到过大挫折,导致学习过程不稳定,最终效果也不理想。
混合难度的训练策略之所以有效,是因为它能够解决奖励稀疏性问题。在长期规划任务中,AI只有在完全成功完成任务时才能获得正面反馈。如果任务过于困难,AI可能长时间得不到正面反馈,学习过程就会停滞。通过加入适量的简单任务,AI能够定期获得成功体验,维持学习的积极性和稳定性。
研究团队还发现,数据的多样性比单纯的数量更重要。1000个涵盖不同旅行场景、约束条件和地理位置的样本,比2000个相似场景的样本更有效。这个发现强调了数据质量和代表性的重要性,提醒我们在AI训练中应该追求精而广,而不是单纯的多。
这个关于数据平衡点的发现对实际应用具有重要指导意义。它表明,在资源有限的情况下,与其盲目收集大量数据,不如专注于构建高质量、多样化的适量数据集。这不仅能节省训练成本,还能获得更好的模型性能。
五、算法选择的智慧:复杂未必更好
在AI训练领域,人们往往倾向于认为更复杂、更先进的算法能带来更好的效果。然而,研究团队的发现挑战了这种传统观念,揭示了一个更加微妙的真相:算法的选择应该与模型的能力相匹配,复杂的算法并不总是最佳选择。
研究团队比较了三种不同的强化学习算法。第一种是标准的GRPO算法,这是一个相对简单但稳定的基础方法。第二种是DAPO算法,它增加了奖励引导的轨迹筛选机制,会丢弃那些奖励变化不大的训练批次。第三种是ARPO算法,它实现了自适应的轨迹分支机制,会根据生成过程中的不确定性动态创建新的探索路径。
对于小型AI模型,复杂算法确实展现出明显优势。15亿参数的模型在使用ARPO和DAPO算法时,成功率分别达到了37.5%和36.9%,显著超过了使用标准GRPO算法的30.1%。这是因为小型模型本身的探索能力有限,需要算法层面的额外帮助来发现更好的解决方案。就像初学者需要更多的指导和提示才能找到正确的学习路径。
然而,随着模型规模的增大,这种算法优势逐渐消失。对于70亿参数的大型模型,标准的GRPO算法反而取得了最好的效果,成功率达到62.8%,超过了复杂算法的表现。这个结果揭示了一个重要原则:当AI模型本身具备足够强的能力时,过度复杂的训练机制可能会干扰其自然的学习过程。
这种现象的原因在于大型模型具备更强的内在探索能力。它们能够自然地在不同策略之间进行权衡和选择,不需要外部算法强制进行额外的探索。相反,那些为小型模型设计的复杂机制可能会与大型模型的内在机制产生冲突,导致训练效率下降。
从计算效率的角度来看,复杂算法的劣势更加明显。ARPO算法需要在每个生成步骤计算熵差以决定是否分支新轨迹,这个过程显著增加了计算开销。对于小型模型而言,这种额外开销是值得的,因为它能带来显著的性能提升。但对于大型模型,既然性能提升不明显,那么额外的计算成本就变得不合算了。
研究团队的训练动态分析进一步证实了这个观点。在训练过程中,使用复杂算法的小型模型表现出更快的收敛速度和更高的峰值性能,训练曲线相对平滑。而大型模型使用简单算法时就已经表现出很好的收敛特性,额外的算法复杂性并没有带来明显改善。
这个发现对AI训练实践具有重要启示。它表明,随着AI技术的发展和模型能力的提升,我们应该调整对算法复杂性的追求。与其一味追求最新、最复杂的算法,不如根据具体任务和模型特点选择最合适的方法。对于资源充足的团队,使用大型模型配合简单可靠的算法可能是最高效的选择。
六、环境稳定性的重要作用:噪声如何影响AI学习
在现实世界中,AI系统往往需要在不完美的环境中工作。网络连接可能中断,API服务可能临时不可用,数据库查询可能返回错误。研究团队认识到这个问题的重要性,专门设计了实验来测试环境不稳定性对AI学习效果的影响。
为了模拟真实世界的不确定性,研究团队在训练过程中随机注入工具执行失败的情况。他们设计了一个通用的错误消息:"当前工具不可用",这个消息会以一定概率在AI尝试使用任何工具时出现。通过调节这个概率从0%到10%,研究团队能够系统性地评估不同程度的环境不稳定性对AI学习的影响。
实验结果揭示了一个有趣的模式:AI对轻微的环境噪声具有相当的适应性,但当噪声水平超过某个临界点时,性能会出现显著下降。具体来说,当工具失败率保持在5%或以下时,AI模型的最终性能几乎不受影响。测试成功率的波动很小,表明训练出的策略具有良好的鲁棒性。
然而,当工具失败率达到10%时,情况发生了显著变化。训练过程变得明显不稳定,收敛速度下降,最终的测试成功率出现了明显的下滑。所有性能指标都受到了负面影响,不仅是最终的任务成功率,连中间的子任务完成情况也都有所恶化。
这种现象的根本原因在于奖励信号的稀疏性问题被进一步放大了。在长期规划任务中,AI本来就需要完成整个任务才能获得成功反馈。当环境不稳定性增加时,即使AI采用了正确的策略,也可能因为随机的工具失败而无法完成任务,从而得不到应有的正面奖励。这就像是一个学生明明掌握了正确的解题方法,但考试时笔总是突然没墨水,导致无法完成答题。
更深层的问题是,高频率的随机失败破坏了AI对因果关系的学习。在正常情况下,AI能够通过试错来理解哪些决策会导致成功,哪些会导致失败。但当随机噪声过多时,成功和失败之间的因果关系变得模糊,AI难以从经验中提取有用的学习信号。
研究团队的分析还发现,环境不稳定性对不同类型的约束检查产生不同程度的影响。那些需要多步骤协调的复杂约束更容易受到噪声干扰,因为任何一个步骤的随机失败都可能导致整个约束检查失败。相比之下,简单的单步约束检查受到的影响相对较小。
这个发现对实际AI应用部署具有重要意义。它提醒我们在设计AI系统时必须考虑环境的可靠性。如果应用环境本身不稳定,那么需要在系统设计层面引入容错机制,比如自动重试、备用方案等。同时,在训练阶段适度引入环境噪声可能有助于提高模型的鲁棒性,但噪声水平必须控制在合理范围内。
七、突破性成果:小模型也能超越大厂AI
经过系统性的研究和优化,研究团队最终实现了令人瞩目的成果。他们训练出的AI模型在旅行规划任务上取得了突破性表现,显著超越了当前最先进的商业AI系统。这个成就不仅验证了他们研究方法的有效性,更重要的是证明了正确的训练策略能够让相对小型的AI模型发挥出超越大型商业系统的能力。
在TravelPlanner测试集上,研究团队的最佳模型达到了前所未有的性能水平。他们的70亿参数模型成功率达到62.8%,而15亿参数的小型模型经过优化训练后也达到了34.9%的成功率。作为对比,业界领先的商业AI系统在相同任务上的表现要差得多:Kimi-K2.5的成功率仅为11.8%,其他知名AI系统的表现也都在15%以下。
这个结果特别令人印象深刻的是,研究团队使用的模型规模远小于那些商业AI系统。现在的顶级商业AI通常拥有数千亿甚至万亿级别的参数,而研究团队的最大模型只有70亿参数。这种"以小博大"的成功清楚地表明,在特定任务上,精心设计的训练方法比单纯的模型规模扩大更加重要。
更有价值的是,研究团队的方法在保持强大任务能力的同时,还维持了良好的泛化性能。他们在七个不同的知识密集型问答任务上测试了训练好的模型,结果显示这些模型不仅在旅行规划上表现出色,在其他需要复杂推理和信息整合的任务上也表现不俗。这说明通过长期规划训练获得的能力具有很好的迁移性,能够帮助AI在更广泛的应用场景中发挥作用。
从技术实现的角度来看,这个成果证明了几个重要观点。首先,它表明复杂的AI能力可以通过系统性的训练方法来获得,而不必完全依赖模型规模的扩大。其次,它证实了针对特定任务进行专门优化的价值,通用AI虽然功能广泛,但在特定领域的表现可能不如专门训练的模型。
研究团队特别强调,他们的成功并不是依靠某个单一的技术突破,而是通过系统性地优化训练流程的每个环节实现的。从数据合成的质量控制,到监督微调的样本筛选,再到强化学习的奖励设计和算法选择,每个步骤都经过了仔细的实验验证和优化调整。这种全流程的系统性方法论可能比任何单一技术创新更具价值。
对于AI行业而言,这个成果提供了一个重要启示:与其一味追求更大的模型和更多的计算资源,不如更多地关注训练方法的科学化和系统化。特别是对于资源相对有限的研究团队或企业,这种方法论可能提供了一条更加可行的技术发展路径。
当然,研究团队也诚实地指出了他们研究的局限性。他们的实验主要在模拟环境中进行,真实世界的复杂性可能带来额外挑战。而且他们的方法目前主要针对单一类型的长期规划任务,在其他类型的复杂推理任务上的效果还需要进一步验证。尽管如此,这项研究为AI长期规划能力的发展提供了一个坚实的基础和清晰的方向。
说到底,这项研究最大的价值可能不在于它取得的具体性能数字,而在于它为AI训练提供的系统性思维框架。它告诉我们,训练AI做复杂任务不是一个黑箱过程,而是可以通过科学的方法进行分析、优化和改进的。随着这种方法论的推广和发展,我们有理由期待AI在更多复杂任务上取得突破性进展。
这个研究成果对普通人来说意味着什么呢?最直接的影响是,我们可能很快就能享受到更智能、更可靠的AI助手服务。无论是旅行规划、项目管理,还是其他需要多步骤协调的复杂任务,AI都将能够提供更好的帮助。而且,由于这种方法不需要庞大的计算资源,相关技术的普及和应用成本也会相对较低,让更多人能够受益于AI技术的发展。
Q&A
Q1:STAR训练流程具体包括哪些步骤?
A:STAR训练流程包括三个核心步骤。首先是数据合成,主动生成高质量、难度可控的训练样本,并验证其可行性。接着是监督微调,使用强大的"老师"AI模型演示任务完成过程,让目标模型学习基础技能。最后是强化学习,让AI在实际任务中通过试错和反馈不断完善决策能力。
Q2:为什么不同规模的AI模型需要不同的训练策略?
A:小型AI模型像初学者,在处理复杂规划时容易迷失方向,需要课程式奖励系统提供循序渐进的指导。大型AI模型像经验丰富的专家,具备更强的理解和学习能力,反而适合直接面对复杂挑战,过多指导可能限制发挥。中等规模模型则需要平衡的训练策略。
Q3:这项研究训练出的AI模型比商业AI系统强在哪里?
A:研究团队的70亿参数模型在旅行规划任务上成功率达到62.8%,而业界领先的Kimi-K2.5成功率仅为11.8%。更重要的是,他们使用的模型规模远小于商业AI系统,证明了精心设计的训练方法比单纯扩大模型规模更有效,同时还保持了良好的泛化能力。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。