微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 强化学习在应用中寻找策略“最优解”

强化学习在应用中寻找策略“最优解”

2021-04-13 14:57
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2021-04-13 14:57 科技行者

强化学习(RL)是一种强大的人工智能技术,能够掌握复杂的策略以控制各类大规模复杂系统,包括制造流水线、交通控制系统(道路/火车/飞机)、金融资产以及机器人等等。如今,强化学习正由实验室环境一步步走向真正具备现实影响力的应用场景。例如,Wayve与Waymo等自动驾驶汽车厂商正在使用强化学习技术开发汽车控制系统。

目前,工业中通常使用AI系统执行各类模式识别与预测分析任务。例如,AI系统可以识别图像中的模式以检测人脸(人脸识别),或者发现销售数据中的模式以预测需求变化等等。而在另一方面,强化学习方法能够在具备反馈循环的应用中做出最佳决策或采取最佳行动。通过两个直观用例,相信大家已经对AI与强化学习之间的区别与联系建立起初步了解。

强化学习在应用中寻找策略“最优解”

假定我们使用AI技术运营一家制造工厂。AI提供的模式识别功能可用于质量保证,包括通过扫描图像及最终产品以检测设计乃至制造层面的缺陷。另一方面,强化学习系统则可以对制造流程所遵循的策略(例如确定需要运行的生产线、控制机器/机器人、确定要制造的产品类型等)进行计算与执行,不断结合反馈信息发现现有策略中的改进空间,在保证一定产品质量水平的同时最大程度提升特定指标(例如产量)。以往,这类问题由于涉及大量影响因素而难以被常规AI系统所解决,但强化学习的出现无疑带来了希望的曙光。

在使用强化学习计算最佳策略或政策时,相关算法面临的主要挑战在于“时间信用分配”问题。具体来讲,在特定系统状态之下(例如「机器的当前输出水平,每条流水线的繁忙程度」等),行为(例如「星期三运行1号生产线」)对整体效能(例如「总产量」)产生的影响往往需要一段时间后才能确定。更让人头痛的是,总体效能还会受到具体操作方式的左右。总而言之,我们在预先制定策略与评估效果时,往往很难判断哪些是好选择、哪些是坏想法。在这类复杂问题中,大量潜在的系统状态还会引发恐怖的“维度诅咒”,进一步加剧结果的不确定性。但好消息是,强化学习近年来在实验室中的出色表现为解决这类难题带来了值得期待的希望。

之前,强化学习的卓越性能主要表现在棋类游戏与电子游戏领域。单凭对屏幕上图像及游戏得分这两项输入信息,强化学习系统就很快在各类雅达利游戏中横扫人类玩家,给整个AI社区留下了深刻印象。而这套出色的系统,是由伦敦AI研究实验室DeepMind于2013年所一手创造。后来,DeepMind又从AlphaGo代理起步构建起一系列强化学习系统(也称代理),能够在围棋对抗中轻松击败世界顶尖玩家。凭借着2015年至2017年之间的这一系列壮举,强化学习之名席卷全球。而在围棋这一拥有无数拥趸、且向来以高复杂度与中远期战略思考著称的脑力运动中拔得头筹,也让人们对于强化学习的未来应用充满好奇。

在此之后,DeepMind以与AI研究实验室OpenAI发布了面向《星际争霸》与《DOTA 2》游戏的系统,其同样与全球顶尖人类玩家打得有来有往。看起来,强化学习在这类要求严谨战略思考、资源管理与游戏内多单位操控/协调的场景下仍然拥有不俗的表现。

通过让强化学习算法完成数百万盘游戏,系统一步步摸索出哪些策略真实有效,而哪些策略更适用于针对不同类型的对手及玩家。以强大的算力为基础,强化学习算法往往会采用多种思路,并一一尝试不同策略的具体效果。该系统会尝试策略空间穷举、自我对抗、多策略联动以及学习人类玩家策略等多种方式,快速在策略空间探索与沿用现有良好策略之间取得平衡点。简单来讲,大量的试验使得系统得以探索出多种不同游戏状态,而复杂的评估方法则让AI系统摸索出在合理的游戏形势下、哪些策略或操作能够实现良好的中长期收益。

但在现实世界中使用这些算法的主要障碍,在于我们不太可能逐一完成这数百万次试验。好消息是,有新的解决方案能够解决这个难题:首先为应用场景创建起计算机模拟环境(制造工厂或市场模拟环境等),而后使用强化学习算法从中整理出最佳策略,最后再将总结出的最佳策略纳入实际场景、通过进一步调参反映现实世界。OpenAI就曾在2019年进行过一轮引人注目的演示,通过训练机器人手臂单手解开魔方来证明这种模拟训练方法的有效性。

但要让这种方法切实起效,模拟环境必须能够准确表达潜在问题。从某种意义上说,待解决的问题在模拟环境中就已经得到某种形式的“解决”,不可有任何影响系统性能的外部因素。例如,如果模拟的机器人手臂与真实机器人手臂相差太大,那么实际操作时手臂就没办法拿稳小小的魔方。在这种情况下,就算模型本身得到了正确训练、也拥有了良好的抗干扰能力,仍然不可能达到预期目标。

这种种限制给强化学习的实际应用带来了巨大的挑战,甚至有可能带来令人不快的意外。在早期制造工厂示例中,如果将其中某台设备替换为速度更快或更慢的机器,则可能改变厂内的整体生产动态,导致我们不得不重新训练强化学习模型。虽然同样的情况也会影响到一切强化控制系统,但人们对于强化学习方案的期望明显更高,所以必须想办法消除这些不符合预期的问题。

无论如何,强化学习在现实场景中的应用确实展现了光明的未来,也已经有众多初创企业在尝试使用强化学习技术控制制造机器人(Covariant、Osaro、Luffy)、管理生产规划(Instadeep)、企业决策(Secondmind)、物流(Dorabot)、电路设计(Instadeep)、控制自动驾驶汽车(Wayve、Waymo、Five AI)、控制无人机(Amazon)、运营对冲基金(Piit.ai)乃至更多模式识别型AI系统无法轻松应对的现实场景。

另外,各大高科技企业也已经在强化学习研究方面投入大量资金。谷歌就在2015年以4亿英镑(约合5.25亿美元)收购了DeepMind。但为了保持竞争优势,双方均未公布更多交易细节。

也许当前的强化学习应用还显得有些笨拙且步履蹒跚,但在强大算力与雄厚财力的双重加持之下,其很可能在不久的将来成为市场上不容忽视的核心技术成果。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-