微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

强化学习在应用中寻找策略“最优解”

AI游戏娱乐

强化学习在应用中寻找策略“最优解”

作者：科技行者

2021-04-13 14:57

分享至：

强化学习正由实验室环境一步步走向真正具备现实影响力的应用场景。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2021-04-13 14:57 • 科技行者

强化学习(RL)是一种强大的人工智能技术，能够掌握复杂的策略以控制各类大规模复杂系统，包括制造流水线、交通控制系统(道路/火车/飞机)、金融资产以及机器人等等。如今，强化学习正由实验室环境一步步走向真正具备现实影响力的应用场景。例如，Wayve与Waymo等自动驾驶汽车厂商正在使用强化学习技术开发汽车控制系统。

目前，工业中通常使用AI系统执行各类模式识别与预测分析任务。例如，AI系统可以识别图像中的模式以检测人脸(人脸识别)，或者发现销售数据中的模式以预测需求变化等等。而在另一方面，强化学习方法能够在具备反馈循环的应用中做出最佳决策或采取最佳行动。通过两个直观用例，相信大家已经对AI与强化学习之间的区别与联系建立起初步了解。

假定我们使用AI技术运营一家制造工厂。AI提供的模式识别功能可用于质量保证，包括通过扫描图像及最终产品以检测设计乃至制造层面的缺陷。另一方面，强化学习系统则可以对制造流程所遵循的策略(例如确定需要运行的生产线、控制机器/机器人、确定要制造的产品类型等)进行计算与执行，不断结合反馈信息发现现有策略中的改进空间，在保证一定产品质量水平的同时最大程度提升特定指标(例如产量)。以往，这类问题由于涉及大量影响因素而难以被常规AI系统所解决，但强化学习的出现无疑带来了希望的曙光。

在使用强化学习计算最佳策略或政策时，相关算法面临的主要挑战在于“时间信用分配”问题。具体来讲，在特定系统状态之下(例如「机器的当前输出水平，每条流水线的繁忙程度」等)，行为(例如「星期三运行1号生产线」)对整体效能(例如「总产量」)产生的影响往往需要一段时间后才能确定。更让人头痛的是，总体效能还会受到具体操作方式的左右。总而言之，我们在预先制定策略与评估效果时，往往很难判断哪些是好选择、哪些是坏想法。在这类复杂问题中，大量潜在的系统状态还会引发恐怖的“维度诅咒”，进一步加剧结果的不确定性。但好消息是，强化学习近年来在实验室中的出色表现为解决这类难题带来了值得期待的希望。

之前，强化学习的卓越性能主要表现在棋类游戏与电子游戏领域。单凭对屏幕上图像及游戏得分这两项输入信息，强化学习系统就很快在各类雅达利游戏中横扫人类玩家，给整个AI社区留下了深刻印象。而这套出色的系统，是由伦敦AI研究实验室DeepMind于2013年所一手创造。后来，DeepMind又从AlphaGo代理起步构建起一系列强化学习系统(也称代理)，能够在围棋对抗中轻松击败世界顶尖玩家。凭借着2015年至2017年之间的这一系列壮举，强化学习之名席卷全球。而在围棋这一拥有无数拥趸、且向来以高复杂度与中远期战略思考著称的脑力运动中拔得头筹，也让人们对于强化学习的未来应用充满好奇。

在此之后，DeepMind以与AI研究实验室OpenAI发布了面向《星际争霸》与《DOTA 2》游戏的系统，其同样与全球顶尖人类玩家打得有来有往。看起来，强化学习在这类要求严谨战略思考、资源管理与游戏内多单位操控/协调的场景下仍然拥有不俗的表现。

通过让强化学习算法完成数百万盘游戏，系统一步步摸索出哪些策略真实有效，而哪些策略更适用于针对不同类型的对手及玩家。以强大的算力为基础，强化学习算法往往会采用多种思路，并一一尝试不同策略的具体效果。该系统会尝试策略空间穷举、自我对抗、多策略联动以及学习人类玩家策略等多种方式，快速在策略空间探索与沿用现有良好策略之间取得平衡点。简单来讲，大量的试验使得系统得以探索出多种不同游戏状态，而复杂的评估方法则让AI系统摸索出在合理的游戏形势下、哪些策略或操作能够实现良好的中长期收益。

但在现实世界中使用这些算法的主要障碍，在于我们不太可能逐一完成这数百万次试验。好消息是，有新的解决方案能够解决这个难题：首先为应用场景创建起计算机模拟环境(制造工厂或市场模拟环境等)，而后使用强化学习算法从中整理出最佳策略，最后再将总结出的最佳策略纳入实际场景、通过进一步调参反映现实世界。OpenAI就曾在2019年进行过一轮引人注目的演示，通过训练机器人手臂单手解开魔方来证明这种模拟训练方法的有效性。

但要让这种方法切实起效，模拟环境必须能够准确表达潜在问题。从某种意义上说，待解决的问题在模拟环境中就已经得到某种形式的“解决”，不可有任何影响系统性能的外部因素。例如，如果模拟的机器人手臂与真实机器人手臂相差太大，那么实际操作时手臂就没办法拿稳小小的魔方。在这种情况下，就算模型本身得到了正确训练、也拥有了良好的抗干扰能力，仍然不可能达到预期目标。

这种种限制给强化学习的实际应用带来了巨大的挑战，甚至有可能带来令人不快的意外。在早期制造工厂示例中，如果将其中某台设备替换为速度更快或更慢的机器，则可能改变厂内的整体生产动态，导致我们不得不重新训练强化学习模型。虽然同样的情况也会影响到一切强化控制系统，但人们对于强化学习方案的期望明显更高，所以必须想办法消除这些不符合预期的问题。

无论如何，强化学习在现实场景中的应用确实展现了光明的未来，也已经有众多初创企业在尝试使用强化学习技术控制制造机器人(Covariant、Osaro、Luffy)、管理生产规划(Instadeep)、企业决策(Secondmind)、物流(Dorabot)、电路设计(Instadeep)、控制自动驾驶汽车(Wayve、Waymo、Five AI)、控制无人机(Amazon)、运营对冲基金(Piit.ai)乃至更多模式识别型AI系统无法轻松应对的现实场景。

另外，各大高科技企业也已经在强化学习研究方面投入大量资金。谷歌就在2015年以4亿英镑(约合5.25亿美元)收购了DeepMind。但为了保持竞争优势，双方均未公布更多交易细节。

也许当前的强化学习应用还显得有些笨拙且步履蹒跚，但在强大算力与雄厚财力的双重加持之下，其很可能在不久的将来成为市场上不容忽视的核心技术成果。

AI游戏娱乐

分享至

0赞

好文章，需要你的鼓励

推荐文章

人工智能
音频语言模型
对抗攻击

2025-08-13 14:37

当善良声音变身恶意武器：AIM Intelligence团队揭秘音频AI的隐藏危机

AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞，开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容，成功率超过86%，完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险，对全球数十亿智能设备构成潜在威胁。
人工智能
视觉强化学习
多模态大语言模型

2025-08-13 14:37

新加坡国立大学团队揭示：让AI既能看又能做的视觉强化学习新突破

新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展，涵盖超过200项代表性工作。研究将该领域归纳为四大方向：多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型，分析了从RLHF到可验证奖励范式的政策优化策略演进，并识别出样本效率、泛化能力和安全部署等关键挑战，为这一快速发展的交叉学科提供了完整的技术地图。
人工智能
体感推理
多智能体协作

2025-08-13 14:36

浙大团队揭秘：为什么AI机器人在现实世界中总是"掉链子"？OmniEAR基准测试暴露惊人真相

浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示，即使最先进的AI在明确指令下能达到85-96%成功率，但面对需要从物理约束推断行动的任务时，成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力，监督学习虽能改善单体任务但对多智能体协作效果甚微，表明当前架构存在根本局限性。
人工智能
深度学习
模型优化

2025-08-13 14:36

AI模型训练中藏着的秘密巨人：纽约大学和Aimpoint Digital Labs发现Transformer里的"超级激活"如何悄悄控制整个模型

纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律，研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是，通过调整模型架构参数如注意力密度、宽深比等，可以在训练前就预测和控制这些关键激活的行为，为设计更高效、量化友好的AI模型提供了全新工具。