微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Google DeepMind发明可解释的AI对战新技术:让机器人用代码思考战略

Google DeepMind发明可解释的AI对战新技术:让机器人用代码思考战略

2026-03-19 21:40
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-03-19 21:40 科技行者

这项由Google DeepMind领导的研究发表于2026年的《Thirty-Fourth International Joint Conference on Artificial Intelligence》,论文编号为arXiv:2603.10098v1。对这一前沿技术感兴趣的读者可以通过该编号查询完整论文。

当我们看到围棋AI击败世界冠军,或者游戏AI在复杂策略游戏中所向披敌的时候,你是否好奇过这些AI究竟是如何思考的?就像一个高手下棋时我们看不透他的心思一样,传统的AI系统也是一个"黑匣子"——我们知道它很厉害,但完全不知道它的决策逻辑。Google DeepMind的研究团队最近解决了这个困扰已久的问题,他们开发出一种全新的AI训练方法,能让AI直接用人类可以阅读的代码来表达自己的策略思维。

就如同我们能够看懂一本烹饪食谱的每个步骤一样,这种新技术让AI的每一个决策都变得透明可读。研究团队将这种方法称为"代码空间响应预言机"(CSRO),它不再依赖传统的神经网络黑匣子,而是让AI直接生成可执行的程序代码作为其策略。这就好比原来AI是一个神秘的大师,只告诉你最终答案,而现在它会把整个思考过程都写成详细的说明书给你看。

传统的多智能体强化学习就像培训一群看不见内心想法的高手。在策略空间响应预言机(PSRO)这种经典方法中,AI通过不断对战来进化自己的策略,每次都会产生一个更强的神经网络。但问题在于,这些神经网络就像密封的黑匣子,即使它们表现再出色,我们也无法理解它们是如何做决策的。这在需要可解释性的重要应用场景中是一个严重的障碍,就如同你不会信任一个无法解释诊断过程的医生一样。

研究团队想到了一个巧妙的解决方案:既然大型语言模型已经展现出了强大的代码生成能力,为什么不让它们直接生成策略代码呢?这个创新想法就像是从"训练一个会下棋的机器人"转变为"让机器人写出下棋的程序"。通过这种方式,AI不仅能制定策略,还能清楚地解释每一步的思考逻辑。

这种新方法的工作原理相当有趣。每当需要产生新策略时,系统会给大型语言模型提供详细的游戏规则、编程接口说明,以及当前对手策略的描述或代码。然后,语言模型就会像一个经验丰富的程序员一样,写出针对这些对手的最佳应对策略。这个过程就如同你请一位象棋高手不仅要下赢对手,还要把自己的每一步策略都详细写成攻略给你看。

为了确保生成的策略足够强大,研究团队还设计了多种改进机制。最基础的是零样本生成,就像让程序员一次性写出完美程序。然后有线性完善机制,如果第一次生成的策略不够好,系统会根据对战结果不断修改优化,就像根据试菜结果调整食谱一样。最先进的是AlphaEvolve系统,它使用分布式进化算法,让多个程序同时进化,就像同时培养多个厨师团队,让他们互相学习和竞争,最终产生最优秀的烹饪方案。

研究团队在两个经典的策略游戏环境中测试了这种新方法。第一个是重复石头剪刀布游戏,虽然听起来简单,但实际上是一个考验对手建模和模式识别能力的复杂问题。在这个游戏中,最佳策略不是随机出招,而是要能够识别和利用对手的行为模式。就像在真实的石头剪刀布比赛中,高手会观察对手的习惯和心理状态来制定应对策略。

第二个测试环境是重复Leduc德州扑克,这是一个包含不完全信息、虚张声势和复杂决策的游戏。在这个环境中,AI不仅需要评估手牌强度,还要能够推测对手的策略意图,决定何时加注、跟注或弃牌。这就像真实的扑克游戏一样,需要综合考虑概率计算、心理博弈和风险管理。

实验结果令人印象深刻。在石头剪刀布游戏中,新方法生成的策略能够与最强的基准方法媲美,甚至在某些指标上表现更优。更重要的是,这些策略完全可以被人类阅读和理解。例如,系统生成的一个高性能策略包含了32个不同的预测专家,使用了复杂的加权投票机制,甚至实现了"心理理论"模型来预测对手的想法。这就像一个围棋高手不仅要会下棋,还要能清楚地解释自己为什么这样下,对手可能会如何应对。

在Leduc扑克中,生成的最佳策略展现了经典的期望值计算方法,结合了对手建模来驱动决策。这个策略能够根据不同对手的特点调整自己的打法:面对总是跟注的对手时,它会专注于价值下注;面对总是弃牌的对手时,它会频繁虚张声势。这种自适应能力完全通过可读的代码逻辑体现出来,任何人都可以理解其决策原理。

这项研究的突破性意义不仅在于技术创新,更在于它为AI系统的可解释性开辟了全新道路。传统上,我们在AI性能和可解释性之间面临艰难的权衡——要么选择性能优秀但无法解释的黑匣子,要么选择简单可解释但性能受限的方法。而这种新技术首次证明了我们可以同时获得高性能和完全的可解释性。

从计算效率的角度来看,这种方法也展现了独特优势。传统的强化学习方法需要进行大量的游戏模拟来训练神经网络,往往需要数百万甚至数十亿次对战。而新方法主要依靠大型语言模型的推理能力,虽然每次生成策略需要调用语言模型,但总体的计算资源消耗要少得多。这就像从"通过大量练习来培养直觉"转变为"通过深度思考来制定策略"。

当然,这种方法也面临一些限制。首先,它的性能很大程度上依赖于底层大型语言模型的能力和提示词的质量。如果语言模型本身存在局限,或者提示词设计不当,就可能导致生成的策略质量不佳。其次,虽然减少了训练时的计算需求,但频繁调用大型语言模型API仍然会产生显著的计算成本。最后,这种方法目前主要在相对简单的游戏环境中得到验证,能否扩展到更复杂的现实世界应用场景还有待进一步研究。

尽管存在这些挑战,这项研究为人工智能领域指出了一个极具前景的发展方向。随着大型语言模型能力的不断提升,我们有理由相信这种方法将能够处理越来越复杂的策略问题。更重要的是,它为解决AI系统的信任和可解释性问题提供了全新思路,这对于AI在医疗、金融、自动驾驶等高风险领域的应用具有重要意义。

说到底,这项研究最大的价值在于它让我们看到了AI发展的另一种可能性。我们不再需要在"聪明但神秘"和"简单但透明"之间做出选择,而是可以追求"既聪明又透明"的AI系统。这种透明性不仅有助于建立人类对AI的信任,还能让我们从AI的策略中学习到新的见解和方法。当AI能够清楚地解释自己的每一个决策时,它就不再是一个无法理解的黑匣子,而是成为了我们理解复杂问题和制定最优策略的智能助手。对于那些希望深入了解这一创新技术细节的读者,可以通过论文编号arXiv:2603.10098v1查阅完整的研究报告。

Q&A

Q1:代码空间响应预言机是什么技术?

A:代码空间响应预言机(CSRO)是Google DeepMind开发的一种新型AI训练技术,它让AI直接生成人类可以阅读的代码来表达策略,而不是使用传统的黑匣子神经网络。就像让AI把自己的思考过程都写成详细说明书,这样人类就能完全理解AI是如何做决策的。

Q2:这种技术比传统AI训练方法有什么优势?

A:主要优势是完全的可解释性和计算效率。传统方法产生的AI策略像黑匣子一样无法理解,而CSRO生成的策略完全透明可读。同时,它不需要传统方法那样进行数百万次对战训练,主要依靠大型语言模型的推理能力,大大降低了计算资源消耗。

Q3:代码空间响应预言机能应用在哪些场景?

A:目前已在石头剪刀布和扑克等策略游戏中得到验证,未来可能扩展到需要高可解释性的重要应用领域,如医疗诊断、金融决策、自动驾驶等。任何需要AI能够清楚解释决策逻辑的场景都可能从这种技术中受益。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-