
这项由香港中文大学(深圳)的张文谦、刘振和香港中文大学的刘伟阳共同领导的研究发表于2024年10月,感兴趣的读者可以通过arXiv:2510.14980v1查询完整论文。
想象一下,如果你能向AI描述"我需要一台能投掷石块的机器",然后AI就像一个真正的工程师一样,从零开始设计出一台工作正常的投石机——这不是科幻小说,而是这项研究正在探索的前沿领域。
从古希腊人制造安提基特拉机械装置预测日食,到达·芬奇设想飞行机器,人类一直通过设计和制造机器来推进文明。如今,大语言模型在许多认知任务上已经接近甚至超越人类表现,这让研究者们思考一个令人兴奋的问题:计算机模型能否像人类一样构思和创造复杂的机器来实现特定目标?
研究团队发现,现有的AI系统虽然能够合成3D形状和生成CAD模型,但真正的挑战在于创造复杂的组合结构——就像时钟由简单的齿轮和飞轮组合而成,但同样的元件以不同方式组合又能创造出完全不同的机器,比如缝纫机。这种"组合性"正是机器设计的核心:组合被功能需求塑造,而功能需求又通过组合来实现。
一、BesiegeField:AI的机器设计实验室
为了让AI学习机器设计,研究团队创建了一个名为BesiegeField的特殊环境,这就像为AI搭建了一个虚拟的工程师工作间。这个环境基于一款名为Besiege的物理建造游戏,玩家在游戏中需要用各种机械零件设计中世纪战争机器来完成摧毁城堡等任务。
BesiegeField提供了近80种不同的建造模块,从被动零件(如钻头和木料)到动力零件(如动力齿轮和轮子)应有尽有。机器的建造遵循简单而现实的规则:从一个起始块开始,通过将新零件依次连接到现有零件的可附着表面来构建机器,形成一个"建造树"。动力零件可以接收控制指令,让机器精确运行。在物理模拟过程中,系统会记录每个零件的完整状态信息,为AI提供反馈。
这个环境巧妙地平衡了现实世界的几何和物理特性、零件层面的语义意义,以及简单的组合规则。相比于积木堆叠环境(如乐高或我的世界),BesiegeField提供了现实的物理模拟和具有明确功能意义的零件。相比于CAD建模的复杂性,BesiegeField使用立方体式的建造规则,既支持现实物理,又保持了足够的抽象性,使得组合过程易于处理。
二、让AI当工程师:多智能体设计流程
研究团队设计了三种不同的AI工作流程来测试机器设计能力。第一种是单智能体设置,让一个AI代理独自完成整个设计任务。AI需要理解环境描述、可用机械零件、组装语法和功能需求,然后生成思维链来推理需要什么以及为什么需要,最后将抽象计划转化为具体的建造树。
然而,组合机器设计既需要低层次的空间推理,又需要高层次的构思,单个代理很难产生满意的机器。因此,研究团队设计了迭代编辑工作流程,包含三个主要角色:设计师负责根据需求产生初始计划,精炼师作为自我批评代理评估草案并提出多个修订候选方案,环境查询器运行机器模拟并总结环境反馈。
工作流程从设计师的草案开始,然后由检查员以抽象方式评估设计,接着由精炼师进行改进。设计会经历固定次数的迭代,每次包含一个查询器步骤和一个精炼师步骤。在精炼阶段,系统会生成多个候选方案并运行蒙特卡罗树搜索,选择最佳设计作为输出。
第三种方法是分层建造,灵感来自典型的人类设计过程。元设计师首先分析需求和约束,构建主要功能模块的高层蓝图及其相互连接。有了这个蓝图,系统采用自回归策略逐块建造机器:从第一个功能块开始,将任务分配给八个并行的建造代理,然后将有效设计平均分配给另外八个建造代理来构建第二个块,如此迭代直到整台机器组装完成。
三、AI设计师的考试:汽车与投石机挑战
为了测试AI的机器设计能力,研究团队选择了两个概念简单但具代表性的目标机器:汽车和投石机。这两个任务虽然都需要理解零件语义和结构语法,但重点不同。汽车建造主要测试静态关系推理,如确保零件方向正确、保持对称性和稳定性。相比之下,投石机建造挑战动态关系推理,零件必须随时间协调以产生因果机械效果。
两个任务都简单到只需要几个零件就能构建,可以在AI的上下文窗口内处理,但又足够复杂,需要明确推理建造策略和因果依赖关系。评估汽车和投石机的性能分别通过它们的行驶距离和投掷距离(即石头的移动距离)来衡量。
研究团队使用多个定量指标来评估智能体系统:文件有效率(生成的JSON文件能够成功解析为机器建造树的比例),空间有效率(生成的机器没有自碰撞的比例),机器有效率(同时满足文件和空间有效性的机器比例),以及平均和最大模拟分数(在环境中获得的平均和最高奖励)。
四、AI工程师的真实表现
研究结果显示,组合机器设计对AI来说确实是一个具有挑战性的任务,尽管并非不可解决。Gemini 2.5 Pro能够持续构建视觉上合理且性能不错的机器,但没有证据表明推理模型比非推理模型表现更好,这表明主要瓶颈在于AI有限的3D理解能力或上下文学习能力。
有趣的是,AI特别是推理模型仍然表现出一定的空间和物理推理能力,就像文本空间中的世界模型。然而,研究团队也识别出AI生成机器的常见失败模式:零件方向错误、零件位置错误(零件连接到错误的父级)、指令跟随失败(高层蓝图的元素没有被严格遵循),以及高层推理缺陷(AI无法识别正确的物理原理或基本组件)。
环境反馈被证明是有用的——代理接收的环境反馈越多,生成机器的整体性能通常越好。编辑历史也有助于减少创建有效机器时的失败尝试次数,这突出了基础模型更长上下文窗口对高效探索的重要性。
分层设计只有在蓝图抽象层推理可靠时才能改善平均性能,这从Gemini 2.5 Pro的表现可以看出。与直觉一致,分层设计作为更结构化和原则性的方法,通常会产生获得分数方差较小的结果。
五、通过强化学习提升AI设计能力
虽然智能体系统在组合机器设计方面显示出希望,但仅仅扩大系统规模不太可能是经济的解决方案,因为错误会快速累积。正如人类会内化经验一样,AI代理也应该将新知识整合到权重中。因此,研究团队探索了在BesiegeField中使用可验证奖励的强化学习来开发机器设计能力。
团队策划了一个小数据集来冷启动AI,方法是收集Besiege玩家社区的机器功能文本描述,并提示Gemini 2.5 Pro生成相应的机器。经过过滤无效生成后,他们获得了9,984个有效的机器-思维链配对。然后使用这个数据集对Qwen-2.5-14B-Instruct进行了12轮的监督微调。
强化学习实验采用了群体相对政策优化方法,使用LoRA参数化和混合精度训练来微调冷启动模型。研究团队评估了标准GRPO优势估计器和pass@k变体。每个实验在8个A100 GPU上运行400次迭代,每GPU批量大小为1,梯度累积为8,并应用强度为0.001的KL正则化。
结果显示,强化学习微调通常可以提高平均性能,主要通过增加机器有效性的百分比。同时,研究团队发现最大奖励在最佳设置中也有所增加。类似于许多其他RLVR设置的观察,即使有正则化,输出分布的熵也会快速下降。
六、从理想到现实:挑战与机遇
研究团队在实验过程中发现了一些有趣的现象。在微调过程中,模型通常会进行细节层面的调整,如移动零件位置,但保持相同的高层设计策略而不是探索替代策略。虽然这些策略往往是合理的,但模型很难找到能够使零件间顺畅协调的精确配置。这种精确性对于像投石机这样的复杂机制正常运行尤其重要。
不出所料,仅仅冷启动并不能让模型产生满意的设计,而在冷启动模型上进行微调比在基础模型上微调效果更好。Pass@k微调更可能发现有前景的机器设计,这对于最终关心最佳性能设计的情况尤其重要。
组合机器设计为AI能力引入了独特的需求。如果机器零件的空间放置不精确,设计可能无法正确运行——例如,如果齿轮未对齐,齿轮传动就无法传递旋转。由于设计过程通常是分层的,成功的AI必须能够准确地将高层蓝图转换为详细的几何设计。
机器设计涵盖概念层推理和详细规格说明,这种双重需求往往导致大型设计文档,需要通过文本表达的"视觉推理"形式,类似于AI应用于可缩放矢量图形和CAD模型中所研究的内容。多模态推理也很重要,因为有效的机器设计通常依赖于将文本描述与视觉或示意图表示相结合。
七、未来展望:AI工程师的进化之路
这项研究展现了AI在机器设计领域的巨大潜力,但也揭示了现有技术的局限性。当前最好的AI系统能够设计出功能性的机器,但距离人类工程师的创造力和精确度还有很大差距。特别是在需要精确空间推理和复杂物理理解的任务中,AI仍然面临挑战。
研究团队指出,与定理证明等任务不同(一个有效证明通常就足够了),设计领域通常需要生成多样化的候选解决方案集合。这种多样性对于产品差异化、适应不可预测的市场需求以及考虑现实世界测试和部署中的不确定性至关重要。因此,组合机器设计的AI模型应该更像生成模型而不是简单的奖励最大化器。
不过,这项研究的意义远不止于技术突破本身。在现实世界中,现代设计管道往往冗长且成本高昂,特别是在大规模项目中,每次迭代都需要大量资源。这些项目积累了大量文档和蓝图集合,使得追踪、检索或重用过去的设计工作变得困难。许多重要的专业知识都是在团队和世代之间非正式传递的,在许多情况下从未被完全记录并已被遗忘。
一个自动化的机器设计系统可以直接解决这些挑战。这样的系统不仅仅是模仿历史设计的模式,而应该具有智能体特性:能够探索指数级庞大的设计空间,利用先验知识为新需求和约束创造新颖设计,并通过反馈改进它们。
说到底,这项研究开启了一个令人兴奋的可能性:未来的AI不仅能理解和生成文本,还能像真正的工程师一样思考和创造。虽然我们距离AI完全取代人类设计师还很遥远,但这种技术可能会彻底改变设计流程,让工程师能够更快地探索设计空间,更容易地测试创新想法,最终推动整个工程领域的进步。对于普通人来说,这意味着未来我们可能会看到更多创新的产品和解决方案,因为AI能够帮助人类工程师突破传统思维的限制,探索前所未有的设计可能性。
Q&A
Q1:BesiegeField是什么?
A:BesiegeField是研究团队创建的AI机器设计训练环境,基于Besiege这款物理建造游戏开发。它提供了近80种机械零件,让AI能够像在虚拟工程师工作间一样学习设计和组装各种机器,并通过物理模拟测试机器的实际性能。
Q2:AI现在能独立设计出复杂机器吗?
A:目前还不能完全独立设计复杂机器。研究显示,最好的AI系统如Gemini 2.5 Pro能够设计出功能性的简单机器如汽车和投石机,但在需要精确空间推理和复杂物理理解的任务中仍面临挑战,距离人类工程师的创造力和精确度还有很大差距。
Q3:这项研究对普通人有什么实际意义?
A:这项研究可能会彻底改变未来的产品设计流程。虽然AI不会完全取代人类设计师,但能帮助工程师更快地探索设计方案,更容易测试创新想法。对普通人来说,这意味着未来可能会看到更多创新产品和解决方案,因为AI帮助突破了传统设计思维的限制。
好文章,需要你的鼓励
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。
英国国王学院研究团队开发了潜在精炼解码(LRD)技术,解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程:先让AI在连续空间中"深思熟虑",保持多种可能性的混合状态,然后"果断行动",逐步确定答案。实验显示,LRD在编程和数学推理任务中准确性提升最高6.3个百分点,生成速度提升最高10.6倍,为AI并行文本生成开辟了新路径。
清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法,巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中,让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法,特别是在处理模型知识盲区时表现突出,同时有效避免了灾难性遗忘问题,为AI训练提供了更高效稳定的新范式。