微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

香港理工大学团队突破：让AI在分子世界里"边想边创造"，推理过程也能看得见

人工智能分子发现透明推理

香港理工大学团队突破：让AI在分子世界里"边想边创造"，推理过程也能看得见

作者：科技行者

2025-08-18 10:19

分享至：

香港理工大学联合多所高校开发的Mol-R1框架，首次实现了AI在分子发现中的透明推理。该系统通过PRID方法学习专家推理模式，配合MoIA迭代训练策略，不仅能准确生成分子结构，还能展示完整思考过程。相比现有模型，Mol-R1推理更简洁高效，为药物研发等领域的AI应用提供了重要的安全保障。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-08-18 10:19 • 科技行者

药物发现本质上就像是一场高难度的拼图游戏，科学家需要根据文字描述，准确拼出一个能够发挥特定作用的分子结构。传统的人工智能就像一个熟练的拼图高手，能够快速给出答案，但你却看不到它的思考过程。而现在，香港理工大学的李嘉童、王韦达等研究团队，联合上海人工智能实验室、上海交通大学和复旦大学，开发出了一个名为Mol-R1的全新框架，让AI不仅能完成这个拼图游戏，还能完整展示它的推理过程，就像一位经验丰富的化学家在实验室里边思考边工作一样。

这项发表于2025年8月11日的研究（论文编号：arXiv:2508.08401v1），可以说是AI辅助分子发现领域的一次重要突破。想象一下，当化学家需要设计一种新药时，他们通常会这样描述目标分子："我需要一个苯甲酸酯，由2,5-二羟基苯甲酸与苯基甲醇结合而成"。传统的AI系统就像一台神奇的转换器，输入这段描述后立即输出分子的SMILES表示（一种化学分子的字符串表示方法），但整个过程就像黑盒子一样无法观察。

研究团队发现，现有的长链思维推理模型，比如DeepSeek-R1和QWQ-32B，虽然在数学推理和常识推理方面表现出色，但在分子发现这个需要高度专业知识的领域却遇到了两个关键问题。第一个问题就像厨师没有食谱一样——这些模型缺乏高质量的推理数据来启动训练，现有的分子数据集比如ChEBI-20只包含分子描述和结构，却没有连接两者的推理过程。第二个问题则像是学生做题时只看结果不看过程——现有的训练方法只关注最终答案是否正确，而不管推理过程是否合理，这导致模型经常产生错误的推理路径。

Mol-R1框架就像给AI配备了一位经验丰富的化学导师，通过两个核心创新来解决这些问题。首先是"先验调节情境蒸馏"（PRID），这个方法就像让AI观摩一位专家化学家的完整工作过程。研究团队请专家手工编写了一个详细的推理示例，展示如何从分子描述一步步推导出分子结构。然后，AI通过观察这个示例，学会了如何进行类似的推理。这就像学习烹饪时，师傅先完整演示一道菜的制作过程，徒弟通过观察学会了烹饪的基本思路和方法。

第二个创新是"分子迭代适应"（MoIA），这个训练策略就像是一个循序渐进的学习过程。传统的训练方法要么是纯粹的监督学习（像填鸭式教育），要么是纯粹的强化学习（像完全自主探索）。而MoIA则巧妙地将两者结合起来，就像一个优秀的教育系统既有课堂教学，又有实践练习。在每个迭代周期中，AI首先通过监督学习巩固确定性知识，然后通过强化学习策略优化在更大数据集上的表现，最后通过拒绝采样来更新训练数据，形成一个不断提升的正向循环。

整个训练过程分为三个阶段，就像攀登一座高山。在T=0阶段，AI使用PRID方法生成的1053个高质量推理样本进行基础训练，掌握基本的推理模式。接着在T=1阶段，训练数据扩展到7285个样本，AI的推理能力得到进一步提升。最终在T=2阶段，训练数据达到8700个样本，AI的表现趋于稳定并达到最佳状态。

研究团队采用了多种评估指标来全面考察Mol-R1的性能。除了传统的BLEU分数、精确匹配率等准确性指标外，他们还创新性地引入了"一致性F1分数"来评估推理质量。这个指标就像请一位化学专家来审查AI的推理过程，判断这个推理是否能够逻辑一致地得出正确结论。如果推理过程本身是合理的，即使最终答案有误，也比答案侥幸正确但推理过程错误要更有价值。

实验结果令人印象深刻。与最先进的推理模型相比，Mol-R1在T=2迭代后实现了显著的性能提升。相比QWQ-32B，Mol-R1的BLEU分数提高了354%，而且在一致性F1分数上也达到了最高水平。更重要的是，Mol-R1生成的推理过程平均只有428个词，而QWQ-32B需要4518个词，DeepSeek-R1甚至需要5337个词。这意味着Mol-R1不仅更准确，而且更高效，就像一位经验丰富的专家能够用最简洁的语言解释复杂问题一样。

为了证明PRID方法的优越性，研究团队进行了详细的对比实验。他们发现，即使使用更少的训练数据（1053个样本），PRID方法的效果也明显优于传统的拒绝采样方法（使用2943个样本）。这就像精心设计的小班教学往往比大班填鸭式教育更有效果。传统的拒绝采样方法让AI自由探索，但在分子推理这个需要精确知识的领域，自由探索往往导致大量错误的推理路径，反而影响学习效果。

MoIA的迭代训练策略也展现出了明显的优势。研究团队发现，单纯使用强化学习会导致模型在约800步后就停止改进，而MoIA框架下的模型能够持续改进到2000步左右。这就像马拉松跑者需要合理分配体力一样，适当的节奏调整能够帮助达到更好的最终成绩。

在奖励函数的设计上，研究团队发现了一个有趣的权衡现象。当他们提高精确匹配奖励的权重时，模型确实能产生更多完全正确的分子结构，但同时会降低化学有效性。这就像学生为了考试高分而过度专注于标准答案，可能会忽视对基本概念的理解。研究团队最终选择了一个平衡的奖励策略，既保证准确性，又维持合理的化学有效性。

通过具体案例分析，研究团队展示了Mol-R1在不同迭代阶段的推理演化过程。以"O-甲基丙二酰肉碱"的一价阴离子为例，在T=0阶段，模型能够识别出基本结构但在去质子化处理上存在错误。到了T=1阶段，模型开始正确处理某些官能团的修饰，但仍有遗漏。最终在T=2阶段，模型成功生成了完全正确的SMILES表示，整个推理过程逻辑清晰、步骤合理。

这项研究的意义远不止于技术层面的突破。在药物研发领域，理解AI的推理过程对于确保药物安全性至关重要。当AI推荐一个新的药物分子时，研究人员需要知道AI是基于什么逻辑得出这个结论的，特别是涉及毒性或副作用等安全相关的特性。Mol-R1提供的透明推理过程就像给化学家提供了一个可视化的思维导图，帮助他们更好地理解和验证AI的建议。

研究团队还进行了理论分析，从信息论的角度证明了显式推理的有效性。他们证明了在理想情况下，完美的推理路径能够减少答案的不确定性，而即使是有缺陷的推理路径，只要能够提供关于答案的新信息，也比直接预测更有价值。这为显式推理方法提供了坚实的理论基础。

当然，这项研究也存在一些局限性。目前的工作主要集中在文本到分子的生成任务上，而在实际药物开发中，还需要考虑三维结构、蛋白质相互作用等更复杂的因素。此外，专家标注的推理示例虽然质量很高，但获取成本相对较高，如何进一步自动化这个过程也是未来研究的方向。

展望未来，Mol-R1框架为AI辅助科学发现开辟了新的可能性。这种"边思考边创造"的AI模式不仅适用于分子设计，也可能扩展到材料科学、生物工程等其他需要复杂推理的科学领域。随着AI推理能力的不断提升，我们有理由期待AI能够成为科学家们更加智能和可信赖的研究伙伴。

从更宏观的角度来看，这项研究体现了AI发展的一个重要趋势——从黑盒子走向透明化。就像医生需要解释诊断理由、律师需要阐述法律逻辑一样，AI系统特别是在高风险领域的应用，必须能够提供可解释、可验证的推理过程。Mol-R1在分子发现领域的成功实践，为构建更加透明和可信的AI系统提供了宝贵经验。

Q&A

Q1：Mol-R1与传统AI分子生成方法的主要区别是什么？

A：传统AI方法就像一个高速转换器，直接将分子描述转换为分子结构，但看不到思考过程。而Mol-R1就像一位化学家，会展示完整的推理过程——它会分析分子描述的每个部分，逐步推导出分子结构，让科学家能够理解和验证AI的思维逻辑。这种透明性对药物安全性评估特别重要。

Q2：PRID方法为什么比传统的拒绝采样更有效？

A：拒绝采样就像让学生完全自主学习，在分子推理这种需要精确专业知识的领域往往产生大量错误路径。而PRID方法就像让优秀老师先示范标准解题过程，AI通过观摩专家的推理示例学会正确的思维方式。实验显示，即使用更少的训练数据，PRID方法的效果也明显更好。

Q3：MoIA迭代训练与单纯强化学习相比有什么优势？

A：单纯强化学习就像让运动员只进行比赛而不进行基础训练，很快就会遇到瓶颈。MoIA方法则像科学的训练计划，既有基础知识巩固（监督学习），又有实战练习（强化学习）。实验表明，单纯强化学习在800步后就停止改进，而MoIA能持续改进到2000步，最终效果更好。

人工智能分子发现透明推理