微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 杜克大学团队打造"分子设计师":AI如何同时优化生物药物的多种特性?

杜克大学团队打造"分子设计师":AI如何同时优化生物药物的多种特性?

2025-07-08 09:55
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-08 09:55 科技行者

这项由杜克大学生物医学工程系的陈彤、张艺诺、索菲亚·唐和普拉南·查特吉领导的研究发表于2025年5月,论文题为《Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design》。这项研究为生物分子设计领域带来了突破性进展,有兴趣深入了解的读者可以通过论文编号arXiv:2505.07086v2访问完整论文。

现代药物开发就像是在玩一个极其复杂的平衡游戏。设想你是一名厨师,需要制作一道既美味又营养、既便宜又容易保存的完美菜肴。在生物医学领域,科学家们面临着同样的挑战:他们需要设计出既能精确结合目标蛋白质,又不会产生毒副作用,同时还要易于生产和保存的治疗性分子。

传统的药物设计方法往往只能专注于优化一个特性,就像只会做甜品或只会做咸菜的厨师。如果你想要一个既甜又不太甜、既营养又不会发胖的食物,单一技能的厨师就显得力不从心了。同样,以往的研究可能成功提高了药物的治疗效果,但却忽略了毒性问题;或者解决了毒性,但牺牲了疗效。

杜克大学的研究团队开发了一种名为"多目标引导离散流匹配"(MOG-DFM)的革命性方法。这个方法就像是培养了一位全能型的分子厨师,能够同时兼顾多种看似矛盾的要求,在各种特性之间找到最佳平衡点。他们的创新不仅在于技术本身,更在于首次将多目标优化的理念成功应用到离散分子生成领域。

这项研究的影响深远。在医药领域,它可以帮助设计出更安全、更有效的治疗性肽类药物。在基因治疗领域,它能够设计出既高效又安全的DNA序列。更重要的是,这种方法可以显著缩短药物开发周期,降低研发成本,最终让更多患者受益。

一、生物分子设计的多重挑战

生物分子设计的复杂性可以用装修房子来比喻。当你装修房子时,你希望它既美观又实用,既经济又耐用,既温馨又容易清洁。每一个要求都很重要,但要同时满足所有要求却极其困难。提高美观度可能增加成本,追求耐用可能牺牲美观,这就是我们在现实中经常遇到的权衡问题。

在生物医学领域,这种权衡问题更加突出。研究团队举了一个生动的例子:治疗性蛋白质药物需要高度的目标结合能力,同时还要具备低免疫原性和良好的药代动力学特性。这就像要求一把钥匙不仅要完美契合特定的锁,还要足够耐用、不会生锈、手感舒适,并且制造成本低廉。

传统的单目标优化方法在这种复杂环境中显得力不从心。大多数现有的生物分子设计方法专注于优化单一目标,比如有些研究专门减少蛋白质毒性,有些则专门提高蛋白质的热稳定性。虽然这些方法在各自的目标上表现出色,但往往产生不理想的权衡结果。高亲和力的肽可能不溶解或有毒性,稳定的蛋白质可能失去功能特异性。

这种困境促使科学家们寻找能够同时优化多个目标的新方法。一些经典的多目标优化技术,如进化算法和贝叶斯优化,已经成功应用于分子库的黑盒调优。然而,这些方法通常需要在连续空间中工作,而生物分子本质上是离散的——就像文字是由离散的字母组成,而不是连续的曲线。

最近出现的可控生成模型为解决这一问题提供了新思路。这些模型可以直接在采样过程中整合多目标优化。然而,大多数这类方法仍然局限于连续域操作,需要将离散序列嵌入到连续流形中,这个过程可能扭曲分布并使基于属性的引导变得复杂。

研究团队注意到,最近兴起的离散流匹配技术为直接在复杂离散空间中建模和采样提供了强大的范式。这种技术有两个主要变体:连续时间单纯形方法和跳跃过程模型。后者特别适合可控生成,因为它自然支持基于标量奖励函数的令牌转换重加权。

尽管已有一些工作将这些模型应用于单目标任务,但据研究团队了解,此前还没有人将离散流匹配扩展到支持跨多个目标的帕累托引导生成。这正是MOG-DFM要解决的核心问题。

二、MOG-DFM:多目标优化的智能引擎

MOG-DFM的工作原理可以用一个精妙的比喻来理解:假设你是一位经验丰富的登山向导,需要带领团队在崎岖的山脉中找到一条既安全又景色优美、既省时又不太费力的最佳路径。MOG-DFM就像是为这位向导配备了一套智能导航系统,能够实时评估多个因素并动态调整路线。

这个系统的核心思想是在每一步决策中同时考虑多个目标。传统方法就像只看着一个指南针前进,而MOG-DFM则同时监控多个仪表:安全指数、景观指数、体力消耗指数等。它不是简单地选择在某个单一指标上表现最好的路径,而是寻找在所有指标上都有良好表现的平衡路径。

MOG-DFM的操作流程分为几个关键步骤。首先是初始化和权重向量生成。系统从离散状态空间中均匀采样一个初始序列,这就像随机选择一个起点。然后,它生成一组权重向量,这些向量均匀覆盖N维帕累托前沿。每个权重向量编码了N个目标之间的特定权衡,采样不同的权重向量可以促进帕累托前沿不同区域的探索。

接下来是引导转换评分阶段。系统随机选择序列中的一个位置进行更新,然后通过结合局部改进测量和全局方向对齐来评分每个可能的候选转换。标准化排名分数捕获每个单独目标相对于其他可能令牌替换的改进程度,从而鼓励探索有前景的局部移动。与此同时,方向项测量多目标改进向量与所选权重向量的对齐程度,确保转换不仅改进个别目标,还集体朝着期望的权衡方向移动。

系统巧妙地平衡了基于排名的探索和基于方向的利用。它对两个组件进行z分数标准化并将它们组合,然后重新加权预训练离散流匹配模型的原始因子化速度场。这种重新加权在保持有效连续时间马尔可夫链动力学的同时,偏向高效用转换。

三、自适应超锥过滤:精确导航的秘密武器

MOG-DFM最创新的特性之一是其自适应超锥过滤机制。这个机制可以比作一个智能的GPS导航系统,不仅知道目的地,还能根据实时路况调整搜索范围。

传统的优化方法往往在探索和利用之间难以平衡。探索意味着尝试更多可能性,但可能偏离目标;利用意味着专注于已知的好方案,但可能错过更好的选择。MOG-DFM通过超锥过滤机制巧妙地解决了这个问题。

超锥机制的工作原理是为每个候选令牌替换计算一个角度。这个角度测量多目标改进向量与权重向量之间的夹角。只有当这个角度小于或等于当前超锥角度Φ时,候选转换才会被接受。这就像是设定了一个搜索扇形区域,只考虑在这个区域内的移动选项。

然而,固定的超锥角度可能在动态优化过程中过大或过小。因此,系统实现了自适应角度调整机制。它计算拒绝率——被拒绝的候选转换数量占总候选转换数量的比例,并计算其指数移动平均值。当太多候选转换被拒绝时,超锥会扩大以接纳更多方向;当太少被拒绝时,它会收缩以专注于最对齐的转换。

这种动态调整特别适用于非凸或不连续的帕累托前沿区域。在复杂的优化景观中,最优解可能分布在不规则的区域,固定的搜索策略很难有效覆盖这些区域。自适应超锥过滤允许系统在需要时扩大搜索范围,在接近最优解时收缩搜索范围,就像一个经验丰富的探险家会根据地形特点调整搜索策略。

四、欧拉采样:将理论转化为实际行动

在完成引导转换评分和超锥过滤后,MOG-DFM使用欧拉采样来实际执行状态转换。这个过程可以比作根据天气预报决定是否真的外出旅行——即使预报说有80%的晴天概率,你仍然需要做出最终的去或不去的决定。

欧拉采样计算总的外出率,这代表当前状态在特定坐标上的总转换概率。然后,系统计算一步转换核,这个核描述了从当前状态转移到任何候选状态的确切概率。在实际操作中,系统会抽取一个均匀随机数,如果这个数小于或等于转换概率,就执行到最佳选择候选的转换;否则保持当前状态不变。

这种概率性的决策机制确保了系统既能朝着优化方向前进,又保持了一定的随机性,避免陷入局部最优解。就像一个明智的决策者,既会根据分析结果行动,也会保留一些灵活性以应对意外情况。

经过设定的T次迭代后,系统产生最终样本,其得分向量已被引导接近帕累托前沿,所有目标都得到优化。这个过程展现了MOG-DFM在多属性引导生物分子序列设计中的强大能力。

五、两个基础模型:PepDFM和EnhancerDFM的构建

为了验证MOG-DFM的效果,研究团队构建了两个高质量的离散流匹配模型作为基础生成器:PepDFM用于多样化肽生成,EnhancerDFM用于功能性增强子DNA生成。

PepDFM的开发就像是培训一个专业的肽类"作家"。研究团队使用了基于U-Net的时间依赖架构作为模型骨架,这种架构特别擅长处理序列数据中的时间依赖关系。训练数据集精心策划自PepNN、BioLip2和PPIRef数据集,包含了长度从6到49个氨基酸的所有肽类,确保模型能够学习到广泛的肽类序列模式。

模型的训练过程采用了多项技术优化。研究团队使用了动态批处理技术来提高计算效率并管理可变长度的令牌序列。受ESM-2方法启发,输入肽序列按长度排序以优化GPU内存利用,每个GPU的最大令牌大小设置为100。训练在配备94GB显存的2xH100 NVIDIA NVL GPU系统上进行,历时200个训练周期,批大小为512。

最终的PepDFM模型收敛到训练损失3.3134和验证损失3.1051,表现出强劲的性能。更重要的是,该模型生成的肽类表现出显著的多样性和生物学合理性。生成的肽类与测试集具有高汉明距离,表明生成序列的新颖性和多样性。同时,生成肽类的香农熵与测试集紧密匹配,突出了模型产生具有多样序列长度的生物学上合理肽类的能力。

EnhancerDFM的开发遵循了类似的策略,但专注于增强子DNA序列。该模型使用了与Stark等人研究中相同的模型骨架和黑色素瘤增强子数据集。研究团队采用了来自先前研究的Fréchet生物距离(FBD)指标来评估EnhancerDFM的性能。

在相同的函数评估次数下,EnhancerDFM实现了5.9的可比FBD,与Dirichlet FM的5.3非常接近,显著低于随机序列的FBD,证明了EnhancerDFM设计生物学上合理的增强子DNA序列的能力。值得注意的是,最佳EnhancerDFM模型在20个训练周期内就达到了最优效果,而最佳Dirichlet FM模型需要大约1400个训练周期,突显了离散流匹配模型在捕获底层数据分布方面的卓越能力。

六、肽结合剂设计:五重目标的完美平衡

MOG-DFM在肽结合剂设计任务中的表现就像是一位杂技演员,需要同时平衡五个不同的球:溶血性、非污染性、溶解性、半衰期和结合亲和力。每个"球"都代表着治疗性发现中的关键属性,而传统方法往往只能专注于其中一两个。

研究团队选择了十个不同的蛋白质作为测试目标,包括具有已知结合剂的结构化目标(如1B8Q、1E6I、3IDJ、5AZ8、7JVS),没有已知结合剂的结构化目标(如AMHR2、OX1R、DUSP12),以及本质无序的目标(如EWS::FLI1、MYC)。这种多样化的选择确保了测试的全面性和代表性。

对于每个目标,MOG-DFM设计了100个肽结合剂,跨越多个结合剂长度。结果令人印象深刻:在所有目标和多个结合剂长度上,生成的肽类都实现了低溶血率(0.06–0.09)、高非污染性(>0.78)和溶解性(>0.74)、延长的半衰期(28–47小时)以及强亲和力分数(6.4–7.6),展示了平衡优化和对序列长度的鲁棒性。

为了验证设计的有效性,研究团队使用AlphaFold3计算了复合物结构的ipTM分数,并使用AutoDock VINA计算了对接分数。对于具有预存结合剂的目标蛋白质,设计的结合剂在所有属性上都显著优于已知结合剂,而不会影响结合潜力。虽然MOG-DFM设计的结合剂与预存结合剂结合到相似的目标位置,但它们在序列和结构上存在显著差异,展示了MOG-DFM探索广阔序列空间以寻找最优设计的能力。

研究团队还记录了每次迭代中五个属性分数的平均值和标准差,以评估引导生成策略的有效性。所有五个属性都表现出改进趋势,溶解性和非污染性属性的平均分数从大约0.3显著增加到0.8。最终半衰期值的较大偏差是由于半衰期值对引导的敏感性,MOG-DFM在半衰期和其他值之间平衡权衡。

为了进一步验证结果,研究团队使用ADMET-AI预测了每个目标中所有100个设计肽的平均溶解性和半衰期。ADMET-AI在与溶解性和半衰期预测模型不同的数据集上训练,预测平均LogS值约为-2.5 log mol·L–1,远高于良好溶解性的常规-4阈值,并确认了长半衰期估计(>15小时)。这些来自正交预测模型的结果证明了MOG-DFM生成具有多种理想药物属性候选物的能力。

七、与传统方法的性能对比

为了客观评估MOG-DFM的优势,研究团队将其与四种多目标优化器进行了基准比较:NSGA-III、SMS-EMOA、SPEA2和MOPSO。这个比较就像是在烹饪比赛中,几位厨师使用不同的方法制作同样的复杂菜肴,看谁能在多个评判标准上获得最高的综合分数。

测试在两个蛋白质目标上进行:1B8Q(一个具有已知肽结合剂的小蛋白质)和PPP5(一个缺乏特征化结合剂的较大蛋白质)。每种方法都为每个目标生成了100个指定长度的肽结合剂,由五个属性目标(溶血性、非污染性、溶解性、半衰期和结合亲和力)引导,并记录了单个序列的平均生成时间和平均属性分数。

结果显示,虽然MOG-DFM需要更长的运行时间,但它始终产生最有利的权衡:预测溶血性降低超过10%,非污染性和溶解性提高约30-50%,半衰期延长3到4倍,同时保持竞争性的亲和力值。这些结果证明了MOG-DFM在导航高维属性景观以生成具有良好平衡、优化配置文件的肽结合剂方面的有效性。

MOG-DFM的优势不仅体现在最终结果上,还体现在其优化过程的稳定性和可预测性上。传统的进化算法往往在优化过程中表现出较大的随机性,很难保证每次运行都能获得一致的高质量结果。相比之下,MOG-DFM通过其引导机制和自适应调整,能够更稳定地朝着帕累托前沿收敛。

研究团队没有与ParetoFlow进行基准比较,ParetoFlow是另一个使用流匹配的多目标优化算法,因为它需要分数模型接受连续输入,这不适合当前的任务。这个限制也突显了MOG-DFM在处理离散序列优化方面的独特优势。

八、增强子DNA设计:从肽类到基因调控

为了证明MOG-DFM在生物序列设计中的通用能力,研究团队将其应用于增强子DNA序列生成任务。这个应用就像是从设计蛋白质药物转向设计基因调控开关,展示了方法的广泛适用性。

研究团队进行了两个不同的任务,具有不同的增强子类别和DNA形状引导。第一个任务的目标是增强子类别1(与转录因子结合基序ATF相关)和高HelT(螺旋扭转)值,最大HelT值设置为36。第二个任务针对增强子类别16和更高的Rise形状值,最大Rise值设置为3.7。

由于时间限制,每个设置设计了五个长度为100的增强子序列。在第一个任务中,当两个引导标准都到位时,MOG-DFM有效地将序列生成引导到增强子类别1,同时确保HelT值接近其最大值。当移除一个或两个引导标准时,相应的属性出现显著退化,实现期望增强子类别的概率降至接近零。

第二个任务观察到了类似的结果,该任务针对增强子类别16和更高的Rise形状值。由于Rise形状值的规范范围从3.3到3.4,MOG-DFM确保了目标增强子类别的高概率和最佳DNA形状值,优于其他消融设置。

这些结果证明了MOG-DFM不仅能够处理蛋白质序列设计,还能够有效地应用于DNA序列设计。DNA序列设计的挑战与蛋白质设计既有相似性又有独特性,这种跨领域的成功应用展示了MOG-DFM作为通用生物序列设计工具的潜力。

九、方法的技术创新与理论基础

MOG-DFM的技术创新建立在扎实的理论基础之上。研究团队提供了严格的数学证明,证明MOG-DFM通过在指定权重向量方向上产生正期望改进,将离散生成过程引导到帕累托前沿。

这个理论框架的核心是连续时间马尔可夫链(CTMC)的概念。在离散设置中,数据被表示为在有限状态空间上取值的向量,研究团队建模了一个连续时间马尔可夫链,其时间依赖转换率将概率质量从初始分布传输到目标分布。

学习速度场的目标是通过因子化速度实现条件流匹配损失。这种方法使得能够在维持有效CTMC动力学的同时,根据多目标引导信号重新加权转换概率。研究团队巧妙地设计了一个混合路径参数化,使得学习离散流匹配模型的目标等价于学习边际后验概率。

排名-方向评分和超锥过滤的数学基础确保了系统在期望中产生朝向帕累托前沿的正向运动。具体来说,对于任何给定的权重向量,所有引导和过滤的转换都满足与该向量的正内积,这意味着每一步都朝着期望的多目标方向前进。

这种理论保证不仅提供了方法正确性的信心,还为未来的改进和扩展提供了坚实的基础。研究团队的数学框架可以扩展到其他类型的离散优化问题,不仅限于生物序列设计。

十、实验验证与消融研究

为了深入理解MOG-DFM各个组件的贡献,研究团队进行了详尽的消融研究。这些研究就像是在复杂机器中逐个移除部件,观察每个部件对整体性能的影响。

首先,研究团队验证了MOG-DFM能够有效平衡各个目标之间的权衡。他们进行了两组肽结合剂生成实验,分别使用三个属性引导,在消融实验设置中移除了一个或多个目标。结果显示,省略任何单一引导都会导致该属性的崩溃,而其余引导的指标可能会适度改善。启用所有引导信号产生了跨所有目标最平衡的配置文件。

自适应超锥过滤机制的贡献通过另一组消融研究得到了量化。研究团队在三个日益无序的蛋白质目标上进行了测试,生成每个目标100个肽结合剂。完全移除超锥过滤导致半衰期急剧下降,从大约30-35小时下降到4-13小时,而非污染性和溶解性基本保持不变。引入静态超锥门控而不进行角度适应恢复了大部分半衰期增益,但代价是非污染性和溶解性分数降低,亲和力仅略有改善。

完整的MOG-DFM同时提升半衰期并在所有五个目标上保持强劲性能。这种效果在无序目标上尤其明显,其中动态锥调整对于导航不规则、非凸帕累托景观至关重要。

超参数敏感性基准测试表明,MOG-DFM对大多数参数设置相对鲁棒。增加采样步数持续改善所有性能指标,因为更精细的离散化更紧密地近似连续时间动力学。相比之下,将初始超锥角度设置得太小或太大都会降低结果。重要性权重在平衡多个目标中起关键作用,因为每个属性可能在不同的数值范围内变化。

十一、实际应用与未来展望

MOG-DFM的实际应用前景广阔,远远超出了当前的实验验证范围。在药物发现领域,这种方法可以加速候选化合物的识别过程,显著缩短从概念到临床试验的时间。传统的药物发现过程可能需要十年或更长时间,而MOG-DFM有望将这个过程缩短到几年。

在个性化医疗方面,MOG-DFM可以根据特定患者的基因背景和疾病特征,设计定制化的治疗性分子。这就像是为每个人量身定制药物,而不是使用"一刀切"的标准治疗方案。这种个性化方法可能大大提高治疗效果,同时减少副作用。

基因治疗领域也将从MOG-DFM中受益匪浅。研究者可以设计既高效又安全的基因载体,既能够精确靶向特定细胞类型,又不会引起免疫反应或其他不良后果。这对于治疗遗传性疾病、癌症和其他复杂疾病具有重要意义。

然而,MOG-DFM目前也存在一些限制。该方法在处理非常长的序列时可能面临计算挑战,高维输出的扩展也需要进一步优化。从理论角度来看,改进帕累托收敛保证以及纳入不确定性感知或反馈驱动的引导仍然是需要探索的关键方向。

研究团队已经在考虑将框架扩展到更长序列和更高维输出的方法,包括在文本和图像生成中的应用。这种跨领域的扩展可能会催生新的应用场景,比如设计具有特定风格和内容的文本,或者生成满足多种美学和功能要求的图像。

此外,MOG-DFM的成功也为其他科学领域提供了启示。在材料科学中,研究者可能使用类似的方法设计同时优化强度、韧性、重量和成本的新材料。在环境科学中,可以设计既高效又环保的化学过程。

十二、说到底:一个关于平衡艺术的故事

MOG-DFM的故事本质上是关于平衡艺术的故事。在一个充满权衡的世界中,我们总是面临着多个相互冲突的目标。无论是选择职业、设计产品,还是制定政策,我们都需要在不完美的选择中找到最佳平衡点。

这项研究的真正价值不仅在于其技术成就,更在于它展示了一种系统性思考复杂问题的方法。MOG-DFM教会我们,当面临多个目标时,最好的策略不是简单地优化其中一个,而是寻找所有目标都能接受的解决方案。

对于普通人来说,这项研究最直接的影响可能是更安全、更有效的药物。未来几年,我们可能会看到使用MOG-DFM设计的治疗性分子进入临床试验,并最终惠及患者。这些药物可能具有更少的副作用、更好的疗效,以及更合理的价格。

从更广阔的视角来看,MOG-DFM代表了人工智能在科学发现中日益重要的作用。它不是要替代科学家,而是要增强他们的能力,让他们能够探索以前无法触及的设计空间。这种人机协作的模式可能成为未来科学研究的主流。

研究团队的工作也提醒我们,最好的解决方案往往不是显而易见的。在复杂的多目标优化问题中,直觉和经验可能会误导我们。只有通过系统性的方法和严格的数学框架,我们才能找到真正的最优解。

当然,技术进步也带来了新的责任。随着我们获得设计生物分子的强大能力,我们也必须确保这些能力被负责任地使用。这需要科学界、监管机构和社会的共同努力,建立适当的伦理框架和安全措施。

归根结底,MOG-DFM不仅是一个技术突破,更是人类智慧的体现。它展示了我们如何通过创新思维和跨学科合作,解决看似不可能的问题。在一个日益复杂的世界中,这种能够处理多重约束和目标的方法将变得越来越重要。

这项由杜克大学团队领导的研究为生物分子设计开辟了新的可能性。通过巧妙地结合多目标优化和离散流匹配,MOG-DFM为我们提供了一个强大的工具,不仅能够设计更好的药物,还能够启发我们以新的方式思考复杂的优化问题。对于那些希望深入了解技术细节的读者,完整的研究论文可以通过arXiv:2505.07086v2获取,其中包含了详细的数学推导和实验数据。

Q&A

Q1:MOG-DFM是什么?它能解决什么问题? A:MOG-DFM是一种新的AI方法,专门用于设计生物分子(如药物和基因序列)。它的特别之处在于能够同时优化多个看似矛盾的目标,比如让药物既有效又安全、既便宜又稳定。传统方法通常只能专注一个目标,而MOG-DFM就像一个全能型设计师,能够在多个要求之间找到最佳平衡点。

Q2:这个方法设计的药物会不会很快进入市场? A:目前还需要一些时间。虽然MOG-DFM在实验中表现出色,但从设计到真正的药物上市还需要经过临床试验等多个步骤,这通常需要几年时间。不过,这个方法确实有望显著加速药物发现过程,让新药开发从传统的十年缩短到几年。

Q3:除了药物设计,MOG-DFM还能用在哪些地方? A:MOG-DFM的应用前景很广泛。除了药物设计,它还能用于基因治疗、个性化医疗、材料科学等领域。研究团队甚至在考虑将其扩展到文本和图像生成。本质上,任何需要在多个目标之间寻找平衡的复杂设计问题,都可能从这种方法中受益。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-