微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 RankNovo:上海人工智能实验室开发全能蛋白质序列重排序框架,显著提升从质谱数据解析肽段准确率

RankNovo:上海人工智能实验室开发全能蛋白质序列重排序框架,显著提升从质谱数据解析肽段准确率

2025-05-29 12:07
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 12:07 科技行者

论文基本信息与研究团队

2025年5月23日,由上海人工智能实验室、复旦大学、浙江大学和不列颠哥伦比亚大学等机构的研究团队联合发表了一篇题为《Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing》(通用生物序列重排序框架,提升从头肽段测序)的研究论文。这项由复旦大学的邱子杰、魏佳琪和张翔等人领导的研究发表于第42届国际机器学习会议(ICML 2025),展示了一种全新的方法,用于提高蛋白质组学中的肽段序列分析精度。

一、从头肽段测序:蛋白质组学的关键挑战

想象你在玩一个拼图游戏,但拼图碎片被打散得非常彻底,而且有些碎片可能还是假的。这基本上就是科学家在分析蛋白质时面临的挑战。在生命科学领域,蛋白质是生命活动的主要执行者,了解它们的结构和功能对理解生命过程至关重要。

科学家们使用一种叫做"串联质谱"的技术来分析蛋白质。这个过程就像把一本书(蛋白质)撕成一页页的纸(肽段),然后通过特殊设备读取每一页纸上的文字(氨基酸序列)。但问题是,这些"纸页"在被读取时会产生大量复杂的信号(质谱图),需要专门的方法来解读这些信号并重建原始的"文字"。

目前有两种主要方法来解读这些信号:一种是数据库搜索法,就像查字典一样,将获得的信号与已知的蛋白质序列进行比对;另一种是从头测序法(De novo sequencing),不依赖已知数据库,直接从信号中推断出肽段序列。后者尤其重要,因为它能够发现全新的、未被记录的蛋白质序列。

然而,从头测序面临着巨大挑战。质谱数据本身就非常复杂,包含大量噪声信号,而且不同实验条件(如不同仪器、不同物种)产生的数据分布各异。即使是目前最先进的深度学习模型,如ContraNovo和Casanovo,也存在数据偏好问题——某个模型可能在某种特定条件下表现出色,而在其他条件下表现平平。

就像不同的翻译家各有所长一样,有的擅长翻译文学作品,有的擅长翻译科技文章。研究团队注意到,即使整体表现较弱的模型,在某些特定情况下也能提供准确的预测。这一观察启发他们开发了一种全新的框架,能够综合多个模型的优势,弥补各自的不足。

二、RankNovo:整合多模型优势的创新框架

研究团队提出的RankNovo本质上就像一个资深评审,能够从多位翻译家提供的翻译版本中选出最准确的一个。这个框架并不直接从质谱数据生成肽段序列,而是对多个现有模型(称为基础模型)生成的候选序列进行评估和重排序,选出最可能正确的那一个。

RankNovo的创新之处在于其"列表式重排序"方法。与传统的成对比较方法不同,RankNovo能够一次性处理所有候选序列,从整体角度评估它们之间的关系。这就像评审不是简单地两两比较翻译稿,而是将所有翻译稿同时放在桌上,全面考量后做出判断。

具体来说,RankNovo将候选肽段序列视为"多序列比对"(MSA)——想象多个相似但不完全相同的序列被整齐地排列在一起,像是多个版本的同一段文字并排放置。然后,它使用一种称为"轴向注意力"的机制来提取信息,这包括两个方向:

1. 行方向注意力:分析单个序列内部的关系,就像理解一个句子内部的词语关系。 2. 列方向注意力:比较不同序列在相同位置的氨基酸,就像比较多个翻译版本中对应位置的词语差异。

这种双向的信息流使RankNovo能够全面捕捉序列内部和序列之间的关系,从而做出更准确的判断。同时,RankNovo还从质谱图中提取特征,并通过交叉注意力机制将这些信息与肽段特征整合,进一步提高准确性。

三、创新的评估指标:精确度量肽段差异

在肽段测序领域,准确度的评估至关重要。研究团队发现,传统的二分类评估方法(正确/错误)或编辑距离等指标无法充分反映肽段序列中的微妙差异,尤其是在质量为本的肽段测序任务中。

为解决这一问题,团队开发了两个创新性指标:肽段质量偏差(PMD)和残基质量偏差(RMD)。这些指标就像是精密的测量仪,能够准确捕捉预测序列与真实序列之间的差异。

PMD通过动态规划方法(类似于Needleman-Wunsch算法)来比对序列,但关注点放在氨基酸质量上,而不仅仅是氨基酸类型。想象你不仅比较两个单词是否相同,还要考虑它们的发音相似度。当两个不同的氨基酸具有相似质量时,它们的差异值就较小;反之则较大。这种方法能够更准确地反映肽段序列在质谱角度的相似度。

RMD则更加精细,它关注序列中每个位置的质量差异。这就像不只看整句话是否相似,还要逐字比较每个词的准确性。RMD通过前缀质量(从序列开始到当前位置的累积质量)来评估,这与质谱仪产生的b离子谱图密切相关。

这两个指标不仅为RankNovo提供了更精确的训练目标,还帮助它学会识别那些在传统评估中可能被忽视的微妙差异,如质量相近但功能不同的氨基酸(例如氧化的甲硫氨酸和苯丙氨酸,它们的质量差异仅为0.33 Da)。

四、实验结果:全面超越现有技术水平

研究团队在两个公开基准数据集上评估了RankNovo的性能:9-species-V1和9-species-V2,这两个数据集包含了来自9个不同物种的肽段谱图。

在9-species-V1数据集上,RankNovo实现了平均66.0%的肽段召回率(正确识别的肽段比例),超过了最强的基础模型ByNovo(62.3%)和当前最先进的模型ContraNovo(61.8%)。在氨基酸精度方面,RankNovo达到了82.4%,同样优于ByNovo(80.4%)和ContraNovo(78.4%)。

在更新的9-species-V2数据集上,RankNovo同样表现出色,肽段召回率达到78.1%,氨基酸精度达到90.6%,继续保持对基础模型的领先优势。

这些结果就像一场比赛,RankNovo不仅击败了所有单个"翻译家",还创造了新的纪录。更令人印象深刻的是,RankNovo表现出强大的零样本泛化能力——即使在面对训练过程中从未见过的模型生成的候选序列时,它仍能有效地评估和排序这些序列。这表明RankNovo学到的不仅仅是特定模型的偏好,而是掌握了评估肽段-谱图匹配质量的本质知识。

五、深入分析:RankNovo的成功之道

研究团队进行了一系列详细分析,揭示了RankNovo成功的多个关键因素:

**零样本泛化能力**:当仅使用两个性能最差的基础模型进行训练,然后逐步引入未见过的模型进行推理时,随着引入模型数量的增加,RankNovo的表现稳步提升,从使用2个模型时的58.6%肽段召回率提高到使用6个模型时的64.9%。这证明RankNovo能够有效地泛化到未见过的模型输出。

**各基础模型的贡献**:通过分析仅由单个基础模型提供正确答案的情况,研究团队发现每个模型都有其独特贡献。例如,在Bacillus物种数据中,Casanovo-V2的贡献率为5.6%,而R-ByNovo达到30.3%。这表明即使是整体表现较弱的模型,也能在特定情况下提供关键的正确预测。

**肽段长度影响**:RankNovo在短肽段(7-17个氨基酸)上相对于ContraNovo具有显著优势,而随着肽段长度增加,所有模型的性能都呈下降趋势,但RankNovo始终保持领先。

**质量相似氨基酸的识别**:在区分质量相近的氨基酸(如氧化的甲硫氨酸和苯丙氨酸)时,RankNovo相比基线模型显示出8.0%的改进,证明其在处理这类困难案例时的优越性。

**框架比较与消融研究**:与点式、对式和其他列表式重排序框架相比,RankNovo的PMD+RMD指标组合表现最佳,肽段召回率达到66.0%,而其他框架约为64.7%。消融研究证实了PMD和RMD指标的结合以及列方向注意力机制对最终性能的重要贡献。

**基础模型组合**:实验表明,随着基础模型数量的增加,RankNovo的性能稳步提升,从使用2个模型时的58.6%提高到使用6个模型时的66.0%。这进一步证明了多样化输入对重排序框架的价值。

六、RankNovo的应用潜力与局限性

RankNovo为肽段测序领域带来了全新视角,不再局限于单一模型的性能,而是整合多个模型的优势。这种方法的应用潜力十分广阔:

1. 在蛋白质组学研究中,RankNovo可以提高新蛋白质发现的准确性,推动基础生物学研究。 2. 在疾病生物标志物发现中,更准确的肽段鉴定有助于找到与疾病相关的蛋白质变化。 3. 在药物开发中,准确的肽段鉴定对于理解治疗靶点和开发新药至关重要。 4. 在个性化医疗中,精确的蛋白质分析可以提供更有针对性的诊断和治疗方案。

然而,RankNovo也存在一些局限性。主要是推理速度的问题——由于需要收集多个基础模型的预测结果,RankNovo的推理时间与使用的基础模型数量成正比。随着基础模型从2个增加到6个,每个谱图的处理时间从0.258秒增加到0.949秒,推理速度从3.88谱图/秒下降到1.05谱图/秒。

不过,研究团队指出,这种速度与性能的权衡提供了灵活性,用户可以根据需求选择合适的基础模型组合。未来的工作可以探索更高效的候选采样方法,如使用部分共享权重的基础模型,以减少计算开销。

七、结论与未来展望

RankNovo代表了从头肽段测序领域的重要突破,通过创新的重排序框架和精确的评估指标,显著提高了肽段序列预测的准确性。它不仅超越了现有最先进的单一模型,还展示了强大的零样本泛化能力,为整个领域提供了全新的研究方向。

这项研究向我们展示,在复杂问题面前,整合多种模型的优势往往比单纯追求单一模型的极限性能更有效。正如一个智慧的团队可以做出比最聪明的个人更好的决策一样,RankNovo通过综合多个模型的"意见",实现了整体大于部分之和的效果。

未来,研究团队计划探索更高效的候选采样方法,以减少计算开销,同时保持高准确性。他们还将研究如何将RankNovo应用于更广泛的生物序列分析任务,如蛋白质结构预测和功能注释。

这项研究的代码已在GitHub上公开(https://github.com/BEAM-Labs/denovo),为整个研究社区提供了宝贵资源。感兴趣的读者可以通过该链接获取完整代码和更多技术细节。

随着像RankNovo这样的创新方法的出现,我们有理由相信,蛋白质组学研究将迎来新的突破,为生命科学和医学领域带来更多重要发现。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-