微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Ankh3: 蛋白质语言模型的多任务预训练革命,让蛋白质"说话"更有深度

Ankh3: 蛋白质语言模型的多任务预训练革命,让蛋白质"说话"更有深度

2025-06-01 08:09
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-01 08:09 科技行者

**研究新进展:由Proteinea公司研究团队创新突破**

在生物科技领域的最新研究中,Proteinea公司的研究团队Hazem Alsamkary、Mohamed Elshaffei、Mohamed Elkerdawy和Ahmed Elnaggar于2025年5月26日在arXiv上发表了一篇创新性论文《Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations》(论文编号:arXiv:2505.20052v1)。这项研究展示了如何通过多任务预训练显著提升蛋白质语言模型的性能,为蛋白质设计和分析开辟了新路径。

**为什么蛋白质"语言"如此重要?**

想象一下,如果我们能像理解人类语言一样理解蛋白质的"语言",那将会如何改变医药和生物技术的世界?蛋白质是生命的基础工作者,执行着从催化反应到免疫防御的各种关键任务。理解蛋白质序列中隐藏的信息模式,就像破译一种古老的密码,可以帮助科学家设计新药物、改进疫苗,甚至创造具有特定功能的全新蛋白质。

传统的蛋白质语言模型(PLMs)往往专注于单一的预训练任务,就像只教孩子认字而不教他造句一样,限制了模型对蛋白质序列全面信息的理解能力。虽然一些研究者尝试通过添加更多数据类型或监督目标来提高模型性能,但预训练过程常常仍然集中在去噪损坏的序列这一单一任务上。

**Ankh3:让蛋白质语言模型"一心多用"**

Proteinea的研究团队开发的Ankh3模型采用了一种创新的多任务预训练策略。就像人类同时学习阅读和写作能力会更全面地掌握语言一样,Ankh3同时在两个不同的任务上进行训练:

首先是带有多种掩码概率的掩码语言建模(masked language modeling,MLM)。这就像在阅读理解测试中,有时遮住文章中10%的词,有时遮住20%或30%的词,要求模型猜出被遮住的内容。这种变化的难度让模型能够适应不同程度的信息缺失。

其次是蛋白质序列补全任务。想象你只给出一个故事的前半部分,要求AI写出后半部分。Ankh3就是在学习如何根据蛋白质序列的前半部分,预测出它的后半部分应该是什么样子。

这种"一心多用"的训练方法,使得Ankh3能够仅从蛋白质序列中学习到更丰富、更具普适性的表示(representations)。就像一个既会阅读又会写作的学生比只会阅读的学生理解语言更全面一样。

**模型的"大脑结构"**

Ankh3模型有两种规格:Ankh3-Large和Ankh3-XL,它们的"大脑"结构不同。Ankh3-Large拥有约18.8亿个参数,而Ankh3-XL则有约57.3亿个参数,规模更大、能力更强。这就像一个拥有更多神经元的大脑,能够处理更复杂的问题。

两个模型都基于T5架构,这是一种包含编码器和解码器的变换器模型。可以把编码器想象成阅读理解部分,它负责理解输入的蛋白质序列;解码器则像是写作部分,负责生成或预测序列。Ankh3-Large的编码器有约11.5亿个参数,解码器有约7.3亿个参数;而Ankh3-XL的编码器约有34.8亿个参数,解码器约有22.5亿个参数。

**训练的"食材"和"烹饪方法"**

Ankh3模型的训练使用了来自UniRef50数据库的近5915万个独特蛋白质序列。UniRef50是一个经过精心筛选的蛋白质序列集合,其中的序列相似性不超过50%,确保了数据的多样性和代表性。这就像是给模型提供了一本包含地球上几乎所有主要蛋白质家族的百科全书。

在训练设置上,研究团队采用了三种不同的掩码概率:15%、20%和30%,让模型能够适应不同难度的预测任务。对于序列补全任务,模型需要根据序列的前半部分预测后半部分。两个任务在训练过程中随机分配,确保模型能够全面学习蛋白质序列的各种特性。

训练过程使用了64个TPUv4芯片,这是谷歌开发的专门用于机器学习的高性能处理器。Ankh3-Large训练了约400万步,而Ankh3-XL训练了约500万步,批量大小均为1024。这就像是让模型反复练习数百万次,直到它真正掌握了蛋白质序列的规律。

**模型的"考试成绩"**

研究团队通过四项基准测试评估了Ankh3模型的性能:

第一项是二级结构预测(Secondary Structure Prediction)。蛋白质的二级结构是指其多肽骨架形成的α-螺旋、β-折叠或无规卷曲结构。这就像预测一根绳子会如何弯曲和折叠。测试分为预测三种状态(SSP-3)和预测八种状态(SSP-8)两个难度级别。

第二项是荧光预测(Fluorescence Prediction)。某些蛋白质(如绿色荧光蛋白)能够吸收光后发光,其发光强度与氨基酸序列密切相关。这就像预测一个配方会做出多亮的灯。

第三项是GB1适应度预测(GB1 Fitness)。GB1是蛋白质G的一部分,负责与免疫球蛋白结合,对于抗体纯化很重要。这项任务要求模型评估经过特定位点突变后的GB1蛋白变体的结合能力。

第四项是接触预测(Contact Prediction)。这项任务评估模型从序列中推断氨基酸对之间空间接近程度的能力。如果两个氨基酸的Cα原子之间的欧几里得距离小于8.0埃,就认为它们形成了接触。

在这些测试中,Ankh3模型的表现令人印象深刻。尤其是在荧光预测和GB1适应度预测等任务上,Ankh3-XL模型表现出色,显示了其在从未见过的任务上的强大泛化能力。在某些任务上,Ankh3甚至比使用多种数据模态训练的模型(如ESM3)表现更好,证明了其多任务预训练策略的有效性。

**研究发现与讨论**

研究团队发现,NLU(自然语言理解)和S2S(序列到序列)两种不同的任务在不同的测试中表现各异,没有一种任务在所有场景下都表现更好。这表明最佳的预训练目标可能与具体任务相关。

特别有趣的是,研究人员观察到Ankh3-XL在序列分类任务(如GB1和荧光预测)中使用S2S任务时表现更好。这就像有些学生在写作考试中比阅读考试表现更出色一样,暗示了不同任务可能适合不同类型的问题。

此外,研究还表明,仅仅增加模型大小并不一定能提高性能。真正带来性能提升的是多掩码概率和序列补全等多任务训练策略。这就像学习一门语言,单纯增加学习时间不如同时采用听、说、读、写多种学习方法更有效。

与只使用蛋白质序列作为输入的其他模型(如ESM2和先前的Ankh)相比,Ankh3在所有任务中表现更好。即使与使用多种数据模态训练的ESM3相比,Ankh3在某些任务上也具有竞争力,特别是在两个模型都未曾在预训练中遇到的任务上,Ankh3-XL表现显著更好,表明其泛化能力可能更强。

**未来展望**

Proteinea研究团队计划在未来的研究中进一步扩展Ankh3模型,探索纳入多种数据模态的可能性,并研究使用可变完成百分比的序列补全方法。这就像不仅要求模型完成半个故事,还要训练它完成不同长度的故事片段,进一步提高其灵活性和适应能力。

为了促进可重复性和进一步研究,研究团队已经在Huggingface上分享了所有工作和细节,包括预训练超参数和数据集。Ankh3-Large和Ankh3-XL模型的权重也已开源,供全球研究人员使用。

**总结:蛋白质语言的新视角**

Ankh3模型的成功证明了多任务预训练策略在提升蛋白质语言模型性能方面的巨大潜力。通过同时学习掩码语言建模和序列补全两项任务,模型能够仅从蛋白质序列中获取更丰富、更具普适性的表示,无需依赖额外的数据模态。

这项研究为蛋白质语言模型的发展开辟了新路径,展示了通过创新的多任务学习提高模型性能的可能性。随着这些模型的不断进步,我们离破译生命密码、设计新型蛋白质和开发创新治疗方法的目标越来越近。

无论是药物开发、疫苗设计还是环保材料创新,更好的蛋白质语言模型都有望加速科学发现和技术突破,最终造福人类健康和社会发展。Ankh3模型是这一令人兴奋旅程中的重要里程碑。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-