微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Ankh3: 蛋白质语言模型的多任务预训练革命，让蛋白质"说话"更有深度

蛋白质语言模型多任务预训练生物信息学

Ankh3: 蛋白质语言模型的多任务预训练革命，让蛋白质"说话"更有深度

作者：科技行者

2025-06-01 08:09

分享至：

这项研究介绍了Ankh3，一种创新的蛋白质语言模型，通过多任务预训练策略显著提升了模型性能。研究者采用两种互补任务：多掩码概率的掩码语言建模和蛋白质序列补全，使模型仅从蛋白质序列就能学到更丰富的表示。实验表明，Ankh3在二级结构预测、荧光预测等下游任务中表现优异，尤其在模型未曾训练过的任务上展现出强大泛化能力，为蛋白质设计和分析开辟了新路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-01 08:09 • 科技行者

**研究新进展：由Proteinea公司研究团队创新突破**

在生物科技领域的最新研究中，Proteinea公司的研究团队Hazem Alsamkary、Mohamed Elshaffei、Mohamed Elkerdawy和Ahmed Elnaggar于2025年5月26日在arXiv上发表了一篇创新性论文《Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations》（论文编号：arXiv:2505.20052v1）。这项研究展示了如何通过多任务预训练显著提升蛋白质语言模型的性能，为蛋白质设计和分析开辟了新路径。

**为什么蛋白质"语言"如此重要？**

想象一下，如果我们能像理解人类语言一样理解蛋白质的"语言"，那将会如何改变医药和生物技术的世界？蛋白质是生命的基础工作者，执行着从催化反应到免疫防御的各种关键任务。理解蛋白质序列中隐藏的信息模式，就像破译一种古老的密码，可以帮助科学家设计新药物、改进疫苗，甚至创造具有特定功能的全新蛋白质。

传统的蛋白质语言模型（PLMs）往往专注于单一的预训练任务，就像只教孩子认字而不教他造句一样，限制了模型对蛋白质序列全面信息的理解能力。虽然一些研究者尝试通过添加更多数据类型或监督目标来提高模型性能，但预训练过程常常仍然集中在去噪损坏的序列这一单一任务上。

**Ankh3：让蛋白质语言模型"一心多用"**

Proteinea的研究团队开发的Ankh3模型采用了一种创新的多任务预训练策略。就像人类同时学习阅读和写作能力会更全面地掌握语言一样，Ankh3同时在两个不同的任务上进行训练：

首先是带有多种掩码概率的掩码语言建模（masked language modeling，MLM）。这就像在阅读理解测试中，有时遮住文章中10%的词，有时遮住20%或30%的词，要求模型猜出被遮住的内容。这种变化的难度让模型能够适应不同程度的信息缺失。

其次是蛋白质序列补全任务。想象你只给出一个故事的前半部分，要求AI写出后半部分。Ankh3就是在学习如何根据蛋白质序列的前半部分，预测出它的后半部分应该是什么样子。

这种"一心多用"的训练方法，使得Ankh3能够仅从蛋白质序列中学习到更丰富、更具普适性的表示（representations）。就像一个既会阅读又会写作的学生比只会阅读的学生理解语言更全面一样。

**模型的"大脑结构"**

Ankh3模型有两种规格：Ankh3-Large和Ankh3-XL，它们的"大脑"结构不同。Ankh3-Large拥有约18.8亿个参数，而Ankh3-XL则有约57.3亿个参数，规模更大、能力更强。这就像一个拥有更多神经元的大脑，能够处理更复杂的问题。

两个模型都基于T5架构，这是一种包含编码器和解码器的变换器模型。可以把编码器想象成阅读理解部分，它负责理解输入的蛋白质序列；解码器则像是写作部分，负责生成或预测序列。Ankh3-Large的编码器有约11.5亿个参数，解码器有约7.3亿个参数；而Ankh3-XL的编码器约有34.8亿个参数，解码器约有22.5亿个参数。

**训练的"食材"和"烹饪方法"**

Ankh3模型的训练使用了来自UniRef50数据库的近5915万个独特蛋白质序列。UniRef50是一个经过精心筛选的蛋白质序列集合，其中的序列相似性不超过50%，确保了数据的多样性和代表性。这就像是给模型提供了一本包含地球上几乎所有主要蛋白质家族的百科全书。

在训练设置上，研究团队采用了三种不同的掩码概率：15%、20%和30%，让模型能够适应不同难度的预测任务。对于序列补全任务，模型需要根据序列的前半部分预测后半部分。两个任务在训练过程中随机分配，确保模型能够全面学习蛋白质序列的各种特性。

训练过程使用了64个TPUv4芯片，这是谷歌开发的专门用于机器学习的高性能处理器。Ankh3-Large训练了约400万步，而Ankh3-XL训练了约500万步，批量大小均为1024。这就像是让模型反复练习数百万次，直到它真正掌握了蛋白质序列的规律。

**模型的"考试成绩"**

研究团队通过四项基准测试评估了Ankh3模型的性能：

第一项是二级结构预测（Secondary Structure Prediction）。蛋白质的二级结构是指其多肽骨架形成的α-螺旋、β-折叠或无规卷曲结构。这就像预测一根绳子会如何弯曲和折叠。测试分为预测三种状态（SSP-3）和预测八种状态（SSP-8）两个难度级别。

第二项是荧光预测（Fluorescence Prediction）。某些蛋白质（如绿色荧光蛋白）能够吸收光后发光，其发光强度与氨基酸序列密切相关。这就像预测一个配方会做出多亮的灯。

第三项是GB1适应度预测（GB1 Fitness）。GB1是蛋白质G的一部分，负责与免疫球蛋白结合，对于抗体纯化很重要。这项任务要求模型评估经过特定位点突变后的GB1蛋白变体的结合能力。

第四项是接触预测（Contact Prediction）。这项任务评估模型从序列中推断氨基酸对之间空间接近程度的能力。如果两个氨基酸的Cα原子之间的欧几里得距离小于8.0埃，就认为它们形成了接触。

在这些测试中，Ankh3模型的表现令人印象深刻。尤其是在荧光预测和GB1适应度预测等任务上，Ankh3-XL模型表现出色，显示了其在从未见过的任务上的强大泛化能力。在某些任务上，Ankh3甚至比使用多种数据模态训练的模型（如ESM3）表现更好，证明了其多任务预训练策略的有效性。

**研究发现与讨论**

研究团队发现，NLU（自然语言理解）和S2S（序列到序列）两种不同的任务在不同的测试中表现各异，没有一种任务在所有场景下都表现更好。这表明最佳的预训练目标可能与具体任务相关。

特别有趣的是，研究人员观察到Ankh3-XL在序列分类任务（如GB1和荧光预测）中使用S2S任务时表现更好。这就像有些学生在写作考试中比阅读考试表现更出色一样，暗示了不同任务可能适合不同类型的问题。

此外，研究还表明，仅仅增加模型大小并不一定能提高性能。真正带来性能提升的是多掩码概率和序列补全等多任务训练策略。这就像学习一门语言，单纯增加学习时间不如同时采用听、说、读、写多种学习方法更有效。

与只使用蛋白质序列作为输入的其他模型（如ESM2和先前的Ankh）相比，Ankh3在所有任务中表现更好。即使与使用多种数据模态训练的ESM3相比，Ankh3在某些任务上也具有竞争力，特别是在两个模型都未曾在预训练中遇到的任务上，Ankh3-XL表现显著更好，表明其泛化能力可能更强。

**未来展望**

Proteinea研究团队计划在未来的研究中进一步扩展Ankh3模型，探索纳入多种数据模态的可能性，并研究使用可变完成百分比的序列补全方法。这就像不仅要求模型完成半个故事，还要训练它完成不同长度的故事片段，进一步提高其灵活性和适应能力。

为了促进可重复性和进一步研究，研究团队已经在Huggingface上分享了所有工作和细节，包括预训练超参数和数据集。Ankh3-Large和Ankh3-XL模型的权重也已开源，供全球研究人员使用。

**总结：蛋白质语言的新视角**

Ankh3模型的成功证明了多任务预训练策略在提升蛋白质语言模型性能方面的巨大潜力。通过同时学习掩码语言建模和序列补全两项任务，模型能够仅从蛋白质序列中获取更丰富、更具普适性的表示，无需依赖额外的数据模态。

这项研究为蛋白质语言模型的发展开辟了新路径，展示了通过创新的多任务学习提高模型性能的可能性。随着这些模型的不断进步，我们离破译生命密码、设计新型蛋白质和开发创新治疗方法的目标越来越近。

无论是药物开发、疫苗设计还是环保材料创新，更好的蛋白质语言模型都有望加速科学发现和技术突破，最终造福人类健康和社会发展。Ankh3模型是这一令人兴奋旅程中的重要里程碑。

蛋白质语言模型多任务预训练生物信息学

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

Ankh3: 蛋白质语言模型的多任务预训练革命，让蛋白质"说话"更有深度

至顶头条

科技行者

码客人生

奇客Solidot

高飞的电子替身

奇客情报站

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接