**研究新进展:由Proteinea公司研究团队创新突破**
在生物科技领域的最新研究中,Proteinea公司的研究团队Hazem Alsamkary、Mohamed Elshaffei、Mohamed Elkerdawy和Ahmed Elnaggar于2025年5月26日在arXiv上发表了一篇创新性论文《Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations》(论文编号:arXiv:2505.20052v1)。这项研究展示了如何通过多任务预训练显著提升蛋白质语言模型的性能,为蛋白质设计和分析开辟了新路径。
**为什么蛋白质"语言"如此重要?**
想象一下,如果我们能像理解人类语言一样理解蛋白质的"语言",那将会如何改变医药和生物技术的世界?蛋白质是生命的基础工作者,执行着从催化反应到免疫防御的各种关键任务。理解蛋白质序列中隐藏的信息模式,就像破译一种古老的密码,可以帮助科学家设计新药物、改进疫苗,甚至创造具有特定功能的全新蛋白质。
传统的蛋白质语言模型(PLMs)往往专注于单一的预训练任务,就像只教孩子认字而不教他造句一样,限制了模型对蛋白质序列全面信息的理解能力。虽然一些研究者尝试通过添加更多数据类型或监督目标来提高模型性能,但预训练过程常常仍然集中在去噪损坏的序列这一单一任务上。
**Ankh3:让蛋白质语言模型"一心多用"**
Proteinea的研究团队开发的Ankh3模型采用了一种创新的多任务预训练策略。就像人类同时学习阅读和写作能力会更全面地掌握语言一样,Ankh3同时在两个不同的任务上进行训练:
首先是带有多种掩码概率的掩码语言建模(masked language modeling,MLM)。这就像在阅读理解测试中,有时遮住文章中10%的词,有时遮住20%或30%的词,要求模型猜出被遮住的内容。这种变化的难度让模型能够适应不同程度的信息缺失。
其次是蛋白质序列补全任务。想象你只给出一个故事的前半部分,要求AI写出后半部分。Ankh3就是在学习如何根据蛋白质序列的前半部分,预测出它的后半部分应该是什么样子。
这种"一心多用"的训练方法,使得Ankh3能够仅从蛋白质序列中学习到更丰富、更具普适性的表示(representations)。就像一个既会阅读又会写作的学生比只会阅读的学生理解语言更全面一样。
**模型的"大脑结构"**
Ankh3模型有两种规格:Ankh3-Large和Ankh3-XL,它们的"大脑"结构不同。Ankh3-Large拥有约18.8亿个参数,而Ankh3-XL则有约57.3亿个参数,规模更大、能力更强。这就像一个拥有更多神经元的大脑,能够处理更复杂的问题。
两个模型都基于T5架构,这是一种包含编码器和解码器的变换器模型。可以把编码器想象成阅读理解部分,它负责理解输入的蛋白质序列;解码器则像是写作部分,负责生成或预测序列。Ankh3-Large的编码器有约11.5亿个参数,解码器有约7.3亿个参数;而Ankh3-XL的编码器约有34.8亿个参数,解码器约有22.5亿个参数。
**训练的"食材"和"烹饪方法"**
Ankh3模型的训练使用了来自UniRef50数据库的近5915万个独特蛋白质序列。UniRef50是一个经过精心筛选的蛋白质序列集合,其中的序列相似性不超过50%,确保了数据的多样性和代表性。这就像是给模型提供了一本包含地球上几乎所有主要蛋白质家族的百科全书。
在训练设置上,研究团队采用了三种不同的掩码概率:15%、20%和30%,让模型能够适应不同难度的预测任务。对于序列补全任务,模型需要根据序列的前半部分预测后半部分。两个任务在训练过程中随机分配,确保模型能够全面学习蛋白质序列的各种特性。
训练过程使用了64个TPUv4芯片,这是谷歌开发的专门用于机器学习的高性能处理器。Ankh3-Large训练了约400万步,而Ankh3-XL训练了约500万步,批量大小均为1024。这就像是让模型反复练习数百万次,直到它真正掌握了蛋白质序列的规律。
**模型的"考试成绩"**
研究团队通过四项基准测试评估了Ankh3模型的性能:
第一项是二级结构预测(Secondary Structure Prediction)。蛋白质的二级结构是指其多肽骨架形成的α-螺旋、β-折叠或无规卷曲结构。这就像预测一根绳子会如何弯曲和折叠。测试分为预测三种状态(SSP-3)和预测八种状态(SSP-8)两个难度级别。
第二项是荧光预测(Fluorescence Prediction)。某些蛋白质(如绿色荧光蛋白)能够吸收光后发光,其发光强度与氨基酸序列密切相关。这就像预测一个配方会做出多亮的灯。
第三项是GB1适应度预测(GB1 Fitness)。GB1是蛋白质G的一部分,负责与免疫球蛋白结合,对于抗体纯化很重要。这项任务要求模型评估经过特定位点突变后的GB1蛋白变体的结合能力。
第四项是接触预测(Contact Prediction)。这项任务评估模型从序列中推断氨基酸对之间空间接近程度的能力。如果两个氨基酸的Cα原子之间的欧几里得距离小于8.0埃,就认为它们形成了接触。
在这些测试中,Ankh3模型的表现令人印象深刻。尤其是在荧光预测和GB1适应度预测等任务上,Ankh3-XL模型表现出色,显示了其在从未见过的任务上的强大泛化能力。在某些任务上,Ankh3甚至比使用多种数据模态训练的模型(如ESM3)表现更好,证明了其多任务预训练策略的有效性。
**研究发现与讨论**
研究团队发现,NLU(自然语言理解)和S2S(序列到序列)两种不同的任务在不同的测试中表现各异,没有一种任务在所有场景下都表现更好。这表明最佳的预训练目标可能与具体任务相关。
特别有趣的是,研究人员观察到Ankh3-XL在序列分类任务(如GB1和荧光预测)中使用S2S任务时表现更好。这就像有些学生在写作考试中比阅读考试表现更出色一样,暗示了不同任务可能适合不同类型的问题。
此外,研究还表明,仅仅增加模型大小并不一定能提高性能。真正带来性能提升的是多掩码概率和序列补全等多任务训练策略。这就像学习一门语言,单纯增加学习时间不如同时采用听、说、读、写多种学习方法更有效。
与只使用蛋白质序列作为输入的其他模型(如ESM2和先前的Ankh)相比,Ankh3在所有任务中表现更好。即使与使用多种数据模态训练的ESM3相比,Ankh3在某些任务上也具有竞争力,特别是在两个模型都未曾在预训练中遇到的任务上,Ankh3-XL表现显著更好,表明其泛化能力可能更强。
**未来展望**
Proteinea研究团队计划在未来的研究中进一步扩展Ankh3模型,探索纳入多种数据模态的可能性,并研究使用可变完成百分比的序列补全方法。这就像不仅要求模型完成半个故事,还要训练它完成不同长度的故事片段,进一步提高其灵活性和适应能力。
为了促进可重复性和进一步研究,研究团队已经在Huggingface上分享了所有工作和细节,包括预训练超参数和数据集。Ankh3-Large和Ankh3-XL模型的权重也已开源,供全球研究人员使用。
**总结:蛋白质语言的新视角**
Ankh3模型的成功证明了多任务预训练策略在提升蛋白质语言模型性能方面的巨大潜力。通过同时学习掩码语言建模和序列补全两项任务,模型能够仅从蛋白质序列中获取更丰富、更具普适性的表示,无需依赖额外的数据模态。
这项研究为蛋白质语言模型的发展开辟了新路径,展示了通过创新的多任务学习提高模型性能的可能性。随着这些模型的不断进步,我们离破译生命密码、设计新型蛋白质和开发创新治疗方法的目标越来越近。
无论是药物开发、疫苗设计还是环保材料创新,更好的蛋白质语言模型都有望加速科学发现和技术突破,最终造福人类健康和社会发展。Ankh3模型是这一令人兴奋旅程中的重要里程碑。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。