**研究新进展:由Proteinea公司研究团队创新突破**
在生物科技领域的最新研究中,Proteinea公司的研究团队Hazem Alsamkary、Mohamed Elshaffei、Mohamed Elkerdawy和Ahmed Elnaggar于2025年5月26日在arXiv上发表了一篇创新性论文《Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations》(论文编号:arXiv:2505.20052v1)。这项研究展示了如何通过多任务预训练显著提升蛋白质语言模型的性能,为蛋白质设计和分析开辟了新路径。
**为什么蛋白质"语言"如此重要?**
想象一下,如果我们能像理解人类语言一样理解蛋白质的"语言",那将会如何改变医药和生物技术的世界?蛋白质是生命的基础工作者,执行着从催化反应到免疫防御的各种关键任务。理解蛋白质序列中隐藏的信息模式,就像破译一种古老的密码,可以帮助科学家设计新药物、改进疫苗,甚至创造具有特定功能的全新蛋白质。
传统的蛋白质语言模型(PLMs)往往专注于单一的预训练任务,就像只教孩子认字而不教他造句一样,限制了模型对蛋白质序列全面信息的理解能力。虽然一些研究者尝试通过添加更多数据类型或监督目标来提高模型性能,但预训练过程常常仍然集中在去噪损坏的序列这一单一任务上。
**Ankh3:让蛋白质语言模型"一心多用"**
Proteinea的研究团队开发的Ankh3模型采用了一种创新的多任务预训练策略。就像人类同时学习阅读和写作能力会更全面地掌握语言一样,Ankh3同时在两个不同的任务上进行训练:
首先是带有多种掩码概率的掩码语言建模(masked language modeling,MLM)。这就像在阅读理解测试中,有时遮住文章中10%的词,有时遮住20%或30%的词,要求模型猜出被遮住的内容。这种变化的难度让模型能够适应不同程度的信息缺失。
其次是蛋白质序列补全任务。想象你只给出一个故事的前半部分,要求AI写出后半部分。Ankh3就是在学习如何根据蛋白质序列的前半部分,预测出它的后半部分应该是什么样子。
这种"一心多用"的训练方法,使得Ankh3能够仅从蛋白质序列中学习到更丰富、更具普适性的表示(representations)。就像一个既会阅读又会写作的学生比只会阅读的学生理解语言更全面一样。
**模型的"大脑结构"**
Ankh3模型有两种规格:Ankh3-Large和Ankh3-XL,它们的"大脑"结构不同。Ankh3-Large拥有约18.8亿个参数,而Ankh3-XL则有约57.3亿个参数,规模更大、能力更强。这就像一个拥有更多神经元的大脑,能够处理更复杂的问题。
两个模型都基于T5架构,这是一种包含编码器和解码器的变换器模型。可以把编码器想象成阅读理解部分,它负责理解输入的蛋白质序列;解码器则像是写作部分,负责生成或预测序列。Ankh3-Large的编码器有约11.5亿个参数,解码器有约7.3亿个参数;而Ankh3-XL的编码器约有34.8亿个参数,解码器约有22.5亿个参数。
**训练的"食材"和"烹饪方法"**
Ankh3模型的训练使用了来自UniRef50数据库的近5915万个独特蛋白质序列。UniRef50是一个经过精心筛选的蛋白质序列集合,其中的序列相似性不超过50%,确保了数据的多样性和代表性。这就像是给模型提供了一本包含地球上几乎所有主要蛋白质家族的百科全书。
在训练设置上,研究团队采用了三种不同的掩码概率:15%、20%和30%,让模型能够适应不同难度的预测任务。对于序列补全任务,模型需要根据序列的前半部分预测后半部分。两个任务在训练过程中随机分配,确保模型能够全面学习蛋白质序列的各种特性。
训练过程使用了64个TPUv4芯片,这是谷歌开发的专门用于机器学习的高性能处理器。Ankh3-Large训练了约400万步,而Ankh3-XL训练了约500万步,批量大小均为1024。这就像是让模型反复练习数百万次,直到它真正掌握了蛋白质序列的规律。
**模型的"考试成绩"**
研究团队通过四项基准测试评估了Ankh3模型的性能:
第一项是二级结构预测(Secondary Structure Prediction)。蛋白质的二级结构是指其多肽骨架形成的α-螺旋、β-折叠或无规卷曲结构。这就像预测一根绳子会如何弯曲和折叠。测试分为预测三种状态(SSP-3)和预测八种状态(SSP-8)两个难度级别。
第二项是荧光预测(Fluorescence Prediction)。某些蛋白质(如绿色荧光蛋白)能够吸收光后发光,其发光强度与氨基酸序列密切相关。这就像预测一个配方会做出多亮的灯。
第三项是GB1适应度预测(GB1 Fitness)。GB1是蛋白质G的一部分,负责与免疫球蛋白结合,对于抗体纯化很重要。这项任务要求模型评估经过特定位点突变后的GB1蛋白变体的结合能力。
第四项是接触预测(Contact Prediction)。这项任务评估模型从序列中推断氨基酸对之间空间接近程度的能力。如果两个氨基酸的Cα原子之间的欧几里得距离小于8.0埃,就认为它们形成了接触。
在这些测试中,Ankh3模型的表现令人印象深刻。尤其是在荧光预测和GB1适应度预测等任务上,Ankh3-XL模型表现出色,显示了其在从未见过的任务上的强大泛化能力。在某些任务上,Ankh3甚至比使用多种数据模态训练的模型(如ESM3)表现更好,证明了其多任务预训练策略的有效性。
**研究发现与讨论**
研究团队发现,NLU(自然语言理解)和S2S(序列到序列)两种不同的任务在不同的测试中表现各异,没有一种任务在所有场景下都表现更好。这表明最佳的预训练目标可能与具体任务相关。
特别有趣的是,研究人员观察到Ankh3-XL在序列分类任务(如GB1和荧光预测)中使用S2S任务时表现更好。这就像有些学生在写作考试中比阅读考试表现更出色一样,暗示了不同任务可能适合不同类型的问题。
此外,研究还表明,仅仅增加模型大小并不一定能提高性能。真正带来性能提升的是多掩码概率和序列补全等多任务训练策略。这就像学习一门语言,单纯增加学习时间不如同时采用听、说、读、写多种学习方法更有效。
与只使用蛋白质序列作为输入的其他模型(如ESM2和先前的Ankh)相比,Ankh3在所有任务中表现更好。即使与使用多种数据模态训练的ESM3相比,Ankh3在某些任务上也具有竞争力,特别是在两个模型都未曾在预训练中遇到的任务上,Ankh3-XL表现显著更好,表明其泛化能力可能更强。
**未来展望**
Proteinea研究团队计划在未来的研究中进一步扩展Ankh3模型,探索纳入多种数据模态的可能性,并研究使用可变完成百分比的序列补全方法。这就像不仅要求模型完成半个故事,还要训练它完成不同长度的故事片段,进一步提高其灵活性和适应能力。
为了促进可重复性和进一步研究,研究团队已经在Huggingface上分享了所有工作和细节,包括预训练超参数和数据集。Ankh3-Large和Ankh3-XL模型的权重也已开源,供全球研究人员使用。
**总结:蛋白质语言的新视角**
Ankh3模型的成功证明了多任务预训练策略在提升蛋白质语言模型性能方面的巨大潜力。通过同时学习掩码语言建模和序列补全两项任务,模型能够仅从蛋白质序列中获取更丰富、更具普适性的表示,无需依赖额外的数据模态。
这项研究为蛋白质语言模型的发展开辟了新路径,展示了通过创新的多任务学习提高模型性能的可能性。随着这些模型的不断进步,我们离破译生命密码、设计新型蛋白质和开发创新治疗方法的目标越来越近。
无论是药物开发、疫苗设计还是环保材料创新,更好的蛋白质语言模型都有望加速科学发现和技术突破,最终造福人类健康和社会发展。Ankh3模型是这一令人兴奋旅程中的重要里程碑。
好文章,需要你的鼓励
清华大学等多家机构研究团队完成了语音分离技术的全面调研,系统梳理了从传统方法到深度学习的技术演进。研究揭示了"鸡尾酒会问题"的核心挑战,分析了各种学习范式和网络架构的优劣,并通过统一实验框架提供了公平的性能基准。调研涵盖了实时处理、轻量化设计、多模态融合等关键技术方向,为学术界和产业界的技术选型提供了重要参考,推动语音分离从实验室走向实际应用。
浙江大学和腾讯微信视觉团队发现AI图片生成训练中"时机胜过强度"的重要规律,开发出TempFlow-GRPO新方法。通过轨迹分支技术精确评估中间步骤,结合噪声感知权重调整优化不同阶段的学习强度,将训练效率提升三倍,在复杂场景理解方面准确率从63%提升至97%,为AI训练方法论带来重要突破。
谷歌DeepMind发布突破性AI规划技术,让机器人学会像人类一样进行"情境学习"规划。该技术通过Transformer架构实现了快速适应新问题的能力,在迷宫导航、机器人控制等测试中表现优异,为自动驾驶、智能制造、医疗等领域应用奠定基础,标志着向通用人工智能迈出重要一步。
新南威尔士大学研究团队开发了ZARA系统,这是首个零样本运动识别框架,能够在未经专门训练的情况下识别全新的人类活动。该系统集成了自动构建的知识库、多传感器检索机制和分层智能体推理,不仅实现了比现有最强基线高2.53倍的识别准确率,还提供清晰的自然语言解释,为可穿戴设备和健康监护等应用领域带来了突破性进展。