微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 香港大学团队揭秘:为什么AI预测RNA结构时会"偏科"?

香港大学团队揭秘:为什么AI预测RNA结构时会"偏科"?

2026-03-26 10:57
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-03-26 10:57 科技行者

RNA结构预测这个领域最近出现了一个有趣现象:那些在标准测试中表现最亮眼的AI模型,一旦遇到全新类型的RNA分子,预测准确度就会急剧下降。这就像一个在家里做饭很拿手的厨师,到了陌生的厨房就手忙脚乱一样。

这项由香港大学电气与计算机工程系领导、联合上海人工智能实验室等多家机构的研究发表于2026年3月,论文编号为arXiv:2603.22330v1。研究团队通过构建名为CHANRG的全新评估体系,发现了现有RNA结构预测方法存在的一个重大问题:它们在熟悉的数据上表现优秀,但面对结构新颖的RNA时就会"水土不服"。

RNA分子是生命活动中的重要角色,它的二级结构(即分子内部的配对方式)决定了它的功能。准确预测RNA结构对于理解生命机制、开发RNA药物都至关重要。然而,现有的评估方法存在严重缺陷,就像用同一套试卷反复考试,学生们都能取得高分,但换个题型就原形毕露了。

一、当前评估体系的隐性问题

目前RNA结构预测领域的评估就像是在一个"近视"的环境中进行的。研究团队发现,广泛使用的基准数据集主要基于较老的数据源,而且存在一个根本性问题:它们主要通过序列相似性来去除重复数据,但忽略了一个关键事实——序列不同的RNA分子可能具有非常相似的结构。

这种情况就好比在图书馆里整理书籍,如果只按书名的字母顺序排列,可能会把内容相似但标题不同的书籍分散放置。同样,现有的数据处理方法可能会把结构相似的RNA分子分别放在训练集和测试集中,这就像让学生用几乎相同的题目练习,然后用类似的题目考试,当然会得到很好的成绩。

更严重的是,这些评估通常只关注局部的配对准确性,就像只检查建筑物的砖块是否放对位置,而不关心整体结构是否合理。一个模型可能能正确识别RNA分子中的大部分碱基配对,但却把它们组装成了完全错误的整体架构。

二、CHANRG:一个更严格的"考试制度"

为了解决这些问题,研究团队开发了CHANRG(非编码RNA群体的全面层次注释)系统。这个系统就像是为RNA结构预测设计了一套全新的、更加严格的考试制度。

CHANRG从Rfam数据库的1000多万个RNA序列开始,经过多轮筛选最终得到17万多个结构上不重复的RNA分子。这个筛选过程就像是从海量的音乐作品中挑选出真正独特的旋律,不仅要求歌词不同,更要求曲调结构也要有本质区别。

整个筛选过程分为三个阶段。首先是完整性检查,确保数据质量可靠,就像检查乐谱是否完整清晰。接着进行高严格度的序列去重,将相似度超过99%的序列合并,这相当于把几乎相同的歌曲版本归为一类。最关键的是第三步:基于结构的去重,使用专门的结构相似性算法,确保最终保留的RNA分子在结构上真正不同。

令人惊讶的是,即使经过了严格的序列筛选,结构导向的筛选仍然剔除了33倍的冗余数据。这意味着大量序列不同的RNA实际上具有高度相似的结构,就像不同歌手演唱的歌曲可能使用完全相同的旋律框架。

三、分层测试:从简单到复杂的挑战

CHANRG设计了四种不同的测试场景,就像为不同水平的选手设计不同难度的比赛。

标准的验证集和测试集代表了"常规赛",用于评估模型在相对熟悉环境中的表现。这些数据集遵循基因组感知的分割规则,确保来自同一基因组的RNA序列不会同时出现在训练和测试中,避免了"作弊"的可能性。

GenA测试集是"进阶挑战赛",包含那些被标注为"复杂未分类"的RNA分子,这些分子代表了完全陌生的结构类型。GenC测试集是"跨界挑战赛",包含训练中完全没有见过的RNA家族分支,测试模型是否能处理进化距离较远的RNA类型。GenF测试集是"稀有样本挑战赛",专门收集那些基因组覆盖稀疏的RNA家族,模拟在样本有限情况下的预测能力。

这种分层设计确保了评估的全面性。序列长度在各个测试集间呈现有趣的分布:GenA的RNA分子相对较长(中位数211个核苷酸),而GenC和GenF则相对较短(分别为93和89个核苷酸),但Test集的中位数为128个核苷酸。这种长度分布的多样性帮助研究团队排除了"模型只是不擅长处理长序列"这样的简单解释。

四、三类预测方法的"擂台赛"

研究团队将现有的RNA结构预测方法分为三大类,就像把选手分成不同的比赛组别。

结构化解码器是"传统工匠组",它们遵循物理和统计规律来预测结构,就像经验丰富的建筑师会考虑力学原理和材料特性来设计建筑。这一组包括了EternaFold、CONTRAfold、RNAfold等经典方法,它们通过明确的结构约束和优化算法来产生最终的结构预测。

直接神经预测器是"专业技工组",它们直接从序列学习结构模式,但不依赖预训练的语言模型,就像专门培训的技工能够根据经验直接判断结构。这一组包括bpFold、SPOT-RNA、UFold等方法。

基础模型预测器是"AI新秀组",它们结合了预训练的RNA语言模型和专门的结构预测头,就像既有广博知识背景又受过专业训练的新一代专家。这一组包括各种基于RiNALMo、ERNIE-RNA等大模型的方法。

五、意外的发现:AI新秀的"偏科"现象

测试结果揭示了一个令人意外的现象。在标准测试中,基础模型预测器表现最为出色,平均碱基对F1分数达到0.6731,远超直接神经预测器的0.3495和结构化解码器的0.3015。这就像新一代的AI厨师在标准菜谱测试中完胜传统厨师。

然而,当面临分布外测试时,情况发生了戏剧性的逆转。基础模型预测器的平均表现骤降至0.1796,仅保持了原有性能的26.7%。相比之下,直接神经预测器保持了82.5%的性能,结构化解码器更是保持了92.3%的性能水平。

这种现象就像一个在高档餐厅表现出色的厨师,一旦换到乡村厨房就束手无策,而那些看似朴素的传统厨师却能在任何环境下都做出可口的饭菜。

深入分析发现,基础模型预测器的问题主要体现在两个方面。首先是覆盖性失败,它们变得过于保守,就像一个过分谨慎的建筑师,宁愿漏掉一些应该建造的结构,也不愿意冒险建错。在分布外测试中,这些模型的精确度和召回率从0.7968和0.6108急剧下降到0.3477和0.1403,精确度与召回率的比例从1.30增加到2.48,表明它们错过了大量真实的碱基配对。

其次是连接错误,即使这些模型能够识别出正确的螺旋结构,也经常将它们连接成错误的整体架构。这就像一个工人能够正确制作建筑的各个部件,但在组装时却搭建出了完全错误的建筑形态。

六、不是规模问题,而是泛化能力问题

一个自然的疑问是:是否只要增大模型规模就能解决这个问题?研究团队专门测试了不同规模的RiNALMo模型,从微型版本到千亿参数的巨型版本。

结果显示,增大模型规模确实能显著提高标准测试的表现。从微型版本到巨型版本,测试集上的碱基对F1分数从0.6222提升到0.7579,提升了0.1357。然而,在分布外测试中,同样的规模增长只带来了0.0680的改进,从0.1460提升到0.2140。

这种不对称的改进模式表明,简单地增大模型规模主要提升了"记忆能力"而非"理解能力",就像一个学生通过死记硬背能在熟悉题型上取得高分,但面对新题型时仍然无能为力。更大的模型能够更好地拟合训练数据,但并没有学会RNA结构的本质规律。

在更高层次的结构评估中,这种现象更加明显。拓扑F1分数(衡量整体结构组织的正确性)从微型版本的0.3602提升到巨型版本的0.5304,但分布外测试中只从0.0582提升到0.0911。这进一步证实了基础模型在学习可迁移的结构原理方面存在根本性限制。

七、层次化评估揭示的深层问题

CHANRG引入了多层次的评估指标,就像医生不仅要检查病人的体温,还要检查心率、血压等多个指标才能全面了解健康状况。

除了基本的碱基对准确性,研究团队还评估了螺旋F1分数(是否正确识别了螺旋结构)、拓扑F1分数(是否正确组织了整体结构)以及拓扑图编辑距离(预测结构与真实结构的差异程度)。

结果显示,基础模型预测器在标准测试中的螺旋F1分数平均为0.6087,但在分布外测试中下降到0.1890,仅保留31.1%的性能。更严重的是,拓扑F1分数从0.4240下降到0.0729,保留率仅为17.2%。这意味着这些模型虽然能够识别一些螺旋结构,但在将它们组装成正确的整体架构方面完全失败了。

相比之下,结构化解码器在螺旋F1和拓扑F1上分别保持了89.8%和88.6%的性能,显示出了卓越的结构一致性。直接神经预测器也表现出了良好的稳定性,分别保持81.4%和79.4%的性能。

八、典型案例:AI的"聪明"错误

研究团队提供了两个具体案例来说明基础模型的典型错误模式。

第一个案例是一个109个核苷酸长的GenA测试RNA(来自RF01527家族)。最强的基础模型RiNALMo-giga在这个分子上取得了0.638的碱基对F1分数,看起来相当不错。然而,它的螺旋F1分数却是0.000,拓扑F1分数只有0.045。这意味着虽然模型预测了许多正确的碱基对,但这些配对完全没有组织成任何可识别的螺旋结构,整体架构也是错误的。

相比之下,传统的RNAfold方法虽然碱基对F1分数略高(0.719),但能够识别出正确的螺旋结构(螺旋F1=0.286)和合理的整体组织(拓扑F1=0.185)。直接神经预测器BPfold表现更好,在所有指标上都优于基础模型。

第二个案例更加戏剧性:一个98个核苷酸的GenC测试RNA(来自RF03162家族)。基础模型完美识别了所有螺旋结构(螺旋F1=1.000),碱基对F1分数也达到了0.808。然而,它完全无法处理多环连接(多环F1=0.000),导致整体拓扑错误(拓扑F1=0.542)。

这就像一个建筑师能够完美地建造每个房间,但完全不知道如何将它们连接成一个功能性的建筑。传统方法RNAfold和BPfold都成功地处理了这个多环结构,取得了更好的整体性能。

九、计算效率的突破:告别"填充"的浪费

RNA结构预测还面临一个技术挑战:序列长度的巨大差异。CHANRG中的RNA分子长度从19个核苷酸到10799个核苷酸不等,这种差异在批处理时会造成严重的计算浪费。

传统的批处理方法就像用最大号的盒子来包装所有大小的物品,小物品周围会有大量空白空间。对于RNA结构预测,这意味着短序列会被"填充"到与批次中最长序列相同的长度,导致大量无效计算。更糟糕的是,这种填充会影响预测结果,因为卷积操作会将有效区域和填充区域混合在一起。

研究团队发现,在实际评估中,平均填充比例达到38.0%,40.1%的情况下填充超过50%,14.5%的情况下填充超过75%。这就像在一场音乐会中,有四成时间听到的是无意义的噪音。

更严重的是,这种填充会导致"批次依赖性":同一个RNA分子的预测结果会因为与它同批处理的其他分子而发生变化。研究团队测试发现,即使在批次大小为2的情况下,仍有1.90-2.13%的预测决策会因批次组合不同而改变。这就像一个学生的考试成绩会因为和谁坐在同一个考场而发生变化,显然是不合理的。

为了解决这个问题,研究团队开发了一个"嵌套张量"实现方案,完全避免了无效的填充计算。这种方法就像为每个物品使用合适尺寸的包装盒,不仅节省材料,还确保了包装质量。

新方法带来了显著的效率提升:推理速度提高了3.3倍,GPU内存使用减少了6.7倍,训练时间从229.5毫秒减少到115.0毫秒,峰值训练内存从6.33GB减少到1.06GB。更重要的是,这种方法完全消除了批次依赖性,确保了预测结果的一致性和可重复性。

十、研究意义:重新定义"进步"的标准

这项研究的最大贡献不仅在于揭示了当前方法的局限性,更在于为整个领域建立了新的评价标准。CHANRG就像为RNA结构预测领域制定了新的"质量标准",不再满足于在熟悉环境中的优异表现,而是要求真正的跨领域泛化能力。

研究结果表明,那些在传统基准测试中表现最好的方法,在面对真正的结构新颖性时往往表现最差。这种现象在机器学习的其他领域也屡见不鲜,但在RNA结构预测中尤其严重,因为生物系统的复杂性和多样性远超人工设计的测试场景。

基础模型预测器虽然在标准测试中取得了令人印象深刻的结果,但它们本质上是在"记忆"训练数据中的模式,而不是真正"理解"RNA结构的基本原理。当遇到训练中没有见过的结构类型时,这些模型就会暴露出根本性的缺陷。

相比之下,那些基于物理和化学原理的传统方法,虽然在绝对精度上可能不如大模型,但具有更好的泛化能力。这些方法就像经验丰富的工匠,虽然可能不是最快的,但能够在各种情况下都保持稳定的工作质量。

十一、对未来发展的启示

这项研究为RNA结构预测领域的未来发展提供了重要指导。首先,它强调了评估方法的重要性:一个好的评估体系不仅要测试模型的最佳性能,更要测试其在各种挑战性场景下的稳定性。

其次,研究表明简单地增大模型规模并不能解决泛化问题。未来的研究需要更多关注如何在大模型中嵌入结构化的生物学知识,而不是仅仅依赖数据驱动的学习。这就像培养医生不能只靠记忆病例,还需要深入理解人体生理机制。

第三,层次化的评估方法揭示了不同层次结构预测的不同挑战。模型可能在局部特征识别上表现出色,但在全局结构组织上存在严重缺陷。这提示未来的模型设计需要更多关注多尺度结构关系的学习。

最后,计算效率的改进表明,技术创新不仅能提高性能,还能使高质量的评估变得更加可行。嵌套张量方法的成功为处理变长序列的其他生物信息学任务提供了有价值的参考。

说到底,这项研究提醒我们:在AI快速发展的时代,我们不能被表面的高分数迷惑,而要关注模型是否真正掌握了问题的本质。就像考试得高分的学生不一定真正理解了知识,能够在标准测试中表现出色的AI模型也不一定具备了真正的智能。对于像RNA结构预测这样关系到生命科学和医学应用的重要任务,我们更需要那些虽然看起来朴素但真正可靠的方法。

这项研究不仅为RNA结构预测领域设立了新的标杆,也为整个AI领域提供了有价值的思考:在追求更高精度的同时,我们是否也应该更关注模型的鲁棒性和可解释性?毕竟,真正有用的AI不是那些在实验室里表现完美但在现实世界中水土不服的模型,而是那些能够在各种挑战面前都保持稳定可靠的智能系统。

Q&A

Q1:CHANRG评估体系和传统RNA结构预测评估方法有什么区别?

A:CHANRG不仅去除了序列重复,还去除了结构重复,确保测试中的RNA分子在结构上真正不同。它还设计了三种分布外测试场景,专门评估模型面对陌生RNA类型时的表现,而传统方法主要关注相似数据上的性能。

Q2:为什么基础模型预测器在标准测试中表现很好,但在分布外测试中表现差?

A:基础模型主要是在"记忆"训练数据中的模式,而不是真正理解RNA结构规律。当遇到训练中没见过的新结构类型时,它们就无法应对。这就像只会按食谱做饭的厨师,换个菜系就手忙脚乱。

Q3:增大AI模型规模能解决RNA结构预测的泛化问题吗?

A:研究发现增大模型规模主要提升标准测试性能,但对分布外测试的改善很有限。从微型到巨型模型,标准测试提升了0.1357,但分布外测试只提升了0.0680,说明规模扩大主要提高了记忆能力而非理解能力。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-