微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Avey AI研究团队推出全新编码器架构：比传统BERT更快更准确的Avey-B

人工智能编码器架构长文本处理

Avey AI研究团队推出全新编码器架构：比传统BERT更快更准确的Avey-B

作者：科技行者

2026-02-24 10:34

分享至：

Avey AI团队在2026年ICLR大会上发表的研究论文介绍了全新编码器架构Avey-B，该架构通过解耦参数化、稳定性归一化和神经压缩三项创新，在保持高准确性的同时大幅提升了长文本处理效率。实验显示，Avey-B在96,000词长度下比传统模型快3-11倍，在标记分类和信息检索任务上表现尤为突出，为自然语言处理的实际应用开辟了新的可能性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-02-24 10:34 • 科技行者

Avey AI的研究团队在2026年的ICLR（国际学习表征大会）上发表了一篇重要论文，介绍了他们开发的全新编码器架构Avey-B。这项研究的论文编号为arXiv:2602.15814v1，感兴趣的读者可以通过这个编号查找到完整的研究内容。

在人工智能领域，有一类被称为"编码器"的模型就像是专业的文本理解专家。这些模型的工作原理很像我们阅读文章时的思考过程：需要同时理解每个词的意思，还要把握整篇文章的脉络。传统的BERT模型就是这样的专家，它在过去几年里帮助我们完成了大量的文本分析工作，从邮件分类到信息检索都有它的身影。

然而，随着我们需要处理的文本越来越长，传统的BERT模型就像一个阅读速度固定的人，面对长篇大论时会变得力不从心。每当文本长度翻倍，它所需要的时间和内存会急剧增长，这就限制了它在实际应用中的效果。正是在这样的背景下，Avey AI的研究团队开发了Avey-B，这是一个能够更高效处理长文本的新型编码器。

一、重新设计的文本理解方式

传统的BERT模型处理文本的方式就像是一个非常细致的编辑，需要同时关注文章中的每一个词，并且要理解任意两个词之间的关系。这种全面的关注虽然很准确，但也意味着随着文本变长，需要处理的关系数量会呈几何级数增长。

Avey-B采用了一种全新的策略，更像是一个聪明的阅读者：它首先将长文本分割成若干个小段落，然后对每个段落，只选择最相关的其他段落来帮助理解，而不是同时考虑所有段落。这种方法的巧妙之处在于，它保持了理解的准确性，同时大大减少了计算的复杂度。

研究团队将这个新架构称为Avey-B，其中"B"代表双向（bidirectional），表示它能够像人类阅读一样，既考虑前文，也考虑后文。这个模型建立在他们之前开发的Avey架构基础上，但专门针对编码器的需求进行了优化。

二、三项核心技术创新

Avey-B的成功源于三项关键的技术创新，每一项都解决了传统方法中的特定问题。

第一项创新被称为"解耦参数化"。在传统的方法中，模型学习到的固定权重会与输入文本的相似度分数混合在一起，这就像是让一个有固定偏好的评委和一个根据具体情况变化的评委同时打分，有时会产生矛盾的结果。比如说，两个段落明明很相似，但固定权重可能会给它们很低的分数，这就违背了"相似的内容应该得到更多关注"的直觉。

Avey-B通过将这两种评分机制分离到不同的层中来解决这个问题。有些层专门负责静态的线性变换，就像有固定标准的评委；而另一些层则根据内容的相似度动态调整，就像根据具体情况灵活判断的评委。这样的设计确保了相似度高的内容总是能得到应有的重视。

第二项创新是"稳定性导向的归一化"。在动态层中，研究团队引入了一种新的归一化方法，将每个位置的相似度分数除以该位置所有分数的总和。这就像是确保每个评委给出的分数总和都是固定的，避免了某些评委给分过高或过低的问题。这种方法不仅提高了训练的稳定性，还一致性地改善了各种下游任务的性能。

第三项创新是"神经压缩模块"。在原始的Avey设计中，每个段落需要与它的前k个相关段落拼接在一起进行处理，这会使输入大小膨胀k倍。对于双向处理来说，这种膨胀会严重影响效率。Avey-B在选择相关段落后，使用一个学习到的线性投影将扩展后的内容压缩回原始大小，就像是用一个智能的摘要工具，保留最重要的信息而去除冗余。

三、全方位的性能评测

为了验证Avey-B的效果，研究团队进行了广泛的实验评测，涵盖了四个主要的应用场景：序列分类、标记分类、问答任务和信息检索。

在序列分类任务中，模型需要判断整个句子或段落的性质，比如判断一条评论是正面还是负面。研究团队在MNLI、QQP和SST-2等标准数据集上测试了Avey-B。结果显示，Avey-B在这类任务上表现出色，特别是在SST-2任务上达到了最高分。

标记分类任务要求模型识别文本中特定位置的信息，比如在一段文字中找出人名、地名等。这类任务对模型的精细理解能力要求很高。在CoNLL-2003、OntoNotes和UNER等数据集上，Avey-B展现出了显著的优势，超越了所有对比的Transformer模型。这个结果特别有意义，因为它表明Avey-B的分段处理策略不仅没有损失细节信息，反而增强了对局部特征的捕捉能力。

在问答任务中，模型需要根据给定的文本段落回答相关问题。研究团队在ReCoRD、SQuAD和SQuAD v2等数据集上进行了测试。虽然Avey-B在某些问答任务上的表现不如RoBERTa和ModernBERT，但考虑到它的训练数据量远少于这些模型（大约少了11倍），这样的结果已经相当不错。

信息检索任务考验模型在长文档中找到相关信息的能力。在MLDR、MS MARCO和Natural Questions等数据集上，Avey-B表现尤为突出，大幅超越了所有对比模型。这个结果很好地验证了Avey-B设计理念的正确性：通过选择性地关注最相关的内容段落，它能够更有效地处理长文档检索任务。

四、效率优势的深度分析

除了准确性，Avey-B在处理效率方面的优势更加引人注目。研究团队详细测试了不同模型在各种序列长度下的表现，从128个词汇到96,000个词汇的范围内进行了全面对比。

在这些测试中，研究团队使用了吞吐量（每秒处理的词汇数）和延迟（处理一次前向传播所需的时间）两个指标。结果显示，随着序列长度的增加，传统的Transformer模型的处理速度急剧下降，而Avey-B则保持了相对稳定的性能。

具体来说，当序列长度达到96,000个词汇时，Avey-B的处理速度比ModernBERT快3.38倍，比NeoBERT快11.63倍。更重要的是，通过数学建模分析，研究团队发现Avey-B的性能下降率（用幂律函数T(N) ∝ N^(-α)中的指数α表示）约为0.44，而ModernBERT和NeoBERT分别为0.77和0.81。这意味着随着序列长度的增加，Avey-B的性能下降速度大约是传统模型的一半。

这种效率优势的根本原因在于Avey-B的神经处理器只需要处理固定大小的分段，而不需要处理整个序列。每个分段的处理成本是固定的，因此总体成本与序列长度成线性关系，而不是传统模型的二次关系。

五、设计细节的深入探索

为了找到最优的设计方案，研究团队进行了大量的设计选择研究和消融实验。

在静态层和动态层的排列方式上，研究团队测试了多种模式：交替排列、单一动态层、两阶段堆叠以及完全静态或动态的配置。结果显示，以静态层开始的交替排列（静态→动态→静态→动态...）效果最佳。这种设计让静态层提供稳定的表示基础，然后动态层根据输入内容进行自适应调整。

在动态层的归一化方法选择上，研究团队比较了按和归一化、RMS归一化、softmax和缩放softmax等方法。结果表明，简单的按和归一化方法效果最好，它保持了相似度的相对顺序，同时确保了数值的稳定性。

在超参数设置方面，研究团队发现序列长度N、分段大小S和选择的前k个相关分段数量之间存在一个重要的关系：最佳性能通常出现在S×(k+1)≈N的配置下。这意味着有效的上下文覆盖应该接近整个训练序列的长度。

六、严格的消融实验验证

为了验证每个设计决策的重要性，研究团队进行了详尽的消融实验，即逐一移除某个组件来观察性能变化。

当移除行归一化时，模型性能出现了显著下降，在各个任务类型上的平均分数分别下降了3.55%、0.87%、7.65%和15.33%。这表明归一化对于稳定训练和保持良好性能至关重要。

当回到耦合的参数化设计（即将静态权重和动态相似度分数混合）时，各任务的性能分别下降了1.43%、2.12%、2.53%和7.40%。这证实了解耦设计的重要性。

神经压缩模块的移除导致了适度的性能下降，但同时带来了4.37倍的效率提升。考虑到这个权衡，研究团队认为压缩模块提供了良好的效率-效果平衡。

当移除残差连接（即压缩器输出和原始分段之间的直接连接）时，所有任务的性能都有所下降，平均降幅为3.38%。这说明保留局部信息的重要性。

最后，完全移除排序器会导致7.46%的严重性能下降，这证实了选择性关注机制是Avey-B成功的关键因素。

七、长文本处理能力的极限测试

为了测试Avey-B在极长文本上的表现，研究团队设计了一个"大海捞针"基准测试。这个测试模拟了在极长文档中寻找特定信息的场景，文档长度可达96,000个词汇。

测试包含两种类型的任务：单针任务和多针任务。单针任务要求模型在长文档中找到一个特定的键值对，主要测试语义定位能力。多针任务则更加复杂，文档中包含多个具有相同键的键值对，查询要求找到第n个出现的值，这需要模型具备位置推理能力。

测试结果令人印象深刻。在单针任务（NIAH-1）中，Avey-B基础版本和大型版本在从1,000到96,000词汇的范围内都保持了稳定的性能，准确率只下降了3-4个百分点。相比之下，ModernBERT和NeoBERT无法处理超过其训练窗口长度的文本，分别限制在8,000和4,000词汇以内。

在更具挑战性的多针任务（NIAH-2）中，Avey-B同样表现出色。基础版本从78.3%（1,000词汇）下降到71.9%（96,000词汇），大型版本从78.9%下降到74.5%，展现了良好的长文本推理能力。

这些结果特别有意义，因为Avey-B只在2,048词汇的窗口上进行了训练，却能够处理比训练长度长47倍的文本，这证明了其架构设计的优越性。

八、统计稳定性的深入分析

除了性能和效率，研究团队还分析了不同模型在多次独立运行中的稳定性。通过在每个基准测试上进行10次独立的随机种子实验，他们计算了结果的标准差，以评估模型对初始化的敏感性。

结果显示，在基础规模的模型中，RoBERTa表现出最低的方差，这与其在学术界享有的稳定性声誉一致。Avey-B排名第二，显示出良好的训练稳定性。在大型模型中，这种稳定性差异变得更加明显。ModernBERT尽管有强劲的中位数性能，但在某些基准测试上表现出较大的不稳定性，特别是在ReCoRD、UNER和Natural Questions任务上。

Avey-B在各种规模下都保持了较低的标准差，通常低于1.06，很少出现病态的不稳定性。研究团队将这种稳定性归因于三个核心设计原则：解耦的静态和动态层防止了固定参数与相似度分数之间的破坏性交互；行归一化的相似度矩阵稳定了激活幅度并确保了良好的梯度流；神经压缩过滤了检索上下文中的无关信号。

九、深层机制的可视化分析

为了更好地理解Avey-B的工作机制，研究团队对模型学习到的参数矩阵进行了详细分析。他们比较了耦合和解耦版本中静态层学习到的交叉嵌入投影矩阵，发现了显著的差异。

在耦合版本中，由于相似度矩阵是非负的，模型为了避免破坏性的符号翻转，倾向于学习正权重。这导致了一种"正性偏置"，特别是在较深的层中，正权重的比例接近100%。然而，仍然有一些负权重残留，这正是导致相关性单调性违反的根源。

相反，在解耦版本中，动态层单独产生混合权重，这些权重通过构造是归一化和非负的，因此在相似度操作层面保证了单调性。静态层则独立学习，不再需要被迫趋向非负性以保持单调性。结果显示，解耦版本的权重分布接近零均值，正负权重大致平衡，保留了抑制模式的能力。

在权重分布的其他统计特性上，两种版本也表现出不同的特征。耦合版本的矩阵表现出较小的标准差，趋向于平滑和同质的模式。而解耦版本维持了较大的波动，允许更强的正值和负值，这可能反映了更大的表示灵活性。

十、实际应用的广阔前景

Avey-B的设计特点使其在多个实际应用场景中具有独特的优势。在信息检索领域，其选择性注意机制天然适合在大量文档中快速定位相关内容。企业可以利用这一特性来构建更高效的内部知识库搜索系统，帮助员工快速找到所需信息。

在文档分析和处理方面，Avey-B能够处理长达数万词的文档，而不会像传统模型那样遭遇内存限制。这对于法律文档分析、学术论文处理、技术手册理解等需要处理长文本的场景具有重要意义。

在对话系统和客服机器人领域，Avey-B的效率优势可以显著降低响应时间和计算成本。特别是在需要理解长对话历史的场景中，其线性扩展特性比传统的二次扩展模型更具实用价值。

对于内容审核和分类任务，Avey-B在标记分类上的优异表现使其成为自动化内容管理的理想选择。无论是社交媒体内容审核、新闻文章分类，还是电子邮件的自动标签，都可以从中受益。

说到底，Avey-B代表了自然语言处理领域的一个重要进展。它不是简单地修补现有技术的缺陷，而是从根本上重新思考了如何高效处理长文本的问题。通过巧妙的架构设计，它在保持甚至提升准确性的同时，大幅改善了计算效率，为人工智能在更多实际场景中的应用开辟了新的可能性。