
这项由清华大学IIIS、普林斯顿大学和加州大学洛杉矶分校联合完成的研究发表于2025年12月,论文编号为arXiv:2512.07805v1。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队的核心成员包括清华大学的姚期智院士、普林斯顿大学的张一帆以及加州大学洛杉矶分校的顾全全教授等知名学者。
当你在阅读一篇长文章时,你的大脑会自动记住每个词语在文章中的位置关系——哪些词在前面,哪些词在后面,它们之间距离多远。这种位置感知能力对理解文章意思至关重要。同样地,人工智能模型在处理文本时也需要这种"位置感知"能力,这就是所谓的位置编码技术。
目前最流行的位置编码方法主要有两种:一种是RoPE(旋转位置编码),就像给每个词语配上一个独特的"旋转标记";另一种是ALiBi,它会根据词语间的距离给出不同的注意力权重。这就好比两种不同的记忆方法——一种是给每个物品贴上旋转的标签,另一种是根据物品间的距离调整关注程度。
然而,现有方法都有各自的局限性。RoPE虽然保持了很好的几何特性,但在处理不同子空间间的信息交互时显得力不从心。ALiBi虽然在长文本处理上表现出色,但缺乏坚实的数学理论基础。更关键的是,这两种方法看似完全不同,实际上却在解决同一个问题,但研究者们一直没有找到统一它们的方法。
研究团队从群论这一数学分支中获得灵感,发现可以用"群作用"的概念来统一理解位置编码。群论听起来很抽象,但实际上就像是描述对称性和变换规律的数学工具。比如,当你转动一个正方形,它有四种旋转方式仍然看起来一样——这就是一种群作用。
基于这一洞察,研究团队提出了GRAPE(Group Representational Position Encoding)框架。这个名字很有趣——GRAPE既是"葡萄"的意思,也是"群表示位置编码"的缩写。就像葡萄串由许多小葡萄组成一样,GRAPE框架将各种位置编码方法都"串"在了一起。
GRAPE框架包含两大家族:乘法GRAPE和加法GRAPE。乘法GRAPE专门处理旋转类型的变换,它就像一个精密的旋转机械,能在保持向量长度不变的情况下进行旋转操作。这种旋转发生在特殊正交群SO(d)中,听起来复杂,实际上就是所有保持距离和角度关系不变的旋转变换的集合。
具体来说,乘法GRAPE使用一个巧妙的数学公式:G(n) = exp(n ω L),其中L是一个特殊的"生成器"矩阵。你可以把这个公式想象成一台"位置旋转机"的操作指令——输入位置n,通过频率ω和生成器L的组合,输出对应的旋转操作。这台机器最神奇的地方在于,它能确保任何两个位置间的相对关系都保持一致,就像无论你从哪个角度观察,齿轮的相对转动关系都是固定的。
研究团队进一步证明,著名的RoPE方法其实就是乘法GRAPE的一个特例。当生成器L采用特定的rank-2斜对称形式,并且作用在标准坐标对上时,就完全恢复了RoPE的所有特性。这就好比发现了一个更大的乐器家族,而小提琴只是其中的一种特殊乐器。
更有趣的是,研究团队还推导出了一个闭式的矩阵指数公式,类似于著名的罗德里格旋转公式。这个公式让位置编码的计算变得极其高效——只需要几次内积运算就能完成,时间复杂度降到了O(d),比传统方法快很多。这就像找到了一条计算捷径,原本需要复杂计算的问题现在可以用简单的算术解决。
在乘法GRAPE的扩展版本中,研究团队还引入了学习型正交基底的概念。传统RoPE只能在固定的坐标平面上旋转,就像只能在水平面和垂直面上转动。而新方法允许学习任意的旋转平面,大大增加了表达能力。同时,他们还探索了非交换子空间混合,虽然听起来复杂,但实际上就是让不同的旋转操作能够相互影响,产生更丰富的位置表示。
加法GRAPE则采用了完全不同的思路。它不是通过旋转来编码位置,而是通过"平移"操作在扩展的齐次坐标空间中工作。这就像从二维平面跳到三维空间——在高维空间中,原本的平移操作可以表示为线性变换。
加法GRAPE的核心是所谓的"幂零"变换,这种变换有一个特殊性质:应用两次后就变成零。数学上表示为A? = 0。这种特性让指数运算变得非常简单:exp(A) = I + A,完全避免了复杂的无穷级数计算。
令人惊喜的是,研究团队证明ALiBi方法正是加法GRAPE的一个精确实例。当他们在扩展的d+2维空间中构造特定的幂零生成器时,就完全恢复了ALiBi的线性偏差项。这就像发现两个看似不同的发明实际上基于同一个原理。
更进一步,研究团队还证明了最近提出的遗忘变换器(FoX)也是加法GRAPE的特例。FoX通过引入"遗忘门"来模拟人类记忆的衰减特性,而这种遗忘机制在GRAPE框架中可以精确表示为端点无关的路径积分偏差。
GRAPE框架的一个重要扩展是路径积分加法GRAPE(GRAPE-AP)。这种方法不再限制所有位置使用相同的编码参数,而是允许根据查询位置的具体需求动态调整。就像一个智能导航系统,能根据当前位置和目的地的不同,选择最适合的路径计算方式。
具体来说,GRAPE-AP定义了一个"边缘势能"函数,它考虑了查询位置的特征和历史位置的关系。这个函数通过旋转位置嵌入和单调递增的链接函数来计算,确保了因果性和有界性。最终的注意力偏差通过对路径上所有边缘势能的积分得到,这种积分形式保证了精确的相对性法则。
在数学形式化方面,GRAPE-AP使用了端点索引的幂零因子H_h^(t)(l) = I + ψ_h(t,l)E,其中E是固定的rank-1幂零矩阵。由于E? = 0,整个路径乘积可以简化为加性形式,极大地简化了计算复杂度。
从计算效率角度看,GRAPE的各种变体都保持了优秀的流式缓存特性。对于乘法GRAPE,一旦键向量被旋转编码并缓存,就不需要在新时间步到来时重新计算。对于加法GRAPE,类似的缓存策略同样适用,只是需要使用逆转置操作。
研究团队还进行了详尽的谱分析,揭示了GRAPE不同变体的特征值结构。乘法GRAPE的所有特征值都位于单位圆上,确保了良好的数值稳定性。加法GRAPE的幂零特性则保证了所有特征值都等于1,避免了梯度爆炸或消失的问题。
在扩展应用方面,GRAPE框架可以自然地推广到2D和3D坐标系统,为视觉和多模态任务提供位置编码支持。对于图像,可以定义两个生成器L^(x)和L^(y)分别处理水平和垂直方向的位置关系。对于3D场景,则可以进一步添加第三个生成器L^(z)。
实验验证方面,研究团队在FineWeb-Edu数据集上进行了大规模语言建模实验。他们使用了基于Llama架构的模型,包含36层和10个注意力头,隐藏维度为1280。实验结果显示,GRAPE的各种变体都表现出了比传统方法更好的训练稳定性和更低的验证损失。
特别值得注意的是,在中等规模(355M参数)和大规模(770M参数)的模型上,GRAPE都展现出了持续的性能优势。相比RoPE经常出现的训练不稳定性,GRAPE的训练曲线更加平滑,收敛更加可靠。
在具体的下游任务评测中,研究团队使用了多个标准基准,包括常识推理、阅读理解和科学问答等任务。GRAPE-A在多数任务上都取得了最佳性能,平均得分超过了RoPE、ALiBi和FoX等基线方法。
研究团队还特别强调了GRAPE框架的模块化设计优势。乘法GRAPE和加法GRAPE可以自然地组合使用,在logit层面上相加,或者通过块上三角矩阵形式在齐次坐标中统一处理。这种组合方式既保持了各自的优势,又避免了复杂的交互设计。
从理论角度看,GRAPE框架为位置编码研究提供了统一的数学基础。它不仅解释了现有方法的成功原理,还为未来的扩展提供了清晰的方向。比如,contextual GRAPE允许根据token内容动态调整位置编码参数,这为处理不规则文本结构提供了新的可能。
总的来说,GRAPE框架就像一把万能钥匙,不仅能够开启我们对现有位置编码方法的深层理解之门,还为设计更强大、更灵活的位置编码系统提供了清晰的路线图。它将看似独立的技术统一在优雅的数学框架下,为transformer架构的进一步发展奠定了坚实的理论基础。
这项研究的意义不仅在于提供了一个统一框架,更在于为未来的AI模型设计提供了新的设计原则。随着模型规模的不断增长和应用场景的日益复杂,像GRAPE这样既有理论深度又有实践价值的框架将变得越来越重要。它告诉我们,在追求性能提升的同时,也不应该忽视数学理论的指导作用——有时候,最优雅的解决方案往往隐藏在最基础的数学原理之中。
Q&A
Q1:GRAPE框架具体是什么东西?
A:GRAPE是一个统一的位置编码框架,它用群论数学工具将现有的RoPE和ALiBi等位置编码方法统一起来。就像用一套通用的数学语言来描述不同的位置编码方法,让我们能更好地理解它们的本质和相互关系。
Q2:GRAPE比现有的RoPE和ALiBi方法有什么优势?
A:GRAPE不仅能完全恢复RoPE和ALiBi的功能,还提供了更强大的扩展能力。它支持学习型正交基底、非交换子空间混合,以及根据内容动态调整的上下文位置编码,同时保持了优秀的计算效率和数值稳定性。
Q3:普通开发者能使用GRAPE技术吗?
A:目前GRAPE还主要是学术研究阶段,但研究团队已经提供了开源代码。随着技术的成熟,未来可能会集成到主流的深度学习框架中,让开发者能够方便地使用这种更强大的位置编码方法。
好文章,需要你的鼓励
openGauss的目标是探索oGRAC和超节点深度融合的可能,打造超节点原生数据库。
清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。
字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。
上海AI实验室团队开发的Yume1.5是一个革命性的AI视频生成系统,能够从单张图片或文字描述创造无限可探索的虚拟世界。用户可通过键盘控制实时探索,系统8秒内完成生成,响应精度达0.836,远超现有技术。该系统采用创新的时空通道建模和自强制蒸馏技术,支持文本控制的事件生成,为虚拟现实和内容创作领域开辟了新的可能性。