微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当AI在"记忆"上碰了壁:一个解决长文本记忆问题的新思路,来自独立研究者的探索

当AI在"记忆"上碰了壁:一个解决长文本记忆问题的新思路,来自独立研究者的探索

2026-05-05 10:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-05 10:36 科技行者

这项研究由独立研究者Liubomyr Horbatko完成,论文预印本发布于2026年4月,编号为arXiv:2604.18580v2,感兴趣的读者可以通过这个编号在arXiv平台上找到完整原文。

一、先聊聊AI"记性差"这件事

人工智能在理解和生成语言方面已经做得相当出色,但有一个长期让研究者头疼的问题:当文本变得很长时,AI往往会"忘记"前面讲的内容。这不是比喻,而是这些模型在设计层面就存在的结构性缺陷。

要理解这个问题,先从AI处理文本的两种主流方式说起。第一种叫做"注意力机制",也就是今天大多数大型语言模型(比如GPT系列)的核心技术。第二种叫做"状态空间模型",以Mamba为代表,是近年兴起的另一条技术路线。

这两种方式各有各的"记性问题",而这篇论文正是瞄准了这两个问题,提出了一种叫做Sessa的新型设计。

二、两种主流AI的记忆方式,以及它们各自的"毛病"

以一个图书馆作为贯穿全文的核心比喻:你是图书馆的馆员,需要从海量书架上找到某一本特定的书来回答问题。

注意力机制就像这样一位馆员:每次有人提问,他都会扫视所有书架,根据问题的关键词判断哪本书最相关,然后取来阅读。这个方法的优点是灵活——不管那本书放在哪个角落,只要关键词对上,就能找到。但缺点也很明显:当书架越来越多、书越来越杂的时候,每本书分到的注意力就越来越少。如果书架有一千个,而每本书都有一定权重,那么即使是最重要的那本书,也只能分到大约千分之一的注意力。这就是论文里说的"稀释效应"——在长文本中,每个词的影响力会随着文本变长而被大量稀释,大约以文本长度的倒数级别下降(数学上写作O(1/T),T是文本总长度)。

状态空间模型(以Mamba为代表)则像是另一种馆员:他不扫视所有书架,而是维护一个"笔记本",每次读完一本书就更新笔记,把关键信息记录进去,下次直接查笔记。这样效率高,不需要每次都重新扫描所有书架。但问题是:如果某本关键的书读完之后很久才用到,笔记里的内容可能已经被后来的信息覆盖或模糊掉了。这就是"指数遗忘"——距离越远的信息,对当前的影响衰减得越快,衰减速度呈指数级,用数学术语说是e的负幂次方。

这两种记忆方式的失效,用论文里的专业说法,分别叫做"注意力稀释"和"指数遗忘"。而Sessa正是为了同时对抗这两个问题而设计的。

三、Sessa的核心创意:把注意力"嵌入"到记忆循环里

Sessa的设计灵感来自一个直觉:既然注意力擅长灵活选择,而循环记忆擅长持久保存,那能不能把两者结合起来,让注意力在记忆循环的内部发挥作用?

回到图书馆的比喻。在Sessa的方案里,馆员不再只是简单地更新笔记本,而是在每次更新笔记时,会重新扫描历史上所有写过的笔记页,用注意力权重把它们融合进当前这一页。换句话说,笔记本里的每一页不是孤立存在的,而是与之前所有页都有联系,而这种联系的强弱由注意力权重来决定。

这样的设计带来了一个关键的数学性质:信息可以通过多条不同长度的路径传播,而不仅仅依赖于单一的直接通道。在传统注意力里,从第1000个词影响第2000个词,只有一条直接路径。在Mamba里,这条影响必须经过从第1000个词一步步传递到第2000个词的单一链条。而在Sessa里,第1000个词可以通过直接路径影响第2000个词,也可以先影响第1100个词,再通过第1100个词影响第2000个词,还可以经过更多的中间节点。路径越多,信息保留得越稳健。

论文用"多跳路由"(multi-hop routing)这个术语来描述这种多路径传播机制,并用图示清楚地说明了三种架构的区别:Transformer是一跳(直接跳)、Mamba是沿着单一链条多跳、Sessa是通过多条路径多跳。

四、Sessa的具体结构:一块一块地拼起来

Sessa的每个基本单元(称为"块")的工作流程,可以类比为一个精心设计的信息处理流水线。

首先,输入的文本经过一个标准化处理(LayerNorm),让不同位置的信息处于可比的数值范围内——这就像把所有书页都调整为统一格式,方便后续处理。然后通过一个线性变换生成两路信号,一路叫做"内容信号"(a),另一路叫做"门控信号"(g)。内容信号经过GELU激活函数处理后进入核心的"混合器",而门控信号则在输出阶段用来控制多少信息被放出来。

混合器是Sessa最核心的部件,它包含两套注意力机制。第一套是"前向注意力",它带有位置编码(RoPE,一种让模型知道词语位置的技术),对当前位置能"看到"的所有历史位置进行加权求和——这就是信息的直接读取路径。第二套是"反馈注意力",它对过去所有严格早于当前位置的历史进行加权,但不带位置编码,因为反馈路径本身就已经蕴含了时间方向的信息。

在这两套注意力之上,还有一个标量增益参数γ,用tanh函数(一种把数值压缩到-1到1之间的函数)限制在-1到1之间。这个增益参数乘以反馈注意力权重,构成了"反馈路由矩阵"。

最终,前向注意力产生的"前向信号"(f)和反馈路由矩阵(B_fb)一起,通过一个下三角线性方程组的求解来得到混合器的输出(s):(I - B_fb)s = f。这个求解过程等价于把多跳路径的贡献全部叠加起来,数学上可以展开为一个有限级数,每一项对应不同跳数的路径贡献。

最后,混合器输出s与门控信号g做逐元素乘法,再经过输出投影和残差连接,得到这个块的最终输出。这个残差连接确保了信息不会完全被改写,而是在原有基础上添加新的处理结果。

五、数学保证:Sessa真的能记得更久吗

论文在数学层面严格证明了Sessa具有更强的长程记忆能力。证明分为几个层次。

首先是稳定性保证。由于γ被限制在-1到1之间,而反馈注意力权重是概率分布(总和为1),因此反馈矩阵的行范数严格小于1。这意味着那个线性方程组的求解总是有唯一解,而且输出不会爆炸到无穷大——技术上说这叫做BIBO(有界输入有界输出)稳定性。就像图书馆馆员的笔记本不会无限膨胀,而是始终保持在可管理的范围内。

更关键的是记忆衰减速度的数学刻画。论文证明了在特定的"漫射路由"条件下(即注意力权重接近均匀分布,没有高度集中在某一个位置),Sessa的影响力随距离衰减的速度是多项式级别的,具体是O(l^{-β})的形式,其中β = 1 - γ_max·c_2,l是时间距离。

这意味着什么?以图书馆的比喻来说:如果某本关键的书放在很久以前读过的书架上,在Transformer里,它对当前问题的影响大约按照1/l的速度缩小(l是时间间距);在Mamba里,影响按照指数e^{-cl}的速度缩小,消失得更快;而在Sessa里,影响按照l^{-β}的速度缩小,β小于1,这意味着衰减比1/l还慢。也就是说,Sessa能记住更早的信息,而且这不是偶然的,是数学上可以严格证明的。

论文还给出了一个精确的显式解:在注意力权重完全均匀的特殊情况下(即每个历史位置被分配相同的权重),Sessa的影响力可以用伽马函数的比值精确计算,并用Gautschi不等式严格给出上下界,证明这个多项式衰减不仅是上界,而且是紧的——没有更快的方法可以更好地保留记忆。

六、更深层的理论:灵活的选择性检索

记忆衰减慢只是Sessa的一个优势,论文还证明了一个更深刻的性质:在相同的"漫射注意力"条件下,深层Sessa网络(多个块堆叠)能够实现"灵活的选择性检索",而同等条件下的Transformer和Mamba都做不到。

什么叫"灵活的选择性检索"?简单来说,就是模型能够实现各种不同形状的影响力曲线,包括随时间距离增大而不断增加的曲线(即越远的信息反而影响力越强),以及完全平坦的曲线(即无论多远的信息,影响力都保持不变)。

在传统Transformer里,由于注意力权重随着文本变长会被稀释,影响力曲线必然随距离递减,无法做到平坦或递增。在漫射条件下的Mamba里,指数衰减更是使得远距离信息几乎没有影响力。但Sessa通过多层叠加,可以实现指数为ν_k(β) = k(1-β) - 1的影响力曲线,其中k是层数。当这个指数等于零时,影响力曲线是平坦的;当指数大于零时,影响力曲线是递增的。

这就好比在图书馆的比喻里:Transformer的馆员无论多努力,越久之前的书对当前答案的贡献就越小;Mamba的馆员则会以惊人的速度遗忘几周前读过的书;而Sessa的馆员经过多层处理后,可以在必要时让几年前读过的书对当前答案的贡献与刚刚读过的书一样大,甚至更大。

论文定义了"灵活有限视野选择性检索"的严格数学框架,要求这种检索能力在所有可能的输入上均匀地成立,而不只是在某些特殊输入上偶尔出现。这使得这个结论具有真正的理论保证,而不是在特定测试集上的偶然表现。

七、内部位置编码:Sessa自带"时间感"

一个有趣的附带发现是:Sessa不需要额外的绝对位置编码就能知道每个词在序列里的位置。

在传统Transformer里,由于注意力机制本身不区分词语的前后顺序,必须手动给每个位置加上位置编码(比如RoPE或者正弦函数编码)。Mamba则通过循环结构天然有方向感,但绝对位置信息需要额外处理。

Sessa的反馈求解过程会自动生成一个单调递增的序列,这个序列对每个时间步产生一个唯一的数值。论文严格证明了:可以选择合适的参数,使得Sessa在每个位置输出的值落在不同的、不重叠的区间里,从而任何一个下游模块都可以通过读取这个值来精确地知道当前位置的绝对序号。

这个性质被叫做"内部位置编码",而且论文还证明这种位置信息是"透明的"——外部输入对这个信号没有影响,它是反馈机制自己生成的确定性输出。这就像图书馆的笔记本在每一页的页码处自动印上了时间戳,不需要人工干预。

八、通用近似定理:Sessa理论上能学会任何合理的规律

论文还证明了一个深层次的理论性质:Sessa是"通用近似器",即足够深的Sessa网络可以以任意精度近似任何连续的、因果的(只看过去不看未来的)序列映射。

这对于实用性来说非常重要。一个模型能否学好某种规律,首先要确保这种规律在理论上是可学的。Sessa的通用近似性意味着它不存在结构上的"学不了",任何合理的语言模式、时序规律、因果推断关系,在原则上都可以用Sessa来表达和学习。

论文通过构造性证明来建立这个结论:先用一个Sessa块写入内部位置编码,再用多个块分别把不同的历史词语编码到不同的内部通道里,最后用一个读出网络从这些通道中计算所需的输出。整个过程是可行的,因为Sessa的每个操作都可以被用来精确模拟内部"内存槽"的读写。

九、实验:理论与实践的对比

理论很美好,实验才是最终验证。论文设计了三组实验,把Sessa与传统Transformer和Mamba2进行了公平比较:相同的参数量、相同的训练步数、相同的优化器和调度策略,只有核心的"混合器"部分不同。

第一个实验叫做SymbolSoup,是一个长程分类任务。每个样本包含大量噪声内容和两个分散在不同位置的关键信息块,模型需要找到这两个关键块并根据它们的组合来分类。这个任务的设计专门考验长程信息整合能力。结果是:Sessa的准确率达到86%,Transformer达到79%,而Mamba2完全没有收敛,停留在随机猜测的5%水平(即10个类别下的随机猜测概率)。

第二个实验叫做Diffuse MQAR,是一个改进版的多查询关联记忆任务。给模型一系列键值对(类似电话簿),然后在后面插入大量带有相似前缀的干扰项,最后在测试阶段询问某个键对应的值。测试时查询的时间间距是训练时的四倍,专门考验模型在没见过的长距离下的泛化能力。Sessa的词元准确率达到15.4%,Transformer为12.2%,Mamba2为0.2%。

Mamba2的完全失败与论文的理论预测完全一致:当干扰项的相似性使得Mamba很难在关键位置把步长Δ置为接近零(即"冻结时间"以保留记忆),指数衰减就会把关键信息抹掉。

第三个实验叫做SimpleStories,是在短篇故事数据上的语言模型困惑度测试,代表短文本的常规语言建模能力。在这个任务上,Transformer困惑度为7.67,Mamba2为7.72,而Sessa为8.37,略逊于另两者。这个结果也在理论预期之内:Sessa的反馈机制在短文本上不太需要发挥作用,但参数量的一部分被分配给了反馈路径,相当于减少了用于其他功能的容量。

论文为此做了一个消融实验:把Sessa的反馈分支关掉,只保留其他结构,困惑度从8.37降到了8.09。这说明反馈机制确实在短文本任务上消耗了有效容量,但这个代价在长文本任务上得到了丰厚的回报。

十、研究的边界和诚实的局限性

这篇论文的对比分析建立在几个明确的前提假设上,理解这些前提才能正确评估结论的适用范围。

注意力稀释的比较是在"漫射"(注意力权重接近均匀分布)的条件下进行的。在实际系统中,训练良好的注意力头可以学会高度集中地关注少数关键位置,从而规避稀释问题。因此论文的比较并不是说Transformer在任何情况下都会失败,而是说在注意力无法高度集中的情况下——这在长文本中是真实存在的困境——Sessa具有更稳健的表现。

类似地,对Mamba的比较是在"失败的冻结时间"条件下进行的,即模型无法在相关区间内维持接近零的步长。这个条件在干扰项与目标项高度相似时确实难以满足,实验结果也验证了这一点。

此外,当前实现仍然是O(T?)(T为序列长度)的时间复杂度,与标准Transformer相同,没有达到SSM的线性或接近线性的计算效率。论文指出这可以通过优化的三角求解核来改善,但并没有在这篇文章里解决。

实验规模也相对较小,没有在GPT规模的数十亿参数模型上验证Sessa的表现。大规模验证是未来工作的重要方向。

这些局限性被论文作者坦诚地披露,这使得整篇文章的论证链条更加可信。

结语

说到底,这项研究做的事情是:把两种AI记忆方式的缺陷分析清楚,然后设计一个结合两者优点的新方案,并且用严格的数学证明和实验验证来支撑这个方案。

从图书馆馆员的比喻来看:Transformer馆员扫视所有书架但容易注意力分散,Mamba馆员用笔记本记录但容易遗忘,而Sessa馆员在每次更新笔记时还会重新扫描历史笔记并融合它们,创造出覆盖多条时间路径的记忆网络。这种设计在数学上证明能更慢地遗忘信息,而且在实验上确实在长文本任务中表现更好。

对普通用户来说,这意味着未来的AI助手在处理长篇文档、长对话、长时间序列数据时,可能不再那么容易"忘记"早些时候的内容。对研究者来说,Sessa提供了一个新的方向:不是在注意力和循环之间二选一,而是把循环放进注意力的内部,创造出具有新型记忆性质的模型。

读到这里,你可能会思考:为什么两种方式融合之后会比单独任何一种都强?这背后有一个深层原因——信息通过多条路径传播时,任何单条路径的失效都不会导致信息完全丢失,就像一个城市有多条道路连接两个区域,道路越多交通就越可靠。这种"路径冗余"是Sessa比较鲁棒的根本原因,也是很多复杂系统比简单系统更可靠的共同原理。

如果这篇介绍勾起了你的兴趣,完整的数学证明和实验细节可以通过arXiv:2604.18580v2查阅原论文,同时代码也已开源在https://github.com/LibratioAI/sessa,欢迎进一步探索。

---

Q&A

Q1:Sessa架构和传统Transformer在记忆长文本时有什么本质区别?

A:传统Transformer的注意力机制每次处理时会把权重分配给所有历史词语,文本越长,每个词分到的权重就越少,导致早期信息对当前输出的影响力快速下降(大约按文本长度的倒数衰减)。Sessa则把注意力嵌入到一个循环反馈结构里,使得信息可以通过多条不同长度的路径传播,而不只依赖单一直接通道。这种"多路径路由"在数学上可以证明使影响力衰减速度从指数级或线性级降低到多项式级,意味着Sessa能更持久地保留远距离信息。

Q2:Sessa在实验中对Mamba2的大幅领先是为什么?

A:实验设计的两个长程任务(SymbolSoup和Diffuse MQAR)都包含大量干扰项,这些干扰项与目标信息高度相似,导致Mamba2难以通过调整步长参数来"冻结时间"以保留关键记忆。一旦无法维持这种冻结机制,Mamba类模型的状态转移就会按指数速度衰减,远距离的关键信息几乎被完全抹去。Sessa的多路径反馈结构对这类干扰具有更强的鲁棒性,因为即使某些传播路径被干扰,其他路径仍然可以传递信息,这与论文的理论预测完全吻合。

Q3:Sessa在短文本任务上为什么比Transformer差一点?

A:在短文本任务(SimpleStories语言建模)中,Sessa的困惑度略高于Transformer,主要原因是参数分配问题。Sessa的反馈分支占用了部分参数和计算容量,而在短文本场景下这些反馈机制几乎不需要发挥作用,相当于"浪费"了一部分模型容量。论文的消融实验验证了这一点:关掉反馈分支后,短文本性能明显提升。这是一个典型的"专用功能带来额外开销"的权衡——Sessa用短文本上的轻微代价,换取了长文本上显著更强的记忆保持能力。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-