微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

山雀如何用"冰晶大脑"记住上千个藏粮地点？独立研究者发现记忆容量的几何学秘密

神经科学几何稳定性记忆相变

山雀如何用"冰晶大脑"记住上千个藏粮地点？独立研究者发现记忆容量的几何学秘密

作者：科技行者

2026-05-25 09:15

分享至：

山雀如何用"晶体大脑"记住上千个藏粮地点？研究发现记忆容量差异源于神经活动的几何相变，与神经元数量无关，晶体代码比雾气代码的记忆容量高出逾百倍。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-25 09:15 • 科技行者

这项由独立研究者完成的研究以预印本形式发布于2026年5月，论文编号为arXiv:2605.17199，有兴趣深入了解的读者可以通过该编号在arXiv平台上查询完整论文。

每年秋天，北美的黑顶山雀都要做一件看起来极其疯狂的事：它们把数以千计的食物分别藏在不同的角落，然后在接下来整个严酷的冬季，凭着记忆一件一件地找回来。几千个地点，几千次准确定位，全凭大脑。与此同时，不会藏粮的斑马雀也拥有大脑，也拥有海马体，也有神经元，硬件配置看起来差不多——但它们就是做不到这件事。

为什么同样的"硬件"，会产生如此天壤之别的"记忆软件"？

这个问题困扰了神经科学家很久。传统的答案是：也许山雀有更多的神经元，或者神经元的接线方式不同，或者单个神经元对空间位置更敏感。这些答案听起来合理，但都没能真正解释清楚那几千倍的记忆差距。

这项研究提出了一个截然不同的解释：差距不在于神经元的数量，而在于神经元集体活动所形成的**几何形状**。山雀的海马体神经元以一种极其有序的方式协同工作，形成了类似晶体的几何结构；而斑马雀的神经元则像一团随机飘散的雾气。正是这个"有序"与"无序"之间的相变，决定了记忆容量能够相差超过一百倍。

一、同样的大脑硬件，为什么记忆容量差了一百倍？

要理解这个研究，先得理解一个根本的矛盾。大脑存储记忆时，面临一个非常现实的工程问题：每当你记住新东西，新的神经活动模式会与旧的记忆产生"串扰"——就像你在同一张白纸上反复写字，写到后来什么都看不清了。神经科学家把这个现象叫做"灾难性干扰"。

更多的记忆意味着更多的干扰，这是一个基本的物理限制。理论上，要记住更多地点，要么扩大大脑（用更多神经元），要么找到某种方法让记忆之间互不干扰。

山雀确实拥有相对较大的海马体，但研究人员早就知道，仅凭体积扩大无法解释几千个地点的记忆能力。于是这项研究盯住了一个更微妙的可能性：也许山雀找到了一种方法，让大量记忆在同一片神经网络里和平共存，互不侵扰。

研究使用的是神经科学家Payne等人2021年公开发布的电生理数据，这套数据包含了山雀（39个记录时段，9只鸟）和斑马雀（8个记录时段，9只鸟）在开放空间中自由探索时，海马体神经元的实时放电记录。研究团队没有去直接数神经元的数量，而是把所有神经元的集体活动看作一个整体来分析它的"几何形状"。

这里有一个需要先讲清楚的核心概念，叫做"种群向量"。当一只山雀站在空间的某个位置时，它的100个海马体神经元会同时以各自不同的频率放电。如果把这100个神经元的放电率排成一列，就得到了一个100维的数字向量——这个向量就是大脑对"此时此地"的代码。当山雀移动到另一个地点，代码就变了，变成了另一个100维向量。

把所有可能的地点对应的向量都画出来，就形成了一个高维空间中的"点云"。研究的核心问题是：这片点云是什么形状的？

二、晶体vs雾气：两种截然不同的神经几何

为了衡量这个"形状"，研究者引入了一个叫做"Shesha"的度量工具（由该研究者本人开发的开源工具）。这个工具的核心思路类似于一个测试：把海马体中的神经元随机分成两半，用每一半分别画出空间地图，然后看两张地图是否一致。如果一致，说明这个几何形状是稳定可靠的，就像一栋坚固的建筑；如果不一致，说明形状是脆弱不稳的，像沙堆一样随时塌陷。

测量结果非常清晰。山雀的Shesha得分是0.245，斑马雀是0.166；如果再加上时间维度的测量（同一段时间内前半段和后半段的地图是否一致），山雀得0.393，斑马雀只有0.209。山雀的神经几何形状不但更稳定，而且在时间上更连贯，像是在反复阅读同一张印好的地图，而斑马雀的大脑则像是每次都在重新拼凑散落的地图碎片。

更直观的证据来自"表征相异性矩阵"的分析。简单说，就是把空间中所有地点两两配对，算出它们在神经活动上有多相似或相异，然后把这些相似度画成一张热力图。在山雀的热力图里，能清楚地看到一条深色的对角线——物理上靠近的地点在神经表征上也相似，而物理上远离的地点在神经上就很不同。这种结构说明大脑的神经地图忠实地保留了真实世界的空间关系，就像一张等比例的地图。

斑马雀的热力图则几乎是均匀一片，看不出任何结构。相邻地点和遥远地点的神经代码之间没有规律性的差异，就像随机涂鸦，无法解读。

为了证明这个差异不是测量技巧的问题，研究者做了一个关键的控制实验：把每个神经元的空间地图随机打乱顺序（破坏神经元之间的协调关系，但保留每个神经元自身的统计特性），然后重新测量Shesha。结果两个物种的Shesha都直接归零。这证明，几何稳定性不是由任何单个神经元决定的，而是所有神经元协同工作所涌现出来的集体属性——破坏了协调，就什么都没有了。

研究还做了另一个控制：把山雀的神经元数量下调，随机抽取和斑马雀数量相当的子集重新测量。结果差距依然显著（Cohen's d=0.560，p=0.025）。所以几何稳定性的差异不是因为山雀记录到的神经元更多，而是真实存在于神经活动的组织方式之中。

三、大脑不是靠"专属细胞"记住地点的

在讲几何形状之前，有必要解释一个历史上流行的理论，因为这项研究专门花了大篇幅来反驳它。

这个理论叫做"稳定记忆分配器"，是计算机科学家Valiant提出的。它认为大脑防止记忆互相干扰的方法，是给每个记忆分配一组专属的神经元——就像给每件行李贴上专属标签。记忆A由神经元1、5、17、32负责，记忆B由神经元2、8、23、45负责，互不重叠，自然互不干扰。

如果这个理论是对的，那么山雀应该表现出非常规律的神经元分配：每个地点都有一组固定的神经元负责，每个神经元都有相对均匀的"领地"大小，而且这种分配模式在不同神经元子集之间应该高度可重复。

实验结果给了这个理论一记响亮的耳光。研究者发现，山雀神经元的"感受野"面积（即每个神经元对多大空间范围有反应）极其不均匀，变异系数高达1.03，而斑马雀是0.23——山雀的神经元彼此之间的"领地"大小差异极大，完全不符合整齐划一的分配逻辑。更关键的是，当研究者把神经元随机分成两半，看看两半神经元是否招募了相似数量的细胞来覆盖同一个空间地点时，山雀的分配可靠性分数竟然是负数（平均r = -0.064），远低于斑马雀（r = 0.264）。

这是一个精妙的双重分离：山雀在几何稳定性上远胜斑马雀，但在"固定细胞分配"这件事上反而不如斑马雀。这说明两种策略是根本不同的计算机制，不是同一种策略的两个档次。山雀用的不是"贴标签"的策略，而是依赖整个群体神经元共同构成的几何结构，而单个神经元的具体分工在这个机制里是可以灵活变动的。

还有一个有趣的对比：衡量传统单个神经元放电可靠性的"种群向量相关"指标在两个物种之间没有显著差异，数值上甚至斑马雀略高（山雀0.058，斑马雀0.167）。只有几何敏感的Shesha指标，才能捕捉到山雀真正的优势所在。这说明山雀的记忆优势完全藏在高阶的几何结构里，不会被传统的线性指标察觉。

四、"抑制性神经元"是让结构保持坚硬的氢键

神经元分两种：兴奋性神经元负责激活其他神经元，抑制性神经元负责抑制其他神经元。传统理解里，兴奋性神经元是大脑信息处理的主力军，抑制性神经元是刹车，防止神经系统失控。

但这项研究发现，在山雀海马体的几何结构中，抑制性神经元扮演的角色远比"刹车"复杂得多——它们实际上是维持晶体结构的"氢键"。

从信息量来说，兴奋性神经元每个动作电位携带的空间信息是0.169比特，而抑制性神经元只有0.009比特，差了接近20倍。换句话说，如果你用单个神经元的放电率来问"动物在哪里"，兴奋性神经元会给你一个相对清晰的答案，而抑制性神经元几乎沉默以对。

然而，抑制性神经元的时间稳定性却和兴奋性神经元几乎完全一样（xcorr分别为0.405和0.399，差异不显著）。更奇怪的是，不同session之间，兴奋性神经元的几何稳定性和抑制性神经元的几何稳定性之间呈现出负相关（r = -0.333）——当兴奋性神经元的地图特别稳定时，抑制性神经元的地图反而不那么稳定，反之亦然。

这种负相关彻底排除了一种可能的解释：也许两种神经元只是在重复同一个信号，一起变强或一起变弱。负相关告诉我们，它们在做不同的事情，相互补充，而非相互重复。

为了理解它们各自在做什么，研究者计算了兴奋性神经元群体和抑制性神经元群体在高维神经空间中所占据的"方向"——用线性代数的语言说，就是主子空间（principal subspace）之间的夹角。结果呈现出一个"一共享、两正交"的结构：第一个夹角平均只有14度（接近0度意味着完全重叠），说明两类神经元共享一个共同的活动维度，大概对应于整体兴奋水平的共同调制；但第二和第三个夹角分别平均达到了64度和82度，接近于完全垂直（82度已非常接近在这个神经空间中随机独立子空间之间的期望夹角83度）。

这意味着兴奋性神经元和抑制性神经元所编码的空间信息大部分是在彼此正交的方向上展开的——它们各自贡献的维度互不重叠。当把两类神经元合并在一起，整体神经空间的"内在维度"（即需要多少个主成分才能解释95%的变化）从单独兴奋性神经元的7.5个维度，扩展到了9.8个维度。而将抑制性神经元替换为反相关的人工对照信号时，维度不增加，依然是7.5。

用一个具体的比喻来理解：兴奋性神经元就像房屋的钢筋骨架，决定了基本的空间布局；抑制性神经元就像从不同方向斜插进来的斜撑，不是重复骨架，而是从别的方向施加约束，让整个结构不会在外力下倾斜变形。少了斜撑，骨架形状还在，但一推就晃；有了斜撑，建筑变得僵硬，能扛住更大的扰动。

研究者用一个模拟实验验证了这个想法：人工"剔除"抑制性神经元，只看兴奋性神经元构成的几何结构，Shesha得分显著下降。这说明几何稳定性不是兴奋性神经元独自拥有的属性，而是两类神经元协同工作所涌现出来的集体属性，缺一不可。

五、几何拓扑与记忆容量：一百倍差距从何而来？

光知道山雀的神经几何更有序还不够，还需要解释这种有序性究竟如何转化为记忆容量的提升。为此，研究者构建了一个计算机模型，模拟不同几何组织程度下神经网络的记忆表现。

模型很简单：500个神经元，每个神经元在一维圆形轨道上有一个偏好位置，编码方式是高斯形状的调谐曲线（靠近偏好位置放电强，远离则弱）。通过调整"拓扑强度"参数τ从0到1，可以得到从完全随机（τ=0，对应"噪声"状态）到完全有序（τ=1，对应"晶体"状态）的各种编码。τ=0.5对应"雾气"状态，被设定为斑马雀的生物类比。

然后，模型向这些神经网络中存入越来越多的地点（从10个到1000个），并测量在带有随机扰动的情况下，解码器能否正确恢复每个地点的位置。误差越低，说明记忆容量越高。

结果形成了一个非常清晰的相变图像。晶体代码（τ=1）在存储1000个地点时，解码误差依然保持在一个较低水平；雾气代码（τ=0.5）在存储10个地点时误差就已经超出了可靠识别的阈值；噪声代码（τ=0）从一开始就基本等于随机猜测，完全无法解码。

关键的转变发生在τ≈0.35附近：低于这个阈值，无论存多少地点，系统都会发生灾难性干扰，记忆互相覆盖；高于这个阈值，系统进入一个稳定区域，可靠的记忆容量可以延伸到1000个以上的地点。这就是论文标题所说的"几何相变"——一个临界点，跨越它就是质变。

为了确认这个结论不是特定参数条件下的偶然产物，研究者做了一个庞大的参数扫描，系统地变化了三个变量：神经元数量（N，25到500）、每个地点的采样次数（T，25到500）和神经元的稀疏度（ρ，0.01到0.25），共测试了20×25×20=10000种组合。每一种组合都测量晶体代码和随机代码之间的误差差值。

结果令人震惊地整洁：拓扑优势几乎与神经元数量和采样次数无关，决定性因素是稀疏度。在稀疏度很低（ρ=0.01）时，拓扑优势接近于零；随着稀疏度增加，优势急剧提升，在ρ≈0.11时达到饱和，此后进一步增加稀疏度也不再带来明显改善。而山雀海马体神经元的实测稀疏度ρ≈0.15，恰好落在这个饱和的高优势区域内——山雀不仅拥有晶体几何，而且其稀疏度也恰好调到了最大化利用这种几何优势的位置。这不是精细调节的结果，而是在一个相当宽泛的参数范围内都成立的结论。

六、记住一千个地点，需要缴纳169倍的"几何税"

在模型中实现最优晶体几何所需的代价是什么？研究者发现，要维持高容量的晶体代码，神经网络需要以一种极其冗余的方式编码信息。

研究者用一个指标来量化这种冗余：将所有单个神经元携带的空间信息加总，再除以整个神经元群体一起携带的总信息量。如果这个比值等于1，说明每个神经元携带完全独立的信息，群体是完全高效的；如果比值远大于1，说明同一份信息被反复存储在很多神经元上，存在大量冗余。

在山雀中，这个冗余比值的中位数约为12倍（过滤掉信息量极低的session后），而理论上最优晶体代码所需的冗余度高达169倍。斑马雀的冗余比值中位数只有2.2倍。

为什么实测值（12倍）远低于理论值（169倍）？因为记录到的神经元数量太少——当你只同时记录了几个到二十几个神经元时，互信息的估计量会迅速衰减，实测到的冗余度必然是真实冗余度的下界。但即便如此，山雀依然是斑马雀的约5.5倍，方向一致。

这个"几何税"是什么意思？可以用房屋加固来类比。假设你要建一栋能抗8级地震的房屋，普通建筑只需要一道墙；但为了抗震，你需要在每道墙里加入多层钢筋、加厚墙体、增加斜撑。这些额外的建材就是"税"，你用更多的材料换来了更强的抗扰动能力。山雀用169倍的信息冗余来换取1000倍以上的记忆容量，这个交换从工程角度来说是非常划算的。

这个机制的本质是让每条记忆分布在整个神经元群体上，而不是集中在少数几个专属神经元里。分布式存储意味着任何单个神经元的随机噪声都不能损毁记忆，因为记忆是由整体几何关系承载的，而不是由某个特定神经元的放电率决定的。

七、从物理相变到神经进化：一个统一的理解框架

这项研究最令人印象深刻的地方，在于它借用了凝聚态物理中的"相变"概念来理解记忆系统。

水在0摄氏度以上是液态，在0摄氏度以下是固态，这个转变在温度穿越临界点时是突然发生的，而不是渐进的。在临界点两侧，水分子的数量和成分完全一样，但组织方式截然不同，宏观性质也因此产生质变。

山雀和斑马雀的海马体神经元也是一样：神经元数量相当，基本的电生理特性也相似，但神经活动的整体组织方式处于不同的"相"——山雀处于晶体相，斑马雀处于气体相（雾气）。记忆容量不是由神经元数量决定的，而是由神经网络所处的动力学相来决定的。

这个相的差别是由什么决定的？是兴奋性驱动和抑制性稳定之间的精确平衡。就像水的固液相变是由温度（即分子热运动的剧烈程度）决定的，神经网络的晶体-雾气相变是由兴奋/抑制平衡的"温度"决定的。山雀的大脑通过进化，找到了一个能让海马体工作在晶体相的兴奋/抑制配比，从而在不大幅扩充神经元数量的情况下，实现了记忆容量的跨越式提升。

这对于理解进化非常重要：自然选择不需要创造出更多的神经元，只需要调整现有神经元之间的协调方式，就能在同样的"硬件"上运行出更强大的"软件"。记忆容量的进化不是量变，而是质变。

说到底，这项研究揭示的是一个非常普遍的原理：系统的能力，往往不取决于组成成分的数量，而取决于这些成分的组织方式。100块乐高积木，可以随意堆成一堆，也可以搭出一座精密的塔楼。相同的积木，截然不同的结构，截然不同的功能。山雀大脑里的神经元，就是那座精密的塔楼。

当然，这项研究也有明确的局限。E/I电路分析只基于13个记录时段，统计功效偏低；计算模型是在一维圆形轨道上运行的，直接推广到二维开放空间存在技术挑战（高维空间中的测量问题会使拓扑恢复变得不可靠）；整个经验对比依赖于单一数据集中的两个物种。研究者坦诚地指出，要让关于抑制稳定机制的因果性主张更加确凿，还需要更多物种、更大样本和干预实验（比如选择性阻断抑制性神经元活动）的佐证。

尽管如此，这项研究对未来的影响方向是清晰的。如果几何稳定性确实是大脑记忆容量的决定性因素，那么研究记忆障碍（如阿尔茨海默病导致的记忆丧失）时，就应该重点关注神经活动几何结构的紊乱，而不仅仅是神经元数量的减少。人工智能领域的持续学习（让AI在学习新任务时不忘记旧任务）也面临类似的灾难性干扰问题，晶体几何编码的原理或许能够为新的AI架构设计提供思路。记忆的秘密，原来藏在形状里。

Q&A

Q1：什么是"几何相变"，它和山雀记忆有什么关系？

A：几何相变是指神经元集体活动的组织方式发生了质变——从无序的"雾气"状态跃升为有序的"晶体"状态。山雀海马体的神经活动处于晶体相，这种有序结构让不同地点的记忆在神经空间中被清晰分隔，互不干扰，从而支持超过1000个地点的可靠存储；斑马雀处于雾气相，记忆之间容易混淆，存储10个地点就开始出现灾难性干扰。这个相变由兴奋性神经元和抑制性神经元之间的精确平衡决定。

Q2：Shesha指标是什么，为什么普通的神经元测量方法无法发现山雀的记忆优势？

A：Shesha是一种衡量"神经几何形状稳定性"的指标，做法是把神经元随机分成两半，分别画出空间地图，看两张地图的结构是否一致。传统方法（如种群向量相关）测量的是单个神经元的平均放电可靠性，这个指标在两个物种之间没有显著差异。山雀的优势不在于单个神经元更准确，而在于所有神经元作为整体所形成的高阶几何关系更稳定，只有Shesha这类几何敏感的指标才能检测到这种差异。

Q3：为什么记忆容量的提升需要缴纳169倍的"冗余税"，这不是很浪费吗？

A：表面上看确实浪费，但换来的回报远超代价。冗余意味着同一份记忆被分散存储在大量神经元中，任何单个神经元的随机噪声都无法破坏记忆，整体几何结构拥有很强的抗扰动能力。用169倍的信息冗余换取超过100倍的记忆容量提升，从工程效率的角度来说非常划算。可以理比喻为建抗震建筑：用多几倍的钢筋换来数倍以上的结构稳定性，这是值得的取舍。

神经科学几何稳定性记忆相变

分享至