
这项由卡内基梅隆大学、穆罕默德·本·扎耶德人工智能大学(MBZUAI)以及纽约大学联合开展的研究,于2026年发表在国际学习表征会议(ICLR 2026)上,论文编号为arXiv:2604.17568。感兴趣的读者可以通过该编号在学术数据库中查阅完整论文。
一、隐藏在数据背后的秘密世界
每当你拍下一张照片,相机捕获的是光线折射后留在传感器上的信号,而不是那朵花本身的颜色、形状与纹理——那些才是真正有意义的"本质"。相机就像是一扇磨砂玻璃,把现实世界转化成了一串串数字。如果有人只给你看那串数字,你能不能反推出玻璃另一侧的世界长什么样?
这正是机器学习领域一个古老而棘手的谜题。研究人员将其形式化地描述为:观测数据X等于某个未知函数g作用于潜在变量Z的结果,写成X=g(Z)。这里的Z就是那些藏在磨砂玻璃后面的真实因素,g是那扇玻璃本身的模糊方式,而X是你唯一能直接看到的东西。问题在于,函数g和变量Z同时都是未知的,你只有X,却要同时推断两样未知的东西——这就好比只知道面团烤完后的样子,却要同时猜出烤箱温度和面粉配比,还要猜出烘焙方式。
长期以来,研究人员试图通过各种强假设来约束这个问题:有人假设g是线性的,也就是说各种因素只是简单叠加,有人假设潜在变量之间彼此独立,还有人要求必须提供额外的监督信号,比如实验干预数据或者跨域对比数据。这些假设在理论上很优美,但在真实世界里却几乎无法验证。就像侦探不仅要破案,还必须事先声明案件必须满足"凶手惯用右手"之类的条件,才能用他的推理方法——一旦条件稍有偏差,整套方法就会彻底失效。
这篇论文的研究团队选择了一条不同的路:与其追求在苛刻假设下的完美还原,不如换个角度问:在几乎没有额外假设的情况下,我们至少能可靠地恢复哪些信息?由此,他们提出了"多样性字典学习"这一全新框架。
二、字典学习是什么,线性与非线性的根本区别
在深入核心理论之前,有必要先理解"字典学习"这个概念。字典学习的基本想法,是把观测数据理解为若干基本元素(称为"字典原子")的某种组合。以文字为例,一篇文章可以被理解为若干词语按照特定顺序和频率的组合,而词语就是这本字典的原子。传统的稀疏字典学习假设这种组合是线性的,也就是说X等于一个矩阵D乘以潜在编码Z,每个观测结果都是字典原子的加权叠加。
线性假设大大简化了数学处理,但代价是可能严重歪曲现实。拿神经网络的激活值来说,一个大型语言模型内部的表示经过了无数层非线性激活函数(如ReLU或GeLU)的加工,根本不是简单的线性叠加。目前在机械可解释性领域广泛使用的稀疏自编码器(Sparse Autoencoders,简称SAE),正是建立在线性字典学习的基础上,这也引发了研究界的深刻担忧——用一把线性的尺子去丈量本质上弯曲的空间,测量结果能可靠吗?
这篇论文转向了非线性的一般情形,允许g是任意光滑可逆函数。这一步骤在数学上的代价是:完整恢复所有潜在变量几乎不可能,因为在不加任何约束的情况下,理论上有无数种不同的g和Z组合能产生完全一样的观测数据X——就像同一道烤蛋糕,可以由无数种不同的温度和时间组合烤出来。
然而,就在这看似山穷水尽的地方,研究团队发现了一片新天地。
三、结构才是一切的关键:雅可比矩阵的奥秘
在进入核心理论之前,研究团队首先需要描述潜在变量和观测变量之间的"连接关系",而不仅仅是具体的数值关系。他们选择的工具是雅可比矩阵(Jacobian matrix)的支撑结构。
简单来说,雅可比矩阵描述的是:当某个潜在变量Z_j发生微小变化时,哪些观测变量X_i会随之发生变化?如果X_i会因Z_j的变化而变化,就说Z_j"影响"X_i,二者之间存在连接。把所有这些连接关系画成一张图,就是所谓的依赖结构(dependency structure)。
这个结构是非参数的,它不关心具体的函数形式,只关心"谁影响谁"这个更基本的问题。研究团队将其正式定义为雅可比矩阵的支撑集——也就是雅可比矩阵中非零元素的位置集合。
以论文中的具体例子为例,三个潜在变量Z?、Z?、Z?生成三个观测变量X?、X?、X?,其中Z?和Z?共同影响X?和X?,而三个潜在变量共同影响X?。把这些连接关系写成一个矩阵,其中带星号的位置表示存在连接,空白位置表示没有连接,就得到了依赖结构的具体形态。正是这个结构,成为了整个理论的基石。
四、集合代数:用"韦恩图思维"切割隐藏世界
研究团队的核心洞察来自一个非常朴素的问题:对于不同组的观测变量,它们各自对应的潜在变量集合,能告诉我们什么?
以两组观测变量X_K和X_V为例,X_K背后有一批潜在因素(记为I_K),X_V背后有另一批潜在因素(记为I_V)。这两组潜在因素之间的关系,可以用集合运算来描述——它们的交集I_K∩I_V是两组变量共享的潜在因素,它们的对称差I_K△I_V是各自独有的因素,而I_K\I_V和I_V\I_K分别是K独有的和V独有的部分。
这就像用韦恩图来描述两个班级各自喜欢的音乐类型:左圈代表A班喜欢的,右圈代表B班喜欢的,中间重叠的部分是两班共同喜欢的,而两侧各自独有的部分则代表了各班的独特品味。
研究团队提出的"集合论不确定性"(set-theoretic indeterminacy)是整个理论的核心定义,它描述的是:当两个模型在观测数据上完全等价时,它们内部潜在变量之间的关系受到了怎样的约束?具体而言,这个定义保证了三件事。第一,交集中的潜在因素(两组共享的)不能被表达为对称差中因素(各自独有的)的函数——也就是说,共同的东西和各自特有的东西彼此独立,不会互相纠缠。第二,对称差中的因素不能依赖于交集中的因素,保证了这种独立性是双向的。第三,K独有的因素不能被V独有的因素所解释,反之亦然——不同群体的专属特征之间保持了独立性。
用更生活化的语言来说,这个理论保证了:如果你用这套方法学到了一组潜在表示,那么那些对多个观测共同负责的"公共因子",一定和那些只对某个观测负责的"专属因子"保持了清晰的界限,不会互相污染。
五、从集合结论到更丰富的推论
有了集合论不确定性这个核心工具,研究团队进一步推导出了三种实用的更强结论,分别对应现实任务中的不同场景。
第一种叫做以对象为中心的解耦(object-centric):某个观测集合X_K背后的全部潜在因素,不能被X_V独有的那些因素所影响,反之亦然。这意味着,负责描述对象A的潜在表示,不会和负责描述对象B的混在一起——这正是以对象为中心的表示学习所追求的模块化特性,比如一张图片中的椅子和桌子应该由各自独立的潜在编码来描述,不应该互相干扰。
第二种叫做以个体为中心的解耦(individual-centric):某个观测集合独有的潜在因素,不能依赖于另一个观测集合的任何潜在因素(包括共享部分)。这对于域适应(domain adaptation)任务非常有用——一个模型在从一个数据分布迁移到另一个分布时,需要把每个域特有的特征和通用特征干净地分开,而这个理论保证了这种分离是可以实现的。
第三种叫做以共享为中心的解耦(shared-centric):公共潜在因素不能被任何一方独有的因素所解释。这确保了跨域或跨对象的通用知识被独立提取,不受各自特异性的干扰,对于迁移学习和泛化能力至关重要。
更进一步,研究团队还揭示了一个美妙的连锁效应:如果把多个观测变量的潜在支撑集拼起来,覆盖了整个潜在空间,那么上述集合论的保证就能延伸到韦恩图中每一个原子区域——也就是说,所有可能的交叉组合都能被块状地识别出来。论文中展示了三个观测变量的例子,它们的潜在支撑集形成了包含七个不同原子区域的韦恩图,每一块都被证明可以与其他所有块保持独立,从而实现块级别的可识别性。
六、两个正式定理:什么条件下能保证这一切成立
理论的美妙之处在于,上述所有保证只需要非常温和的条件就能成立。研究团队的第一个主要定理(定理1)给出了精确的充分条件。
第一个条件是潜在变量Z的概率密度在整个空间上处处为正。这是一个极为标准的技术假设,几乎所有识别性理论都需要它,其含义仅仅是潜在变量不会被限制在某个角落里,理论上任何值都有可能出现。
第二个条件是稀疏性正则化(sparsity regularization):在估计过程中,要求学到的模型的雅可比矩阵的非零元素个数不超过真实模型的非零元素个数。换句话说,就是在训练时对连接关系的数量施加惩罚,鼓励模型找到尽量简洁的依赖结构。
这里有一点非常关键且值得反复强调:这个稀疏条件仅仅是训练时的正则化手段,而不是对真实数据生成过程的假设。真实世界的数据可以由极其复杂、密集连接的过程生成,我们不需要假设它是稀疏的。我们只是在训练模型时给它施加了一种"奥卡姆剃刀"式的偏好——优先寻找连接关系尽量少的解。这与结构因果模型中的忠实性(faithfulness)原则、最小性(minimality)原则一脉相承:当多个模型都能解释数据时,优先选择连接最少的那个。
还需要一个关于"充分非线性"的技术假设(假设1),它保证雅可比矩阵在不同样本点上的变化足够丰富,能够区分真实连接和偶然相关。这同样是领域内的标准假设,对平滑函数和连续分布来说通常自然满足。
第二个定理(定理2)更进一步:在同样的条件下,不仅可以识别集合论关系,连整个依赖结构本身都是可识别的——只要允许对潜在变量的编号进行重新排列(这是不可避免的标准不确定性)。这意味着,在训练收敛后,学到的雅可比矩阵的非零模式,与真实模型的非零模式是完全一致的(允许列的重排序)。换句话说,机器学习到的"谁影响谁"的连接图谱,就是真实世界中"谁影响谁"的真实连接图谱。
七、从集合识别到元素级识别:足够多样性就能完全还原
上述结论是块级别的,而非元素级别的。在更强的结构条件下,研究团队证明了可以将每一个潜在变量单独识别出来(定理3),这被称为元素级可识别性(element identifiability)。
所需的额外条件叫做"足够多样性"(sufficient diversity,假设2),它有三种等价的形式,分别对应不同的结构特征。第一种是:某个潜在变量Z_i在某组观测集合中,有一个观测变量X_k,它的潜在支撑集在去掉其他所有成员的支撑集后,唯一剩下的就是Z_i——也就是说Z_i是X_k独有的贡献。第二种是:在某个集合的观测变量中,将其他所有成员的潜在支撑集取交集后,再去掉X_k的支撑集,剩下的唯一元素就是Z_i——Z_i是被多数成员覆盖但被X_k排除的那个特殊因子。第三种直接来自现有文献中的结构稀疏条件,即存在一组观测变量,其潜在支撑集的交集恰好就是{Z_i}。
与结构稀疏假设相比,足够多样性是一个更宽泛的条件,因为它同时包含了三种充分条件,只要满足其中任何一种就够了。而且,这个条件根本不要求结构是稀疏的——即使在几乎全连接的图中,只要不同观测变量的连接模式之间存在哪怕一点差异,条件就可能满足。这是一个本质上关于"多样性"的要求,而非"稀疏性"的要求,两者是完全不同的东西。
研究团队猜测,足够多样性条件可能在没有任何分布假设和函数形式约束的情况下,是元素级识别性的必要条件。这个猜想的依据是:韦恩图的原子区域是这类结构的最小不可分元素,而足够多样性正好保证了每个潜在变量都对应一个独立的原子区域。
八、实验验证:理论如何在真实数据上站稳脚跟
研究团队通过两组实验来验证理论预测。
第一组是合成实验。他们用多层感知机(MLP)加上Leaky ReLU激活函数生成非线性观测数据,然后用变分自编码器(VAE)作为骨干模型,将依赖稀疏正则化加入损失函数。实验使用了三到五个潜在变量的数据集,并将观测变量分成两组X_K和X_V。
对于广义可识别性的验证,研究团队计算了潜在变量的不同子集之间的R?得分——R?越低,说明两组变量之间的纠缠程度越低,即越解耦。结果显示,交集与对称差之间、两个互补部分之间,R?分数都显著低于参考基线(后者代表应有的纠缠程度),而且这一现象在三个不同维度设置下都稳定出现,证实了集合论不确定性的保证是真实成立的。
对于元素级可识别性的验证,研究团队构造了满足足够多样性条件(Ours)和违反该条件(Base,全连接依赖)的数据集,用平均相关系数(MCC)来衡量估计到的潜在变量与真实潜在变量之间的对应程度。结果非常清晰:只有满足足够多样性条件的数据集才能达到高MCC,全连接的情况下MCC则明显偏低,直接证实了定理3的预测。
第二组是视觉实验,也是更贴近实际应用的验证。研究团队在三个标准解耦表示学习基准数据集上进行了测试:Cars3D包含汽车在不同方位角、仰角和颜色下的图像,Shapes3D包含三维几何体在不同颜色、形状和光照条件下的图像,MPI3D则是更接近真实世界的复杂机械臂图像。这些数据集的优点是,其真实生成因素(颜色、形状、方位等)是已知的,因此可以直接评估模型是否恢复了这些因素。
研究团队将依赖稀疏正则化(在雅可比矩阵上的L1正则)添加到三种主流生成模型中:基于VAE的FactorVAE、基于GAN的DisCo、以及基于扩散模型的EncDiff。同时与两种基线进行比较:不加正则化的原始模型,以及在潜在变量Z上施加L1正则化(潜在稀疏)的版本。
评估指标使用了两个标准的解耦评分:FactorVAE分数和DCI解耦分数,两者都是越高越好。结果显示,在绝大多数数据集和骨干模型的组合下,加入依赖稀疏正则化后的性能都有所提升,且通常优于潜在稀疏正则化。特别是在Shapes3D上,EncDiff加入依赖稀疏后DCI分数从0.901提升到0.947,FactorVAE分数达到了满分1.0。这些改进印证了理论预测:依赖稀疏正则化提供了正确的归纳偏置,而潜在稀疏则不具备相同的理论保证。
除了定量指标,研究团队还展示了丰富的可视化结果。通过分别改变每个潜在维度(保持其他维度固定),可以直观看到每个维度控制的视觉属性。在Fashion数据集上,三个潜在维度分别清晰地对应了性别、鞋跟高度和上身宽度,相互之间几乎没有干扰。在Shapes3D上,四个维度分别对应墙面角度、墙面颜色、物体形状和物体颜色。在Cars3D上,方位角和颜色也被干净地分开。对比实验还展示了"潜在变量替换"——把源图像中的某个语义属性(比如墙面颜色)替换为目标图像中对应的值,其他属性保持不变——结果表明依赖稀疏正则化能够使这种精准替换成为可能,而且不会产生不必要的副作用。
九、对机械可解释性的启示:SAE的困境与出路
研究团队专门讨论了这一理论框架对机械可解释性领域的意义,尤其是针对SAE的讨论。
SAE的核心假设是线性叠加:大型语言模型的内部表示是某些"特征"的稀疏线性组合,每个特征代表一个语义概念。这个假设在数学上优美,在实践中也确实发现了一些有意义的特征,但存在两个深层问题。第一,假设线性生成过程会引入系统性偏差,因为实际的神经网络内部充斥着非线性变换,真实的表示空间根本不是平坦的线性空间。第二,SAE在潜在向量上施加稀疏性,这迫使模型用极高维度(有时是百万级)的稀疏向量来表示概念,导致特征分裂(一个概念被拆分成多个特征)和特征吸收(一个特征包含了多个不相关概念)的问题,可解释性反而下降。
多样性字典学习提供了一种原则性的替代方案:用依赖稀疏(Jacobian稀疏)代替潜在稀疏,用非线性可识别框架代替线性假设。这不仅从理论上绕开了线性假设的约束,而且从实验结果来看,依赖稀疏也确实比潜在稀疏更有利于恢复有意义的潜在表示。
在新增实验中,研究团队还在GPT-2-Small模型上比较了雅可比稀疏自编码器(JSAE)与Top-K SAE和Batch Top-K SAE在"死亡特征"数量上的表现——死亡特征指那些从不被激活的潜在维度,数量越少说明特征利用率越高。结果显示,JSAE的死亡特征数量(62个)远少于Top-K SAE(439个)和Batch Top-K(207个),说明依赖稀疏能在保持更多活跃、有意义特征的同时完成可解释性分析。
说到底,这篇论文最根本的贡献是为一个本质上开放的问题提供了部分确定性的答案。现实世界的数据生成过程往往复杂、非线性、难以验证,完全识别一个潜在变量系统需要极强的假设,而这些假设在实践中几乎不可能被证实。研究团队选择退一步,问一个更实际的问题:就算我们无法完整还原整个隐藏世界,至少能可靠地还原哪些部分?他们的回答是:那些通过集合运算(交集、补集、对称差)定义的结构性关系,以及整个依赖图谱,在非常温和的条件下就能被可靠识别。而实现这一点所需的实践代价,仅仅是在训练时加一项正则化项——鼓励模型倾向于寻找连接较少的解。这个正则化项几乎可以无缝嵌入任何可求导的生成模型,从VAE到GAN到扩散模型,都可以轻松使用。
归根结底,这是一种更诚实的科学态度:不是假装能用万能钥匙打开所有锁,而是认真地问清楚哪些锁确实能打开,同时找到一把足够通用的钥匙,让这些答案在真实情境中真正管用。
Q&A
Q1:多样性字典学习与稀疏自编码器(SAE)有什么本质区别?
A:两者的核心区别在于稀疏的对象不同。SAE在潜在变量Z本身上施加稀疏约束,要求激活值大多数为零,这会导致需要极高维度来表达概念,还会产生特征吸收和死亡特征等问题。多样性字典学习则在雅可比矩阵(依赖结构)上施加稀疏约束,鼓励减少潜在变量与观测变量之间不必要的连接,而不要求激活值本身稀疏。另外,SAE基于线性假设,而多样性字典学习支持任意非线性生成过程,理论保证更为一般。
Q2:足够多样性条件和稀疏性假设有什么不同,为什么说多样性不等于稀疏?
A:稀疏性要求依赖结构本身就是稀疏的,即大多数潜在变量与大多数观测变量之间没有连接,类似于"锚特征"假设。而足够多样性只要求不同观测变量的潜在支撑集之间存在某种差异性,比如某个观测变量有一个独有的潜在因素,或者某个因素被一组变量共享但被某个成员排除。即使在几乎全连接的情形下,只要连接模式之间存在哪怕一处差异,足够多样性就可能成立,因此它是一个比稀疏性宽泛得多的条件。
Q3:依赖稀疏正则化在实际大型模型中计算代价大吗,有没有可行的实现方式?
A:计算全量雅可比矩阵的确开销较大,但有两种常用策略可以大幅降低代价。第一,先利用潜在稀疏识别出活跃的潜在维度,只对这个小子集计算雅可比,对于Transformer架构来说活跃维度通常远小于总维度。第二,对于具有残差注意力和前馈结构的模型,相关雅可比块存在闭合形式的高效分解,只需少量矩阵乘法。据实际测试报告,加入依赖稀疏正则化后的训练速度约为标准L1正则化的一半,对于常规大语言模型来说是可以接受的代价。
好文章,需要你的鼓励
这项由IIT马德拉斯与BITS Pilani联合发布的研究(arXiv:2604.21523,2026年4月)构建了FOCUS元评估基准,系统检验了评审型视觉语言大模型的可靠性。通过向超过4000个图文和图像样本中注入40种受控错误,研究发现顶尖评审AI的检测失败率在某些条件下超过50%,物理合理性和视觉细节类错误尤为难以被发现,两两比较是最可靠的评审范式。
这篇由Sylph.AI发布的技术报告提出了一套两层自动化框架,核心思想是让AI自动优化自身的运行脚手架,再进一步让AI学会如何更高效地做这种优化。内层的脚手架进化循环通过工人代理、评估代理和进化代理的协作,自动迭代改进单个任务的运行配置;外层的元进化循环则在多个任务上训练,学习一套能快速适应任何新场景的通用进化蓝图,从而彻底消除人工脚手架工程的需求。
这篇由英伟达等顶尖机构联合发表的论文提出了一种名为Voyager的新型智能体。研究团队以《我的世界》为实验平台,通过引入自动课程规划、技能库存储以及迭代反馈机制,成功让大语言模型主导的AI在完全无人类干预的情况下,实现了在复杂开放世界中的自主探索与终身学习。实验数据表明,Voyager在物品收集、探索范围及技能解锁速度上均呈现出远超传统方法的压倒性优势,为未来开发能够自主解决真实物理世界复杂任务的通用人工智能奠定了关键的理论与实践基础。
这项由伊利诺伊大学、斯坦福大学、英伟达和麻省理工学院联合发布的研究(arXiv:2604.25917,2026年4月)提出了RecursiveMAS框架,让多个异构AI模型通过轻量级模块RecursiveLink在内部信号层面直接传递"潜在思想",形成循环协作,彻底绕开了传统多AI系统依靠文字传话的低效方式。配合两阶段内外循环训练策略,整个系统只需优化极少量参数,就能在数学、科学、代码生成和搜索问答等9个基准测试上取得平均8.3%的精度提升,同时实现最高2.4倍推理加速和75.6%的token用量削减。