
这项由柏林工业大学机器学习研究组、柏林基础学习与数据研究所、Aignostics公司及柏林夏里特医学院病理研究所联合开展的研究,于2026年6月4日以预印本形式发布,论文编号为arXiv:2606.06458v1,有兴趣深入了解的读者可通过该编号查询完整论文。
一、 这件事为什么值得你关注
假设有一位病理科医生,面对一张张显微镜下的组织切片,需要判断这个患者究竟得了肺腺癌还是鳞状细胞癌。每一张切片上密密麻麻地分布着成千上万个细胞——有的区域正常,有的区域异常。医生的工作方式是:先浏览整张切片的全局样貌,再结合几张已经确诊过的片子,做出综合判断。这种"先看一批例子,再判断新情况"的思维方式,正是本篇研究想要教会机器去掌握的能力。
现实中,人工智能在医学图像、卫星遥感、药物活性预测等领域大量使用了一种叫做"多示例学习"的框架。这个名字听起来很学术,但背后的逻辑其实非常直观:标注一整张病理切片是否含有肿瘤,比标注切片上每一个小区域是否有问题容易得多,成本也低得多。于是,人们给整张切片贴上一个总标签,然后让机器自己去猜测:到底是哪些局部区域决定了整张图的结论?
这种框架在学术界被称为"多示例学习"(Multiple Instance Learning,MIL)。每张切片被称为一个"袋子",袋子里装着许多小块区域(每个小块就是一个"示例")。整个袋子只有一个标签,机器需要从这个袋子里的所有小块中推断出标签规律。
然而,这套方法在现实中遇到了一个顽固的困境:标注的样本太少了。在医院里,给几十张病理切片打标签已经需要大量专业医生的时间,再多就很难获取了。当训练数据只有几十个甚至几个袋子时,那些复杂、灵活的神经网络模型就容易"死记硬背"——在已见过的数据上表现完美,一遇到新数据就完全抓瞎。而那些结构简单、死板的模型虽然不会过度记忆,却可能根本就不适合当前任务的特点,依然表现糟糕。两头都是坑。
这个研究团队给出的答案颇为独特:与其想办法在少量真实数据上硬撑,不如让机器在大量"虚构数据"上提前学会举一反三的能力,这样等到真正面对只有几十个真实标注袋子的新任务时,机器不需要重新学习,直接就能做出判断。他们把这套方法命名为"上下文多示例学习"(In-Context Multiple Instance Learning,缩写ICMIL)。
二、 理解核心思路:先在沙盘上练兵,再上真实战场
要理解ICMIL的思路,可以借用一个类比:一位经验丰富的老侦探。
这位老侦探在入行三十年里,见过形形色色的案件——有入室盗窃、有金融诈骗、有人情纠纷导致的冲突。他见过太多案子,以至于一旦有新案件摆在面前,他不需要从头研究犯罪学理论,只需要扫一眼已有的几条线索,就能大致猜出案情走向。这种能力不是靠死记硬背某个具体案件的细节,而是靠长期积累的"案件逻辑感"——他知道什么样的线索组合通常意味着什么。
ICMIL背后的机制正是如此。研究团队先让机器在大量"合成的虚构案件"上练习——这些案件都是用计算机随机生成的,千变万化,没有一模一样的。机器练习的目标不是记住某个具体案件的答案,而是学会"看到一批已标注的袋子,就能推断出新袋子的标签"这种通用思维模式。
这种思路来自一个叫做"先验数据拟合网络"(Prior-data Fitted Networks,PFN)的学术框架。它的核心理念是:与其为每个新任务重新训练模型,不如在大量多样化的模拟任务上预训练一个通用推理器,推理器见过足够多的"任务类型"之后,面对新任务时只需要把新任务的数据当作"参考信息"输入进去,就能直接输出预测结果。整个推理过程只需要一次前向计算,不需要任何梯度更新或超参数调整。
这个特性在实际应用中意义重大。传统的监督学习方法——无论是支持向量机、逻辑回归还是注意力机制的深度网络——每次面对一个新数据集都需要重新训练、重新调参、重新验证。当数据量很少时,这个过程非常不稳定:换一批训练样本,结果可能天差地别。ICMIL则完全绕开了这个问题,它在推理时既不更新参数,也不调整超参数,只是把已有的标注袋子作为"参考上下文",直接推断新袋子的类别。
三、 三个工程难题与一套精妙的解决方案
将上述思路变成真正可运行的系统,面临三个具体的工程挑战,研究团队用一套精心设计的架构逐一化解。
第一个挑战是计算规模。假设有100个袋子,每个袋子有500个示例,那么整个数据集就有5万个特征向量。如果让所有示例之间相互"对话"(即全局注意力机制),计算量将以平方级暴增,普通计算机根本承受不了。
第二个挑战是压缩时机的问题。一个直觉上的解决方案是:先把每个袋子里的示例压缩成一个固定大小的向量,再对这些袋子向量进行处理。但这样做有个致命缺陷——压缩必须在看到所有袋子的标签之前完成,而此时机器还不知道这个任务到底在关心什么特征。好比说,同一批病理切片,用来判断"是否有肿瘤"和用来判断"肿瘤是哪种亚型",需要保留的细节完全不同。如果压缩时不知道任务目的,就可能把最关键的信息扔掉了。
第三个挑战是顺序无关性。一个袋子里的示例没有固定顺序——先排第一个细胞还是先排第二个细胞,对最终结论不应有任何影响。但与此同时,机器必须知道哪些示例属于同一个袋子,不能把不同袋子的示例混为一谈。
研究团队设计了一种"感知器风格"(Perceiver-style)的架构来解决上述三个问题。这个架构的核心思想是:为每个袋子分配一个可学习的"代理令牌"(bag token),这个令牌就像一个空白的侦探笔记本,初始时什么都不知道,但会通过反复阅读自己袋子里的示例来不断更新。
具体流程分两步交替进行,共重复T轮。第一步是"示例聚合":每个袋子的代理令牌去阅读自己袋子里的所有示例,通过注意力机制选择性地吸收信息,就像侦探在翻阅案件档案。由于这一步是每个袋子独立进行的,不需要跨袋计算,内存消耗从所有袋子加示例的乘积级别降到了单个袋子加示例的级别,大幅缓解了计算压力。第二步是"跨袋交流":所有袋子的代理令牌聚在一起,结合各自对应的标签信息,彼此交换情报——某个标注为阳性的袋子告诉另一个标注为阴性的袋子"我跟你的区别在哪里",而待预测的新袋子则在旁边默默观察、学习,但不参与标注袋子之间的交流,只能从它们身上学习。
这种交替进行的机制巧妙地解决了压缩时机的问题:每一轮示例聚合都发生在已经看到其他袋子标签之后,所以聚合时自然地带入了任务信息,知道该保留什么、该丢弃什么。而由于注意力机制本身对输入顺序不敏感,整个架构对袋子内部示例的排列顺序天然无感,同时通过代理令牌机制保证了不同袋子之间的身份不会混淆。
四、 合成数据的设计哲学:用"假案件"练出真本领
ICMIL的效果好不好,很大程度上取决于预训练时用的合成数据质量。合成数据必须足够多样,要能覆盖真实世界中可能遇到的各种MIL任务的规律模式。为此,研究团队设计了两大类"数据生成器",它们对现实的模拟方式截然不同,就像两种不同流派的侦探培训方式。
第一类叫做"分解式先验"(Factorized Priors)。这类生成器遵循传统MIL的基本假设:袋子里每个示例都是独立生成的,示例之间没有关联;袋子的标签由每个示例的特征经过某种统计汇总后决定。就像判断一个班级的整体学习氛围,方式是:先给每个同学的学习行为单独打分,再把所有人的分数汇总(取平均、或看是否有人达到某个阈值),最后根据汇总结果判断整个班级。
在具体实现上,研究团队探索了多种汇总方式。离散汇总方案是先把每个示例的输出映射到若干离散类别,再统计各类别的出现次数(直方图)或某个类别是否出现过(存在指示符);连续汇总方案则是直接对示例的原始特征做均值或加权平均(后者即注意力汇总)。汇总结果再经过决策树、查找表或神经网络映射为最终标签。这些组合形成了五种不同的分解式先验变体。
第二类叫做"联合式先验"(Joint Priors)。这类生成器完全放弃了示例独立的假设,而是把整个袋子的所有示例当作一个整体来生成,袋子里的示例之间存在复杂的相关性结构。就像判断一首交响乐的风格,不能把每件乐器的声音单独拆开评分,因为风格恰恰来自于乐器之间的协奏关系。联合式先验用一个统一的因果结构模型同时生成整个袋子的示例特征和最终标签,允许示例之间存在共同的潜在因素。
这两类先验的哲学差异本质上反映了一个深刻的问题:真实世界中的MIL任务,到底更接近"独立示例的统计汇总",还是更接近"示例间存在复杂依赖的整体模式"?研究团队没有做假设,而是让数据来说话。
五、 实验结果:没有一种先验能包打天下
研究团队在十二个MIL基准数据集上进行了系统性实验,这些数据集涵盖了非常不同的领域:有基于MNIST手写数字构建的人工任务(SMIL、PosNeg、AdjPairs),有分子化学中的"麝香气味分子"识别任务(Musk1、Musk2),有字母识别(Letters)和高能物理粒子分类(HEPMASS),有自然图像中的动物识别(Elephant、Fox、Tiger),有颅内出血CT检测(RSNA-ICH),还有肺癌亚型分类(TCGA LUAD vs LUSC)。
这十二个任务被按照两个维度分组:一是标签规律的类型——"见证规则"(只要袋子里有一个关键示例,整个袋子就是阳性)对比"交互规则"(标签取决于多个示例之间的关系);二是袋子内部示例的特征相关性——低相关(示例之间独立)对比高相关(示例之间存在共同的生成结构)。
实验结论出人意料地清晰:联合式先验在整体上表现最好,尤其是在特征高度相关或者需要跨示例交互的任务上。然而,在特征不相关的见证规则任务上(比如Letters、SMIL、HEPMASS),分解式先验却能比联合式先验高出多达四个百分点。更有趣的是,RSNA-ICH这个任务虽然也是见证规则,但由于它的袋子内部特征高度相关(CT扫描的相邻切片之间有很强的空间关联性),分解式先验在这里并没有优势,联合式先验依然更胜一筹。这暗示了一个规律:决定哪种先验更适合的,可能不是标签规律本身,而是数据的特征相关性结构。
在五种分解式先验变体中,结果也大相径庭。基于连续汇总加神经网络映射的变体(cont, MLP)在Musk1和Musk2上表现最佳;基于离散汇总加查找表的变体(disc, lookup)在Letters、SMIL和HEPMASS上优势明显;而基于离散汇总加决策树的变体(disc, tree)则在所有基准上几乎都表现为接近随机猜测水平,说明这种组合完全不适合真实任务,是一个失败的设计。
没有哪一种先验能够在所有任务上一统天下,这个发现本身就已经很有价值:它说明不同的MIL任务确实有着不同的内在结构,一种先验能否适配某类任务,取决于它所编码的归纳偏置(即对世界运转方式的隐含假设)是否与任务的真实规律相符。
六、 混合先验:让一个模型继承所有人的长处
既然不同先验在不同任务上各有千秋,研究团队自然想到了一个直接的问题:能不能把多种先验混合起来,训练出一个"全能选手"?
他们选取了三种互补性最强的先验来混合:联合式先验占70%的权重,连续汇总加神经网络的分解式先验占15%,离散汇总加查找表的分解式先验占15%。权重分配的逻辑很直觉化——联合式先验整体表现最好,是主力;另外两种分解式先验在特定任务类型上有独特优势,作为补充。
这个混合模型(在论文中被标记为"Mixed")的结果令人满意。它在高相关和交互型任务上保持了联合式先验的强势(例如PosNeg任务达到87.3%的AUROC,TCGA任务达到88.3%),同时在低相关见证型任务上追回了大部分之前被分解式先验甩开的差距(Letters达到94.4%,HEPMASS达到87.2%,后者甚至是所有模型中的最佳成绩)。混合模型的整体平均性能超过了任何单一先验训练出的模型。
这个结果背后的道理其实很朴素:一个人如果只在一种类型的案件上积累经验,遇到不同类型的案件就容易手足无措;但如果他的训练经历足够多样,涵盖了各类案件的逻辑模式,他的应对能力就会更加全面稳健。
七、 规模扩大之后:有些任务还在持续进步
在混合先验模型的基础上,研究团队进一步尝试了扩大模型规模和训练时长:嵌入维度从128增加到256,MLP隐藏层尺寸从512增加到1054,训练步数从20000步翻倍到40000步。这个扩展版本就是最终的ICMIL模型。
扩展带来的提升并不均匀。Fox任务的AUROC大幅提升了6.8个百分点,Musk2提升了3.2个百分点,Letters和Musk1各提升约1个百分点。而HEPMASS则出现了2.7个百分点的下降,其余任务基本在误差范围内保持稳定。这说明规模扩展的效果与任务特性和先验混合方式之间存在复杂的交互关系,不是简单地"越大越好",其中还有值得深入研究的规律尚待挖掘。
从附录中的学习曲线可以看到,Fox和Musk2在整个40000步训练过程中性能持续提升,没有出现明显的平台期,这暗示如果进一步增加训练时长,可能还能继续提升。
八、 与传统方法的正面比较:优势在哪里,不足在哪里
研究团队选取了五种代表性的传统监督学习基线方法进行对比。均值逻辑回归(MeanLogReg)是最简单的方法,把每个袋子里所有示例的特征取平均,得到一个向量,然后用逻辑回归分类;SVM-Summ则对每个特征计算六种统计量(求和、均值、中位数、最小值、最大值、标准差),拼接后用核支持向量机分类;ABMIL是学术界经典的注意力机制深度学习MIL方法;另外还有三种将TabPFN-v2这个表格数据预测工具适配到MIL场景的变体(拼接、子采样、聚类)。
在十二个基准的综合表现上,ICMIL以84.17%的平均AUROC和4.08的平均排名位列第一。最强的传统基线MeanLogReg平均AUROC为82.37,TabPFN-Cluster为81.21,SVM-Summ为79.38,ABMIL为79.97。两种直接展平的TabPFN变体(Concat和Subsample)表现最差,平均AUROC分别只有74.16和74.82,这说明把MIL数据强行当成普通表格数据处理,会丢失大量袋子结构中的关键信息。
ABMIL在TCGA(90.7%)、SMIL(85.4%)和Letters(97.6%)上表现出色,但在Adjacent Pairs(65.5%)和Musk2(75.4%)上明显吃亏。这种不稳定性的根源在于:当训练袋子只有约100个时,ABMIL需要通过交叉验证选择学习率和正则化强度,然后重新训练,这个过程对样本的随机性极其敏感,换一批训练样本结果就可能大相径庭。
ICMIL完全绕过了这个陷阱,因为它压根不需要在目标数据集上做任何训练或调参。这也带来了一个实际的运行效率优势:从论文提供的墙钟时间对比图可以看到,ABMIL因为需要多折交叉验证和反复训练,总耗时远高于其他方法;而ICMIL的推理时间与简单的线性模型相当,只需要一次前向传播即可完成所有测试袋子的分类。
当然,ICMIL也有明显的短板。在SMIL任务上,ABMIL以高出11个百分点的优势领先;在Letters上,TabPFN-Cluster领先约3.5个百分点;在TCGA上,ABMIL依然保持优势。这些差距说明,特定任务与特定方法之间的适配关系仍然存在,ICMIL在这些任务上还有提升空间,可能需要更丰富的先验设计或更长的预训练。
九、 这项研究的局限与未来方向
研究团队对自己工作的局限性非常坦诚。当前的训练课程中,袋子大小最多只有20个示例;虽然模型在推理时能泛化到更大的袋子(Musk数据集的分子最多有超过1000个构象,模型依然表现良好),但在训练时加入更大的袋子是一个自然的后续步骤。
此外,所有基准测试都是二分类任务,特征维度通过PCA压缩到了25维。多分类目标和更高维的特征(比如基础模型生成的数千维嵌入)是两个重要的扩展方向,理论上可以通过在更高维合成数据上训练并扩大模型容量来解决。
在先验设计上,研究团队认为还有很大的探索空间。比如,针对计算病理学设计包含空间位置关系的先验,或者针对时序任务设计考虑时间顺序的先验,都可能进一步缩小合成训练数据与真实任务之间的差距。此外,参考近期表格PFN领域的做法,在真实世界MIL语料库上进行后训练也是一个有潜力的方向。
归根结底,这项研究做了一件颇有创意的事情:把"在少量标注数据上学好"这个难题,转化成了"在训练前设计足够好的虚构数据"这个问题。前者在现实中常常无解,后者则完全由研究者自己掌控。通过为袋结构数据设计专用架构和多样化合成先验,ICMIL让机器在没见过任何真实标注袋子的情况下,通过几十个上下文样本就能做出比反复调参的传统方法更稳定、更准确的预测。
这项技术对医学影像、药物研发、卫星遥感等标注代价极高的领域来说,提供了一种切实可行的新思路。当你下次听说某个医院的AI系统只用了五十张标注切片就实现了准确的癌症亚型分类,背后也许正是类似ICMIL这样的"举一反三"机制在发挥作用。
Q&A
Q1:多示例学习(MIL)是什么,和普通机器学习有什么区别?
A:普通机器学习要求给每一个数据点单独打标签,比如标注每一张图片里的每一个细胞是否异常。多示例学习则宽松得多,只需要给一整组数据("袋子")打一个总标签,比如只说这张病理切片整体上有没有肿瘤,而不用说明具体哪个位置有问题。这大大降低了标注成本,但也让模型的学习任务更难,因为它必须自己推断出是哪些局部特征导致了整体标签。
Q2:ICMIL在推理时为什么不需要重新训练或调参?
A:ICMIL在预训练阶段已经见过大量多样化的合成MIL任务,学会了一种通用的"看例子推规律"能力。面对新任务时,它直接把已标注的样本袋子作为"参考上下文"读入,就像老侦探翻阅案卷一样,然后对新袋子做出判断。整个过程是一次前向计算,不涉及任何参数更新,因此也不需要划分验证集、选择学习率等繁琐操作,消除了少样本场景下超参数选择的不稳定性。
Q3:为什么混合多种合成先验比单独使用一种效果更好?
A:不同类型的真实MIL任务有不同的内在规律,有的任务里示例之间相互独立,有的则存在复杂的关联结构。单一先验只能模拟其中一类规律,用它预训练的模型天然更适合某些任务、不适合另一些任务。把多种先验按比例混合后,模型在预训练时接触到了更广泛的任务规律类型,就像一个培训经历更丰富的侦探,遇到各种案件都能找到处理思路,整体稳健性和平均表现自然更优。
好文章,需要你的鼓励
腾讯混元提出CPPO方法,通过位置权重和累积前缀预算两个机制改进AI强化学习训练,在多个Qwen3模型的数学推理任务上超越现有方法,最大提升达5.56分。
PaperMentor是多伦多大学等机构联合开发的AI论文写作导师,通过12个专业智能体和40余份专家技能文件,在Overleaf中为科研人员提供行内批注式的写作建议。
论文揭示AI安全测试的"审计缺口":模型外表安全但内部可能脆弱,并提出潜在脆弱性分数(LVS)量化内部风险。
俄亥俄州立大学等机构揭示AI技能包攻击漏洞:恶意技能包攻击成功率高达86%,现有防御手段普遍失效,亟需新型安全机制。