
这项由罗切斯特理工学院(Rochester Institute of Technology)完成的研究,以预印本形式于2026年4月13日发布,论文编号为arXiv:2604.12119v1,感兴趣的读者可通过该编号在arXiv平台查阅完整论文。
**当AI认定"赢"就是赢,改变规则也无济于事**
假设有一位棋盘裁判,规则书已经明确写着"谁先连成三子谁就输",但这位裁判从小看的都是"连三子就赢"的版本,他的脑子里早就刻下了这套印象。于是,不管你把新规则讲得多清楚,他判断结果时还是按老习惯来。这听起来是个笑话,但这恰恰是当今最先进的AI视觉语言模型(Vision-Language Model,简称VLM)正在做的事情。
这项研究把这种现象命名为"语义固着"(Semantic Fixation),灵感来自心理学中一个经典概念——Einstellung效应,也就是人们在习惯了某种解题方式之后,即使有更好的解法摆在面前,也会顽固地坚持旧方法。研究者们用这个框架来解释AI的类似问题:即便你在提示词里明确规定了一套全新的规则,AI也很可能悄悄忽视它,按自己从训练数据中积累的"默认印象"来给出答案。
更重要的是,以往的研究往往难以区分AI犯错是因为"没看清楚图",还是因为"看懂了图但按老习惯解读"。这项研究的贡献正在于此:它设计了一套极为巧妙的测试方案,把视觉感知和语义解读彻底分开,让我们第一次能够干净地测量AI到底有多固执。
一、一场专门为AI设计的"反规则"棋局测试
为了捕捉语义固着,研究团队建造了一个叫做VLM-Fix的测试平台,核心思路异常精妙:拿同一张棋盘图,配上两套截然相反的规则,看AI会不会按新规则正确作答。
具体来说,测试平台涵盖四种抽象棋类游戏。井字棋(3×3格)是大家都熟悉的连三子游戏;四子棋(Connect Four,4×4格)是竖向棋盘的连四子游戏;黑白棋(Reversi,5×5格)是翻转对手棋子的游戏;点格棋(Dots and Boxes,6×6格)是画线圈格子争夺地盘的游戏。这四种游戏在互联网上都有大量资料,AI在训练时应该见过很多。
每种游戏都有两套规则条件。"标准规则"就是大家熟知的正常规则,比如井字棋里连成三子的人获胜。"反转规则"则颠倒胜负关系,比如连成三子的人反而输掉。这种反转规则在现实中是存在的合法游戏变体,但在训练数据里的出现频率远低于正常规则。关键一点是:两套规则使用的是完全相同的棋盘图像,棋盘上什么都没有变,只有规则文字说明发生了改变。
如果AI真的在认真阅读并遵守新规则,那么它在两套规则下的正确率应该差不多。但如果语义固着存在,AI在反转规则下的正确率就会明显下降——因为棋盘告诉它"X连了三子",而AI脑子里的默认印象是"连三子就赢",于是它会答错。
研究团队为每种游戏生成了300个独特的终局棋盘状态,刻意排除平局,并且让两个玩家的胜负各占一半。选择终局状态而非中间状态,是为了避免游戏进程本身带来的干扰,让视觉信息在所有测试中保持完全一致。
除了规则本身,研究团队还设计了三种视觉呈现方式。"基础版"使用棋盘游戏的原始外观和默认棋子符号。"棋格版"改变棋盘的纹理和背景,但保留原有棋子符号。"字形版"则把棋子符号替换成随机抽取的字母字符,比如用"K"和"R"代替X和O,以此测试视觉符号的改变是否能影响AI的固着程度。为了防止AI通过字母名称识别游戏,"字形版"刻意排除了X、O、A、B这几个最容易被联想到棋类游戏的字母。
提示词方面同样有三个变体。"基础提示"直接用"赢家"和"输家"这类带有常识色彩的词汇来描述规则。"中性标签提示"把"赢"和"输"替换成毫无语义的人造词,比如"POM"和"TOV",只描述逻辑关系,不带任何感情色彩。"语义标签提示"则保留这些人造词,但额外解释它们的含义,比如"POM意味着有利结果,TOV意味着不利结果"。这三种提示词的对比,是整个实验设计中最精妙的部分,用于测量是语言词汇本身触发了固着,还是规则逻辑引发了混乱。
所有评估维度叠加在一起,每个游戏产生的测试样本总量达到24000个,整个基准测试的规模非常可观。
二、数字不会说谎:AI确实在用老眼光看新规则
研究团队把14个主流视觉语言模型全部拉来测试,涵盖了当前市面上最有代表性的闭源和开源模型。闭源方面包括GPT-4.1、GPT-5.2、Claude Sonnet-4.0和Claude Sonnet-4.5。开源方面包括来自阿里的Qwen2.5-VL系列(3B和7B)、Qwen3-VL系列(4B、8B、32B),来自上海人工智能实验室的InternVL3.5系列(4B、8B、14B),以及Molmo2系列(4B和8B)。
测试结果非常清晰:在基础设置下,所有模型在标准规则下的平均正确率是67.1%,而在反转规则下只有52.5%,两者相差14.6个百分点。由于两套规则使用完全相同的棋盘图像,这个差距根本无法用"AI没看清楚棋盘"来解释,唯一的合理解释就是AI在语义解读阶段出了问题。
分游戏来看,差距最悬殊的是点格棋,标准规则下正确率73.8%,反转规则下直接跌到50%,整整差了23.8个百分点,几乎相当于瞎猜的水平。井字棋差距约10个百分点,黑白棋差距约20个百分点,四子棋差距约4个百分点。
逐个模型来看,14个模型中有13个在反转规则下的表现比标准规则差,唯一的例外是Claude Sonnet-4.5,它在四子棋的反转规则下反而表现更好(53%对87%),这是个有趣的例外,说明不同模型的固着方向并不完全相同。规模更大、性能更强的模型并没有神奇地免疫这个问题:GPT-5.2的差距约12个百分点,GPT-4.1约19个百分点,Molmo2-8B更是高达29个百分点。
这里有一个细节值得关注:研究者们特别设计了一种"描述性提示"作为对照组,这种提示不问"谁赢了",而是直接问棋盘上的客观事实,比如"谁连了三子"或"谁的棋子更多"。在这种提示下,标准规则和反转规则之间的差距大幅缩小,两者分别是71%和68.8%,几乎趋于一致。这说明AI并非真的看不懂棋盘,它识别棋盘状态的能力本身并没有问题,问题只出在它把棋盘状态和"赢/输"这两个词汇挂钩的那个环节。
三、一个词的力量:中性标签如何解锁AI的规则遵从能力
发现了语义固着这个问题之后,研究团队接下来做了一件非常聪明的事:他们不改变棋盘图像,也不改变规则的逻辑含义,只改变用来描述胜负的词汇,看看AI的表现会不会因此改变。
结果非常戏剧性。当把"赢家"和"输家"替换成毫无语义的人造词"POM"和"TOV"之后,反转规则下的平均正确率从52.5%一路飙升到63.1%,标准规则和反转规则之间的差距从14.6个百分点骤降到2.3个百分点——这几乎可以说是完全消除了语义固着的影响。中性标签提示是所有测试条件中差距最小的,这个发现极为重要。
紧接着,研究团队在这些中性标签上加了一句解释,告诉模型"POM意味着有利结果,TOV意味着不利结果",也就是所谓的"语义标签提示"。加了这句解释之后,原本已经缩小的差距又重新扩大了,反转规则下的正确率从63.1%跌回53.5%,和基础设置下的52.5%几乎相同。
这个"一放一收"的实验形成了一个完整的逻辑链条:正是词汇本身携带的语义权重在干扰AI的规则遵从。当你用"赢"这个词时,AI的大脑里立刻激活了关于"赢"的所有默认印象,这些印象会悄悄覆盖掉你在提示词里写的新规则。换成毫无历史包袱的"POM",这种干扰就消失了,AI反而能够更干净地按照逻辑关系来作答。而当你给"POM"解释成"有利结果",等于又把语义包袱装回去了,干扰随之重现。
相比之下,视觉层面的改变影响微乎其微。把棋盘换成棋格纹理,或者把棋子符号换成随机字母,对标准规则和反转规则之间差距的影响都很小,差距仅从14.6缩小到约12个百分点。也就是说,语义固着主要是一个文本和语义层面的问题,不是视觉感知层面的问题。
在思维链(Chain-of-Thought,CoT)模式下,AI会先一步一步推理再给出最终答案,这种模式下的整体正确率大幅提升,标准规则下平均达到85%,反转规则下74.1%,但差距依然存在。不过,中性标签提示在思维链模式下同样有效,把差距几乎完全消除(84.8%对84.1%)。
输入顺序的影响也被仔细检验了。当文字提示出现在图像之前时,标准规则和反转规则之间的差距更大(66.2%对44.8%,相差21.4个百分点);而图像出现在文字之前时,差距相对较小(60.2%对47%,相差13.2个百分点)。这说明文字提示被先处理时,语义印象会更早被激活,对后续视觉信息的解读产生更强的干扰。在思维链模式下,这种输入顺序效应基本消失了。
四、把测试搬出棋盘:真实世界中同样存在的偏见
VLM-Fix是一个精心设计的合成测试平台,棋盘游戏本身比较抽象,研究者们担心有人会质疑:这种现象只在玩具式的棋盘游戏里存在,在真实任务上不一定会发生。于是他们把目光投向了另一个已有的基准测试——VLMBias。
VLMBias是另一个研究团队已经发布的测试集,专门设计来暴露AI的偏见错误。研究者们选取了其中四个计数任务子集:动物计数(Animals)、车标计数(Logos)、旗帜星星计数(Flags)和游戏棋盘行数计数(Game Boards)。这些任务乍看和棋盘游戏毫无关系,但语义先入为主的问题在这里同样存在——比如当AI被要求数一只动物的腿时,它的训练数据里太多"四条腿的动物",很可能不管图里画的是什么就直接答"4"。
研究团队把从VLM-Fix中学到的干扰手段搬过来用了。一种干扰叫"图像翻转"(Flip),把图片上下颠倒,破坏AI对熟悉视觉场景的默认识别。另一种干扰叫"标签替换"(Alias),把提示词里的"动物"替换成"ITEM",一个ITEM代表一条可见的腿,消除词汇的语义包袱。第三种是把两者组合起来。
结果完全符合预期。在基础设置下,14个模型在四个子集上的平均正确率只有11.6%,偏见率高达76.7%。图像翻转单独使用,把正确率提升到13.3%,偏见率降至70.9%。标签替换单独使用,进一步把正确率提升到15%,偏见率降至69.5%。而两者同时使用效果最强,正确率达到20.7%,偏见率降至58.9%。
动物计数子集是最难的,基础设置下平均正确率只有3.6%,几乎所有模型都在猜。但在图像翻转加标签替换的组合干扰下,正确率跃升到22.2%,提升了六倍多。至关重要的是,这种改善在14个模型上无一例外地出现了,没有任何一个模型在加入干扰后反而变差。
这个结果告诉我们,语义固着不是棋盘游戏的专属问题,而是AI在面对任何需要突破"熟悉印象"的任务时都可能遭遇的通病。凡是存在强烈的训练数据先验(比如"大象是灰色的"、"四条腿的动物腿数是4"),AI就可能忽略图像中的真实信息,转而依赖脑子里的默认答案。
五、训练能解决固着问题吗?答案比你以为的更复杂
发现了语义固着之后,一个自然的想法是:那就用专门的训练数据来纠正它,把反转规则的例子喂给AI学,让它学会灵活切换。研究团队做了这个实验,但结果让人警醒。
他们设计了三种训练分割方案。第一种(D1)只用标准规则的例子训练,然后测试反转规则下的表现。第二种(D2)只用反转规则的例子训练,然后测试标准规则下的表现。第三种(D3)同时用两种规则训练井字棋和黑白棋,然后测试四子棋和点格棋两个未见过的游戏。训练方法分为监督微调(SFT,类似于让学生反复做例题来记住答案)和带可验证奖励的强化学习(RLVR,类似于只告诉学生对错、让他自己摸索规律)。
D1和D2的结果揭示了一个令人担忧的规律:专门针对某一套规则的训练,会大幅提升AI在那套规则下的正确率,但同时会让它在另一套规则下的表现比没有训练时还要差。换句话说,训练只会把固着变得更深,而不是解除固着。学习一套规则的代价是在相反规则上的负迁移。
以Qwen2.5-VL-7B为例,在D1训练(只学标准规则)之后,它在标准规则下的正确率显著提升,但在反转规则下的表现却比基础模型更糟糕。在D2训练(只学反转规则)之后,情况完全对称——反转规则下表现更好,但标准规则下反而退步了。这说明模型在学习规则时,是在强化某种"单向绑定",而非建立灵活的规则适配能力。
两种训练方法的表现有细微差异。监督微调(SFT)在同规则迁移上通常效果最好,正确率提升幅度更大;但在规则对立方向上的负迁移也更严重。强化学习(RLVR)的正向提升略小,但面对规则切换时的崩塌也没那么剧烈,稳健性更好一些。
D3的结果给出了一个希望:当训练数据同时包含两套规则时,模型可以对未见过的游戏(四子棋和点格棋)都取得改善。RLVR在标准规则的未见游戏上更强,SFT在反转规则的未见游戏上更好。这意味着,如果想让AI真正学会灵活处理规则,正确的做法是在训练时就把两套语义映射都包含进去,而不是只教一套期望它自动泛化。
合成腿部计数任务上也做了类似实验。研究团队建了一个专门用来训练计数的合成数据集,里面有8192张鸟类和四足动物的卡通图像,腿部数量各异。在这个数据集上训练后,Qwen2.5-VL-3B在动物计数任务上的正确率从0%分别提升到34.6%(SFT)和23.1%(RLVR),Qwen2.5-VL-7B从0%提升到21.8%和22.2%。但这种提升高度集中于动物腿部计数这一个具体任务,对其他类型物体的计数基本没有帮助,说明训练获得的能力是高度任务特异性的,不容易迁移到其他场景。
六、直接"拨动"AI大脑里的语义开关
训练是一种相对重量级的干预手段,改变模型的参数,代价昂贵且影响广泛。研究团队还尝试了一种更轻量的方式:激活引导(Activation Steering)。
这种方法的原理可以用一个比喻来说明:假设你的大脑里有一组神经元,专门负责判断"这是一次胜利还是失败"。当AI处理一个棋盘问题时,这组神经元会产生某种激活模式。激活引导的做法是,找到"正确处理反转规则"时这组神经元应该有的激活模式,然后在模型处理问题的过程中,把激活状态从错误的模式"推向"正确的模式,看看能否改变最终输出。
具体操作上,研究团队从棋盘数据中挑选出一批"供体"样本(那些模型在反转规则下回答正确的案例),提取这些样本在特定层产生的内部激活向量,计算它们的平均方向,然后在测试时把这个方向的向量叠加到目标样本的激活上。整个操作只在解码器最后12层中选一层,只修改"查询词"位置的激活,非常精准。在操作之前,还要用一个轻量级的分类器来预判当前样本属于哪类情况(标准规则还是反转规则,赢家问题还是输家问题),确保激活引导的方向是对的。
结果显示,在黑白棋和点格棋上,激活引导带来了明显的正确率提升,而且提升主要集中在越靠近输出层的越晚的层次。这符合直觉:语义解读是在推理链条的末端完成的,越靠近输出的层次越承担"把激活模式翻译成最终答案"的功能,在那里进行干预更有效。四子棋的结果相对有限,可能因为这个游戏本身就比较难,错误源于更早的视觉理解阶段。
在动物腿部计数任务上也做了平行实验,但基础模型在这里几乎完全不会,所以无法从基础模型自身中找到可靠的供体样本。研究团队改用在合成数据上训练过的SFT模型作为供体,用SFT模型的激活向量来引导基础模型。这种"跨模型借力"的方法同样奏效,在Qwen两个型号上都能看到较为清晰的提升,但在Molmo和InternVL上效果较弱,说明不同架构的模型内部表示差异较大,激活引导的可迁移性有限。
这个发现的价值在于:它说明语义固着这个问题至少有一部分是"可编辑"的。错误不是深埋在视觉特征提取的早期阶段,而是在最后的语义读出步骤里。这为未来开发更轻量、更精准的纠偏工具提供了方向。
**归根结底,AI"先入为主"是个难以根除的老问题**
这项研究告诉我们一件挺朴素的事:AI学到的不只是"规则",还有规则背后附着的一整套文化习惯和语义印象。当新任务要求它抛开这套印象时,它往往做不到,或者需要极大的提示词技巧才能勉强做到。
这件事对我们的日常生活意味着什么呢?下次你让AI助手帮你分析一个非常规的情境,比如"在这套特殊规则下,谁的方案更好",不妨把关键词替换成中性词汇,减少AI对常见词汇的先入之见。提示词的措辞选择比大多数人以为的影响更深远。
从更大的视角来看,这项研究提出了一个需要整个AI行业认真面对的问题:我们如何才能让模型真正"读懂指令",而不只是"用指令作为触发器来激活预设印象"?目前的实验表明,单靠某一种规则的专项训练会适得其反,真正有效的训练需要同时覆盖多套语义映射,而激活引导这类推理时干预的方法提供了另一条可能的路。
这项研究还有很多未解决的问题,比如语义固着的内部机制究竟是什么,激活引导的效果为什么在不同架构间差异明显,以及如何把这些发现推广到比棋盘游戏更复杂的真实任务上。对这些问题感兴趣的读者,可以通过arXiv编号2604.12119查阅完整的原始论文,里面有详尽的实验数据和方法描述。
---
Q&A
Q1:什么是"语义固着"(Semantic Fixation),为什么AI会有这个问题?
A:语义固着是指AI即使读到了新规则,也倾向于按训练数据中积累的"默认印象"来作答,而不是严格遵循新规则。这是因为AI在学习时不只记住了规则逻辑,还深度绑定了词汇的常见含义——比如"赢家"这个词会自动激活它对"赢"的全部默认认知,从而干扰对新规则的正确理解。
Q2:中性标签提示为什么能减少AI的规则偏见?
A:把"赢家/输家"换成"POM/TOV"这类没有历史含义的人造词,消除了词汇携带的语义包袱。AI没有关于"POM"的默认印象,只能老老实实按照提示词里的逻辑关系来判断,因此反转规则下的正确率大幅提升,与标准规则的差距从约14.6个百分点缩小到仅约2.3个百分点。
Q3:专项训练能消除AI的语义固着问题吗?
A:不能,而且可能适得其反。实验发现,只用标准规则训练会让AI在标准规则下更强,但在反转规则下比没训练时更差;反过来也一样。只有同时用两套规则训练,AI才能对两类情况都有改善。这说明语义固着需要"对称训练",而非单向强化。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。