微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

AI会"先入为主"？罗切斯特理工学院揭示视觉语言大模型的语义偏见难题

视觉语言模型语义偏见激活引导

AI会"先入为主"？罗切斯特理工学院揭示视觉语言大模型的语义偏见难题

作者：科技行者

2026-04-23 10:45

分享至：

罗切斯特理工学院的研究者在预印本arXiv:2604.12119中提出了"语义固着"概念，揭示视觉语言大模型即便接收到明确的反转规则指令，仍会按训练中积累的默认语义印象作答。研究通过四种抽象棋类游戏构建了VLM-Fix测试平台，对14个主流模型进行了系统评估，并发现中性标签提示可大幅缩小规则差距，专项训练反而加深固着，而晚期激活引导能部分纠正偏差。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-23 10:45 • 科技行者

这项由罗切斯特理工学院（Rochester Institute of Technology）完成的研究，以预印本形式于2026年4月13日发布，论文编号为arXiv:2604.12119v1，感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

**当AI认定"赢"就是赢，改变规则也无济于事**

假设有一位棋盘裁判，规则书已经明确写着"谁先连成三子谁就输"，但这位裁判从小看的都是"连三子就赢"的版本，他的脑子里早就刻下了这套印象。于是，不管你把新规则讲得多清楚，他判断结果时还是按老习惯来。这听起来是个笑话，但这恰恰是当今最先进的AI视觉语言模型（Vision-Language Model，简称VLM）正在做的事情。

这项研究把这种现象命名为"语义固着"（Semantic Fixation），灵感来自心理学中一个经典概念——Einstellung效应，也就是人们在习惯了某种解题方式之后，即使有更好的解法摆在面前，也会顽固地坚持旧方法。研究者们用这个框架来解释AI的类似问题：即便你在提示词里明确规定了一套全新的规则，AI也很可能悄悄忽视它，按自己从训练数据中积累的"默认印象"来给出答案。

更重要的是，以往的研究往往难以区分AI犯错是因为"没看清楚图"，还是因为"看懂了图但按老习惯解读"。这项研究的贡献正在于此：它设计了一套极为巧妙的测试方案，把视觉感知和语义解读彻底分开，让我们第一次能够干净地测量AI到底有多固执。

一、一场专门为AI设计的"反规则"棋局测试

为了捕捉语义固着，研究团队建造了一个叫做VLM-Fix的测试平台，核心思路异常精妙：拿同一张棋盘图，配上两套截然相反的规则，看AI会不会按新规则正确作答。

具体来说，测试平台涵盖四种抽象棋类游戏。井字棋（3×3格）是大家都熟悉的连三子游戏；四子棋（Connect Four，4×4格）是竖向棋盘的连四子游戏；黑白棋（Reversi，5×5格）是翻转对手棋子的游戏；点格棋（Dots and Boxes，6×6格）是画线圈格子争夺地盘的游戏。这四种游戏在互联网上都有大量资料，AI在训练时应该见过很多。

每种游戏都有两套规则条件。"标准规则"就是大家熟知的正常规则，比如井字棋里连成三子的人获胜。"反转规则"则颠倒胜负关系，比如连成三子的人反而输掉。这种反转规则在现实中是存在的合法游戏变体，但在训练数据里的出现频率远低于正常规则。关键一点是：两套规则使用的是完全相同的棋盘图像，棋盘上什么都没有变，只有规则文字说明发生了改变。

如果AI真的在认真阅读并遵守新规则，那么它在两套规则下的正确率应该差不多。但如果语义固着存在，AI在反转规则下的正确率就会明显下降——因为棋盘告诉它"X连了三子"，而AI脑子里的默认印象是"连三子就赢"，于是它会答错。

研究团队为每种游戏生成了300个独特的终局棋盘状态，刻意排除平局，并且让两个玩家的胜负各占一半。选择终局状态而非中间状态，是为了避免游戏进程本身带来的干扰，让视觉信息在所有测试中保持完全一致。

除了规则本身，研究团队还设计了三种视觉呈现方式。"基础版"使用棋盘游戏的原始外观和默认棋子符号。"棋格版"改变棋盘的纹理和背景，但保留原有棋子符号。"字形版"则把棋子符号替换成随机抽取的字母字符，比如用"K"和"R"代替X和O，以此测试视觉符号的改变是否能影响AI的固着程度。为了防止AI通过字母名称识别游戏，"字形版"刻意排除了X、O、A、B这几个最容易被联想到棋类游戏的字母。

提示词方面同样有三个变体。"基础提示"直接用"赢家"和"输家"这类带有常识色彩的词汇来描述规则。"中性标签提示"把"赢"和"输"替换成毫无语义的人造词，比如"POM"和"TOV"，只描述逻辑关系，不带任何感情色彩。"语义标签提示"则保留这些人造词，但额外解释它们的含义，比如"POM意味着有利结果，TOV意味着不利结果"。这三种提示词的对比，是整个实验设计中最精妙的部分，用于测量是语言词汇本身触发了固着，还是规则逻辑引发了混乱。

所有评估维度叠加在一起，每个游戏产生的测试样本总量达到24000个，整个基准测试的规模非常可观。

二、数字不会说谎：AI确实在用老眼光看新规则

研究团队把14个主流视觉语言模型全部拉来测试，涵盖了当前市面上最有代表性的闭源和开源模型。闭源方面包括GPT-4.1、GPT-5.2、Claude Sonnet-4.0和Claude Sonnet-4.5。开源方面包括来自阿里的Qwen2.5-VL系列（3B和7B）、Qwen3-VL系列（4B、8B、32B），来自上海人工智能实验室的InternVL3.5系列（4B、8B、14B），以及Molmo2系列（4B和8B）。

测试结果非常清晰：在基础设置下，所有模型在标准规则下的平均正确率是67.1%，而在反转规则下只有52.5%，两者相差14.6个百分点。由于两套规则使用完全相同的棋盘图像，这个差距根本无法用"AI没看清楚棋盘"来解释，唯一的合理解释就是AI在语义解读阶段出了问题。

分游戏来看，差距最悬殊的是点格棋，标准规则下正确率73.8%，反转规则下直接跌到50%，整整差了23.8个百分点，几乎相当于瞎猜的水平。井字棋差距约10个百分点，黑白棋差距约20个百分点，四子棋差距约4个百分点。

逐个模型来看，14个模型中有13个在反转规则下的表现比标准规则差，唯一的例外是Claude Sonnet-4.5，它在四子棋的反转规则下反而表现更好（53%对87%），这是个有趣的例外，说明不同模型的固着方向并不完全相同。规模更大、性能更强的模型并没有神奇地免疫这个问题：GPT-5.2的差距约12个百分点，GPT-4.1约19个百分点，Molmo2-8B更是高达29个百分点。

这里有一个细节值得关注：研究者们特别设计了一种"描述性提示"作为对照组，这种提示不问"谁赢了"，而是直接问棋盘上的客观事实，比如"谁连了三子"或"谁的棋子更多"。在这种提示下，标准规则和反转规则之间的差距大幅缩小，两者分别是71%和68.8%，几乎趋于一致。这说明AI并非真的看不懂棋盘，它识别棋盘状态的能力本身并没有问题，问题只出在它把棋盘状态和"赢/输"这两个词汇挂钩的那个环节。

三、一个词的力量：中性标签如何解锁AI的规则遵从能力

发现了语义固着这个问题之后，研究团队接下来做了一件非常聪明的事：他们不改变棋盘图像，也不改变规则的逻辑含义，只改变用来描述胜负的词汇，看看AI的表现会不会因此改变。

结果非常戏剧性。当把"赢家"和"输家"替换成毫无语义的人造词"POM"和"TOV"之后，反转规则下的平均正确率从52.5%一路飙升到63.1%，标准规则和反转规则之间的差距从14.6个百分点骤降到2.3个百分点——这几乎可以说是完全消除了语义固着的影响。中性标签提示是所有测试条件中差距最小的，这个发现极为重要。

紧接着，研究团队在这些中性标签上加了一句解释，告诉模型"POM意味着有利结果，TOV意味着不利结果"，也就是所谓的"语义标签提示"。加了这句解释之后，原本已经缩小的差距又重新扩大了，反转规则下的正确率从63.1%跌回53.5%，和基础设置下的52.5%几乎相同。

这个"一放一收"的实验形成了一个完整的逻辑链条：正是词汇本身携带的语义权重在干扰AI的规则遵从。当你用"赢"这个词时，AI的大脑里立刻激活了关于"赢"的所有默认印象，这些印象会悄悄覆盖掉你在提示词里写的新规则。换成毫无历史包袱的"POM"，这种干扰就消失了，AI反而能够更干净地按照逻辑关系来作答。而当你给"POM"解释成"有利结果"，等于又把语义包袱装回去了，干扰随之重现。

相比之下，视觉层面的改变影响微乎其微。把棋盘换成棋格纹理，或者把棋子符号换成随机字母，对标准规则和反转规则之间差距的影响都很小，差距仅从14.6缩小到约12个百分点。也就是说，语义固着主要是一个文本和语义层面的问题，不是视觉感知层面的问题。

在思维链（Chain-of-Thought，CoT）模式下，AI会先一步一步推理再给出最终答案，这种模式下的整体正确率大幅提升，标准规则下平均达到85%，反转规则下74.1%，但差距依然存在。不过，中性标签提示在思维链模式下同样有效，把差距几乎完全消除（84.8%对84.1%）。

输入顺序的影响也被仔细检验了。当文字提示出现在图像之前时，标准规则和反转规则之间的差距更大（66.2%对44.8%，相差21.4个百分点）；而图像出现在文字之前时，差距相对较小（60.2%对47%，相差13.2个百分点）。这说明文字提示被先处理时，语义印象会更早被激活，对后续视觉信息的解读产生更强的干扰。在思维链模式下，这种输入顺序效应基本消失了。

四、把测试搬出棋盘：真实世界中同样存在的偏见

VLM-Fix是一个精心设计的合成测试平台，棋盘游戏本身比较抽象，研究者们担心有人会质疑：这种现象只在玩具式的棋盘游戏里存在，在真实任务上不一定会发生。于是他们把目光投向了另一个已有的基准测试——VLMBias。

VLMBias是另一个研究团队已经发布的测试集，专门设计来暴露AI的偏见错误。研究者们选取了其中四个计数任务子集：动物计数（Animals）、车标计数（Logos）、旗帜星星计数（Flags）和游戏棋盘行数计数（Game Boards）。这些任务乍看和棋盘游戏毫无关系，但语义先入为主的问题在这里同样存在——比如当AI被要求数一只动物的腿时，它的训练数据里太多"四条腿的动物"，很可能不管图里画的是什么就直接答"4"。

研究团队把从VLM-Fix中学到的干扰手段搬过来用了。一种干扰叫"图像翻转"（Flip），把图片上下颠倒，破坏AI对熟悉视觉场景的默认识别。另一种干扰叫"标签替换"（Alias），把提示词里的"动物"替换成"ITEM"，一个ITEM代表一条可见的腿，消除词汇的语义包袱。第三种是把两者组合起来。

结果完全符合预期。在基础设置下，14个模型在四个子集上的平均正确率只有11.6%，偏见率高达76.7%。图像翻转单独使用，把正确率提升到13.3%，偏见率降至70.9%。标签替换单独使用，进一步把正确率提升到15%，偏见率降至69.5%。而两者同时使用效果最强，正确率达到20.7%，偏见率降至58.9%。

动物计数子集是最难的，基础设置下平均正确率只有3.6%，几乎所有模型都在猜。但在图像翻转加标签替换的组合干扰下，正确率跃升到22.2%，提升了六倍多。至关重要的是，这种改善在14个模型上无一例外地出现了，没有任何一个模型在加入干扰后反而变差。

这个结果告诉我们，语义固着不是棋盘游戏的专属问题，而是AI在面对任何需要突破"熟悉印象"的任务时都可能遭遇的通病。凡是存在强烈的训练数据先验（比如"大象是灰色的"、"四条腿的动物腿数是4"），AI就可能忽略图像中的真实信息，转而依赖脑子里的默认答案。

五、训练能解决固着问题吗？答案比你以为的更复杂

发现了语义固着之后，一个自然的想法是：那就用专门的训练数据来纠正它，把反转规则的例子喂给AI学，让它学会灵活切换。研究团队做了这个实验，但结果让人警醒。

他们设计了三种训练分割方案。第一种（D1）只用标准规则的例子训练，然后测试反转规则下的表现。第二种（D2）只用反转规则的例子训练，然后测试标准规则下的表现。第三种（D3）同时用两种规则训练井字棋和黑白棋，然后测试四子棋和点格棋两个未见过的游戏。训练方法分为监督微调（SFT，类似于让学生反复做例题来记住答案）和带可验证奖励的强化学习（RLVR，类似于只告诉学生对错、让他自己摸索规律）。

D1和D2的结果揭示了一个令人担忧的规律：专门针对某一套规则的训练，会大幅提升AI在那套规则下的正确率，但同时会让它在另一套规则下的表现比没有训练时还要差。换句话说，训练只会把固着变得更深，而不是解除固着。学习一套规则的代价是在相反规则上的负迁移。

以Qwen2.5-VL-7B为例，在D1训练（只学标准规则）之后，它在标准规则下的正确率显著提升，但在反转规则下的表现却比基础模型更糟糕。在D2训练（只学反转规则）之后，情况完全对称——反转规则下表现更好，但标准规则下反而退步了。这说明模型在学习规则时，是在强化某种"单向绑定"，而非建立灵活的规则适配能力。

两种训练方法的表现有细微差异。监督微调（SFT）在同规则迁移上通常效果最好，正确率提升幅度更大；但在规则对立方向上的负迁移也更严重。强化学习（RLVR）的正向提升略小，但面对规则切换时的崩塌也没那么剧烈，稳健性更好一些。

D3的结果给出了一个希望：当训练数据同时包含两套规则时，模型可以对未见过的游戏（四子棋和点格棋）都取得改善。RLVR在标准规则的未见游戏上更强，SFT在反转规则的未见游戏上更好。这意味着，如果想让AI真正学会灵活处理规则，正确的做法是在训练时就把两套语义映射都包含进去，而不是只教一套期望它自动泛化。

合成腿部计数任务上也做了类似实验。研究团队建了一个专门用来训练计数的合成数据集，里面有8192张鸟类和四足动物的卡通图像，腿部数量各异。在这个数据集上训练后，Qwen2.5-VL-3B在动物计数任务上的正确率从0%分别提升到34.6%（SFT）和23.1%（RLVR），Qwen2.5-VL-7B从0%提升到21.8%和22.2%。但这种提升高度集中于动物腿部计数这一个具体任务，对其他类型物体的计数基本没有帮助，说明训练获得的能力是高度任务特异性的，不容易迁移到其他场景。

六、直接"拨动"AI大脑里的语义开关

训练是一种相对重量级的干预手段，改变模型的参数，代价昂贵且影响广泛。研究团队还尝试了一种更轻量的方式：激活引导（Activation Steering）。

这种方法的原理可以用一个比喻来说明：假设你的大脑里有一组神经元，专门负责判断"这是一次胜利还是失败"。当AI处理一个棋盘问题时，这组神经元会产生某种激活模式。激活引导的做法是，找到"正确处理反转规则"时这组神经元应该有的激活模式，然后在模型处理问题的过程中，把激活状态从错误的模式"推向"正确的模式，看看能否改变最终输出。

具体操作上，研究团队从棋盘数据中挑选出一批"供体"样本（那些模型在反转规则下回答正确的案例），提取这些样本在特定层产生的内部激活向量，计算它们的平均方向，然后在测试时把这个方向的向量叠加到目标样本的激活上。整个操作只在解码器最后12层中选一层，只修改"查询词"位置的激活，非常精准。在操作之前，还要用一个轻量级的分类器来预判当前样本属于哪类情况（标准规则还是反转规则，赢家问题还是输家问题），确保激活引导的方向是对的。

结果显示，在黑白棋和点格棋上，激活引导带来了明显的正确率提升，而且提升主要集中在越靠近输出层的越晚的层次。这符合直觉：语义解读是在推理链条的末端完成的，越靠近输出的层次越承担"把激活模式翻译成最终答案"的功能，在那里进行干预更有效。四子棋的结果相对有限，可能因为这个游戏本身就比较难，错误源于更早的视觉理解阶段。

在动物腿部计数任务上也做了平行实验，但基础模型在这里几乎完全不会，所以无法从基础模型自身中找到可靠的供体样本。研究团队改用在合成数据上训练过的SFT模型作为供体，用SFT模型的激活向量来引导基础模型。这种"跨模型借力"的方法同样奏效，在Qwen两个型号上都能看到较为清晰的提升，但在Molmo和InternVL上效果较弱，说明不同架构的模型内部表示差异较大，激活引导的可迁移性有限。

这个发现的价值在于：它说明语义固着这个问题至少有一部分是"可编辑"的。错误不是深埋在视觉特征提取的早期阶段，而是在最后的语义读出步骤里。这为未来开发更轻量、更精准的纠偏工具提供了方向。

**归根结底，AI"先入为主"是个难以根除的老问题**

这项研究告诉我们一件挺朴素的事：AI学到的不只是"规则"，还有规则背后附着的一整套文化习惯和语义印象。当新任务要求它抛开这套印象时，它往往做不到，或者需要极大的提示词技巧才能勉强做到。

这件事对我们的日常生活意味着什么呢？下次你让AI助手帮你分析一个非常规的情境，比如"在这套特殊规则下，谁的方案更好"，不妨把关键词替换成中性词汇，减少AI对常见词汇的先入之见。提示词的措辞选择比大多数人以为的影响更深远。

从更大的视角来看，这项研究提出了一个需要整个AI行业认真面对的问题：我们如何才能让模型真正"读懂指令"，而不只是"用指令作为触发器来激活预设印象"？目前的实验表明，单靠某一种规则的专项训练会适得其反，真正有效的训练需要同时覆盖多套语义映射，而激活引导这类推理时干预的方法提供了另一条可能的路。

这项研究还有很多未解决的问题，比如语义固着的内部机制究竟是什么，激活引导的效果为什么在不同架构间差异明显，以及如何把这些发现推广到比棋盘游戏更复杂的真实任务上。对这些问题感兴趣的读者，可以通过arXiv编号2604.12119查阅完整的原始论文，里面有详尽的实验数据和方法描述。

---

Q&A

Q1：什么是"语义固着"（Semantic Fixation），为什么AI会有这个问题？

A：语义固着是指AI即使读到了新规则，也倾向于按训练数据中积累的"默认印象"来作答，而不是严格遵循新规则。这是因为AI在学习时不只记住了规则逻辑，还深度绑定了词汇的常见含义——比如"赢家"这个词会自动激活它对"赢"的全部默认认知，从而干扰对新规则的正确理解。

Q2：中性标签提示为什么能减少AI的规则偏见？

A：把"赢家/输家"换成"POM/TOV"这类没有历史含义的人造词，消除了词汇携带的语义包袱。AI没有关于"POM"的默认印象，只能老老实实按照提示词里的逻辑关系来判断，因此反转规则下的正确率大幅提升，与标准规则的差距从约14.6个百分点缩小到仅约2.3个百分点。