微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

斯塔万格大学等机构另辟蹊径：用一张图片就能让AI变聪明，这项技术把"调教AI"变成了一门艺术

多模态大语言模型视觉提示优化参数高效微调

斯塔万格大学等机构另辟蹊径：用一张图片就能让AI变聪明，这项技术把"调教AI"变成了一门艺术

作者：科技行者

2026-06-18 16:07

分享至：

挪威斯塔万格大学和NORCE研究中心提出ART方法，通过优化输入图片的像素来微调冻结的多模态AI，无需修改模型权重，在数学和工具调用任务上媲美甚至超越LoRA，优化后的图片呈现独特艺术效果。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-18 16:07 • 科技行者

这项由挪威斯塔万格大学与NORCE挪威研究中心联合开展的研究，于2026年6月以预印本形式发布，论文编号为arXiv:2606.11854。感兴趣的读者可通过该编号在arXiv平台上查阅完整论文。

**一、一个让AI工程师头疼的现实问题**

在人工智能快速发展的今天，越来越多的AI助手已经能同时看图、听声音、理解文字了。但在企业真正使用这些AI时，却面临一个棘手的问题——怎样才能让这些"通才"型AI专精于某个具体任务？

打个比方：你有一个学识渊博的助手，他什么都懂一点，但你需要他成为一名专业的会计师。你可以花大价钱送他去培训，改变他的思维方式（这相当于修改AI的内部参数，也就是所谓的"微调"）；你也可以给他一本《会计手册》，让他边看边工作（这相当于给AI提供提示词）。两种方法各有利弊。

AI领域目前主流的"再培训"方式叫做LoRA（低秩自适应），原理是在AI大脑的各层神经网络之间插入一些额外的小模块，专门记录新技能。另一种叫做"软提示"（Soft Prompting），思路是在输入信息前面附加一段特殊的"编码指令"。这两种方式都能让AI变得更专业，但都有一个共同的致命弱点：它们都需要修改AI原本已经精心优化好的内部计算结构。

这就像是你买了一台高度优化的赛车，却非得在引擎里加装一些改装零件——赛车厂商当初设计这台车时根本没考虑到这些零件，所以加装之后整个系统效率大打折扣。

vLLM是目前工业界最常用的AI高速推理引擎，专门用于同时服务大量用户。它的设计思想是把AI计算图"预编译"好，就像把一道菜的所有步骤提前规划好、食材提前备好，服务时直接端上桌，速度极快。但当多个用户各自需要不同的LoRA适配器时，系统就必须不断地换零件、重新规划计算步骤，内存碎片化，速度骤降，整个高效设计的优势荡然无存。

正是这个工程上的痛点，驱使斯塔万格大学和NORCE研究中心的团队去寻找一条全然不同的路。

**二、灵感：换个地方动刀子**

既然在AI内部动手脚会破坏精心优化的结构，那能不能从外部下手？

现代多模态AI（也就是能同时处理文字和图片的AI）本来就有一个接收图像的"视觉入口"。通常情况下，人们只是从这个入口送进去一张普通的照片，让AI描述或理解图片内容。但这个研究团队发现，如果送进去的不是普通照片，而是一张经过精心"设计"的特殊图片，是否能悄悄影响AI后续的文字回答？

更进一步，能不能通过不断调整这张图片的样子，让AI在特定类型的问题上表现越来越好——而AI自身的内部结构完全不变？

这个思路有点像给人类助手一张"秘密备忘卡"。他的大脑没有任何改变，但每次工作前都能看到这张卡，从而在某类任务上发挥得更好。

这就是ART——Art-based Reinforcement Training（基于艺术的强化训练）的核心理念。名字里的"Art"是双关：一方面指代强化训练（Reinforcement Training）的缩写，另一方面，优化后的图片本身会呈现出独特的视觉艺术效果，犹如一件充满信息密码的数字艺术品。

**三、ART的工作原理：教AI看懂一张"神秘图片"**

理解ART的工作方式，需要先了解多模态AI是如何处理图片的。当你给AI发一张图片时，AI内部有一个叫做"视觉变换器"（Vision Transformer，简称ViT）的模块，它会把图片切割成很多小方块（称为"图像块"），然后把这些小方块转换成一串数字向量，再和文字信息合并在一起送入AI的语言处理部分。

整个图片处理过程，从像素到数字向量，是完全可微分的——用数学语言说，就是可以通过"反向传播"从输出结果反推出输入应该怎么调整。这正是ART的关键所在。

ART的训练过程可以分成两个交替进行的步骤。第一步，让AI使用当前这张"训练图片"来回答一批题目，根据答案的对错给出分数，评估当前这张图片的效果如何。第二步，根据这些分数，用数学方法计算出"图片的每个像素应该怎么调整才能让AI下次答得更好"，然后对图片进行微小的修改。如此反复迭代，图片会越来越"精准"，AI在特定任务上的表现也会越来越好。

AI的所有参数在整个过程中纹丝未动。被调整的只有那张图片的像素值。

为了保证图片在调整过程中始终是合法的图片（像素值必须在0到255之间），研究团队使用了一个数学技巧：把图片存储在一个叫做"logit空间"的中间表示里进行优化，需要时再转换回普通的8位图像。这就像你调整一个水龙头时，用的是一个连续的旋转角度，而不是直接操控水的流量——调节起来更顺滑，结果更可控。

至于训练目标，研究团队选用了一种叫做DAPO的强化学习方法（它是DeepSeek团队开发的GRPO算法的改进版）。DAPO的精妙之处在于：它不需要额外训练一个"评委模型"来打分，而是直接用同一批题目的一组答案互相比较高下，谁答得好谁得分高，用这种相对排名来计算每张图片的好坏。这样大幅节省了显卡内存，让整个训练在单张GPU上就能跑起来。

**四、实验设计：公平较量的三块擂台**

为了严格验证ART的效果，研究团队精心选择了三种差异明显的测试任务，就像用三个截然不同的工种来考验同一位候选人。

第一块擂台是GSM8K，这是一套小学数学应用题集，每道题需要多步算术推理。这类题对人来说不算太难，但对小型AI而言需要清晰的逻辑链条，是衡量AI基础推理能力的经典标准。评分方式非常严格：只有最终数字完全正确才算对，差一点都不行。

第二块擂台是GPQA，这是一套研究生级别的科学多选题，由领域专家撰写，专门设计成让谷歌也查不到答案的难题——意在测试AI是否真的"理解"，而非死记硬背。为了防止AI在训练中见过这些题目（数据污染），研究团队把题库一分为二，一半用来优化图片，另一半用来测试效果。

第三块擂台是ToolMind，这是一套结构化工具调用任务：给AI一个工具库和一个用户需求，AI需要像程序员一样生成格式严格的XML函数调用代码，函数名和所有参数都必须正确。这模拟了真实场景中AI助手调用API的能力。

参与比较的选手阵容非常完整。没有任何图片的纯文字基线（类比于什么辅助都没有的原始状态），随机图片前缀（随机送入一张256×256的彩色噪声图），随机文字前缀（随机塞入64个文字词元，数量与图片对应的词元数完全相同），固定初始种子图片（有意义但未经优化的图片，数学题用一本数学书图片，科学题用大脑图片，工具题用扳手图片），LoRA微调（工业界标准的权重调整方案，在相同的强化学习框架下训练），以及ART本身（从种子图片出发，经过100步优化的成品）。

所有比较都在英伟达A100 GPU上进行，测试的模型是两个规模不同的Qwen3.5：0.8亿参数版（0.8B）和20亿参数版（2B）。

**五、意外发现：随机图片竟然也有奇效**

在深入讨论ART的效果之前，有一个令研究团队颇感惊喜的发现值得先说。

给0.8B小模型随机贴上一张毫无意义的噪声图片，GSM8K准确率从39.65%跳升至54.59%，提升了将近15个百分点。ToolMind的准确率更是从36.65%猛升至63.10%，几乎翻了一倍。这张图里什么有用信息都没有，只是随机像素而已。

相比之下，塞入同样数量（64个）的随机文字词元，效果截然相反：GSM8K直接从39.65%暴跌到25.25%，ToolMind同样大幅下降。

这个对比揭示了一个深刻的现象：对于这类小型多模态模型，图像输入和文字输入对AI的影响机制是根本不同的。随机文字打乱了AI原本的文字推理节奏，就像在菜谱中间插入了一堆乱码；而随机图像则像是打开了一个平时闲置的"视觉引擎"，激活了本来处于休眠状态的视觉处理模块，反而为AI增添了大量额外的计算能力——0.8B模型的视觉模块含有大约1亿个参数，相当于给AI凭空加了一个小型助手。

这个效应在更大的2B模型上明显减弱（GSM8K仅提升3.71%，ToolMind仅提升0.60%），这说明当语言解码器本身的参数量足够大、能力足够强时，它对视觉噪声的"依赖感"就没那么强了。

**六、ART优化后的实际战绩**

从固定种子图片出发，经过100步像素优化，ART的图片在多个任务上带来了统计显著的性能提升。

在0.8B模型上，ART将GSM8K准确率推至58.53%，不仅比纯文字基线高出18.88个百分点，还比未优化的随机图片高出约4个百分点。ToolMind的成绩更加突出，ART达到73.80%，比纯文字基线高出37.15个百分点，也比随机图片高出约10.7个百分点。这些差距都超出了统计置信区间，是可靠的真实提升。

与LoRA微调的正面比较同样有说服力。在0.8B模型上，同样经过100步相同强化学习训练的LoRA，GSM8K只达到49.51%，不仅输给了ART的58.53%，甚至还不如什么都没训练的随机图片前缀（54.59%）。这意味着对于极小型模型，直接优化视觉输入比优化语言解码器的权重更有效——视觉通道天然具备更强的信息注入能力。ToolMind上两者非常接近，ART以73.80%微微领先LoRA的69.50%。

在2B模型上，两种方法的差距收窄，ToolMind上LoRA（69.05%）略微高于ART（67.15%），但两者的置信区间有重叠，差异在统计上并不确定。GSM8K方面，2B模型本身已经很强，ART和固定种子图片都达到81.20%，接近天花板，进一步优化的空间有限。

唯独GPQA是ART的"软肋"。在这个需要高精度科学推理的任务上，增加任何图片前缀都轻微拖累了性能（0.8B模型从23.44%降至20.15%），不过由于测试集只有273道题，置信区间很宽，这个差距在统计上并不算确凿。更重要的是，不论是ART还是LoRA，在这个任务上的得分都接近随机猜测四个选项的水平（25%），这说明这两个规模的模型本身对这类研究生级别的科学推理问题能力有限，任何微调手段在这里都无法施展拳脚。

**七、图片里藏着什么：一种面向AI的隐写术**

ART训练后的图片长什么样？从图片上，你会看到一个奇特的视觉现象：种子图片的大致轮廓和色调依然保留（数学书还是数学书，大脑还是大脑，扳手还是扳手），但整张图片被密密麻麻的高频纹理"覆盖"了——那些细密的结构性"噪声"清晰可见，像是在图片上刻满了只有机器才能读懂的符文。

研究团队把这种现象称为"面向AI的隐写术"。隐写术（Steganography）这个词来自古希腊语，意为"隐蔽的书写"，传统上指把秘密信息藏在普通图片、音频或文本中，让人类肉眼难以察觉。而ART图片里的"秘密信息"不是藏起来的，它以肉眼可见的方式铺满整张图——只不过人类看不懂，只有特定的AI视觉模块才能解读出其中编码的任务偏好。

为了量化图片里存储了多少信息，研究团队使用了一个简单而优雅的代理指标：PNG文件大小的增长。PNG是一种无损压缩格式，图片内容越复杂、越随机，压缩效率越低，文件就越大。训练前的数学书种子图片（math.png）只有8.5 KB，经过0.8B模型优化后，文件大小暴涨至98.0 KB，增幅超过1047%。GPQA的大脑图片从20.0 KB增至72.1 KB，工具图片从44.3 KB增至75.8 KB。每一张图片在训练后都变得"更复杂"了，这是梯度优化在像素层面写入信息的直接证据。

更令人印象深刻的是：这些信息是在严苛的量化压缩条件下存活下来的。优化过程中，Xraw参数以32位浮点精度存储，但最终部署时被压缩成8位整数图像（每个颜色通道只有256个可能取值）。研究团队报告的所有性能数字，都是在重新加载这张8位PNG图片后测得的，和日常使用完全一致。这说明任务信息在32位到8位的剧烈量化中依然顽强存活，编码是鲁棒的，而非脆弱的高精度扰动。

**八、速度上的优势：省时省力**

除了效果，研究团队还测量了训练和推理的实际耗时。

在训练速度上，ART的优势相当明显。在GSM8K任务上，ART训练100步只需1093.6秒，LoRA则需要2008.1秒，ART快了将近一倍。在ToolMind任务上差距更大，ART仅需1158.6秒，LoRA则高达3797.4秒，ART快了三倍多。原因很直接：LoRA需要在每次训练步骤中对模型的语言解码器权重计算梯度并更新，这涉及大量参数；而ART的模型完全冻结，需要计算梯度和更新的只有一张图片的像素，工作量远小于前者。

推理速度方面，结果颇为有趣。在ToolMind任务上，ART推理每200道题只需83.9秒，而纯文字基线需要154.8秒，LoRA更是需要302.7秒。研究团队推测，这可能是因为ART的图片同时"教会"了模型更简洁地输出答案，优化了输出序列的长度。如果确实如此，这意味着ART不仅提升了准确率，还压缩了每次推理的计算量，是一举两得的收益。

**九、ART的适用边界与未来方向**

任何技术都有其适用范围，ART也不例外。研究团队坦诚地指出了几个已知的局限。

目前所有实验都只在Qwen3.5架构的两个尺寸（0.8B和2B）上进行，其他架构（如LLaVA、InternVL等）的情况尚不清楚。不同的视觉编码器结构和视觉-语言对齐方式，可能会让随机图片的"激活效应"大小不同，也可能让像素优化的收益不同。

GPQA任务的失利则揭示了更根本的局限：当任务要求的核心能力（深度科学推理）本身超出了当前模型规模的天花板时，无论通过何种方式注入信息，都无法弥补模型容量的不足。LoRA在GPQA上表现稍好，是因为它直接修改了语言解码器权重，能以更高的信息密度存储任务偏好；而视觉通道的容量相对有限，更适合编码"推理风格"或"输出格式"类的引导，而非深层知识本身。

研究团队还列出了几个值得深入探索的方向。其中一个是"跨模型迁移性"：用0.8B模型优化出来的图片，直接送给2B模型用，效果会如何？如果视觉信息能在不同规模的模型间迁移，那意味着一张图片可以服务于多个模型，价值将大幅提升。另一个方向是与软提示的直接对比：在相同的参数预算下（同样64个词元的信息容量），优化后的图片和优化后的文字嵌入向量，究竟哪种信息注入方式更有效？此外，能否把多张针对不同任务优化的ART图片叠加组合，就像LoRA权重合并一样？这些问题都值得未来进一步研究。

**十、结语**

归根结底，ART做了一件在直觉上既简单又出人意料的事：用一张图片来"调教"AI，而不去动AI本身的任何东西。

这个方案的聪明之处在于它顺势而为。现代多模态AI天生就有一扇"视觉之门"，而ART所做的，不过是精心雕琢那把送进门的"钥匙"。钥匙换了，锁（AI模型）纹丝未动，但开出来的房间（任务表现）却大不相同。更妙的是，这把钥匙就是一张普通的PNG图片，放在任何标准的多模态请求里，整个基础设施都感知不到任何异常，完全不需要为它专门改造管道。

这项研究的意义或许不仅仅在于又多了一种微调方法，更在于它提醒我们：AI系统中未被充分利用的"侧门"可能蕴藏着巨大潜力，而那些看起来固若金汤的预编译优化结构，未必需要从内部撬开才能"驯化"。

有兴趣深入了解所有技术细节的读者，可以通过arXiv编号2606.11854查阅完整论文，里面还包含了完整的算法伪代码和详细的实验配置参数。

---

Q&A

Q1：ART方法和LoRA微调在实际效果上有什么区别？

A：ART在小型模型（0.8B参数）的数学题和工具调用任务上超过了LoRA，GSM8K数学任务ART达到58.53%而LoRA只有49.51%，工具调用任务ART达到73.80%而LoRA为69.50%。但在需要深度科学推理的研究生级别题目（GPQA）上，LoRA稍占优势，因为LoRA能以更高密度直接向语言解码器注入知识。两者在更大的2B模型上差距明显收窄。

Q2：ART训练出来的图片能在不同AI模型上通用吗？

A：目前的实验还没有验证这一点，研究团队将"跨模型迁移性"列为重要的未来研究方向。理论上，如果不同规模的模型使用相同的视觉编码器结构，迁移是有可能的。用0.8B模型优化的图片能否直接在2B模型上发挥同等效果，还需要实验验证。

Q3：为什么随机图片就能让小型AI变聪明，文字却不行？

A：这与多模态AI的架构设计有关。随机图片会激活模型中平时处于闲置状态的视觉处理模块（Vision Transformer），0.8B模型的视觉模块约含1亿个参数，相当于为AI开启了额外的计算资源。而随机文字直接插入语言处理流程，打乱了原本的推理节奏，反而造成干扰。两者对AI的影响机制根本不同，前者是"加了一个帮手"，后者是"添了一个搅局者"。

多模态大语言模型视觉提示优化参数高效微调

分享至