微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 牛津大学研究:网站只需"偷看"AI助手的操作习惯,就能认出它是哪款大模型

牛津大学研究:网站只需"偷看"AI助手的操作习惯,就能认出它是哪款大模型

2026-05-25 09:04
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-25 09:04 科技行者

这项由牛津大学互联网研究所与工程科学系联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.14786,有兴趣深入了解的读者可以通过该编号查询完整论文。

当你委托一位AI助手帮你在网上查资料或购物时,你大概不会想到,你访问的那个网站,可能正悄悄盯着这位助手的一举一动,并试图猜出它究竟是哪款大模型。牛津大学的研究团队就做了这样一件事——他们证明了,网站只需被动观察一个AI助手的点击、滚动和按键节奏,就能以高达96%的准确率辨认出这个助手背后驱动的是哪款大型语言模型。这项研究的意义远不止于一个技术小把戏,它揭示了一个此前从未被正式记录的安全隐患:每一次AI助手代替你浏览网页,都可能成为网站识别你所用模型、进而发动针对性攻击的机会。

一、AI助手上网,留下了什么痕迹

回想一下你上网的方式。你可能会习惯性地先滚动一下页面,再去点击某个链接,然后在搜索框里慢慢敲字。这种个人节奏是非常独特的,就像每个人写字的笔迹一样难以伪装。AI助手在浏览网页时,同样会留下属于自己的"操作笔迹"。

不同的大型语言模型在决定下一步该做什么时,需要的"思考时间"长短各不相同。有的模型每次点击之间总是停顿很久,有的则节奏紧凑;有的模型特别喜欢滚动页面,有的则倾向于直接搜索;有的模型在打字时几乎全用回车、退格这类功能键,有的则更多敲打普通字母。这些细节,就像一个人走路时独特的步伐节奏,几乎是由模型本身的内在结构决定的,很难伪装。

牛津团队正是抓住了这一点。他们在网页里植入了一段轻量级的JavaScript代码(可以把它理解为藏在网页角落里的一个小记录仪),专门记录每一个访客的操作事件——包括点击了哪个位置、滚动了多少距离、敲了什么键,以及每两个动作之间隔了多少毫秒。这段代码对访客完全透明,既不需要访客的许可,也不会干扰正常浏览,就像一个无声的观察者坐在旁边记笔记。

收集到这些操作记录之后,研究团队用机器学习分类器来训练一个"辨认模型"。这个分类器从记录中学习不同模型的操作风格,之后只需看一份新的操作记录,就能猜出它来自哪款模型。

二、实验:14款模型、四个网站、上千次操作记录

为了让这项研究足够有说服力,牛津团队设计了一个相当严格的实验框架。他们选取了14款当前最主流的多模态大型语言模型,既包括GPT-5.4、Claude Opus 4.6、Gemini-3.1这样需要付费调用的商业模型,也涵盖Qwen3-VL、Gemma-4、GLM-4.6V这样的开源模型,还有专门针对网页操作进行过特殊训练的UI-TARS-1.5。这14款模型涵盖了当前市面上几乎所有主流的技术路线和参数规模,从几十亿参数的小模型到数百亿参数的大模型都有涉及。

实验选择了四个不同的网络环境:两个基于维基百科的问答任务(2WikiMultiHopQA和FRAMES),需要模型在多个页面之间跳转查找信息;以及两个基于亚马逊购物网站的购物任务(WebShop和DeepShop),需要模型搜索商品、筛选结果、添加购物车。这四个环境涵盖了"查资料"和"网购"两种AI助手最常见的使用场景。

每款模型都被要求独立完成每一道题,总共产生了超过一千份操作记录。所有模型共用同一套浏览器操控框架(Midscene.js),并且都以"纯视觉"模式工作——它们只能看到网页的截图,而不能读取网页的底层代码结构。这个设计确保了一件事:模型之间操作方式的差异,只能来自于模型本身的"思维习惯",而不是软件环境的不同。

从这些记录中,研究团队一共提取了41个特征,大致可以分为几类:操作的时间节奏(比如两次点击之间平均间隔多少毫秒,这个间隔的波动幅度有多大,第一次动作出现在开始后多少秒)、滚动行为(页面滚到了多深,有没有来回滚动)、点击的空间分布(点击位置是集中在页面某个区域还是分散各处)、按键类型(功能键占比多少,普通字母键占比多少),以及导航策略(浏览了几个页面,每个页面停留多久)。

三、结果:辨认率高达96%,远超随机猜测

实验结果相当惊人。在14款模型的多分类任务中,随机猜测的准确率只有大约7%(14分之一),而研究团队训练出的XGBoost分类器(一种经典的机器学习算法,可以把它理解为一个经验丰富的鉴定师)在四个数据集上的宏观F1得分(一种综合考虑精确率和召回率的准确性指标)分别达到了79.4%、75.3%、74.2%和72.6%。

其中一些模型的辨认率格外突出。Seed-2.0-Lite在2WikiMultiHopQA任务上的F1得分高达96.1%,在FRAMES上达到96.7%,在WebShop上也有93.4%——几乎可以说是一眼就认出来。UI-TARS-1.5在购物任务上也表现出极强的"个性",WebShop上的F1达到92.1%。即便是辨认率最低的模型(Qwen3.5-9B在2WikiMultiHopQA上的F1为63.7%),也远远高于7%的随机基线,说明即使是"个性"最不鲜明的模型,也留下了足够的识别信息。

值得一提的是,这种辨认能力不仅局限于区分不同品牌的模型(比如区分GPT和Claude),同一品牌内的不同版本也可以区分。Qwen3.5-9B和Qwen3.5-27B同属Qwen3.5系列,但分类器依然能把它们分开。研究团队还专门测试了"按模型家族分类"的情况,发现按家族分类时准确率甚至略有提升,在2WikiMultiHopQA上达到80.7%的加权F1,说明同一家族的模型操作风格更为接近,分类器可以更自信地做出判断。

四、最关键的信号是什么:时间节奏,以及它被干扰后发生了什么

研究团队用一种叫做SHAP值的技术(可以把它理解为一种"归因分析",用来判断每个特征对最终判断的贡献大小)分析了分类器最依赖哪些特征。结果显示,在正常情况下,时间相关的特征占据绝对主导地位。

排名最靠前的三个特征分别是:操作间隔的标准差(也就是每两个动作之间停顿时间的波动幅度)、第一次动作出现前的等待时间,以及点击动作的平均间隔时长。这三个特征的SHAP值分别高达0.907、0.783和0.748,而排在第四位的"功能键比例"只有0.483,后续特征的数值更是迅速下降。

这个发现可以用一个直观的类比来理解:不同的大模型就像不同的厨师。有的厨师做菜时节奏很稳,刀工快慢均匀;有的厨师则忽快忽慢,时不时停下来想想下一步。这种节奏感,几乎比菜品的具体口味更能暴露厨师的身份。

但是,如果有人故意给这位厨师的每个操作之间都随机插入一段等待时间,打乱他的节奏,会怎样?研究团队也测试了这种情况。他们在每两个模型操作之间随机插入一段延迟,最大延迟从500毫秒到5000毫秒不等,然后观察分类器的表现。

结果是:对于一个用正常记录训练出来的分类器,随着插入的随机延迟增大,识别准确率急剧下降,在5000毫秒的最大延迟下,宏观F1跌至只剩不到0.3。乍看之下,似乎只要在AI助手的操作之间加入随机停顿,就能有效保护隐私。

然而,故事并没有在这里结束。研究团队随后用这些加了延迟的记录重新训练了一个新的分类器。结果,这个"经过适应"的分类器的识别准确率几乎完全恢复,在四个数据集上的表现与原来不加延迟时相差无几。

这说明了一件重要的事:时间节奏固然是最显眼的识别信号,但它并不是唯一的信号。当时间信号被掩盖之后,分类器自然转而依赖其他特征——点击位置的空间分布、功能键的使用比例、链接点击的频率。这些特征同样能刻画一个模型的"操作个性",只是在正常情况下被时间特征的光芒所掩盖。延迟干扰只是挡住了最亮的那盏灯,其他灯依然亮着。

五、只需少量数据,而且很早就能认出来

这项研究还揭示了两个让人有些不安的细节。

第一个细节关于数据需求。研究团队测试了用不同比例的训练数据来训练分类器,结果发现只需要全部训练记录的三分之一左右,分类器就已经接近了最高性能,之后继续增加数据几乎没有明显提升。换句话说,一个想要识别AI助手的网站运营者,并不需要收集大量样本,只需让每款模型在自己的网站上操作几十次,就足以建立一个可靠的"鉴定库"。而且,当有新款模型出现时,只需引导它在网站上完成少量任务,就能把它纳入识别系统,整个采集基础设施完全不需要改动。

第二个细节关于识别速度。研究团队还测试了在一次操作会话进行到什么程度时,分类器就已经能做出可靠判断。结果显示,当观察到前40%的操作动作之后,分类器的准确率就已经接近了看完全部操作后的水平,之后继续观察对准确率的提升非常有限。这意味着,一个网站甚至不需要等到AI助手完成整个任务,就已经能在它还在操作的过程中认出它来,留出足够的时间来决定下一步该如何应对。

六、开放场景:如果遇到从未见过的模型怎么办

上面讨论的都是"已知模型库"的情况——分类器事先见过所有可能出现的模型。但现实中,新模型层出不穷,一个网站不可能永远只接待已知的模型。研究团队因此也测试了"开放场景",也就是遇到从未见过的模型时,能否识别出"这个访客不在我的认识范围内"。

他们采用了"留一法":每次把一款模型从训练集中拿掉,用剩余13款模型训练分类器,然后让这个分类器对"已知的13款"和"未知的1款"分别打分,看看能否把未知的那款模型识别出来。评价指标是AUROC(可以把它理解为"在随机遇到一个已知样本和一个未知样本时,分类器正确判断哪个是未知的概率",完全随机是0.5,越接近1越好)。

结果在大多数情况下高于随机水平,很多模型超过了0.60的AUROC,部分模型(如GPT-5.4在2WikiMultiHopQA上的0.84)表现相当不错。但也有例外,最有趣的是Seed-2.0-Lite——它在闭集识别中是最容易被认出来的模型,但在开放场景中却表现得像一个隐身高手,在三个数据集上的AUROC甚至低于随机水平。

这个看似矛盾的现象其实可以这样理解:Seed-2.0-Lite的操作风格非常独特,在已知模型库中几乎没有任何其他模型与它相似,所以只要训练集里有它,分类器就能一眼认出。但正因为它太独特,当它从训练集中消失时,分类器对"什么样的操作属于未知领域"的判断反而被干扰了——它已经把那种极端独特的风格划归到了"已知世界"的某个角落,导致出现偏差。

这也说明开放场景的识别是一个更难的问题,但并非毫无价值:即使精确辨认做不到,能检测到"有不明访客"这件事本身,对于一个网站运营者来说已经足够触发进一步的记录和分析。

七、这意味着什么:三种现实威胁

研究团队在论文中详细描述了这种识别能力可能被用于哪些实际攻击,大致可以分为三个方向。

第一种是"量身定制的攻击指令"。不同的大型语言模型对各种恶意提示词(也就是试图绕过模型安全限制、让模型做出不当行为的特殊输入)的抵抗力是不同的。一个不怀好意的网站,如果能在AI助手操作的过程中认出它用的是哪款模型,就可以在页面里悄悄注入专门针对该模型弱点设计的攻击指令,而对其他模型则完全显示正常内容。这种攻击对人工审查员几乎是隐形的,因为用不同模型或人工去审查这个页面,看到的都是正常内容。

第二种是"消耗性攻击"。大型语言模型处理信息需要消耗计算资源,而调用商业API是按使用量付费的。如果一个网站认出了高消耗的模型(比如Claude Opus 4.6或GPT-5.4),就可以故意在页面上放置大量会触发模型反复推理的内容——导航结构故意设计得复杂混乱、信息重复冗余、页面布局反直觉——让模型消耗更多的推理token,从而间接增加使用者的费用。这是一种针对用户"钱包"的攻击,而不是针对模型本身的安全限制。

第三种是"身份管控"。网站可以选择性地对某些模型限制访问或提供不同内容。比如,一个公司可能出于竞争考虑,不希望对手的AI工具抓取自己网站的信息;或者出于法律合规的考虑,对某些地区常用的模型显示不同的服务条款。更极端的情况是,网站向特定模型提供刻意误导的信息,而这些信息对其他访问者完全不可见。

以上三种威胁有一个共同特点:它们都是完全被动的,对访问者(无论是AI还是人)没有任何可见的异常信号,而且都可以随着新模型的出现而持续更新。

八、能力与可辨认性无关

研究团队还特意检验了一个直觉上似乎很合理的假设:也许那些能力强的模型操作方式相似(因为都会"正确地"浏览网页),而能力差的模型则各自奇葩,所以辨认率的高低只是反映了模型能力的高低?

为了验证这一点,他们让所有14款模型在FRAMES数据集上完成实际的问答任务,并用另一个语言模型来评判每款模型的回答是否正确,从而得出每款模型的任务完成率。然后把任务完成率和可辨认度(XGBoost的F1分数)做对比分析。

结果是:两者之间几乎没有任何关联。皮尔逊相关系数只有0.14,斯皮尔曼相关系数更是只有0.05,两者都远未达到统计显著性。最具说明性的两个数据点是:Claude Opus 4.6拥有最高的任务完成率(88%),但可辨认度只是中等(F1约69%);而UI-TARS-1.5是可辨认度最高的模型之一(F1约90%),却是所有模型中任务完成率最低的(仅2.67%)。

这说明,操作风格与任务能力是两个相对独立的维度。一个模型可以非常"有个性"(容易被认出),但并不擅长完成任务;另一个模型可以非常擅长完成任务,但操作风格相对"平庸",不那么容易被辨认。辨认的依据是操作的节奏和结构,而不是操作的好坏。

九、跨任务和跨网站:指纹的局限性

研究团队也如实报告了这种识别方法的局限之处。

当分类器在某个任务(比如2WikiMultiHopQA)上训练,然后去识别同一网站上另一个任务(FRAMES)的记录时,准确率大幅下降,从约79%跌至41%。这说明操作风格确实部分取决于任务的性质——同一个模型在查找多跳问题和回答框架性问题时,可能采用不同的操作策略。

不过,如果把同一网站上的多个任务的记录合并起来训练,准确率就基本恢复了——在维基百科的两个任务合并训练后,对每个任务单独测试的准确率分别达到81.3%和77.2%,与单任务训练的约79%和75%相当。这对网站运营者来说是个重要信号:只要在自己网站上收集足够多样化的AI访问记录,就能建立一个在自己网站上普遍适用的识别模型,而不需要覆盖互联网上所有可能的使用场景。

跨网站迁移则更为困难。在维基百科上训练的模型去识别亚马逊上的记录,准确率只剩约30%,几乎与随机猜测没有太大差距。这表明操作指纹并不是一种通用的、网站无关的模型特征,而是由模型、任务、网站界面三者共同塑造的。对于防御方来说,这是个相对好的消息——一个网站的识别能力不能直接被其他网站借用;对于攻击方来说,这意味着每个网站都需要独立建立自己的识别模型,但考虑到建立成本之低(只需少量样本,基础设施无需改变),这并不构成真正的门槛。

说到底,这项研究揭示的是一个此前被忽视的、却真实存在于每一次AI浏览行为中的识别漏洞。我们习惯于担心网站通过浏览器指纹追踪"人",却没有想到,网站同样可以通过操作习惯追踪"哪款AI"。更令人深思的是,这种追踪完全不需要任何主动探测,只需要静静观察,成本极低,几乎无法被察觉。

当AI助手逐渐成为我们上网的代理人,网站面对的访客就不再只是"人或机器"这道二选一的题,而是"这是哪款模型"这道更精细的多选题。研究团队指出,未来的网络安全设计需要把"模型身份识别"列为与人类隐私保护同等重要的议题,而不仅仅是把目光停留在人类用户的隐私保护上。

至于普通用户能做什么,目前答案还比较有限——你无法控制你使用的AI助手如何在网页上操作,也无法要求它刻意伪装自己的节奏。研究团队测试的唯一有效防御(随机延迟)也被证明在面对能够重新训练的攻击者时不够稳固。这个问题的根本解决,可能需要从模型训练、浏览器标准或平台政策层面入手,而这些都还是未来的研究课题。

感兴趣的读者可以通过arXiv:2605.14786查阅完整论文,研究团队也公开了他们收集的操作记录数据集和浏览器测试框架,供后续研究者使用。

Q&A

Q1:AI助手浏览网页时,网站具体是通过哪些行为特征来识别它用的是哪款大模型的?

A:网站通过观察AI助手的操作节奏来识别模型身份,核心特征包括:两次动作之间停顿时间的平均值和波动幅度、第一次操作前的等待时长、功能键(回车、退格等)与普通字母键的比例、点击位置的空间分布,以及页面停留时长等。这些特征共同构成了一个模型独特的"操作指纹",在正常情况下,时间节奏类特征贡献最大,即使时间信号被人为干扰,点击位置和按键类型等结构性特征仍然保留了足够的识别信息。

Q2:在AI助手的操作中加入随机延迟,能保护用户不被网站识别所用的模型吗?

A:短期内能降低识别准确率,但无法提供持久保护。研究实验显示,当在每两个操作之间加入最大5000毫秒的随机延迟时,未经适应的分类器准确率大幅下降。然而,如果攻击方用包含这种延迟的样本重新训练分类器,识别准确率几乎完全恢复。这是因为延迟只掩盖了最明显的时间节奏信号,而点击位置分布、功能键比例等其他特征依然保留着模型身份信息。因此,随机延迟只能对不会主动适应的简单识别系统构成干扰,对能够重新训练的攻击者无效。

Q3:网站需要多少AI助手的操作样本才能建立可靠的模型识别系统?

A:所需样本量远低于预期。研究发现,只需全部训练样本的三分之一左右,分类器就已经接近最高识别性能,继续增加数据的边际收益极小。这意味着网站运营者只需让每款目标模型在网站上完成数十次任务,就能建立起可靠的识别库。更重要的是,当新款模型出现时,只需将其引导完成少量操作任务,就能将其纳入现有识别系统,整个数据收集基础设施无需做任何改变。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-