
这项由佛罗里达大学电气与计算机工程系、计算机与信息科学与工程系、临床与健康心理学系以及生物医学工程系联合开展的研究,以预印本形式于2026年5月11日发布在arXiv平台,编号为arXiv:2605.16386v1。感兴趣的读者可通过该编号查阅完整原文。
**当AI开始扮演"考官"角色**
假设你手边有一张学生画的画,你需要给它打一个从0到5分的分数。0分代表完全认不出是什么,5分代表画得非常准确。现在,如果让一个特别聪明的AI来替你打分,你觉得它会表现得怎么样?
大多数人可能会觉得,AI嘛,肯定客观、精准,不像人类评分者那样会有情绪波动或主观偏好。然而,佛罗里达大学的研究团队却发现了一个令人忧虑的现象——这些顶尖AI系统在给分的时候,有一种系统性的"缩手缩脚"倾向:它们不太愿意打极端分数,总是把分数往中间靠。0分的画,它偏偏给打成1分;5分的画,它却只给4分。这个问题在医疗筛查场景中后果可能相当严重。
这项研究的核心场景是"画钟测试"(Clock Drawing Test,简称CDT)。这是一种在临床上广泛使用的认知功能筛查工具:医生让患者在白纸上画一个钟表,并把指针拨到11点10分,然后由专业人员根据画的质量打分,评估患者是否存在认知障碍的迹象。研究团队把这个任务交给了包括GPT-5、GPT-5.4、Gemini 2.5 Pro和Claude 4 Sonnet在内的多款顶尖AI系统,同时也训练了传统的深度学习模型作为对照,在两个公开数据集上进行了系统性测评。
研究团队观察到的核心问题,在学术上被称为"中心趋势效应"(central tendency effect),通俗地说就是AI打分时会不自觉地向中间分数聚拢。这种偏差不是随机的,而是有规律的、跨模型一致出现的,而且用调整提示词的方式根本无法消除。这一发现,对于任何想把AI用于医疗评估的场景来说,都是一个必须正视的警告。
**一、什么是"画钟测试",为什么AI打分这件事值得认真研究**
画钟测试在临床心理学和神经科学领域已经有几十年的历史。它的原理其实很直观:一个认知功能正常的人,能够准确地画出一个有数字、有指针、指向特定时间的钟表;而认知功能受损的患者,往往会在数字排布、指针方向、整体比例等方面出现各种错误。这些错误,恰好反映了大脑的空间感知能力和执行功能是否正常。
Shulman评分体系是目前最常用的画钟测试评分标准之一,将画作分为0到5共六个等级。0分代表这张纸上的东西根本看不出是个钟;1分代表严重变形;2分代表中度变形;3分代表轻度变形;4分代表基本准确;5分代表完整精确地描绘了钟表。这个从0到5的顺序,不仅仅是数字的排列,每一个级别之间的距离都有真实的临床意义——判断一个患者是否需要进一步检查,往往就取决于他的画是得了3分还是4分,或者是得了0分还是1分。
手工评分的问题在于,它费时费力,不同评分者之间的一致性也参差不齐,更无法扩展到大规模人群筛查。于是,用计算机自动评分的想法应运而生。早期的方法依赖手工提取图像特征,后来深度学习的兴起让卷积神经网络(CNN)能够直接从图像中学习评分规律,准确率据报道可以超过96%。最近,具有图像理解能力的多模态大语言模型(也就是能同时处理图片和文字的AI)开始被探索用于这类任务,引发了学界的广泛关注。
然而,AI系统在扮演"评分者"角色时是否存在系统性偏差,此前几乎没有研究认真审视过。人们更多地关注整体准确率,却忽略了一个关键问题:AI在哪些分数区间上犯错,以及它的错误是否有固定的方向性。佛罗里达大学的团队正是为了填补这个空白而展开了这项研究。
**二、研究是如何设计的:两类"评分选手"的全面对决**
研究的核心设计是一场公平的对比实验,让两大类模型在同一批图像上进行评分,然后仔细比较它们各自的表现。
一类是经过专门训练的深度学习模型,属于"有过专门练习的选手"。研究团队使用了来自美国全国健康与老龄化趋势研究(NHATS)的画钟测试图像数据库,这是一个跨越13个研究轮次、总计超过6.3万张图像的庞大数据集,研究对象是65岁及以上的美国医保受益人。深度学习模型在这批数据上经过反复训练,学会了从图像特征到分数的映射关系。训练好的模型包括基于ResNet-101架构的卷积神经网络(CNN),以及两个基于Vision Transformer(ViT)架构的变体——一个用于分类(ViT-Ordinal),一个用于回归(ViT-Continuous)。所谓"有序分类",就是模型知道5分比4分高、4分比3分高,评分之间存在顺序关系;所谓"连续回归",则是让模型直接预测一个0到5之间的连续数值,最后四舍五入得到整数分数。
另一类是多模态大语言模型,属于"没有专门练习、只靠说明书上场的选手"。GPT-5、GPT-5.4、Gemini 2.5 Pro和Claude 4 Sonnet这四个模型,完全没有看过NHATS的画钟图像,更没有做过任何针对这个任务的专项训练。研究团队给它们提供的只是一张画钟图像,以及用自然语言写成的评分规则说明(就像给人看的评分指南一样),然后要求它们返回一个0到5的整数分数,格式为JSON对象。所有推理都在这种"零样本"(zero-shot)的条件下进行,也就是说,AI从来没见过任何已打好分数的例子,完全靠理解文字规则来打分。
为了确保比较的公平性,研究团队精心构建了一个包含597张图像的测试集,其中每个分数级别(0到5)各有100张,只有0分的图像因为数量不足,只提供了97张。这种均衡设计非常重要,因为现实中的画钟数据往往高分图像占多数,如果不做均衡处理,模型只要学会给大多数图像打高分就能获得不错的整体准确率,反而掩盖了它在极端分数上的表现。所有模型都在完全相同的597张图像上接受评测,确保对比结果的可靠性。
外部验证方面,研究团队还准备了一个独立的外部数据集——来自泰国临床人群的386张纸质画钟图像,用于检验研究发现是否在不同人群和数据来源上同样成立。
**三、整体表现数据:AI能打多少分**
在整体指标上,经过完整训练(所谓"解冻"状态,即允许全部网络层参数更新)的ViT-Ordinal模型表现最为突出。它的平均绝对误差(MAE)为0.52,也就是说平均每张图的预测分数与真实分数相差0.52分;在"容忍性一致率"(within-1 accuracy,即预测分数与真实分数相差不超过1分的比例)上达到了91%;区分认知正常与认知受损的特异性达到85%,敏感性达到91%。这个成绩相当不错,说明专门训练的模型能够比较准确地捕捉画钟质量的细微差别。
多模态大语言模型的整体表现则有一些微妙的地方。GPT-5的MAE是0.67,容忍性一致率达到92%,在所有大语言模型中表现最好;GPT-5.4的MAE为0.75,容忍性一致率89%;Gemini 2.5 Pro的MAE为0.84,容忍性一致率82%;Claude 4 Sonnet的MAE为0.87,容忍性一致率81%。
单看容忍性一致率,GPT-5的92%甚至略高于最优深度学习模型的91%,两者的置信区间还有重叠,统计上没有显著差异。如果只看这一个数字,可能会得出"大语言模型的打分表现和专业训练模型差不多"的结论。但研究团队并没有就此止步——真正的问题埋在这些平均数字的背后。
**四、关键发现:AI在极端分数上的"缩手缩脚"现象**
当研究团队把599张图像按照真实分数分组,分别查看每个分数级别上各模型的表现时,一个令人不安的规律出现了。
对于真实得分为0分的图像,也就是那些完全认不出是钟表的画,GPT-5在零样本条件下只有35%的概率给出正确的0分,其余将近60%的图像被错误地预测为1分。换句话说,对于那些画得最差、最需要被识别出来的图像,AI反而最容易"手下留情",把0分抬高成1分。
在另一端,对于真实得分为5分的图像,也就是那些画得非常准确的图像,GPT-5只给出了22%的正确5分预测,大多数图像被错误地降格为4分。一个有趣而又令人忧虑的细节是:在真实得分为4分的图像中,GPT-5有26次打出了5分,说明它在技术上完全有能力使用最高分;但当真实得分就是5分的时候,它给出5分的次数反而只有22次,比它给4分图像打5分的次数还少。这种"明明能用高分,偏偏不用"的模式,清晰地表明这不是感知能力的局限,而是一种系统性的评分倾向。
从整体分布图来看,这个现象更加直观。如果把真实分数的分布画成柱状图,再把各模型预测分数的分布叠加上去,会发现经过完整训练的ViT模型的预测分布与真实分布高度吻合——柱子高的地方预测也高,柱子低的地方预测也低。而所有大语言模型的预测分布则呈现出明显的"压缩"形态:0分和5分的预测柱子都比真实情况矮得多,而中间的1分和4分则被撑高了。这就好像有人把一个本来两端高、中间低的分布硬生生往中间挤,使得原本分布在两端的分数都向中心流动。
研究团队还通过一个叫做"校准斜率"的统计量来量化这种压缩程度。校准斜率越接近1,说明模型的预测越准确;斜率越低,说明预测越往中间靠。统计检验结果显示,GPT-5的校准斜率显著低于ViT-Ordinal(差值约为0.049,p值为0.020),而且GPT-5产生向中间倾斜错误的比率(34.0%)显著高于ViT-Ordinal(25.6%),两者差异的统计意义非常显著(z值为3.16,p值小于0.001)。
Gemini 2.5 Pro和Claude 4 Sonnet的情况更为极端。在零样本条件下,Gemini 2.5 Pro给100张真实5分图像打出5分的次数只有区区3次,其余97张全部被压低到4分或更低。这意味着,如果用这个AI来筛查认知功能正常的老年人,几乎所有实际上完全正常的人都会被标记为"可能存在问题",造成大量误报。
**五、用调整提示词的方式能解决这个问题吗**
研究团队提出了两个可能的解释,然后用实验来逐一排除。
第一个解释是:零样本条件下,AI只有文字描述的评分规则,没有任何真实图像作为参照,可能因为不知道"0分的画到底长什么样"而产生保守的打分倾向。解决方案是提供少样本(few-shot)范例——在提示词里加入每个分数级别各5张已打分的参考图像,总共30张,让AI在看了具体例子之后再给新图像打分。
结果显示,少样本提示确实带来了有意义的整体改善:GPT-5的MAE从0.67降到0.56,容忍性一致率从92%升到94%,对5分图像的准确率从22%大幅提升到52%。说明给AI看参考例子确实有帮助,尤其是在高分端。然而,核心问题并没有消失。在低分端,0分图像的准确率只从35%小幅提升到41.2%,仍然有将近60%的严重受损图像被错误抬高了一分。"向中间压缩"的整体结构依然存在,不过程度略有减轻。Gemini 2.5 Pro和Claude 4 Sonnet在少样本条件下也呈现出完全相同的规律。
第二个解释是:提示词中包含"神经心理学"、"认知筛查"等医学专业术语,可能激活了AI的某种"谨慎模式",让它不敢轻易做出极端判断,因为这类判断可能被视为涉及患者健康的严肃声明。如果是这样的话,把所有医学术语去掉,把任务重新包装成普通的"图像质量评估",应该能减轻这种保守倾向。
研究团队专门设计了一个"去临床化"版本的提示词,把所有神经心理学相关的表述都替换成中性语言,把"神经心理学专家"改成"图像质量评估专家",把"认知筛查"去掉,只保留基本的评分规则。结果却出乎意料地走向了反面:去掉临床语言后,GPT-5的MAE不降反升,从0.67增加到0.82;容忍性一致率从92%下降到87%;5分图像的准确率更是从22%断崖式跌落到5%,几乎完全丧失了识别正常图像的能力。向中间压缩的方向性错误不但没有减少,反而更加严重了。
这个发现非常重要,因为它说明临床专业术语并不是问题的来源,恰恰相反,这些术语为AI提供了有用的领域背景,有助于它更准确地理解评分任务。去掉这些术语,等于把AI引入了一个它更不熟悉的情境,导致表现全面下滑。
两个假设都被否定之后,研究团队得出结论:这种向中间压缩的评分倾向不是提示词设计的问题,而是当前多模态大语言模型在进行有序量表评分时的一种内在行为特征。
**六、泰国数据集的外部验证:规律在不同人群中同样成立**
为了确认上述发现不是NHATS数据集特有的现象,研究团队把GPT-5放到了来自泰国临床人群的386张画钟图像上进行测试。这批图像来自完全不同的地理背景、人群特征和图像采集方式(纸质扫描而非数字格式),是一个真正意义上的外部验证。
结果发现,混淆矩阵(一种展示每个真实分数与预测分数对应关系的表格)所呈现的错误结构,与在NHATS数据集上观察到的完全一致:低分图像被往高处预测,高分图像被往低处预测,向中间收拢的模式清晰可辨。这说明,研究团队发现的中心趋势效应不是数据集特异性的偶然现象,而是一种跨数据集、跨人群稳定存在的行为规律。
**七、为什么"平均误差差不多"不等于"可以在临床中使用"**
研究的一个重要贡献,在于它指出了用单一平均指标评价AI评分系统的致命局限性。
回到GPT-5的数据:MAE为0.67,容忍性一致率92%,乍看之下相当不错。但当你拆解成每个分数级别来看,会发现这个"还不错"的平均数是通过在中间分数段(2分、3分)表现尚可,同时在两端(0分、5分)严重失准来凑出来的。对于一个要用于认知障碍筛查的工具,这恰恰是最坏的出错方式。
在临床实践中,0分对应的是完全无法辨认的钟表,1分对应的是严重变形的钟表,这两者之间虽然只差一分,但从诊断意义上来说,一个是"患者已经无法理解这项任务",一个是"患者勉强完成了任务但有严重错误",两者在后续处置上可能有显著差异。同样,5分对应的是认知功能完全正常的表现,4分对应的是基本正常但有轻微瑕疵。如果AI系统性地把所有5分图像往下压,就意味着大量认知功能完全正常的老年人会被标记为"存在轻微问题",引发不必要的进一步检查和心理负担。反之,如果AI系统性地把严重受损的0分图像往上抬,就意味着一部分真正需要关注的患者会被漏掉,错失早期干预的窗口期。
研究团队在论文中以具体数字说明了这种不对称性的影响。以"认知受损阈值为3分及以下"的筛查规则为例,各模型在敏感性(正确识别受损患者的比例)和特异性(正确识别正常人的比例)上的表现差异很大。Gemini 2.5 Pro的敏感性高达99%,几乎不漏诊任何受损患者,但特异性只有28%,也就是说72%的正常人会被误判为受损——这样的误报率在任何实际筛查场景中都是无法接受的。相比之下,经过完整训练的ViT-Ordinal模型把敏感性维持在91%的同时,将特异性提升到了85%,两者之间取得了更平衡的权衡。
这个对比清晰地说明:一个在容忍性一致率上与训练模型持平甚至略高的大语言模型,在实际临床筛查任务中的可靠性却可能差异悬殊。单一的平均指标会掩盖这种差异,只有分数级别的细粒度分析才能揭露真实的失效模式。
**八、为什么AI会有这种"向中间靠拢"的习惯**
研究团队在论文中也对这种现象的成因提出了一些推测,虽然尚不能给出确定性的解释,但这些推测颇有道理。
中心趋势效应在人类评分者中早已被心理学研究记录在案。当一个人面对一个不太确定的判断时,往往倾向于给出中间分数,而不是极端分数,因为中间分数在各种情境下都不会"错得太离谱",是一种保守策略。大型语言模型通过大量人类标注数据进行训练,尤其是通过一种叫做"基于人类反馈的强化学习"(RLHF)的技术来对齐人类偏好,而这个过程很可能把人类评分者的保守倾向也一并学进了模型。换句话说,AI可能从人类那里"学会了"避免极端判断。
另一个可能的因素是训练数据的分布。在绝大多数文本和图像数据中,极端情况(完全糟糕或完全完美)本来就比较罕见,中间状态才是常态。模型在预测不确定时,会自然地倾向于选择统计上更常见的中间值。不过,研究团队也特别指出,由于他们测试时使用的是均衡采样的测试集,每个分数级别都有相似数量的样本,而且AI从未见过NHATS的标签分布,单纯的数据不平衡并不能完全解释这种倾向。
还有一种可能是安全机制的作用——AI在医疗场景中被训练得格外谨慎,不愿意做出可能影响患者诊断的极端声明。然而,"去临床化"提示词实验的结果推翻了这个解释:去掉医学语境不但没有减轻极端分数的压缩,反而让压缩变得更严重,说明临床语境本身并不是保守评分的触发因素。
**九、研究的局限与未来方向**
研究团队在论文中坦诚地列出了这项工作的边界。全部实验都在Shulman评分体系框架内进行,这是画钟测试众多评分系统之一,其他评分体系是否同样存在类似问题有待进一步验证。此外,研究只测试了"直接使用现成AI"的场景,没有探索在特定任务上进行轻量级微调或后处理校正之后,大语言模型是否能克服这种倾向。
研究团队也明确指出,把大语言模型用于其他类型的临床量表评分(比如抑郁量表、疼痛评估、功能能力评估等)是否存在类似的中心趋势效应,目前尚不得而知,但研究团队认为这很可能是一个普遍现象,值得在更多场景中系统性地检验。
一个自然的下一步是研究"轻量级校准"方法——在不对AI进行全面重训练的前提下,通过后处理步骤来修正预测分布的偏差。比如,如果已知AI倾向于把0分说成1分、把5分说成4分,能不能通过一个简单的映射函数来纠正这种偏差?这类方法在传统机器学习中已经成熟,应用到大语言模型上是否同样有效,是一个值得探索的研究方向。
**说到底,这个研究告诉了我们什么**
归根结底,这项研究揭示了一个在AI技术日益普及的时代需要认真对待的警示:一个在总体指标上看起来表现不错的AI系统,可能在最关键的地方悄悄失灵,而如果你只看平均数,根本不会发现这个问题。
对于画钟测试这个具体场景,研究团队的建议是:当前状态下的多模态大语言模型不应单独承担临床评分任务,尤其是在需要准确识别极端分数的场景中。更合理的使用方式,是把它们作为初步预筛选工具,帮助减少人工评分的工作量,但最终评分仍然依赖经过专门训练的监督模型或人类专家。
更广泛地说,这项研究提醒我们:在把任何AI系统部署到高风险决策场景之前,必须做细粒度的、分类别的性能审计,而不是仅仅依赖整体准确率或平均误差。一个在测试集上MAE为0.67的系统,可能在某些子群上的表现远比这个数字所暗示的糟糕。在医疗、法律、安全等领域,这种细节上的失察可能直接影响到真实的人。
对于普通人来说,这项研究意味着:你听说某款AI在某个医疗任务上达到了"专家级准确率",不必急着庆祝,也不必急着担心,而是应该追问:这个准确率是在什么条件下测量的,有没有分析过它在边缘情况下的表现?那些被AI认定为最严重或最正常的病例,它处理得对吗?这些才是真正决定一个AI系统能否信任的问题。
有兴趣深入了解的读者,可以通过arXiv编号2605.16386查阅这篇论文的完整内容,该论文由美国国家老龄研究所(NIH/NIA)资助,批准号为R56AG055337。
---
Q&A
Q1:画钟测试(CDT)中,大语言模型打分偏向中间分数有什么实际危害?
A:在认知障碍筛查场景中,0分代表画作完全无法辨认(严重受损),5分代表完全正常。大语言模型系统性地把0分抬高为1分、把5分压低为4分,意味着真正需要关注的严重受损患者可能被漏掉,而正常人则可能被误判为轻度异常。这种错误在临床上会直接影响后续干预决策,比单纯的"打分不准"后果严重得多。
Q2:多模态大语言模型在打分时为什么会产生"中心趋势效应"?
A:目前研究团队提出的主要假设是:这些模型通过大量人类反馈数据训练,而人类评分者本身就有"避免极端分数"的倾向,模型可能把这种保守策略一并学了进来。此外,训练数据中极端情况本就稀少,模型在不确定时倾向预测更常见的中间值。实验已排除了"临床语境触发保守模式"的解释,因为去掉医学术语后问题反而更严重。
Q3:少样本提示(few-shot prompting)能完全解决大语言模型在临床评分中的中心趋势问题吗?
A:不能完全解决,只能部分缓解。实验显示,加入每个分数级别各5张参考图像后,GPT-5对5分图像的准确率从22%提升到52%,整体MAE从0.67降到0.56,有明显改善。但在0分(最严重受损)端,准确率仅从35%小幅提升到41.2%,仍有约60%的严重受损图像被错误抬高,向中间压缩的整体结构依然存在,并未根本消除。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。