
这项由佐治亚理工学院与弗吉尼亚理工学院联合开展的研究,发表于2026年4月(论文编号arXiv:2602.00095v3),聚焦于多模态大语言模型在真实大学STEM课程手写作业评分中的可靠性问题。感兴趣的读者可通过该编号在arXiv平台检索完整论文。
一、从一道作业题开始说起
每逢期末,全球无数高校的助教们都在熬夜改作业。一道电路分析题,学生密密麻麻地写满了公式、电路图和推导步骤,助教要逐字逐行地核对,判断对错,扣分有据。这项工作耗时耗力,稍有疏漏就可能引发学生投诉。正因如此,近年来"让AI来批改作业"的呼声越来越高——毕竟AI不会疲倦,也不会因为心情不好而手抖多扣了分。
然而,佐治亚理工学院的研究团队在实际操作中发现了一个让人坐立不安的问题:AI在批改作业之前,必须先"读懂"作业。而读懂一份手写的大学理工科作业,远比想象中困难得多。更麻烦的是,当AI读错了内容却恰好给出了正确的分数时,没有人会察觉这其中隐藏着什么危险——就像一位蒙着眼睛的裁判偶然判对了一个球,你不会去怀疑他其实什么都没看见。
这支团队用了将近一年的时间,收集了29名学生在整个2025年春季学期提交的1334份手写作业,搭建了一个名为EDU-CIRCUIT-HW的评测数据集,并用它对当前最先进的几款AI进行了系统性的"体检"。体检的结果,说好听点叫"发人深省",说直白点,就是——问题比预想的严重很多。
二、这份作业为什么这么难"读"?
在深入了解研究结论之前,有必要先理解手写理工科作业对AI来说究竟有多棘手。普通人在日常生活中见到的OCR(光学字符识别)场景,大多是扫描印刷文字、识别手机截图,或者读取快递单号,这些任务对AI来说已经相当成熟。但一份大学电路分析的手写作业,则是一种完全不同的"语言"。
以研究团队使用的课程为例,这门电路分析课的作业题涉及微积分、微分方程、复数运算和线性代数。学生在解题时,会在同一张纸上交织书写:用自然语言描述解题思路,用数学公式推导电压电流关系,用手绘电路图标注元件连接方式,还会用箭头、下标、符号在公式和图之间来回引用。一张纸上可能同时出现"KCL方程"(基尔霍夫电流定律)、一个手绘的并联电阻网络、以及多行含有复数指数的积分表达式。
这就像是把一份既有文字、又有乐谱、又有地图的说明书混在一起,交给AI去一次性理解。不同学生的笔迹差异巨大,有人写的"1"像"l",有人的负号轻得像根头发丝,有人的电路图线条歪斜到让人怀疑是地震时画的。在这种情况下,AI的识别任务不仅仅是"看字",而是"理解一套高度专业化的视觉语言体系"。
三、研究团队是如何设计这场"体检"的?
体检的核心逻辑是:先让AI"读"作业,再让AI"批"作业,最后把两步的结果都和专家核对的"标准答案"比较,看看哪里出了问题。
具体来说,团队首先请几位熟悉该课程内容的博士生,对513份作业(来自11名学生,构成"观察集")进行逐字逐句的人工转录——也就是把手写内容一字不差地打成电子版,同时也要对手绘电路图进行文字描述,比如"图中包含一个并联的电阻网络,左侧标注了电流方向"。这些经过人工核查的转录版本,就是"黄金标准"。
然后,团队让六款AI分别对同一批作业进行识别,并将AI识别的结果和黄金标准逐条比对,找出所有的"不一致之处"——也就是识别错误。为了让这个比对过程本身也能自动化,团队还专门设计了一套由另一个AI(Gemini-2.5-Pro)担任"裁判"的流程:给它同时提供AI识别结果和黄金标准,让它指出所有差异点。
这套自动化裁判的可靠性经过了严格验证:研究人员随机抽取了186份作业,让人类专家手工标注所有识别错误,再和AI裁判的结果比较。结论是,AI裁判在"这份作业有没有识别错误"这个判断上,准确率高达96.24%;在"具体是哪里出错了"这个更细的层面,精准度(Precision)达到91.93%,召回率(Recall)达到90.80%,综合评分(F1 Score)为91.36%。换句话说,这套自动裁判系统已经相当于一位经验丰富的人类审核员,可以放心地用于大规模评测。
四、识别错误长什么样?研究团队如何给它们分类?
研究团队对识别错误进行了系统性分类,将其划分为四种类型,每种类型在难度和危害程度上各有不同。
第一类叫"符号与字符误读",是最常见也最直观的错误——就是把一个字符看错了。比如把数字"20000"识别成"2a000"(把零看成了字母a),或者把负号"-V"丢掉了负号变成"V"。这类错误就像打字时手滑按错了键,局部发生,通常不会在整道题里连续出现。
第二类叫"结构与符号标记错误",涉及数学表达式的格式。比如一个分数
$$R = \frac{\frac{1}{8}}{\frac{1}{8} + \frac{1}{16}}\Omega$$
被识别成了
$$R = \frac{8}{8+16}\Omega$$
——分子分母的结构变了,虽然最终数值可能凑巧不变,但中间推导步骤的逻辑已经被破坏。这类错误就像把一道菜谱里"先加盐再加糖"写成了"盐糖混合加入",顺序和结构的改变可能影响整个烹饪逻辑。
第三类叫"图形诠释错误",是针对手绘电路图或函数图像的理解失误。最典型的是把并联电路描述成了串联,或者把某个电流方向标反了,又或者说"学生用红笔圈出了两个4mH的电感",而实际上学生只圈了一个。这类错误在整体比例中数量较少,但往往意味着AI对图形内容的理解出现了根本性偏差。
第四类叫"文本与逻辑流程错误",是最复杂的一类——AI对解题过程的逻辑理解出了问题。比如把"节点电压分析"写成了"KCL"又写成了"KVL"(两者是不同的电路定律),或者漏掉了一行至关重要的推导步骤,又或者把时间条件"t < 0"识别成了"t > 0",直接导致整段解题逻辑反转。这类错误虽然数量相对最少,但一旦出现,往往是灾难性的。
五、六款AI接受体检,结果如何?
研究团队共测试了六款AI的识别能力:Gemini-3-Pro-Preview、Gemini-2.5-Pro、GPT-5.1、Qwen3-VL-Plus、Claude-4.5-Sonnet,以及一款开源模型Qwen3-VL-8B-Thinking。
体检的核心指标有两个:一是"样本错误率(SER)",也就是在所有被识别的作业中,有多大比例至少包含一个识别错误;二是"平均错误数(AEC)",即每份作业平均包含多少个识别错误项目。
表现最好的Gemini-3-Pro-Preview,样本错误率为37.62%,平均每份作业有0.61处错误。这意味着超过三分之一的作业在被AI"读"的时候,至少出现了一处偏差。表现最差的Qwen3-VL-8B-Thinking,样本错误率高达85.43%,平均每份作业有2.79处错误——也就是说,十份作业里有超过八份存在识别问题,每份平均近三处。
这组数字背后有一个细节值得关注:即便是表现最好的Gemini-3-Pro-Preview,在四类错误中,"符号与字符误读"的数量也是最多的(296处),遥遥领先于其他类型。而对于更复杂的"图形诠释错误",所有模型都表现出明显的短板,连最强的Gemini系列也不例外。
更有意思的对比来自Qwen3-VL-8B-Thinking——这是六款中规模最小的开源模型。尽管它在总体识别质量上垫底,但在"图形诠释错误"这一类别上,它的错误数量(98处)竟然比Gemini-2.5-Pro(103处)还要少。这说明模型规模和某类具体能力之间的关系并不是简单的线性关系,不同模型有各自的能力侧重。
六、识别错误会如何影响批改成绩?
体检的第二阶段,是评估识别错误对最终批改成绩的影响。这里引入了一个新的指标叫"错误影响率(EIR)",简单说就是:在所有被检测到的识别错误中,有多少比例最终导致了评分上的偏差?
研究团队使用GPT-5.1作为统一的批改AI,分别给它提供:人类专家手工转录的黄金版本、六款AI各自识别的版本,然后把每个版本的评分结果和人工评定的"标准分"进行比较。
比较评分的维度分三个层级,从宽松到严格依次是:第一级"二元判断",只看AI有没有正确判断出这份作业"有没有错误";第二级"错误类型判断",要看AI有没有正确识别出错误属于哪个类别(方程错误、方法错误、单位错误等);第三级"扣分点判断",要求AI不仅类别对,连扣多少分都得精确匹配。
以黄金转录版本为基准,当批改AI使用了人类专家的转录时,三个层级的准确率分别为89.47%、78.36%和74.46%。这意味着即便识别完美,AI批改和人类专家批改之间仍存在约25%的差距——AI批改本身就不是一件容易的事。
而当识别版本来自各款AI时,三个层级的准确率都有不同程度的下降。以Gemini-3-Pro-Preview为例,三级准确率分别为87.91%、78.17%和74.27%,与黄金版本相比下降幅度不大,错误影响率仅为7.60%。这说明即便37.62%的作业存在识别错误,也只有不到8%的识别错误最终影响到了评分结果。
但这个"幸运"是有条件的。随着评分标准变得更细、更严格,识别错误的危害会急剧放大。从Gemini-3-Pro-Preview到Qwen3-VL-8B-Thinking,三个层级的评分差距分别从12.86%扩大到17.16%和17.35%。换句话说,在最粗粒度的评分任务下,识别错误的影响尚可接受;但一旦要求AI精确指出"哪里扣了多少分",识别错误的破坏力就大幅上升。
这个发现揭示了一个严峻的逻辑:随着AI辅助教育系统越来越精细(比如为每一步推导单独打分,给出详细的错误反馈),识别质量的要求也必须同步提升,否则系统的整体可靠性会持续下滑。
七、AI裁判和人类助教,谁更靠谱?
研究团队还邀请了一位曾选修过该课程、目前担任助教的研究生,对同一批作业进行人工评分,作为另一个比较基准。
在最粗粒度的"二元判断"上,最强的AI(Gemini系列)其实略优于这位人类助教。人类助教的二元判断准确率为83.63%,而Gemini-3-Pro-Preview配合GPT-5.1批改可以达到87.91%。这并不令人意外,因为人类助教存在一种叫"阅卷宽容性"的现象——当学生的核心思路和最终答案是对的,助教往往会对一些细节失误(比如符号不规范、小数点位置)睁一只眼闭一只眼。
然而,一旦进入更精细的评分层级,人类助教就体现出了AI难以企及的稳定性。在"错误类型判断"上,人类助教的准确率为82.46%,优于所有AI版本(最强的也只有78.17%)。在最严格的"扣分点判断"上,人类助教达到81.29%,而最强AI仅为74.27%,差距接近7个百分点。
这个对比说明了一个本质问题:人类助教在处理细节时有一种"整体感知能力",能够结合上下文、领域知识和学生意图综合判断,而AI目前还很难做到这一点。AI更擅长判断"对不对",而在判断"错在哪里"和"应该扣多少"这两个需要精细推理的层面,仍然落后于有经验的人类。
八、识别错误"藏"在哪里最危险?
对四类识别错误的影响率进行详细拆解后,研究团队发现了一个出人意料的规律。
"符号与字符误读"是影响评分最直接的错误类型,各款AI在这一类的错误影响率基本在20%左右。这意味着每五个字符识别错误里,大约有一个会直接导致评分偏差。道理并不难理解:如果把"-5V"识别成"5V",那么基于这个数值的所有后续计算都会出错,评分自然受到影响。
相比之下,"图形诠释错误"和"文本与逻辑错误"的影响率反而普遍低于10%。这看起来像是个好消息,但研究团队提出了一个重要警告:评分标准低不等于危害小。手绘电路图的理解错误,在现有的评分框架下可能被掩盖——因为很多评分条目只关注数值结果,不考察对电路图的理解。但如果把这份AI转录的作业用于其他用途,比如"自动从学生作业中提取电路拓扑结构"(这在电子工程领域有实际应用场景),那么图形理解错误会变成灾难性的输入错误,后果远比评分偏差严重。
这个发现揭示了一个更深层的问题:用评分准确率来衡量AI的"读懂能力",是一种不完整甚至具有误导性的评估方式。就像一位声称能听懂中文的外国人,在对话中总能给出合适的回应,但当你检查他写下的中文记录时,才发现他其实只认识最常见的几个字,其他内容全靠猜。
九、那怎么办?研究团队给出了一套"补救方案"
面对这些令人忧虑的发现,研究团队并没有仅仅停留在"发现问题",而是在论文的最后部分展示了一套可行的"补救流程"——他们称之为"重新批改模块"。
这套流程的基本逻辑是:先用常规方式让AI批改作业(第一轮);然后用一个专门的"识别错误检测器"对AI识别的作业内容进行扫描,找出可能存在的识别错误;最后根据检测结果决定后续处理方式。对于检测器认为有识别错误但不确定的情况,直接转交给人工助教处理;对于检测器认为确实存在识别错误的情况,则让AI重新批改,但在批改时明确告知"这些地方可能是识别错误,请忽略"。
检测器的提示逻辑(即它依据的判断规则)来源于研究团队从观察集里总结出的识别错误规律,比如:如果某行数值和上下文严重不一致,且只出现了一次,很可能是识别错误;如果某个变量在题目描述和电路图里从未出现,突然出现在推导中,也很可能是识别错误;负号丢失是常见问题,如果加上负号后整个式子逻辑自洽,优先判断为识别错误。
这套方案在821份测试集作业(来自另外18名学生)上进行了验证。以Gemini-2.5-Pro识别、GPT-5.1批改的组合为例,在不使用重新批改模块的情况下,三级评分准确率分别为85.02%、74.91%和69.91%;加入重新批改模块后,三级准确率提升至86.48%、77.34%和74.42%——尤其在最严格的第三级,提升了约4.5个百分点,相当可观。
更关键的是,这套流程对人工干预的需求极低。在所有测试作业中,只有3.3%被转交给人工助教处理,其余96.7%由AI自动完成重新批改。而在加入这3.3%的人工处理之后,整套系统的评分质量接近于"所有作业都由人类专家手工转录后再批改"的理想情况。
这个结果在实际部署中有很强的意义:你不需要让每一份作业都过人工之手,只需要精准识别出那少数几份"AI可能读错了"的高风险作业,重点处理,就能在保持大规模自动化的同时,将错判风险压缩到可接受的范围内。
十、这项研究的边界在哪里?
研究团队在论文中对自身工作的局限性进行了坦诚的讨论,这也是这份研究诚实可信的地方。
数据集虽然规模不小,但全部来自同一门电路分析课程的同一所大学。这意味着题目类型、学生群体和评分方式都具有一定的特殊性。其他STEM课程中可能出现的图形类型,比如几何图形、化学结构式、物理实验曲线,在这个数据集里几乎没有覆盖。因此,研究结论能否直接推广到更广泛的学科场景,仍需进一步验证。
此外,研究只将"自动评分"作为AI识别的下游任务。但正如前文所述,识别错误对其他下游任务(比如视觉问答、知识图谱构建、作业内容分析)的影响可能与评分场景大相径庭,有些错误在评分中无关紧要,但在其他场景中可能致命。
还有一个涉及评分本身的主观性问题。研究中的"标准分"是由少数几位博士级专家评定的,他们对课程内容有深厚的掌握。但在开放式理工科题目中,评分标准本身就有一定的主观成分,不同专家之间可能存在细微分歧。这是整个AI辅助评分领域都面临的根本性挑战,并非这项研究独有。
---
说到底,这项研究做的事情,是把一个大家觉得"差不多能用了"的AI工具,拿到一个真实的高校场景里认认真真地检验了一遍,然后说出了那句大家不太愿意听但需要听的话:还差得远呢。
研究的核心发现可以用一句话概括:AI批改作业的成绩,之所以看起来还不错,很大程度上是因为评分标准不够细,很多识别错误恰好没被考核到。一旦评分要求提高,这些藏着的错误就会浮出水面,带来实质性的偏差。
对于普通人来说,这项研究最直接的影响是:如果你的学校或机构正在考虑引入AI批改系统,这篇研究提供了一个清醒的参照——不能只看最终分数是否准确,还要关注AI"读懂了多少"这个更基础的问题。并且,哪怕只投入少量人工审核(不到5%的案例),就能让整个系统的可靠性大幅提升,这个代价是完全值得的。
归根结底,AI批改不是"能不能用"的问题,而是"怎么用才安全"的问题。这项研究提供的,不仅是警示,也是方向。有兴趣深入了解完整研究细节的读者,可以通过arXiv编号2602.00095在arXiv平台检索原文。
---
Q&A
Q1:EDU-CIRCUIT-HW数据集包含哪些内容?
A:EDU-CIRCUIT-HW数据集包含1334份来自佐治亚理工学院电路分析课程的真实学生手写作业,涵盖62道来自教材的题目。数据集分为观察集(513份,含人工核查的转录版本和评分记录)和测试集(821份,含评分记录但无人工转录)。所有作业均经过隐私处理,移除了学生姓名和学号。
Q2:AI识别手写作业时最容易犯哪类错误?
A:根据研究结果,AI最常犯的是"符号与字符误读",比如把数字或字母看错、丢掉负号等,在所有测试模型中这类错误数量最多。这类错误虽然看似细小,却对最终评分影响最直接,平均每五个字符识别错误中就有约一个会导致评分偏差。
Q3:如何用最小的人工成本提升AI批改作业的准确性?
A:研究团队提出的"重新批改模块"方案显示,只需将约3%到4%被识别为高风险的作业转交人工处理,其余由AI结合识别错误报告重新批改,整体评分质量就能接近全人工转录的理想水平,在保持大规模自动化的同时大幅降低错判风险。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。