微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 约翰霍普金斯大学揭秘:AI为什么总是对外部建议"充耳不闻"?

约翰霍普金斯大学揭秘:AI为什么总是对外部建议"充耳不闻"?

2025-06-19 16:59
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-19 16:59 科技行者

这项由约翰霍普金斯大学的姜东伟、张阿尔文、王安德鲁、安德鲁斯·尼古拉斯以及哈沙比·丹尼尔等研究者联合完成的研究,发表于2025年6月的预印本论文arXiv:2506.11930v1,有兴趣深入了解的读者可以通过https://github.com/JHU-CLSP/Feedback-Friction访问相关代码和完整论文。

近来,人工智能在自我改进方面展现出了令人瞩目的能力。当我们给这些AI模型提供外部反馈时,它们似乎能够根据建议改进自己的回答,就像学生听取老师的指导后能写出更好的作文一样。然而,约翰霍普金斯大学的研究团队却发现了一个令人意外的现象:即使给AI提供近乎完美的外部反馈,这些智能系统仍然表现出一种"顽固"的特性,无法完全吸收和运用这些宝贵的建议。

考虑这样一个场景:你正在教一个聪明的学生解决数学问题。这个学生第一次尝试时犯了错误,于是你详细指出了他的错误所在,甚至给出了正确的解题思路。按理说,学生应该能够根据这些指导纠正错误,得到正确答案。但研究团队发现,即使是最先进的AI系统,在接受了高质量的反馈后,也经常无法达到理论上应该能够实现的最佳表现。研究者将这种现象称为"反馈摩擦"。

这项研究的独特之处在于,它首次系统性地探索了AI模型在接受外部反馈时的表现上限。以往的研究虽然证明了AI能够通过反馈获得提升,但很少有人深入探讨这种提升能达到怎样的程度,以及是什么因素限制了AI的进一步改进。研究团队为此设计了一个精巧的实验环境,就像为学生量身定制了一个完美的学习场景,然后观察他们能否充分利用所提供的优质教学资源。

一、实验设计:为AI创造完美的学习环境

研究团队构建了一个类似于师生对话的迭代学习系统。在这个系统中,有两个主要角色:一个是负责解决问题的"学生"AI(求解模型),另一个是负责提供指导的"老师"AI(反馈生成模型)。整个过程就像一场持续的辅导课程。

当面对一个问题时,学生AI首先尝试给出答案。如果答案错误,老师AI就会根据正确答案和详细的解题过程,为学生提供针对性的反馈。这种反馈不是简单的对错判断,而是具体指出学生在哪一步犯了错误,以及应该如何改正。接着,学生AI会根据这些建议重新尝试解决问题。这个过程最多重复十次,直到学生给出正确答案或者达到尝试次数上限。

整个实验的精妙之处在于,研究团队确保了反馈的质量几乎是完美的。老师AI不仅知道正确答案,还掌握着详细的解题步骤,这就相当于给学生配备了一位全知全能的导师。在理想情况下,如果学生能够完全吸收和应用这些高质量的指导,他们应该能够解决所有原本不会的问题。

为了更全面地评估反馈的影响,研究团队设计了三种不同级别的反馈机制。第一种是最基础的二元反馈,只是简单地告诉学生"答案错了",就像老师只在作业上打个叉号。第二种是自我反思式反馈,让学生AI自己分析错误原因,相当于让学生进行自我检讨。第三种是由更强大的外部AI模型提供的详细反馈,这就像请来了经验丰富的特级教师为学生进行一对一指导。

二、测试领域:从数学到常识的全方位挑战

研究团队选择了九个不同类型的任务来测试AI的反馈吸收能力,这些任务就像不同科目的考试,全方位检验AI的学习能力。这些测试领域包括高难度的数学竞赛题目、科学推理问题、知识性问答、多领域综合评估,以及专门设计的算术任务。

在数学推理方面,研究团队使用了AIME 2024竞赛题目和MATH-500数据集。AIME是美国顶尖的高中数学竞赛,题目极具挑战性,即使是数学天才也需要深思熟虑才能解答。MATH-500则包含了各种类型的数学问题,从代数到几何,从概率到数论,覆盖面相当广泛。

知识推理能力的测试采用了TriviaQA和PopQA两个数据集。这些题目就像《一站到底》节目中的知识问答,涵盖历史、地理、文学、科学等各个领域。AI需要从庞大的知识库中提取正确信息并给出准确答案。

科学推理能力的评估使用了GPQA数据集,这是一个专门为研究生水平设计的科学问题集合。这些问题不仅要求AI掌握深厚的科学知识,还需要具备复杂的逻辑推理能力,就像博士生答辩时面临的那些深度问题。

多领域综合评估则采用了著名的MMLU和MMLU Pro数据集。MMLU涵盖了从人文学科到自然科学的57个不同领域,被誉为AI能力的"高考"。MMLU Pro是其升级版本,难度更高,对AI的综合能力提出了更严苛的要求。

特别值得一提的是,研究团队还设计了两个合成的算术任务:五位数乘法和十六进制五位数乘法。这些任务的巧妙之处在于,它们排除了语义理解的干扰,纯粹考验AI的计算能力和反馈吸收能力。十六进制乘法更是一个"反事实"任务,因为它使用了与常规不同的计算规则,对AI来说是一个全新的挑战。

研究团队测试了当前最先进的AI模型,包括LLaMA-3.3 70B、LLaMA-4-Scout、LLaMA-4-Maverick、Claude 3.7以及具有扩展思维能力的Claude 3.7。这些模型代表了当前AI技术的最高水平,就像邀请了各个学校的尖子生来参加同一场考试。

三、令人意外的发现:AI的"顽固"表现

实验结果让研究团队感到既意外又困惑。即使在接受了高质量反馈的情况下,所有测试的AI模型都表现出了明显的"反馈摩擦"现象。这就像是给学生配备了最好的老师和最详细的指导,但学生仍然无法达到应有的成绩水平。

以AIME数学竞赛为例,Claude 3.7 Thinking模型在初始尝试时的准确率约为50%,这已经是相当不错的表现。经过十轮反馈和改进后,准确率提升到了约75%。乍看之下,这似乎是一个令人鼓舞的进步。然而,研究团队计算发现,如果模型能够完全吸收和应用所提供的高质量反馈,理论上它应该能够达到接近100%的准确率。这意味着即使是表现最好的模型,也只实现了其潜在能力的四分之三左右。

在知识问答任务TriviaQA上,情况同样如此。各个模型在接受反馈后都有了显著提升,但仍然远未达到理论上的性能上限。这种现象在所有测试任务中都普遍存在,表明"反馈摩擦"是一个系统性的问题,而不是某个特定任务或模型的局限性。

更令人意外的是,即使是反馈质量的提升也无法完全解决这个问题。当研究团队从简单的"答案错误"提示升级到详细的错误分析和改正建议时,AI的表现确实有了改善,但仍然无法突破那道看不见的性能天花板。这就像是无论多么优秀的老师,都无法让学生在短时间内完全掌握所有知识点。

在合成算术任务上,这种现象更加明显。对于标准的五位数乘法,Claude模型能够在多轮反馈后达到接近完美的表现。然而,面对十六进制乘法这种"反事实"任务时,所有模型的表现都极其糟糕,即使经过十轮反馈,准确率也无法超过20%。这暴露了AI在面对新规则或非常规任务时的严重局限性。

四、深入分析:是什么阻碍了AI的学习?

为了理解这种"反馈摩擦"现象的根本原因,研究团队进行了详细的错误分析。他们邀请更强大的AI模型(o4-mini)作为"评判员",对那些经过多轮反馈仍然无法解决的问题进行分类分析。

分析结果显示,在持续存在的错误中,绝大多数(62.8%到100%)属于"反馈抗拒"类型。这意味着AI并不是因为接收到了错误的指导,也不是因为问题本身过于复杂,而是由于某种内在的机制,使得它们无法有效地整合和应用外部反馈。这就像是学生明明听懂了老师的讲解,却在实际操作中依然重复同样的错误。

相比之下,"反馈质量问题"只占了很小的比例。这个发现特别重要,因为它表明问题的根源不在于指导的质量,而在于AI接受和应用指导的能力。这推翻了人们普遍认为的"只要提供更好的反馈就能解决问题"的观点。

研究团队还尝试了多种策略来缓解这种反馈摩擦。他们使用了逐渐增加随机性的采样策略,就像鼓励学生尝试不同的解题思路。他们还实施了"拒绝采样"技术,强制AI避开之前尝试过的错误答案,相当于禁止学生重复犯同样的错误。

这些策略确实带来了一定的改善。逐渐增加的随机性帮助AI探索了更多可能的解决方案,而拒绝采样则有效地避免了AI陷入错误答案的循环。然而,即使是这些精心设计的干预措施,也无法完全消除反馈摩擦现象。AI的表现虽有提升,但仍然达不到理论上的最佳水平。

五、寻找根本原因:排除了哪些可能性?

研究团队像侦探一样,系统性地调查了可能导致反馈摩擦的各种因素。他们首先检查了AI的"自信心"是否会影响其接受反馈的能力。就像过分自信的学生可能对老师的建议充耳不闻一样,研究团队想知道AI是否也存在类似的问题。

他们测量了AI在给出初始答案时的置信度,然后观察这种置信度与最终改进效果之间的关系。令人意外的是,分析结果显示两者之间没有明显的相关性。那些对自己答案非常"自信"的AI,在接受反馈后的改进程度与那些"不太确定"的AI相差无几。这表明过度自信并不是反馈摩擦的主要原因。

接下来,研究团队调查了数据熟悉度的影响。他们想知道AI是否会对那些在训练过程中经常见到的内容表现出更强的"固执"。为了验证这一点,他们使用了PopQA数据集,该数据集包含了不同知识实体的流行度信息,可以作为训练数据频次的代理指标。

分析结果再次让人意外:知识实体的流行度与AI的反馈接受能力之间没有显著的相关性。无论是对那些在维基百科上查看次数很多的知名人物,还是对那些相对冷门的实体,AI表现出的反馈摩擦程度都差不多。这意味着"见多识广"并不会让AI变得更加顽固。

研究团队还探讨了推理复杂度是否会影响反馈效果。他们比较了需要多步推理的复杂问题和相对简单的问题,看看AI在面对不同难度的任务时是否表现出不同程度的反馈摩擦。结果显示,问题的复杂程度与反馈摩擦之间的关系并不明显,这进一步加深了这个现象的神秘色彩。

更有趣的是,研究团队发现不同的AI模型往往在不同的问题上表现出顽固性。也就是说,问题A可能难倒模型甲,但模型乙却能够通过反馈成功解决;而问题B可能让模型乙束手无策,模型甲却能应对自如。这种现象表明,反馈摩擦不是由某些"普遍困难"的问题引起的,而是与每个模型的特定特征和局限性相关。

六、技术细节:构建完美反馈的艺术

为了确保实验的公正性和可靠性,研究团队在技术实现上投入了大量心血。他们精心设计了反馈生成系统,确保AI"老师"能够提供高质量的指导,同时避免直接泄露答案。

在反馈生成过程中,系统会自动检测并屏蔽那些可能直接暴露正确答案的信息。这就像是给学生提供解题思路和方法指导,但不直接告诉他们最终答案。对于数学问题,系统会用"[遮蔽]"来替换独立出现的数值答案;对于知识问答,系统会屏蔽那些与正确答案完全匹配的词汇。

这种精细的信息过滤确保了实验的公平性。AI必须真正理解和应用反馈中的指导思想,而不是简单地复制答案。这就像是要求学生展示解题过程,而不只是写出最终结果。

在模型选择方面,研究团队使用了当前最先进的商业AI模型。对于LLaMA系列模型,他们采用了零温度设置以确保结果的可重现性;对于Claude模型,他们通过官方API进行访问。特别值得注意的是,Claude 3.7 Thinking是一个具有扩展推理能力的特殊版本,它在给出最终答案前会进行更深入的思考,类似于让学生在答题前先进行充分的思考和规划。

为了生成高质量的反馈,研究团队选择了GPT-4.1 mini作为主要的反馈生成模型。经过内部测试,这个模型的反馈质量与Claude 3.7相当,但成本更低,因此被选为主要的"AI老师"。研究团队还考虑过使用o4-mini,但发现它虽然推理能力更强,但成本显著更高,且反馈质量提升有限。

在评估方面,研究团队采用了多种策略来确保结果的准确性。对于大多数任务,他们使用了标准的评估指标和现有的评估框架。对于PopQA这样的开放式问答任务,由于标准答案的表述可能存在多样性,他们采用了"AI裁判"的方法,使用另一个AI模型来判断答案的正确性,避免因为表述差异而误判AI的真实能力。

七、未来展望:突破反馈摩擦的可能路径

尽管当前的研究揭示了AI在反馈吸收方面的重要局限性,但研究团队也为未来的改进指明了方向。他们认为,要真正解决反馈摩擦问题,可能需要从AI的训练阶段就开始着手。

一个可能的方向是通过监督学习或强化学习的方法,专门训练AI更好地接受和应用外部反馈。这就像是从小就培养孩子虚心接受建议的品格,而不是等到他们长大后再进行纠正。这种方法可能包括专门的"反馈吸收训练",让AI在训练过程中就学会如何有效地整合外部指导。

另一个值得探索的方向是改进反馈的生成方式。虽然当前研究中的反馈已经相当高质量,但可能仍有进一步优化的空间。未来的反馈生成系统可能需要更深入地理解AI的认知模式和局限性,从而提供更有针对性的指导。

研究团队也承认,当前研究在一些方面还存在局限性。由于计算资源的约束,他们无法对大型模型进行大规模的微调实验,而这种微调可能是解决反馈摩擦问题的关键。此外,虽然他们排除了几个可能的原因,但反馈摩擦的根本机制仍然没有完全清楚,这需要更深入的机械性解释研究。

从更广阔的视角来看,这项研究揭示了当前AI系统在自我改进方面的一个根本性挑战。在追求更强大、更自主的AI系统的道路上,如何让这些系统更好地接受和利用外部反馈,将是一个关键的技术难题。这不仅关系到AI的性能提升,也关系到人机协作的未来模式。

说到底,这项研究告诉我们一个重要的事实:即使是最先进的AI系统,在学习和改进方面仍然面临着根本性的挑战。就像人类学生一样,AI也有自己的"学习盲区"和"认知固化"现象。理解并克服这些局限性,不仅能够帮助我们构建更优秀的AI系统,也能让我们更好地理解智能本身的本质。这项研究为我们打开了一扇窗户,让我们看到了AI发展道路上的一个重要里程碑,同时也指向了未来需要攻克的关键挑战。对于普通人来说,这意味着我们在与AI合作时,需要更加耐心和策略性,就像与一个有着特殊学习模式的学生打交道一样。

Q&A

Q1:什么是"反馈摩擦"?它为什么重要? A:反馈摩擦是指AI模型即使接收到高质量的外部反馈和指导,也无法完全吸收并达到理论最佳表现的现象。这很重要,因为它揭示了当前AI在自我改进方面的根本局限性,影响了人机协作的效果。

Q2:研究团队是如何确保反馈质量的? A:研究团队给反馈生成的AI提供了完整的正确答案和详细解题过程,同时使用了先进的信息过滤技术,确保反馈包含指导性信息但不直接泄露答案,就像优秀的老师会引导学生思考而不是直接给出答案。

Q3:这项研究对普通人使用AI有什么启示? A:这项研究提醒我们,在与AI互动时需要更加耐心和策略性。AI可能无法完全理解和应用我们的建议,因此需要多次尝试不同的反馈方式,就像教导一个有特殊学习模式的学生一样。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-