微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI聊天机器人不知道自己说完话之后会发生什么——Salesforce研究揭示大模型的"对话盲点"

AI聊天机器人不知道自己说完话之后会发生什么——Salesforce研究揭示大模型的"对话盲点"

2026-04-21 09:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-21 09:35 科技行者

这项研究来自Salesforce人工智能研究院,论文以预印本形式发布于2026年4月,arXiv编号为2604.02315,有兴趣深入了解的读者可以通过该编号查询完整论文。

**当AI只会"答题",却不懂"聊天"**

假设你正在跟一个朋友讨论一道数学题。你把题目说完,朋友给出了解答,然后你们的对话自然地继续——也许你会说"等等,这步我没看懂",或者"好的,那下一道呢"。这是人类对话最基本的节奏:有来有往,彼此回应,顺着上一句话往下走。

现在换成AI。你问它一道数学题,它答对了。然后呢?

Salesforce研究院的团队发现了一件耐人寻味的事:当前最先进的大型语言模型(也就是像ChatGPT这类AI助手背后的核心技术),虽然能在各种考试和测评中拿到接近满分的成绩,但它们根本不知道自己的回答之后,用户会说什么。更准确地说——它们从来没有被测试过这件事。

这个研究团队做了一件很简单、却从没人认真做过的事:让AI模型扮演用户,接着自己刚刚说完的那段话,继续对话。结果发现,绝大多数时候,AI根本不会这样做。它要么重新把原来的问题复读一遍,要么继续以助手身份生成新的答案,要么产生一堆莫名其妙的内部规划文字——就是不会像一个真实的用户那样,针对刚才的回答做出回应。

研究团队把这种现象称为"交互感知"(interaction awareness)的缺失——也就是说,AI模型不知道自己的话对另一端的人意味着什么,也不知道对方听完之后会有什么反应。

这个问题听起来或许有些抽象,但它的影响其实非常具体。当AI被用于多轮对话、自我训练、或者模拟用户来测试其他AI系统时,这个盲点会直接导致系统运转失常。更深层地说,一个不知道自己说话后果的AI,本质上是一个单向的信息输出机器,而不是真正意义上的对话伙伴。

**一、用一个简单的实验,戳穿一个大问题**

研究团队设计的实验框架非常直接,就像一个精心设计的小测验。

整个流程分三步。第一步,给AI模型一个问题——比如一道数学应用题,或者一个需要按照特定格式写作的任务。第二步,让AI用助手身份回答这个问题。第三步,把上面所有的对话内容(原始问题加上AI的回答)放在一起,然后告诉AI:"现在你是用户,接下来你会说什么?"

如果AI真正理解了自己刚才说了什么,它应该能生成一个像真实用户一样的继续——比如追问一个细节,指出答案里的一个问题,或者请AI帮忙解释某个步骤。研究团队把这类反应叫做"真实的后续提问"(genuine follow-up)。

但实际发生的是什么?在最常见的生成设置下(也就是让AI选概率最高的那个词,一步步生成文字),大多数模型的表现几乎让人哭笑不得。以Qwen3.5这个模型家族为例——这是阿里巴巴发布的一系列模型,从最小的0.8B参数版本到最大的397B参数版本——在数学推理任务上,这些模型的正确率从41%一路爬升到96.8%,堪称优秀学生。但当被要求扮演用户继续对话时,其中五个版本产生的真实后续提问率是整整0.0%。没有一条。

这个对比非常刺眼。一个能以96.8%的准确率解数学题的模型,在被问到"你自己刚才说完话,用户接下来会说啥"这个问题时,给出的回答是把原来的题目原封不动地复读一遍。

为了评估"真实后续提问",研究团队开发了一套评判系统,使用另一个AI模型(gpt-5.4-mini)来分析每一条生成的"用户回复",判断它是否真的针对了助手的回答内容,还是只是在敷衍了事。同时,他们也请了五位人类标注者进行盲测验证,最终人机一致性达到了κ=0.726的水平——这是一个统计指标,简单理解就是"AI评判和人类判断的吻合程度相当高"。

**二、任务做得好,不代表对话做得好**

整个研究中最核心的发现,是任务准确率和对话感知能力之间几乎没有关系。

研究团队测试了11个来自不同机构的开源大模型,涵盖了阿里的Qwen3.5系列(从0.8B到397B共8个版本)、OpenAI的gpt-oss系列(20B和120B两个版本),以及智谱AI的GLM-4.7。测试数据集覆盖了五个基准测试:GSM8K(数学推理)、IFEval和IFBench(指令遵从)、以及GPQA主榜和钻石榜(研究生级别的专业知识问答)。

在GPQA钻石榜(一个连很多人类专家都觉得很难的测试集)上,gpt-oss-20b的答题准确率是61%,而Qwen3.5-397B-A17B的准确率高达86.1%。按常理来说,答得更准确的模型应该表现得更全面才对。但在对话感知能力上,gpt-oss-20b在这个数据集上产生了20.7%的真实后续提问率,而准确率几乎是它一倍半的Qwen3.5-397B-A17B,只产生了0.5%的真实后续提问。

这就好比两个学生,一个能解出95%的物理题,另一个只能解出60%,但当物理老师讲完解题过程后,问谁会追问"老师,这里为什么用这个公式?"时,偏偏是那个成绩较差的学生举起了手,成绩好的那个却低着头把题目抄了一遍。

更有趣的是,不同模型在不同任务场景下的表现也各不相同。Qwen3.5-397B-A17B在指令遵从类任务(IFBench)上产生了9.7%的后续提问率,但在专业知识问答(GPQA)上几乎为零。这说明"对话感知"并不是一种统一的、普遍性的能力,而是跟模型的训练背景和数据类型密切相关。

**三、沉睡在模型里的能力:温度越高,越容易被唤醒**

发现任务准确率和对话感知是两回事,只是这个研究的第一层结论。更深的问题是:对话感知能力真的不存在于这些模型中吗?还是说它只是被压制了、藏起来了,等待某个条件把它唤出来?

研究团队通过一个叫做"温度采样"的操作来探索这个问题。

在AI生成文字的机制里,"温度"(temperature)是一个控制随机性的参数。温度为0时,AI每次都选最有把握的那个词,输出是完全确定的、可以复现的;温度越高,AI越倾向于尝试那些概率稍低的选项,输出变得更多样、更随机,有时候能冒出一些平时不会出现的有趣回答。

把温度从0逐渐调高到1.0之后,研究团队观察到了一个显著的变化。

以Qwen3.5-27B模型为例,在数学推理任务上,温度为0时,它产生真实后续提问的概率是0%;当温度升到1.0时,这个比例跳升到了22%。在专业知识问答任务上,这个数字从1.5%飙升到了35.9%。GLM-4.7也展示了类似的规律,在数学任务上从1.0%上升到15.2%,在专业问答上从2.0%上升到35.4%。

这说明,对话感知能力并非完全不存在——它潜伏在模型的"生成空间"里,只是在日常使用的确定性模式下,它被排在了概率更高的"背诵题目"行为之后。就好像一个学生其实会追问老师,但因为班级的规矩是保持安静,所以他平时只是低头记笔记。一旦稍微放松一下规矩(升高温度),他才会举手发问。

然而,gpt-oss家族呈现了截然不同的反应。gpt-oss-120b在数学任务上,哪怕温度升到最高的1.0,真实后续提问率仍然只有0.1%;两个gpt-oss模型在指令遵从任务上,跨所有温度设置都停留在4%以下。这意味着对gpt-oss来说,不是能力被压制了,而是这种能力根本就没有通过训练被建立起来——至少在这些任务类型上是如此。不过有趣的是,gpt-oss-20b在专业知识问答上,温度为1.0时达到了47%的后续提问率,说明它在特定任务类型上确实存在这种能力。

这个发现为"沉睡的能力"和"真正缺失的能力"划出了一条清晰的界限,对后续的训练方向具有很强的指导意义。

**四、模型越大,越聪明,对话能力也越强?不一定**

顺着上面的思路,研究团队把Qwen3.5家族的全部8个版本(从0.8B到397B-A17B)放在一起做了详细比较,想看看在同一个模型家族内部,参数量(也就是模型的"体型"大小)是否能预测对话感知能力。

答案是:不能。

在任务准确率上,模型越大确实越好。数学题正确率从0.8B的41.6%一路爬升到397B的96.8%,GPQA钻石榜从23.6%升到86.1%,表现非常规律。但对话感知能力的变化曲线完全不遵循这个规律。

在温度为0的确定性生成下,8个模型中有5个的真实后续提问率是0.0%。把温度调到最高的1.0之后,397B-A17B在指令遵从任务上达到了43.7%,但紧随其后的9B模型也达到了36%,甚至最小的0.8B模型也达到了27.7%——三者之间的差距远没有它们在任务准确率上的差距那么显著。

更耐人寻味的是两个MoE结构的模型(35B-A3B和122B-A10B,这类模型在运行时只激活部分参数,有点像一个专家团队每次只派几个人出来工作)——它们在对话感知能力上,持续落后于同等规模甚至更小的普通模型。

而在GPQA钻石榜上,27B模型在温度1.0时达到了35.9%的后续提问率,反而超过了比它大得多的397B模型(12.1%)。这种非单调、依赖数据集的分布规律,说明对话感知能力是由训练配方(训练数据的构成、优化目标的设定)决定的,而不单纯由模型规模决定。

研究团队还在论文中放了一个生动的对比案例:同一道GPQA化学题,Qwen3.5-9B和Qwen3.5-27B都给出了正确答案(选项D)。但在被要求扮演用户继续对话时,9B模型生成了一段颇具洞察力的追问——它注意到助手在计算过程中用到了一个化学试剂的名称,然后质疑说"在上一题中,你判断这个试剂是Corey-Chaykovsky试剂,但题目里说反应是在DMSO溶剂中高温进行的,能否重新评估一下这个试剂的名称"——这是一个真实、有深度的化学讨论。而比它大三倍的27B模型做了什么?把原始问题从头到尾重新复述了一遍。

**五、扰动实验:证明这个测量方法测的是真东西**

批评者可能会问:研究团队用来测量"真实后续提问"的这套评分方法,真的测出了有意义的东西吗?会不会只是在测量一些表面的文本特征,而不是真正的对话理解能力?

为了回应这个质疑,研究团队设计了两个"扰动实验"——也就是人为地改变助手回答的内容,看看模型的行为是否会随之改变,从而验证测量结果是否反映了模型对助手回答内容的真实感知。

第一个扰动叫做"截断"(Truncation):把助手的回答故意切掉最后一部分,让它变得不完整。如果一个模型真的在关注助手说了什么,那么看到一个戛然而止的回答,它应该更倾向于生成"请把答案说完"或"这里没有结束吧"这样的后续提问,而不是继续复读原来的问题。

实验结果完全符合这个预期——对部分模型而言。GLM-4.7在数学任务上,截断后的真实后续提问率从1.0%跳到了55.0%;gpt-oss-120b从0.0%跳到了24.2%。这说明这两个模型确实在"看"助手说了什么,只是平时不愿意(或者不习惯)基于此生成用户回复。而Qwen3.5系列呢?几乎没有任何变化。这进一步证实了之前的发现:Qwen的主要问题不是不会生成后续提问,而是根本就没在看助手回答——它的默认行为就是复读原问题,不管助手说了什么。

第二个扰动叫做"追加问句"(Explicit Question):在助手的回答末尾附加一句通用的问句,比如"你觉得呢?"或者"有什么问题吗?"。这种操作相当于给对话加了一个明显的"接球信号",测试模型是否会因此产生不同的回应。

这次,gpt-oss-120b的反应最为强烈:真实后续提问率从1.3%飙升到25.7%,而且99.0%的生成文字都发生了改变(说明它确实注意到了这个新增的问句)。GLM-4.7改变了99%的文字,但真实后续提问率几乎没有上升——它在文字上做出了反应,但反应的方式不是生成真实的用户追问,而是产生了其他类型的输出。Qwen3.5-27B只有6.3%的文字发生了改变,几乎完全忽略了这个信号。

两个扰动实验合在一起,画出了三个模型家族各自不同的"对话感知地图":gpt-oss关注助手的内容,但默认不把这种关注转化为用户回复;GLM关注了,但转化方式不对;Qwen根本没在看。

**六、能训练出来吗?初步实验给出了肯定答案**

发现了问题,自然要问:能不能通过训练来修复?

研究团队选用了Qwen3.5-2B这个小模型作为实验对象,应用了一套叫做CollabLLM的训练方案。这套方案的核心思路是:让模型在多轮对话中扮演助手,通过预测未来的对话走向来优化当前的回答质量——换句话说,它让模型学会"往后想一步"。训练数据来自200道高难度数学题,扩展成了大约5000条多轮对话(每条约5轮),每条对话都包含了用户的追问和反馈。

关键在于:这套训练方案的优化目标完全是助手回答的质量,从来没有明确训练模型去生成用户回复。所以如果训练之后,模型在"用户回复生成"这个任务上也有了改善,那一定是因为学习多轮协作这件事本身带来了间接的副作用。

实验结果给出了明确的信号。研究团队训练了两个变体:一个是标准的监督微调(SFT),直接让模型模仿训练数据中的助手回复;另一个是在线强化学习(RL),让模型通过试错来优化对话奖励。

SFT的效果非常显著:在指令遵从任务(IFBench)上,真实后续提问率从1.0%飙升到48.0%;在专业知识问答(GPQA钻石榜)上,从2.0%升到了46.0%;在两个未参与训练的"留存数据集"(HealthBench和Coval)上,分别从36.7%升到54.4%,从19.4%升到45.2%——这说明效果不是死记硬背,而是真的发生了迁移。代价是数学任务准确率从62.9%下降到了40.3%,大概是因为5000条多轮对话数据让模型在某种程度上"遗忘"了原来的数学能力。

RL版本则找到了更好的平衡点:数学准确率不仅没有下降,反而从62.9%升到了67.4%,同时在所有数据集上的后续提问率也都有所提升,虽然幅度不如SFT那么大。

这个初步实验虽然规模有限,但传递了一个重要信息:对话感知能力是可以通过针对性训练来提升的,而且这种提升能够泛化到训练数据之外的任务场景。

**七、失败模式各不相同:三个家族,三种"犯错方式"**

除了整体的统计规律,研究团队还对每一条生成的"用户回复"进行了细粒度的分类,试图搞清楚模型失败的具体方式。评判系统会给每条生成内容贴上八种标签之一:真实的后续提问、复读原问题、复读助手回答、元规划文字(就是那种"接下来我需要考虑..."的内部自言自语)、变形输出(格式错乱或无法理解的内容)、继续出新题目、简短废话,以及其他。

三个模型家族表现出了截然不同的失败模式,像是三个学生以完全不同的方式搞砸了同一道题。

Qwen3.5家族最主要的失败方式是"复读原问题",占所有生成内容的78.5%。最典型的场景是:助手刚刚一步一步解完了一道数学题,给出了正确答案,然后切换到用户角色之后,模型输出了原题的完整复述,一字不差。某些中等规模的Qwen模型(比如27B和35B-A3B)在数学任务上达到了100%的复读率。这种行为模式说明Qwen根本没有把助手的回答纳入自己的"注意范围",对话上下文对它的决策几乎没有影响。

gpt-oss家族的主要失败方式则截然不同——"复读助手回答",占比高达70.2%。也就是说,当被要求扮演用户时,gpt-oss会把助手刚才说的那段话用用户的口吻重新复述一遍,甚至有时候会附带内部的验证性推理文字,标有`<|channel|>analysis`这样的特殊标记。这是一种"身份漂移"的失败——模型认知上仍然停留在助手的角色里,切换角色的指令没有真正生效。

GLM-4.7最主要的失败方式是"元规划",占比43.0%。它会在用户角色下生成类似于"好的,我来分析一下这个问题的结构:首先我需要考虑……然后……"这样的文字。这说明GLM确实注意到了角色的切换(不像Qwen那样直接无视),但它把"成为用户"理解成了继续用助手的方式思考和规划,而不是真正进入一个用户的视角,针对助手的回答做出真实的反应。

这三种不同的失败模式有一个共同的含义:对话感知能力的缺失不是一个统一的、单一原因的问题,而是由各个模型的训练数据构成和优化目标塑造出来的各不相同的行为习惯。这也意味着,修复这些问题需要针对不同的失败模式采取不同的策略。

**说到底,AI在说话之后发生了什么,它根本不在乎**

归根结底,这项研究讲的是一个看似技术性、实则非常基本的问题:一个语言模型,在说完一段话之后,它知不知道对方接下来会怎么反应?

测试结果表明,在大多数情况下,答案是否定的——至少在默认的使用方式下是这样。即便是那些在各种考试中几乎无懈可击的顶级模型,当被要求"假如你是用户,你下一句会说什么"时,它们给出的答案往往是把原来的问题重新说一遍,或者继续以助手的身份输出新的内容,而不是真正站在用户的角度,针对刚才收到的回答做出反馈。

这个发现对AI的实际应用有几个层面的影响。在多智能体系统(也就是多个AI互相对话、协作完成任务的场景)中,如果AI不知道自己的话会带来什么样的反应,它就无法扮演一个真实的对话参与者,整个协作过程会退化成一堆AI各说各的。在自我对话训练(让模型通过与自己聊天来提升能力)中,如果模型不能生成真实的用户追问,训练数据的质量会大打折扣。在日常对话助手的应用中,这意味着模型对对话的走向缺乏预见性,它给出的回答可能在内容上正确,但在对话节奏和互动逻辑上是断裂的。

更有意思的是,这项研究发现,用更大的模型并不能解决这个问题——至少在当前的训练方式下不行。交互感知能力不随模型规模单调增长,它与答题准确率几乎没有关联,它更像是一种单独的、由训练数据和训练目标决定的习惯。好消息是,初步实验表明,通过专门设计多轮协作训练,这种能力是可以被显著提升的,而且效果能够泛化到未参与训练的新场景。

这项来自Salesforce研究院的工作,相当于用一个极其简洁的实验,戳开了当前AI评测体系的一个盲区。如果对这个话题感兴趣,可以通过arXiv编号2604.02315找到完整论文,里面有详细的实验数据、失败案例样本,以及对各种替代解释的讨论。

---

Q&A

Q1:什么是大语言模型的"交互感知能力",为什么重要?

A:交互感知能力指的是AI模型在给出一段回答之后,能否理解用户接下来可能会做出什么反应——比如追问、指出问题或者请求补充。这种能力对于多轮对话、AI与AI协作以及自我训练等场景至关重要。如果AI不知道自己的话会带来什么后果,它在对话中就只是单向输出信息,而不是真正的互动参与者。

Q2:为什么模型规模越大,对话感知能力不一定越强?

A:因为对话感知能力不是通用智能的自然延伸,而是由训练数据的构成和优化目标决定的。当前大多数模型的后训练过程主要优化"给出正确的当前回答",而不是"预测并回应用户的反应"。规模更大的模型在这个方向上并没有得到更多训练,所以其对话感知能力并不比小模型更强,有时甚至更弱。

Q3:用温度采样能提升大语言模型的后续追问生成能力吗?

A:对部分模型有效,但不是对所有模型都管用。对于Qwen3.5和GLM系列,提高生成温度确实能显著提升真实后续提问的比例,说明这些模型的对话感知能力是潜伏的,只是在默认设置下被压制了。但对gpt-oss系列来说,在数学和指令遵从任务上,无论温度调多高,后续追问率都几乎没有提升,说明这些模型在这类任务上可能根本就没有建立起相应的能力。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-