
这项由约翰斯·霍普金斯大学、麻省理工学院和谷歌研究院联合开展的研究,以预印本形式于2026年5月19日发布在arXiv平台,编号为arXiv:2605.20087。研究的核心成果是一个名为ThoughtTrace的数据集,它试图回答一个所有经常使用AI助手的人都隐隐感受到的问题:为什么AI总是没法真正"懂"你?
回想一下你上次和AI聊天的经历。你打出一个问题,AI洋洋洒洒给了你一大篇回答,内容好像没错,但就是感觉哪里不对——太啰嗦、太泛泛、或者完全忽略了你真正想要的东西。你可能在心里默默想:"我不是要这个意思啊……"但你没说出来,只是默默地修改了下一条消息。问题在于,AI永远不知道你心里那句没说出口的话。
研究团队的出发点正是这个几乎所有人都经历过却从未被系统研究的现象。现有的AI对话数据集只记录了对话的"表面"——你发了什么消息,AI回了什么内容,但没有人记录你当时心里在想什么、为什么要这么问、以及看到AI回复后你内心真实的感受。这就好比你有一份完整的两人通话录音,却完全不知道每个人说话时心里的想法——对话记录在那里,但那个驱动对话的"内心戏"永远缺席。
ThoughtTrace数据集正是要填补这个空白。研究团队招募了1058名真实用户,让他们在与AI聊天的同时,把自己的"心里话"也记录下来。最终,这个数据集涵盖了2155段对话、17058轮交互,以及总共10174条"心理注释"——这些注释跨越了20个不同的语言模型。
一、为什么人类说话总是"话到嘴边留三分"
要理解这项研究的价值,先得明白一个有趣的人类语言规律:人们在说话的时候,脑子里想的往往比嘴里说的要多得多。语言学上有个概念叫"最小努力原则",说的是人类天生倾向于用最少的语言表达尽量多的意思——换句话说,我们是懒惰的说话者,能省则省。
以论文中给出的那个旅行例子为例。一个用户输入:"我四月要飞去巴西参加一个会议,需要准备什么?"这条消息看起来是个普通的旅行询问,但他心里真正的想法是:"我不是个有丰富国际旅行经验的人,我很担心会漏掉什么重要的东西。"这个焦虑和担忧,完全没有体现在那条简短的问题里。
AI于是给出了一个标准的旅行清单:护照、签证、机票、酒店预订、换汇、适合天气的衣物……用户看到这个回复后,心里的真实反应是:"这个回答有点帮助,但感觉太通用了,也太杂乱了。而且完全没考虑到这是为了参加会议。"——但他也没有把这句话说出来。他只是发出了一条新消息:"你能做一个清单吗?分成出发前要做的事、需要带什么、和落地后要做的事。"
这个例子生动地展示了那个"内心戏"的层次。用户在问旅行准备,但他其实是个焦虑的初次国际旅行者;他对AI回复不满意,但没有直说,而是通过一个新的请求把不满"操作化"了。如果AI能知道这两层没说出口的意思,它给出的回答会完全不同——会更针对初次旅行者的焦虑,更聚焦于会议出行的特定需求。
研究团队把这种"没说出口的心里话"称为"思维"(thoughts),并将其细分为两类。一类是"理由",即用户为什么要发送某条消息的动机——这包含了任务动机、背景约束、对内容的期望、对风格的期望等。另一类是"反应",即用户看到AI回复之后内心的真实感受——包括满意、不满意、觉得内容不相关、觉得格式太糟糕等。研究者在每一轮对话中都同时收集这两种思维,因为它们共同驱动着对话的走向。
二、这份"心里话档案"是怎么收集来的
研究团队的数据收集方式颇为精心。他们通过Prolific这个研究招募平台找到参与者,把他们引导到一个专门设计的聊天界面。在用这个界面与AI对话的同时,用户会看到两种特殊按钮:发完消息后,他们可以点击一个绿色的"添加理由"按钮,写下自己发这条消息的内心动机;看完AI回复后,可以点击一个黄色的"添加反应"按钮,写下对这条回复的内心感受。这些注释对AI完全不可见,只有研究者能看到。
整个参与过程分为四个步骤,设计得相当严谨。首先,参与者需要阅读并同意知情同意书,确认自己是自愿参与、信息匿名、可以随时退出。接着,他们需要完成一个教程,学会如何使用聊天界面和思维注释功能,并通过一个小测验才能继续——这确保每个人都真正理解了任务要求。然后进入正式环节:每位参与者需要在10分钟内完成两个自定义的日常任务,每个任务可以涉及多段对话,用户可以随时开启新对话或结束任务,完全模拟真实的AI使用场景。最后,每个任务结束后,参与者需要填写一个简短问卷,说明自己完成了什么任务、对AI有什么期望;全部任务结束后,还有一个人口统计学问卷,收集年龄、性别、教育程度、职业、使用AI的频率和主要用途等信息。
参与者的背景相当多样。年龄跨越18岁到65岁以上,涵盖了从高中生到研究生的各种教育程度,职业包括学生、自由职业者、教师、工程师、医生、IT从业者等,使用AI的频率从"从不使用"到"每天多次"都有分布,主要用途则涵盖学习、工作、头脑风暴、研究、编程、规划、写作和翻译等多个方面。整体分布偏向18到34岁、受过大学以上教育的群体,这与现实中频繁使用生成式AI的人群画像基本吻合。
每位参与者被随机分配到20个不同语言模型中的一个,包括当时最先进的前沿模型如GPT-5.4、Gemini 3.1 Pro Preview、Grok 4.20、Claude Opus 4.6,以及一些规模较小的开源模型。参与者不知道自己在和哪个模型对话,这确保了他们的行为是自然的,而不是被模型名气所左右。所有模型都以0.7的温度(一个控制回复多样性的参数)运行,对于有"思考模式"的模型,研究者只向用户展示最终回复,而不暴露模型内部的推理过程。
三、这些对话有什么特别之处
ThoughtTrace数据集的对话,和市面上已有的那些AI对话数据集相比,有几个非常显著的特点。
从对话长度来看,ThoughtTrace的对话明显更深入。现有的两个最大的公开AI对话数据集——WildChat(包含100万条ChatGPT交互记录)和LMSYS-Chat-1M——里的对话严重偏向"一问一答"的短对话,超过60%和67%的对话只有2轮交互。而ThoughtTrace的对话轮数分布更均衡,集中在6到8轮,中位数是8轮。这意味着ThoughtTrace里的用户不是随手问了一句就走,而是真正在用AI解决实际问题,反复深入地探讨一个任务。这种多轮深度对话才是现实世界中AI使用的主流趋势——人们用AI辅助写代码、做研究规划、处理复杂问题,绝不是简单的"一问一答"。从总字数来看也是如此:WildChat的对话将近60%不超过1000个词,而ThoughtTrace的对话大多分布在2000到5000词的范围,长对话比例明显更高。
从话题覆盖来看,ThoughtTrace的内容相当多元,没有任何一个话题过度主导。研究团队把所有对话归类进7个大类和36个细分话题。文化与生活方式是最大的类别,占37.1%,里面包括旅行(9%)、生活方式(8.9%)、餐饮(8.4%)等具体话题。教育与知识占19.1%,商业与社会占14.8%,健康与人际关系占14.5%,技术占6.6%,艺术与娱乐占4.9%,其他话题占3.1%。这种宽广而均衡的话题分布,说明ThoughtTrace反映的是人们在日常生活中真实使用AI的多种场景,而不是某个特定用途的数据。
从对话结构来看,ThoughtTrace揭示了一个有趣的规律:用户在多轮对话中,最常见的行为是"延伸和深化"当前任务,而不是开启一个全新的话题。研究团队对每条用户消息都标注了与前一条消息的关系类型。在所有用户消息里,25.2%是对话的"第一条请求",12.5%是"全新请求"(完全跳到另一个话题),2.9%是"重新尝试"(对之前失败的请求重新提问),2.3%是"变体"(同一任务的不同角度),而57%是"延伸、深化或建立在之前任务基础上"。更有意思的是,随着对话推进,延伸型消息的比例会越来越高,而新话题请求的比例会越来越低。这说明当用户真正在解决一个复杂问题时,他们会在这个问题上持续深入,而不是频繁跳跃。
四、"心里话"和"说出口的话"到底有多不同
研究团队用两种方式来量化"心里想的"和"嘴里说的"之间的差距,结论是:两者之间的鸿沟比你以为的要深得多。
第一种方式是看文本的语义距离。研究者把每条消息和相关文本转化为"语义向量"——可以理解为一种把文字含义转化成坐标的技术,距离越近说明意思越相似。他们比较了三组配对:相邻两条用户消息之间的距离、一条用户消息和它对应的"理由"之间的距离,以及用户对AI回复的"反应"与用户的下一条消息之间的距离。结果相当明显:相邻两条用户消息在语义上相当接近(中位距离1.96),反映了对话的自然连贯性。一条用户消息与其内心"理由"的距离则大得多(中位距离3.71),说明即便是解释自己为什么要问这个问题,也会引入大量消息里没有的新信息。而用户对AI回复的内心"反应"与下一条用户消息之间的距离最大(中位距离6.62),说明用户在心里产生了一个评价,但这个评价只有很小一部分被转化进了下一条消息——大部分感受都"消失"了,根本没有被说出来。
第二种方式是用AI来当"阅卷老师",直接打分:这条用户消息,到底能覆盖多少内心"理由"的信息?答案用1到5分表示,1分代表完全没覆盖,5分代表完全覆盖。结果:一条用户消息对于其内心"理由"的平均覆盖得分只有3.22分——只是"部分覆盖,且没有触及思维的核心"。更糟糕的是,一条用户消息对于其内心"反应"的覆盖得分只有2分,属于"几乎没有覆盖"。换句话说,用户对AI回复的内心感受,绝大部分都没有被后续的消息所表达出来。
这两组数据合在一起,传达了一个清晰的信息:用户的"心里话"不是"说出口的话"的简单重复或概括,而是包含了大量全新的、具有实质性价值的信息——这些信息静静地留在用户的脑子里,从未进入对话,也因此永远无法帮助AI给出更好的回答。
五、连最聪明的AI也猜不出你在想什么
既然知道用户的思维和消息之间有很大差距,一个自然的问题就是:那聪明的AI模型,能不能通过分析对话上下文,"猜"出用户没说出口的想法呢?研究团队专门做了这个测试。
他们用三个当时最先进的AI模型——GPT-5.4、Gemini 3.1 Pro Preview和Claude Opus 4.6——来做这件事。具体来说,让这些模型在看过完整对话上下文之后,预测用户发送某条消息的"理由",或者预测用户看到某条AI回复之后的"反应"。然后用另一个AI来当裁判,把模型预测的内容与用户真实写下的心理注释做比较,打1到5分。
结果令人印象深刻地不理想。三个模型预测"理由"的平均相似度只有2.93分(GPT-5.4是2.83,Gemini是3.02,Claude Opus是2.94),落在"几乎没有关联"到"部分关联"之间。预测"反应"就更差了,平均只有2.54分(GPT-5.4是2.36,Gemini是2.87,Claude Opus是2.40)。
研究者总结了这些模型失败的两种典型模式,读起来既有趣又令人深思。在预测"理由"时,模型往往只抓住了消息里最表面的词汇,而错过了用户真正的动机。比如有个用户问了一个关于骑摩托车的问题,然后问"必须要有骑手执照吗"。模型猜测用户的理由是"想了解执照考试要考什么内容",但用户真实的内心想法其实是"我担心没有执照骑车会被警察抓,或者发生事故时没有保障"——一个表面上看起来差不多的问题,背后的动机其实完全不同。在预测"反应"时,模型则常常被用户下一条消息的内容带跑偏,把"下一步行动"误解为"当下感受"。比如一个用户收到了一份非常详细的健身计划,内心其实是"哇,这个回答真的很详细,把宏量营养素都列出来了,很棒",但下一条消息里他顺口提了一下"我家没有微波炉",想让AI给出不需要微波炉的替代方案。模型看到这条消息,就猜测用户的反应是"对这个计划不满意,因为需要用微波炉"——完全搞反了,用户明明是满意的,只是在追加一个具体限制条件。
这些失败案例说明,思维是被对话的表面文字"欠定"的——同一段对话,可以有许多种完全不同的合理解读,而正确的那种往往取决于用户的个人背景、处境和感受,而这些是AI模型永远无法从文字里推断出来的。
六、"心里话"有哪些种类,它们会怎么变化
通过对10174条心理注释的系统分析,研究团队发现用户的"心里话"呈现出明显的多样性,并且会随着对话进程发生规律性的变化。
在"理由"方面,研究者把用户发消息的动机分成了七类。最多见的是"任务动机与目标",占36.9%,也就是用户在解释自己为什么要开始这段对话、想达到什么实际目的。比如"我正在准备USMLE考试,需要一个学习计划"——这是驱动整个对话的核心动机。排第二的是"任务延续",占21.4%,指用户在已有任务的基础上继续深入,比如"尝试总结前面的内容"或"继续完善上一条回复"。"背景与约束"占13.1%,指用户提供了一些影响解决方案的个人情境,比如"我之前也有过类似的情况"。"内容期望"占11.5%,指用户在说他期望回复达到什么样的内容深度或类型,比如"我希望AI能给出一个相对通用的模板,让我自己改改就能用"。"风格期望"占11.1%,指用户在说他希望回复的格式、语气或组织方式,比如"我不想看太长的内容"或"希望答案更个性化"。"任务重定向"占5%,指用户改变了目标,比如"换个方向问吧"。"社交与其他"占1%,主要是打招呼、道谢或元评论等非任务性交流。
在"反应"方面,最主导的类别是"明确肯定",占72.2%,这是用户直接表达满意、认可或感谢的反应,比如"非常感谢,这条回复真的很有帮助"。不过值得注意的是,剩下近28%的反应都包含了某种形式的不满——其中"内容相关性"问题是最常见的不满来源,占11.9%,指用户觉得回复遗漏了重要信息或包含了不相关内容;"呈现风格"不满占6.4%,指用户觉得措辞、语气、结构或整体呈现方式有问题;"范围与篇幅"不满占6.1%,指用户觉得回复太长、太详细、或者覆盖面太宽;"部分满意"占3.4%,指用户觉得回复有帮助但也有不足之处。
从动态变化来看,思维的类型会随着对话进程发生相当规律的演变。在对话早期,"任务动机与目标"占主导地位(约57%),这是用户在设定目标、建立背景。随着对话进入中期,"任务延续"逐渐成为最主要的驱动力(约36-41%),与此同时"背景与约束"和各种"期望"型理由也开始占据更大比例,说明用户在已有方向的基础上不断精细化自己的需求。在反应方面,"明确肯定"的比例随着对话进展稳步上升,从早期的67%增长到后期的79%,而各种不满反应的比例则相应下降——这暗示随着对话的深入,AI的回复越来越接近用户的期望,用户满意度在逐渐提升。
有一个反直觉的发现值得特别提及:思维的类型与对话话题和对话长度几乎没有关联。也就是说,无论你在聊旅行、烹饪、编程还是人际关系,无论对话是短是长,用户"心里话"的分布规律都大同小异。这说明思维的演变规律是人类在使用AI时一种普遍的认知特征,而不是受具体话题影响的偶然现象。
七、知道用户在想什么,AI能变得多聪明
ThoughtTrace不只是一个描述性的数据集,研究团队还用实验证明了这些"心里话"数据能在实际应用中产生显著效果,主要体现在两个方向上。
第一个方向是用思维数据来预测用户的下一步行动。研究者做了这样一个实验:给三个前沿AI模型(还是GPT-5.4、Gemini 3.1 Pro Preview和Claude Opus 4.6)看一段对话,让它们预测用户的下一条消息会说什么。比较两种条件:一种只给对话历史,另一种在对话历史的基础上额外加入用户已经写下的思维注释。结果非常清晰:加入思维注释之后,三个模型预测的准确度都明显提升,平均语义相似度从21.6分提升到了30.6分,相对提升幅度达到41.7%。这意味着如果AI能知道用户的内心想法,它预测用户下一步会说什么的能力会大幅提升——进而可以更好地提前准备,给出更贴合用户需求的回答。
研究者还通过具体案例展示了这种提升是如何发生的。有一个用户问关于巴黎旅行活动的问题,AI给了一个非常长的5天行程,还附带了很多定制化问题。这位用户心里的反应是"太多信息了,快被淹没了,能不能缩减一下,只给几个选项"——但他下一条消息问的是"你说的前3件最值得做的事是什么,我想要更简洁的回答"。在只知道对话历史的情况下,三个模型都猜测用户会提供出行日期和预算配合AI的问题;但加入了那条反应注释之后,三个模型全都准确地预测到用户会要求"缩减信息、给出简短的精华版"——这正是用户实际说的内容。
另一个案例更微妙。用户在聊焦虑管理,AI一直在不断提问而不是直接给建议,用户的内心反应是"它总是在问我问题",但没有直说。加入这条反应注释后,模型准确预测到用户下一条消息会直接抱怨"你为什么总是问问题而不给解决方案"——而只有对话历史的模型全都猜测用户会继续回答AI的问题。
第二个方向是把思维数据用于改善AI的训练,让AI在生成回复时更能满足用户真实需求。这里涉及一种叫做"直接偏好优化"(DPO)的训练技术,通俗地说就是通过给AI展示"好回复"和"差回复"的对比,让AI学会如何给出更好的回答。研究团队比较了四种训练条件:直接使用基础模型Qwen3.5-4B(一个40亿参数的语言模型)、用WildChat数据集的用户消息引导改写来训练、用ThoughtTrace数据集的用户消息引导改写来训练、以及用ThoughtTrace数据集的用户思维(而非消息)引导改写来训练。
所有模型都在一个叫做Arena-Hard的权威基准测试上评估,这个测试和人类偏好的相关性高达98.6%,是目前最可靠的AI能力评估标准之一。结果:基础模型的胜率只有24.6%;加入WildChat训练后提升到41.8%;加入ThoughtTrace消息引导改写后提升到44%;而加入ThoughtTrace思维引导改写后,胜率进一步提升到47.9%,风格控制后的胜率是48.1%。
这组数字有几个值得细究的地方。首先,相同的ThoughtTrace对话数据,用"用户消息"来引导改写和用"用户思维"来引导改写,效果差了4.5个百分点——说明心理注释里确实包含了用户消息中没有体现的、对改进AI回复有实质帮助的信息。其次,从相同的对话数据里,思维注释能发现1000个"不满意"的实例,而用户消息只能发现450个——思维能捕捉到更多隐性的不满,提供了2.2倍于消息的监督信号。再者,ThoughtTrace的消息引导改写虽然使用了更少的对话(1985段对ThoughtTrace的4669段WildChat),但效果仍然比WildChat好2.1个百分点,说明ThoughtTrace的数据质量本身就更高。
八、这项研究还没解决什么问题
研究者非常坦诚地讨论了ThoughtTrace的局限性,这些局限有些是根本性的,源于思维数据收集本身的固有挑战。
首先是"观测会改变行为"的问题。当用户知道自己需要记录心理注释时,他们的对话行为可能会潜移默化地改变——比如可能会有意识地让自己的想法更清晰、更极端,因为含糊的感受比明确的感受更难写出来。研究团队通过简化界面设计来尽量减少这种干扰,但无法完全消除。因此,数据集里记录的是用户"报告的思维",而不一定是用户"真实发生的思维"——这是所有依赖自我报告的心理学研究都面临的根本性挑战。
其次是意识与潜意识的鸿沟。ThoughtTrace只能捕捉到用户能够意识到并说出来的想法,但人类行为中有相当大一部分是由潜意识过程驱动的——那些瞬间的直觉、无意识的偏好、情绪性的反应——这些根本无法通过语言表达出来,因此永远无法被收集进数据集。ThoughtTrace的注释只是用户有意识推理的一个窗口,而不是完整的认知过程记录。
第三是招募来源带来的选择偏差。参与者是通过Prolific平台主动招募的,而不是从真实使用AI的人群中随机抽取的。这不可避免地引入了一定的选择效应——愿意参加研究、能够完成20分钟任务的人,可能在某些方面与随机的AI用户有系统性差异。尽管研究者的人口统计分析显示参与者画像与真实频繁AI用户基本吻合,但这种偏差在理论上仍然存在。
此外,目前的研究只验证了两种下游应用——预测用户行为和改善模型对齐——距离充分挖掘ThoughtTrace的潜在价值还有很长的路要走。
说到底,ThoughtTrace这项研究做的事情,是在AI对话研究领域开辟了一个全新的维度。过去十几年,人们一直在研究"用户说了什么"和"AI应该怎么回答",但始终忽略了那个关键的中间环节:用户在说话的时候,心里到底在想什么。这就好比有人一直在研究国际象棋的开局棋谱,却从未去研究棋手在下每一步之前脑子里在盘算什么——表面的动作被完美记录了,但驱动那些动作的内部逻辑却始终是个黑箱。
ThoughtTrace打开了这个黑箱的一条缝。它证明了用户的"心里话"包含了大量有价值的信息,这些信息既不能从对话记录里推断出来,也无法被现有最强的AI模型猜中,但如果把这些信息用于训练或推理,AI的表现会明显提升。对于普通用户来说,这项研究的意义可能在未来几年才会显现出来:当AI助手开始真正理解你的动机、感受和未说出口的需求时,那种"AI就是不懂我"的挫败感或许会逐渐消失。当然,这还需要更多的研究和工程实践来将数据转化为真实可用的产品功能。
有兴趣深入了解这项研究的读者,可以通过编号arXiv:2605.20087在arXiv平台上查阅完整论文,论文附带了非常详细的附录,包括数据收集界面截图、完整的提示词模板、所有分析的实现细节,以及大量真实的失败案例分析,读起来相当有趣。
Q&A
Q1:ThoughtTrace数据集中的"思维注释"是什么?
A:ThoughtTrace中的"思维注释"是用户在与AI对话时手动记录的内心想法,分两类:发送消息前写下"为什么发这条消息"的理由,以及看完AI回复后写下内心真实感受的反应。这些注释对AI不可见,只用于研究。整个数据集共收录了10174条这样的心理注释,配合2155段真实对话使用。
Q2:ThoughtTrace和已有AI对话数据集相比有什么不同?
A:已有数据集如WildChat和LMSYS-Chat-1M只记录了对话本身——用户说了什么、AI回了什么——超过60%的对话只有2轮交互。ThoughtTrace的核心区别在于额外收录了用户的心理注释,记录用户没说出口的动机和感受;同时对话更深入,中位轮数是8轮,话题也更加多元均衡,覆盖36个细分领域。
Q3:用户的心理注释真的能帮AI给出更好的回答吗?
A:实验结果显示确实有帮助。在预测用户下一条消息方面,加入心理注释后三个前沿模型的准确度平均提升了41.7%。在模型训练方面,用心理注释引导改写比用消息引导改写在Arena-Hard基准测试上高出4.5个百分点,比基础模型高出约25个百分点。心理注释还能发现比用户消息多2.2倍的"不满意"训练信号。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。