微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Megagon Labs教AI学会像工程师一样"反思"：一套让大模型自动打磨提示词的新方法

大语言模型提示词优化置信度校准

Megagon Labs教AI学会像工程师一样"反思"：一套让大模型自动打磨提示词的新方法

作者：科技行者

2026-06-04 11:45

分享至：

RPT是Megagon Labs提出的提示词自动优化框架，通过诊断失败模式、维护历史记忆、纳入置信度校准，让AI像工程师一样系统地改进自己的"说明书"。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-04 11:45 • 科技行者

这项研究来自Megagon Labs，论文以预印本形式发布于2026年5月20日，收录在arXiv平台，编号为arXiv:2605.21781，分类方向为计算语言学（cs.CL）。研究团队还公开了完整代码，感兴趣的读者可以通过上述编号查阅原文。

---

当你第一次让AI帮你写一封商务邮件，却发现它写出来的东西太正式、太套路，于是你反复修改你的"指令"——多加一句"语气要自然一点"，再加一句"不要用那些烂大街的开头"，一遍遍调整，直到AI的回复终于符合你的期望——这个过程，在人工智能领域有个专门的名字，叫做"提示词工程"（Prompt Engineering）。

这件事听起来简单，实际上却出乎意料地麻烦。哪怕只是换了一个词、调整了一句话的顺序，AI的表现就可能大相径庭。更让人头疼的是，这种反复试错的工作完全依赖人类的经验和耐心，既费时又费力。Megagon Labs的研究团队正是看到了这个痛点，决定让AI自己来完成这件苦差事——这就是他们提出的"反思式提示词调优"（Reflective Prompt Tuning，简称RPT）框架的由来。

---

**一、为什么"写好指令"这么难**

要理解RPT解决的是什么问题，先得弄清楚"提示词"在AI系统里到底扮演什么角色。现在的大型语言模型（比如GPT系列），本质上是非常善于"照着说明书做事"的系统。你给它的说明书越清晰、越有针对性，它完成任务的效果就越好。这份"说明书"，就是提示词。

问题在于，这份说明书的写法极为讲究。AI对措辞的微小变化异常敏感——"请分析这段文字的情感倾向"和"告诉我这段话是正面的还是负面的"，在你看来意思差不多，但AI可能给出截然不同的答案。研究团队把这个现象比作一个挑剔的厨师：同样的食材，因为火候、顺序、调料的细微差异，最终端上桌的菜可能天差地别。

正因如此，业内出现了一批专门研究"如何自动优化提示词"的方法。这些方法大致分两类：一类是直接搜索，像撒网捕鱼一样大量生成候选提示词再筛选；另一类是反馈驱动，让AI看到自己哪里做错了，然后修改说明书。RPT属于后者，但它在这条路上走得比前人更远、更系统。

现有的反馈驱动方法存在三个明显短板。第一，很多方法每次只看几个错误案例，就急着修改提示词，容易"头痛医头，脚痛医脚"，看不到系统性的问题所在。第二，每次优化都是独立进行的，没有"记忆"，不知道上一轮改了什么、哪些问题已经修复、哪些问题改了又回来。第三，评判提示词好坏的标准单一，只看任务完成得对不对，完全忽略了AI对自己答案的"自信程度"是否合理。

---

**二、RPT的核心思路：模拟一个经验丰富的工程师**

RPT的设计理念，可以用一个人人都能理解的场景来描述：一位经验丰富的产品经理在优化一个客服机器人。

这位产品经理不会只看一两条用户投诉就急着改系统。她会先汇总一段时间内所有的失败案例，仔细分析这些案例背后有没有共同规律——比如，用户问退款问题时机器人总是答非所问，或者遇到专业术语就开始胡说。她把这些规律整理成一份诊断报告，然后针对每种问题制定具体的改进方案。改完之后，她不会把旧版本的问题记录扔掉，而是保留下来，以便下次判断改动是否真的有效，还是只是"换汤不换药"。

RPT做的正是这件事，只是把"产品经理"换成了一个扮演优化器角色的大语言模型，把"客服机器人"换成了被优化的目标AI，把"诊断报告"换成了结构化的机器可读反馈。

具体来说，RPT的工作流程分为两个交替进行的阶段。第一阶段是"体检"：优化器AI调用一个专门的"诊断函数"，让目标AI在整个训练数据集上跑一遍，收集所有答错的案例，请另一个批评者AI逐一分析每个错误的原因，然后把成百上千条分散的错误原因归并成几个反复出现的"失败模式"，最终生成一份结构化的诊断报告。第二阶段是"开药方"：优化器AI读完这份报告，结合它存储的历史报告记忆，判断当前提示词在哪些地方需要修改，然后产出下一版提示词。如此循环，直到性能不再提升为止。

---

**三、诊断环节：从零散错误里找出"病根"**

诊断环节是RPT最有特色的设计，值得细细说明。

当目标AI在某道题上答错时，批评者AI会生成一到三条对这个具体错误的诊断——比如"模型把两个问题混在一起回答了"，或者"模型明明算错了，却声称自己很有把握"。这里之所以允许每个错误产生多条诊断，是为了确保覆盖到不同维度的问题，减少因为某一条诊断不够准确而遗漏真正原因的风险。

当所有错误案例的诊断都收集齐了，就会产生一个庞大的诊断"语料库"。这时候，RPT使用了一个叫做ClusterFusion的技术，把这些诊断按照语义相似性归类——本质上就是把"语义相似的抱怨归到同一堆"。比如，"模型在计算利率时忘记了复利"和"模型对折现率的处理有误"这两条诊断，可能会被归入同一个叫做"金融计算方法错误"的类别。

这个聚类步骤的意义在于，它把"某个学生某道题做错了"这样的具体观察，升华成了"这类学生在这类题上普遍存在某种系统性问题"这样的规律性洞察。只有看到了规律，才能对症下药地修改提示词，而不是哪里漏了补哪里。

诊断报告最终会包含三部分内容：当前提示词本身、整体评估指标（比如准确率是多少、置信度校准的Brier分数是多少），以及经过筛选的主要失败模式及其代表性案例。之所以要"筛选"而不是把所有聚类都塞进报告，是为了确保报告聚焦在最突出的问题上，不让优化器被细枝末节淹没——只有占比超过整体诊断池10%的聚类才会被保留。

---

**四、记忆机制：不让同样的问题一犯再犯**

RPT的另一个关键设计是"历史记忆"。

在传统方法里，每一轮优化都是全新开始的。优化器AI只知道"这一轮哪里错了"，不知道"上一轮也有这个问题，而且上上轮针对这个问题做过修改，但改完之后另一个指标反而变差了"。这就好比一个完全失忆的医生，每次出诊都要重新问诊，无法积累经验。

RPT在诊断函数之外维护了一个外部记忆库。每完成一轮诊断和优化，当前轮次的报告就会被追加到记忆库里。下一轮优化开始时，优化器AI可以同时查阅当前报告和所有历史报告，从而判断：这个失败模式是老问题还是新问题？上次针对它的修改有没有效果？某次改动让准确率提升了，但置信度校准却变差了，这次该如何权衡？

这种设计使得RPT能够处理"功劳归因"这个本来非常棘手的问题。在提示词优化中，一次修改可能同时影响多个指标，一个问题可能需要多轮修改才能彻底解决，历史上的某次改动可能埋下了现在才暴露的隐患。有了历史记忆，优化器就能像一个有经验的调试工程师一样，在整条优化轨迹上寻找规律，而不是每次都当作第一次看这个系统。

---

**五、置信度校准：不只追求"答对"，还要追求"知道自己对没对"**

RPT还在传统提示词优化框架里加入了一个很少有人关注的目标：置信度校准。

置信度校准说的是这样一件事：如果AI说"我有90%的把握这个答案是对的"，那实际上它在这类情况下答对的概率真的应该接近90%——既不该信口开河地说90%实际上只对了50%，也不该过于保守地说50%实际上对了90%。一个置信度校准良好的AI，它的自我评估和实际表现是高度一致的。

这件事对现实应用至关重要。当AI被用于医疗诊断辅助、法律文件审核或金融风险评估时，它给出的"置信度"是人类决策者判断是否采信AI建议的重要依据。如果AI总是盲目自信，就可能让人类在错误的地方过度依赖它；如果AI总是过于保守，就会大量制造不必要的人工复核负担。

RPT把置信度校准纳入了两个环节：第一，在诊断环节，批评者AI会专门评估目标AI在错误案例上的置信度是否合理——比如，一个明显的计算错误，目标AI却报告了0.95的超高置信度，这本身就是一种需要被记录和改善的问题；第二，在最终选择"哪一版提示词作为最终版本"时，RPT不仅看任务准确率，还会考察Brier分数（一种衡量概率预测准确性的指标，分数越低越好），用一个综合了任务性能和校准误差的评分函数来做最终决策。

---

**六、实验：在三种推理任务上的实际表现**

为了验证RPT是否真的有效，研究团队在三个不同类型的推理任务上进行了测试。

第一个任务叫HotPotQA，是一个需要"跳着推理"的问答任务。这类问题不能直接在一段文字里找到答案，需要先从一处文字里找到一个"跳板信息"，再用这个跳板信息到另一处文字里找最终答案，类似于"A认识B，B认识C，A和C是什么关系"这样的多步骤推理。

第二个任务叫LiveBench-Math，是数学推理任务。它的特点是题目会持续更新以防止AI"背答案"，要求AI真正能解题而不是靠记忆。

第三个任务叫Formula，是金融领域的数值推理任务。它需要AI理解财务报表结构，选择正确的金融公式，并准确执行计算。这类任务有很强的领域专业性。

所有实验都使用GPT-4.1作为被优化的"目标AI"，并选用了四种不同的"优化器AI"来实例化RPT：GPT-5、GPT-5-mini（GPT-5的轻量版）、Gemini-3.1-Pro和Gemini-3.1-Flash-Lite（轻量版）。同时，研究团队还对比了三个当时最先进的基准方法：ACE、GEPA和MIPRO。

从测试结果来看，整体趋势是清晰的。在HotPotQA上，RPT搭配GPT-5时取得了最高的最终准确率68.4分，相比初始提示词提升了约12.9个百分点，超过了所有其他方法。在LiveBench-Math上，RPT在所有四种优化器配置下均取得了最佳成绩，GPT-5配置下从初始的58.1分提升到70.5分，提升幅度达12.4分，表现尤为突出。Formula任务则呈现出不同的格局：ACE方法在这里表现最强，RPT搭配GPT-5时也能达到84.0分的高分，但整体上不及ACE稳定。

优化器AI的能力对RPT的效果有明显影响。用GPT-5做优化器时，RPT的三个任务综合得分为74.3；换成GPT-5-mini，这个数字下滑到68.5；Gemini-3.1-Pro和Flash-Lite的对比也呈现出类似趋势，Pro版本的综合得分70.1明显高于Flash-Lite版本的67.7。这说明，RPT对优化器AI要求颇高，因为它需要理解复杂的历史报告、识别跨迭代的模式、并将诊断翻译成具体可操作的提示词修改——能力越强的AI，完成这些任务的效果就越好。

---

**七、置信度实验：校准信号真的有用**

研究团队专门进行了一组实验来验证"把置信度校准纳入优化目标"是否真的有价值。

实验设计是这样的：将带置信度反馈的RPT（即置信度感知版本）与带置信度辅助信息的GEPA进行对比，在三个任务上同时观察任务准确率和Brier分数的变化。

结果显示，RPT的置信度感知优化在多数情况下能够同时提升任务准确率和降低Brier分数，说明提示词优化不仅让AI"答得更对"，还让AI"对自己的把握程度判断得更准"。以GPT-5配置为例，HotPotQA上Brier分数从初始的0.438降至0.241，LiveBench-Math上从0.347降至0.174，Formula上从0.272降至0.129，每项任务的准确率也同步提升。

GEPA的置信度感知版本在HotPotQA上有所改善，但在LiveBench-Math和Formula上提升有限，使用GPT-5-mini时甚至对Formula任务造成了轻微的负面影响。这表明，如果优化器AI能力较弱，额外的校准反馈反而可能分散它的注意力，让它无法专注于核心的任务改进。RPT由于将校准信号深度整合进了诊断流程和最终提示词选择机制，在这方面表现更为稳健。

---

**八、解剖优化轨迹：RPT到底在学什么**

光看最终成绩还不够，研究团队还深入分析了RPT的优化过程本身，试图回答一个更基本的问题：RPT对提示词做的修改，到底是有针对性的精准手术，还是漫无目的的随机变动？

研究团队收集了所有迭代轮次中的失败诊断，并用GPT-4.1提取了相邻两个版本提示词之间的具体改动，然后分别把诊断和改动归类成10个"失败主题"和10个"补丁主题"，最后统计每种失败主题发生时，后续哪些补丁主题最常被引入。这种分析能够揭示：当AI在某类问题上反复出错时，优化器会倾向于做出哪些对应的提示词修改。

对于HotPotQA，结果显示了一定程度的针对性：多跳推理相关的失败，确实更多地触发了关系处理和查询解析方面的补丁；而答案格式相关的失败，则更多地触发了答案最小化、规范形式偏好等格式控制类补丁。值得一提的是，答案格式类补丁在几乎所有失败类型下都频繁出现，这符合HotPotQA这个基准本身对精确答案形式高度敏感的特点。

对于LiveBench-Math，补丁的针对性相当强，主要集中在验证导向类操作上——逐步解题协议、算术检查、输出验证、符号和不变量处理。这说明优化器识别出了数学推理任务的核心问题：AI需要更严格的自我核查机制，而不只是更多的数学知识。

Formula的情况则更为分散：许多不同类型的失败都引发了类似的领域级保护措施，而不是针对具体失败类型的精细补丁。这种模糊的对应关系，可能正是RPT在Formula任务上不如ACE表现稳定的部分原因。

研究团队还分析了不同类型的补丁与下一轮性能变化之间的关联。在HotPotQA上，引入多跳关系处理、前置核查和答案粒度匹配等补丁，往往与准确率提升和Brier分数下降相关联。在LiveBench-Math上，逐步解题、输出验证和算术检查类补丁同样与性能提升密切相关。Formula任务中，单位/量纲/格式处理类补丁的正向关联最为明显，而某些专业领域的保护措施则与短期内的性能停滞甚至下降有关，可能因为它们是为更顽固的问题引入的，需要更多轮次才能显现效果。

---

**九、失败模式的"韧性"：有些问题一时半会改不好**

研究团队还做了一个很有意思的分析：不同类型的失败模式，在优化过程中会持续多少轮才消失？

以"连续存活轮数"来衡量失败模式的持久性，结果显示，最难消除的失败类型都是深层次的任务相关推理问题，而不是简单的格式问题。HotPotQA上最顽固的是答案的表面形式错误和跨段落推理；LiveBench-Math上是算术/代数计算错误和数学定义的误用；Formula上则是算术计算、公式选择、现金流时序等多个领域概念问题，这些问题的平均存活轮数高达32轮，几乎在整个优化过程中从未消失。

这个发现传递了一个清醒的信息：提示词优化有其边界。有些问题，比如模型对某种数学规律的根本性误解，或者对某个金融惯例的持续混淆，单靠优化提示词是很难根本解决的，可能需要更深层的干预措施，比如更好的工具调用、外部验证器、或者模型本身的微调。

---

**十、提示词会越来越长，但长不等于好**

最后，研究团队还观察了提示词长度在优化过程中的变化趋势，以及这种变化和开发集性能之间的关系。

总体规律是，提示词会随着优化进行而越来越长——因为优化器不断往里加入针对各类失败模式的具体指令。以HotPotQA为例，初始提示词只有几十个词，优化后的最终版本扩展到了两千多个词，包含了对答案类型判断、多跳核查步骤、置信度分级标准等大量具体指导。

然而，性能提升并不是随着提示词变长而单调递增的。在三个任务上，性能基本上在早期几轮就完成了主要跃升，之后随着提示词继续增长，性能要么基本持平，要么出现一定波动。这说明，越到后期，新增的内容更多是在重复或细化已有的约束，而不是带来真正的新价值，有时候甚至会因为引入了冗余规则而干扰模型的正常理解。

正因如此，RPT设计上不会直接把最后一轮的提示词当作最终结果，而是用一个独立的开发集（一组没有参与训练的"测试题"）评估每一版提示词，选出在这个独立测试上表现最好的版本作为最终交付。这种设计有效防止了"过度优化"的问题——就像备考时不能只看做过的题，还得用没做过的模拟题来检验真实水平。

---

说到底，RPT这项研究的价值在于，它把一件过去需要靠人类专家反复试错的事情，变成了一套可以让AI自动完成的流程。这套流程不是盲目的，而是有诊断、有记忆、有反思的——正是这三点，让它能够比简单的"改了再试"方法更系统地发现并解决问题。

当然，这套方法也有清晰的局限。它目前只在三种推理任务上做了验证，在开放式写作、对话、代码生成等场景下的效果还不清楚。它对优化器AI的能力依赖较强，用较弱的AI做优化器时效果会打折。它比只看单个样本的方法计算成本更高。而且，提示词优化终究有天花板——对于那些深根于模型权重中的根本性错误，无论多聪明的提示词都绕不过去。此外，文章中涉及的"置信度校准"依赖模型自己说出的置信度数字，而不是从模型内部的概率分布里读出来的真实不确定性，这种"口头置信度"在高风险决策中仍然需要谨慎对待。

RPT提示的方向是有意思的：随着AI越来越善于调用工具、理解结构化反馈、并在多轮交互中积累经验，它们或许真的能替代那些坐在电脑前反复调整提示词的工程师，自己找到自己表现不好的原因，然后自己给自己打补丁。想了解更多细节，可以在arXiv上通过编号2605.21781检索到这篇完整论文和相应的代码仓库。

---

Q&A

Q1：反思式提示词调优（RPT）和普通提示词优化方法有什么区别？

A：普通方法通常只看少量错误案例或固定模板来修改提示词，而RPT会在整个训练数据集上运行，把所有失败案例的原因归类整理成诊断报告，还保留了历史记忆，让优化器能追踪哪些问题反复出现、哪些修改真正有效。本质区别在于RPT是系统性的诊断驱动，而不是头痛医头式的局部修补。

Q2：Brier分数是什么，为什么要把它纳入提示词优化目标？

A：Brier分数衡量的是AI对自己答案把握程度的预测是否准确。分数越低，说明AI说"我有80%把握"的时候，实际上确实有接近80%的概率是对的。把它纳入优化目标是因为AI如果经常过度自信或过度保守，在医疗、法律、金融等需要人工判断是否采信AI建议的场景中会造成实际危害。

Q3：RPT在哪类任务上效果最好，哪类任务效果有限？

A：RPT在需要多步推理的任务上效果最好，比如多跳问答和数学推理，因为这类任务有清晰的、可反复出现的失败模式，优化器可以将其翻译成具体的提示词改动。而在高度领域专业化的任务（如金融数值计算）上，RPT的效果较不稳定，因为领域级别的失败模式往往比较笼统，难以映射到有针对性的提示词修改。

大语言模型提示词优化置信度校准

分享至