微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 超越一成不变:使用逆向学习法生成高效自然语言评估提示词

超越一成不变:使用逆向学习法生成高效自然语言评估提示词

2025-05-06 11:20
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-06 11:20 科技行者

在2025年4月底,来自曼彻斯特大学、杜伦大学和北京航空航天大学的研究团队发表了一篇题为《超越一成不变:使用逆向学习法生成高效自然语言评估提示词》的开创性研究论文。这项由洪汉华(曼彻斯特大学)、肖成皓(杜伦大学)、王洋(曼彻斯特大学)、刘一奇(曼彻斯特大学)、荣文戈(北京航空航天大学)和林成华(曼彻斯特大学,通讯作者)共同完成的研究,为如何更精准评估人工智能生成的内容提供了全新视角。论文发表于arXiv预印本平台(arXiv:2504.21117v1),有兴趣深入了解的读者可通过该平台获取完整论文内容。

一、人工智能评估:一双不合脚的鞋

想象一下,你正在寻找一双舒适的鞋子。卖家递给你一双"通用型"鞋子,声称它适合所有人。你试着穿上它,却发现这双鞋对你而言要么太紧,要么太松,总之就是不合脚。在人工智能评估领域,这个问题同样存在——目前我们使用的是"一刀切"的评估方式,用同样的提示词(prompts)来评估不同的AI模型,却忽略了每个模型都有其独特的"脚型"。

当我们谈论自然语言生成(NLG)系统的评估时,情况变得特别棘手。就像是评判一位厨师的水平,你不能只看食谱,还需要品尝最终的菜肴。同样地,评估AI生成的文本不仅仅是看它输出了什么,还要考虑这些输出的质量。传统上,人类评估被视为金标准,但这种方法存在一系列问题:评估标准不一致,执行过程中充满变数,甚至评估者自身的背景和偏见也会影响结果。这就像是请不同人评价同一道菜,有人可能因为个人口味偏好而给出截然不同的评分。

大型语言模型(LLMs)的出现带来了一场评估范式的变革。研究人员开始将这些模型作为"代理评估者",让它们通过结构化提示词来评估文本的各个方面。就像是培训专业美食评论家,我们希望这些AI评估者能够提供专业、一致且细致的评价。然而,一个关键问题浮出水面:这些模型对提示词极为敏感。甚至连提示词中的细微变化,比如措辞的轻微调整,都可能导致评估结果产生巨大差异。这就像是一位厨师根据食谱中的微小变化,可能做出完全不同的菜肴。

二、提示词敏感性:小小变化,大大影响

让我们深入了解这个"提示词敏感性"问题。想象你正在使用一个导航应用。如果你输入"带我回家"或"导航到我的家",你期望得到相同的路线。但如果导航应用对这些细微的表述差异作出截然不同的反应,给出完全不同的路线,你会感到困惑和沮丧。

大型语言模型的评估正面临类似的挑战。研究表明,即使在提示词模板中做出微小的改变,也可能导致模型表现差异高达76个百分点!这就像是同一个学生,面对同一道数学题,仅仅因为问题的表述方式略有不同,答题正确率就从95%骤降到19%。

为了解决这个问题,目前的主流方法是采用人工精心设计的提示词。这就像是手工制作的定制鞋子,需要专业技能和经验,成本高且难以大规模应用。而且,这些手工设计的提示词往往是通用的,并未考虑不同模型的独特特性。

洪汉华和他的研究团队提出了一个关键观察:就像不同的人需要不同的鞋子一样,不同的语言模型应该配备专属的评估提示词。他们注意到,评估指南的有效性在人类评估者之间存在差异,同样的道理也应适用于基于语言模型的评估者——同一个评估提示词可能对不同的语言模型产生不同的效果。

三、逆向学习法:从输出"倒推"最佳提示词

研究团队提出了一种巧妙的解决方案:逆向学习法。想象一下,你有一张照片,想知道用什么相机设置能拍出这样的效果。逆向学习就是尝试从这张照片"倒推"出最佳的相机设置参数。

在语言模型的评估中,这个过程是这样工作的:当一个语言模型充当评估者时,它执行一个映射函数,将被评估的文本(X)转换为评估结果(S),而这个评估结果应该尽可能接近人类评估分布(G)。研究团队的目标是训练一个逆向模型,能够准确学习这个映射函数的反向过程。

这就像是训练一个助手,能够通过观察大厨做出的菜肴,推断出他使用的具体食谱和烹饪技巧。一旦掌握了这种能力,这个助手就能为任何想要的菜肴创建精确的食谱。同样,逆向模型通过学习语言模型的"思考方式",可以为任何评估任务生成最适合该特定模型的评估提示词。

这种方法的一个惊人之处在于,它只需要一个评估样本就能生成高效的特定模型评估提示词。就像是一位音乐天才,只需听一遍就能复制出整首曲子。具体来说,研究者提供给逆向模型一个评估内容和相应的人类评估结果,逆向模型就能生成一个评估提示词,当这个提示词应用于原始的评估内容时,会引导语言模型产生与人类评估结果一致的评估。

四、研究方法:厨师与食谱的故事

要理解研究团队的具体方法,我们可以把它想象成一个关于厨师和食谱的故事。

在这个故事中,有两个主要角色:

前向模型(普通厨师):根据食谱(提示词)烹饪菜肴(生成输出)
逆向模型(食谱工程师):观察菜肴(输出)并推断出最佳食谱(提示词)

研究团队提出了两种训练逆向模型的设置:黑盒设置和白盒设置。

黑盒设置就像是食谱工程师观察一位名厨的成品菜肴,但不知道他的训练背景和使用的具体技巧。工程师只能通过观察这位厨师对各种食材的处理方式,来推断出适合他的食谱。在这种情况下,研究者使用市面上已有的指令微调模型(如LLaMA和Qwen系列模型),但没有访问它们的训练数据或训练过程的详细信息。

首先,研究团队进行了"逆向数据集蒸馏"。他们使用现有的指令微调模型对一些指令输入进行推理,生成模型特定的响应。这就像是记录名厨如何处理各种食材。然后,他们构建一个逆向训练数据集,其中包含这些模型生成的响应和原始指令。接着,他们使用这个逆向数据集对一个新的预训练语言模型进行微调,训练它学会从输出中推断出原始指令。

白盒设置则不同,就像是食谱工程师拥有完全的训练访问权,可以同时训练厨师和推断食谱的能力。在这种情况下,研究者拥有完整的模型训练控制权,可以同时微调前向指令模型和逆向模型,两者都基于同一个SFT(监督微调)数据集。

完成训练后,逆向模型就能为特定的下游评估任务生成高效的评估提示词。研究团队采用了一种"一次性"策略,即从现有的人类评估数据集中随机抽取一个数据对(包含被评估内容和对应的人类评估结果),然后使用逆向模型生成评估提示词。

生成的提示词通常包含被评估的内容,研究团队通过自动替换特定于一次性示例的内容,构建一个可泛化的评估提示词模板。这就像是将特定食谱中的具体食材量替换为通用描述(如"适量盐"替代"5克盐"),使食谱能适用于不同规模的烹饪需求。

五、实验结果:专属"鞋子"的惊人表现

研究团队在三个关键的文本生成任务上进行了全面实验:摘要生成、机器翻译和对话响应生成。他们使用了四个公共数据集(SummEval、QAGS-CNN、QAGS-XSUM和Topical-Chat)以及WMT-22英德翻译语料库,评估了两个模型家族(Qwen和LLaMA)的表现,模型大小从3B到14B参数不等。

结果令人惊叹。无论在黑盒设置还是白盒设置下,逆向生成的评估提示词都明显优于人工设计的提示词和由前向指令微调模型生成的提示词。

以黑盒设置为例,对于LLaMA-3.1-8B-Instruct模型,逆向提示词在平均Spearman相关性上比前向提示词提高了33%,在Pearson相关性上提高了32%。对于Qwen-2.5-7B-Instruct模型,逆向提示词的平均相关性提高更为显著,分别达到38%和32%。这就像是穿上了专为你量身定制的鞋子,与通用鞋相比,舒适度和适合度有了质的飞跃。

特别值得注意的是,在QAGS-XSUM数据集上(这是一个包含较为抽象摘要的数据集),逆向提示词比前向提示词的性能提升高达100%到250%。这表明,在复杂和抽象的任务上,模型专属的评估提示词优势尤为明显。就像是在复杂地形上行走,定制鞋子的优势更加凸显。

研究团队还进行了"提示词交换"实验,测试为一个模型生成的提示词在另一个模型上的表现。结果表明,当将为Qwen生成的逆向提示词应用于LLaMA,或将为LLaMA生成的逆向提示词应用于Qwen时,评估性能都出现了明显下降。这进一步证实了研究团队的假设:每个模型都需要专属的评估提示词,就像每个人都需要适合自己脚型的鞋子一样。

另一个有趣的发现是,模型规模与逆向学习性能之间存在正相关关系。当研究者训练不同规模的Qwen模型(3B、7B和14B)时,他们观察到模型规模越大,生成的评估提示词性能也越好。例如,逆向提示词的平均Spearman相关性从3B模型的0.399增加到14B模型的0.540,提升了35%。这表明,随着模型能力的增强,它生成的"定制鞋"也更加舒适和精准。

六、案例研究:提示词的艺术与科学

为了深入了解为什么不同类型的提示词会产生不同的效果,研究团队对前向提示词、人工设计提示词和逆向提示词进行了质性比较。

想象一下三位导游带你参观同一座城市:第一位导游(前向提示词)对城市了解广泛但不够深入;第二位导游(人工设计提示词)有专业知识但使用标准化的讲解;第三位导游(逆向提示词)不仅掌握城市的各个方面,还能根据你的兴趣和背景定制参观路线。

研究发现,前向提示词往往定义了多个维度的评估(如全面性、准确性等),而不仅仅是一次性示例中要求的维度(如一致性)。这就像是你只想了解城市的历史,但导游却坚持要带你逛美食、购物和景点的全部内容。

相比之下,逆向提示词和人工设计提示词在标准、结构和语气上存在明显差异。逆向提示词明确为模型分配角色(如"高级AI助手"),这有助于锚定模型的视角和行为。它们还提供了详细的步骤程序和明确的要求(如"要执行此任务,你必须...")。对于一致性标准,逆向提示词提供了最具操作性的定义,通过形式化的蕴含推理框架来解释事实一致性。

此外,研究团队还发现Qwen和LLaMA对提示词的风格偏好不同。Qwen的提示词更为正式和结构化,而LLaMA的提示词则更具对话性和直观性。这再次证实了不同模型确实需要不同类型的"鞋子"。

七、结论与未来展望:定制之路的开始

这项研究就像开启了一扇新的大门,让我们看到了超越"一刀切"提示词设计的广阔前景。研究团队的逆向学习方法能够高效地生成模型专属的评估提示词,只需使用一个评估样本,就能显著提高评估性能。

归根结底,这项工作揭示了一个重要事实:就像不同的人需要不同的鞋子一样,不同的语言模型需要针对其特性精心设计的评估提示词。通过逆向学习,我们可以自动生成这些"定制鞋",使评估过程更加精准和可靠。

这项研究也带来了一些深刻的思考:为什么人工设计的提示词和指南不一定能转化为对语言模型最有效的提示词?这可能涉及到语言模型和人类在处理信息方面的根本差异,以及如何更好地与这些新一代人工智能系统进行沟通的问题。

对于普通用户来说,这项研究意味着未来的AI评估可能会更加准确、可靠,从而促进更好的AI系统开发。对于研究人员和开发者来说,这开辟了一条自动化提示词设计的新途径,可能大大降低提示词工程的成本和难度。

正如研究团队所强调的,这项工作向更高效、更系统化的大型语言模型评估迈出了重要一步。在人工智能快速发展的今天,确保我们有可靠的评估方法变得前所未有的重要。而这项研究,无疑为我们提供了一把打开这扇大门的钥匙。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 奖励设计:让AI学会智能使用工具的关键
    2025-04-23 17:39

    奖励设计:让AI学会智能使用工具的关键

    想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。

  • ToolRL:奖励设计是工具学习所需的全部
    2025-04-23 17:34

    ToolRL:奖励设计是工具学习所需的全部

    想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。

  • X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御
    2025-04-23 14:08

    X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御

    想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。

  • "思考操纵":用外部思考让大型推理模型更高效
    2025-04-22 16:43

    "思考操纵":用外部思考让大型推理模型更高效

    想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-