微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 解密能力的边界:CipherBank如何探索大语言模型的密码学推理极限

解密能力的边界:CipherBank如何探索大语言模型的密码学推理极限

2025-04-30 12:38
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-04-30 12:38 科技行者

2025年4月,上海人工智能实验室的李禹、裴启之、孙梦缘等研究团队在论文平台arXiv上发布了一项引人瞩目的研究成果——《CipherBank:通过密码学挑战探索大语言模型推理能力的边界》。这项研究专注于评估当今最先进的大语言模型(LLMs)在密码解密任务中的表现,揭示了AI在结构化推理领域的进步与局限。有兴趣深入了解的读者可以通过论文项目主页(https://cipherbankeva.github.io)获取更多信息。


一、解密游戏:AI模型能破解密码吗?

想象一下,你收到一条加密信息:"Crgre jnf obea ba Ncevy 23, 1985, naq pneevrf n cnffcbeg jvgu gur ahzore K123456789"。这段文字看似乱码,但实际上它使用了一种名为ROT13的简单加密方法,将每个字母在字母表中向后移动13位。解密后的信息是:"Peter was born on April 23, 1985, and carries a passport with the number X123456789"。

如果你能看出这种模式并破解密码,那么恭喜你,你具备了基本的密码解析能力。但问题来了:那些被称为"推理大师"的人工智能模型,如OpenAI的o1或DeepSeek的R1,能否像人类一样识别并解开这些密码呢?

上海人工智能实验室的研究团队正是带着这个问题,创建了CipherBank——一个全面评估大语言模型在密码解密任务中表现的基准测试。这个基准测试并非为了发掘AI在密码学领域的应用潜力,而是通过密码解密这一独特视角,深入探索AI模型在结构化推理方面的能力极限。

为什么密码解密是测试AI推理能力的理想场景?想象你在玩一个解谜游戏,游戏给你几组已知的"明文-密文"对作为线索,然后要求你破解一段新的密文。成功解密需要你:首先观察已知的例子,推断出加密规则;然后将这个规则准确应用到新的密文上;最后一丝不苟地执行解密步骤。这个过程恰好考验了逻辑推理、模式识别和精确执行的能力——这些正是评估AI"思考"能力的关键维度。

二、密码银行:一座精心设计的挑战迷宫

CipherBank不是简单地收集了一堆加密文本,而是一个包含2,358个精心设计的加密挑战的综合测试库。这些挑战源自262个独特的明文,涵盖了现实世界中真正需要加密保护的敏感信息。

想象你走进一座迷宫,迷宫中有五个主要区域,每个区域又分为几个小区域,共计14个子区域。这五个主要区域代表了CipherBank中的五大信息领域:个人隐私数据、企业敏感数据、公共安全数据、金融机密数据和互联网记录。每个区域中的挑战都与现实生活息息相关——从身份信息、医疗记录到银行账户、警方案件资料等。

研究团队为什么不使用莎士比亚的作品或随机文本作为测试材料?因为在现实世界中,人们加密的往往是那些敏感且具有特定结构的信息。通过使用这类真实场景的数据,测试结果能更准确地反映AI在实际应用中可能面临的挑战。

这些数据是如何被组织的?研究团队采用了一种标签系统,为每类数据创建了多个相关标签,如"姓名"、"出生日期"、"护照号码"等,总计89个不同标签。这些标签的组合构成了各种真实场景下的数据类型。例如,个人隐私数据中的"身份信息"子域包含了姓名、身份证号、护照号等标签组合。

在加密方法上,CipherBank宛如一个包含各种锁的保险库,共使用了9种不同的加密算法,分为3大类:

替换密码:就像用暗号替换原文中的每个字母。这类密码包括ROT13(将每个字母向后移动13位)、Atbash(使用字母表的反序替换)、Polybius(使用坐标替换字母)和Vigenère(使用关键词进行多重替换)。


置换密码:不改变字符本身,但改变它们的顺序。这类包括Reverse(完全颠倒字符顺序)和SwapPairs(交换相邻字符)。


自定义密码:研究团队设计的特殊算法,如DualAvgCode(将每个字符转换为ASCII值上下浮动的两个字符)、ParityShift(根据ASCII值的奇偶性进行移位)和WordShift(在单词内部进行循环移位)。

这些算法从简单到复杂,被分为五个难度等级,从基础的ROT13到专家级的Vigenère密码。这种设计确保了测试能全面评估模型的能力范围,就像一场从初级到高级的解谜马拉松。

三、解密大赛:AI模型的表现如何?

研究团队评测了当今最先进的18个大语言模型,包括开源聊天模型(如Mixtral-8x22B、Qwen2.5-72B、Llama-3.3-70B和DeepSeek-V3)、闭源商业模型(如GPT-4o、Gemini-1.5-Pro和Claude-3.5)以及专注于推理能力的模型(如DeepSeek-R1、o1和o1-mini)。

评测采用了类似于"已知明文攻击"的方法:给模型提供三对明文-密文样例,让模型学习加密规则,然后要求其解密一个新的密文。这就像给侦探提供几个已破案的案例,然后让他解决一个新案件。

评测结果令人惊讶且发人深省。总体来看,即便是最先进的AI模型在解密任务上也面临显著挑战:

最好的模型——Claude-3.5(45.14%)和o1(40.59%)——在测试中的表现不到50%的准确率,这意味着即使是最强大的AI也只能解开不到一半的密码。相比之下,许多基础模型如Mixtral-8x22B(0.30%)和Llama-3.3-70B(0.42%)几乎无法解开任何密码。


专注于推理的模型普遍优于一般聊天模型。例如,DeepSeek-R1(25.91%)和o1-mini(20.07%)的表现远超普通模型,这表明专门针对逻辑推理训练的AI在结构化任务上确实更有优势。


闭源商业模型表现优于开源模型,说明在高级推理能力上,商业模型仍保持领先地位。不过,像DeepSeek-V3(9.86%)这样的高级开源模型正在缩小这一差距。


相同类别的模型之间存在巨大的性能差异。例如,在开源聊天模型中,DeepSeek-V3(9.86%)比Mixtral-8x22B(0.30%)高出33倍。类似地,在推理模型类别中,o1(40.59%)比QwQ-32B-Preview(0.76%)高出53倍。这种显著差异在其他基准测试中很少见到,凸显了CipherBank测试的挑战性和区分度。


不同密码算法的解密难度差异显著。大多数模型在简单的ROT13和Atbash密码上表现较好,而在复杂的Vigenère密码上表现极差。这表明模型在处理需要长期依赖关系的复杂转换时存在明显短板。


四、深入分析:AI解密能力的局限在哪里?

为了进一步理解AI模型在密码解密任务中的表现,研究团队进行了多维度的细致分析:

明文长度的影响:想象你需要解开一把小锁和一把复杂的大锁,哪个更容易?研究表明,随着明文长度增加,几乎所有模型的解密性能都会下降。例如,o1-mini在短文本上的准确率为33.77%,但在长文本上降至17.35%,下降了48.57%。唯一的例外是Claude-3.5,它的表现几乎不受文本长度影响(下降仅1.74%),显示出非凡的稳定性。


噪声干扰的影响:研究团队发现,模型在解密过程中经常依赖语义推断而非严格遵循解密规则。当在明文中注入噪声(如拼写错误或格式变化)时,所有模型的表现都大幅下降。例如,Claude-3.5从59.17%降至25.08%,o1-mini从24.25%降至5.83%。这表明模型在很大程度上依赖于语义线索,而非纯粹的结构化推理。


加密范围的影响:当加密同时涉及字母和数字时,而不仅仅是字母,模型的表现显著恶化。这表明模型难以将推理规则推广到不同类型的数据。


算法提示的影响:当明确告知模型使用的加密算法时,推理模型(如DeepSeek-R1,提升了31.81个百分点)获益显著,而聊天模型(如Claude-3.5,仅提升5.30个百分点)获益有限。这表明推理模型在获得正确指导后能更好地执行结构化推理。

研究团队还进行了详细的错误分析,将错误分为六类:遗漏/插入、名称解密错误、语义推断、重组、推理失败和其他。这些分析揭示了几个关键洞见:

推理模型反而比聊天模型展现出更高的推理失败率。深入分析发现,这往往是因为推理模型过度分析简单问题,导致不必要的复杂化。就像一个专业数学家可能在解决简单加减法时反而会考虑得过于复杂。


聊天模型则倾向于犯更多的遗漏/插入和重组错误,这表明它们倾向于优先考虑语言流畅性而非严格的规则遵循。就像一个好的讲故事者可能会为了故事流畅而调整细节。
两类模型都在名称解密方面表现不佳,表明处理结构化实体转换是一个普遍的挑战。


五、密码测试的启示:AI思考能力的未来

CipherBank测试结果揭示了当前AI推理能力的一个重要局限:虽然模型在数学和编程等领域表现出色,但在需要严格结构化推理的密码学任务中仍面临显著挑战。这好比一个学生可能擅长解数学题,但在解密码谜题时却力不从心。

这些发现对AI安全和应用有重要启示:如果AI在基本密码解密上都面临困难,那么它们在更复杂的安全性分析任务中可能更加捉襟见肘。同时,这也为AI推理能力的进一步提升指明了方向:

减少语义偏见对逻辑推理的影响:研究表明,模型过度依赖语义线索而非严格的规则推理。未来的改进应该着眼于加强模型提取和应用抽象逻辑模式的能力,减少对语义上下文的依赖。


增强对比推理以改进模式识别:模型常常难以从提供的例子中推导出正确的转换规则。加强对比推理机制可以帮助模型更好地识别加密结构的差异,从而更有效地解密。


解决模型的"过度思考"问题:实验结果表明,推理模型在复杂任务上表现出色,但在简单问题上反而表现不佳。分析显示,这些模型倾向于进行递归性自我评估,即使面对直接的解决方案也会不断修改其方法。缓解这种"过度思考"行为可以提高逻辑推理的效率和稳健性。


六、结语:加密的谜题,AI的进化

总的来说,CipherBank这项研究向我们展示了一个有趣的现象:即使是最先进的AI模型,在面对人类几个世纪前就能解决的简单密码问题时,也会遇到显著挑战。这不禁让人思考:AI的思考方式与人类究竟有何不同?为什么模式识别对人类而言如此自然,而对AI却如此困难?

这并非表明AI在推理能力上的进步停滞不前,而是揭示了AI推理的一个新边界——在需要精确规则应用和结构转换的任务上,即使是专注于推理的模型也有很大的提升空间。随着研究人员不断探索和改进AI的结构化推理能力,我们可能在不久的将来看到能够更有效解密的AI模型。

对于普通用户来说,这项研究的意义在于提醒我们,尽管AI在许多领域表现出色,但在需要严格结构化思考的任务上,人类的直觉和模式识别能力仍然具有独特优势。同时,这也为我们理解AI能力的边界提供了一个新的视角——通过密码学这一独特的镜头,我们不仅能看到AI能做什么,还能更清楚地看到它还不能做什么。

随着AI领域的持续发展,CipherBank这样的基准测试将继续推动AI推理能力的进步,让我们一步步接近真正理解和实现人工智能的目标。

(论文作者:李禹、裴启之、孙梦缘、林鸿林、明陈林、高鑫、吴江、何聪慧、吴立军,上海人工智能实验室。有兴趣深入了解的读者可访问项目页面:https://cipherbankeva.github.io)

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 奖励设计:让AI学会智能使用工具的关键
    2025-04-23 17:39

    奖励设计:让AI学会智能使用工具的关键

    想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。

  • ToolRL:奖励设计是工具学习所需的全部
    2025-04-23 17:34

    ToolRL:奖励设计是工具学习所需的全部

    想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。

  • X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御
    2025-04-23 14:08

    X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御

    想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。

  • "思考操纵":用外部思考让大型推理模型更高效
    2025-04-22 16:43

    "思考操纵":用外部思考让大型推理模型更高效

    想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-