解密能力的边界：CipherBank如何探索大语言模型的密码学推理极限

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

解密能力的边界：CipherBank如何探索大语言模型的密码学推理极限

作者：科技行者

2025-04-30 12:38

分享至：

想象一下，你收到一条加密信息："Crgre jnf obea ba Ncevy 23, 1985, naq pneevrf n cnffcbeg jvgu gur ahzore K123456789"。这段文字看似乱码，但实际上它使用了一种名为ROT13的简单加密方法，将每个字母在字母表中向后移动13位。解密后的信息是："Peter was born on April 23, 1985, and carries a passport with the number X123456789"。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-30 12:38 • 科技行者

2025年4月，上海人工智能实验室的李禹、裴启之、孙梦缘等研究团队在论文平台arXiv上发布了一项引人瞩目的研究成果——《CipherBank：通过密码学挑战探索大语言模型推理能力的边界》。这项研究专注于评估当今最先进的大语言模型（LLMs）在密码解密任务中的表现，揭示了AI在结构化推理领域的进步与局限。有兴趣深入了解的读者可以通过论文项目主页（https://cipherbankeva.github.io）获取更多信息。

一、解密游戏：AI模型能破解密码吗？

如果你能看出这种模式并破解密码，那么恭喜你，你具备了基本的密码解析能力。但问题来了：那些被称为"推理大师"的人工智能模型，如OpenAI的o1或DeepSeek的R1，能否像人类一样识别并解开这些密码呢？

上海人工智能实验室的研究团队正是带着这个问题，创建了CipherBank——一个全面评估大语言模型在密码解密任务中表现的基准测试。这个基准测试并非为了发掘AI在密码学领域的应用潜力，而是通过密码解密这一独特视角，深入探索AI模型在结构化推理方面的能力极限。

为什么密码解密是测试AI推理能力的理想场景？想象你在玩一个解谜游戏，游戏给你几组已知的"明文-密文"对作为线索，然后要求你破解一段新的密文。成功解密需要你：首先观察已知的例子，推断出加密规则；然后将这个规则准确应用到新的密文上；最后一丝不苟地执行解密步骤。这个过程恰好考验了逻辑推理、模式识别和精确执行的能力——这些正是评估AI"思考"能力的关键维度。

二、密码银行：一座精心设计的挑战迷宫

CipherBank不是简单地收集了一堆加密文本，而是一个包含2,358个精心设计的加密挑战的综合测试库。这些挑战源自262个独特的明文，涵盖了现实世界中真正需要加密保护的敏感信息。

想象你走进一座迷宫，迷宫中有五个主要区域，每个区域又分为几个小区域，共计14个子区域。这五个主要区域代表了CipherBank中的五大信息领域：个人隐私数据、企业敏感数据、公共安全数据、金融机密数据和互联网记录。每个区域中的挑战都与现实生活息息相关——从身份信息、医疗记录到银行账户、警方案件资料等。

研究团队为什么不使用莎士比亚的作品或随机文本作为测试材料？因为在现实世界中，人们加密的往往是那些敏感且具有特定结构的信息。通过使用这类真实场景的数据，测试结果能更准确地反映AI在实际应用中可能面临的挑战。

这些数据是如何被组织的？研究团队采用了一种标签系统，为每类数据创建了多个相关标签，如"姓名"、"出生日期"、"护照号码"等，总计89个不同标签。这些标签的组合构成了各种真实场景下的数据类型。例如，个人隐私数据中的"身份信息"子域包含了姓名、身份证号、护照号等标签组合。

在加密方法上，CipherBank宛如一个包含各种锁的保险库，共使用了9种不同的加密算法，分为3大类：

替换密码：就像用暗号替换原文中的每个字母。这类密码包括ROT13（将每个字母向后移动13位）、Atbash（使用字母表的反序替换）、Polybius（使用坐标替换字母）和Vigenère（使用关键词进行多重替换）。

置换密码：不改变字符本身，但改变它们的顺序。这类包括Reverse（完全颠倒字符顺序）和SwapPairs（交换相邻字符）。

自定义密码：研究团队设计的特殊算法，如DualAvgCode（将每个字符转换为ASCII值上下浮动的两个字符）、ParityShift（根据ASCII值的奇偶性进行移位）和WordShift（在单词内部进行循环移位）。

这些算法从简单到复杂，被分为五个难度等级，从基础的ROT13到专家级的Vigenère密码。这种设计确保了测试能全面评估模型的能力范围，就像一场从初级到高级的解谜马拉松。

三、解密大赛：AI模型的表现如何？

研究团队评测了当今最先进的18个大语言模型，包括开源聊天模型（如Mixtral-8x22B、Qwen2.5-72B、Llama-3.3-70B和DeepSeek-V3）、闭源商业模型（如GPT-4o、Gemini-1.5-Pro和Claude-3.5）以及专注于推理能力的模型（如DeepSeek-R1、o1和o1-mini）。

评测采用了类似于"已知明文攻击"的方法：给模型提供三对明文-密文样例，让模型学习加密规则，然后要求其解密一个新的密文。这就像给侦探提供几个已破案的案例，然后让他解决一个新案件。

评测结果令人惊讶且发人深省。总体来看，即便是最先进的AI模型在解密任务上也面临显著挑战：

最好的模型——Claude-3.5（45.14%）和o1（40.59%）——在测试中的表现不到50%的准确率，这意味着即使是最强大的AI也只能解开不到一半的密码。相比之下，许多基础模型如Mixtral-8x22B（0.30%）和Llama-3.3-70B（0.42%）几乎无法解开任何密码。

专注于推理的模型普遍优于一般聊天模型。例如，DeepSeek-R1（25.91%）和o1-mini（20.07%）的表现远超普通模型，这表明专门针对逻辑推理训练的AI在结构化任务上确实更有优势。

闭源商业模型表现优于开源模型，说明在高级推理能力上，商业模型仍保持领先地位。不过，像DeepSeek-V3（9.86%）这样的高级开源模型正在缩小这一差距。

相同类别的模型之间存在巨大的性能差异。例如，在开源聊天模型中，DeepSeek-V3（9.86%）比Mixtral-8x22B（0.30%）高出33倍。类似地，在推理模型类别中，o1（40.59%）比QwQ-32B-Preview（0.76%）高出53倍。这种显著差异在其他基准测试中很少见到，凸显了CipherBank测试的挑战性和区分度。

不同密码算法的解密难度差异显著。大多数模型在简单的ROT13和Atbash密码上表现较好，而在复杂的Vigenère密码上表现极差。这表明模型在处理需要长期依赖关系的复杂转换时存在明显短板。

四、深入分析：AI解密能力的局限在哪里？

为了进一步理解AI模型在密码解密任务中的表现，研究团队进行了多维度的细致分析：

明文长度的影响：想象你需要解开一把小锁和一把复杂的大锁，哪个更容易？研究表明，随着明文长度增加，几乎所有模型的解密性能都会下降。例如，o1-mini在短文本上的准确率为33.77%，但在长文本上降至17.35%，下降了48.57%。唯一的例外是Claude-3.5，它的表现几乎不受文本长度影响（下降仅1.74%），显示出非凡的稳定性。

噪声干扰的影响：研究团队发现，模型在解密过程中经常依赖语义推断而非严格遵循解密规则。当在明文中注入噪声（如拼写错误或格式变化）时，所有模型的表现都大幅下降。例如，Claude-3.5从59.17%降至25.08%，o1-mini从24.25%降至5.83%。这表明模型在很大程度上依赖于语义线索，而非纯粹的结构化推理。

加密范围的影响：当加密同时涉及字母和数字时，而不仅仅是字母，模型的表现显著恶化。这表明模型难以将推理规则推广到不同类型的数据。

算法提示的影响：当明确告知模型使用的加密算法时，推理模型（如DeepSeek-R1，提升了31.81个百分点）获益显著，而聊天模型（如Claude-3.5，仅提升5.30个百分点）获益有限。这表明推理模型在获得正确指导后能更好地执行结构化推理。

研究团队还进行了详细的错误分析，将错误分为六类：遗漏/插入、名称解密错误、语义推断、重组、推理失败和其他。这些分析揭示了几个关键洞见：

推理模型反而比聊天模型展现出更高的推理失败率。深入分析发现，这往往是因为推理模型过度分析简单问题，导致不必要的复杂化。就像一个专业数学家可能在解决简单加减法时反而会考虑得过于复杂。

聊天模型则倾向于犯更多的遗漏/插入和重组错误，这表明它们倾向于优先考虑语言流畅性而非严格的规则遵循。就像一个好的讲故事者可能会为了故事流畅而调整细节。
两类模型都在名称解密方面表现不佳，表明处理结构化实体转换是一个普遍的挑战。

五、密码测试的启示：AI思考能力的未来

CipherBank测试结果揭示了当前AI推理能力的一个重要局限：虽然模型在数学和编程等领域表现出色，但在需要严格结构化推理的密码学任务中仍面临显著挑战。这好比一个学生可能擅长解数学题，但在解密码谜题时却力不从心。

这些发现对AI安全和应用有重要启示：如果AI在基本密码解密上都面临困难，那么它们在更复杂的安全性分析任务中可能更加捉襟见肘。同时，这也为AI推理能力的进一步提升指明了方向：

减少语义偏见对逻辑推理的影响：研究表明，模型过度依赖语义线索而非严格的规则推理。未来的改进应该着眼于加强模型提取和应用抽象逻辑模式的能力，减少对语义上下文的依赖。

增强对比推理以改进模式识别：模型常常难以从提供的例子中推导出正确的转换规则。加强对比推理机制可以帮助模型更好地识别加密结构的差异，从而更有效地解密。

解决模型的"过度思考"问题：实验结果表明，推理模型在复杂任务上表现出色，但在简单问题上反而表现不佳。分析显示，这些模型倾向于进行递归性自我评估，即使面对直接的解决方案也会不断修改其方法。缓解这种"过度思考"行为可以提高逻辑推理的效率和稳健性。

六、结语：加密的谜题，AI的进化