微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

大语言模型中的分词限制：一项探究符号和算术推理边界的研究

大语言模型分词技术符号推理

大语言模型中的分词限制：一项探究符号和算术推理边界的研究

作者：科技行者

2025-05-26 08:06

分享至：

这项由不列颠哥伦比亚大学张翔和曹俊泰领衔的研究，揭示了大语言模型中一个被忽视的关键限制：分词系统对符号和算术推理能力的影响。研究团队发现，即使使用思维链提示技术，模型的推理能力仍受制于分词格式。通过将原子符号（如字母）明确分割的输入格式，可使模型在计数、排序和反转等任务上的准确率提升高达80%。实验证明，在优化分词条件下，较小模型甚至能超越更大模型的表现。这一发现颠覆了传统认知，提示我们分词设计对模型能力的重要性不亚于模型架构本身。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-26 08:06 • 科技行者

近日，由不列颠哥伦比亚大学的张翔和曹俊泰、浙江大学的魏佳琪、思科公司的徐一伟以及纽约石溪大学的尤晨宇共同完成的一项前沿研究《Tokenization Constraints in LLMs: A Study of Symbolic and Arithmetic Reasoning Limits》在arXiv预印本平台上发表。这项研究深入探讨了大语言模型（LLMs）中一个经常被忽视但却至关重要的基础组件——分词系统（tokenization）如何影响模型的符号和算术推理能力。

一、分词：被低估的语言模型第一道处理门槛

想象一下，当你学习一门新语言时，如果不知道如何正确地将句子分割成有意义的单词，那么理解整个句子将变得异常困难。大语言模型面临的挑战也是如此。在这项研究中，研究团队揭示了一个长期被忽视的事实：语言模型的推理能力不仅受到其架构设计的限制，还深受其处理信息的第一道门槛——分词系统的影响。

分词是什么？简单来说，分词就像是语言模型的"阅读眼镜"。当我们输入"Strawberry"（草莓）这个词时，模型并不是按字母一个一个地处理，而是会将其切分成若干个"词元"（token）。比如，它可能会将其分割为"Straw"和"berry"两个部分。这种切分方式对于存储效率很有帮助，但研究团队发现，这恰恰是许多模型在进行符号推理和算术计算时表现不佳的关键原因。

想象一下，如果有人要求你数一数"Strawberry"中有多少个字母"r"，而给你看的却是被分割成"Straw"和"berry"的两块拼图，这就会增加你的计数难度，因为你需要先在心里重新拼接这个词，然后再进行计数。大语言模型在进行类似任务时也面临着相同的挑战。

二、思维链提示：给语言模型装上"递归引擎"

在深入探讨分词问题之前，我们需要理解大语言模型在推理方面的基本局限性。Transformer架构（GPT、BERT等模型的基础）本质上是一种深度有限的系统，就像一个只能看有限几步的棋手。这种架构无法像人类那样进行递归思考，即"我思考，所以我对我的思考再次思考"这样的能力。

研究人员形象地解释道，这就像是一个只能走固定台阶数的爬楼机器人。无论楼梯有多高，它永远只能爬固定的几步，因此无法适应不同高度的楼梯。同理，标准的Transformer模型无论输入多长，都只能进行固定次数的信息处理，这严重限制了其处理需要多步计算的任务（如数数、加法或模式识别）的能力。

这时，思维链（Chain-of-Thought，CoT）提示技术的出现提供了一个解决方案。思维链就像是给语言模型提供了一个"外部记事本"，让它能够将中间计算步骤写下来，然后在下一步思考中使用这些记录。通过这种方式，语言模型可以模拟人类的递归思考过程，大大增强了其解决复杂问题的能力。

以计数任务为例：如果让模型直接回答"abcabcabc中有多少个a"，它很可能失败。但如果使用思维链提示，引导模型一步步思考："第一个字符是a，计数为1；第二个字符是b，计数仍为1；第三个字符是c，计数仍为1；第四个字符是a，计数增加到2..."，这样模型就能够正确解答复杂问题。

三、分词瓶颈：符号推理能力的隐形杀手

研究团队通过深入分析发现，即使使用了思维链提示，许多大语言模型在进行简单的算术和符号操作时仍然表现不佳。例如，即使是强大如GPT-4的模型，在计算一个单词中特定字母出现次数等简单任务上也常常失败。

为什么会这样？答案就藏在分词系统中。研究团队提出了"词元感知"（Token Awareness）的概念，用来描述模型对词元内部结构的理解能力。当一个词被切分为多个词元时，模型需要具备强大的词元感知能力，才能正确理解和处理词元内部的信息。

想象你在解读一本被随机撕碎页面的书。如果碎片太小或分割不当，即使你把所有碎片拼在一起，也难以理解原文。同样，如果分词系统不当地切分文本，模型就无法正确识别和处理符号单元，从而影响其推理能力。

研究团队将分词带来的信息损失分为两种类型：

第一种是"信息隐藏"：当一个符号单元（如字母、数字）被合并到更大的词元中时，模型难以识别该单元的特征。比如，当"Strawberry"被分割为"Straw"和"berry"时，模型可能无法轻易识别出"Straw"中包含一个"r"。

第二种是"表达能力限制"：当模型需要通过思维链来表达中间推理步骤时，如果词元粒度不够细，模型就无法准确表达某些概念。这就像是你想用一门只有100个单词的语言来写诗，表达能力会受到严重限制。

四、实验证明：分词格式决定推理成败

为了验证分词对推理能力的影响，研究团队设计了一系列实验，测试不同分词格式下模型在计数、排序和字符串反转等任务上的表现。

他们尝试了四种不同的分词格式：

第一种是原始BPE（Byte Pair Encoding）分词，如"abbab"，字符紧密相连；第二种是空格分隔分词，如"a b b a b"，每个字符之间添加空格；第三种是逗号空格分隔分词，如"a, b, b, a, b"，使用逗号和空格分隔；第四种是引号分隔分词，如"'a', 'b', 'b', 'a', 'b'"，每个字符都用引号包围。

实验结果令人惊讶：仅仅是改变分词格式，而不改变任务本身，模型的性能就能从几乎完全失败提升到接近完美。以计数任务为例，在30-40个字符的长度范围内，使用原始BPE分词时，GPT-4o-mini模型的准确率仅为2%；而使用引号分隔分词时，准确率飙升至56.1%，提高了惊人的54.1个百分点！

更令人惊讶的是，在最优分词格式下，较小的模型（如GPT-4o-mini）甚至能够在结构化推理任务上超越更大的模型（如OpenAI的o1）。这一发现彻底颠覆了"更大的模型总是更好"的常规认知。

五、字母频率与计数性能的意外关联

研究团队还发现了一个有趣的现象：模型对不同字母的计数准确率不同。具体来说，在英语中出现频率较低的字母（如'b'和'z'）的计数表现明显优于高频字母（如'a'和'e'）。

为什么会出现这种现象？研究人员推测，这可能是因为高频字母在模型训练过程中获得了更丰富、更复杂的语义表示，反而使得模型难以将其单纯视为计数对象。相比之下，低频字母的表示更为单一，模型能更容易地将其识别为离散的计数单元。

这个发现揭示了语言模型在处理符号时的一个重要特性：字符在自然语言中的使用频率会影响模型对其作为纯符号处理的能力。这也提示我们，在设计需要符号操作的提示时，使用低频符号可能会获得更好的性能。

六、解决之道：优化分词策略释放模型潜能

研究团队的发现为提高大语言模型在符号和算术推理方面的能力提供了明确的方向。通过优化分词策略，特别是确保符号单元与词元边界对齐，我们可以显著提升模型的推理性能。

具体来说，当我们需要让语言模型执行字符级别的操作（如计数、排序或字符串反转）时，最好使用能保持字符原子性的分词格式，比如用引号或特殊分隔符将每个字符隔开。这样做可以确保模型能清晰地识别每个字符，从而提高推理的准确性。

研究还表明，思维链提示技术与优化分词策略相结合，能产生"1+1>2"的效果。思维链为模型提供了递归推理的能力，而优化的分词策略则确保模型能精确识别和处理符号单元，两者结合可以显著释放模型的推理潜能。

七、研究启示：理解和突破语言模型的限制

这项研究的意义远不止于提高特定任务的性能。它深刻揭示了语言模型推理能力的本质和限制，提醒我们注意那些看似微不足道但实际影响重大的基础组件。