近日,由不列颠哥伦比亚大学的张翔和曹俊泰、浙江大学的魏佳琪、思科公司的徐一伟以及纽约石溪大学的尤晨宇共同完成的一项前沿研究《Tokenization Constraints in LLMs: A Study of Symbolic and Arithmetic Reasoning Limits》在arXiv预印本平台上发表。这项研究深入探讨了大语言模型(LLMs)中一个经常被忽视但却至关重要的基础组件——分词系统(tokenization)如何影响模型的符号和算术推理能力。
一、分词:被低估的语言模型第一道处理门槛
想象一下,当你学习一门新语言时,如果不知道如何正确地将句子分割成有意义的单词,那么理解整个句子将变得异常困难。大语言模型面临的挑战也是如此。在这项研究中,研究团队揭示了一个长期被忽视的事实:语言模型的推理能力不仅受到其架构设计的限制,还深受其处理信息的第一道门槛——分词系统的影响。
分词是什么?简单来说,分词就像是语言模型的"阅读眼镜"。当我们输入"Strawberry"(草莓)这个词时,模型并不是按字母一个一个地处理,而是会将其切分成若干个"词元"(token)。比如,它可能会将其分割为"Straw"和"berry"两个部分。这种切分方式对于存储效率很有帮助,但研究团队发现,这恰恰是许多模型在进行符号推理和算术计算时表现不佳的关键原因。
想象一下,如果有人要求你数一数"Strawberry"中有多少个字母"r",而给你看的却是被分割成"Straw"和"berry"的两块拼图,这就会增加你的计数难度,因为你需要先在心里重新拼接这个词,然后再进行计数。大语言模型在进行类似任务时也面临着相同的挑战。
二、思维链提示:给语言模型装上"递归引擎"
在深入探讨分词问题之前,我们需要理解大语言模型在推理方面的基本局限性。Transformer架构(GPT、BERT等模型的基础)本质上是一种深度有限的系统,就像一个只能看有限几步的棋手。这种架构无法像人类那样进行递归思考,即"我思考,所以我对我的思考再次思考"这样的能力。
研究人员形象地解释道,这就像是一个只能走固定台阶数的爬楼机器人。无论楼梯有多高,它永远只能爬固定的几步,因此无法适应不同高度的楼梯。同理,标准的Transformer模型无论输入多长,都只能进行固定次数的信息处理,这严重限制了其处理需要多步计算的任务(如数数、加法或模式识别)的能力。
这时,思维链(Chain-of-Thought,CoT)提示技术的出现提供了一个解决方案。思维链就像是给语言模型提供了一个"外部记事本",让它能够将中间计算步骤写下来,然后在下一步思考中使用这些记录。通过这种方式,语言模型可以模拟人类的递归思考过程,大大增强了其解决复杂问题的能力。
以计数任务为例:如果让模型直接回答"abcabcabc中有多少个a",它很可能失败。但如果使用思维链提示,引导模型一步步思考:"第一个字符是a,计数为1;第二个字符是b,计数仍为1;第三个字符是c,计数仍为1;第四个字符是a,计数增加到2...",这样模型就能够正确解答复杂问题。
三、分词瓶颈:符号推理能力的隐形杀手
研究团队通过深入分析发现,即使使用了思维链提示,许多大语言模型在进行简单的算术和符号操作时仍然表现不佳。例如,即使是强大如GPT-4的模型,在计算一个单词中特定字母出现次数等简单任务上也常常失败。
为什么会这样?答案就藏在分词系统中。研究团队提出了"词元感知"(Token Awareness)的概念,用来描述模型对词元内部结构的理解能力。当一个词被切分为多个词元时,模型需要具备强大的词元感知能力,才能正确理解和处理词元内部的信息。
想象你在解读一本被随机撕碎页面的书。如果碎片太小或分割不当,即使你把所有碎片拼在一起,也难以理解原文。同样,如果分词系统不当地切分文本,模型就无法正确识别和处理符号单元,从而影响其推理能力。
研究团队将分词带来的信息损失分为两种类型:
第一种是"信息隐藏":当一个符号单元(如字母、数字)被合并到更大的词元中时,模型难以识别该单元的特征。比如,当"Strawberry"被分割为"Straw"和"berry"时,模型可能无法轻易识别出"Straw"中包含一个"r"。
第二种是"表达能力限制":当模型需要通过思维链来表达中间推理步骤时,如果词元粒度不够细,模型就无法准确表达某些概念。这就像是你想用一门只有100个单词的语言来写诗,表达能力会受到严重限制。
四、实验证明:分词格式决定推理成败
为了验证分词对推理能力的影响,研究团队设计了一系列实验,测试不同分词格式下模型在计数、排序和字符串反转等任务上的表现。
他们尝试了四种不同的分词格式:
第一种是原始BPE(Byte Pair Encoding)分词,如"abbab",字符紧密相连; 第二种是空格分隔分词,如"a b b a b",每个字符之间添加空格; 第三种是逗号空格分隔分词,如"a, b, b, a, b",使用逗号和空格分隔; 第四种是引号分隔分词,如"'a', 'b', 'b', 'a', 'b'",每个字符都用引号包围。
实验结果令人惊讶:仅仅是改变分词格式,而不改变任务本身,模型的性能就能从几乎完全失败提升到接近完美。以计数任务为例,在30-40个字符的长度范围内,使用原始BPE分词时,GPT-4o-mini模型的准确率仅为2%;而使用引号分隔分词时,准确率飙升至56.1%,提高了惊人的54.1个百分点!
更令人惊讶的是,在最优分词格式下,较小的模型(如GPT-4o-mini)甚至能够在结构化推理任务上超越更大的模型(如OpenAI的o1)。这一发现彻底颠覆了"更大的模型总是更好"的常规认知。
五、字母频率与计数性能的意外关联
研究团队还发现了一个有趣的现象:模型对不同字母的计数准确率不同。具体来说,在英语中出现频率较低的字母(如'b'和'z')的计数表现明显优于高频字母(如'a'和'e')。
为什么会出现这种现象?研究人员推测,这可能是因为高频字母在模型训练过程中获得了更丰富、更复杂的语义表示,反而使得模型难以将其单纯视为计数对象。相比之下,低频字母的表示更为单一,模型能更容易地将其识别为离散的计数单元。
这个发现揭示了语言模型在处理符号时的一个重要特性:字符在自然语言中的使用频率会影响模型对其作为纯符号处理的能力。这也提示我们,在设计需要符号操作的提示时,使用低频符号可能会获得更好的性能。
六、解决之道:优化分词策略释放模型潜能
研究团队的发现为提高大语言模型在符号和算术推理方面的能力提供了明确的方向。通过优化分词策略,特别是确保符号单元与词元边界对齐,我们可以显著提升模型的推理性能。
具体来说,当我们需要让语言模型执行字符级别的操作(如计数、排序或字符串反转)时,最好使用能保持字符原子性的分词格式,比如用引号或特殊分隔符将每个字符隔开。这样做可以确保模型能清晰地识别每个字符,从而提高推理的准确性。
研究还表明,思维链提示技术与优化分词策略相结合,能产生"1+1>2"的效果。思维链为模型提供了递归推理的能力,而优化的分词策略则确保模型能精确识别和处理符号单元,两者结合可以显著释放模型的推理潜能。
七、研究启示:理解和突破语言模型的限制
这项研究的意义远不止于提高特定任务的性能。它深刻揭示了语言模型推理能力的本质和限制,提醒我们注意那些看似微不足道但实际影响重大的基础组件。
首先,它强调了语言模型的推理能力不仅受制于其架构设计(如层数和参数规模),还深受其对输入信息的初始处理方式影响。这就像是两个智商相当的人,一个戴着清晰的眼镜,一个戴着模糊的眼镜,即使他们的思考能力相同,获取信息的质量差异也会导致最终判断的巨大差异。
其次,这项研究提醒我们,在测评语言模型的能力时,要考虑到输入格式对性能的影响。一个在特定输入格式下表现优异的模型,在其他格式下可能表现平平。这启示我们在设计提示和评估模型时,应考虑分词等底层因素的影响。
最后,这项研究为未来语言模型的改进指明了方向。除了增加模型规模和训练数据量外,优化分词系统和提示格式可能是提升模型能力的更高效途径。未来的语言模型可能会采用更灵活的分词策略,或者在训练过程中专门优化对符号和算术操作的处理能力。
八、结论:重视基础,优化交互
归根结底,这项研究告诉我们一个简单而深刻的道理:即使是最先进的人工智能系统,其能力也受制于其感知和处理信息的基础机制。就像一个天才如果戴着模糊的眼镜阅读,也会受到限制一样,大语言模型的推理能力同样受制于其分词系统的质量。
对于开发者和研究人员来说,这项研究提供了一个实用的指导:在设计需要精确符号操作的提示时,考虑使用能保持符号原子性的分词格式。对于普通用户来说,了解这一限制可以帮助我们更好地理解为什么有时候语言模型会在看似简单的任务上犯错,以及如何通过优化输入格式来获得更好的结果。
最后值得一提的是,尽管这项研究主要关注符号和算术推理,但其发现可能对更广泛的语言理解任务也有启示。分词系统作为语言模型处理信息的第一道门槛,其设计和优化值得我们给予更多关注。
随着人工智能研究的深入,我们或许会看到专门针对不同类型任务优化的分词系统,使语言模型在符号推理、算术计算和语言理解等多个方面都能发挥最佳性能。在人工智能的发展道路上,有时候真正的突破不在于构建更大的系统,而在于更好地理解和优化现有系统的基础组件。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。