微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 打破大语言模型的"词汇牢笼":从TokenAdapt到Supertoken,让AI自由适应多语言环境

打破大语言模型的"词汇牢笼":从TokenAdapt到Supertoken,让AI自由适应多语言环境

2025-05-19 14:54
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-19 14:54 科技行者

大型语言模型的迅猛发展令人叹为观止,但它们面临着一个鲜为人知的"隐形枷锁"——词汇分割系统(也称为分词器)。这项由Shaurya Sharthak、Vinayak Pahalwan(来自tinycompany)、Adithya Kamath(Proton邮箱用户)和Adarsh Shirawalmath(Tensoic公司)组成的研究团队在2025年5月16日发表的研究,揭示了如何让AI模型摆脱这种束缚,实现语言表达的真正自由。研究团队开发的TokenAdapt框架和SuperTokenizer训练代码已在GitHub上开源,任何人都可以通过Tinycompany-AI/TokenAdapt和Tinycompany-AI/SuperTokenizer获取。

一、"词汇牢笼":语言模型的隐形束缚

想象一下,你学会了一门外语,但被限制只能使用特定的词汇表达所有意思。更糟的是,当你遇到不在词表中的词时,必须将它们拆分成更小、可能毫无意义的片段来表达。这就是大型语言模型(LLMs)的日常困境。

大语言模型在预训练阶段被"锁定"在特定的分词方案中,这种绑定限制了它们处理多语言或专业领域文本的能力。举个例子,当处理印地语或编程代码时,模型常常需要将一个有意义的单词或符号拆分成许多小片段,这就像把"冰淇淋"拆成"冰"、"淇"、"淋"三个字一样,不仅效率低下,还可能失去原有含义。

这种分词局限性带来了三个主要问题:

首先,处理效率大幅降低。当一个简单的单词被分割成多个子词时,模型需要处理的序列长度增加,导致计算成本和推理延迟显著上升。想象一下,如果你阅读时必须一个字母一个字母地读,而不是整词阅读,速度会慢多少!

其次,性能大幅下降。当模型无法将语义单元作为整体处理时,理解能力会受到影响,尤其是在多语言应用或专业领域中。这就像强迫一个医生用小学生的词汇来解释复杂的手术过程一样困难。

第三,适应新领域需要巨大的计算成本。传统方法通常是扩展原始词表并在相关数据上进行大规模持续预训练,这需要海量计算资源和大型目标语言语料库,对于资源有限的团队而言几乎是天文数字。

二、从手工修补到智能适配:解锁语言模型的发展历程

传统上,研究人员尝试了几种方法来解决这个问题,但每种方法都有其局限性,就像给牢笼换了个样子,但并未真正打开囚门。

最常见的方法是词汇扩展加持续预训练。想象一下,你有一本英语词典,然后为了适应中文,你在词典后面附加了几页中文词汇,然后花费数月时间重新学习整本词典。这种方法虽然有效,特别是对于低资源语言,但需要大量计算资源和目标语言语料库,成本极高。而且,仅仅添加新词汇并不能解决原始分词器可能对目标数据不理想的问题。

另一种思路是完全替换分词器,并采用有效的初始化策略。早期研究表明,只重新训练嵌入层(模型的输入输出接口)而保持核心模型冻结是可行的。近期方法如ReTok通过简单平均构成子词的嵌入来初始化新词嵌入;FOCUS利用辅助的fastText嵌入空间计算新词与重叠词之间的相似性;WECHSEL使用静态多语言嵌入找到最相近的源子词;CLP-Transfer则结合使用来自较小目标语言模型的相似性。

虽然这些方法比随机初始化好,加速了适应过程,但它们仍面临局限:简单平均可能缺乏语义精确性;依赖重叠或近邻可能不适用于词汇差异巨大的情况;依赖辅助资源可能引入潜在的对齐问题和额外的计算成本。关键是,大多数方法仍需要一个虽减少但非微不足道的训练阶段才能达到最佳性能。

更高级的技术瞄准真正的零样本迁移,如使用超网络或基于统计机器翻译的对齐,但这些方法往往引入显著的前期训练复杂性或特定的数据要求(如平行语料库)。

三、TokenAdapt:语义嫁接的艺术

面对这些挑战,研究团队提出了TokenAdapt框架,这是一种模型无关的分词器移植方法,适用于常见的Transformer架构(处理绑定和非绑定嵌入配置)。想象它像一位语言外科医生,能够在不破坏语言模型"大脑"的情况下,精确替换其"语言接口"。

TokenAdapt的核心是一种用于新引入的唯一词汇的混合启发式初始化策略。这种策略巧妙地结合了两种不同的估计方法:

首先是局部组合估计(Local Heuristic)。当面对一个新词时,TokenAdapt会使用原始分词器将其分解成子词。然后,一个高质量的外部文本嵌入模型会评估完整词字符串与其构成子词字符串之间的语义相似性。这些相似性提供了权重,用于组合原始子词的嵌入。子词相似性按照长度进行加权,因为经验表明这种方法非常有效。

想象你在学习一种新语言,遇到了"冰淇淋"这个词。你已经知道"冰"、"淇"和"淋"的含义,但需要将它们组合起来理解整个词。TokenAdapt就是通过智能地评估每个部分对整体含义的贡献,然后按照这种贡献度加权组合它们,最终形成对"冰淇淋"的完整理解。

其次是全局相似性估计(Global Heuristic)。使用相同的外部嵌入空间和高效的向量搜索,TokenAdapt会在整个原始词汇表中找到与新词在语义上最相似的邻居。然后,这些邻居的原始嵌入按照其相似性分数进行加权。

继续我们的例子,假设你不知道"冰淇淋",但知道"雪糕"、"冰激凌"和"甜点"。TokenAdapt会找出哪些已知词与"冰淇淋"最相似,然后基于这些相似词的理解,推断出"冰淇淋"可能的含义。

最终分配给新词的初始化是这些局部和全局估计的加权组合。这种方法精心设计,旨在从一开始就准确地将新词投射到原始模型的嵌入空间中,从而保留关键的语义关系。

整个TokenAdapt工作流程分为三个阶段:1)直接传输共享词嵌入;2)通过局部+全局嵌入融合合成新词表示;3)模型集成,包括更新嵌入层和权重绑定。这个过程就像为语言模型进行一次精密的"词汇移植手术",保留了原有的语言理解能力,同时授予它理解新语言的能力。

四、Supertoken:打破单词边界的革命

除了TokenAdapt框架,研究团队还探索了一种更具前瞻性的创新:学习多词"超级词元"(Supertoken)。这种方法通过概率性预分词策略增强序列压缩并减少分割,为语言模型提供了一种全新的"视角"。

传统的分词器通常将文本分解为子词单元,受到词边界的限制。超级词元方法则颠覆了这一传统,允许词元跨越词边界,捕捉常见的词组和表达,大大提高了表示效率。

想象你在阅读时不再逐字阅读"人工智能正在改变世界",而是一眼就能识别整个短语的含义。超级词元正是让语言模型获得这种能力的技术。

研究团队开发的随机分块算法在训练前对文本进行随机切分,创建变长文本块,鼓励BPE(字节对编码)合并主要发生在这些预定义块内部。这一过程促使分词器学习更长的、语义更丰富的标记单位,从而提高压缩效率。

通过对英语、印地语、数学公式和编程代码等多种领域的分析表明,超级词元分词器确实能够捕捉到更多的多词单元,显著提高压缩比,减少序列长度,从而降低计算成本。

五、实验结果:数据说话

研究团队对TokenAdapt进行了全面测试,主要使用meta-llama/Llama-3.2-3B和Qwen/Qwen2.5-3B作为基础模型,评估其适应两种目标分词器的能力:标准的fhai50032/QTK-81K和自定义的超级词元分词器tinycompany/Adi-Bun-128K。

主要性能指标是零样本困惑度(perplexity),这是评估语言模型在未见过的文本上表现的关键指标,类似于测量模型对新语言的"理解程度"。结果令人振奋。

在各种实验场景中,TokenAdapt一致地产生了最低的总体困惑度比率,表明在分词器替换后保持了原始模型能力的程度明显高于替代方案。具体来说,与ReTok和TransTokenizer基线相比,TokenAdapt混合初始化方法在不同基础模型和新训练的目标分词器中始终产生更低的困惑度比率。

以Llama-3.2-3B迁移到QTK-81K为例,TokenAdapt的总体困惑度比率为48.2,而ReTok基线为71.1,TransTokenizer基线高达145.9。这意味着TokenAdapt的性能比ReTok提高了约1.5倍,比TransTokenizer提高了约3倍。

在不同语言和领域的表现上,TokenAdapt也表现出明显优势。特别是在处理代码和英语文本时,TokenAdapt几乎完美地保留了原始模型的能力,困惑度比率接近1,这相当于分词器替换几乎没有造成任何性能损失。

在与超级词元分词器(Adi-Bun-128K)配对时,虽然所有方法的困惑度比率都有所提高,但TokenAdapt依然保持领先优势,总体困惑度比率为577.5,明显低于ReTok的1174.0和TransTokenizer的4173.6。这表明,即使面对更具挑战性的分词器更换任务,TokenAdapt仍能提供更好的适应能力。

特别值得一提的是,TokenAdapt的超级词元方法在某些实验条件下展示了显著的压缩优势。例如,在英语语料库上,Adi-Bun-128K使用了283,657个词元,而DeepSeek-R1和Krutrim-Ins等竞争分词器分别使用了338,873和343,067个词元,压缩效率提高了约17-20%。这种效率提升在实际应用中意味着更快的处理速度和更低的计算成本。

六、研究启示与未来展望

这项研究为解决大型语言模型中的分词器局限性提供了一个实用且计算效率高的途径。TokenAdapt框架通过其创新的混合启发式策略,为适应新分词方案的模型开辟了一条成本更低的路径。

研究团队的混合分词器移植策略证明了用于初始化唯一词元嵌入的有效性,显著优于已建立的基线和先进方法,在保持模型性能的同时最小化了重新训练需求。而超级词元的初步探索也确认了这种方法在提高压缩效率方面的巨大潜力。

有趣的是,研究过程中的一个反直觉发现是,在全局启发式中应用相似性阈值过滤(例如,过滤掉相似度低于0.5的邻居)反而导致模型困惑度增加。这表明嵌入空间中的交互比我们想象的更为复杂,简单的相似性筛选可能无法捕捉这种复杂性。

展望未来,这项工作开辟了几个值得探索的研究方向,包括:探索更具适应性的启发式权重分配,调查替代辅助语义空间的有效性,开发集成策略以共同优化超级词元和移植,以及深入研究观察到的阈值现象背后的原理。

通过提供克服分词器限制的有效工具,这项研究旨在增强大型语言模型在更广泛的任务和资源约束中的多功能性和适用性。这不仅对学术界具有重要意义,对于希望将强大的语言模型适应特定领域、语言或效率要求的实践者来说,也提供了切实可行的解决方案。

总的来说,TokenAdapt和超级词元方法代表了语言模型适应性的重要进步,为打破"词汇牢笼",实现真正的语言自由提供了切实可行的路径。它们不仅提高了模型的效率和性能,还降低了适应新领域和语言的门槛,使强大的语言模型能够惠及更广泛的应用场景和用户群体。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-