这项由中国电信人工智能研究院TeleAI团队完成的重要研究发表于2025年1月,详细介绍了他们最新开发的三款大语言模型——TeleChat2、TeleChat2.5和T1的技术报告。有兴趣深入了解技术细节的读者可以通过arXiv:2507.18013v1访问完整的技术论文。
在人工智能快速发展的今天,大语言模型就像是数字世界中的"万能助手",它们能够理解人类语言、回答问题、编写代码,甚至进行复杂的推理。TeleAI团队在这个充满竞争的领域中推出了他们的最新作品,这就像是厨师们在同一个厨房里比拼厨艺,每个人都在努力做出最美味的菜肴。
TeleAI团队此次发布的三款模型可以说是他们的"招牌菜"。TeleChat2是基础版本,就像是一道精心调制的主菜;TeleChat2.5在此基础上进行了优化,追求更快的响应速度,如同快手菜;而T1则专门针对复杂推理任务进行了特殊调教,就像是需要精细工艺的法式大餐。这三款模型都提供了35B和115B两种参数规模,就像同一道菜有小份和大份的选择。
这项研究的特别之处在于,虽然模型的基础架构没有太大变化,但通过改进训练方法,就像改良烹饪工艺一样,获得了显著的性能提升。研究团队使用了10万亿个高质量数据标记进行预训练,这个数据量相当于把世界上所有图书馆的藏书都读了好几遍。更令人印象深刻的是,T1-115B模型在数学推理和编程任务上的表现甚至超过了OpenAI的o1-mini和GPT-4o等知名模型。
一、模型架构:在经典配方基础上的精心调味
TeleAI团队在设计这三款模型时,选择了延续经典而成熟的架构配方。就像优秀的厨师不会随意改变传统菜谱的基本结构,而是在细节上精心调味一样,研究团队保持了TeleChat原有的核心架构,但在关键地方进行了巧妙的改进。
这些模型都采用了Pre-Norm设计配合RMSNorm标准化技术,这就像是在烹饪过程中严格控制每个步骤的温度和时间。在激活函数方面,他们选择了SwiGLU作为前馈网络的激活函数,这个技术名词听起来复杂,但实际上就像是在菜品中添加特殊的调料,让模型的"口感"更加丰富。同时,他们还集成了旋转位置编码技术,这种技术帮助模型更好地理解文本中词语的位置关系,就像厨师需要知道每种食材在什么时候加入才能达到最佳效果。
在具体的技术调整上,研究团队做了两个重要改进。首先,对于115B参数的大模型,他们采用了分组查询注意力机制,使用8个键值头而不是传统的多头注意力。这种改进就像是用更高效的厨具来加快烹饪速度,既能加速训练过程,又能更有效地利用计算资源。其次,他们提高了RoPE基础频率参数,这个调整看似微小,实际上大大增强了模型处理长文本的能力,就像调整烤箱温度能让面包烤得更均匀一样。
在模型规模设计上,35B版本配置了64个层级、6144个模型维度和48个注意力头,而115B版本则扩展到96个层级、8192个模型维度和64个注意力头,但键值头数量精简到8个。这种设计就像是为不同用途准备不同大小的餐具,既要保证功能完整,又要考虑实际使用的便利性。
二、预训练过程:从原料选择到精心烹制的完整流程
TeleAI团队的预训练过程就像是一位大厨从选择最优质的原料开始,经过精心的准备和烹制,最终呈现出完美菜品的完整过程。整个预训练分为两个主要阶段:初始预训练阶段和长文本退火阶段。
在初始预训练阶段,研究团队首先要解决的是"原料采购"问题。他们从多个来源收集了丰富多样的数据,包括网页内容、书籍、百科全书、新闻文章、社交媒体平台、学术论文、代码仓库等通用领域资源,同时还精心收集了来自金融、建筑、医疗等二十多个专业领域的特定数据。这就像一位大厨不仅要准备基本的米面油盐,还要搜集各种地方特色食材,确保能烹制出丰富多样的菜品。
数据清洗过程则像是食材的精心处理。研究团队实施了多层次的去重策略,包括网址级别、文档级别和段落级别的去重,确保没有重复的"食材"混入其中。他们还设计了启发式过滤规则,比如排除过于简短或缺乏实质信息的文本,过滤掉标点符号异常频繁的内容,清除包含过多敏感词汇的文本。对于代码相关数据,他们甚至会根据源网站的评价标准进行筛选,比如GitHub项目的星标数量就像是菜品的用户评分。
更进一步,研究团队还引入了大语言模型来进行质量控制,这就像请专业品鉴师来把关食材质量。这些模型会评估文本的相关性、连贯性和流畅性,同时识别和标记可能存在毒性、偏见或不当内容的材料。对于数学和编程相关的数据,他们特别重视正确性和可执行性,使用自动化脚本和静态分析工具来验证语法正确性,通过代码执行反馈来确保代码样本能够正常运行,使用符号计算工具验证数学问题的准确性。
在确定数据配比方面,研究团队采用了聪明的策略。由于115B这样的大模型训练成本极高,无法频繁尝试不同的数据配比,他们先在较小的模型(3B和7B)上进行实验,就像厨师在制作大餐前先用小份量试验调料比例。通过这些实验,他们发现英文语料的比例不应过度降低,原因有两个:中文本身的语言复杂性更高,以及中文语料的整体质量相对较低。基于这些洞察,他们预测了更大模型在不同数据配比下的表现,从而选择最有希望的配方进行大规模训练。
在实际训练过程中,研究团队采用了课程学习策略来动态调整不同数据类型的比例。在训练初期,他们强调更简单、更通用的数据,帮助模型建立强大的语言理解和基础推理能力。随着训练的进展,他们逐渐增加更复杂、更专业的数据比例,如数学问题和代码相关任务,让模型逐步建立高级能力。为了确保平衡学习,他们每训练1000亿个标记就进行一次全面评估,涵盖所有主要数据类型,根据评估结果调整后续训练阶段的数据采样比例,增加模型表现相对较弱领域的数据代表性。
在训练的技术细节上,他们使用Adam优化器,设置学习率参数为β1=0.9、β2=0.95,并采用余弦学习率调度器。在达到峰值学习率后,学习率会逐渐衰减到峰值的10%。他们还应用了权重衰减和梯度裁剪等技术来确保训练稳定性,将最大序列长度设置为8K,在总计10万亿个标记上进行预训练。
长文本退火阶段是整个预训练过程的精华部分。为了在训练效率和效果之间取得最佳平衡,研究团队将长文本扩展整合到退火阶段。这个阶段的目标是让模型能够处理更长的文本,同时保持在短文本上的强大性能。他们将TeleBase2-35B的上下文窗口扩展到256K标记,TeleBase2-115B扩展到128K标记,同时确保模型在8K标记长度上的性能不受影响。
在长文本训练的数据准备上,他们将训练数据按照长度分为五个区间:0-8K、8K-16K、16K-32K、32K-128K和128K+。在每个区间内,数据进一步按领域细分,这种结构化方法使得他们能够进行精细的分析和控制。在退火阶段,0-8K区间的数据与其他区间以7:3的比例混合,优先考虑较短序列的同时逐步引入较长上下文。同时,来自重要领域如考试和代码的高质量数据在所有长度区间都被上采样,确保关键知识源的强大覆盖。
上下文长度的扩展采用了阶段性策略,学习率根据余弦退火依次递减。第一个退火阶段的初始学习率等同于8K预训练期间使用的学习率,后续退火基于前一训练阶段三分之一步骤的权重进行,该时间点的学习率作为初始值。由于RoPE基础参数是决定大语言模型有效上下文长度的关键因素,他们将RoPE基础设置为:32K退火时为1×10^6,128K时为8×10^6,256K时为4×10^7。每个完整退火阶段需要500亿训练标记。
经过多个阶段的上下文扩展退火和微调后,TeleBase2系列模型在4K到128K上下文长度范围内的"大海捞针"测试中表现出色。这个测试就像在一大堆文件中寻找特定信息,模型需要在很长的文本中准确找到关键内容。测试结果显示,TeleBase2-115B在这项任务上取得了优异的成绩,证明了长文本处理能力的显著提升。
为了增强最终模型的稳健性和泛化能力,研究团队在训练过程结束后应用了检查点平均技术。具体来说,他们计算了最后五个检查点参数的逐元素平均值。通过平均这些检查点,他们有效地平滑了参数分布,提高了模型稳定性。这就像是调制一道复杂菜品时,最后要统一调味,确保整体口感的和谐统一。
三、后训练优化:从基础模型到专业助手的蜕变过程
后训练阶段就像是将一个已经掌握了基本技能的学徒培养成为各个领域专家的过程。TeleAI团队设计了三条不同的发展路径:TeleChat2直接在基础模型上进行监督微调和直接偏好优化,而TeleChat2.5和T1则经历了更加复杂的三阶段训练过程。
监督微调阶段是整个后训练的基础,就像是为学徒制定全面的课程表。研究团队首先开发了一套标签系统来系统性地组织和分类监督微调数据,确保在不同学科领域的平衡代表性。这个分层系统包括数学、编程、推理、对话安全、指令遵循、工具使用等主要类别,每个类别都进一步细分为精细的分类,全面捕获所需的能力。
在查询收集方面,研究团队从广泛的开源数据集中获取查询,并采用严格的数据清理流程来消除重复或高度相似的条目。为了识别语义关系,他们将查询映射到高维嵌入空间,并应用K-means聚类算法来有效分组。在清理和组织标签系统内的数据后,他们识别出某些类别的空白以及任务难度分布的不均衡。为了解决这些挑战,他们利用自指导和指令演化技术生成合成查询,构建一个不仅完全覆盖知识系统还实现复杂性和多样性良好平衡分布的查询集。
对于不同数据类别,研究团队设计了单独的难度评分提示,并利用大语言模型对每个来源内的每种数据类型进行单独评分。对于数学和代码等领域,他们采用通过率指标来区分学习难度。对于创意写作、角色扮演、指令遵循和结构化数据生成等某些数据类型,他们观察到开源数据集中的难度水平普遍较低。为了解决这个问题,他们手动策划高质量种子示例,并通过指令演化重建数据集,确保数据难度与实际使用复杂性密切匹配。
在响应生成方面,研究团队采用了人工标注和合成数据生成相结合的方法。他们组建了一支由内部标注员和外部承包商组成的团队来执行手动数据标注,标注员在广泛的学科领域拥有多样化的专业知识。为了解决挑战当前大语言模型的查询,特别是在数学和推理任务中,他们依靠标注团队生成高质量响应。对于创意写作、角色扮演和开放式问答等非推理任务,他们让人工标注员验证合成数据的准确性。
对于收集到的查询,他们首先使用高性能模型进行采样,并根据任务特定的评估标准选择最优答案。具体来说,对于具有可验证正确性的任务,如数学、代码生成、指令遵循和STEM考试,他们采用基于规则的奖励系统,通过预定义指标评估响应,只保留正确答案。对于主观任务,如人文学科、创意写作、开放式问答,他们利用大语言模型评判框架,独立的大语言模型基于流畅性、连贯性和相关性对响应进行评分,只保留得分最高的响应。
为了进一步确保数据准确性,他们实施了一套全面的基于规则的数据验证机制。在生成过程中,经常出现重复内容、截断输出和乱码字符等问题,他们严格过滤掉此类错误数据。他们通过基于规则的验证脚本强制约束合规性,确保遵守格式特定要求,如输出长度、段落计数或用户查询施加的结构指导原则。他们还使用敏感关键词数据库实施内容过滤器,过滤可能包含安全风险的答案,被标记的数据随后由人工标注员执行进一步验证以确保质量。
在确定数据配比方面,研究团队采用了一种创新的迭代算法。他们的分析揭示了模型性能与验证集困惑度之间的潜在负相关关系,即在验证集上实现更好评估性能的模型通常表现出较低的困惑度。然而,当验证集按类别分区时,并非所有子集都在相同的训练步骤达到最小困惑度。为了解决这个问题,他们设计了一种迭代调整训练数据内每个类别子集代表比例的算法。
在第t轮微调实验中,他们将训练数据按分类划分为各种子集,并定期记录每个子集的困惑度。他们使用三次样条插值拟合曲线,表示子集i在第t次迭代中困惑度p作为训练步骤s的函数。类似地,他们根据每个子集的标记计算困惑度的加权平均值,并拟合其最低点。新比例的计算采用特定的数学公式,其中κ和μ是基于数据集特征动态校准的超参数,在他们的实验中最优值分别为10和15000。
在训练细节方面,他们通过网格搜索优化微调的超参数,实现特定于模型的训练配置。对于35B变体,余弦衰减学习率调度从3×10^-5开始,逐渐衰减到1×10^-5,批处理大小为8;对于115B变体,学习率从1.5×10^-5开始,衰减到1.5×10^-6,批处理大小为16。为了提高训练效率并减少序列填充开销,他们实施了打包策略,将多个训练样本连接成单个序列,同时在可能的情况下战略性地将单轮样本组合成多轮对话,增强模型的多轮对话能力。
直接偏好优化阶段是提升模型质量的关键步骤,就像是通过不断的实践和反馈来完善技能。在偏好数据构建方面,他们将监督微调提示分为两部分,将90%分配给监督微调训练,10%分配给直接偏好优化。由于他们的监督微调提示提供了对不同领域和不同复杂性水平的全面覆盖,直接偏好优化提示能够满足多样性和难度平衡的要求。此外,他们整合了新的指令遵循约束来增强模型遵守指令的能力,并引入了基于先前模型弱点的配对,以解决其缺陷。
在响应生成环节,给定提示后,他们首先从一组最先进的开源和专有模型中进行采样,这些模型在参数大小和模型系列方面有所不同。他们使用贪婪采样,每个模型只采样一次。接下来,他们通过从最新的TeleChat2.5和T1模型采样完成来整合策略内数据,利用高温采样产生多个响应。为了提高拒绝采样的效率,他们采用vllm加速推理过程。
在偏好标注方面,为每个提示生成多个响应后,有必要为每个响应分配奖励。对于可验证的问题,奖励基于特定标准或规则确定。例如,在编程问题中,他们评估解决方案是否通过单元测试;在数学、推理和标准考试问题中,他们评估生成的答案是否导致正确解决方案;对于指令遵循约束提示,他们验证生成的答案是否遵循约束。对于具有自由形式答案的开放式问题,他们使用大语言模型评判基于四个不同因素在0到10的尺度上评估每个答案:有用性、指令遵循、完整性和准确性。
偏好配对构建遵循几个关键原则。选中的响应专门从得分最高的响应中选择,为了维持响应质量标准,他们对选中响应资格施加得分≥8的最低阈值。当多个响应达到相同的最高得分时,优先考虑TeleChat系列本身生成的响应,而不是策略外候选者。这种设计选择减轻了直接偏好优化训练中固有的潜在分布偏移问题。拒绝的响应严格从TeleChat系列模型自己的生成中采样,这种方法允许模型通过从自己的错误模式中学习进行自我纠正。在选中和拒绝配对之间强制执行最小绝对得分差异(Δ≥2),这个阈值考虑了大语言模型评判评分的记录不稳定性,有效过滤掉模糊比较,其中微小得分变化可能不反映真正的质量差异。
在训练细节方面,他们为直接偏好优化训练一个时期,学习率为5×10^-7,批处理大小为256。他们使用学习率预热和余弦学习率调度器,β超参数设置为0.1。他们在长上下文监督微调检查点上进行直接偏好优化训练,但只选择标记长度短于8192的样本。他们的观察表明,在直接偏好优化中仅利用短上下文训练数据不会对长上下文性能产生负面影响。
在直接偏好优化训练期间,他们为配对胜者添加了缩放系数为0.2的额外负对数似然损失项,这对性能也被证明是至关重要的。此外,他们采用了一种技术,在损失函数中屏蔽选中和拒绝响应的终止标记,以增强直接偏好优化训练的稳定性。这是必要的,因为选中和拒绝响应中共享标记的存在创建了冲突的学习目标,要求模型同时增加和减少这些标记的可能性。
模型合并是提升整体性能的重要步骤。在直接偏好优化阶段期间,他们合并来自涉及不同数据版本或超参数的实验的模型。特别是,他们通过简单平均权重来合并多个模型,并观察到这种合并过程有利于增强模型的稳健性和整体能力。
他们还采用了迭代直接偏好优化的方法。离线偏好调整方法程序的迭代应用已被证明是有益的,更新的模型用于构建更具信息性并导致进一步改进的新偏好配对。因此,他们在三轮中应用这些方法,在每个周期中通过从最新模型采样合成数据来收集新的偏好配对。
强化学习阶段是整个后训练过程的高级阶段,专门针对数学推理和代码生成能力的提升。在数学强化学习方面,他们从两个公开可用的来源策划数据集:OpenR1-Math220k和Synthetic-1。为了确保数据质量,他们过滤掉需要证明的问题以及具有不完整或不一致参考的问题。具体来说,他们只保留可以使用数学等式函数自动验证的问题,该函数检查答案的数值或分析等价性。对于答案提取,他们提示模型将其最终答案包装在boxed{}中,并运行验证过程以确认正确性。
在编程强化学习方面,他们从监督微调数据集中提取编程问题的子集,只保留能够执行代码执行反馈的样本。对于单元测试,他们开发了一个支持多种测试方法的安全本地代码沙箱环境,包括标准输入输出验证和基于断言的验证。
在工具使用强化学习方面,他们采用两步策略策划函数调用数据。首先是初始候选集构建,他们选择一批源自与监督微调数据相同来源的函数调用数据作为候选。随后,多个大语言模型用于对每个查询执行多个推理,选择模型间输出一致的查询及其相应的真实答案作为训练输入。然后是难度分层和数据策划,目标模型用于对查询执行多个推理,将模型输出与参考答案进行比较以计算pass@5率。根据pass@5将查询分类为难度级别:pass@5=1表示对当前模型来说太容易;0<pass@5<1表示模型有潜力正确回答但在这些查询上表现不稳定;pass@5=0表示模型难以正确回答的困难查询。强化学习训练数据集由中等和困难数据以2:1的比例组成。
对于奖励函数设计,他们根据数据类型实施类别特定处理。具体来说,数据分为需要工具和不需要工具的类别。对于需要工具调用的任务,他们建立二元奖励:如果模型输出格式完全正确且工具调用的特定内容与参考答案完全匹配,则获得全额奖励(+1);如果输出格式不正确或工具调用内容偏离参考答案,则给予惩罚(-1)。对于不需要工具调用的纯文本任务,他们采用相对灵活的评分机制:首先,他们使用另一个大语言模型对模型输出进行质量评估,得出原始质量得分;然后,他们通过线性变换公式将这个原始得分映射到统一的奖励值范围[-1,1],以便与工具调用任务的奖励进行统一比较和优化。
他们利用OpenRLHF框架进行训练,并采用reinforce++算法。为了确保稳定训练,他们实施动态采样,持续采样直到批次完全填充准确性既不是0也不是1的示例。对于超参数,他们使用AdamW优化器,常数学习率为5×10^-7,结合20个推出步骤的线性预热。在推出阶段,提示批处理大小设置为128,每个提示生成16个响应。对于训练,小批处理大小也配置为128。
四、核心能力提升:针对特定技能的专业化训练
TeleAI团队不仅要让他们的模型具备通用能力,还要在特定领域达到专业水准。就像培养一个全能型人才,既要有广博的知识基础,还要在某些专业领域有突出的表现。他们重点加强了四个关键能力:代码生成、数学推理、工具使用和精确指令遵循。
在代码生成能力提升方面,研究团队采用了两阶段训练策略,就像先让学生掌握编程基础,再进行专业项目实战。在第一阶段,基础模型在数千万个多样化指令样本上进行训练,这些样本来自大规模开源数据集如CodeAlpaca、CodeSearchNet,以及从GitHub仓库提取的代码。这个基础阶段通过暴露模型于广泛的任务范围来拓宽模型能力。在随后的微调阶段,他们采用高质量、精心策划的指令数据集,包括多语言代码生成任务、从Codeforces和LeetCode通过网页爬虫获得的编程竞赛题目,以及编程教程。对于每个查询,大语言模型生成多个候选响应,可验证的问题使用代码执行反馈进行评估,而不可验证的问题则利用大语言模型本身来排名和选择最适合监督微调的示例。
代码执行反馈是确保代码质量的关键机制。对于支持测试用例验证的问题,他们使用大语言模型自动生成10个测试用例,这些测试用例全面覆盖正常场景、边界条件、异常情况和复杂输入,以严格评估正确性。测试用例按编程语言分类,并在安全沙箱环境中执行。通过运行时执行验证来验证代码正确性,由于代码执行中的错误而失败的样本被过滤掉以确保训练数据质量。
课程学习策略进一步优化了代码训练过程。他们实施了一种模型驱动的课程学习策略,利用模型自身的生成能力在第二训练阶段评估提示难度。具体来说,他们使用高采样温度为每个提示生成十个响应,通过率作为难度的代理来计算,动态构建训练课程。最初,模型专注于具有较高通过率的提示,确保稳定学习和基础技能获得。随着训练进展,它逐渐过渡到具有较低通过率的提示,迭代完善其编程能力,同时系统性地扩展其极限。
在数学和推理能力提升方面,研究团队同样采用了两阶段微调策略,从广泛能力构建过渡到深度精确优化。在第一阶段,基础模型在超过一千万个合成样本上进行训练,这些样本来自广泛的开源数据集如StackExchange、合成K-12数学问题及答案,以及合成大学教学材料。所有数据都经过来源质量评估、去重、格式清理、合成数据生成和质量采样检查。第二阶段采用较小但更高质量的策划数据集,逻辑推理样本手动收集并带有真实答案,涵盖因果推理、运筹学和博弈论等领域。数学数据包括高质量开源数据集、经过验证答案的许可K-12数学问题、全球竞赛问题,以及少量合成数据以平衡分布。所有样本都经过三重验证:问题质量评分、答案一致性检查和推理过程验证。难度分级机制确保不同难度级别数据的平衡分布。
答案验证机制是确保数学能力训练质量的核心。为了验证数学答案的准确性,他们实施了多模型协作验证策略,结合人工监督进行共识筛选。具体来说,对于目标数学问题集,他们使用多个大模型独立生成答案,专门的答案一致性判断机制分析和比较输出。所有模型输出完全一致的样本进行人工抽样质量检查,而不一致的输出通过人工标注重新检查以确保最终答案正确性。
在工具使用能力方面,研究团队首先收集了主流开源函数调用数据集,并进行数据清理和重构。他们的验证重点关注两个关键方面:格式验证,严格检查工具调用与提供的函数列表的对齐,包括验证工具名称的正确对应、参数名称的匹配,以及参数类型与要求的符合;工具调用结果验证,利用大语言模型评估工具调用的有效性以及工具名称和参数配置的准确性。此外,参考BFCL基准构建中使用的方法,他们对收集的函数调用数据进行分类,以确保训练数据集内函数调用类型的平衡分布。
在清理开源数据后,他们收集了大约11万个样本。然而,在清理过程中,他们识别出包括中文数据不足、对话轮次有限和难度水平较低在内的问题。为了解决这些挑战,他们基于API之间的依赖关系构建工具图结构,利用各种图采样方法创建具有平衡难度分布的任务。此外,他们利用工具图内的依赖关系来促进多轮工具调用准确性的验证,这显示出显著的优化效果。
在精确指令遵循能力方面,研究团队开发了一套系统化的监督微调训练数据集构建流程。在这个过程中,他们通过三个关键阶段构建高质量训练数据:约束集构建、指令演化和带验证过滤的响应生成。
约束集构建遵循IFEval的方法,他们识别代表性应用场景,并构建完全由可验证约束组成的约束集,这些约束可以通过自动化脚本进行严格验证。例如,这些约束包括响应长度要求、语言规范、格式指导原则等。通过利用自动化验证,这种方法消除了手动干预的需要。
指令演化阶段基于约束集,他们提示大语言模型通过明确纳入随机采样的约束子集来将种子指令演化为新指令。这些约束指导大语言模型生成具有明确操作要求的指令。此外,大语言模型需要明确指定与这些约束对应的参数值,这些参数值被记录用于后续验证。
响应生成和验证过滤阶段,他们利用大语言模型为新构建的指令生成响应。利用约束定义和参数值,他们为每种类型的约束设计专门的验证脚本。这些脚本基于执行反馈评估模型输出,并自动过滤掉未能满足约束的响应。这个过程确保生成的指令-响应配对始终遵循预定义的质量标准。
五、工程技术架构:支撑大规模训练的技术基座
在开发这三款先进的语言模型过程中,TeleAI团队不仅要解决算法和数据问题,还要构建强大的技术基础设施来支撑如此大规模的训练任务。就像建造一座摩天大楼需要坚实的地基和精密的工程系统一样,训练万亿参数规模的模型需要精心设计的硬件架构和软件优化。
研究团队将训练环境从之前的640个NVIDIA A100 GPU集群迁移到了中国电信云计算公司位于上海的计算中心,该中心配备了多达8000个华为昇腾NPU的Atlas 900 A2集群。这种规模的计算资源就像是从一个中型工厂升级到了一个现代化的大型生产基地,为训练万亿级参数的模型提供了必要的计算能力。
在计算架构方面,集群中的每个节点都包含8个通过HCCS连接的NPU,训练任务通过基于MindCluster的平台进行调度管理。存储系统采用了高性能文件系统设计,包括集群管理节点、元数据服务器节点、对象存储服务器节点和被称为OceanDisk的物理存储设备。集群管理节点通过双25Gbps链路连接到基于云的存储系统,为分布式存储操作提供管理接口。OceanDisk设备通过光纤通道网络直接连接到元数据服务器和对象存储服务器节点,确保数据存储和检索的高速低延迟通信。
网络架构采用了两层Clos拓扑结构,每个训练服务器通过200GE上行链路连接到RoCE交换机,实现处理单元之间的高速200GE RoCE互连。Spine/Leaf层次结构配置为非收敛设计,确保最大带宽可用性。参数通信网络整合了网络侧负载均衡技术,在大型模型训练期间确保链路层的高效负载均衡,这种方法减轻了哈希冲突并提高了计算集群的整体吞吐效率。
分布式训练采用了MindSpore通用大模型并行框架提供的4D并行策略。这个框架设计用于通过集成四种关键并行策略来支持大规模模型的高效可扩展训练:数据并行、张量并行、管道并行和上下文并行。
数据并行就像是让多个厨师同时制作相同的菜品,输入数据集沿批次维度分区,不同设备组独立处理单独的数据批次。在反向传播期间,跨所有设备执行梯度同步,确保模型参数的一致更新。这种方法对于扩展到更大数据集和提高分布式系统中的硬件利用率特别有效。
张量并行则像是将一个复杂的任务分解给多个专家同时处理,模型权重跨设备分区以减少内存使用和计算开销。使用集体通信原语如全收集和归约分散来交换和聚合中间结果,实现张量操作的高效分布式计算。
管道并行将模型分为多个层级或阶段,每个阶段分配给特定的设备组。前向和后向传递以流水线方式执行以最大化并行性。为了减轻管道气泡造成的低效率,采用了负载均衡和虚拟管道调度等策略。
上下文并行是MindSpore独有的策略,实现了为有效处理长序列任务而设计的3D序列并行方案。通过跨设备分割序列计算,上下文并行缓解了与大输入序列相关的内存和计算约束。
为了确定分布式并行的最优参数,研究团队进行了各种配置的广泛实验。张量并行由于全收集和归约分散等操作而产生通信开销,而管道并行受到气泡和发送接收通信引入的低效率影响。通过采用负载均衡和其他优化技术来减少管道气泡,他们发现管道并行在效率方面始终优于张量并行。经过仔细调整并行配置、硬件资源和软件优化后,他们在不同配置下实现了33.8%到36.3%的模型FLOP利用率。
在大规模分布式训练中,维持对全局批次大小的精确控制对于确保模型收敛和实现最优性能至关重要。过大的批次大小可能对收敛动态和最终模型质量产生不利影响。出于这个原因,全局批次大小通常在训练初始阶段限制在400万到800万tokens之间。当在4096-NPU集群上训练Telechat-115B时,增加的数据并行维度导致每批次tokens更多。为了将每批次tokens限制在400万,减少了管道中的微批次数量,这增加了管道气泡并降低了整体效率。为了解决这个问题,他们利用虚拟管道并行功能来最小化气泡,实现了33.8%的模型FLOP利用率。当扩展到6144-NPU集群时,他们将虚拟管道并行因子增加到3,进一步减少管道气泡比率并将模型FLOP利用率提高到34.1%。对于序列长度为128K的超长序列训练,他们利用上下文并行来缓解与长序列相关的内存和计算压力,这种方法使得在4096-NPU集群上训练Telechat-115B成为可能,实现了34.5%的模型FLOP利用率。
除了基础并行策略之外,Telechat的分布式训练还集成了MindSpore启用的几个高级优化。选择性重计算用于通过在反向传播期间重计算选择的激活而不是存储它们来减少内存开销。优化器并行通过跨设备分布优化器操作的计算工作负载来增强训练效率。细粒度多副本功能允许计算和通信重叠,有效屏蔽通信延迟并提高端到端吞吐量。此外,管道并行优化利用虚拟管道并行,采用1F1B调度策略结合管道负载均衡调整来实现计算资源的更高利用率。
选择性重计算技术解决了大规模模型训练中的内存瓶颈问题。在前向传递中生成的激活通常存储用于后向传递,导致显著的内存消耗。这个问题在管道并行中加剧,需要存储来自多个微批次的激活。对于超过70B参数的模型,常见方法是省略激活存储并在后向传递期间重计算激活,从而减少内存使用。然而,这种方法在反向传播期间引入额外计算,可能降低计算效率。
为了解决这个问题,TeleChat训练利用了MindSpore提供的选择性重计算能力。这种方法选择性地对关键操作符应用重计算,平衡内存节省与计算开销。具体来说,他们针对前馈网络中的操作符,包括Silu和Mul,以及RMSNorm中的Cast操作符。选择这些操作符是因为它们的计算成本低且对减少激活分配内存的影响显著。这种策略使他们能够优化内存使用同时保持训练效率。
优化器并行解决了数据并行训练中的另一个效率问题。在数据并行训练中,参数更新在设备间冗余计算,导致内存使用低效和大规模网络中的次优性能。优化器并行通过跨数据并行维度中的设备分布优化器计算来解决这个问题。具体来说,模型参数和梯度基于设备ID分为切片,每个设备独立更新其分配的切片。更新后,使用通信操作跨设备聚合参数。这种方法提供了自然负载均衡的好处,确保每个设备具有相等的参数和计算份额。然而,它施加了参数形状必须可被设备数量整除的约束。
管道并行优化针对内存不平衡这一突出挑战,特别是前端阶段经常面临显著内存压力。为了解决这个问题,他们实施了结合调整分配给每个阶段的层数与差异化重计算策略的优化策略。对于经历高内存压力的阶段,他们减少分配给这些阶段的层数并对所有层采用选择性重计算,这种方法在平衡计算权衡的同时最大化内存节省。相反,内存压力较小的阶段被分配额外的层并仅对层子集采用选择性重计算,在内存使用和计算效率之间取得平衡。
虚拟管道并行的采用进一步提升了训练效率。为了确保大规模模型训练的有效性,批次tokens大小通常受到约束。当使用大集群训练时,数据并行的显著增加导致更小的微批次大小。在固定数量的管道阶段下,更小的微批次导致更大的管道气泡,对训练效率产生负面影响。为了提高管道并行的效率并减少气泡比例,他们在训练115B参数的TeleChat2模型期间采用了虚拟管道并行。传统管道并行通常将连续层分配给单个阶段,而虚拟管道并行调度在每个阶段内采用非连续层的交错计算。通过增加通信开销,这种方法显著减少气泡比率,从而提高整体训练性能。
长序列优化技术支持了128K到256K tokens长度的长序列训练。他们通过分割查询、键和值张量的序列维度实现了序列并行(也称为上下文并行),这种方法有效减少内存消耗。在注意力计算阶段,使用全收集通信重新组装键和值张量的序列维度。为了实现序列负载均衡,他们利用点对点全收集通信在设备间交换查询和注意力结果的序列维度数据,这使得能够将后期阶段的计算密集序列与早期阶段的较轻序列交换,确保设备间的平衡计算负载。
对于更长的序列,他们采用了MindSpore提供的环注意力算法。这种方法避免在注意力计算期间完全重新组装键和值张量的序列维度,相反,它对本地QKV数据执行块状计算,确保数学等价性同时实现完全负载均衡并重叠计算与通信。
在可靠性和挑战方面,预训练阶段期间硬件故障是服务中断的主要原因,包括光模块、高带宽内存和内存组件问题。为了应对这些挑战,他们实施了恢复机制优化,通过改进存储和加载日志、检查点和数据的机制,同时升级训练框架和调度平台,优化故障恢复。这些增强显著减少了中断后恢复训练所需的时间,并通过版本检查主动解决集群环境问题。他们还加强了关键硬件如高带宽内存、光模块和内存的检查例程,建立了更严格的硬件更换标准,并简化了硬件问题解决流程。
通过这些努力,预训练中后期阶段的周故障率维持在1%以下。由硬件故障引起的训练中断显著减少,核心集群硬件的平均故障间隔时间为4天,最大间隔为21天。集群可用性指标表现强劲,周正常运行时间一致超过99%,最长不间断训练会话持续288小时。
六、性能评估:全方位验证模型能力的测试体系
为了全面评估TeleChat2、TeleChat2.5和T1三款模型的实际能力,研究团队设计了一套覆盖多个维度的测试体系。就像对一名全能型学生进行综合考试,需要从不同角度验证其掌握的知识和技能。
在预训练模型评估方面,研究团队重点关注模型在通用知识、常识推理、逻辑推理、数学问题解决和编程能力方面的表现。通用知识基准测试包括C-Eval(零样本)、MMLU(5样本)、MMLU-pro(5样本)、CMMLU(5样本)、GAOKAO(零样本)、AGIEval(零样本)、GPQA(5样本)和TheoremQA(5样本)。这些测试就像是涵盖文理科各个领域的标准化考试,能够全面检验模型的知识储备。
常识推理能力通过CommonsenseQA(5样本)和TruthfulQA(零样本)进行评估,这类似于测试一个人的生活常识和判断能力。逻辑推理能力则通过BBH(3样本)和HellaSwag(零样本)来检验,就像测试逻辑思维和推理能力的智力题。数学问题解决能力使用GSM8K(4样本)、MATH(4样本)和Ape210K(1样本)进行测试,涵盖了从基础算术到高等数学的各个层次。编程能力评估采用HumanEval(零样本)、MBPP(3样本)、Humaneval+(零样本)和MBPP+(3样本)等基准,就像是程序员的技术面试题。
测试结果显示,TeleBase2-35B在不同上下文长度(8K、32K、256K)的训练下与Qwen2.5-32B-base模型相比表现出色。在多个通用知识测试中,TeleBase2-35B展现了扎实的基础能力。特别值得注意的是,在数学推理任务如GSM8K和MATH上,TeleBase2-35B的表现显著超越了对比模型,证明了其在数学推理方面的优势。
TeleBase2-115B的表现更加令人印象深刻。在与Qwen2.5-72B基础模型的对比中,TeleBase2-115B在大多数评估指标上都显示出了明显的优势。特别是在C-Eval测试中,TeleBase2-115B-8K达到了94.0的高分,而Qwen2.5-72B仅为89.5。在数学能力方面,TeleBase2-115B在GSM8K上的得分高达90.3,大幅超越了对比模型的76.5分。
在后训练模型评估方面,研究团队采用了更加针对实际应用场景的测试基准。AlignBench是一个全面的多维基准,用于评估中文大语言模型与人类价值观和现实世界需求的对齐程度,包含8个核心类别、683个真实场景查询和经过人工验证的参考答案。IFEval评估大语言模型遵循可验证指令的能力,提供25种指令类型和约500个提示,每个都具有可量化的标准。BFCL是专门设计用于评估大语言模型函数调用和工具使用能力的基准,采用多维评估方法论,包括单轮函数调用、多轮函数调用和幻觉检测。MATH500源自原始MATH数据集,包含5000个数学问题。
对于T1模型,研究团队使用0.6的采样温度、0.95的top-p、50的top-k和1.05的重复惩罚。对于TeleChat2和TeleChat2.5,模型使用贪婪搜索和1.01的重复惩罚。对于两种模式,他们将最大输出长度设置为32768个tokens。
评估结果展现了TeleChat系列模型在思考和非思考模式下的强大能力。T1-115B在思考模式下取得了卓越性能,在MATH500上超越OpenAI o1-mini 4.0分(94.0 vs 90.0),在Alignbench上获得+0.31的优势(8.22 vs 7.91)。在非思考模式下,TeleChat2.5-115B在MATH500上超越GPT-4o-1120 12.0分(87.0 vs 75.0),在BFCL上展现+4.74的优势(83.39 vs 78.65)。TeleChat2.5-35B变体在同规模替代方案中也保持竞争力,与Deepseek-R1-Qwen32B-distill相比,TeleChat2.5-35B在IFEval上获得+5.67分(78.26 vs 73.33),在BFCL上获得+3.97分(80.11 vs 76.14),在思考模式下展现更强性能。
值得特别关注的是T1-115B在复杂推理任务上的突出表现。在MATH500这个数学推理的高难度测试中,T1-115B获得了94.0的高分,不仅超越了OpenAI的o1-mini,也展现了在数学推理方面的强大能力。这个成绩证明了研究团队在强化学习阶段针对数学推理能力优化的有效性。
在代码生成和工具使用能力方面,TeleChat2.5-115B在BFCL基准上的83.39分证明了其在函数调用和工具使用方面的专业水准。这个分数显著超越了GPT-4o-1120的78.65分,表明TeleChat2.5在实际应用场景中的工具使用能力更加出色。
在指令遵循能力方面,各个模型在IFEval基准上的表现都相当不错,T1-115B达到了80.15分,TeleChat2.5-115B也达到了80.93分。这些分数反映了模型在理解和执行复杂指令方面的可靠性,这对于实际应用部署来说是一个关键指标。
总的来说,整个评估结果证明了TeleAI团队在模型开发上的成功。无论是在基础能力还是在专业任务上,新发布的三款模型都展现出了相比前代产品的显著提升,特别是在数学推理、代码生成和工具使用等关键能力方面达到了业界领先水平。
说到底,TeleAI团队的这次发布真正展现了什么叫做"厚积薄发"。他们没有急于追求架构上的激进创新,而是像一位经验丰富的工匠一样,在每个细节上精雕细琢,从数据处理到训练策略,从基础设施到性能优化,每个环节都体现了专业水准。更让人印象深刻的是,他们不仅在技术上达到了国际先进水平,还慷慨地将这些模型开源分享,为整个AI社区的发展贡献了宝贵的资源。
TeleChat2、TeleChat2.5和T1的发布,不仅仅是三款新产品的推出,更像是中国AI研究实力的一次集中展示。特别是T1-115B在数学推理上超越OpenAI o1-mini的表现,证明了国产AI模型在某些关键能力上已经达到甚至超越了国际顶级水准。对于普通用户来说,这意味着我们很快就能用上更加智能、更加好用的AI助手,无论是帮助解决复杂的数学问题,还是协助编写程序代码,或者是处理各种日常任务。
更重要的是,这项研究为我们展示了AI技术发展的一个重要趋势:并不总是需要颠覆性的架构创新,有时候在成熟技术基础上的精细优化同样能带来突破性的进展。就像烹饪一样,有时候最美味的菜品来自于对传统食谱的精心改良,而不是完全的重新发明。对于那些想要深入了解这项研究技术细节的读者,强烈建议访问原论文(arXiv:2507.18013v1)获取更多信息。
Q&A
Q1:TeleChat2、TeleChat2.5和T1有什么区别?各自适合什么用途?
A:这三款模型就像同一个厨师的不同招牌菜。TeleChat2是基础版本,提供全面均衡的能力;TeleChat2.5专注于快速响应,适合需要高效处理的场景;T1则专门针对复杂推理任务优化,特别在数学和编程方面表现突出,适合需要深度思考的复杂问题。每款都有35B和115B两种规模供选择。
Q2:T1-115B超越OpenAI o1-mini意味着什么?
A:这标志着国产AI模型在某些关键能力上已达到国际领先水平。T1-115B在数学推理测试MATH500上获得94.0分,超越o1-mini的90.0分,证明了中国AI研究团队在技术实力上的重大突破。这不仅是技术成就,更是中国AI产业发展的重要里程碑。
Q3:这些模型是否已经可以使用?如何获取?
A:是的,TeleAI团队已经将这三款模型完全开源。用户可以通过ModelScope平台下载模型文件,GitHub上也提供了完整的代码库,包括模型微调、量化、部署等工具。这种开放策略让研究者和开发者都能免费使用这些先进的AI模型。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。