在人工智能飞速发展的今天,一个令人瞩目的研究成果从清华大学和智谱AI的实验室中诞生了。这项由GLM-4.5团队完成的研究发表于2025年8月,完整论文可通过arXiv:2508.06471v1访问。研究团队开发出了GLM-4.5系列模型,这是一个拥有3550亿参数的开源混合专家(MoE)大语言模型,同时还推出了更轻量的GLM-4.5-Air版本(1060亿参数)。
这项研究的核心突破在于创造了一个能够在推理、编程和智能代理三个关键能力领域都表现出色的统一模型。要理解这个成就的意义,不妨把它比作培养一个既是数学天才、又是编程高手、还是出色助手的全能型人才。在以往的AI发展中,大多数模型往往在某一个领域特别擅长,但很难在多个复杂领域同时达到顶尖水平。
GLM-4.5的表现确实令人印象深刻。在推理能力测试中,它在AIME 24数学竞赛中获得了91.0%的成绩,在复杂的科学问题回答(GPQA)中达到79.1%的准确率。在编程能力方面,它在SWE-bench Verified这个真实GitHub问题解决测试中取得了64.2%的成功率。而在智能代理任务中,它在TAU-Bench测试中获得了70.1%的分数。更重要的是,GLM-4.5在包含12个基准测试的综合评估中排名第三,在智能代理类任务中更是排名第二,仅次于OpenAI的o3模型。
特别值得注意的是,GLM-4.5实现了一种"混合推理模式"的创新设计。就像一个聪明的学生,它能够根据问题的复杂程度选择不同的思考方式。对于复杂的数学证明或多步骤编程任务,它会启动深度思考模式,仔细分析每个步骤。而对于日常对话或简单问题,它则采用直接回答模式,提供快速响应。
这项研究的技术创新不仅体现在模型架构上,更体现在训练方法的全面性上。研究团队采用了多阶段训练策略,总共使用了23万亿个训练数据点,并通过专家模型迭代和强化学习进行了全面的后训练优化。这种训练方法就像培养一个学生从基础知识学习到专业技能训练,再到实际应用练习的完整教育过程。
GLM-4.5系列模型已经完全开源,研究团队将代码、模型权重和相关工具都发布在了GitHub平台上(https://github.com/zai-org/GLM-4.5),希望能推动推理和智能代理AI系统的进一步研究发展。
一、模型架构:构建高效的AI大脑结构
GLM-4.5系列模型的核心创新在于采用了混合专家(MoE)架构,这种设计就像建造一座拥有多个专业部门的超级图书馆,每个部门都有自己的专家,但只有相关的专家会被激活来处理特定任务。
具体来说,GLM-4.5拥有3550亿个总参数,但在处理任何单一任务时只激活320亿个参数。这种设计的巧妙之处在于既保持了强大的能力,又控制了计算成本。就像一个大型医院虽然有各科室的专家,但病人只需要看相关科室的医生一样,这种按需激活的机制大大提高了效率。
与其他同类模型相比,GLM-4.5在设计理念上有着独特的选择。研究团队发现,相比于增加模型的"宽度"(即隐藏维度和专家数量),增加模型的"深度"(即层数)更有利于提升推理能力。因此GLM-4.5采用了相对较少的专家数量但更深的网络结构,这就像建造一座细长的高塔而不是宽阔的平房,虽然占地面积小,但能够实现更复杂的功能。
在注意力机制的设计上,GLM-4.5采用了分组查询注意力(Grouped-Query Attention),并使用了2.5倍于常规数量的注意力头。虽然这种设计在训练损失上并没有显著改善,但在推理基准测试中consistently显示出更好的性能。这种现象就像一个学生虽然平时作业分数没有明显提升,但在重要考试中表现更出色一样。
模型还引入了QK-Norm技术来稳定注意力机制的数值范围,这相当于给AI的"大脑"安装了一个调节器,确保它在处理信息时不会出现数值上的异常波动。此外,GLM-4.5还配备了多令牌预测(MTP)层来支持推理时的投机解码,这就像给汽车安装了涡轮增压器,在需要时能够提供额外的加速能力。
二、训练数据:喂养AI大脑的精心配制营养餐
GLM-4.5的训练数据收集和处理过程就像为一位学霸精心设计营养均衡的学习餐单。研究团队从互联网网页、社交媒体、书籍、论文和代码仓库等多个渠道收集了海量数据,总计达到23万亿个训练词汇。
在网页数据处理方面,研究团队采用了一种创新的质量分层策略。他们将爬取的网页按照质量评分分成不同的"桶",就像将食材按照新鲜程度分类储存一样。高质量的内容会被重复使用超过3.2轮,而最低质量的内容则被完全丢弃。这种做法确保AI模型能够重点学习高价值的知识,同时避免被垃圾信息污染。
针对代码数据,研究团队开发了一套精细的三层质量评估系统。他们首先使用基于规则的过滤方法进行初步筛选,然后使用特定于编程语言的质量模型将代码样本分为高、中、低三个质量等级。在训练过程中,高质量代码会被优先采用,而低质量代码则被排除。这就像一个编程导师只选择最优秀的代码示例来教授学生一样。
更有趣的是,研究团队对所有源代码数据都应用了Fill-In-the-Middle训练目标。这种技术就像让学生练习"完形填空",通过隐藏代码的中间部分让AI学会理解上下文关系和代码逻辑,从而提升其代码理解和生成能力。
为了增强数学和科学推理能力,研究团队特别收集了大量相关的网页、书籍和论文内容。他们使用大语言模型来评估文档中数学和科学教育内容的比例,然后训练一个小规模的分类器来预测这些评分。那些在数学和科学内容方面得分较高的文档会在训练中被重点使用。
整个训练过程分为两个主要阶段。第一阶段主要使用通用网页内容进行基础训练,就像让学生先学习基础知识。第二阶段则重点使用来自GitHub的源代码以及与编程、数学、科学相关的网页内容,这相当于进入专业技能的强化训练阶段。
三、中期训练:专业技能的精准强化
在完成基础预训练后,GLM-4.5进入了一个关键的中期训练阶段。这个阶段就像一个全才学生在掌握基础知识后,开始针对特定领域进行深度学习和实践。
仓库级代码训练是中期训练的重要组成部分。在这个阶段,AI不再仅仅学习单个代码文件,而是开始理解整个软件项目的结构和文件间的依赖关系。研究团队将来自同一代码仓库的多个文件串联起来,让模型学习跨文件的代码依赖关系。为了提升软件工程能力,他们还加入了经过筛选的GitHub问题、拉取请求和提交记录,这些内容以类似代码差异的格式组织,帮助AI理解软件开发的完整流程。
为了容纳大型代码仓库,训练序列长度从4K扩展到32K,这就像给学生提供更大的画布来创作更复杂的作品。这种扩展使得模型能够理解和处理更大规模的软件项目。
合成推理数据训练是另一个重要环节。研究团队收集了大量与数学、科学和编程竞赛相关的问题和答案,然后使用推理模型来合成完整的推理过程。这种方法就像让一位经验丰富的老师不仅提供答案,还详细展示解题的每一个思考步骤,帮助AI学会如何进行复杂的逻辑推理。
长上下文和智能代理训练是中期训练的第三个重要方面。为了进一步提升模型处理长文档的能力,训练序列长度从32K继续扩展到128K。这相当于让AI能够一次性阅读和理解一本中等篇幅的书籍。同时,研究团队还加入了大规模的合成智能代理轨迹数据,训练模型如何与外部工具和环境进行交互。
整个中期训练过程采用了先进的优化策略。研究团队使用Muon优化器进行参数更新,这种优化器能够加速收敛并容忍更大的批量大小。他们还采用了批量大小预热策略,从1600万个词汇逐渐增加到6400万个词汇,这就像让学生的学习强度逐步提升,避免一开始就承受过大的压力。
四、后训练:专家级能力的精雕细琢
GLM-4.5的后训练过程就像将一个已经很优秀的学生送到最顶尖的专业训练营,通过专家指导和实战演练,将其能力提升到专业级水平。这个过程分为两个主要阶段:专家训练和统一训练。
在专家训练阶段,研究团队构建了三个专门化的模型:推理专家、智能代理专家和通用对话专家。每个专家都像一位在特定领域有着深厚造诣的导师,专门负责某一类任务的训练和优化。这种专业化分工确保了每个领域的能力都能得到充分的发展和完善。
监督微调是后训练的起始环节。研究团队精心收集了数百万个涵盖推理任务、通用对话、智能代理任务和长文本理解的高质量样本。这些样本都配有详细的思维链(Chain-of-Thought)回答,就像为学生提供了详细的解题示例和思路分析。
在推理强化学习方面,研究团队开发了多项创新技术。他们采用了基于难度的课程学习策略,这就像为学生设计了从简单到复杂的渐进式学习计划。在训练初期使用中等难度的问题,当模型能力提升后再引入极其困难的问题。这种方法避免了训练早期因问题过难导致的无效学习,也避免了后期因问题过简单导致的训练停滞。
特别值得注意的是,研究团队发现单阶段64K输出长度的强化学习比多阶段渐进式训练更为有效。传统方法会从较短的输出长度开始,逐步增加到目标长度,但这种做法实际上会让模型"遗忘"其长文本生成能力。因此,他们选择直接在最大目标长度下进行训练,这就像让学生直接在正式比赛的场地上训练,而不是先在小场地适应。
动态采样温度是另一项重要创新。在强化学习过程中,研究团队会根据模型性能动态调整生成多样性的控制参数。当模型表现趋于稳定时,他们会提高采样温度以鼓励更多样化的探索,但同时会通过验证集评估确保不会损害模型性能。这种平衡就像教练在训练中既要鼓励运动员尝试新技术,又要确保基本功不会退步。
在代码和科学推理的强化学习中,研究团队发现了一些关键的技术细节。对于代码任务,他们发现使用基于词汇加权的平均损失比传统的序列平均损失更为有效,这种方法提供了更精细和稳定的梯度信号。对于科学推理任务,他们发现使用专家验证的高质量多选题进行训练比使用混合质量数据效果更好,这强调了数据质量在强化学习中的重要性。
智能代理强化学习是GLM-4.5的一大特色。研究团队专门针对网络搜索和代码生成代理开发了强化学习算法。他们采用结果监督和过程格式惩罚相结合的奖励机制,既确保最终任务的完成,又保证执行过程的规范性。更重要的是,他们发现智能代理任务中的测试时计算扩展效果显著,通过增加与环境的交互轮次,模型性能可以获得平滑的提升。
通用强化学习阶段则采用多源反馈系统,结合规则反馈、人类反馈和AI反馈。这种混合方法利用了各种反馈源的优势:规则反馈提供精确性,人类反馈提供细致判断,AI反馈提供可扩展性。研究团队还特别关注指令遵循能力的提升,构建了涵盖7个主要类别和151个细分约束类型的全面分类体系,确保模型能够理解和满足复杂的指令要求。
五、技术基础设施:支撑超级AI的强大引擎
GLM-4.5的成功离不开其背后强大的技术基础设施支撑,这套名为Slime的开源框架就像一座精密的工厂,专门为大规模AI训练和推理服务设计。
Slime框架的核心特色是其灵活的混合训练和数据生成架构。这个系统既支持同步集中模式,也支持异步分布模式,就像一个既能进行集体作业又能支持个体学习的智能教室。对于推理和数学等通用强化学习任务,系统采用同步模式,训练和推理引擎位于同一工作节点,结合动态采样大幅减少GPU空闲时间。而对于智能代理等复杂任务,系统采用异步模式,将数据生成过程暴露给智能代理环境,GPU训练和推理可以独立调度,确保代理环境能够持续生成新数据而不被训练周期阻塞。
为了加速数据生成过程,Slime支持混合精度推理优化。系统在训练时使用BF16精度,但在推理时动态量化到FP8精度。每次策略更新时,系统都会对模型参数进行在线的块级FP8量化,然后分发给推理节点。这种动态量化技术就像在需要时自动调整设备的工作模式,在保证质量的同时大幅提升处理速度。
针对智能代理任务的特殊需求,Slime设计了专门的异步架构。智能代理的数据生成往往需要与复杂环境进行长时间交互,这会显著拖慢训练进程。为解决这个问题,系统首先设计了高并发的Docker运行时,为每个任务提供隔离环境,大幅降低数据生成开销。然后实现了完全异步的训练循环,GPU被分割为专门的数据生成引擎和训练引擎,前者持续生成轨迹数据,后者更新模型权重并定期同步回数据生成引擎。
系统还引入了统一的HTTP接口和集中式数据池来处理不同智能代理框架的多样性。由于大多数代理框架都以消息列表格式产生数据,所有轨迹都存储在这个数据池中,作为训练的共享数据源。这种架构巧妙地将特定任务的数据生成逻辑与强化学习训练过程解耦,支持异构智能代理框架的无缝集成,并提供可定制的任务特定过滤和动态采样策略。
六、全方位评估:GLM-4.5的真实实力展现
GLM-4.5的评估就像一场全方位的能力大考,涵盖了推理、编程和智能代理等12个核心基准测试。这些测试不仅验证了模型的理论能力,更重要的是展现了它在实际应用中的表现。
在推理能力评估中,GLM-4.5在多个具有挑战性的基准测试中表现出色。在AIME 24数学竞赛中,它获得了91.0%的成绩,甚至超越了OpenAI的o3模型。在GPQA这个需要研究生水平科学知识的问答测试中,GLM-4.5达到了79.1%的准确率。在LiveCodeBench的编程竞赛问题中,它取得了72.9%的成功率。这些成绩就像一个学生在各种高难度考试中都能拿到优异分数,证明了其扎实的基础和出色的应用能力。
智能代理能力的评估更是GLM-4.5的一大亮点。在TAU-Bench测试中,GLM-4.5获得了70.1%的综合得分,这个测试模拟真实的客户服务场景,要求AI与用户进行多轮对话来解决复杂问题。在Berkeley函数调用排行榜(BFCL V3)中,GLM-4.5以77.8%的成绩位居榜首,展现了其出色的工具使用能力。在网页浏览代理测试BrowseComp中,虽然OpenAI o3的表现最佳(49.7%),但GLM-4.5以26.4%的成绩紧随其后,明显优于Claude Opus 4的18.8%。
编程能力的评估同样令人印象深刻。在SWE-bench Verified这个真实GitHub问题解决测试中,GLM-4.5取得了64.2%的成功率,超过了GPT-4.1和Gemini-2.5-Pro。在Terminal-Bench终端环境任务中,它以37.5%的成绩表现出色。这些测试就像让程序员在真实的工作环境中解决实际问题,GLM-4.5的表现证明了它具备处理复杂软件开发任务的能力。
为了更贴近真实使用场景,研究团队还进行了大量的人工评估。他们构建了一个包含660个真实场景用户提示的数据集,涵盖多种语言和类别。在与DeepSeek-R1和Kimi K2的对比评估中,GLM-4.5在英语、中文和其他语言的测试中都取得了最高的综合得分,特别是在数学、客观问答和文本生成方面表现突出。
特别值得关注的是GLM-4.5在代码智能代理方面的表现。研究团队构建了CC-Bench基准测试,包含52个精心设计的编程任务。在与Claude Sonnet 4的直接对比中,GLM-4.5以40.4%对50%的胜负比展现了强大的竞争力。更重要的是,GLM-4.5在工具调用成功率方面达到了90.6%,高于所有其他模型,证明了其在智能代理执行方面的可靠性。
在安全性评估中,GLM-4.5在SafetyBench综合测试中获得了89.87分,与Kimi-K2(90.48)和GPT-4.1(89.71)处于同一水平。在伦理道德、心理健康和身体健康等方面表现尤为出色,分别达到94.33%、94.67%和96.67%的准确率。
GLM-4.5还在一个全新的逻辑推理评估中接受了考验。为了避免数据污染风险,研究团队构建了全新的复杂逻辑推理问题集。在这个测试中,GLM-4.5获得62.0分,与Gemini 2.5 Pro(65.8)和DeepSeek-R1(62.1)处于同一水平,展现了其扎实的逻辑推理基础。
七、创新突破:重新定义AI能力边界
GLM-4.5最大的创新突破在于实现了一种全新的"混合推理模式"。这种设计就像培养了一个既能进行深度思考又能快速反应的全能型学生。当面对复杂的数学证明或多步骤编程任务时,GLM-4.5会自动启动"思考模式",详细分析每个步骤和逻辑关系。而对于日常对话或简单查询,它则采用"直接模式",提供即时响应。
这种混合模式的实现依赖于精心设计的训练策略。研究团队在训练过程中精心平衡了包含完整推理过程的数据和不包含显式思考过程的数据。这种平衡让模型学会了何时需要深度思考,何时可以直接回答,就像一个经验丰富的专家知道什么问题需要仔细考虑,什么问题可以凭直觉快速判断。
另一个重要创新是GLM-4.5在函数调用方面的突破。传统的AI模型在处理包含代码段的函数调用时,往往需要大量的字符转义,增加了模型的学习负担。GLM-4.5创新性地采用了XML风格的特殊标记模板,将函数调用的键值对封装在类似XML的标签中。这种设计大幅减少了代码段中的字符转义需求,让模型能够更自然地处理复杂的函数调用场景。
在参数效率方面,GLM-4.5展现了令人惊喜的表现。虽然总参数量达到3550亿,但每次推理只激活320亿参数,这种设计理念就像建造一个巨大的工具库,但每次只使用最合适的工具来完成任务。与DeepSeek-R1的6710亿参数和Kimi K2的10430亿参数相比,GLM-4.5用更少的参数实现了相当甚至更好的性能,展现了卓越的效率优势。
GLM-4.5在智能代理方面的创新特别值得关注。研究团队开发了完整的智能代理数据合成流水线,包括智能代理框架和工具收集、任务合成、轨迹生成和质量过滤四个步骤。这个过程就像建立一个完整的实训体系,让AI在各种模拟场景中学习如何与工具交互、如何规划任务执行、如何处理意外情况。
测试时计算扩展是GLM-4.5的另一项创新特色。研究发现,通过增加智能代理与环境的交互轮次,模型性能可以获得平滑而显著的提升。这种现象就像给一个研究人员更多的时间和资源去深入调查一个问题,通常能够获得更好的结果。GLM-4.5能够通过持续的环境交互来提升任务完成质量,这为AI系统的性能优化开辟了新的方向。
在训练方法上,GLM-4.5采用了创新的专家模型迭代策略。研究团队首先训练出推理、智能代理和通用对话三个专门化的专家模型,然后通过自蒸馏技术将这些专家的能力整合到一个统一模型中。这种方法就像让一个学生分别跟随不同领域的导师学习专业技能,然后将所有技能融会贯通,形成综合能力。
GLM-4.5还在翻译能力方面展现了独特优势。现代翻译已经远超简单的文本转换,需要理解网络俚语、文化背景和领域特定术语。在100个具有挑战性的真实翻译案例测试中,GLM-4.5以1.71分的成绩大幅超越专业翻译模型,证明了通用大模型在理解文化内涵和语境方面的独特优势。
八、实际应用:GLM-4.5如何改变我们的工作和生活
GLM-4.5的实际应用潜力就像打开了一扇通往未来工作方式的大门。在软件开发领域,GLM-4.5已经展现出能够理解和修改真实代码库的能力。它不仅能够读懂现有代码的逻辑结构,还能够根据需求描述自动生成相应的代码修改。这就像拥有了一个永远不知疲倦、对所有编程语言都精通的超级程序员助手。
在客户服务领域,GLM-4.5的智能代理能力开启了全新的可能性。它能够通过多轮对话理解用户的复杂需求,调用各种工具和系统来解决问题,甚至能够处理那些需要跨部门协调的复杂业务场景。这种能力就像培养了一个既懂技术又懂业务、既有耐心又有效率的全能客服专家。
教育领域是GLM-4.5最有前景的应用场景之一。它的混合推理模式特别适合教学场景,能够根据问题的复杂程度选择合适的解释方式。对于基础概念,它可以提供直接清晰的解释。对于复杂的数学证明或科学原理,它会展示完整的推理过程,就像一个既能快速答疑又能深入讲解的全能教师。
在科学研究方面,GLM-4.5展现出的强大推理能力可以协助研究人员处理复杂的数据分析和假设验证工作。它能够理解科学文献、分析实验数据、提出研究假设,甚至协助设计实验方案。这就像为每个研究团队配备了一个学识渊博、思维敏捷的研究助手。
内容创作领域也将因GLM-4.5而发生重大变化。它不仅能够生成各种类型的文本内容,更重要的是能够根据特定需求和风格要求进行个性化创作。无论是技术文档、营销文案还是创意故事,GLM-4.5都能够提供高质量的内容支持,就像拥有了一个多才多艺的写作团队。
在企业决策支持方面,GLM-4.5的综合分析能力可以帮助管理者处理复杂的商业问题。它能够分析市场数据、评估投资风险、优化运营流程,甚至协助制定战略规划。这种能力就像为企业配备了一个经验丰富、知识全面的高级顾问。
特别值得注意的是,GLM-4.5的开源特性为这些应用提供了更多可能性。开发者可以根据具体需求对模型进行定制化训练,企业可以在保护数据隐私的前提下部署私有化服务,研究机构可以基于GLM-4.5进行进一步的科学研究。这种开放性就像提供了一个强大的基础平台,让不同领域的专家都能够在此基础上构建满足特定需求的解决方案。
GLM-4.5的多语言能力也为全球化应用提供了支持。它不仅能够处理英语和中文,还支持多种其他语言,这为跨国企业的沟通协作、国际项目的管理执行提供了强有力的技术支撑。
从长远来看,GLM-4.5代表的技术趋势可能会重新定义人机协作的模式。它不是要取代人类工作者,而是要成为每个人最得力的数字化助手,帮助人们更高效地处理信息、更准确地做出决策、更创新地解决问题。这种协作模式的普及可能会推动社会生产力的又一次飞跃。
说到底,GLM-4.5的意义不仅在于技术本身的进步,更在于它为我们展示了人工智能发展的新方向。通过将推理、编程和智能代理三大核心能力统一到一个模型中,GLM-4.5证明了构建通用人工智能的可行性。这项研究不仅推动了学术界的进步,更为整个AI产业的发展提供了新的思路和方向。
随着GLM-4.5及其完整训练方法的开源释放,我们有理由相信,这项技术将催生更多创新应用,推动人工智能技术的普及和发展。对于每个人来说,这意味着我们即将进入一个AI助手无处不在、人机协作更加紧密的新时代。感兴趣的读者可以通过arXiv:2508.06471v1访问完整论文,或者直接在GitHub上体验这一革命性的AI模型(https://github.com/zai-org/GLM-4.5)。
Q&A
Q1:GLM-4.5相比其他AI模型有什么特别之处?
A:GLM-4.5最大的特色是同时在推理、编程和智能代理三个核心领域都达到顶尖水平,而大多数AI模型往往只在某一个领域特别擅长。它还具有混合推理模式,能够根据问题复杂度选择深度思考或快速回答,就像一个既能快速反应又能深度分析的全能专家。
Q2:普通用户如何使用GLM-4.5?需要什么技术基础?
A:GLM-4.5已经完全开源,代码和模型都可以通过GitHub免费获取(https://github.com/zai-org/GLM-4.5)。用户可以通过Z.ai和BigModel.cn等平台直接体验,也可以在HuggingFace上访问模型。对于开发者来说,研究团队还提供了完整的评估工具包,确保结果的可重现性。
Q3:GLM-4.5会不会取代程序员和客服人员的工作?
A:GLM-4.5更像是一个强大的工作助手,而不是工作替代者。它可以帮助程序员更快地理解代码、自动生成基础代码、协助解决技术问题,帮助客服人员更好地理解用户需求、提供更准确的解决方案。这种人机协作模式实际上会提升工作效率和质量,让人类专注于更有创意和战略意义的工作。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。