这项由瑞士AI联盟(Swiss AI Initiative)完成的研究发表于2025年1月,该联盟是瑞士联邦理工学院苏黎世分校(ETH Zurich)、洛桑联邦理工学院(EPFL)以及瑞士国家超算中心(CSCS)等多家顶尖研究机构的合作项目。研究团队在阿尔卑斯超级计算机上使用4096块NVIDIA GPU,耗时数月训练出了Apertus模型。有兴趣深入了解的读者可以通过论文编号arXiv:2509.14233v1查询完整论文。
**研究概要**
想象一下,如果有人要做一道复杂的菜,但食谱中的某些原料来源不明,甚至可能是偷来的,你还会放心享用这道菜吗?目前AI领域就面临着类似的困境。市面上的大多数AI模型虽然功能强大,但它们的"食谱"——也就是训练数据的来源——往往不够透明,有些甚至涉及版权争议。
瑞士AI联盟的研究团队决定从根本上解决这个问题。他们就像一群严格遵循有机食品标准的厨师,不仅要做出美味的菜肴,更要确保每一种原料都来源清晰、获得授权。经过精心准备,他们推出了Apertus——一个完全开源、数据合规的大型语言模型。
这个项目的独特之处在于它解决了AI开发中的两个核心痛点:数据合规性和多语言表示。在数据合规方面,研究团队只使用了公开可获得的数据,并且严格遵循网站所有者通过robots.txt文件设置的爬虫限制。更令人印象深刻的是,他们还采用了一种叫做"金鱼损失"的创新训练方法,有效防止模型逐字记住训练数据,从而降低版权侵权风险。
在多语言支持方面,Apertus堪称一个语言天才。它在包含1811种语言的15万亿个字符上进行训练,其中40%的训练数据来自非英语内容。这意味着无论你说的是主流语言还是小众方言,Apertus都能为你提供相对准确的服务。
Apertus提供两种不同规模的版本:80亿参数版本和700亿参数版本。这就像同一个厨师能够根据不同场合的需要,既能做家常菜也能准备满汉全席。研究团队不仅发布了模型本身,还公开了所有的训练代码、数据处理脚本和评估工具,真正实现了完全的透明化。
**一、数据合规:构建可信任的训练基础**
要理解Apertus的数据合规做法,不妨把互联网想象成一个巨大的图书馆。在这个图书馆里,每本书的书主都可以在书上贴一张小纸条,写着"请勿复印"或"仅供阅读"。这张小纸条就相当于网站的robots.txt文件,它告诉访问者(包括AI训练程序)哪些内容可以使用,哪些不可以。
传统的AI训练就像是一个不太在意规则的学生。他们可能在几年前复印了一本书,但当书主后来改变主意、贴上"请勿复印"的标签时,这些学生并不会主动销毁之前复印的内容。Apertus团队则完全不同——他们就像一个极其负责任的图书管理员,不仅会尊重当前的使用规则,还会回头检查过去收集的所有材料,一旦发现某个网站后来设置了限制,就会立即从训练数据中删除相关内容。
这种"回溯性合规"并不容易实现。研究团队花费大量精力,对排名前一百万的英语网站和前一百万的非英语网站进行了逐一检查。他们发现,大约8%的英语数据和4%的多语言数据因为网站所有者的明确反对而被移除。虽然这意味着损失了一些潜在有用的训练材料,但研究团队认为这样做是正确的选择。
除了尊重网站所有者的意愿,研究团队还像一个细心的编辑一样,仔细清理训练数据中的个人隐私信息。他们使用专门的程序识别并替换电子邮件地址、IP地址和银行账号等敏感信息,就像给文档打马赛克一样保护隐私。
在内容质量控制方面,研究团队开发了多语言毒性检测系统,覆盖九种语言。这个系统就像一个多语言的内容审查员,能够识别并过滤掉包含种族偏见、性别歧视、宗教偏见、能力歧视以及暴力内容的文本。对于每种语言,系统会自动标记毒性得分最高的5%文档并将其从训练集中移除。
**二、金鱼记忆法:创新的防记忆训练技术**
传统的AI训练有一个令人头疼的问题:模型可能会像一台过于精确的复印机,把训练数据中的内容一字不差地记住并在回答问题时原样输出。这不仅涉及版权问题,还可能泄露训练数据中的隐私信息。
为了解决这个问题,Apertus采用了一种巧妙的训练方法,研究团队称之为"金鱼损失"。这个名字来源于金鱼只有几秒钟记忆的传说(虽然这个传说并不准确,但比喻很生动)。
具体来说,这种方法就像给学生布置作业时故意撕掉练习册中的某些字。学生在学习过程中会发现一些词语是缺失的,这样即使他们想要完全照抄,也无法做到。但由于大部分内容仍然完整,学生依然能够理解文章的含义和学会语言的规律。
在实际操作中,系统会随机遮盖训练文本中大约2%的词汇。这个比例经过精心调试——既要确保模型无法进行逐字记忆,又要保证模型仍然能够学到语言的本质规律。研究团队通过大量实验发现,这种方法即使在模型接触同一段文字128次之后,仍然能够有效防止逐字记忆的发生。
更重要的是,这种防记忆技术并不会影响模型的整体性能。就像一个学生虽然不能逐字背诵课文,但依然能够理解课文内容并用自己的话表达一样,采用金鱼损失训练的Apertus在各种语言任务上的表现与传统方法训练的模型不相上下,甚至在某些任务上还略有提升。
**三、多语言奇迹:1811种语言的AI助手**
如果把现有的主流AI模型比作只会几种外语的翻译,那么Apertus就像是一个走遍世界各地、掌握上千种语言和方言的语言学家。这种超强的多语言能力来源于研究团队对语言公平性的深度思考。
在传统的AI开发中,英语往往占据绝对主导地位,其他语言只是"配角"。这就像一个国际会议,虽然声称欢迎各国参与,但议程安排、发言时间和资源分配都严重偏向某一种语言。Apertus的开发团队决定打破这种不平衡。他们将40%的训练资源分配给非英语内容,涵盖了1811种不同的语言。
这种多语言覆盖不仅仅是数量上的突破,更体现在质量的均衡上。研究团队就像一个公平的教育资源分配者,不仅要确保每种语言都有发声的机会,还要根据不同语言的特点提供相应的支持。对于像德语、法语、西班牙语这样的高资源语言,系统会进行质量筛选,保留最有价值的内容。对于资源较少的语言,系统则更多地保留原始数据,避免过度筛选导致可用数据过少。
为了验证多语言能力的实际效果,研究团队特别关注了低资源语言的翻译质量。他们选择了瑞士的第四官方语言——罗曼什语进行深度测试。罗曼什语只有约6万名使用者,存在6种不同的书面变体。研究团队不仅为Apertus准备了罗曼什语的训练数据,还开发了专门的评估基准。测试结果显示,Apertus在德语与各种罗曼什语变体之间的翻译任务上,全面超越了现有的大型模型。
这种多语言能力的意义远超技术本身。它意味着说小语种的用户不再需要依赖英语作为中介来使用AI服务,而是可以直接用母语进行交流。这对于保护语言多样性、促进数字包容性具有重要意义。
**四、技术架构:兼顾性能与效率的设计哲学**
Apertus的技术架构就像一座精心设计的大厦,每个组件都经过深思熟虑的选择和优化。研究团队没有简单地复制现有的设计方案,而是在多个关键位置进行了创新。
在激活函数的选择上,传统模型通常使用ReLU或其变体,但Apertus采用了一种叫做xIELU的新型激活函数。如果把神经网络中的激活函数比作流水线上的质检员,那么xIELU就是一个更加智能的质检员。它不仅能够有效处理正数信息,还能更好地处理负数信息,从而提升整个网络的表达能力。
在优化算法方面,Apertus使用了AdEMAMix优化器,这是一种改进的训练算法。传统的优化器就像一个只有短期记忆的学生,主要根据最近的学习经验来调整学习策略。AdEMAMix则像一个有着良好长期记忆的学生,不仅会考虑最近的学习情况,还会参考更久远的学习经验,从而做出更明智的调整。
研究团队还引入了QK标准化技术,这就像给网络中的信息传递添加了一个稳压器。在长时间的训练过程中,网络中某些数值可能会变得过大或过小,导致训练不稳定。QK标准化能够自动调节这些数值,确保训练过程始终保持稳定。
在学习率调度方面,Apertus采用了预热-稳定-衰减(WSD)的策略。这就像马拉松运动员的训练计划:开始时慢慢提速热身,然后在一段时间内保持稳定的配速,最后逐渐降速完成训练。这种策略不仅提高了训练效率,还保留了继续训练的可能性。
为了支持长文本处理,Apertus还实现了从4096个字符到65536个字符的上下文扩展。这就像把原本只能记住一页纸内容的助手,升级为能够记住整本书内容的助手。这种扩展是通过渐进式训练实现的,系统先学会处理8千字符的文本,然后逐步扩展到16千、32千,最终达到64千字符的处理能力。
**五、训练数据的精心配置:15万亿字符的智慧之源**
Apertus的训练数据就像一份营养均衡的食谱,包含了各种不同类型的"营养成分"。研究团队没有简单地把所有数据混合在一起,而是像营养师一样,根据不同的训练阶段精心调配数据比例。
整个训练过程分为五个阶段,每个阶段都有不同的重点。第一阶段就像打基础,重点是让模型学会基本的语言理解和简单的数学、编程概念。这个阶段使用的数据包括高质量的网页内容、多语言文本以及基础的代码和数学材料。
第二阶段开始提升英语内容的质量,引入更加精选的教育性内容。这就像从普通练习册升级到优秀教辅材料,帮助模型获得更深入的语言理解能力。
第三阶段开始增加数学内容的比重,添加更多的数学网页和专业数学数据集。此时的训练就像让学生从基础数学进阶到高等数学,逐步提升分析和推理能力。
第四阶段进一步提升数据质量,同时增加数学和代码内容的占比。研究团队在这个阶段引入了一些经过特殊筛选的高质量数据集,确保模型能够学到更加精准和有用的知识。
最后的第五阶段相当于冲刺训练,使用最高质量的数据进行精细调优。这个阶段不仅包含最优秀的英语和多语言内容,还加入了维基百科、平行翻译数据以及指令跟随数据,帮助模型为实际应用做好准备。
在数据来源方面,研究团队特别注重合规性。他们使用的网页数据全部来自FineWeb-2这样的公开数据集,代码数据来自获得宽松许可的GitHub项目,数学数据则来自专门整理的教育性数学内容。所有这些数据都经过了严格的版权检查和质量筛选。
**六、后训练优化:从语言模型到智能助手的蜕变**
如果说预训练让Apertus学会了语言,那么后训练就是教会它如何与人类进行自然、有用的对话。这个过程就像把一个满腹经纶但不善交际的学者,培养成一个既有知识又会沟通的优秀老师。
后训练分为两个主要阶段:监督微调和价值对齐。监督微调阶段使用了约380万个精心准备的对话示例。这些示例涵盖了各种场景:有日常问题解答、专业知识咨询、创意写作辅助、多语言交流等等。研究团队就像准备教学大纲的教育专家,确保这些示例能够覆盖用户可能遇到的各种需求。
特别值得一提的是,研究团队为罗曼什语专门准备了超过4.6万个训练示例。这些示例包括双向词典翻译、句子级翻译以及方言识别任务,帮助模型学会区分和处理罗曼什语的六种书面变体。这种对小语种的精心关注体现了研究团队对语言多样性的真诚承诺。
在价值对齐阶段,研究团队开发了一套独特的"瑞士AI宪章"。这个宪章就像一部道德准则,包含了11项具体原则,涵盖回应质量、知识准确性、尊重交流、防止伤害、价值冲突解决等方面。与其他AI系统简单地拒绝有争议话题不同,Apertus学会了如何以中立、尊重的方式处理复杂的价值观冲突。
为了确保这套价值体系得到民众认可,研究团队还进行了一项针对瑞士居民的调查。结果显示,超过97%的受访者同意这些原则,其中"知识和推理标准"被认为是最重要的原则。这种民主参与的方式确保了Apertus的价值观与社会期望保持一致。
在技术实现上,研究团队使用了一种叫做QRPO(量化奖励策略优化)的新方法。传统的对齐方法就像一个只会说"好"或"不好"的评判员,而QRPO更像一个能够给出精确分数的专业评委,能够更细致地指导模型的行为优化.
**七、全面评估:在94种语言上的卓越表现**
评估一个多语言AI模型就像评估一个多项全能运动员,不仅要看单项成绩,还要看综合实力。Apertus的评估覆盖了94种不同语言,是迄今为止对大型语言模型最为全面的多语言评估之一。
在基础语言理解任务上,Apertus表现优异。80亿参数版本在综合任务上达到65.8%的准确率,700亿参数版本达到67.5%。这个成绩在同等规模的完全开源模型中位居前列,甚至在某些任务上超越了一些仅公开权重的商业模型。
在多语言知识任务上,Apertus的优势更加明显。特别是在INCLUDE基准测试中,该模型在44种语言的知识问答任务上全面领先其他开源模型。这表明Apertus不仅掌握了多种语言的表面形式,还真正理解了不同文化背景下的知识内容。
代码生成和数学推理是衡量AI模型实用性的重要指标。虽然Apertus在这方面的表现稍逊于一些经过额外强化学习训练的模型,但仍然达到了实用的水平。80亿参数版本在HumanEval代码生成任务上达到67%的通过率,在GSM8K数学问题上达到62.9%的准确率。
在安全性评估方面,Apertus展现出了良好的安全意识。在毒性检测任务上,模型能够准确识别有害内容,拒绝率达到80%以上。在偏见检测任务上,模型在大多数测试中表现出相对公平的态度,避免了明显的群体偏见。
特别令人印象深刻的是Apertus在记忆化测试中的表现。研究团队专门设计了一系列测试,验证模型是否会逐字输出训练数据。结果显示,即使在接触某段文字128次之后,Apertus仍然能够保持较低的逐字重复率,证明了金鱼损失方法的有效性。
**八、基础设施挑战:4096块GPU上的大规模训练**
训练Apertus就像指挥一支4096人的交响乐团,每个成员都必须精确协调,才能演奏出完美的乐章。这个过程充满了技术挑战,也展现了现代超级计算的强大威力。
阿尔卑斯超级计算机是欧洲最先进的超算系统之一,拥有超过1万块NVIDIA Grace-Hopper GPU。但即使在这样的顶级设备上,大规模训练仍然面临诸多挑战。研究团队就像经验丰富的工程师,需要解决网络通信、内存管理、故障恢复等各种技术问题。
在网络通信方面,4096块GPU之间需要频繁交换信息,这就像4096个人同时打电话。研究团队发现了通信软件版本不匹配的问题,就像电话线路接错了,导致通话质量不稳定。他们通过统一软件版本解决了这个问题,确保了训练过程的稳定性。
内存管理是另一个重大挑战。Grace-Hopper GPU采用统一内存架构,CPU和GPU共享内存空间。这就像一个家庭共用一个冰箱,需要合理分配存储空间。研究团队开发了专门的内存管理策略,确保训练程序能够充分利用可用内存。
为了应对硬件故障,研究团队建立了完善的检查点系统。每训练250个步骤,系统就会自动保存当前状态,就像游戏中的存档功能。一旦出现故障,系统可以从最近的检查点重新开始,避免从头训练。
整个训练过程消耗了约600万GPU小时,相当于一块GPU连续工作684年。如果按照每块GPU 560瓦的功耗计算,整个训练过程消耗了约5吉瓦时的电力。好在瑞士国家超算中心完全使用水力发电,实现了碳中和的训练过程。
**九、开源承诺:真正的透明与可复现**
在AI领域,"开源"这个词经常被滥用。许多公司声称提供开源模型,但实际上只公开了模型权重,而训练数据、代码和详细方法仍然保密。这就像公布了菜谱的最终成品,但隐瞒了具体的制作过程和原料来源。
Apertus的开源承诺则是彻底的。研究团队不仅公开了模型权重,还发布了完整的训练代码、数据处理脚本、评估工具以及详细的技术报告。任何人都可以获取这些资源,重现整个训练过程或在此基础上进行改进。
这种完全透明的做法具有重要意义。对于研究人员来说,他们可以深入理解模型的每个细节,在此基础上进行创新研究。对于企业用户来说,他们可以根据自己的需求对模型进行定制化修改。对于监管机构来说,他们可以全面审查模型的训练过程,确保符合相关法规。
研究团队还建立了完善的文档体系。除了技术论文,他们还提供了详细的使用指南、API文档以及示例代码。这就像不仅提供了产品说明书,还配备了贴心的客服团队,帮助用户快速上手。
为了促进学术交流,研究团队计划将相关成果发表在多个顶级会议和期刊上。他们已经提交了20多篇相关论文,涵盖数据处理、模型架构、训练方法、评估基准等各个方面。这种系统性的学术输出将为整个领域的发展提供宝贵的参考。
说到底,Apertus代表了AI开发的一种新范式。它证明了在保证数据合规的前提下,完全可以训练出高质量的大型语言模型。它展示了多语言AI的巨大潜力,为全球用户提供了更加公平的AI服务。更重要的是,它树立了完全透明、可验证的开发标准,为整个行业的健康发展指明了方向。
这个项目的成功离不开瑞士独特的学术环境和价值观念。瑞士一向以中立、多元、高质量著称,这些特质在Apertus项目中得到了完美体现。通过国际合作和开放创新,瑞士AI联盟向世界展示了如何以负责任的方式发展人工智能技术。
对于普通用户而言,Apertus的出现意味着他们将拥有一个真正值得信赖的AI助手。无论你说什么语言,来自哪个文化背景,都能从这个模型中获得公平、准确的服务。对于开发者而言,Apertus提供了一个可靠的基础平台,可以在此基础上开发各种创新应用。对于整个社会而言,Apertus代表了一种新的技术发展模式:既追求卓越的性能,又坚持道德底线;既拥抱全球化,又尊重多样性;既推动创新,又保持透明。
Q&A
Q1:Apertus模型与其他AI模型相比有什么独特优势?
A:Apertus的最大优势是完全开源和数据合规。它不仅公开模型权重,还提供完整的训练代码、数据处理脚本和技术文档。在数据使用上,研究团队严格遵循版权规定,回溯性地移除了网站所有者明确反对使用的内容。此外,Apertus支持1811种语言,是目前多语言覆盖最广泛的开源模型之一。
Q2:什么是金鱼损失方法,它如何防止AI模型记住训练数据?
A:金鱼损失是Apertus采用的创新训练技术,通过随机遮盖训练文本中约2%的词汇来防止模型逐字记忆。这就像给学生的练习册随机撕掉一些字,学生仍能理解内容含义,但无法完全照抄。实验证明,即使模型接触同一段文字128次,这种方法仍能有效防止逐字重复输出,从而降低版权侵权风险。
Q3:普通用户如何使用Apertus模型?需要什么技术门槛?
A:Apertus提供80亿参数和700亿参数两个版本,支持最长65536个字符的文本处理。用户可以通过Hugging Face平台直接下载使用,也可以使用研究团队提供的API接口。对于技术开发者,所有训练代码和文档都在GitHub上开源。普通用户无需深度技术背景,可以像使用其他AI助手一样与Apertus进行对话交流。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。