微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 约翰霍普金斯大学震撼发现:AI界的"双胞胎实验"揭示语言模型的真正奥秘

约翰霍普金斯大学震撼发现:AI界的"双胞胎实验"揭示语言模型的真正奥秘

2025-07-23 10:54
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-23 10:54 科技行者

这项由约翰霍普金斯大学的Orion Weller、Kathryn Ricci、Marc Marone等研究者,以及法国LightOn公司的Antoine Chaffin共同完成的突破性研究,发表于2025年1月的arXiv预印本平台(论文编号:arXiv:2507.11412v1)。有兴趣深入了解的读者可以通过GitHub仓库(https://github.com/JHU-CLSP/ettin-encoder-vs-decoder)获取完整的研究资料,包括模型、代码和数据。

就像在实验室里培养一对双胞胎,然后让他们接受完全不同的教育方式,这项研究做了一件在AI界前所未有的事情:创造了一套完全相同的"双胞胎"语言模型,唯一的区别是它们的学习方式不同。一个学会了"完形填空"(编码器),另一个学会了"接龙写作"(解码器)。通过这种方式,研究团队终于能够公平地比较这两种截然不同的AI学习方法,解开了困扰学术界多年的谜题。

这项研究的重要性不言而喻。在日常生活中,我们接触到的AI应用实际上分为两大类:一类擅长理解和分析,比如搜索引擎、文档分类、情感分析;另一类擅长生成和创作,比如ChatGPT、文案写作助手。但长期以来,人们无法准确判断哪种AI训练方法更适合特定任务,因为过去的比较研究就像在比较一个吃中餐长大的孩子和一个吃西餐长大的孩子的数学成绩,太多变量混杂在一起,无法得出可靠结论。

研究团队开发了名为ETTIN的模型套件,这个名字来源于北欧神话中的双头巨人,完美象征了这项研究的核心思想。ETTIN套件包含了从1700万参数到10亿参数的五对模型,每对模型都像同卵双胞胎一样,拥有完全相同的"基因"(架构设计)、"营养"(训练数据)和"成长环境"(训练过程),唯一的区别就是学习目标:编码器学习通过上下文理解被遮掩的词语,解码器学习预测文本的下一个词。

更令人惊讶的是,这套"双胞胎"模型不仅在各自擅长的领域表现出色,还创造了同规模开源模型的新纪录。编码器模型在文本分类和检索任务上超越了著名的ModernBERT,而解码器模型在生成任务上击败了Meta的Llama 3.2和SmolLM2。这就像培养出了一对天才双胞胎,哥哥成为了理解文本的专家,弟弟成为了创作文本的高手。

一、"双胞胎实验"的精妙设计

为了确保这场比较的公平性,研究团队付出了巨大努力。他们首先需要选择合适的"营养配方",也就是训练数据。由于目前最强的编码器模型ModernBERT没有公开其训练数据,研究团队决定从零开始,使用完全开源的数据来复制这个"配方"。

这个过程就像一个厨师试图还原一道秘制菜肴,只能通过观察成品来推测原料和制作方法。研究团队从最优秀的开源数据集中精心挑选,包括DCLM数据集和Dolma数据集的各种组合。他们将整个训练过程分为三个阶段,就像培养一个孩子需要经历婴儿期、青少年期和成年期一样。

第一阶段是基础预训练,相当于给孩子打基础。在这个阶段,模型接触各种各样的文本,从新闻报道到代码,从数学公式到社交媒体内容,总共处理了1.7万亿个词汇单元。这就像让孩子广泛阅读各种书籍,建立对世界的基本认知。

第二阶段是中期训练,相当于专业教育阶段。研究团队提高了数据质量,去除了一些噪音较大的内容,同时将模型能处理的文本长度从1024个字符扩展到8000个字符。这就像让学生从读短篇文章转向阅读长篇小说,提高理解复杂内容的能力。这个阶段使用了2500亿个词汇单元。

第三阶段是衰减训练,相当于精英教育。研究团队进一步精选了最高质量的数据,包括维基百科、专业教科书和经过筛选的网络内容,使用了500亿个词汇单元。这就像让学生专门学习经典名著和权威教材,追求卓越的表现。

整个训练过程严格控制了每一个变量。两种模型使用完全相同的架构设计、相同的优化器设置、相同的学习率调整策略,甚至连随机种子都保持一致。唯一的区别就是学习目标:编码器在看到"今天天气很[MASK]"时学习预测"好",而解码器在看到"今天天气很"时学习预测"好"。

这种设计的巧妙之处在于,它消除了以往研究中的所有混杂因素。过去的比较研究就像在比较一个在北京长大的孩子和一个在纽约长大的孩子的语言能力,地域、文化、教育体系的差异都会影响结果。而这项研究则确保了除了核心学习方法之外,其他所有条件都完全相同。

研究团队还特别注意了模型规模的设计。他们创建了六个不同规模的模型,参数数量分别为1700万、3200万、6800万、1.5亿、4亿和10亿。这种阶梯式的设计就像观察不同年龄段的孩子如何学习,可以揭示模型规模对两种学习方法效果的影响。

二、训练数据的精心调配

为了确保训练数据的质量和多样性,研究团队就像营养师为运动员制定食谱一样,精心调配了每个训练阶段的数据配比。他们从多个高质量的开源数据集中选择内容,确保模型能够接触到人类知识的各个领域。

在基础预训练阶段,数据来源极其丰富。代码相关的内容占据了重要位置,包括来自StarCoder的2639亿个词汇单元,这些内容帮助模型理解程序逻辑和结构化思维。网络爬虫数据构成了另一个主要来源,其中Common Crawl Head提供了3566亿个词汇单元,DCLM数据集贡献了8372亿个词汇单元,这些内容涵盖了互联网上的各种信息。

科学文献也是重要的营养来源。PeS2o数据集提供了573亿个词汇单元的科学论文,ArXiv数据集贡献了280亿个词汇单元的学术预印本,这些内容帮助模型掌握严谨的科学表达和逻辑推理。数学相关的内容包括Open-Web-Math和Algebraic StackExchange,总共提供了253亿个词汇单元,让模型具备基本的数学理解能力。

社交媒体内容也不可忽视。Reddit数据提供了803亿个词汇单元,StackExchange贡献了196亿个词汇单元,这些内容帮助模型理解日常对话和问答模式。新闻内容通过CC News数据集提供了73亿个词汇单元,让模型了解时事和正式的新闻写作风格。

到了中期训练阶段,研究团队开始提高数据质量。他们去除了一些噪音较大的内容,如旧版本的Common Crawl数据、一般性的新闻内容和普通的StackExchange问答,转而使用经过筛选的DCLM数据集。这个阶段特别强调了数学和科学内容的比重,Math相关内容的比例从0.7%提高到4.2%,Scientific内容的比例从3.4%提高到3.3%。

衰减训练阶段是数据质量的顶峰。研究团队大幅增加了高质量参考资料的比重,包括维基百科、专业教科书和开放获取的学术资源。Books相关内容的比例从0.3%跃升到13.8%,Wikipedia内容的比例从0.4%增加到3.9%。这就像让学生从广泛阅读转向精读经典,追求更高的知识质量。

整个数据配置过程体现了从广度到深度的学习理念。基础阶段确保模型接触到人类知识的各个角落,中期阶段开始筛选优质内容,衰减阶段则专注于最高质量的知识来源。这种渐进式的数据质量提升,就像一个人的成长过程,从童年的好奇心驱动的广泛探索,到青年时期的专业学习,再到成年后的精深研究。

三、两种学习方式的本质差异

要理解编码器和解码器的根本差异,我们可以用两种不同的阅读方式来比喻。编码器就像一个擅长完形填空的学生,它能够同时看到一个句子的前后文,然后推测中间缺失的词语。比如看到"今天天气很___,适合出去游玩",它能够根据前后文推断出空白处应该填"好"。

解码器则像一个擅长续写故事的学生,它只能看到前文,然后预测接下来会出现什么。比如看到"今天天气很",它需要预测下一个词是"好",然后再看到"今天天气很好",预测下一个词是",",以此类推。

这种差异带来了截然不同的能力特征。编码器由于能够同时看到完整的上下文,特别擅长理解和分析任务。它就像一个能够通览全局的分析师,能够准确把握文本的整体含义、情感倾向和主题分类。当你需要判断一条评论是正面还是负面的,或者在海量文档中找到与查询最相关的内容时,编码器往往能够提供更准确的结果。

解码器由于只能看到前文,特别擅长生成和创作任务。它就像一个经验丰富的作家,能够根据已有的情节发展出合理的后续内容。当你需要AI帮你写邮件、续写故事或者回答问题时,解码器通常能够产生更流畅自然的结果。

这种差异的技术原理在于注意力机制的不同。编码器使用双向注意力,就像一个人在阅读时可以随时回顾前文或预览后文,获得完整的语境信息。解码器使用单向注意力,就像一个人在听别人说话时只能根据已经听到的内容进行理解和回应。

有趣的是,这两种学习方式在人类的语言学习中也有对应。当我们做阅读理解题时,我们实际上在使用类似编码器的能力,通过理解整个段落的内容来回答问题。而当我们进行对话或写作时,我们更多地使用类似解码器的能力,根据前面的话语或已写的内容来组织接下来的表达。

研究团队的创新之处在于,他们不仅训练了这两种不同的模型,还尝试了"跨界训练"的实验。他们让已经训练好的编码器继续学习解码器的技能,让已经训练好的解码器继续学习编码器的技能,就像让一个擅长完形填空的学生去学习写作,让一个擅长写作的学生去学习阅读理解。

这种跨界训练使用了500亿个词汇单元的额外数据,远超过以往研究的10亿词汇单元。研究团队想要验证的是,在AI规模不断扩大的今天,是否可以通过额外训练让一个模型同时掌握两种技能,从而避免需要分别训练两种不同的模型。

四、令人惊讶的实验结果

当研究团队公布实验结果时,整个学术界都为之震惊。这些结果不仅证实了人们的直觉,还揭示了一些完全出乎意料的发现。

首先,在各自擅长的领域,两种模型都达到了令人瞩目的性能。编码器模型在文本分类和检索任务上的表现超越了所有同规模的开源模型,甚至击败了著名的ModernBERT。在GLUE基准测试中,1亿参数的ETTIN编码器获得了88.9分,而ModernBERT只获得了88.4分。在文本检索任务中,ETTIN编码器的表现同样出色,在多个评测指标上都创造了新的纪录。

解码器模型在生成任务上的表现同样令人印象深刻。10亿参数的ETTIN解码器在综合生成任务评测中获得了59.0分,显著超过了Meta的Llama 3.2 1B模型的56.6分。在具体任务中,ETTIN解码器在常识推理、阅读理解、问答等多个方面都展现出了卓越的能力。

这些结果的意义不仅在于创造了新的纪录,更在于证明了使用相同训练配方可以在两个不同领域都取得最佳效果。这就像一个教练使用同样的训练方法,既培养出了游泳冠军,又培养出了跑步冠军,这在以往是不可想象的。

然而,真正令人震惊的发现出现在跨界训练的结果中。研究团队原本预期,通过额外的500亿词汇单元训练,编码器可以学会解码器的技能,解码器也可以学会编码器的技能。但结果显示,这种跨界训练的效果远不如预期。

在文本分类任务中,一个4亿参数的编码器能够获得91.3分,而一个10亿参数的解码器经过跨界训练后只能获得89.9分。换句话说,即使解码器的规模是编码器的2.5倍,经过额外训练后仍然无法达到编码器的性能。

在检索任务中,情况稍好一些,但差距依然明显。4亿参数的编码器在MS MARCO检索任务中获得了42.2分,而经过跨界训练的同规模解码器只获得了41.4分。虽然差距缩小了,但编码器的优势依然明显。

最令人意外的是生成任务的结果。在这个解码器应该占优势的领域,跨界训练的效果更是惨不忍睹。原始的10亿参数解码器在生成任务中获得了59.0分,而经过跨界训练的10亿参数编码器只获得了52.5分。更糟糕的是,随着模型规模的增大,这种差距不仅没有缩小,反而在扩大。

这些结果传达了一个重要信息:AI模型的学习方式在很大程度上决定了它的能力边界。就像一个从小学习中文的人和一个从小学习英文的人,即使后者在成年后学习中文,也很难达到前者的母语水平。AI模型的"母语"就是它最初学习的任务类型,这种早期的学习经历会深刻影响模型的内部结构和思维方式。

五、性能表现的深度分析

为了更深入地理解两种模型的性能差异,研究团队设计了一系列细致的测试。他们不仅测试了模型在各自擅长领域的表现,还测试了它们在跨领域任务中的能力,这些结果为我们提供了前所未有的洞察。

在编码器擅长的分类任务中,结果呈现出明显的规律。以情感分析为例,ETTIN编码器在SST-2数据集上的准确率随着模型规模增加而稳步提升,从1700万参数模型的91.2%提升到10亿参数模型的97.1%。相比之下,同规模的解码器在这个任务上的表现始终落后3-5个百分点。

这种差距的原因在于,情感分析需要模型理解整个句子的语境和语调。编码器能够同时关注句子的开头和结尾,捕捉到像"虽然...但是..."这样的转折关系。而解码器只能从左到右逐词处理,往往会被句子开头的情感词汇误导,难以准确判断整句话的真实情感倾向。

在检索任务中,编码器的优势更加明显。在MS MARCO检索任务中,编码器需要理解查询和文档之间的语义相似性。4亿参数的ETTIN编码器在这个任务上获得了42.2分,而同规模的解码器只获得了39.9分。这种差距在小规模模型中更加明显,1700万参数的编码器获得了30.9分,而解码器只获得了29.1分。

有趣的是,在一些"伪生成"任务中,编码器表现出了意想不到的能力。在ARC常识推理任务中,编码器通过"完形填空"的方式进行推理,4亿参数的编码器获得了35.6分,而同规模的解码器只获得了33.6分。这说明对于某些需要深度理解的推理任务,编码器的双向注意力机制提供了优势。

然而,在真正的生成任务中,解码器的优势不可撼动。在HellaSwag任务中,模型需要为给定的场景选择最合理的续写,这完全符合解码器的训练目标。10亿参数的ETTIN解码器在这个任务上获得了62.9分,而同规模的编码器只获得了52.3分,差距高达10分以上。

在TriviaQA问答任务中,解码器的优势更加明显。这个任务需要模型根据问题生成准确的答案,10亿参数的解码器获得了29.3分,而编码器只获得了7.6分。这种巨大的差距说明,对于需要生成具体答案的任务,解码器的逐词生成能力是不可替代的。

特别值得注意的是,随着模型规模的增加,两种模型在各自优势领域的表现都在提升,但在对方优势领域的表现提升有限。这就像一个游泳运动员通过训练可以游得更快,但很难通过同样的训练成为优秀的跑步运动员。

六、跨界训练的深入探索

研究团队对跨界训练的深入探索揭示了AI学习的一些基本规律。他们让编码器学习解码器的技能,让解码器学习编码器的技能,这个过程就像让一个从小用右手写字的人学习用左手写字一样困难。

在编码器向解码器的转换中,研究团队发现了一个有趣的现象。编码器在学习生成任务时,小规模模型的表现相对较好,但随着规模增大,这种跨界能力的提升变得越来越困难。1700万参数的编码器经过跨界训练后在生成任务中获得了35.1分,而原始解码器获得了36.4分,差距只有1.3分。

但是到了10亿参数规模,这种差距急剧扩大。跨界训练的编码器只获得了52.5分,而原始解码器获得了59.0分,差距扩大到了6.5分。这种现象表明,模型规模越大,其原始学习方式的影响就越深刻,改变起来就越困难。

在解码器向编码器的转换中,情况略有不同。解码器在学习分类和检索任务时表现出了一定的适应性,但仍然无法达到原始编码器的水平。在MNLI分类任务中,经过跨界训练的10亿参数解码器获得了89.0分,而原始编码器获得了91.8分,差距为2.8分。

这种差距的原因可能在于,解码器的单向注意力机制在本质上限制了它理解完整语境的能力。即使经过额外训练,解码器仍然倾向于从左到右处理信息,无法像编码器那样全面理解整个句子的含义。

研究团队还发现,跨界训练的效果与训练数据的质量高度相关。他们使用了最高质量的衰减阶段数据进行跨界训练,这些数据包括维基百科、专业教科书和精选的网络内容。如果使用质量较低的数据,跨界训练的效果会更差。

有趣的是,在某些特定任务中,跨界训练展现出了意想不到的效果。在SciQ科学问答任务中,经过跨界训练的1700万参数解码器获得了45.9分,而原始编码器只获得了44.0分。这可能是因为科学问答任务既需要理解能力,也需要生成能力,跨界训练让解码器获得了更全面的技能。

然而,这种少数的成功案例并不能改变整体的结论。在绝大多数任务中,跨界训练的效果都不如直接使用对应类型的原始模型。这就像让一个钢琴家学习画画,虽然可能在某些方面有所提升,但很难达到专业画家的水平。

七、模型规模的影响规律

通过对比不同规模的模型,研究团队发现了一些有趣的规律。模型规模对两种训练方式的影响并不相同,这种差异为我们理解AI学习提供了新的视角。

在编码器模型中,规模的扩大带来了稳定而持续的性能提升。从1700万参数增加到10亿参数,编码器在MNLI分类任务中的准确率从79.5%提升到91.8%,提升幅度达到12.3个百分点。在检索任务中,这种提升同样明显,从30.9分提升到43.4分,提升幅度达到12.5分。

解码器模型的规模效应呈现出不同的模式。在生成任务中,规模扩大带来的提升更加显著。从1700万参数增加到10亿参数,解码器在生成任务综合评分中从36.4分提升到59.0分,提升幅度达到22.6分,几乎是编码器提升幅度的两倍。

这种差异可能反映了两种任务的本质特征。分类和检索任务有相对固定的答案,模型规模的扩大主要是提高准确率。而生成任务需要模型掌握更复杂的语言模式和知识结构,规模的扩大能够带来质的飞跃。

特别值得注意的是,在跨界训练中,规模的影响呈现出复杂的模式。对于编码器学习生成任务,小规模模型的适应性相对较好,但随着规模增大,这种适应性反而下降。这可能是因为大规模编码器的内部结构更加复杂,改变起来更加困难。

对于解码器学习理解任务,情况则相反。大规模解码器在跨界训练中表现出了更好的适应性,这可能是因为大规模模型拥有更强的表征能力,能够在某种程度上克服架构上的限制。

研究团队还发现,在某些特定的规模点,两种模型的性能会出现交叉。在1700万参数规模时,编码器和解码器在某些任务上的性能差距很小,但随着规模增大,这种差距会急剧扩大。这说明模型规模不仅影响性能的绝对值,还影响不同训练方式之间的相对优势。

八、技术架构的创新设计

ETTIN模型的技术架构体现了研究团队的精心设计。他们需要在保持两种模型完全相同的前提下,仅通过训练目标的不同来实现功能分化。这种设计就像制造一对结构完全相同的机器人,但通过不同的程序让它们具备不同的专长。

在模型架构方面,研究团队采用了现代化的设计理念。他们使用了RoPE(旋转位置编码)来处理位置信息,这种技术能够让模型更好地理解文本中词汇的相对位置关系。激活函数选择了GELU,这是一种在大规模语言模型中表现优异的激活函数。

注意力机制的设计体现了两种模型的核心差异。编码器使用双向注意力,每个位置的词汇都可以关注到整个序列中的所有其他位置。这就像一个人在阅读文章时可以随时回顾前文或者预览后文,获得完整的理解。解码器使用因果注意力,每个位置只能关注到自己之前的位置,这就像一个人在听故事时只能根据已经听到的内容进行理解。

为了确保比较的公平性,研究团队让两种模型使用完全相同的参数量配置。他们创造了六个不同规模的模型,从最小的1700万参数到最大的10亿参数。每个规模的模型都经过精心设计,确保参数的分配既考虑了性能,也考虑了训练效率。

在训练过程中,研究团队使用了梯形学习率调度策略。这种策略包括预热阶段、稳定阶段和衰减阶段,就像运动员的训练计划一样,先逐步增加强度,然后保持高强度训练,最后逐步降低强度。这种策略能够让模型在训练过程中保持稳定,避免过度拟合。

特别值得一提的是,研究团队在训练过程中使用了检查点保存机制。他们每处理85亿个词汇单元就保存一次模型状态,总共保存了236个检查点。这种细致的记录就像给模型的成长过程拍照,让研究人员可以详细分析模型在不同阶段的学习状态。

九、意外的偏见发现

在研究过程中,研究团队还进行了一项有趣的探索:比较两种训练方式对性别偏见的影响。他们使用了WinoGender数据集,这是一个专门设计用来测试AI模型性别偏见的基准测试。结果显示,两种训练方式在处理性别问题时表现出了不同的倾向。

在一个包含50%男性刻板印象和50%女性刻板印象的测试中,编码器模型更倾向于使用性别中性的代词。10亿参数的编码器在25%的情况下选择了性别中性的代词,而同规模的解码器只在9%的情况下选择性别中性代词。这种差异可能反映了两种训练方式对语言理解的不同方式。

编码器由于能够看到完整的语境,更容易识别出性别刻板印象,从而倾向于使用更加中性的表达。而解码器由于是逐词生成,更容易受到训练数据中统计模式的影响,倾向于重复数据中的性别刻板印象。

随着模型规模的增加,这种差异变得更加明显。在小规模模型中,两种训练方式的性别偏见差异相对较小,但在大规模模型中,编码器显示出了更强的性别中性倾向。这种现象表明,模型规模的扩大可能会放大不同训练方式之间的差异。

有趣的是,在跨界训练中,模型的性别偏见表现也发生了变化。原本更加中性的编码器在学习生成任务后,性别偏见有所增加。而原本偏见较多的解码器在学习理解任务后,性别偏见有所减少。这种变化表明,训练目标确实会影响模型的内在价值观和行为模式。

这项发现对AI的公平性和安全性具有重要意义。它表明,选择不同的训练方式不仅会影响模型的技能,还可能影响模型的价值观和偏见。在设计AI系统时,我们需要考虑训练方式对模型行为的全面影响。

十、对AI未来发展的启示

这项研究的发现对AI领域的未来发展具有深远的影响。首先,它证实了专用模型在特定任务上的不可替代性。在当前AI界普遍追求通用大模型的背景下,这个发现提醒我们,针对特定任务的专用模型仍然具有重要价值。

对于企业和开发者来说,这意味着在选择AI模型时需要根据具体需求做出明智决策。如果主要需求是文本分类、情感分析或信息检索,那么编码器模型可能是更好的选择。如果主要需求是内容生成、对话或创作,那么解码器模型更为适合。

研究还揭示了模型规模和训练方式之间的复杂关系。在小规模模型中,跨界训练的效果相对较好,但随着规模增大,这种效果会显著下降。这为资源有限的研究机构和初创公司提供了重要参考:在资源有限的情况下,专门训练小规模的专用模型可能比训练大规模的通用模型更加有效。

对于学术研究来说,这项工作建立了一个重要的基准。研究团队开源了所有的模型、数据和训练脚本,为其他研究者提供了宝贵的研究基础。这种开放性不仅促进了学术交流,也为整个AI社区的发展做出了贡献。

从技术发展趋势来看,这项研究可能会推动AI领域重新思考模型设计的方向。过去几年,AI领域主要关注如何构建更大更强的通用模型,但这项研究表明,在某些场景下,专用模型的效果可能更好。这可能会催生新的研究方向,即如何设计更加高效的专用模型。

研究结果还对AI的商业应用具有重要指导意义。在资源有限的情况下,企业可以根据自己的主要业务需求选择合适的模型类型,而不是盲目追求最大最全的通用模型。这种精准的选择不仅可以提高性能,还可以降低计算成本和维护复杂度。

最后,这项研究为AI安全和公平性研究提供了新的视角。通过比较不同训练方式对模型偏见的影响,研究团队揭示了训练目标与模型行为之间的深层联系。这提醒我们,在设计AI系统时,需要全面考虑训练方式对模型各个方面的影响,而不仅仅是任务性能。

说到底,这项研究就像给AI界提供了一面镜子,让我们能够更清晰地看到不同训练方式的真实效果。它告诉我们,在AI的世界里,没有万能的解决方案,只有适合特定需求的最佳选择。正如研究团队所说,他们的工作不是为了证明哪种方法更好,而是为了帮助人们在面对具体问题时做出更加明智的决策。

这种实用主义的研究态度,正是当前AI领域所需要的。在技术快速发展的今天,我们需要更多这样的基础研究,为AI的健康发展提供科学的指导。研究团队通过开源所有资料,为后续研究铺平了道路,让更多的研究者能够在这个基础上继续探索AI的奥秘。

Q&A

Q1:ETTIN模型是什么?它有什么特别之处? A:ETTIN是约翰霍普金斯大学开发的一套"双胞胎"AI模型,包含编码器和解码器两种版本。它的特别之处在于两种模型使用完全相同的架构、数据和训练过程,仅训练目标不同,这样可以公平比较两种AI学习方式的效果。

Q2:跨界训练是否能让AI模型变得更全能? A:研究发现跨界训练效果有限。即使用500亿词汇进行额外训练,让编码器学习生成任务或让解码器学习理解任务,都无法达到原始专用模型的性能水平,特别是在大规模模型中差距更明显。

Q3:普通用户如何选择合适的AI模型? A:根据具体需求选择:如果主要用于文本分类、情感分析、信息检索等理解任务,编码器模型效果更好;如果主要用于内容生成、对话、创作等生成任务,解码器模型更适合。专用模型往往比通用模型在特定任务上表现更佳。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-