微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 网易有道团队发布Confucius3-Math:让消费级GPU也能跑出顶级数学推理能力的14B参数模型

网易有道团队发布Confucius3-Math:让消费级GPU也能跑出顶级数学推理能力的14B参数模型

2025-07-02 09:09
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-02 09:09 科技行者

这项由网易有道公司北京团队的吴立新、蔡娜、程乔、王嘉琛、段艺涛等研究人员开展的研究发表于2025年6月,论文发布在arXiv预印本平台上(编号:arXiv:2506.18330v2),感兴趣的读者可以通过https://github.com/netease-youdao/Confucius3-Math访问完整的模型和代码。

想象你正在为孩子找一位既专业又负担得起的数学家教。传统的"名师"确实水平很高,但费用昂贵,普通家庭难以承受。而现在,网易有道的研究团队就像是找到了一种培养"平民数学天才"的方法——他们开发出了一个名为Confucius3-Math的人工智能数学老师,它只需要一张普通的消费级显卡就能运行,却能在中国K-12数学教育领域达到顶尖水平的表现。

这个AI数学老师有多厉害呢?在多项数学推理测试中,它不仅击败了许多体型庞大的竞争对手,甚至在某些专门针对中国K-12学生的数学问题上,超越了目前最强的开源推理模型DeepSeek-R1。更令人惊喜的是,训练这样一个"数学天才"的成本仅需2.6万美元,而它的运行速度比DeepSeek-R1快了15倍。这就好比用制作一道家常菜的成本,培养出了一位能在国际数学竞赛中获奖的选手。

这项研究的意义远不止于技术突破。在当今世界,优质教育资源的获取往往与家庭经济条件紧密相关,这种不平等现象在数学教育中尤为明显。研究表明,K-12学生的学业表现与其家庭社会经济地位高度相关,而人工智能有望通过降低优质教育资源的获取门槛来缓解这种不平等。然而,目前的高性能大语言模型构建和部署成本依然高昂,这反而可能加剧数字鸿沟——越强大的AI模型越昂贵,能够负担得起的学生在学习中就越有优势。

网易有道团队正是看到了这个问题,他们相信一个强大且低成本的推理模型能够在很大程度上促进教育公平。他们的目标不仅仅是创造一个性能卓越的AI模型,更是要让这种先进技术能够惠及所有学生,无论其家庭经济条件如何。

一、从"学徒"到"大师":强化学习如何打造数学推理专家

当我们谈论如何训练一个AI数学老师时,可以把这个过程想象成一个学徒向大师学习的过程。传统的方法有点像让学徒照着菜谱做菜——通过监督式微调(SFT),AI模型学习模仿正确答案的格式和步骤。另一种方法类似于让学徒观察名厨烹饪并尝试复制——这就是蒸馏技术,让小模型学习大模型的"烹饪技巧"。

然而,网易有道团队选择了一条更具挑战性但潜力更大的道路:强化学习(RL)。这就像是让学徒在实际的厨房环境中反复练习,通过无数次的尝试、失败和改进来逐步提升技能。在围棋、蛋白质结构预测等领域,强化学习已经展现出了超越人类的表现,这给了研究团队信心,相信这种方法能够激发出模型的潜在推理能力。

当然,这种训练方式面临着独特的挑战。在围棋中,每个棋局都有明确的胜负结果,而在数学教育中,即使是同一道题目用不同的语言表述,对AI来说也可能是完全不同的"状态",这使得状态空间变得极其庞大。此外,验证数学答案的正确性也比判断围棋胜负要复杂得多。

研究团队最终选择了一个14B(140亿)参数的模型规模。这个选择颇有深意——它既足够大,能够表达复杂的数学推理过程,又不会大到无法在消费级GPU上高效运行。就像选择一个既能装下所有必需工具又便于携带的工具箱一样,这个规模在性能和实用性之间找到了最佳平衡点。

二、数据如黄金:从百万样本中淘出54万精品

在训练AI模型的世界里,数据就像是烹饪中的食材——质量决定了最终成品的水平。网易有道团队从两个主要渠道收集了超过109万个数学问题样本,就像一个经验丰富的采购员从不同的市场搜集最优质的原料。

开源数据构成了他们"食材库"的重要部分。团队收集了大量英文数学数据集,包括专注于基础和高级数学技能的GSM8K、applied_math和Advanced-Math,以及包含竞赛级数学问题的MATH和NuminaMath-1.5等数据集。这些数据集就像是来自世界各地的特色调料,每一种都为最终的"菜品"增添了独特的风味。除此之外,他们还收集了来自大学、论坛和研究机构的高质量推理数据集,涵盖数学、科学、谜题和编程等多个领域。

更为珍贵的是他们的专有数据。作为一家专注于教育的公司,网易有道在运营过程中积累了大量真实的中国K-12阶段数学问题及其解答。这些数据涵盖了小学、初中和高中各个阶段,包括单选题、多选题、判断题、填空题、计算题、证明题等丰富的题型组合。这些数据就像是秘制配方,专门针对中国学生的学习需求进行了优化。

然而,拥有原料只是第一步,如何处理这些数据才是关键。研究团队实施了严格的数据预处理流程,就像一位挑剔的厨师在烹饪前仔细筛选和处理食材。他们首先移除了所有数据集中的测试部分,以及所有研究中常用的基准测试数据,确保训练过程的公正性。由于强化学习需要有标准答案的高质量数据,他们排除了所有合成数据和没有标准答案的数据。

接下来的数据处理流程更像是精细的食材加工。团队进行了精确去重,确保数据集中没有完全相同的问题。然后通过模糊去重技术,移除那些具有高度相似性的问题。他们还使用了语义去重技术,通过聚类算法将问题的嵌入向量进行分组,在每个组内计算相似度并移除过于相似的问题。

最后,为了确保强化学习过程中能够获得准确的奖励信号,他们移除了多选题、判断题和证明题。前两种题型容易被随机猜测,而证明题的正确性难以自动验证。经过这番精心处理,他们最终保留了约54万个样本,其中21万来自开源数据,33万来自专有数据。这个数字看似不大,但每一个样本都是经过精心筛选的精品,就像经过反复挑选的优质食材,虽然数量不多,但足以制作出顶级美食。

三、选择合适的"学徒":基础模型的智慧选择

在开始强化学习训练之前,选择一个合适的基础模型就像为学徒选择一位有潜力的候选人。网易有道团队并没有随意选择,而是对多个候选模型进行了深入的"面试"和评估。

他们测试了四个主要候选者:Qwen2.5-14B-Base、Qwen2.5-14B-Instruct、DeepSeek-R1-Distill-Qwen-14B,以及他们之前开发的Confucius-o1-14B。这个评估过程就像是观察不同学徒在实际工作环境中的表现,通过150步的强化学习试验来观察每个模型的学习能力。

在这个过程中,研究团队发现了一个有趣的现象:模型的初始熵值(可以理解为模型输出的"随机性"或"创造性")与其强化学习的效果密切相关。这就像观察一个学徒的创新思维能力——太过拘谨的学徒可能缺乏突破性思考,而过于随意的学徒又可能缺乏必要的规范性。

最终,DeepSeek-R1-Distill-Qwen-14B脱颖而出。这个模型本身就是使用DeepSeek-R1的数据对Qwen2.5-14B进行蒸馏训练的结果,它在数学领域拥有强大的链式思维(Chain-of-Thought)能力,而且其输出的答案包含了详细的解题步骤,完全符合教育场景的需求。更重要的是,这个模型展现出了适度的初始熵值,既有足够的探索能力,又不会过于发散。

选择基础模型时,团队还特别关注模型输出的丰富性。在教育场景中,仅仅给出正确答案是不够的,学生需要看到完整的解题过程才能真正学会。这就像选择一位不仅会做菜,还能详细解释每个烹饪步骤的厨师作为导师。当前的强化学习训练往往主要关注答案的正确性,而对输出是否符合提示要求关注较少,这很大程度上依赖于基础模型的合规能力。

四、双重验证的奖励机制:确保每一步都走得正确

在强化学习中,奖励机制就像是一位严格而公正的考官,它决定了AI模型朝哪个方向改进。网易有道团队设计了一个两阶段的混合奖励系统,就像设置了两道质量检查关卡。

第一道关卡是格式和重复性过滤器,这就像是考试中的基本规范检查。任何不符合正确格式或包含重复文本的输出都会被直接筛除。这种现象在大语言模型生成中经常出现,就像学生答题时可能出现的格式错误或无意义的重复。研究团队选择将其作为硬性筛选条件,而不是简单的扣分项目,因为在实际应用中,这类问题是绝对不能接受的。

有趣的是,团队发现仅仅检查答案部分的重复是不够的,思考过程中的重复也必须被监控。在训练早期,重复现象往往首先出现在思考部分,然后逐渐扩散到答案部分,如果不及时发现和纠正,最终会导致不可逆转的模型退化。

第二道关卡是正确性验证,这里团队采用了因地制宜的策略。对于开源数据,由于答案通常是单一的数学表达式,他们继续使用传统的基于规则的奖励建模方法,具体使用Math-Verify工具进行答案提取和验证。这就像使用标准化的计算器来检查简单的数学计算。

但对于专有数据,情况就复杂得多。中国K-12学校的数学问题往往包含多个子问题,答案可能依赖于相距很远的文字描述,传统的提取规则经常失效。因此,他们采用了"LLM-as-a-Judge"的方法,让另一个语言模型来判断答案的正确性。这就像请一位经验丰富的数学老师来人工批改复杂的应用题。

更进一步,除了检查最终答案的正确性,奖励模型还会验证解题过程,因为在教育场景中,解题步骤的正确性同样重要。这确保了AI模型不仅能给出正确答案,还能提供有教育价值的解题思路。

五、三阶段训练:从基础到精通的渐进式成长

Confucius3-Math的训练过程就像一个学生从小学到高中的成长历程,被精心设计为三个阶段,每个阶段都有特定的学习目标和挑战难度。

第一阶段可以比作小学阶段,使用4K的上下文长度进行训练。在这个阶段,模型学习处理相对简单的数学问题,建立基础的推理能力。训练过程使用了团队自主开发的GRPO(Group Relative Policy Optimization)算法,并配合他们创新的"目标熵正则化"技术。这个阶段就像让小学生先学会基本的算术运算和简单的逻辑推理。

第二阶段类似于初中阶段,上下文长度扩展到8K,问题的复杂度相应增加。在这个阶段,团队转向使用DAPO(Dynamic Sampling Policy Optimization)算法,并引入了"近期样本恢复"和"策略特定难度加权"两项创新技术。这就像让初中生开始接触更复杂的几何问题和代数方程,需要更长的推理链条和更深入的思考。

第三阶段对应高中阶段,上下文长度进一步扩展到16K,能够处理最复杂的数学推理任务。在这个阶段,模型需要展现出完整的数学推理能力,能够处理多步骤的复杂问题,并给出详细的解题过程。

这种阶段性的上下文扩展不仅是技术上的考虑,更有着深层的教育学意义。正如学生的学习能力需要循序渐进地培养,AI模型的推理能力也需要在逐步增加的挑战中得到锻炼和提升。每个阶段的训练都为下一阶段打下坚实的基础,最终形成了一个能够处理复杂数学推理任务的强大模型。

六、三大技术创新:解决训练过程中的关键挑战

在训练过程中,网易有道团队遇到了几个关键挑战,就像厨师在烹饪过程中需要精确控制火候、调味和时机一样。为了解决这些问题,他们开发了三项重要的技术创新。

第一项创新是"目标熵正则化"技术。在强化学习中,熵正则化就像是控制学生学习时的"好奇心"水平。适度的好奇心能够促进探索和创新,但过度的好奇心可能导致注意力分散。传统的熵正则化方法只是简单地鼓励模型保持一定的随机性,但研究团队发现这可能导致"混合语言问题"——模型可能会在回答中文问题时混入英文词汇,或在英文问题中插入中文字符。

为了解决这个问题,他们引入了目标熵正则化,就像给学生的好奇心设定一个最佳区间。具体来说,他们在损失函数中添加了一个特殊项:|熵损失 - 目标熵| × 熵系数,其中目标熵被设定为0.55。这种方法不仅防止了熵值过低导致的模型过度保守,也避免了熵值过高导致的语言混杂问题。实验结果显示,这种方法有效地将模型输出的熵值稳定在理想范围内,同时彻底解决了混合语言问题。

第二项创新是"策略特定难度加权"(PSHW)技术。这个方法解决了一个类似于因材施教的问题:如何根据模型当前的能力水平来选择合适难度的训练题目。传统的课程学习方法会预先安排题目的难易顺序,但这种静态安排无法适应模型能力的动态变化。

PSHW的核心思想是让题目的"难度"相对于当前模型的能力而定。就像一个自适应的健身教练,会根据学员当前的体能状况来调整训练强度。具体实现上,他们使用模型在某个问题上的平均得分来衡量该问题对当前模型的难度,然后将这个相对难度整合到优势估计算法中。这样,模型会更多地关注那些它认为"有挑战性但不是不可能"的问题,从而实现更高效的学习。

第三项创新是"近期样本恢复"(RSR)技术。这个方法解决了训练效率的问题。在DAPO算法中,为了确保每个批次都包含有效的训练样本,系统会过度采样并过滤掉准确率为1或0的样本。这就像为了挑选合适的食材而购买了大量商品,但最终很多都被浪费了。

RSR的想法很简单但很有效:既然生成了这么多样本,为什么不把那些质量合格但没有被选中的样本保存起来,在下一轮训练中使用呢?虽然这些样本来自稍旧的策略,在严格的在线学习理论中可能不够"新鲜",但实际实验证明,这种做法不仅提高了数据效率,还改善了模型性能。研究团队推测这可能是因为新旧样本的混合产生了某种平滑效应,有助于模型的稳定学习。

七、全面测试:在各个数学战场上的表现

为了全面评估Confucius3-Math的能力,研究团队设计了一系列严格的测试,就像让一位数学老师在不同类型的考试中展示自己的教学水平。

测试的基准包括了多个层次和类型的数学评估。其中最重要的是CK12-MATH,这是团队自行构建的内部基准,包含500个来自真实用户查询的数学问题,涵盖了中国学校日常学习中的作业和测验题目。这个测试最能反映AI模型在实际教育场景中的表现,就像让老师直接面对真实的学生问题。

除此之外,他们还选择了几个广泛认可的公开基准进行测试。GAOKAO-Bench的数学部分包含了中国高考数学题目,MathBench的K12子集专注于K-12阶段的数学问题,CMATH则是中国小学数学应用题数据集。为了测试模型在竞赛级数学问题上的表现,他们还包括了MATH500、AIME24和AIME25等高难度数据集。

在对比测试中,他们选择了几个重要的竞争对手。DeepSeek-R1是当前最强的开源推理模型,拥有671B参数,代表了目前的技术最高水平。DeepSeek-R1-Distill-Qwen-14B是他们选择的基础模型,用来展示训练过程的效果。Qwen3-14B是最新的同规模模型,使用了近36万亿tokens进行预训练,并通过离线和在线蒸馏技术进行了优化。QwQ-32B是另一个强大的推理模型,参数量是Confucius3-Math的两倍多。

测试结果令人印象深刻。在最重要的CK12-MATH基准上,Confucius3-Math达到了96.24%的准确率,比DeepSeek-R1高出3.5个百分点。在GAOKAO-Bench数学部分,它获得了98.46%的准确率,在MathBench K12子集上达到95.10%,在CMATH上达到96.13%。即使在竞赛级的高难度测试中,Confucius3-Math也表现出色,在MATH500上达到98.44%,在AIME2024上达到81.15%,在AIME2025上达到69.95%。

更令人惊喜的是,与基础模型相比,Confucius3-Math在各个基准上都取得了显著提升,最大提升幅度达到26.98个百分点。这证明了强化学习训练过程的有效性,也展示了团队技术创新的价值。

特别值得注意的是,在CK12-MATH基准的评估中,团队使用了更严格的标准。由于Confucius3-Math被训练为在答案中生成详细的解题步骤,他们不仅检查最终答案的正确性,还使用LLM-as-a-Judge验证解题过程的正确性。只有当最终答案和中间步骤都正确时,问题才被认为是成功解决的。这种严格的评估标准更贴近真实的教育需求,也更好地体现了模型的教学价值。

八、运行效率:小身材大能量的实际表现

在AI模型的实际应用中,运行效率往往比性能数字更重要,就像选择交通工具时,我们不仅要考虑速度,还要考虑油耗和维护成本。Confucius3-Math在这方面展现出了显著的优势。

为了全面测试模型的运行效率,研究团队设计了两种测试场景。第一种是高性能硬件环境测试,使用配备8块NVIDIA H800 SXM5 GPU(每块80GB内存)的服务器,以及112核Intel Xeon Gold 6330 CPU。在这种"豪华配置"下,他们将Confucius3-Math部署在单块GPU上,而将DeepSeek-R1部署在全部8块GPU上,确保后者有足够的资源发挥最佳性能。

测试结果令人震撼。在相同的请求负载下,Confucius3-Math的吞吐量比DeepSeek-R1高出15.8倍。当请求率为每秒1次时,DeepSeek-R1的系统很快就达到了饱和状态,输出吞吐量仅为1,513 tokens/秒,总吞吐量为1,631 tokens/秒。而Confucius3-Math从一开始就展现出了13,182 tokens/秒的输出吞吐量和14,211 tokens/秒的总吞吐量,随着请求率增加还能继续扩展,在每秒4次请求时达到31,994 tokens/秒的峰值总吞吐量。

更令人印象深刻的是第二种测试场景:低资源部署可行性测试。研究团队将Confucius3-Math部署在单块GeForce RTX 4090D GPU上,这是一块24GB内存的消费级显卡,普通用户和小型机构都能够负担得起。而DeepSeek-R1由于模型规模过大,根本无法在这种配置下运行。

即使在这种"平民级"的硬件配置下,Confucius3-Math依然展现出了令人满意的性能。它能够达到4,596 tokens/秒的输入吞吐量和4,956 tokens/秒的输出吞吐量,这个数字甚至超过了DeepSeek-R1在高端服务器上的表现。这意味着即使是预算有限的学校或教育机构,也能够部署这样一个强大的AI数学助手。

从成本角度来看,这种效率优势的意义更加明显。在满负荷运行状态下,单台H800服务器每小时可以处理1.069亿个tokens,按照每小时2美元的GPU租用成本计算,这相当于每百万tokens仅需0.15美元的推理成本。这比大多数通用大语言模型都要经济得多,为大规模教育应用提供了可能。

九、经济效益:用有限预算创造无限可能

在讨论技术创新时,成本效益往往是决定技术能否真正落地应用的关键因素。Confucius3-Math项目在这方面表现出了令人惊喜的经济性,就像用小成本制作出了大片般的效果。

整个项目的训练成本被精确控制在26,000美元以内。这个数字的背后是精心的资源规划和高效的训练策略。第一阶段训练耗费4,234个H800 GPU小时,成本8,500美元;第二阶段使用5,470个GPU小时,成本10,900美元;第三阶段使用3,405个GPU小时,成本6,800美元。整个训练过程总计使用13,109个GPU小时,按照每小时2美元的H800租用价格计算,总成本刚好在预算范围内。

这个成本水平意味着什么呢?相比于那些需要数百万甚至数千万美元训练成本的大型模型,Confucius3-Math的训练成本相当于一辆中档汽车的价格。这使得中小型研究机构、教育公司甚至是资金充足的个人研究者都有可能承担类似项目的开发成本。

更重要的是,这种低成本并非以牺牲性能为代价。传统的观念认为,要想获得顶级性能,就必须投入巨额资源。但Confucius3-Math的成功证明了,通过巧妙的技术设计和专注的领域优化,完全可以用相对较少的资源达到甚至超越大型模型的性能。

与此形成对比的是强对弱蒸馏方法的隐性成本。虽然蒸馏技术看起来是一种经济的模型训练方式,但它实际上涉及许多隐藏费用。如果使用商业API访问教师模型,费用会随着训练规模线性增长。如果自己部署开源的大型教师模型,则需要额外的计算资源来运行推理服务。特别是在线蒸馏方法,需要在训练过程中实时访问教师模型,这只有在拥有模型权重的情况下才可能实现,进一步限制了选择范围。以DeepSeek-R1作为教师模型为例,除了训练GPU之外,还需要至少一台H800级别的服务器来托管教师模型,这大大增加了基础设施要求。

相比之下,纯强化学习方法的简洁性显而易见。整个训练流程只需要一台8卡H800服务器即可完成,没有复杂的依赖关系,没有额外的基础设施要求。这种简洁性不仅降低了成本,也大大简化了技术实施的复杂度。

从长远来看,这种经济效益为AI技术的民主化铺平了道路。当构建高性能专业AI模型的门槛降低到这种程度时,更多的组织和个人就能够参与到AI技术的开发和应用中来,这对整个行业的发展都是有益的。

十、未来展望:开放生态与教育公平的新篇章

Confucius3-Math项目的意义远不止于技术本身的突破,它更像是为AI在教育领域的应用开启了一扇新的大门。研究团队的最终目标是让高质量的AI教育资源能够惠及每一个学生,无论其家庭经济状况如何。

当前的研究仅仅使用了团队可用数据的一小部分。作为一家专注于教育的公司,网易有道在日常运营中持续积累着大量相关数据,这为模型的进一步改进提供了充足的"燃料"。随着更多数据的加入和训练方法的持续优化,Confucius3-Math的性能还有很大的提升空间。

更令人兴奋的是,这项工作展现了强化学习在语言模型后训练中的巨大潜力。虽然目前已经有了不少成功案例,但研究团队认为强化学习的潜力还远未被完全挖掘。他们提到的目标熵正则化方法虽然有效,但仍缺乏严格的理论基础。从根本上说,这个问题涉及的是强化学习中的探索与利用平衡,这是一个在传统强化学习中被广泛研究的经典问题。团队正在考虑使用更成熟的理论框架,如贝叶斯多臂老虎机理论,来为这一方法提供更坚实的理论基础。

在应用层面,研究团队也有着更宏大的愿景。目前Confucius3-Math主要专注于数学能力,能够很好地解决数学问题。但真实的教育和学习场景需要更全面的功能支持,包括多学科支持(如语言学习)、学术评估、作业批改、个性化学习等。Confucius3系列模型将在不久的将来整合这些功能。

这种全面的教育AI助手可能会彻底改变传统的教学模式。想象一下,每个学生都能拥有一位既精通各学科知识,又了解个人学习特点,还能24小时随时提供帮助的专属教师。这样的教育资源在过去只有最富有的家庭才能负担得起,而现在有望成为每个学生都能享受的标准配置。

开源策略是实现这一愿景的关键。通过将模型和技术细节完全开放,研究团队邀请全球的开发者、教育工作者和研究人员共同参与到这一事业中来。这种开放合作的模式有助于加速技术发展,也确保了技术发展的方向能够真正服务于教育公平的目标。

展望未来,我们有理由相信AI技术将在教育领域产生真正的变革性影响。当优质教育资源的获取不再受到地理位置、经济条件或社会地位的限制时,人类社会将迎来一个更加公平、更有机会的新时代。Confucius3-Math只是这个宏大愿景的一个开始,但它已经为我们展示了这种可能性的现实轮廓。

说到底,这项研究最令人振奋的地方不在于它创造了多么炫酷的技术,而在于它证明了一个简单但深刻的道理:通过聪明的设计和专注的努力,我们完全可以用有限的资源创造出无限的可能。当技术真正为所有人服务时,它才能发挥出最大的价值。在教育这个关乎每个人未来的领域,这样的技术突破意义格外重大。归根结底,技术的进步应该让世界变得更加公平,让每个孩子都有机会追求自己的梦想,而Confucius3-Math正是朝着这个方向迈出的坚实一步。

Q&A

Q1:Confucius3-Math是什么?它有什么特别之处? A:Confucius3-Math是网易有道开发的14B参数数学推理AI模型,专门针对中国K-12数学教育。它的特别之处在于用消费级GPU就能运行,却能在多项数学测试中超越规模更大的模型,训练成本仅2.6万美元,推理速度比DeepSeek-R1快15倍。

Q2:这个模型会不会取代真人数学老师? A:不会完全取代,但会成为很好的辅助工具。它更像是一个24小时在线的数学助教,能够帮助学生解答问题、提供解题步骤,特别适合课后辅导和个性化学习。真人老师在情感交流、创新思维培养等方面仍然不可替代。

Q3:普通学校或家庭能使用Confucius3-Math吗? A:可以。这是该项目的核心优势之一。它能在单张消费级显卡(如RTX 4090D)上运行,成本远低于大型模型,让更多学校和家庭都能负担得起。团队已将模型开源,可通过GitHub获取:https://github.com/netease-youdao/Confucius3-Math。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-