微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 蚂蚁集团包容性AI团队重磅发布Ming-Omni:首个媲美GPT-4o的开源全能AI模型

蚂蚁集团包容性AI团队重磅发布Ming-Omni:首个媲美GPT-4o的开源全能AI模型

2025-06-18 09:23
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-18 09:23 科技行者

这项由蚂蚁集团包容性AI团队完成的突破性研究发表于2025年6月11日,论文题为《Ming-Omni: A Unified Multimodal Model for Perception and Generation》。有兴趣深入了解的读者可以通过项目主页和GitHub代码库(https://github.com/inclusionAI/Ming/tree/main)访问完整论文和开源代码。

想象一下,如果你有一个超级助手,它不仅能看懂图片、听懂声音、理解视频,还能像人类一样自然地说话,甚至还能根据你的描述画出精美的图片——这听起来像科幻电影里的情节,但现在已经成为现实。蚂蚁集团的研究团队刚刚发布了一个名为Ming-Omni的人工智能模型,它就像一个全能的数字助手,能够同时处理文字、图片、声音和视频,还能生成自然流畅的语音和高质量的图像。

这项研究的意义远比听起来更加重要。我们生活在一个多媒体的世界里,每天都在与各种形式的信息打交道——我们看图片、听音乐、观看视频、阅读文字。但传统的AI系统就像专门的工匠,每个只会一门手艺:有的只会处理文字,有的只会分析图片,有的只会识别声音。而Ming-Omni就像一个全能的艺术家,能够在这些不同的"语言"之间自由切换和转换。

更令人兴奋的是,这个模型是完全开源的,这意味着全世界的研究者和开发者都可以免费使用和改进它。就像一个开放的菜谱,任何人都可以拿去制作自己的"菜肴",甚至改良配方。这在AI领域是非常罕见的,因为大部分强大的AI系统都是商业公司的秘密武器,普通人根本无法接触到。

研究团队面临的最大挑战就像是要训练一个同时会说多种语言的翻译官。不同类型的信息——文字、图片、声音——就像不同的语言,它们的"语法"和"词汇"完全不同。传统的方法就像让翻译官分别学习每种语言,但这样学出来的翻译官在不同语言之间切换时会很别扭,甚至会出现理解偏差。Ming-Omni采用了一种全新的训练方法,让AI系统从一开始就同时学习所有这些"语言",并且学会它们之间的联系和转换规律。

一、独特的"大脑结构":让AI像人类一样思考

Ming-Omni的核心就像一个精心设计的大脑,这个大脑有着特殊的结构,让它能够同时处理各种不同类型的信息。想象一下人类的大脑,我们有专门处理视觉的区域、专门处理听觉的区域,但这些区域都连接在一起,能够协同工作。当你看到一只狗的同时听到它的叫声,你的大脑会自动把这两个信息关联起来,形成一个完整的认知。

Ming-Omni采用了一种叫做"专家混合"的架构,这就像一个智能的指挥中心。当不同类型的信息进来时,这个指挥中心会根据信息的特点,决定派哪些"专家"来处理。比如当一张图片和一段文字同时输入时,系统会调用擅长处理图像的专家和擅长处理文字的专家,但这些专家不是各自为政,而是在指挥中心的协调下共同工作。

更巧妙的是,这个系统还设计了专门的"路由器",就像交通指挥员一样,根据不同类型的信息选择最合适的处理路径。文字信息会走文字专用的路径,图片信息会走图片专用的路径,但这些路径最终都会汇聚到同一个理解中心。这样的设计确保了每种类型的信息都能得到最专业的处理,同时又能在最终形成统一的理解。

研究团队还面临一个棘手的问题:不同类型的信息学习的速度不一样,就像班级里的学生,有的擅长数学,有的擅长语文,如果用同样的教学方法,很容易造成偏科。为了解决这个问题,他们开发了一种"动态平衡"的训练策略,就像一个聪明的老师,能够根据每个"学生"的学习进度调整教学重点,确保每种能力都能均衡发展。

这种架构的另一个优势是效率极高。虽然Ming-Omni具备如此强大的能力,但它只需要激活28亿个参数就能工作,相比之下,很多功能单一的AI系统需要更多的资源。这就像一个多功能的瑞士军刀,虽然功能众多,但比携带一整套单独工具要轻便得多。

二、突破性的语音理解与生成能力

Ming-Omni在语音处理方面的表现就像一个经验丰富的同声传译员,不仅能够准确理解各种语音输入,还能生成自然流畅的语音回应。这个能力的实现过程就像教会一个人既要听懂别人说话,又要能够清晰地表达自己的想法。

在语音理解方面,研究团队采用了著名的Whisper模型作为"耳朵",这个模型就像一个训练有素的速记员,能够准确捕捉语音中的每一个细节。但仅仅听懂还不够,系统还需要理解语音背后的含义和意图。为此,研究团队收集了大量多样化的音频数据,就像让学生听各种不同口音、不同场景的录音,从正式的新闻播报到日常聊天,从安静的录音室到嘈杂的街头,让AI系统学会在各种环境下理解人类的语音。

特别值得一提的是,系统还学会了识别语音中的细微差别。比如同样是说"好的",兴奋的语调和无奈的语调传达的信息完全不同。研究团队通过精心设计的训练方法,让AI系统不仅能听懂字面意思,还能理解说话者的情绪和态度,就像一个善解人意的朋友。

在语音生成方面,Ming-Omni面临的挑战就像让一个哑巴突然开口说话。语音生成不仅要求发音准确,还要听起来自然,有合适的语调和节奏。研究团队采用了一种创新的方法,使用字节对编码(BPE)技术来压缩音频信息,这就像找到了一种更高效的"语言密码",能够用更少的"字母"表达更丰富的语音内容。这种方法不仅提高了生成速度,还让语音听起来更加自然流畅。

更重要的是,Ming-Omni生成的语音不是机械的复读,而是能够根据上下文和情境进行调整。当你问它一个问题时,它的回答不仅内容合适,语调也会根据问题的性质自动调整——回答严肃问题时语调庄重,回答轻松话题时语调活泼。这种能力的实现需要系统能够理解多模态的上下文信息,比如结合你提供的图片内容来调整语音回应的语调和内容。

研究团队还解决了一个技术难题:如何让语音理解和语音生成能力互不干扰。这就像训练一个人既要善于倾听又要善于表达,两种能力需要平衡发展。他们采用了分阶段训练的策略:先专注于提升理解能力,等这个能力稳定后,再加入生成训练。这种方法确保了两种能力都能达到最佳状态,而不会互相拖后腿。

三、革命性的图像理解与创作能力

Ming-Omni的图像处理能力就像一个同时具备艺术家和评论家素养的专家,它既能深入理解图像的内容和含义,又能根据描述创作出精美的图片。这种双重能力的结合在AI领域是非常罕见的,因为传统上这被认为是两个完全不同的技能。

在图像理解方面,Ming-Omni就像一个经验丰富的图片编辑,能够从多个层面分析图像。它不仅能识别图片中的物体——比如这是一只猫、那是一辆车,更重要的是能够理解图片传达的深层信息。当你给它看一张夕阳西下的海滩照片时,它不仅能识别出海洋、沙滩、夕阳这些元素,还能理解这张照片营造的宁静、浪漫的氛围。

这种理解能力的实现得益于研究团队收集的丰富训练数据。他们不仅使用了大量的图片-文字配对数据,还特别注重数据的质量。就像培养一个艺术鉴赏家,不能只让他看大量的图片,还要让他看到高质量的作品和专业的解析。研究团队开发了一个"自我进化"的数据筛选系统,这个系统会自动识别和保留高质量的训练样本,淘汰那些模糊、错误或低质量的数据。

Ming-Omni还具备强大的图像生成能力,这个过程就像一个画家根据顾客的描述创作作品。当你告诉它"画一只戴着红帽子的猫咪坐在雪地里",它不仅能准确理解每个元素的要求,还能将这些元素和谐地组合在一个画面中。更令人惊叹的是,它能够控制图片的风格——同样的内容可以画成写实风格、卡通风格,或者抽象艺术风格。

图像生成的技术实现采用了一种多尺度的方法,就像画家先画出整体轮廓,再逐步添加细节。系统首先生成图片的大致布局和主要元素,然后逐步细化各个部分,最后添加精细的纹理和光影效果。这种分层生成的方法确保了最终图片既有合理的整体结构,又有丰富的细节表现。

特别值得一提的是,Ming-Omni还支持图像编辑功能,这就像拥有了一个智能的图片编辑助手。你可以告诉它"把这张照片中的猫咪换成狗狗"或者"给这个房间添加几盆绿植",它会精确地执行你的指令,而且编辑结果看起来非常自然,就像原本就是这样的。这种能力在实际应用中非常有用,无论是社交媒体的图片美化,还是专业的图像设计工作。

研究团队在保持图像生成质量的同时,还确保了生成速度的实用性。他们采用了一种"轻量级桥接"的方法,让图像生成模块能够充分利用语言理解模块的语义信息,而不需要重新训练整个系统。这就像在原有的画家工作室里添加了一套新的绘画工具,既能发挥原有技能,又能创作出新的作品类型。

四、卓越的视频和多模态理解能力

Ming-Omni的视频理解能力就像一个经验丰富的电影评论家,不仅能看懂单独的画面,更能理解画面之间的连续性和故事发展。这种能力比单纯的图像识别要复杂得多,因为视频包含了时间维度的信息,需要系统能够跟踪和理解事物的变化过程。

当你给Ming-Omni展示一段视频时,它会像人类观看电影一样进行分析。比如看到一个人拿起杯子喝水的视频,它不仅能识别出人、杯子、水这些静态元素,还能理解整个动作的序列:伸手、拿起、举起、喝水、放下。更重要的是,它能理解这些动作背后的意图和情感——这个人可能是渴了,或者这可能是一个广告片段。

这种理解能力的实现需要系统能够在时间轴上保持记忆和连贯性。就像人类看电影时会记住前面的情节来理解后面的发展,Ming-Omni也能在处理视频时保持对前面内容的记忆。研究团队采用了先进的注意力机制,让系统能够同时关注视频的空间信息(画面中的物体)和时间信息(动作的变化),形成完整的理解。

Ming-Omni的多模态理解能力就像一个全感官的观察者,能够同时处理来自不同感官的信息并将它们整合起来。在现实生活中,我们经常同时接收视觉、听觉等多种信息,比如看电影时同时有画面和声音,或者在社交媒体上看到配有文字说明的图片。Ming-Omni能够模拟这种人类的多感官体验,将不同类型的信息融合成一个完整的理解。

这种融合过程就像一个经验丰富的记者,能够从多个角度收集信息然后写出全面的报道。当给Ming-Omni一个包含图片、文字和声音的复合输入时,它会分别分析每种信息的内容,然后找出它们之间的关联和互补关系。比如,图片显示一个人在微笑,文字描述说"今天心情很好",声音中透露出愉快的语调,系统会将这些信息整合起来,得出一个关于这个人当前状态的完整理解。

研究团队特别注重解决不同模态信息之间的冲突问题。在现实世界中,不同来源的信息有时会互相矛盾,比如一个人嘴上说"我很好",但表情却显得沮丧。Ming-Omni学会了处理这种矛盾,就像一个善于察言观色的朋友,能够从多种线索中判断真实情况。

为了训练这种多模态理解能力,研究团队构建了大量的多模态数据集,这些数据集就像一个丰富的"教科书",包含了各种现实场景中的多模态信息组合。从简单的图文配对到复杂的视频-音频-文字组合,系统通过学习这些例子,逐渐掌握了如何在不同信息类型之间建立连接和进行推理。

五、严格的训练过程与质量保证

Ming-Omni的训练过程就像培养一个全才艺术家,需要经过精心设计的多个阶段,每个阶段都有特定的学习目标和方法。这个过程不是简单的"一锅煮",而是像烹饪一道复杂菜肴一样,需要掌握火候、顺序和配比。

整个训练分为两个主要阶段:感知训练和生成训练。感知训练阶段就像让学生先学会阅读和理解,这个阶段的重点是教会AI系统如何理解各种输入信息。研究团队采用了渐进式的训练策略,不是一开始就把所有类型的信息都混在一起,而是先让系统掌握基础能力,再逐步增加复杂性。

在感知训练的第一个子阶段,系统主要学习处理图像和文字的关系,就像学生先学会看图说话。第二个子阶段增加了音频信息和更多的文字内容,让系统开始理解多模态的复杂关系。第三个子阶段则加入了视频和音频问答任务,让系统具备更全面的理解能力。这种循序渐进的方法确保了每种能力都能得到充分的发展,而不会因为任务过于复杂而学习效果不佳。

生成训练阶段就像教会艺术家创作,这个阶段在感知能力稳定之后进行。研究团队采用了并行训练的策略,同时训练语音生成和图像生成能力。为了避免生成训练影响已经建立的理解能力,他们采用了"冻结-解冻"的技术,就像保护已经完成的画作部分,只对需要新增的功能进行训练。

数据质量的控制是整个训练过程中的重中之重。研究团队就像挑选食材一样严格筛选训练数据,他们开发了一套自动化的数据质量评估系统,这个系统能够识别和过滤掉低质量的数据。比如图片模糊、文字描述不准确、音频有噪声等问题都会被自动检测出来。更巧妙的是,这个质量控制系统还能学习和进化,随着模型能力的提升,质量标准也会相应提高。

为了确保模型能够处理真实世界的复杂情况,研究团队特别注重数据的多样性。他们收集的数据就像一个丰富的"图书馆",包含了各种主题、风格和场景。从专业的学术图表到日常生活照片,从正式的新闻播报到随意的聊天录音,从高清的电影片段到手机拍摄的视频,这种多样性确保了模型在面对各种实际应用场景时都能表现良好。

训练过程中还采用了动态平衡策略来解决不同模态学习速度不一致的问题。这就像一个经验丰富的教练,能够根据每个运动员的特点调整训练计划。当发现某种模态的学习进度落后时,系统会自动增加相关的训练权重;当某种模态表现过于突出时,会适当减少其训练比重,确保各种能力均衡发展。

六、全面的性能评估与突破性成果

Ming-Omni的性能评估就像一场全方位的能力测试,研究团队设计了超过50个不同的评估任务,覆盖了AI系统可能遇到的各种实际应用场景。这些测试就像不同科目的考试,从基础的识别能力到复杂的推理任务,从单一模态处理到多模态融合,全面检验了模型的各项能力。

在图像理解方面,Ming-Omni的表现就像一个优秀的学生在各门考试中都取得了高分。在MMBench这样的综合视觉理解测试中,虽然只激活了28亿参数,但性能却能与70亿参数的强大模型相媲美。更令人印象深刻的是,在一些专业领域的测试中,比如GUI(图形用户界面)理解任务,Ming-Omni的表现超越了许多专门针对该领域训练的模型。这就像一个通才在某个专业领域击败了专业选手,显示了其架构设计的优越性。

在知识密集型任务中,Ming-Omni表现出了惊人的专业能力。比如在InfoSeek基准测试中,它需要回答关于图片中具体事物的专业知识问题,Ming-Omni的表现比许多参数量更大的模型还要出色。这就像一个学者不仅能看懂图片,还能准确回答关于图片内容的专业问题,展现出了深厚的知识储备和推理能力。

音频处理能力的测试结果同样令人瞩目。在语音识别准确率方面,Ming-Omni在多个公开数据集上创造了新的最佳成绩,特别是在处理方言和嘈杂环境的语音时表现尤为突出。这种能力在实际应用中非常重要,因为现实世界中的语音环境往往并不理想。在语音生成质量方面,Ming-Omni生成的语音自然度和清晰度都达到了商业级应用的标准。

图像生成能力的评估显示了Ming-Omni在创意和技术方面的双重优势。在GenEval这样的综合生成质量测试中,Ming-Omni获得了0.64的高分,超越了包括SDXL在内的多个主流图像生成模型。更重要的是,在FID(图像质量评估)指标上,Ming-Omni达到了4.85的优异成绩,创造了新的技术标杆。这些数字背后代表的是生成图像的清晰度、准确性和艺术质量都达到了极高的水平。

视频理解能力测试中,Ming-Omni在处理长视频内容方面表现特别突出。在LongVideoBench这样的长视频理解测试中,它能够跨越较长的时间跨度保持对内容的理解和记忆,这种能力对于实际应用非常重要。比如分析一部电影的情节发展,或者理解一个教学视频的完整内容。

研究团队还专门测试了模型的多模态融合能力,结果显示Ming-Omni能够很好地整合来自不同感官的信息。在处理同时包含图像、文字和音频的复杂输入时,模型能够准确理解各种信息之间的关系,并给出合理的综合判断。这种能力让它在实际应用中能够处理更贴近人类日常体验的复杂场景。

特别值得一提的是,研究团队还构建了一些专门的评估基准来测试模型在特定领域的专业能力。比如在医学图像分析、科学图表理解、艺术作品鉴赏等专业领域,Ming-Omni都展现出了令人惊叹的表现,这证明了其架构设计的通用性和强大的学习能力。

七、创新的数据构建与质量控制体系

Ming-Omni的成功很大程度上得益于其创新的数据构建和质量控制体系,这个体系就像一个精心设计的"营养配餐"方案,确保AI系统能够获得全面而高质量的"食物"。研究团队不仅收集了海量的多模态数据,更重要的是建立了一套完整的数据质量保证机制。

在图像数据的处理上,研究团队开发了一个"自我进化"的数据筛选框架,这个框架就像一个越来越挑剔的美食家,能够自动识别和保留高质量的图像-文字配对数据。这个系统的工作过程很有趣:它首先用一部分数据训练一个初始模型,然后用这个模型来评估剩余数据的质量,只保留那些得分较高的样本。随着模型能力的提升,评估标准也会相应提高,形成一个良性循环。这种方法不仅提高了数据质量,还大大减少了数据量,让训练变得更加高效。

为了给AI系统提供专业级的知识,研究团队构建了大量的结构化数据和百科全书式数据。这些数据就像专业的教科书,涵盖了从生物学到艺术史的各个领域。比如在植物识别方面,数据不仅包含植物的图片,还包含了拉丁学名、生长环境、形态特征等专业信息。这种深度的知识整合让Ming-Omni能够回答非常专业的问题,就像拥有了一个移动的百科全书。

音频数据的收集和处理更是一个复杂的工程。研究团队不仅收集了大量的公开音频数据集,还专门构建了多方言和多领域的音频数据库。他们采用了智能的音频分割技术,能够自动识别和分离出高质量的音频片段。更重要的是,他们还开发了一个音频标注系统,能够自动为音频片段添加环境、情感、说话人特征等丰富的标签信息。这些标签就像音频的"营养成分表",帮助AI系统更好地理解音频的各个方面。

视频数据的处理面临着更大的挑战,因为视频既包含视觉信息又包含时间维度的变化。研究团队采用了分层标注的策略,从粗粒度的场景描述到细粒度的动作分析,为每个视频构建了丰富的多层次标注。这就像为一部电影写详细的解说词,不仅要描述每个场景发生了什么,还要解释角色的情感变化和情节的发展逻辑。

数据质量控制方面,研究团队建立了多道"质检"程序。首先是自动化的技术检测,能够识别出模糊图片、噪声音频、错误标注等明显问题。然后是AI辅助的语义检测,能够发现那些技术上没问题但内容上不合适的数据。最后还有人工抽检环节,确保整体质量符合要求。这种多层次的质量控制就像食品生产中的严格质检,确保每一份"原料"都符合最高标准。

为了确保数据的多样性和代表性,研究团队特别注重平衡不同类型、不同风格、不同难度的数据。他们就像策划一个全面的课程体系,既要有基础的入门内容,也要有挑战性的高难度材料;既要覆盖日常生活场景,也要包含专业领域的内容。这种全面的数据覆盖确保了Ming-Omni能够在各种实际应用场景中都有良好的表现。

特别值得一提的是,研究团队还构建了一些专门的合成数据,用于训练特定的能力。比如为了提高图像编辑能力,他们生成了大量的"编辑前-编辑后"图像对;为了提高多模态理解能力,他们创建了很多复杂的多模态场景数据。这些合成数据就像专门设计的练习题,能够针对性地提升模型的特定能力。

八、技术创新与架构优势

Ming-Omni的技术创新就像一个精密工程师的杰作,每个技术细节都经过精心设计和优化。整个系统的核心创新在于如何让一个AI模型既能"看"又能"听",既能"说"又能"画",而且这些能力不是简单的拼凑,而是真正的融会贯通。

系统采用的MoE(专家混合)架构就像一个智能的工作团队,每个专家都有自己的专长,但他们能够无缝协作。当处理一个包含图片和文字的输入时,系统会同时调用视觉专家和文本专家,但这些专家不是各自为政,而是通过一个智能的协调机制共同工作。这种设计的巧妙之处在于,它避免了传统方法中不同模态之间的"打架"现象,让各种能力能够相互增强而不是相互干扰。

模态特定路由器的设计是另一个重要创新。这些路由器就像智能的交通指挥系统,能够根据输入信息的特点选择最合适的处理路径。文字信息会被引导到擅长语言处理的专家那里,图像信息会被送到视觉处理专家手中,但这些信息最终会在一个统一的理解空间中汇聚。这种设计确保了每种类型的信息都能得到最专业的处理,同时又能形成统一的理解。

在语音处理方面,研究团队采用了创新的BPE(字节对编码)技术来处理音频信息。这个技术就像找到了一种更高效的"音频压缩密码",能够用更少的数据量表达更丰富的音频信息。这不仅提高了处理速度,还让生成的语音听起来更加自然。更重要的是,这种编码方式能够更好地捕捉语音中的韵律和情感信息,让AI生成的语音不再是机械的合成声,而是带有丰富表现力的自然语音。

图像生成方面的创新采用了多尺度学习token的方法,这就像教画家学会从整体到局部的绘画技巧。系统首先学会在低分辨率下理解图像的整体布局和主要元素,然后逐步学会处理更精细的细节。这种方法让生成的图像既有合理的整体结构,又有丰富的细节表现。同时,系统还能够在不同尺度之间建立对应关系,确保细节与整体的和谐统一。

为了解决多模态训练中的平衡问题,研究团队开发了动态自适应平衡策略。这个策略就像一个智能的健身教练,能够根据训练者的具体情况调整训练计划。当发现某种模态的学习进度滞后时,系统会自动增加相关的训练权重;当某种能力发展过快时,会适当调整训练重点,确保各种能力协调发展。

系统的另一个创新在于其轻量级的设计哲学。虽然具备强大的多模态能力,但Ming-Omni只需要激活28亿个参数就能工作,这相比许多单一功能的大模型要高效得多。这种效率的实现得益于巧妙的参数共享机制和专家调度策略,就像一个多功能工具,虽然功能强大但依然保持紧凑和高效。

在训练策略方面,研究团队采用了分阶段的渐进式训练方法。这种方法就像培养一个全才艺术家,不是一开始就让他同时学习所有技能,而是先打好基础,再逐步增加复杂性。这种循序渐进的方法确保了每个阶段的学习都能达到最佳效果,避免了能力之间的相互干扰。

特别值得一提的是,系统还实现了真正的端到端训练,这意味着从输入到输出的整个处理流程都是一体化的,没有中间的断层或转换损失。这就像一个流畅的管道,信息能够无障碍地从一端流向另一端,确保了处理的高效性和结果的一致性。

说到底,Ming-Omni代表了AI技术发展的一个重要里程碑。它不仅证明了构建真正的多模态AI系统是可能的,更重要的是为未来的AI发展指明了方向。这个系统就像一扇窗户,让我们看到了AI技术未来的无限可能性。

想象一下这样的未来:你的AI助手不仅能听懂你的话,看懂你的图片,还能根据你的需求创作内容,与你进行真正自然的多模态交流。无论是帮助视觉障碍者"看"世界,还是帮助创作者实现天马行空的想法,或者是让教育变得更加生动有趣,Ming-Omni开启的可能性是无穷无尽的。

更重要的是,作为一个完全开源的项目,Ming-Omni为全世界的研究者和开发者提供了一个强大的起点。就像给了大家一个高质量的"乐高积木套装",每个人都可以在此基础上构建自己的创新应用。这种开放的精神不仅推动了技术的进步,也体现了科学研究的本质——通过分享和协作来造福全人类。

当然,任何技术都有其局限性,Ming-Omni也不例外。比如在处理一些极其复杂或者非常专业的任务时,它可能还需要进一步的改进。但正如蚂蚁集团研究团队在论文中提到的,这只是一个开始,未来还有无数的可能性等待探索。

归根结底,Ming-Omni不仅仅是一个技术产品,更是人类在创造更智能、更有用的AI系统道路上的一次重要探索。它告诉我们,真正有用的AI不应该是冷冰冰的工具,而应该是能够理解我们、帮助我们、与我们自然交流的智能伙伴。有兴趣深入了解这项研究的读者,可以访问论文的GitHub代码库(https://github.com/inclusionAI/Ming/tree/main)获取更多技术细节和代码实现。这项开源研究为整个AI社区提供了宝贵的资源,相信会推动更多创新应用的诞生。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-