微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ByteDance推出Seaweed-APT:1秒生成2秒高清视频,AI视频制作迈入实时时代

ByteDance推出Seaweed-APT:1秒生成2秒高清视频,AI视频制作迈入实时时代

2025-09-15 14:43
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-15 14:43 科技行者

这项由ByteDance Seed团队的林善川、夏心等六位研究员完成的突破性研究,于2024年发表,完整论文可通过https://seaweed-apt.com网站访问。这是AI视频生成领域的一个重要里程碑,首次实现了真正意义上的实时高清视频生成。

想象一下,你只需要输入一句话的描述,比如"一只猫穿着西装走在纽约街头",然后按下回车键,不到一秒钟的时间,一段长达2秒、分辨率高达1280×720像素、每秒24帧的高清视频就出现在你面前。这听起来像科幻电影里的情节,但ByteDance的研究团队已经让它成为现实。

这项技术被称为"扩散对抗后训练"(Adversarial Post-Training,简称APT),它彻底改变了AI视频生成的速度瓶颈。要知道,以往生成一段类似质量的视频,即使使用最先进的GPU也需要数分钟时间,而且通常需要25个计算步骤。现在,这一切只需要一个步骤就能完成。

研究团队巧妙地将传统的视频生成过程比作烹饪。以前的方法就像是严格按照食谱一步步来,需要先准备食材、腌制、炖煮、调味等25个步骤才能做出一道菜。而他们的新方法就像是训练了一个经验丰富的大厨,这位大厨已经把所有步骤融会贯通,能够一气呵成地直接端出美味佳肴。

这种革命性的改进不仅仅是速度的提升。研究团队发现,他们的方法生成的视频在视觉真实感方面甚至超越了原本的多步骤方法。就像那位经验丰富的大厨不仅做菜更快,味道还更好一样。用户研究显示,在视觉保真度方面,新方法比原始的25步扩散模型提升了37.2%。

不过,这项技术也有一些权衡。虽然生成的视频看起来更真实,但在结构完整性和文本对齐方面还有改进空间。这就像那位快手大厨虽然做菜又快又香,但偶尔会忘记按照顾客的精确要求来调整细节。具体来说,在结构完整性方面下降了13.1%,在文本对齐方面下降了8.1%。

研究的核心突破在于一个全新的训练理念。传统的扩散模型就像是一个学生,需要老师逐步指导每一个细节。而APT方法则更像是让这个学生直接面对真实世界的挑战,通过与现实数据的直接对抗来快速成长。这种"实战训练"的方式让模型能够在单一步骤中就掌握原本需要多步骤才能完成的复杂转换。

一、技术原理:从渐进式学习到一步到位的智慧跨越

要理解这项技术的革命性,我们需要先了解传统扩散模型的工作方式。传统扩散模型就像是一个雕塑家,需要从一块粗糙的石料开始,通过25次精细的雕琢才能创造出一件艺术品。每一次雕琢都会去除一些"噪声",逐渐显现出最终的图像或视频。

这个过程虽然能产生高质量的结果,但速度实在太慢了。对于视频生成来说,这个问题更加严重,因为视频包含了时间维度的信息,计算量呈几何级数增长。生成一段2秒的1280×720高清视频,即使在最先进的H100 GPU上也需要数分钟时间。

ByteDance的研究团队提出了一个全新的思路:既然最终目标是生成高质量的视频,为什么不直接训练模型一步到位呢?这就像是培养一个天才画家,让他能够一笔画出完整的作品,而不是教他按照传统方法一层层地涂色。

他们的方法建立在一个预训练的扩散模型Seaweed基础之上。Seaweed是一个包含80亿参数的巨型模型,采用了最先进的MMDiT架构,能够同时处理图像和视频生成任务。这个模型就像是一个经验丰富的艺术家,已经掌握了创作的基本技能。

APT方法的核心是将这个艺术家从"按部就班的学徒"转变为"天才的大师"。具体来说,他们采用了一种叫作"对抗训练"的技术。这种技术就像是让两个AI进行一场无休止的竞赛:一个负责生成内容(生成器),另一个负责判断真假(鉴别器)。

生成器就像是一个想要通过考试的学生,它的目标是生成能够以假乱真的视频。鉴别器则像是一个严格的考官,它的任务是区分哪些是真实视频,哪些是AI生成的。通过这种持续的竞争,生成器变得越来越善于创造逼真的内容。

这种训练方式的巧妙之处在于,它直接使用真实的视频数据作为参考标准,而不是依赖于之前的扩散模型作为"老师"。这就像是让学生直接面对现实世界的挑战,而不是只在课堂上学习理论知识。

研究团队还面临了一个巨大的技术挑战:如何让包含数十亿参数的巨型模型进行稳定的对抗训练。传统的对抗训练在规模较小的模型上就经常出现"训练崩溃"的问题,更不用说在如此大规模的模型上了。这就像是要让两头大象在钢丝上进行摔跤比赛,稍有不慎就会导致灾难性的后果。

为了解决这个问题,他们引入了几项关键的技术创新。首先,他们采用了一种叫作"确定性蒸馏"的预处理步骤。这就像是在正式比赛之前先让选手进行热身训练,确保他们的基本状态良好。

其次,他们对鉴别器的架构进行了特殊设计。他们的鉴别器不是简单地给出一个"真或假"的判断,而是从多个不同的层次来评估视频质量。这就像是请了多位专家从不同角度来评判作品,有的专家关注细节,有的关注整体构图,有的关注色彩搭配。

最重要的是,他们引入了一种叫作"近似R1正则化"的技术。这项技术的作用就像是给这场激烈的竞赛加上了一套安全规则,防止比赛变得过于激烈而导致系统崩溃。

二、架构设计:构建史上最大规模的生成对抗网络

在技术实现层面,这项研究创造了一个真正的工程奇迹。研究团队构建了可能是迄今为止规模最大的生成对抗网络(GAN),总参数量达到了惊人的160亿。这个数字意味着什么?相比之下,GPT-3的参数量是1750亿,但那是一个纯文本模型。对于需要处理复杂视觉信息的生成对抗网络来说,160亿参数已经是一个前所未有的规模。

整个系统的架构就像是一座精密的工厂,分为两个主要车间:生成器车间和鉴别器车间。生成器车间负责将随机的"原材料"(噪声)加工成精美的"产品"(视频),而鉴别器车间则负责质量检验,确保产品达到标准。

生成器部分采用了36层的变压器架构,每一层都像是生产线上的一个工作站。这些工作站协同工作,将输入的噪声和文本描述逐步转换成最终的视频内容。整个过程就像是一个超级复杂的3D打印机,能够根据文字描述"打印"出动态的视频场景。

更有趣的是,这个生成器具有"多模态"能力,既能生成1024像素的高清图片,也能生成1280×720的高清视频。这就像是一台既能制作精美照片又能拍摄电影的万能设备。在实际应用中,用户只需要提供一个文本描述,系统就能自动判断应该生成图片还是视频,并选择相应的处理流程。

鉴别器的设计同样令人印象深刻。它不是简单地对整个视频给出一个评分,而是采用了"多尺度评估"的策略。具体来说,鉴别器会在第16层、第26层和第36层分别进行评估,就像是有三个不同专业背景的评委分别从不同角度来评判作品质量。

这种多尺度评估的好处在于能够同时关注视频的不同特征。早期的层次主要关注基本的结构和构图,中间的层次关注细节和纹理,而最后的层次关注整体的语义一致性。这种设计确保了生成的视频既有清晰的细节,又有合理的整体结构。

研究团队在训练过程中还采用了一个叫作"时间步集成"的技术。传统的扩散模型在不同的时间步会产生不同的中间结果,但在一步生成中,这些时间步信息需要被巧妙地整合到单一的前向过程中。他们的解决方案是使用一个特殊的"时间步集成"函数,将原本分散在25个时间步的信息压缩到一个统一的表示中。

为了保证训练的稳定性,研究团队引入了前面提到的近似R1正则化技术。传统的R1正则化需要计算二阶梯度,这在如此大规模的模型上几乎是不可能的,因为现有的深度学习框架都不支持这种高阶梯度的计算。他们的创新解决方案是通过在真实数据上添加小量的高斯噪声,然后要求鉴别器对原始数据和噪声数据给出相似的评分。这种方法在数学上等价于原始的R1正则化,但计算复杂度大大降低。

三、训练过程:从学徒到大师的蜕变之路

整个训练过程就像是培养一个艺术大师的完整历程,充满了精心设计的阶段和巧妙的技巧。研究团队将训练分为两个主要阶段:图像训练阶段和视频训练阶段,这种分阶段的方法就像是先让学徒掌握静态绘画技巧,再教授动态创作方法。

在图像训练阶段,团队使用了128到256个H100 GPU,这相当于租用了一个中型数据中心的计算资源。他们处理的是1024像素分辨率的图像,通过梯度累积技术达到了9062的批处理大小。这个数字意味着模型在每次更新时都要"看到"超过9000个不同的图像样本,这种大批量训练对于提高模型的泛化能力至关重要。

训练速度之快令人惊叹。研究团队发现,模型适应新的生成方式的速度非常快,仅仅经过50次更新迭代,就能开始生成清晰的图像。他们采用了指数移动平均(EMA)技术,就像是给模型的学习过程加上了一个"记忆平滑器",防止学习过程中的剧烈波动。最终,在350次更新后,模型达到了最佳状态,继续训练反而会导致质量下降。

视频训练阶段更加复杂和资源密集。研究团队动用了1024个H100 GPU,相当于一个大型超算中心的全部计算力。他们处理的视频规格是1280×720分辨率,24帧每秒,持续2秒钟,这意味着每个视频样本包含48帧高清图像。批处理大小降低到2048,但考虑到每个样本的复杂度,总的计算量仍然是图像训练的数倍。

训练数据的选择也很有讲究。研究团队使用了与原始Seaweed扩散模型相同的数据集,这确保了新方法能够继承原模型的知识,而不是从零开始学习。这就像是让一个已经会画画的学生学习新的绘画技巧,而不是教一个完全的新手。

为了防止训练过程中出现"模式崩溃"(即模型开始生成相似的内容),研究团队特别注意批处理大小的选择。他们发现,对于视频训练,如果批处理大小太小(比如256),模型很容易陷入模式崩溃,生成的视频会变得千篇一律。只有使用足够大的批处理大小(2048或以上),才能保证生成内容的多样性。

优化器的选择也颇有深意。研究团队使用了RMSprop优化器而不是更常见的Adam优化器。RMSprop相当于Adam的一个简化版本,它减少了内存消耗,这对于如此大规模的模型训练来说至关重要。具体参数设置为α=0.9,这个参数控制了历史梯度信息的衰减速度。

学习率的调整策略也很精妙。在图像训练阶段,他们使用5e-6的学习率,这个数值相对较高,允许模型快速适应新的训练目标。到了视频训练阶段,学习率降低到3e-6,这种降低是必要的,因为视频生成比图像生成更加复杂,需要更加谨慎的优化过程。

整个训练过程还采用了BF16混合精度训练,这是一种能够在保持数值稳定性的同时大幅减少内存使用和计算时间的技术。这就像是使用一种特殊的"压缩格式"来存储数字,既节省空间又不影响计算精度。

四、创新的正则化技术:驯服巨型网络的安全缰绳

在构建如此大规模的生成对抗网络时,最大的挑战之一就是保持训练的稳定性。这就像是要驾驭一匹极其强大但也极其野性的马,没有合适的控制手段,它随时可能失控狂奔。研究团队开发的近似R1正则化技术就是这样一根关键的"安全缰绳"。

传统的R1正则化是生成对抗网络训练中的一个重要技术,它的作用是防止鉴别器变得过于"挑剔",从而导致整个训练过程崩溃。这种技术的原理是惩罚鉴别器在真实数据点附近的梯度,确保鉴别器的决策边界保持平滑。用一个更直观的比喻来说,就像是要求一个严格的考官不要过分吹毛求疵,给学生留一些犯小错误的空间。

然而,传统的R1正则化有一个致命的缺陷:它需要计算二阶梯度,这在数学上意味着要对梯度再求一次导数。对于小规模的模型,这还可以接受,但对于拥有80亿参数的巨型模型来说,这种计算是完全不可行的。现有的深度学习框架,包括PyTorch的FSDP(全分片数据并行)、梯度检查点、FlashAttention等先进技术,都不支持这种大规模的高阶梯度计算。

面对这个看似无解的难题,研究团队想出了一个巧妙的替代方案。他们的想法是:既然直接计算二阶梯度不可行,那么能否用一种更简单的方法来达到同样的效果呢?

他们的解决方案基于一个深刻的数学洞察。R1正则化的本质是要求鉴别器对输入的小幅变化不要过于敏感。那么,如果我们给真实数据添加一点小的随机噪声,然后要求鉴别器对原始数据和加噪数据给出相似的评分,这在数学上就等价于限制梯度的大小。

具体来说,他们的近似R1损失函数是这样工作的:对于每个真实视频样本x,他们会生成一个带有小量高斯噪声的版本N(x, σI),其中σ是噪声的标准差,I是单位矩阵。然后,他们要求鉴别器D对这两个样本给出尽可能接近的评分,即最小化||D(x,c) - D(N(x,σI),c)||?。

这种方法的优雅之处在于,它完全避免了高阶梯度的计算,只需要普通的前向传播就能实现。同时,在数学理论上,当噪声方差σ足够小时,这种方法确实等价于原始的R1正则化。

参数的选择也很重要。对于图像生成,他们使用σ=0.01的噪声标准差,而对于视频生成,由于视频的复杂性更高,他们使用了稍大一些的σ=0.1。正则化权重λ设置为100,这个值是通过大量实验确定的最优参数。

实验结果证明了这种近似方法的有效性。没有这种正则化,训练过程会在几十次迭代后就完全崩溃,鉴别器的损失会迅速降到零,这意味着鉴别器变得过于强大,导致生成器无法学习。而使用了近似R1正则化后,训练过程变得稳定可控,能够持续数百次迭代而不出现崩溃。

这项技术创新的意义不仅仅在于解决了当前的问题,它还为未来构建更大规模的生成对抗网络开辟了道路。随着模型规模的不断增长,传统的训练技术将面临越来越多的挑战,而这种近似方法提供了一种可扩展的解决方案。

五、实验结果:数据背后的突破与权衡

研究团队进行了极其全面的实验评估,涉及超过50,000次样本比较。这些实验就像是一场大规模的"盲品测试",让人类评估者在不知道生成方法的情况下,对不同模型生成的内容进行比较和评分。

在图像生成方面,结果让人印象深刻。与原始的25步扩散模型相比,APT方法在视觉保真度方面取得了37.2%的显著提升。这意味着生成的图像看起来更加真实、自然,细节更加丰富。评估者普遍反映,APT生成的图像在纹理、色彩饱和度和整体视觉冲击力方面都明显优于传统方法。

这种改进的原因可以追溯到APT方法的核心理念。传统的扩散模型使用分类器自由引导(CFG)来提高生成质量,但这种方法有时会产生过度饱和或不自然的效果,就像是过度使用滤镜的照片。APT方法通过直接与真实数据对抗训练,学会了生成更加自然和真实的图像风格。

然而,这种改进也带来了一些权衡。在结构完整性方面,APT方法出现了13.1%的下降。这意味着生成的图像在保持对象正确形状和比例方面有所欠缺。例如,在生成人物图像时,可能会出现四肢比例略有偏差,或者面部特征的空间关系不够准确的情况。

文本对齐方面的8.1%下降也值得关注。这表明模型在理解和响应复杂文本描述方面还有改进空间。比如,当用户输入"一只戴着红色帽子的蓝色猫"时,模型可能会正确生成猫和帽子,但在颜色匹配上可能不够精确。

在与其他先进的一步生成方法比较时,APT展现出了竞争优势。与FLUX-Schnell相比,APT在绝对偏好评分上略有劣势(落后4.6%),但考虑到基础模型的差异,在相对偏好评分上,APT实际上表现更好。这就像是在不同的赛道上比赛,需要考虑起跑线的差异。

与SDXL系列的各种一步生成方法比较时,APT的优势更加明显。在与SDXL-DMD2的比较中,APT在各项指标上都表现更好,平均偏好评分达到11.1%。与SDXL-Lightning相比,APT的优势更加突出,在视觉保真度方面领先43.6%。

视频生成的结果同样令人鼓舞。APT方法生成的视频在视觉保真度方面比原始25步模型提升了10.4%(一步生成)到32.3%(两步生成)。这些视频在色彩鲜艳度、动态真实感和整体视觉质量方面都有显著改进。

特别值得一提的是,APT模型还展现出了意外的能力:虽然主要针对一步生成进行优化,但它也能进行两步生成,并且质量进一步提升。这就像是一个专门训练短跑的运动员,发现自己在中距离跑步时表现也很出色。

在定量评估方面,研究团队也提供了传统的FID(Fréchet Inception Distance)和CLIP分数等指标。不过,他们特别指出了这些自动化指标的局限性。例如,按照FID分数,FLUX的一步版本竟然比25步版本表现更好,这与人类的感知明显不符。这提醒我们,在评估生成模型时,人类评估仍然是最可靠的标准。

推理速度方面的表现同样出色。在单个H100 GPU上,APT模型可以在2秒内生成一个2秒长的1280×720高清视频的潜在表示。如果使用8个H100 GPU并行处理,整个管道(包括文本编码器和潜在解码器)可以实现真正的实时生成。

六、技术局限与未来方向:承认不足,展望未来

尽管APT方法取得了显著突破,研究团队也坦诚地讨论了当前技术的局限性和挑战。这种科学的态度不仅体现了研究的严谨性,也为后续的改进工作指明了方向。

最显著的局限性体现在结构完整性方面。通过深入的分析,研究团队发现这个问题主要源于模型容量的限制。传统的多步扩散过程就像是一个深思熟虑的艺术家,有充足的时间来调整和完善每个细节。而一步生成更像是一个需要即兴创作的艺术家,必须在极短时间内做出所有决策。

为了更好地理解这个现象,研究团队进行了一个有趣的"潜在空间插值"实验。他们在输入噪声之间进行插值,观察生成结果的变化过程。结果发现,一步生成模型的模式转换过程更加平滑,这虽然有助于生成视觉上更自然的内容,但也使得模型在需要进行急剧变化(比如从一个对象切换到另一个完全不同的对象)时显得力不从心。

文本对齐方面的挑战则更加复杂。研究团队分析认为,这主要是因为真实数据分布本身的特性。在现实世界中,视频和其描述文本之间并不总是完美对应的。当模型被训练去模仿真实数据分布时,它也会学到这种"不完美"的对应关系。相比之下,使用分类器自由引导的扩散模型能够人为地增强文本与图像的对应关系,但代价是生成内容可能显得过于"刻意"或"人工"。

研究团队尝试了多种方法来改善文本对齐,包括在训练中加入不匹配的文本-视频对来惩罚错误对应,以及使用CLIP损失来增强语义一致性。然而,这些方法往往会对视觉保真度产生负面影响,形成一种两难的权衡局面。

计算资源的限制也是一个重要因素。由于视频生成的计算复杂度极高,研究团队只能将视频长度限制在2秒以内。虽然这已经足以验证技术的可行性,但对于实际应用来说,更长的视频生成能力仍然是一个重要需求。

研究团队还注意到了批量大小对训练稳定性的重要影响。对于视频训练,他们发现批量大小必须达到1024以上才能避免模式崩溃。这意味着训练需要大量的计算资源,这可能限制了技术的普及和应用。

针对这些局限性,研究团队提出了几个未来的研究方向。首先是探索更大规模的模型架构,特别是增加模型的"表达容量"来更好地处理复杂的一步生成任务。这可能涉及新的网络架构设计,或者更高效的参数利用方式。

其次是开发更好的训练策略来平衡视觉保真度和文本对齐之间的关系。一个可能的方向是采用多阶段训练,先优化视觉质量,再逐步增强文本对应关系。

另一个重要方向是提高计算效率,使得更长的视频生成成为可能。这可能涉及更高效的注意力机制、更好的模型压缩技术,或者专门针对视频生成优化的硬件架构。

研究团队也认识到,自动化评估指标的改进是一个重要课题。目前的FID、CLIP等指标在评估一步生成质量时显得不够准确,开发更可靠的评估方法对于推进整个领域的发展具有重要意义。

七、技术影响与应用前景:从实验室到现实世界的跨越

APT技术的突破不仅仅是学术研究的成功,它更代表了AI内容生成技术向实用化迈出的关键一步。这种从"分钟级"到"秒级"的速度提升,将彻底改变许多行业的工作流程和商业模式。

在内容创作领域,这项技术的影响将是革命性的。传统的视频制作流程往往需要大量的时间和人力成本,从脚本撰写、拍摄、后期制作到最终成品,可能需要数周甚至数月的时间。而APT技术使得创作者能够在几秒钟内将创意想法转化为高质量的视频内容,这将大大降低内容创作的门槛。

对于社交媒体平台来说,实时视频生成能力意味着全新的交互体验。用户可以即时生成个性化的视频内容来回应朋友的消息,或者创建独特的表情包和短视频。这种即时性将使得视频内容的创作和分享变得像发送文字消息一样简单和快速。

教育领域也将从这项技术中获得巨大收益。教师可以根据课程内容即时生成相关的视频演示,让抽象的概念变得生动具体。学生们也可以通过描述来创建视频,更好地表达和分享他们的想法和理解。

广告和营销行业将迎来新的变革机遇。品牌可以根据不同的目标群体和市场环境,实时生成个性化的广告视频。这种个性化程度是传统视频制作无法达到的,每个消费者都可能看到专门为他们定制的广告内容。

在新闻和媒体行业,APT技术能够帮助快速生成新闻报道的可视化内容。当重大事件发生时,新闻机构可以根据现有信息快速生成相关的视频内容,提高报道的及时性和吸引力。

游戏和娱乐产业也将受益匪浅。游戏开发者可以使用这项技术来快速生成游戏场景、角色动画和过场视频,大大缩短游戏开发周期。对于玩家来说,他们可能很快就能享受到根据个人喜好实时生成的游戏内容。

然而,这项技术的普及也带来了一些需要认真考虑的社会问题。首先是内容真实性的挑战。当任何人都能轻松生成逼真的视频内容时,如何区分真实和虚构的内容将成为一个重要问题。这需要开发相应的检测技术和建立新的内容验证机制。

其次是版权和创作权益的问题。如果AI能够轻松生成高质量的视频内容,传统的视频创作者和制作公司的商业模式可能面临冲击。如何在技术进步和创作者权益之间找到平衡点,将是一个需要社会各界共同探讨的问题。

数据隐私和安全也是需要关注的方面。训练这样的大规模模型需要海量的视频数据,如何确保这些数据的合法合规使用,以及如何保护用户在使用过程中产生的数据,都是需要慎重考虑的问题。

从技术发展的角度来看,APT可能只是一个开始。随着计算能力的进一步提升和算法的不断优化,我们可以预期在不久的将来会出现更加强大和高效的视频生成技术。可能的发展方向包括更长视频的生成能力、更高的分辨率支持、更好的风格控制,以及与其他AI技术的深度整合。

这项技术也为人工智能的发展提供了新的思路。APT方法证明了通过巧妙的训练策略,可以让AI系统学会将复杂的多步过程压缩为单步操作。这种思想可能适用于其他需要多步推理或生成的AI任务,为提高AI系统的效率和实用性开辟新的道路。

说到底,ByteDance的这项研究不仅仅是技术上的突破,更是AI从实验室走向日常生活的重要里程碑。它让我们看到了一个未来的可能性:AI不再是需要耐心等待的工具,而是能够即时响应人类创意需求的智能伙伴。当然,如何负责任地开发和使用这样的技术,确保它能够真正造福人类社会,仍然是我们需要持续思考和努力的方向。有兴趣深入了解技术细节的读者,可以访问研究团队提供的完整论文和演示网站https://seaweed-apt.com,那里提供了更多的技术细节和生成样例。

Q&A

Q1:Seaweed-APT能生成多长的视频?质量如何?

A:Seaweed-APT目前能生成2秒长、1280×720分辨率、24帧每秒的高清视频,只需要1秒钟的时间。在视觉真实感方面比传统25步方法提升了37.2%,但在结构完整性方面有所下降。

Q2:这项技术与传统AI视频生成有什么区别?

A:最大区别是速度和训练方式。传统方法需要25个计算步骤和数分钟时间,而APT只需1个步骤和几秒钟。APT还直接使用真实视频数据训练,而不是依赖其他模型作为老师,这让生成的视频看起来更自然真实。

Q3:普通用户什么时候能使用这项技术?

A:研究团队已经在https://seaweed-apt.com网站展示了相关成果,但这主要还是研究阶段的技术演示。真正的商业化应用可能还需要时间,特别是需要解决计算资源需求大、文本对齐准确性等问题。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-