
作者|周雅
CES 2026的余温还未散去,NVIDIA就趁热在上海办公室开了一场技术沟通会,这场会的核心,不仅展示了 DLSS 4.5、G-SYNC Pulsar、DGX Spark等新技术与新产品,更透露出 NVIDIA 正在构建一个横跨数字世界和物理世界的全方位AI架构。
印象较深的是其中提及的「AI PC」。
这是一个近年的热词,但到底什么是AI PC,各方定义并不一致。之前跟同行朋友们聊起,大家的理解也各有千秋,比如是给电脑加一块NPU(神经网络处理单元)就是AI PC?
这个问题,我在现场得到了一个意料之外、却又在情理之中的NVIDIA解答。
当被问及NVIDIA如何定义AI PC的问题时,NVIDIA亚太区技术市场总监Jeff把时间拉回了八年前,他从消费者体验开始讲起。
“对NVIDIA而言,AI PC并非一个新概念。”他说,“我们从8年前的DLSS,也就是利用 AI 算法大幅提升游戏画质与帧率的技术开始,就在用AI重塑PC体验了。所以,无论是游戏本身,还是内容创作,都是AI PC最重要的应用场景之一。”
所以,在 NVIDIA 的叙事里,AI PC 是一个已经持续演进多年的领域,它是关于“算力能为消费者呈现什么”的答案。既然 Jeff 提到 AI PC 的起点是 DLSS,那么 NVIDIA 在这一领域的最新进展——DLSS 4.5,无疑是解读 AI PC 绕不开的关键一站 。
DLSS 4.5拉高AI渲染的门槛
Jeff首先援引Gartner数据分析了当前PC市场的独特现象:尽管从2019到2024年,全球消费级PC的整体销量下滑了14%,但游戏PC的销量却逆势飙升了51%。这一反常增长的背后,是一场由「内容」与「硬件」共同驱动的螺旋式上升。
一方面,优秀的游戏内容持续涌现。Jeff提到:“我们看到同一时期,Steam的用户数翻倍,在线玩家数也屡创纪录。”
另一方面,硬件的革新为这些内容提供了实现的土壤。自2025年11月发布的Blackwell架构GeForce RTX 50系列显卡,在Steam安装量中占比持续攀升,其市场渗透速度达到了前两代产品(Ampere和Ada Lovelace架构)的两倍,这表明了玩家对高性能硬件的强烈渴求。“我们认为,正是内容和硬件这两大引擎,在共同推动着PC游戏产业的蓬勃发展。”Jeff总结道。
在这场增长势头中,软件技术扮演了至关重要的粘合剂角色,其中最具代表性的便是NVIDIA的DLSS。自CES 2025亮相以来,DLSS 4凭借其开创性的Transformer模型超分辨率技术和4倍多帧生成模式,迅速成为行业标杆。一年间,支持DLSS 4的游戏和应用从75款激增至超过250款。在2025年最受瞩目的20款新游戏中,有80%都集成了DLSS 4。多款即将上市的游戏也将支持DLSS 4,包括《007 初露锋芒》 (007 First Light)、《影之刃零》 (Phantom Blade Zero)、《识质存在》(PRAGMATA) 和《生化危机:安魂曲》(Resident Evil Requiem)。
在此基础上,NVIDIA再度突破性能天花板,于CES 2026期间正式发布了DLSS 4.5。这次升级,包含了两项核心进化,分别惠及不同层级的用户——其一,是在技术底层采用了第二代Transformer模型增强超分辨率;其二,是它全新的6倍动态多帧生成模式。
DLSS 4.5的第一个核心升级,是采用第二代Transformer模型,它基于FP8精度进行加速,计算能力相比前代模型提升了5倍。更强的算力带来了更卓越的「上下文感知能力」,让AI能更智能地理解画面中的动态与静态元素,并进行更精准的像素采样,从而实现更好的画质。Jeff强调,这项升级将直接解决玩家长期以来关心的一些画质痛点:
· 画面更稳定:在复杂的场景中,图像的连贯性和清晰度得到显著提升。
· 鬼影更少:大幅优化运动物体(如快速挥舞的武器或飞驰的车辆)后方的拖影问题,动态画面更干净利落。
· 抗锯齿更优:有效减少角色或物体边缘的「像素感」重影,渲染出的图像轮廓更加平滑自然。
最重要的是,这项由第二代Transformer模型驱动的超分辨率画质提升,将适用于所有GeForce RTX GPU用户。玩家只需通过NVIDIA App,即可为超过400款游戏和应用一键启用这项新技术,享受到实实在在的画质升级。
DLSS 4.5的另一项重大升级,则是专为旗舰级GeForce RTX 50系列显卡打造的「多帧生成技术」。
为了便于理解,我们可以做一个简单的算术题。此前的DLSS 4,其多帧生成模式是「1+3」:GPU每渲染1帧真实画面,AI可以生成3帧额外画面,最终输出4帧。而DLSS 4.5则进化到了「1+5」:GPU每辛苦渲染1帧真实画面,AI就能凭借第二代Transformer模型强大的能力,脑补出5帧全新的、高质量的画面,最终输出6帧。
这一飞跃带来的效果是惊人的。根据NVIDIA官方数据,它能让GeForce RTX 50系列显卡在开启要求极高的路径追踪(Path Tracing)时,依然获得超过240 FPS的丝滑游戏体验。在4K分辨率下,从4倍升级到6倍多帧生成,性能提升了约35%,而系统延迟仅增加了微不足道的几毫秒(从47毫秒增至53毫秒),实现了性能与响应速度的绝佳平衡。
更智能的是,DLSS 4.5还引入了「动态多帧生成(Dynamic Multi-Frame Generation)」功能。它如同一位智能的调度系统,能够根据实时游戏场景(例如,是需要极致流畅的激烈战斗,还是需要顶级画质的静态风景),动态调整生成的帧数,自动在画质、帧率和延迟之间找到最佳平衡点。
通过现场实测来看,在《黑神话:悟空》中,在 RTX 5080 硬件配置完全一致、且开启性能模式的前提下,下图可见:右边,天命人的毛发会出现了边缘锯齿与像素闪烁;而左边开启DLSS 4.5后,即便是剧烈晃动的战斗视角,依然呈现出根根分明、稳定且清晰的毛发质感,同时先前版本中物体移动时可能出现的画面闪烁问题也得到了改善。
数据层面的对比则更为直观。DLSS 4.5 将游戏帧率从 184 FPS 飙升至 248 FPS,而且这种基于「6倍帧生成」的性能爆发,并未以牺牲操控手感为代价(两边的延迟只有5ms浮动的差距)。带来画质、帧率与延迟的平衡。
DLSS 4.5的6倍多帧生成与动态多帧生成功能,预计将于2026年春季正式推出。
RTX Remix Logic如何释放Modder想象力?
许多经典PC游戏凭借令人难忘的剧情、角色与玩法,至今仍深受玩家喜爱,但正所谓AI可以让所有行业都重做一遍,随着技术的迭代,这些昔日神作的画面表现,在今天看来难免显得过时,成为了一道阻碍新玩家沉浸、老玩家重温的「时代的眼泪」。
为了让这些瑰宝重焕新生,NVIDIA推出了强大的游戏MOD平台工具——NVIDIA RTX Remix,它迄今已经为《半条命2》(HALF-LIFE 2 RTX)、《求生之路2》(Left 4 Dead 2 RTX)等无数经典游戏披上了现代光线追踪技术的外衣,赋予它们次世代画质。仅在2025年,RTX Remix平台就催生了125款Remix模组、20款社区工具及插件,覆盖多款经典游戏,并实现了对Blender、ComfyUI、Langflow、Unity及Unreal等主流创作工具的完全兼容。
然而,任何强大的技术在初期都并非完美,初版的RTX Remix也不例外。Jeff举例说,在过去,Remix对游戏场景的修改是全局性的,缺乏对上下文的智能感知。当Modder想为游戏添加冬季氛围时,RTX Remix会将「下雪」效果应用于整个世界——这意味着不仅室外白雪皑皑,连温暖的室内场景也开始飘雪。这种不合逻辑的视觉错误,无疑会严重破坏游戏的沉浸感。
为了解决这一难题,NVIDIA推出了一个革命性的新工具——RTX Remix Logic。
NVIDIA Remix Logic是一套逻辑系统,让Modder可以根据实时游戏事件,在游戏过程中触发丰富的动态图形特效。RTX Remix Logic内置30+的游戏内事件检测机制,包括但不限于相机状态、边界框、渲染对象、时间及热键触发等。同时,在触发检测之后,RTX Remix则会相应启动超过900项的具体图形渲染设置,包括体积光、粒子、材质属性、光照属性以及后期处理等。这样就能够对具体游戏的实时场景需求进行更准确、更逼真的渲染增强。
Jeff通过几个应用场景,展示了Remix Logic的能力:
首先是「场景动态切换」。在游戏中,「开门」只是一个简单的互动。但在Remix Logic的加持下,「开门」这个动作变成了一个强大的“触发器”。演示中,当玩家推开门,室外的世界可以瞬间从晴空万里变为大雪纷飞;再次开关门,又可能切换到另一种天气。Jeff强调,这一功能的核心,并非让玩家频繁开关门来切换四季,而是赋予Modder和玩家前所未有的选择权。它让我们能轻松创造出「门内」和「门外」是两个完全不同世界的奇幻体验。“有了Remix Logic,让玩家从被动的接受者转变为主动的创造者,将游戏调整为自己喜欢的样子,这就是我们想带给玩家的全新力量。”
其次,Remix Logic还能「增强游戏氛围」。在《半条命》的演示中,当有敌人靠近时,它检测到玩家处于危险状态中,会立刻触发一系列视觉特效(屏幕边缘出现脉冲式的色差和不断加深的暗角)。Jeff解释说,这并非游戏的原生功能,目的是为了营造出原版所没有的、更深层次的惊悚感和紧张感,让玩家“更有那种心惊肉跳的可怕感觉”。
最后,Remix Logic还能「丰富视觉特效」。当检测到「玩家激活不稳定机器」时,它会瞬间触发一整套「核反应」特效:机器开始喷射粒子、周围环境强光闪烁、连天空都渲染出核爆的视觉效果,让原本平淡的场景变得极具视觉震撼力。
在过去,要实现这类与游戏事件实时联动的画面修改,只有拥有游戏源代码或引擎访问权限的开发者才能做到。而RTX Remix Logic的真正革命性在于,它彻底打破了这一壁垒,它让广大的Modder社区无需触及任何原始引擎代码,就能在超过165款经典游戏中,像开发者一样随心所欲地添加自定义的动态视觉效果。
这项解放创造力的更新,将于本月晚些时候通过NVIDIA App正式推出。
ACE让AI NPC化身游戏顾问与队友
由于游戏制作水平的飞速发展,一个不容忽视的现象也随之而来:一些游戏过于复杂性,对新老玩家带来过高的入门门槛。Jeff以知名策略游戏《全面战争》(Total War)系列为例,点出了这一困境:“这系列游戏以深度和复杂性而闻名。开发商Creative Assembly面临一个棘手问题:核心玩家对这种复杂性爱不释手,但无数潜在的新手却学习成本太高而望而却步。”
而NVIDIA ACE(Avatar Cloud Engine)技术的出现,正是为了打破这一僵局。NVIDIA正在扩展其全套ACE技术,为玩家提供一位本地化的「AI顾问」,帮助他们理解游戏的系统与机制。
那么,这种AI顾问与我们熟悉的传统游戏NPC有何本质区别?
传统的游戏顾问或教学角色,其行为和对话本质上是基于脚本的,它们只能在预设的特定条件下,触发固定的任务或说出写死的台词,就像一本只能按顺序翻阅的说明书。它们无法理解玩家的实时困境,也无法提供个性化的指导。
而由ACE驱动的AI顾问则完全不同,它的工作流程更像一位人类专家,同时具备以下能力:
1、倾听与理解:通过ASR(自动语音识别)技术,它可以「听懂」玩家用自然语言提出的问题。
2、分析与诊断:它能实时接入并分析当前的游戏状态数据——你的资源、部队位置、省份状态等等。
3、检索与推理:结合庞大的游戏知识库(包含所有规则、单位信息和机制),它能诊断出问题的根源。
4、生成与回应:最后,通过TTS(文本到语音合成)技术,它会生成一段完全符合游戏世界观和角色设定的、个性化的解决方案,并用自然的语音告诉你。
开发商Creative Assembly正在利用ACE技术,对旗下游戏《全面战争:法老》(Total War: PHARAOH)中的顾问角色进行智能化改造。
在现场演示中,这一技术的强大能力展露无遗。当玩家直接用语音提问“为什么我的省份会发生叛乱?”时,AI顾问立刻给出了精准且可执行的回答:
“指挥官,由于您省份的幸福指数降至了-100,一场叛乱已经爆发。这会在该省份生成一支叛军,并且他们每回合都会招募新的士兵。若要提升幸福指数,您可以建造能够增加幸福度的建筑、暂停征税、或颁布相关皇家法令。通过将幸福水平维持在稳定状态,便可防止未来再次发生叛乱。”
这是一次真正的策略指导。
如果说「AI顾问」是玩家的专属教练,那么ACE技术的潜力远不止于此,它还能化身为与你并肩作战的「AI队友」。
Jeff进一步介绍了由ACE驱动的「AI队友」在《绝地求生》(PUBG: BATTLEGROUNDS)中的应用——“PUBG Ally”。与AI顾问不同,PUBG Ally被赋予了长期记忆。它能记住与你在过往战斗中的互动、你的战术风格、甚至是一些标志性事件。因此,它的回应会更加个性化,甚至会提及之前的战斗表现,仿佛一位真正与你一同成长、持续进化的战友。据悉,“PUBG Ally”将于今年上半年通过《绝地求生》的限时用户测试模式与玩家见面,将支持英语、韩语和中文。
G-SYNC Pulsar如何终结动态模糊?
在现代显示技术的发展历程中,NVIDIA于2013年推出的G-SYNC技术无疑是一座重要的里程碑。它所引入的「VRR(可变刷新率,Variable Refresh Rate )」技术,为了解决一个长期困扰游戏玩家的顽疾——「画面撕裂」。
这里有必要解释一下画面撕裂的成因。传统显示器的刷新率是固定的(例如60Hz或144Hz),而显卡渲染游戏画面的帧率却是实时变化的。当显示器正准备刷新一帧画面时,如果显卡恰好送来一帧未渲染完成的新画面,显示器就会将新旧两帧的片段拼接在一起显示,从而产生一道明显的横向断裂线,即「画面撕裂」。
VRR技术的革命性在于,它打破了显示器固定的刷新节奏,转而让显示器去同步显卡的输出节奏。简而言之,显示器会「等待」显卡完全渲染好一帧画面后,再进行刷新。通过这种动态同步,VRR从根本上消除了画面撕裂,让游戏画面在高帧率下也能保持完整与平滑。如今,这项技术已成为主流游戏显示器的标配。
然而,解决了画面撕裂之后,显示技术的下一个挑战浮出水面:「动态模糊」。为此,NVIDIA在本次发布会上正式推出了G-SYNC Pulsar技术,Jeff将其称为“VRR技术的一次巨大进步”。
动态模糊的根源在于传统LCD显示器的工作方式。在显示一帧图像时,显示器的背光会持续点亮,直到下一帧图像到来。这种「采样并保持」(Sample-and-Hold)的显示模式,使得运动中的物体在我们的视网膜上留下一道连续的轨迹,被人眼感知为模糊的拖影。对于需要快速反应和精准追踪的竞技游戏而言,这种模糊无疑是致命的。
G-SYNC Pulsar正是为根除这一痛点而生。它的核心是「可变频率背光频闪技术」,它不再让背光持续点亮,而是在每一帧画面稳定显示时,以极快的速度闪烁一次背光。这次短暂的「曝光」将清晰的图像精准地「印」在玩家的视网膜上,随后的瞬间黑暗则清除了上一帧的视觉残留,从而杜绝了拖影的形成。更关键的是,Pulsar的频闪频率能够与VRR的刷新率完美同步,即使在帧率波动时也能保持清晰。
为了直观展示其效果,Jeff现场播放了一段由1000帧/秒高速摄像机拍摄的对比视频。在《反恐精英2》游戏中,未开启Pulsar的普通G-SYNC显示器,快速移动的游戏角色模糊不清;而开启Pulsar之后,角色的轮廓、动作和细节都清晰锐利,一目了然。
现场的另一组演示则选用了经典的电竞游戏《守望先锋2》。通过对比画面中快速移动的机器人可见,在Pulsar的屏幕上,文字始终清晰锐利,机器人头顶上的“重装机器人”等字样看的很清楚,而另一侧则因动态模糊而难以辨认。“现在这类电竞游戏的画面场景设计是很复杂的,有各种丰富的元素、装备、物资,要去搜刮,一个清晰的显示器,能够帮助玩家在复杂的战术环境里,快速用余光判定周围信息,及时获得关键信息,这是Pulsar的一个初衷。”NVIDIA工作人员在现场指出。
此外,Pulsar显示器还集成了一项人性化的新功能——「G-SYNC智能环境光调节技术」。Jeff解释道,这项技术通过在显示器中内置一个光线传感器,来实时侦测周围环境的光照强度。比如在日光环境下,显示器会自动设置为100%亮度、冷白色调,确保画面清晰可见;反之,在夜间环境下,它则会设置为36%亮度、暖色调,从而减轻视觉疲劳,保护玩家的眼睛。他将此功能比作智能手机上早已普及的自动亮度调节,“我们只是将这种便捷且舒适的体验,从手机带到了桌面显示器上,让PC玩家也能享受到一样的体验。”Jeff强调。
首批G-SYNC Pulsar来自宏碁(Predator XB273U F5)、AOC(AGON PRO AG276QSG2)、华硕(ROG STRIX Pulsar XG27AQNGV)和微星(MPG 272QRF X36),均为27英寸1440P分辨率、360Hz刷新率的规格,并已上市销售。
至此,通过 DLSS 4.5 的画质重塑与 G-SYNC Pulsar 的流畅度重塑,NVIDIA 完成了对PC 游戏视觉体验的完整闭环。但这仅仅是 AI PC 的一面,在更广阔的内容创作与开发领域,另一场变革也在发生。
AI PC的黎明:本地模型与云端的「智力差距」从2年缩短到6个月
沟通会的后半段,Jeff将话题焦点转向了更广阔的AI PC领域,尤其是在内容创作和本地AI应用领域。
一个显著的趋势是,在过去两年间,越来越多用户希望在本地PC上运行大语言模型(LLM),这在两年前几乎是不可想象的。Jeff坦言,“如果把时间拨回一两年前,本地运行的大语言模型可以说能力有限,无论是在响应速度还是生成内容的质量上,它都比云端的顶尖模型存在大约20个月的技术代差,这几乎是两年的差距。”
这种差距的存在,主要是因为个人电脑的算力有限,难以承载和云端数据中心同等规模的超大型、复杂模型,导致本地模型的智力和性能表现都相形见绌。
然而,情况在2025年发生了戏剧性的转变。Jeff指出:“我们发现,能够在本地高效运行的AI模型正变得越来越「聪明」,不仅性能大幅提升,生成答案的质量也今非昔比。现在,本地AI与云端AI的「智能差距」已经从过去近两年大幅缩短到了大约6个月。”
这一飞跃式进步,直接点燃了用户对本地AI工具的热情。Jeff展示的数据极具说服力:像Ollama、ComfyUI、llama.cpp这类便于在本地部署和运行AI模型的开发工具,其社区活跃度和受欢迎程度在一年内翻番;而直接下载PC级AI模型的用户数量,更是实现了10倍增长。“越来越多的用户渴望在自己的设备上运行AI模型。”Jeff补充说。
这股浪潮不仅席卷了追求新技术的个人爱好者,也吸引了众多对数据隐私和安全有严苛要求的行业,例如医疗、金融等,它们希望将数据保留在本地处理,而不是上传到云端。
为了顺应并推动这一趋势,NVIDIA也持续通过软件和驱动层面的优化,持续提升AI应用的性能。“在过去一年里,我们针对llama.cpp、Ollama等流行框架进行了深度优化,普遍带来了30%到35%的性能提升。”官方资料也证实,通过这些加速,小型语言模型(SLM)在PC上的推理性能最高可提升35%,让本地AI运行得更快、更流畅。
技术提升带来的效果也是立竿见影的。在生成式AI创作领域,NVIDIA展示了一套完整的、由RTX GPU加速的4K视频生成工作流,展示了本地AI创作的惊人效率。
Jeff详细拆解了这套工作流,它如同一条高效的数字生产线,由多个AI模块协同完成:
第一步,创作往往始于一个简单的想法。创作者可以用文本转图像模型(如阿里的“通义千问”)输入提示词,快速生成视觉概念。随后,这些2D概念可以通过AI工具转化为3D元素,并利用Blender这样的软件,搭建出完整的3D场景。
第二步,场景就绪后,工作流进入关键帧的生成阶段。这里采用FLUX模型,它可以根据前一步的3D场景,生成具有照片级写实画质的起始与结束关键帧。Jeff比喻道:“这一步就像是为你的影片制作了开头和结尾两幅高精度的分镜手稿,为后续的动画生成定下基调。”
第三步,有了关键帧,接下来便轮到视频生成。工作流使用了Lightricks新发布的LTX-2模型,它能根据关键帧自动生成流畅的动画视频。然而,LTX-2这类先进模型的原始体积高达70GB,对PC显存是巨大的考验。
为了解决这个问题,英伟达引入了NVFP4和NVFP8两种新的低精度数据格式。
在AI计算中,FP32(32位浮点)是标准精度,但会占用大量显存和计算资源。FP8和FP4这类低精度格式,通过「量化」技术,用更少的数据位来表示模型参数,这会带来极小的精度损失,却能换来性能的提升和显存占用的降低,让原本跑不动的大模型在PC上成为可能。
“在RTX PC上,我们通过ComfyUI框架加入了对NVFP4的支持,这不仅提升了生成效率,也极大地降低了对显存的需求。”Jeff解释说。官方数据显示,在RTX 50系列GPU上,NVFP4能带来3倍的性能提升和60%的显存占用降低。即便是体积庞大的LTX-2模型,在经过NVFP8量化后也能压缩至26GB。再结合权重流(Weight Streaming)技术(一种将部分模型权重暂存于系统内存,在需要时再调入显存的技术),“即使是16GB显存的显卡也能流畅运行这个工作流。”
这就来到第四步,提升分辨率。传统的视频放大(Upscaling)工具虽然效果不错,但过程极缓,过去仅仅是将一段10秒的视频放大到4K,就可能要花费10到15分钟。为了解决这个瓶颈,NVIDIA与ComfyUI社区合作,将「RTX视频超分辨率(RTX Video)」功能直接集成为一个节点。“现在,创作者可以直接在工作流中实现几乎实时的4K放大,无需漫长等待。”现场工作人员说。
整个工作流的革新,意味着创作者的效率发生了质变。如果一个想法只需要两三分钟就能看到4K成品,那么我们就可以快速进行修改和尝试,直到获得最满意的效果。
除了创意工作流,AI PC的另一大应用前景在于改变我们与个人数据的交互方式。CES 2026上备受瞩目的Nexa.ai本地搜索智能体——Hyperlink,就诠释了这一点。
相信大家都经历过这样一个场景,我们的电脑里存有海量的视频、照片和文档,但要准确找到某一个具体的文件却异常困难,传统的关键词搜索常常无能为力。
Hyperlink正是为此而生。它利用AI技术,将整台PC变成一个可搜索、可对话的本地知识库。与传统搜索依赖文件名或标签不同,Hyperlink能够理解文件的内容。你可以用自然语言提问,比如“找一下上个月我做的关于市场分析的PPT”,它就能精准定位。最关键的是,所有数据的索引和处理都在本地完成,杜绝隐私泄露的风险。
在CES期间,Hyperlink发布了支持视频内容搜索的新版本。举个例子,假设你电脑里存了很多潜水视频,你只需要用自然语言搜索“找到我们看到小丑鱼的潜水视频”,Hyperlink不仅能找出所有相关的视频片段,甚至能准确标注出小丑鱼出现的具体时间点。
这项本地AI功能,其背后离不开RTX GPU的强大算力,官方公布的性能数据彰显差距:在RTX 5090上,索引文件的速度约为30秒/GB,查询响应时间仅为3秒。而如果仅使用CPU,索引同样大小的文件需要约1小时,查询响应则长达90秒。
DGX Spark的新玩法
如果说前文提到的RTX是为了让亿万用户能流畅地「使用」AI,那么面向开发者和专业人士的 DGX Spark,则是为了让专业人士能高效地「创造」AI,和定义性能上限的桌面级超级计算机。
这款于数月前发布的设备,其核心使命是将原本属于数据中心的强大 AI 架构,“浓缩”进一台可以放置在桌面上的主机中。它与RTX形成了一种完美的互补:前者负责广泛的本地推理与体验,后者则负责攻坚模型的开发、训练与微调。
“这款产品发布仅数月,但通过持续的软件驱动和底层优化,其性能已经获得了显著飞跃。”Jeff分享说,以运行阿里巴巴的“通义千问”(Qwen)为例,最新的优化使其性能提升了高达2.6倍。这意味着早期用户手中的设备,在短短三个月内,通过软件更新就实现了性能的巨大增值。
为了降低开发门槛,NVIDIA还发布了全新的DGX Spark操作手册。这是一系列即用型的示例方案,涵盖了如“推测解码”(一种提升大模型推理速度的技术)以及“使用两台DGX Spark串联进行模型微调”等高级应用场景,帮助开发者快速上手。
Jeff特别强调,DGX Spark的价值远不止于个人开发者。“对于数据隐私有极高要求的企业,例如医院或金融机构,本地化的高性能计算是刚需。由于涉及敏感的病患数据,医疗机构无法将信息上传至第三方云服务器进行处理。DGX Spark提供了一个理想的本地化解决方案,让他们可以在确保数据安全的前提下,进行AI模型的训练与推理。” 为了更好地服务这些企业级用户,该平台也提供了对NVIDIA AI Enterprise软件套件的全面支持。
Jeff现场演示了一个完整的“从开发到落地”的无缝工作流:在DGX Spark上完成AI模型的代码编写与训练后,直接将其部署到一台名为「Reachy Mini」的小型机器人上,让AI能力即时在物理世界中生效,展现了从代码到应用的敏捷开发流程。
通过现场演示,我们看到DGX Spark性能的实际表现:用DGX Spark跑ComfyUI工作流,生成一段4K、24帧的视频仅需40秒。DGX Spark双机串联NVFP4精度跑Qwen3-235B,能做到20 tok/s。这证明了DGX Spark不仅能「装下」以往只有数据中心才能容纳的巨型模型,更能以完全实用的速度运行它。
而这一幕,我想或许也是整场沟通会一个注脚。
从DLSS 4.5对画质的极致榨取,到ACE让NPC觉醒。从代码在 DGX Spark(桌面超算)上训练生成,到指令分发到 RTX(通用终端)上运行,最终驱动了物理世界的一只机械臂。
它们共同构成了 NVIDIA 对未来的回答:在这个技术年年更迭的行业里,算力的边界正在不断向外拓宽,而至于如何填充这片新的疆域,创造力的接力棒,则在每一位用户和开发者手中。
好文章,需要你的鼓励
亚马逊FAR部门研究团队通过创新的"掩码比特建模"技术,突破了图像生成领域的传统认知。研究发现离散方法劣势源于信息容量不足而非技术路线缺陷,提出的BAR框架通过渐进式比特预测解决大词汇表计算难题,在ImageNet-256上创下0.99 gFID新纪录,同时实现数十倍的速度提升,为AI图像生成开启质量与效率并举的新时代。
北京大学与美团联合研究团队提出轮廓引导路径探索(OPE)方法,解决AI并行推理中的"互信息饱和"问题。通过先生成多样化策略轮廓再执行具体推理,避免多条思路重复收敛的困境。在数学推理测试中,该方法显著提升了复杂问题的解决成功率,为AI推理能力的可靠性提升提供了新的技术路径。
南洋理工大学研究团队开发了Dr. MAS训练方法,专门解决多智能体大语言模型系统的训练不稳定问题。该方法通过为每个AI智能体使用个性化的评价标准,避免了传统全局标准化导致的梯度爆炸问题。在数学推理和多轮搜索任务中,Dr. MAS显著提升了系统性能和训练稳定性,为构建更强大的AI协作系统提供了重要技术支撑。
腾讯AI实验室开发的Covo-Audio是首个真正实现端到端语音对话的7B参数大模型,能直接处理语音输入并生成自然回应。该系统突破了传统流水线式处理的局限,实现了智能与声音分离、全双工交互等创新功能,在多项基准测试中表现优异,特别是在情感理解和自然对话方面达到了新的水准,为语音交互技术的实用化和个性化应用开辟了新路径。