微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

新加坡管理大学团队打造视频制作"超级助手"：从文字到影像，一句话搞定专业级视频创作

人工智能视频生成多模态交互

新加坡管理大学团队打造视频制作"超级助手"：从文字到影像，一句话搞定专业级视频创作

作者：科技行者

2026-01-22 09:10

分享至：

新加坡管理大学等机构联合发布UniVA视频创作AI系统，通过双脑架构和三层记忆机制，实现从文字描述到专业视频的全自动制作。该系统整合多种专业工具，支持理解、生成、编辑等全流程操作，在多项评估中超越现有技术。研究团队已开源全部代码和资源，为视频创作民主化提供技术基础。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-01-22 09:10 • 科技行者

在数字内容创作日益繁荣的今天，视频制作却仍然是一个需要专业技能和大量时间投入的复杂过程。从构思脚本到后期剪辑，从特效制作到音频同步，每一个环节都需要不同的专业软件和技术知识。然而，一项由新加坡管理大学梁正阳、张道安等研究团队在2025年11月发表的突破性研究，可能彻底改变这一现状。这项名为UniVA（Universal Video Agent）的研究成果，就像是为视频创作者打造了一位全能的数字助手，能够理解人类的创作意图，并自动完成从理解、生成、编辑到后期制作的全套视频制作流程。

这项研究的核心思想其实很简单：为什么我们不能像指挥一个经验丰富的制作团队那样，只需要描述我们想要什么，就能得到专业的视频作品呢？传统的AI视频工具就像是一群各自为政的专家，每个人只会做一件事情——有的只会生成视频，有的只会剪辑，有的只会添加特效。而UniVA则像是一个懂得统筹全局的制作总监，能够协调各种专业工具，将复杂的制作流程变成一次流畅的对话。

研究团队发现，现有的视频AI工具面临着一个根本性问题：它们都是"单打独斗"的。当用户需要制作一个复杂的视频时，往往需要在多个不同的软件和服务之间来回切换，手动处理各种技术细节，这不仅效率低下，还容易出错。更重要的是，这些工具缺乏对用户真实意图的理解能力，无法主动提供创作建议或自动修正问题。

UniVA的设计理念可以用餐厅服务来比喻。传统的视频工具就像是自助餐厅，你需要自己知道每道菜在哪里，自己搭配，自己端盘子。而UniVA更像是一家高端餐厅的服务团队，你只需要告诉服务员你的喜好和需求，背后就有一个专业团队为你精心设计菜单、选择食材、烹饪制作，最后呈现给你一桌完美的大餐。

一、智能规划师与执行专家的完美搭档

UniVA的工作原理基于一个巧妙的"双脑"设计：规划者大脑和执行者大脑。这就像是一个制作团队中的导演和制片人的关系。规划者大脑负责理解用户的创作意图，将复杂的需求分解成具体的制作步骤，就像导演会将一个剧本分解成一个个具体的镜头。执行者大脑则负责调用各种专业工具来完成每一个具体任务，就像制片人协调摄影师、剪辑师、音效师等各个部门的工作。

这种设计的巧妙之处在于分工明确又协调统一。当用户说"我想制作一个关于小狗追蝴蝶的温馨视频"时，规划者大脑会立即开始工作：首先需要生成小狗和蝴蝶的角色设计，然后创建森林场景，接着制作追逐的动态画面，最后添加合适的背景音乐。每一步都经过精心规划，确保前后连贯，风格统一。

执行者大脑则像是一个资源调度中心，知道什么时候该用哪个工具。需要生成图像时，它会调用图像生成工具；需要制作动画时，它会使用视频生成模块；需要剪辑合成时，它会启动编辑程序。整个过程就像是一个经验丰富的制片人在背后默默协调，确保每个环节都能无缝衔接。

更令人印象深刻的是，这个系统具备"自我反思"的能力。当执行者完成某个步骤后，规划者会检查结果是否符合预期。如果发现生成的小狗形象与用户描述不符，或者场景色调与整体风格不匹配，系统会自动调整方案，就像是一个负责任的导演会要求重拍不满意的镜头一样。

二、记忆系统：让AI真正"了解"你的创作风格

UniVA最具创新性的设计之一是其三层记忆系统，这让它不仅仅是一个工具，更像是一个逐渐了解用户创作喜好的智能伙伴。这个记忆系统可以比作一个贴心助手的三本笔记本。

全局记忆就像是一本"专业知识手册"，记录着各种视频制作的最佳实践和经验教训。比如什么样的色彩搭配会产生温馨的感觉，什么样的镜头运动能营造紧张氛围，什么样的音乐节奏适合不同类型的场景。这些知识来自于大量的制作经验总结，让系统在处理新任务时能够避免常见错误，采用经过验证的制作方法。

用户记忆则像是一本"个人喜好档案"，记录着每个用户的独特创作风格和偏好。系统会注意到用户总是喜欢暖色调的画面，或者偏爱某种特定的音乐风格，又或者经常使用某些特定的视觉元素。随着使用次数的增加，系统对用户的了解会越来越深入，就像是一个长期合作的创作伙伴，能够在用户还没有明确表达时就预测到他们的需求。

任务记忆就像是一本"项目工作日志"，记录着当前制作项目的所有细节和进展。在制作一个多场景的视频时，系统会记住每个角色的外观特征，每个场景的设计风格，每个镜头的技术参数。这确保了整个视频在视觉风格、角色一致性、叙事连贯性等方面都能保持高度统一。

这种记忆机制的价值在多轮创作中尤为明显。当用户在第一个视频中确定了角色形象后，在制作续集或相关视频时，系统能够自动保持角色的一致性。当用户说"让她换上那条蓝色的裙子"时，系统不仅知道"她"指的是之前创作的女主角，还能准确调用之前设计的裙子样式，实现真正的上下文理解。

三、工具整合的艺术：让专业软件像积木一样组合

UniVA的另一个突破性创新是采用了模型上下文协议（MCP）来整合各种专业工具。这就像是为所有不同品牌、不同功能的电器设备设计了一个通用的智能控制中心，让它们能够协调工作，发挥出1+1大于2的效果。

在传统的视频制作流程中，创作者需要在Adobe Premiere、After Effects、Photoshop等多个软件之间切换，每个软件都有自己的界面、操作逻辑和文件格式。这就像是需要说多种不同的"语言"来与不同的工具沟通。而UniVA则建立了一个"翻译中心"，用统一的"语言"与所有工具对话，用户只需要用自然语言描述需求，系统就能自动选择合适的工具并协调它们的工作。

这个工具生态系统覆盖了视频制作的方方面面。视频生成工具能够根据文字描述创造出各种场景和动作，就像是一个全能的摄影师和演员团队。图像编辑工具可以精确调整画面中的每一个细节，替换背景、修改颜色、调整构图。音频处理工具能够生成背景音乐、音效，甚至是配音对话。分割跟踪工具可以精确识别和跟踪画面中的特定对象，为后续的编辑操作提供精确的定位。

更重要的是，这个系统具有极强的扩展性。就像是搭建积木一样，随时可以添加新的工具模块。当市场上出现新的AI工具或者用户有特殊的需求时，开发者可以轻松地将新工具集成到系统中，而不需要重新设计整个框架。这种设计理念确保了UniVA能够始终保持技术的先进性，持续吸收最新的AI技术成果。

这种模块化的设计还带来了另一个优势：容错能力。当某个工具出现问题或无法满足特定需求时，系统可以自动切换到备选方案。比如当主要的视频生成工具遇到技术困难时，系统可以调用其他的生成工具，或者采用不同的制作策略，确保用户的创作流程不会因为单个工具的问题而中断。

四、从对话到作品：真实应用场景展示

为了验证UniVA的实际效果，研究团队设计了各种复杂的创作场景，这些场景充分展示了系统在理解用户意图、协调多种工具、保持创作连贯性等方面的能力。

在一个典型的应用场景中，用户只需要说"制作一个60秒的陶艺制作纪录片"，UniVA就能自动展开一个完整的制作流程。系统首先会分析这个需求：这是一个纪录片类型的视频，需要展现陶艺制作的完整过程，时长为60秒，应该采用真实、自然的拍摄风格。

接下来，规划者大脑开始制定详细的制作计划：首先展示陶土与陶轮的特写镜头，然后是双手塑形的过程，接着是器皿成型的延时摄影，然后是烧制过程的蒙太奇，最后是成品展示。每个镜头的持续时间、拍摄角度、画面构图都经过精心计算，确保在60秒内完整呈现陶艺制作的精髓。

执行阶段更是展现了系统协调能力的精华。视频生成工具创造了逼真的陶艺工作室环境和制作过程，图像处理工具调整了色彩和光线效果，营造出温暖的工作氛围。音频工具添加了陶轮转动的声音、塑形时的摩擦声，以及轻柔的背景音乐。编辑工具将所有素材无缝拼接，添加了合适的转场效果。

更令人惊叹的是系统处理复杂多角色剧情的能力。当用户要求"制作一个关于老人回忆青春的梦境般旅程视频"时，UniVA展现了其理解抽象概念和复杂情感的能力。系统不仅生成了视觉上的梦境效果，还在叙事结构上采用了非线性的时间跳跃，通过色彩变化、画面转换等技巧来表达记忆的模糊性和情感的层次感。

在多轮对话创作中，UniVA的表现更是出色。当用户在第一轮中创建了一个穿粉色裙子的女性角色，然后在第二轮中说"让她换上这件蓝色礼服，然后转个圈展示一下"时，系统能够准确识别角色的身份，保持面部特征和体态的一致性，只是更换服装并添加转圈的动作。这种细致入微的理解能力，让用户感觉真的是在与一个理解自己创作意图的智能伙伴合作。

五、性能评估：数据说话的专业实力

研究团队不满足于仅仅展示系统的功能，他们还开发了一套全面的评估体系来量化UniVA的性能表现。这就像是为一个新的制作团队设计了一套完整的能力测试，从技术水准到创意表现，从效率指标到用户满意度，全方位评估系统的实际能力。

在视频生成任务中，UniVA展现出了令人印象深刻的性能。当处理长文本到视频的转换任务时，系统在理解复杂叙述方面的得分达到了0.2814（相比其他系统的0.2161-0.2157），这意味着UniVA能够更准确地理解用户的创作意图，并将其转化为相应的视觉内容。更重要的是，在人工评估中，UniVA获得了3.333分的高分（满分5分），这表明人类评估者认为UniVA生成的视频在质量和创意表现上都明显优于其他系统。

在实体到视频的任务中，虽然UniVA在某些技术指标上与专门的生成模型相当，但它在整体表现和用户满意度方面仍然表现优异。这体现了一个重要的设计理念：UniVA不是要在每个单独的技术指标上都做到最好，而是要在整体的创作体验和最终作品质量上实现优化。

在视频到视频的转换任务中，UniVA的表现更是突出。虽然在某些技术指标上没有达到最高分，但在人工评估中获得了4.068分的优异成绩。这个看似矛盾的现象实际上揭示了一个重要事实：技术指标并不能完全反映创作质量。UniVA在理解用户意图、保持创作连贯性、实现复杂创意构思等方面的优势，为其赢得了人类评估者的高度认可。

在视频理解任务中，UniVA达到了0.76的准确率，超过了包括GPT-4o、Gemini 2.5 Pro在内的多个知名系统。这个成绩特别有意义，因为视频理解能力是实现智能创作的基础。只有真正理解视频内容，系统才能进行有针对性的编辑和改进。

更值得注意的是系统在复杂任务规划能力方面的表现。研究团队设计了专门的指标来评估系统的规划质量、依赖关系处理能力和错误恢复能力。结果显示，采用双脑设计的UniVA在成功率上比单一模型系统提高了一倍多（45%对比20%），在规划质量上也有显著提升。这些数据证明了系统架构设计的有效性，也为未来类似系统的开发提供了重要参考。

六、技术创新背后的深层价值

UniVA的技术创新不仅仅体现在功能的强大上，更重要的是它代表了AI辅助创作理念的一次重大转变。传统的AI工具往往是"被动响应"的，用户需要学习如何使用工具，适应工具的逻辑。而UniVA则是"主动理解"的，它努力理解用户的创作意图，主动提供创作建议，甚至能够预测用户的下一步需求。

这种转变的意义可以用汽车发展史来类比。早期的汽车需要驾驶员手动操作离合器、手动调节化油器，驾驶员需要深入了解机械原理才能熟练驾驶。而现代汽车的自动变速、智能驾驶辅助等技术，让驾驶变得更加简单直观，驾驶员可以更多地关注目的地和驾驶体验，而不是技术细节。UniVA在视频创作领域扮演的正是这样的角色，它让创作者能够专注于创意表达，而不是技术操作。

系统的记忆机制也带来了创作体验的根本性改变。传统的工具没有"记忆"，每次使用都是全新的开始。而UniVA能够记住用户的创作风格、偏好设置、历史项目，甚至是创作习惯。这种个性化的服务让每个用户都感觉拥有了一个专属的创作助手，这个助手越来越了解用户，也越来越能够提供贴心的服务。

从技术架构角度来看，UniVA的模块化设计也为AI工具的发展指出了新方向。与其追求单一模型的全能性，不如设计一个能够协调各种专业工具的智能系统。这种设计理念不仅提高了系统的灵活性和可扩展性，也为技术的持续演进提供了可能。当新的AI工具或技术出现时，可以很容易地集成到现有系统中，让用户能够持续享受到最新技术带来的好处。

七、面向未来的创作新范式

UniVA的出现预示着视频创作领域即将迎来一个新的时代。这个时代的特征不是技术的复杂化，而是创作过程的简化和民主化。复杂的技术被封装在智能系统的背后，用户面对的是一个友好、直观、理解人类语言的创作伙伴。

研究团队还开源了包括代码、模型和评估基准在内的完整资源，这意味着这项技术不会被某个公司或机构垄断，而是会成为整个创作社区的共同财富。其他研究者和开发者可以在此基础上继续改进和扩展，推动整个领域的快速发展。

UniVA-Bench评估体系的建立也具有重要意义，它为这类智能创作系统的评估提供了标准化的方法。这不仅有助于研究者比较不同系统的性能，也为用户选择合适的工具提供了客观依据。随着更多类似系统的出现，这套评估标准将发挥越来越重要的作用。

从用户体验的角度来看，UniVA代表了从"学习使用工具"到"与工具对话"的转变。用户不再需要记住复杂的操作步骤或技术参数，只需要清楚地表达自己的创作意图，系统就能理解并执行。这种体验的改变将大大降低视频创作的门槛，让更多人能够参与到视频内容的创作中来。

然而，这种技术进步也带来了新的思考。当AI能够如此智能地辅助创作时，人类创作者的价值何在？研究团队的答案是：AI负责执行，人类负责创意。UniVA擅长的是理解指令、协调工具、保证质量，但创作的灵感、情感的表达、故事的构思仍然需要人类的智慧。AI与人类的关系不是替代，而是合作，是创作能力的放大和延伸。

说到底，UniVA这项研究为我们展示了一个充满可能性的未来：视频创作不再是少数专业人士的特权，而是任何有创意、有想法的人都能参与的活动。技术的复杂性被智能系统承担，人类的创造力得到了更充分的释放。当我们能够像写文章一样简单地创作视频时，当我们的每一个创意都能快速变成精美的作品时，这个世界将会变得多么精彩！

这项由新加坡管理大学、罗彻斯特大学、伦敦大学学院、新加坡国立大学、香港中文大学和斯坦福大学联合完成的研究，不仅在技术上实现了突破，更为整个创作社区带来了新的希望。如果读者对这项研究的技术细节感兴趣，可以通过论文编号arXiv:2511.08521v1查询完整的研究报告，或访问项目网站univa.online获取更多资源。

Q&A

Q1：UniVA系统具体是怎么工作的？

A：UniVA采用"双脑"设计，包括规划者大脑和执行者大脑。规划者负责理解用户需求并制定制作计划，执行者负责调用各种专业工具完成具体任务。同时配备三层记忆系统记录专业知识、用户偏好和项目细节，让系统能够提供个性化的创作服务。

Q2：普通用户现在能使用UniVA制作视频吗？

A：研究团队已经将UniVA的代码、模型和相关资源完全开源，技术开发者可以基于这些资源构建应用。不过目前还没有面向普通消费者的商业化产品，用户需要等待基于UniVA技术的应用软件上市。

Q3：UniVA生成的视频质量如何？

A：根据研究团队的评估，UniVA在多项指标上表现优异，特别是在人工评估中获得了很高的分数。系统能够生成专业级的视频内容，包括复杂的多场景叙事、角色一致性保持、风格统一等，质量可以满足专业创作需求。

人工智能视频生成多模态交互

分享至