这项由快手(Kuaishou)技术团队开发的研究成果于2025年7月发表,论文详细介绍了他们最新研发的Kwai Keye-VL多模态大语言模型。这是一个专门为理解短视频而设计的AI系统,拥有80亿个参数。有兴趣深入了解技术细节的读者可以通过arXiv:2507.01949v1获取完整论文,或访问项目主页https://kwai-keye.github.io/了解更多信息。
当我们刷短视频时,大脑能够瞬间理解画面中发生的事情、听懂配音说的内容,甚至能预测接下来可能发生什么。但对于AI来说,这个看似简单的过程却异常复杂。快手的研究团队正是看到了这个挑战,决定开发一个专门为短视频理解而生的AI大脑。
传统的AI模型就像一个只会看静态照片的人,当面对动态变化的短视频时往往束手无策。它们或许能识别画面中的某个物体,但却难以理解整个故事的来龙去脉,更别说把握住短视频独特的节奏感和表达方式了。快手团队意识到,要让AI真正理解短视频,需要的不仅仅是技术上的改进,更需要一套全新的思维方式。
快手作为短视频平台的先行者,拥有海量的短视频数据和用户行为数据,这为他们开发这样一个专业化模型提供了得天独厚的优势。研究团队不仅要让AI看懂视频内容,还要让它理解短视频平台特有的商业逻辑和用户需求,比如判断哪些视频可能会获得高点赞率,或者识别用户评论是否合规。
**一、从无到有:构建AI的"眼睛"和"大脑"**
Keye-VL的架构设计就像组装一台精密的观察仪器。研究团队需要为AI配备三个核心组件:一双能够"看"的眼睛、一个能够"思考"的大脑,以及连接两者的神经通路。
AI的"眼睛"采用了一种叫做视觉编码器的技术,这相当于给AI装上了一副高清摄像头。但与普通摄像头不同的是,这双"眼睛"能够自动适应不同分辨率的画面,就像人眼能够自动调节焦距一样。无论是高清的4K视频还是模糊的低分辨率画面,AI都能从中提取有用的信息。
更有趣的是,研究团队为这双"眼睛"装配了一种特殊的定位系统,叫做2D旋转位置编码。这就像给AI装上了GPS导航,让它能够准确知道画面中每个元素的具体位置。当AI看到一个人在画面左上角挥手时,它不仅知道这是挥手动作,还知道这个动作发生在画面的哪个区域。
AI的"大脑"则基于Qwen3-8B语言模型构建,这是一个拥有80亿个参数的强大思维系统。可以把这些参数想象成人脑中的神经连接点,参数越多,AI的理解能力就越强。这个大脑不仅具备强大的语言理解能力,还能处理复杂的逻辑推理任务。
连接"眼睛"和"大脑"的神经通路是一个多层感知机投影器,它的作用是把视觉信息转换成大脑能够理解的语言。就像同声传译员一样,这个组件需要实时地把看到的画面"翻译"成文字描述,让AI的语言大脑能够理解视觉内容。
特别值得一提的是,Keye-VL支持原生动态分辨率处理。传统AI模型就像只能看固定尺寸照片的老式相机,而Keye-VL则像现代智能手机摄像头,能够自动适应各种画面比例和分辨率。这种设计保持了图像的原始宽高比,避免了因为强制调整尺寸而造成的画面变形。
**二、海量数据喂养:AI的"成长食谱"**
要训练出一个真正理解短视频的AI,就像培养一个从小就浸泡在短视频文化中的孩子。快手团队为Keye-VL准备了超过6000亿个词汇量的训练数据,这个数字几乎相当于一个人一生中能接触到的所有文字信息总和。
这些训练数据就像一本巨大的百科全书,涵盖了AI需要学习的所有知识类型。首先是图像描述数据,这相当于给AI看了无数张照片,并告诉它每张照片里有什么。但研究团队发现,许多现有的图像描述质量参差不齐,就像有些人拍照技术好,有些人却总是拍得模糊不清。
为了解决这个问题,团队采用了一种叫做"重新标注"的技术。他们使用更先进的AI模型,包括Qwen2.5-VL 72B、GPT-4o等,重新为这些图像生成更准确、更详细的描述。这就像请专业摄影师重新为模糊的照片写说明文字,确保AI能够获得高质量的学习材料。
光学字符识别(OCR)和视觉问答数据是另一个重要组成部分。这类数据教会AI如何从图像中读取文字信息,并回答相关问题。为了增强AI对中文的理解能力,团队还专门制作了大量中文OCR数据,包括各种字体、背景和排版方式的文字图像。
定位和计数数据则训练AI的空间理解能力。这就像教孩子玩"找不同"游戏,让AI学会准确指出画面中特定物体的位置,或者数清楚画面中有几个苹果、几只猫。研究团队使用了三种不同的定位方式:中心点、边界框和多边形,让AI能够以不同精度标记物体位置。
交错文本图像数据是一种更高级的训练材料,就像给AI看图文并茂的杂志文章。这种数据不仅包含图像和文字,还保持了它们在原始文档中的相对位置关系。AI通过学习这类数据,能够理解图像和文字之间的关联,比如理解图表的说明文字、或者文章中图片的作用。
最核心的视频数据来自快手平台积累的海量短视频资源。但原始视频数据往往缺乏详细的文字描述,研究团队开发了一套完整的视频处理流程。他们首先使用语音识别技术提取视频中的音频内容,然后使用多个不同的AI模型为视频生成描述,最后还为每一帧画面添加OCR标注,确保不遗漏任何细节信息。
**三、四阶段渐进训练:从新手到专家的成长之路**
训练Keye-VL的过程就像培养一个从零开始学习看视频的孩子,需要循序渐进,不能一蹴而就。研究团队设计了一个四阶段的训练策略,每个阶段都有明确的学习目标。
第一阶段是图像-文本匹配训练,这相当于教AI认识基本的图像元素。在这个阶段,AI主要学习如何将看到的画面与相应的文字描述建立联系。研究团队使用SigLIP损失函数来训练视觉编码器,这就像给AI设定了一个评分标准,每当它正确地将图像与描述匹配时就能得到奖励。
第二阶段是视觉-语言对齐训练,这时AI开始学习如何用语言描述看到的内容。在这个阶段,语言模型和视觉编码器的参数都被冻结,只有连接两者的投影层在学习。这就像让一个翻译员专心练习在两种语言之间转换,而不用担心忘记已经掌握的语言知识。
第三阶段是多任务预训练,AI开始接触更复杂的任务组合。此时所有模型参数都可以调整,AI需要同时学习图像描述、文字识别、物体定位、视觉问答等多种技能。这就像让学生同时学习多门课程,虽然难度增加了,但综合能力也得到了全面提升。
第四阶段是退火训练,这是整个训练过程的精细化阶段。研究团队会使用精心筛选的高质量数据对模型进行最后的调优,就像雕塑家在完成基本造型后进行的精细雕琢。这个阶段主要解决前期大规模训练中可能遇到的数据质量不均衡问题。
特别有意思的是,研究团队还采用了模型融合技术。他们训练了多个使用不同数据比例的模型版本,然后将这些模型的参数进行平均融合。这就像组建一个专家委员会,每个专家都有自己的专长,最终的决策是所有专家意见的综合体现。这种方法能够减少单一模型可能存在的偏见,提高整体性能的稳定性。
**四、后训练优化:让AI学会深度思考**
如果说预训练是让AI掌握基本技能,那么后训练就是教它学会深度思考和灵活应变。这个阶段的训练分为两个主要方向:建立扎实的基础能力和培养高级推理技能。
基础能力建立阶段主要通过监督微调来实现。研究团队收集了500万个多模态问答样本,但他们没有简单地使用这些数据,而是采用了一套精密的数据筛选策略。他们开发了一个叫TaskGalaxy的框架,能够将数据按照7万种不同的多模态任务类型进行分类,确保训练数据的多样性和代表性。
为了确保数据质量,团队还使用AI模型为每个数据点生成多个推理路径,然后根据回答的正确性和复杂程度来筛选出最具挑战性的样本。这就像老师专门挑选难题来训练学生的思维能力,避免AI在简单任务上浪费时间。
混合偏好优化是这个阶段的另一个关键技术。研究团队构建了包含40万个开源样本、5万个重构偏好样本、1万个自我改进样本、9万个纯文本样本和3万个人工标注样本的综合数据集。这种多元化的数据组合就像给AI提供了营养均衡的"食谱",确保它在各个方面都能得到充分训练。
高级推理能力的培养是Keye-VL最具创新性的特色之一。研究团队开发了一套"五模式冷启动"策略,这就像教会AI在面对不同难度的问题时选择不同的思考方式。
常规模式适用于简单的日常问题,AI可以直接给出答案而不需要展示推理过程。思考模式适用于复杂问题,AI会像人类一样先思考再回答,显示完整的推理链条。自动思考模式最为智能,AI会自动判断问题的复杂程度,然后决定是否需要进入深度思考状态。
特别创新的是"图像编程"模式,这让AI具备了通过编写代码来处理图像的能力。当遇到需要精确测量、图像处理或复杂计算的任务时,AI可以自动生成Python代码来解决问题。比如在计算图像中草莓数量的任务中,AI会自动编写代码来裁剪和放大相关区域,然后进行精确计数。
强化学习阶段则进一步提升了AI的推理质量。研究团队使用GRPO算法,设置了结果正确性和推理一致性两种奖励机制。这就像给AI设置了双重评判标准:不仅要答案正确,推理过程也要逻辑清晰。通过这种训练,AI学会了生成高质量的推理路径,避免了逻辑跳跃或错误推理。
最后的迭代对齐阶段专门解决AI可能出现的异常行为。研究团队发现,经过强化学习训练的模型有时会出现重复输出或逻辑错误的问题。他们开发了一套综合评分系统,包括重复性评分、指令遵循评分和逻辑性评分,然后使用混合偏好优化算法进行多轮迭代调整,最终让AI的输出变得更加稳定和可靠。
**五、基础设施支撑:训练超级AI的"工厂"**
训练像Keye-VL这样的大型AI模型,就像建造一座现代化的汽车工厂,需要精密的设备、高效的流水线和完善的质量控制系统。快手团队在训练基础设施方面进行了深度优化,确保整个训练过程既高效又稳定。
计算资源的分配就像协调一个庞大的管弦乐团。研究团队采用了混合并行策略,将数据并行和序列并行巧妙结合。数据并行就像让多个工人同时处理不同批次的产品,而序列并行则像将一个复杂任务分解成多个步骤,由不同的专家负责不同环节。
特别值得一提的是,团队将这种并行策略与ZeRO优化器深度整合。ZeRO技术能够智能地分散存储优化器状态、梯度和参数,大大减少了单个设备的内存压力。更重要的是,这种设计实现了计算与通信的重叠,就像让工人在等待前一道工序完成的同时就开始准备下一道工序,有效隐藏了通信延迟,提高了整体训练效率。
负载均衡是另一个关键挑战。在多模态训练中,不同样本的计算需求差异巨大。一个包含高分辨率图像的样本可能需要比纯文本样本多十倍的计算时间。研究团队开发了一套全局贪心平衡策略,在每个训练步骤中评估所有样本的计算复杂度,然后智能地重新分配任务,确保所有计算节点都能保持忙碌状态,避免出现"有的工人忙得要命,有的工人却在等活干"的情况。
故障恢复机制就像为整个训练过程购买了全面的保险。大规模训练很容易遭遇硬件故障或软件错误,一旦中断可能损失数天甚至数周的训练进度。团队构建了样本级自动恢复机制,能够同时保存训练状态和数据IO状态的检查点。当系统遇到故障时,能够自动从中断的确切位置继续训练,不需要任何人工干预,大大提高了训练的稳定性和资源利用效率。
针对后训练阶段的特殊需求,团队还对vLLM框架进行了定制化改进,使其兼容Keye-VL的模型架构和视频输入。同时部署了多个奖励模型,采用随机调度策略来减少强化学习阶段的计算开销。这些优化措施确保了复杂的后训练流程能够高效运行。
**六、全面评测:AI的"期末考试"**
评估一个AI模型的能力就像为学生设计一套全面的期末考试,既要测试基础知识,也要考查应用能力和创新思维。快手团队为Keye-VL设计了多层次、多维度的评测体系。
在公开基准测试中,Keye-VL的表现就像一个全能型优等生。在通用视觉语言任务上,模型在MMMU基准测试中取得了71.4分的成绩,在AI2D测试中达到86.7分,这些分数都明显超过了同等规模的其他模型。特别是在挑战性极高的ZeroBench测试中,Keye-VL取得了15.2分,而其他模型几乎都是零分,显示出其卓越的泛化能力。
数学推理能力的测试结果更加令人印象深刻。在MathVision测试中,Keye-VL获得了46.0分,在MathVistaMINI中达到80.7分,这些成绩仅次于专门针对数学优化的MiMo-VL模型。考虑到Keye-VL是一个通用型模型而非数学专用模型,这样的表现已经相当出色。
视频理解能力是Keye-VL的核心竞争优势。在Video-MMMU基准测试中,模型取得了57.6分,比第二名高出近10分。在长视频理解的LongVideoBench测试中,自动思考模式甚至超过了思考模式,达到64.8分,这表明AI已经学会了根据任务复杂度自动调节推理策略。
为了更贴近实际应用场景,快手团队还开发了专门的KC-MMBench基准测试。这个测试专门针对短视频平台的实际业务需求,包括商品属性识别、视频内容分类、评论合规性判断等任务。在这个更贴近实用场景的测试中,Keye-VL取得了68.03%的准确率,大幅领先第二名的57.62%。
研究团队还进行了深入的人工评估,选择了同等规模的主流模型进行对比。评估维度包括准确性、相关性、全面性、流畅性和创意性五个方面。结果显示,Keye-VL在视频任务上的综合得分达到3.33分(满分5分),在图像任务上得到3.81分,都是参评模型中的最高分。
特别值得关注的是AI的自动模式选择能力。在不同类型的任务中,Keye-VL会自动选择是否进入深度思考模式。在数学推理较多的MathVista测试中,35%的情况下AI会选择思考模式;在逻辑推理的MMStar测试中,这个比例是34%;而在简单的OCR任务中,AI几乎从不选择思考模式,显示出良好的任务难度判断能力。
**七、技术创新亮点:突破传统的智慧结晶**
Keye-VL最引人注目的创新之一是其独特的多模式推理系统。传统AI就像只会一种解题方法的学生,而Keye-VL则像掌握了多种解题技巧的数学天才,能够根据题目类型自动选择最合适的方法。
自动思考模式的实现尤其巧妙。AI首先会快速分析问题的复杂程度,就像医生看病时先做初步诊断一样。对于简单问题,AI会直接给出答案;对于复杂问题,它会自动切换到深度思考模式,展示完整的推理过程。这种设计不仅提高了效率,还让AI的决策过程更加透明可理解。
图像编程能力是另一个突破性创新。当遇到需要精确操作的视觉任务时,AI能够自动生成Python代码来处理图像。比如在统计图像中物体数量时,AI会写代码将相关区域裁剪出来、放大、增强对比度,然后进行精确计数。这就像给AI装备了一套专业工具,让它能够像人类专家一样处理复杂的视觉分析任务。
原生动态分辨率处理技术解决了传统模型的一个重大痛点。过去的AI模型就像只能看标准尺寸照片的老式相框,遇到不同比例的图像就会产生变形。Keye-VL则像现代智能显示器,能够自动适应各种尺寸和比例的图像,保持原始画面的完整性。
数据质量控制方面的创新同样值得赞赏。研究团队没有简单地收集大量数据,而是建立了一套精密的质量控制流程。他们使用多个先进AI模型对现有数据进行重新标注,确保每个训练样本都达到高质量标准。这就像建立了一个严格的质检体系,确保进入生产线的每个零件都符合标准。
在训练策略方面,四阶段渐进训练和模型融合技术的结合创造了新的训练范式。这种方法避免了传统端到端训练可能带来的不稳定问题,让AI能够像人类学习一样循序渐进地掌握复杂技能。
强化学习的创新应用也是亮点之一。研究团队设计了双重奖励机制,不仅关注答案的正确性,还重视推理过程的合理性。这种设计确保AI不仅能得出正确答案,还能提供可信的推理过程,大大提高了AI决策的可解释性。
**八、实际应用前景:改变生活的可能性**
Keye-VL的技术突破为短视频行业和更广泛的AI应用领域开启了全新的可能性。在内容创作方面,AI助手可以自动为视频生成精准的标题、标签和描述,大大减轻创作者的工作负担。更进一步,AI还能根据视频内容自动生成互动问题、相关推荐和个性化评论,增强用户参与度。
电商直播是另一个重要应用场景。Keye-VL能够实时理解主播展示的商品特征,自动生成商品属性标签,识别商品优势卖点,甚至预测哪些时刻最适合引导用户下单。这种智能化分析能够帮助商家优化直播策略,提高转化率。
内容审核领域将迎来革命性变化。传统的内容审核主要依赖关键词过滤和简单的图像识别,往往出现误判或漏判。Keye-VL能够深入理解视频的语境和情感色彩,更准确地识别违规内容,同时减少对正常内容的误伤。
个性化推荐系统也将变得更加精准。AI不再只是根据用户的历史行为进行推荐,而是能够真正理解视频内容的深层含义和情感价值,匹配用户的真实兴趣和当前情绪状态。这种深度理解将让推荐算法更加人性化和智能化。
教育培训行业同样能从中受益。AI助教可以观看学生的学习视频,理解学生的困惑点和掌握程度,提供个性化的学习建议和答疑解惑。对于在线课程,AI能够自动生成课程摘要、知识点标注和练习题目。
无障碍技术的发展将让更多人群受益。AI可以为视频自动生成详细的视觉描述,帮助视觉障碍用户"看到"视频内容。同时,AI还能将视频内容转换为易于理解的文字描述,降低认知障碍人群的理解门槛。
企业培训和会议记录也是重要应用领域。AI可以自动分析会议视频,提取关键信息,生成会议纪要,识别重要决策点和行动项目。这种自动化处理能够大大提高企业工作效率。
**九、技术挑战与未来展望**
尽管Keye-VL在多个方面取得了突破性进展,研究团队也坦诚地指出了当前存在的技术挑战和改进空间。这种科学严谨的态度体现了研究者的专业精神。
视觉感知能力仍有提升空间,特别是在处理复杂场景时的细节识别。当图像包含密集文字或风格化字体时,AI的OCR准确率还需要进一步提高。对于需要精细区分的任务,比如区分相似的动植物品种或细微的服装差异,AI有时还会出现混淆。这就像人类在光线不足或距离太远时也会看错东西一样,是当前技术的自然限制。
时序理解是视频AI面临的另一个挑战。虽然Keye-VL在理解视频内容方面已经达到很高水平,但在描述复杂的动作序列或理解电影语言(如镜头切换、视角变化)方面还有改进余地。AI有时难以准确把握事件的时间顺序或因果关系,特别是在处理具有复杂叙事结构的视频时。
高阶认知推理能力是AI发展的长期挑战。虽然Keye-VL在数学推理和逻辑分析方面表现不错,但面对需要专业领域知识或创造性思维的问题时,AI的可靠性还会下降。这反映了当前AI技术的普遍局限性,即在处理开放性、创造性任务时仍然无法完全达到人类水平。
研究团队指出,未来的改进方向主要集中在几个关键领域。首先是视频编码器架构的优化,现有的视频编码策略还有很大的提升空间,特别是在处理超长视频和高帧率内容方面。
奖励模型的改进是另一个重要方向。目前使用其他大语言模型作为奖励信号的方法存在可靠性和计算成本的问题。开发更加高效、准确的奖励建模策略将是推动AI能力进一步提升的关键因素。
多模态融合技术也需要继续演进。如何更好地整合视觉、听觉和文本信息,让AI真正像人类一样进行多感官理解,仍然是一个开放性的研究问题。
数据质量和多样性的持续改善将是长期工作重点。虽然研究团队已经建立了相当完善的数据处理流程,但随着应用场景的扩展和用户需求的变化,需要持续收集和整理更加多样化、高质量的训练数据。
计算效率的优化也是实际部署中的重要考量。如何在保持高性能的同时降低计算成本,让这类先进AI技术能够更广泛地普及应用,是产业化过程中必须解决的问题。
**结语:技术进步永不止步**
说到底,Keye-VL的诞生代表了AI技术向更加智能化、人性化方向迈进的重要一步。这不仅仅是一个技术产品的发布,更是对"让AI真正理解人类世界"这一宏大目标的具体实践。
快手团队通过这项研究证明了,专门针对特定领域深度优化的AI模型能够在保持通用能力的同时,在专业领域达到超越通用模型的性能水平。这种技术路线为未来AI发展提供了新的思路:与其追求无所不能的通用AI,不如在特定垂直领域做到极致专业。
当然,任何技术进步都不是一蹴而就的。Keye-VL虽然在短视频理解方面取得了显著突破,但距离真正的人工智能还有很长的路要走。正如研究团队所指出的,当前的AI仍然在处理创造性任务、复杂推理和跨领域知识整合方面存在局限。
从更宏观的角度来看,Keye-VL的成功也反映了中国科技企业在AI领域的创新实力。快手作为短视频行业的领军企业,没有满足于现有的商业成功,而是持续投入大量资源进行前沿技术研发,这种长远眼光和技术积累为行业发展注入了新的活力。
对于普通用户而言,这些技术进步最终会转化为更好的产品体验。未来我们可能会看到更智能的视频推荐、更准确的内容搜索、更个性化的互动体验。AI将不再是冰冷的算法,而是真正能够理解我们需求和情感的智能助手。
技术的发展永无止境,每一次突破都为下一次创新奠定基础。Keye-VL的成功告诉我们,通过专注、坚持和科学的方法,复杂的技术挑战终将被逐一攻克。而这种不断探索、持续改进的精神,正是推动人类社会进步的根本动力。
有兴趣了解更多技术细节的读者,可以访问项目主页https://kwai-keye.github.io/或查阅完整论文arXiv:2507.01949v1,那里有更详细的技术文档和实验数据。
Q&A
Q1:Keye-VL是什么?它能做什么? A:Keye-VL是快手开发的专门理解短视频的AI模型,拥有80亿参数。它能看懂视频内容、理解用户评论、预测视频热度、识别商品属性,还能自动判断什么时候需要深度思考,什么时候直接给答案。就像一个既懂技术又懂短视频文化的智能助手。
Q2:Keye-VL会不会取代人类创作者? A:目前不会取代,而是帮助创作者提高效率。它主要用于内容理解、自动标注、智能推荐等辅助工作,真正的创意和情感表达还是需要人类完成。未来更可能是人机协作的模式,AI处理重复性工作,人类专注于创意和策略。
Q3:普通用户能体验到Keye-VL技术吗? A:虽然核心技术论文已经公开,但具体的产品应用还在快手内部测试阶段。用户可能会在快手App的智能推荐、内容搜索、自动字幕等功能中逐步体验到这项技术带来的改善,但完整的开放使用还需要等待官方正式发布。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。