微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 香港科技大学突破性研究:视频预测AI如何像人类一样思考与推理

香港科技大学突破性研究:视频预测AI如何像人类一样思考与推理

2025-10-16 15:12
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-16 15:12 科技行者

这项由香港科技大学(广州)的陶思成、李俊刚、严艺博等研究团队与香港科技大学和哈尔滨工业大学合作完成的突破性研究,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.21113v2),有兴趣深入了解的读者可以通过这个编号查询完整论文。

当我们观看一段冲浪视频时,能够轻易预测接下来会发生什么:冲浪者可能会调整姿势准备转弯,或者海浪会把他推向岸边。这种预测未来的能力看似简单,实际上需要我们的大脑进行复杂的时间推理。现在,研究团队开发出了一个名为MOSS-ChatV的人工智能系统,它不仅能像人类一样预测视频中即将发生的事情,更重要的是,它能像一位经验丰富的侦探一样,详细解释自己的推理过程。

这项研究的核心突破在于解决了当前视频理解AI的一个关键问题:过程不一致性。就像一个学生在考试中可能蒙对答案但推理过程完全错误一样,现有的AI系统常常能给出正确的预测结果,但其中间推理步骤却偏离了视频的真实动态变化。这种情况不仅影响了AI的可信度,也限制了它在实际应用中的可靠性。

研究团队创造性地将这个问题比作训练一位新手侦探。传统的训练方法只关注侦探最终是否破案,而不管他的推理过程是否合理。而MOSS-ChatV的训练方法则像给侦探配备了一位经验丰富的导师,这位导师会仔细检查每一个推理步骤,确保逻辑链条的每个环节都经得起推敲。这种训练方式被称为"过程推理奖励"机制,它能够引导AI在得出正确答案的同时,也要确保推理过程的每一步都与视频内容紧密相关。

一、视频预测:从静态理解到动态推理的飞跃

传统的人工智能系统就像一个只能看照片的人,虽然能够识别照片中的物体和场景,但却无法理解时间的流逝和变化的过程。而视频理解则要求AI不仅要看懂每一帧画面,更要理解帧与帧之间的关联,把握整个故事的发展脉络。

研究团队将视频预测比作观看一部悬疑片的过程。当你看到侦探在房间里发现一个重要线索时,经验丰富的观众能够预测接下来可能发生的情节转折。这种预测能力需要观众不仅理解当前画面的内容,还要结合之前的剧情发展和对人物性格的了解,做出合理的推断。

在视频预测任务中,AI系统面临着类似的挑战。以冲浪视频为例,系统需要首先识别出冲浪者这个目标对象,然后分析他当前的姿势、位置和周围环境,包括海浪的状态、冲浪板的倾斜角度等。接下来,系统要根据这些观察结果,结合对冲浪运动规律的理解,预测冲浪者接下来可能采取的动作。

这个过程的复杂性在于,准确的预测需要多层次的推理能力。就像一位经验丰富的冲浪教练能够通过观察学员的细微动作变化来预测他们的下一步行动一样,AI系统也需要具备这种细致入微的观察和推理能力。研究团队发现,那些在视频预测任务上表现出色的AI模型,往往在其他需要复杂推理的视频理解任务上也有更好的表现,这证明了视频预测能力与整体推理能力之间存在着密切的联系。

为了验证这一观点,研究团队构建了一个名为MOSS-Video的专门数据集。这个数据集就像是为AI系统准备的一套综合练习册,包含了大量带有详细推理过程标注的视频片段。每个样本不仅提供了视频内容和预测目标,还包含了专家级别的推理过程说明,详细解释了从观察到预测的每一个思考步骤。

二、过程推理奖励:让AI学会正确的思考方式

现有的AI训练方法就像只关注考试成绩而不关心学习过程的教育方式。学生可能通过死记硬背或投机取巧获得高分,但这种方式培养出来的能力往往不够稳固,也难以应用到新的情况中。同样,传统的AI训练只关注最终答案是否正确,而忽视了推理过程的质量。

MOSS-ChatV的创新之处在于引入了一套精巧的"过程推理奖励"机制。这套机制就像一位细心的老师,不仅会检查学生的答案是否正确,还会仔细审查解题过程的每一步是否合理。这种训练方式能够确保AI在给出正确答案的同时,也能保持清晰、合理的思维路径。

这个过程推理奖励系统的工作原理类似于一个智能的文本比对工具。当AI生成一段推理过程时,系统会将这段文字分解成若干个逻辑步骤,然后与专家标注的标准推理过程进行对比。这种对比不是简单的文字匹配,而是采用了一种叫做"子序列动态时间规整"的高级算法。

这个算法的巧妙之处在于它能够处理推理过程中的自然变化。就像两个人描述同一件事情时可能使用不同的词语顺序或表达方式,但核心逻辑是一致的,这个算法能够识别出推理过程中的本质相似性,同时允许一定程度的表达灵活性。它不会因为AI使用了与标准答案不完全相同的词语就给予负面评价,而是专注于逻辑结构和推理链条的正确性。

更重要的是,这个系统采用了一种渐进式的评分机制。就像评判花样滑冰比赛一样,不仅要看最终的完成度,还要考虑每个技术动作的执行质量。AI的推理过程被分解为多个子步骤,每个步骤都会根据其与标准推理的匹配程度获得相应的分数。这种细粒度的评价方式能够更精确地指导AI的学习过程,帮助它逐步改进推理质量。

三、动态时间规整:解决推理对齐的技术难题

在MOSS-ChatV的技术架构中,最具创新性的组件之一是基于动态时间规整的对齐算法。这个算法解决了一个重要的技术难题:如何将AI生成的推理过程与标准推理过程进行有效比较,尤其是当两者在长度和表达方式上存在差异时。

这个问题就像比较两个人讲述同一个故事的方式。虽然核心情节相同,但一个人可能讲得更详细,另一个人可能更简洁,还有人可能会跳过某些细节或改变叙述顺序。传统的文本比较方法往往无法很好地处理这种情况,容易对那些本质正确但表达方式不同的推理过程给予不公平的评价。

研究团队开发的子序列动态时间规整算法就像一位经验丰富的文学评论家,能够透过表面的文字差异看到深层的逻辑结构。这个算法的工作过程分为两个主要步骤。首先,它会使用自然语言处理工具将推理文本分解为一系列逻辑步骤,每个步骤代表推理过程中的一个关键环节。然后,算法会寻找AI生成的推理步骤与标准推理步骤之间的最佳对应关系。

这种对应关系的建立过程非常巧妙。算法不要求每个AI生成的步骤都必须与标准步骤一一对应,而是允许一定程度的灵活性。例如,AI可能用两个较短的步骤来表达标准推理中的一个复杂步骤,或者可能跳过某些在当前上下文中不太重要的中间步骤。算法会根据内容的语义相似性来判断这些对应关系是否合理。

为了衡量语义相似性,系统采用了多种文本匹配技术的组合。它会计算不同类型的ROUGE分数,这些分数从不同角度评估文本的相似性:有些关注词汇层面的重叠,有些关注短语结构的匹配,还有些关注整体逻辑顺序的保持。通过综合这些不同维度的评分,算法能够得出一个全面而准确的相似性评估。

算法的另一个重要特性是它的适应性。就像一位好老师会根据学生的不同水平调整评判标准一样,这个算法可以通过调整参数来适应不同的应用场景。例如,在某些需要高度精确性的任务中,算法可以设置为对推理步骤要求更严格的匹配;而在创造性思维更重要的任务中,算法可以允许更大的表达自由度。

四、强化学习框架:从奖励信号到智能行为

MOSS-ChatV的训练过程采用了一种叫做"群体相对策略优化"的强化学习方法。这种方法就像是组织一场特殊的学习竞赛,让AI在与自己的多个"分身"竞争中不断进步。

在这个训练框架中,系统会让AI针对同一个视频问题生成多个不同的推理过程和预测结果。就像一位老师给同一道题目要求学生用不同的方法来解答一样,这种做法能够让AI探索多种可能的思维路径。然后,系统会对这些不同的回答进行比较和评分,那些推理过程更合理、预测结果更准确的回答会获得更高的奖励。

这种训练方式的巧妙之处在于它创造了一个自我改进的循环。AI通过比较自己的不同尝试,能够逐渐学会哪些思维方式更有效,哪些推理路径更可靠。这个过程类似于一位网球选手通过反复练习不同的发球技巧,最终掌握最适合自己的发球方式。

奖励系统的设计也非常精妙,它包含三个互补的评价维度。首先是准确性奖励,即检查AI的最终答案是否正确,这相当于考试中的基础分数。其次是格式奖励,确保AI的输出遵循预定的结构要求,就像作文需要有明确的开头、主体和结尾一样。最重要的是过程推理奖励,它评估AI的思维过程是否符合逻辑,是否与视频内容紧密相关。

这三种奖励的结合使用确保了AI的全面发展。仅仅追求答案的正确性可能导致AI采用投机取巧的方式,而忽视推理过程的质量。同样,过分关注推理过程而忽视最终结果的准确性也是不够的。通过平衡这三个方面,MOSS-ChatV能够在保持高准确率的同时,也具备清晰、可信的推理能力。

训练过程中的另一个重要特点是动态调整机制。系统会根据AI当前的表现水平自动调整不同奖励的权重。在训练早期,当AI还在学习基础的预测能力时,系统会更多地关注准确性奖励。随着AI能力的提升,过程推理奖励的重要性会逐渐增加,引导AI向更高层次的推理能力发展。

五、MOSS-Video数据集:构建AI的智慧基石

为了训练和评估MOSS-ChatV,研究团队专门构建了一个名为MOSS-Video的综合性数据集。这个数据集就像是为AI准备的一个丰富的视觉推理题库,包含了数万个精心标注的视频片段和对应的推理过程。

数据集的构建过程体现了研究团队的深思熟虑。他们选择了ShareGPT4Video作为基础数据源,这是一个包含高质量视频内容的大型数据库。然后,研究团队设计了一套双重标注流程,既确保了标注的准确性,又保证了推理过程的多样性。

这个双重标注流程就像是用两种不同的视角来观察同一个现象。第一个标注流程关注粗粒度的对象状态变化,类似于用广角镜头拍摄整个场景,重点记录主要对象在不同时间点的状态。第二个标注流程则聚焦于细粒度的变化描述,就像用微距镜头捕捉细节,详细记录每个微小变化的具体过程和原因。

通过这种双重视角的结合,数据集能够为AI提供多层次的学习材料。AI不仅要学会识别"冲浪者从站立变为蹲下"这样的宏观状态变化,还要理解"冲浪者因为感受到海浪的冲击力而本能地降低重心以保持平衡"这样的细致因果关系。

数据集的另一个重要特点是其时间注释的精确性。每个状态变化都被精确地标记了时间戳,这使得AI能够学习准确的时间推理能力。就像学习音乐时需要掌握精确的节拍一样,视频推理也需要对时间流逝有准确的把握。

更重要的是,研究团队采用了一种创新的数据分割策略。他们将数据集分为训练集和测试集两部分,但这种分割不是随机进行的,而是基于视频内容的多样性。这确保了测试集能够真正检验AI的泛化能力,而不仅仅是记忆训练样本的能力。训练集包含11654个样本和1218个独特视频,而测试集包含2836个样本和479个独特视频,这种规模保证了评估结果的可靠性。

六、实验结果:超越期待的性能表现

MOSS-ChatV在各种测试中展现出了令人印象深刻的性能表现,这些结果不仅验证了研究团队方法的有效性,也为视频AI的发展指出了新的方向。

在专门的视频状态预测任务中,MOSS-ChatV达到了87.2%的准确率,这个成绩甚至超过了GPT-4o等先进的商业AI系统。更重要的是,这种优秀表现不仅仅体现在准确率上,还体现在推理质量的显著提升。通过人工评估,研究团队发现MOSS-ChatV生成的推理过程具有更好的逻辑连贯性和更高的信息密度。

这种性能提升的意义远超单一任务的成功。研究团队进一步测试了MOSS-ChatV在其他视频理解任务上的表现,结果发现它在MVBench、VideoMME等综合性评测中也取得了显著的改进。这种现象就像一位学生通过深入学习数学推理而在物理和化学等相关学科上也取得进步一样,表明了视频推理能力的基础性和重要性。

特别值得注意的是,MOSS-ChatV只使用了单一任务的训练数据,却在多个不同的视频理解任务上都有所提升。这种现象被称为"正迁移效应",它说明了视频预测任务确实能够训练AI的核心推理能力,这些能力可以应用到其他相关任务中。

研究团队还通过对比实验验证了不同组件的贡献。他们发现,去除过程推理奖励后,模型虽然仍能保持一定的预测准确性,但推理质量明显下降。这证明了过程监督机制的重要性,它不仅提升了模型的可解释性,也增强了模型的整体可靠性。

在不同输入帧数的测试中,MOSS-ChatV表现出了良好的适应性。随着输入视频帧数的增加,模型的预测准确性稳步提升,但值得注意的是,MOSS-ChatV相比其他模型能够用更少的帧数达到同等的性能水平。这种效率优势在实际应用中具有重要意义,因为它意味着更快的处理速度和更低的计算成本。

七、技术创新:子序列动态时间规整的优越性

在技术实现的细节中,子序列动态时间规整算法的选择体现了研究团队的深刻洞察。通过与传统的完全动态时间规整算法对比,研究团队发现了一个重要的现象:传统方法容易导致"奖励黑客"问题。

这个问题的本质就像考试中的钻空子行为。当评分标准过于严格时,学生可能会选择写极短的答案来避免出错,而不是提供完整的解答。在AI训练中,传统的完全匹配算法会对长推理过程给予不公平的惩罚,因为长文本更容易与标准答案产生偏差。这导致AI学会生成极其简化的推理过程,虽然技术上满足了匹配要求,但失去了推理的真正价值。

子序列动态时间规整算法巧妙地解决了这个问题。它允许AI生成比标准答案更长或更详细的推理过程,只要其中包含了关键的推理步骤。这种宽容性鼓励AI进行更深入的思考和更全面的分析,而不是简单地追求表面的匹配。

算法的另一个优势是它的计算效率。尽管需要处理复杂的序列对齐问题,但通过优化的动态规划实现,算法能够在合理的时间内完成计算。这种效率使得大规模训练成为可能,为MOSS-ChatV的成功奠定了技术基础。

研究团队还发现,这种算法的参数设置对最终性能有显著影响。通过调整"跳跃步长"等参数,可以控制算法对推理过程变化的容忍度。在实验中,研究团队找到了最优的参数配置,使得算法既能准确识别关键推理步骤,又能保持足够的灵活性。

八、广泛适用性:跨架构的成功验证

MOSS-ChatV方法的另一个重要特点是其广泛的适用性。研究团队不仅在Qwen2.5-VL这样的大型模型上验证了方法的有效性,还在TinyLLaVA-Video这样的小型模型上取得了成功。这种跨架构的成功表明,过程推理奖励机制具有通用性,不依赖于特定的模型结构。

在小型模型上的成功尤其值得关注。TinyLLaVA-Video使用的是Phi2-3B这样相对较小的语言模型,但通过应用过程推理奖励机制,它在视频理解任务上的表现得到了显著提升。这个结果对于资源受限的应用场景具有重要意义,它表明即使是较小的模型也能通过适当的训练方法获得强大的推理能力。

这种通用性的实现离不开方法设计的巧妙之处。过程推理奖励机制不需要修改模型的基础架构,而是通过训练过程的改进来实现能力提升。这种"外挂式"的改进方法使得现有的各种视频AI模型都能受益于这项技术。

研究团队还通过消融实验验证了方法中各个组件的贡献。他们发现,即使是最基础的GRPO强化学习框架,相比传统的监督学习也有明显优势。而加入过程推理奖励后,性能提升更加显著。这种逐步的性能改进证明了研究团队设计的合理性。

九、质量评估:AI判官的多维度分析

为了更全面地评估MOSS-ChatV的推理质量,研究团队创新性地引入了GPT-4o作为自动评估工具。这种做法就像请一位经验丰富的专家来评判学生的作业质量,不仅关注答案的正确性,还要评估解题过程的清晰度和逻辑性。

评估框架包含四个重要维度。推理与答案一致性检查AI的推理过程是否与最终答案保持一致,避免出现推理指向一个答案但最终选择另一个答案的矛盾情况。推理内容重复性评估推理过程中是否存在不必要的重复,高质量的推理应该信息密度高,避免冗余表达。逻辑连贯性和知识准确性考察推理链条是否完整合理,所使用的背景知识是否正确。推理与视频内容相关性确保推理过程紧密基于视频内容,而不是无根据的猜测。

通过这种多维度评估,研究团队发现MOSS-ChatV在所有指标上都表现出色。特别是在推理与答案一致性方面,MOSS-ChatV达到了0.79的高分,显著超过了基准模型。这种一致性对于AI系统的可信度至关重要,它表明AI不仅能给出正确答案,还能提供支撑这个答案的合理推理。

在推理内容重复性方面,MOSS-ChatV也表现良好,其推理过程信息密度高,避免了不必要的重复。这种简洁性使得AI的输出更易于理解和应用。同时,在逻辑连贯性和视频相关性方面,MOSS-ChatV也获得了高分,证明了其推理过程的高质量。

这种自动评估方法本身也具有重要的方法学价值。它为视频AI的评估建立了新的标准,不再仅仅关注最终的准确率,而是综合考虑推理过程的多个质量维度。这种评估框架可以被其他研究者采用,推动整个领域向更高质量的方向发展。

十、未来展望:视频AI的新篇章

MOSS-ChatV的成功不仅仅是一项技术突破,更重要的是它为视频AI的发展开辟了新的道路。这项研究表明,通过适当的训练方法,AI系统可以获得类似人类的视频推理能力,不仅能准确预测未来,还能清晰解释推理过程。

从技术发展的角度来看,过程推理奖励机制具有广阔的应用前景。这种方法不仅适用于视频理解,也可以扩展到其他需要复杂推理的AI任务中。例如,在医学诊断、法律分析、科学研究等领域,AI系统的可解释性同样重要,过程推理奖励机制可能为这些领域的AI应用提供新的解决方案。

从实际应用的角度来看,MOSS-ChatV展示的能力有着巨大的应用潜力。在智能监控系统中,这种技术可以帮助预测异常事件的发生,为安全防护提供更主动的保障。在体育分析中,它可以帮助教练和运动员分析比赛动态,制定更有效的战术策略。在自动驾驶领域,这种预测和推理能力对于确保行车安全具有重要意义。

研究团队的工作也为AI的可解释性研究提供了新的思路。传统的可解释性研究往往关注模型内部机制的解释,而MOSS-ChatV展示了通过训练过程改进来提升可解释性的新途径。这种方法更加实用,也更容易被非技术专业人员理解和接受。

然而,这项研究也面临一些挑战和限制。首先,过程推理奖励机制需要高质量的标注数据,这在一定程度上限制了其应用范围。其次,虽然子序列动态时间规整算法具有一定的灵活性,但如何进一步提高其对不同推理风格的适应性仍然是一个值得探索的问题。

研究团队表示,他们将继续完善这项技术,特别是在降低对标注数据的依赖性和提高算法的通用性方面。他们也计划将这种方法应用到更多的视频AI任务中,验证其在不同应用场景下的效果。

最终,MOSS-ChatV代表了视频AI发展的一个重要里程碑。它不仅在技术上取得了突破,更重要的是它证明了AI系统可以具备更接近人类的推理能力。这种能力的获得为构建更智能、更可信的AI系统奠定了基础,也为人机协作开启了新的可能性。随着这项技术的进一步发展和应用,我们有理由期待视频AI在未来能够在更多领域发挥重要作用,为人类社会带来更大的价值。

Q&A

Q1:MOSS-ChatV是什么?它与普通的视频AI有什么区别?

A:MOSS-ChatV是香港科技大学开发的视频推理AI系统,它的特别之处在于不仅能预测视频中接下来会发生什么,还能像人类一样详细解释自己的推理过程。与普通视频AI只关注最终答案不同,MOSS-ChatV确保每一步推理都符合逻辑且与视频内容相关,就像一个能够清晰表达思维过程的智能助手。

Q2:过程推理奖励机制是如何工作的?

A:过程推理奖励机制就像一位细心的老师,不仅检查答案是否正确,还要审查解题过程的每一步。系统使用动态时间规整算法将AI的推理过程与专家标注的标准推理进行比较,对逻辑清晰、与视频内容紧密相关的推理步骤给予奖励,从而训练AI形成正确的思维方式。

Q3:MOSS-Video数据集有什么特殊之处?

A:MOSS-Video是专门为训练视频推理能力构建的数据集,包含超过14000个带有详细推理过程标注的视频样本。它采用双重标注流程,既记录对象的整体状态变化,又描述每个细微变化的具体原因,为AI提供了从宏观到微观的完整学习材料,是目前唯一支持视频状态预测与推理过程训练的综合性数据集。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-