微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙大阿里联合发布:用2.5年教学视频训练AI,教出来的模型做数学题比传统方法厉害太多!

浙大阿里联合发布:用2.5年教学视频训练AI,教出来的模型做数学题比传统方法厉害太多!

2025-09-19 10:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-19 10:03 科技行者

这项由浙江大学计算机科学与技术学院的张文琦等研究者与阿里巴巴达摩院合作完成的突破性研究,于2025年1月发表在arXiv预印本平台上,论文题目为《2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining》。对这项研究感兴趣的读者可以通过项目主页 https://multimodal-interleaved-textbook.github.io/ 和代码仓库 https://github.com/DAMO-NLPSG/multimodal_textbook 了解更多详情。

想象一下,如果让一个AI学生坐在教室里听了2.5年的课,从数学、物理到化学、地球科学,它会变得有多聪明?浙江大学和阿里巴巴的研究团队就做了这样一件事,他们收集了2.2万小时的在线教学视频,相当于一个学生连续上了2.5年的课,然后用这些"课堂笔记"训练出了一个特别擅长学习的AI模型。

研究团队发现,传统的AI训练方法就像让学生只看图片配文字的闪卡来学习,虽然能记住一些基本知识,但很难理解复杂的概念。而真正的学习应该像在课堂上一样,老师一边讲解一边在黑板上画图,学生看着图听着解释,这样才能真正理解知识的逻辑关系。基于这个想法,他们创造了一种全新的AI训练方法,让AI像真正的学生一样从教学视频中学习。

这项研究的创新之处在于,它是第一次大规模地使用教学视频来训练AI模型,而且效果出人意料地好。在数学推理、科学问答等需要深度思考的任务上,用这种方法训练出的AI表现比传统方法好了很多。更有趣的是,这种AI还学会了一种特殊能力,就像优秀学生能从课堂笔记中快速找到解题线索一样,它也能从给定的信息中敏锐地捕捉到有用的线索来解决问题。

一、传统AI训练的困境:为什么看图识字还不够?

传统的AI训练方式就像让一个学生只通过看图片配简单说明来学习,这种方法虽然能让AI记住很多基本概念,但在面对复杂问题时就显得力不从心了。研究团队发现了现有训练数据的三个主要问题。

首先是图片和文字之间的关系过于松散。就像一本杂志里的广告图片和正文内容毫无关系一样,网上爬取的数据中,很多图片只是装饰性的,比如网站Logo或者广告图,与文字内容没有实质联系。这就像让学生用一本图文不符的教科书学习,效果可想而知。

其次是图片之间缺乏逻辑连贯性。大多数网页只包含少量图片,而且这些图片之间往往没有明确的逻辑关系。这就好比给学生一堆零散的照片,让他们从中理解一个完整的故事,这显然是不可能的。真正的学习需要的是像连环画一样有逻辑顺序的视觉信息。

最后是知识密度太低的问题。网上爬取的内容往往包含大量娱乐、新闻、广告等与基础知识无关的信息,就像在一本正经的教科书里夹杂了太多小道消息和八卦,会严重影响学习效果。学生需要的是经过精心编排、知识密度高的学习材料。

与此同时,互联网上存在着大量高质量的教学视频资源,比如YouTube上的数学课程、物理实验演示等。这些视频就像真正的课堂一样,老师一边讲解概念一边在黑板上画图,每一帧画面都与讲解内容密切相关,形成了完美的图文配合。然而,这些宝贵的教育资源在AI训练中却一直被忽视,就像坐在金山上却去别处找铜币一样。

研究团队意识到,要让AI真正学会复杂的推理和知识理解,就必须改变训练方式,让AI像真正的学生一样从结构化、高质量的教学内容中学习,而不是从杂乱无章的网页内容中拼凑知识碎片。

二、构建AI专属教科书:从2.2万小时视频中提炼知识精华

为了解决传统训练方法的问题,研究团队开始了一项雄心勃勃的计划:为AI打造一本专属的多媒体教科书。这本教科书不是普通的文字书籍,而是将2.2万小时的教学视频转化成AI能够理解的图文交融的学习材料。

整个制作过程就像是一个巨大的知识加工厂。首先,研究团队让AI助手帮忙制作了一份详细的知识地图,涵盖了数学、物理、化学、地球科学、工程学和计算机科学六大学科,包含了55门课程和3915个具体知识点。这份知识地图就像是图书馆的分类目录,确保不会遗漏任何重要的学习内容。

有了这份知识地图,团队开始在YouTube等平台上收集相关的教学视频。他们最初收集了15.9万个视频,然后通过AI助手仔细筛选,剔除了那些与教学无关的内容,比如娱乐视频、广告或者质量太差的录制内容。经过严格筛选,最终保留了7.5万个高质量的教学视频,总时长达到2.2万小时,相当于一个学生连续听课2.5年的内容。

接下来的工作就像是给每堂课做详细笔记。研究团队开发了一套自动化的"笔记系统",能够从每个教学视频中提取出最有价值的信息。这套系统会自动识别出每个重要的画面帧,就像学生在听课时会特别注意老师在黑板上画的关键图表一样。同时,系统还会将老师的语音讲解转换成文字,并且用AI进行润色,让原本口语化的表达变得更加清晰准确。

更加巧妙的是,系统还能够识别画面中的文字、公式和符号,就像用放大镜仔细记录黑板上的每一个数学公式一样。通过光学字符识别技术,系统可以准确提取出视频中出现的重要文字信息,确保不遗漏任何关键的学习要点。

为了保证质量,研究团队还设计了多重过滤机制。就像优秀的编辑会反复校对稿件一样,系统会自动识别并剔除那些模糊不清的画面、重复的内容,以及与讲解内容不匹配的图片。最终,这个过程产生了650万张精心挑选的关键图片,配合7.5亿个高质量的文字说明,构成了一本内容丰富、逻辑清晰的AI专用教科书。

这本教科书的特别之处在于,它完美地保持了原始教学视频中图片和讲解之间的时间顺序关系。就像真正的课堂笔记一样,每张图片都对应着特定的讲解内容,形成了连贯的学习序列。这样的设计让AI能够像真正的学生一样,通过观察图片的变化和阅读相应的说明来理解复杂的概念发展过程。

三、训练效果验证:AI学生的成绩单让人惊喜

当研究团队用这本特制的教科书训练AI后,结果令人眼前一亮。就像一个认真听课的学生总是比只背书的学生考试成绩更好一样,用教学视频训练出的AI在各种测试中都表现出色。

在数学推理能力的测试中,新方法的效果尤其显著。在MathVista这个专门测试数学视觉推理能力的基准测试中,用教学视频训练的AI比传统方法训练的AI成绩提高了5.3%到6.4%。这个提升听起来可能不大,但在AI领域,这样的提升是相当显著的,就像一个学生的数学成绩从80分提高到85分一样,代表着理解能力的实质性飞跃。

更令人惊喜的是在科学问答测试ScienceQA上的表现。在这个测试中,新方法训练的AI比传统方法的成绩提高了超过20%。这个巨大的提升说明,通过教学视频学习确实能让AI更好地理解和掌握科学知识,就像一个学生从死记硬背转向真正理解概念后,考试成绩会有质的飞跃。

研究团队还发现了一个特别有趣的现象:用教学视频训练的AI表现出了更强的"上下文学习能力"。简单来说,就是AI变得更善于从给定的信息中寻找解题线索。为了验证这一点,研究团队设计了一个巧妙的测试,他们故意在题目中提供答案,看AI是否能够发现并利用这个"作弊"机会。

结果显示,用教学视频训练的AI在这种测试中的表现远超其他方法。在一种测试场景中,传统方法训练的AI只有72.6%的概率能发现隐藏的答案,而新方法训练的AI达到了94.1%的准确率,几乎能够完美地识别出题目中的线索。这说明通过教学视频学习,AI不仅掌握了知识内容,还学会了如何更有效地处理和利用信息。

研究团队还测试了图片顺序对学习效果的影响。他们故意打乱了教学视频中图片的时间顺序,然后用这些乱序的材料训练AI。结果发现,传统的网页数据即使打乱顺序也几乎不影响训练效果,这证实了网页中图片之间本来就缺乏逻辑关系。但是对于教学视频数据,一旦打乱顺序,AI的学习效果就会明显下降,这恰恰证明了教学视频中图片序列的逻辑性对AI学习的重要性。

这些测试结果共同说明了一个重要结论:让AI像真正的学生一样从结构化的教学内容中学习,确实能够显著提高它们的理解能力和推理水平。这不仅仅是知识量的增加,更是学习质量的根本提升。

四、技术创新细节:如何让机器像人一样学习

研究团队在技术实现上展现了许多巧妙的创新。整个系统的工作流程就像一条精密的生产线,每个环节都经过精心设计,确保最终产品的质量。

在视频处理的第一个环节,系统需要从连续的视频流中找出真正重要的关键帧。这个过程就像一个细心的学生在听课时决定什么时候做笔记一样。研究团队尝试了多种方法,包括简单的像素级比较、结构相似性算法和基于AI的语义理解方法。经过大量实验,他们发现结构相似性算法效果最好,既能准确识别重要的画面变化,又不会产生过多的冗余信息。

语音转文字的处理也颇有讲究。教学视频中的语音往往带有浓重的口语化特色,老师们会使用"嗯"、"那么"、"接下来我们看"这样的口头语,还会有重复、停顿等现象。如果直接使用这些原始文字训练AI,就像让学生从一份充满语法错误的教材中学习,效果会大打折扣。因此,研究团队使用了先进的大语言模型来"润色"这些文字,将口语化的表达转换为更加规范、清晰的书面语言,同时保持原意不变。

在质量控制方面,系统采用了多层筛选机制。首先是视频级别的筛选,AI会分析整个视频的语音转录内容,判断这是否真的是一个教学视频,是否包含足够的知识密度,转录质量是否达标。只有通过这些检验的视频才会进入下一步处理。

接着是片段级别的筛选。由于即使是优质的教学视频也可能包含一些与教学内容无关的片段,比如开场白、广告或者技术故障造成的静默时间,系统会自动识别并过滤这些内容。这个过程就像一个认真的学生会自动忽略老师的闲聊,专注于真正的课程内容。

最后是帧级别的筛选。系统会检查每一张关键帧是否清晰、是否包含有用信息、是否与前后内容重复等。同时,从画面中提取的文字信息也会经过类似的筛选,确保每一条信息都是有价值的。

为了验证这些技术选择的合理性,研究团队进行了大量的对比实验。他们发现,如果跳过语音润色步骤,AI的最终表现会下降4.9%;如果不提取画面中的文字信息,性能会下降2.3%;如果使用效果较差的关键帧提取算法,性能甚至会下降9%。这些数据清楚地证明了每个技术细节的重要性。

研究团队还创新性地解决了训练样本构建的问题。由于单个教学视频通常包含太多内容,超出了现有AI模型的处理能力,他们采用了灵活的分段策略,将长视频分解为多个适中长度的训练样本,同时在不同视频片段之间插入特殊标记,帮助AI理解内容的边界。

五、实际应用展示:看AI如何解数学题

为了让读者更直观地了解这种新方法的效果,研究团队在论文中展示了几个生动的应用案例,这些案例就像AI学生的课堂作业展示一样令人印象深刻。

在一个几何问题的解答中,AI需要计算一个特殊矩形在半圆中的面积。这个问题对于传统的AI来说相当困难,因为它需要结合多个几何概念,包括矩形性质、圆的性质、三角形的角度关系等。但是通过教学视频训练的AI却展现了出色的逻辑推理能力。

AI首先识别出这是一个包含45-45-90直角三角形的几何问题,然后利用圆内接角的性质计算出相关弧度,接着运用三角形的性质确定矩形的尺寸,最后准确计算出面积为20平方单位。整个解题过程逻辑清晰,步骤完整,就像一个优秀学生的标准答案一样。

在物理概念解释方面,AI同样表现出色。当遇到关于加速度的问题时,AI能够清楚地解释初始速度、最终速度和时间的关系,正确应用公式a = (v-u)/t,并准确计算出加速度为2米每秒平方。更重要的是,AI还能解释为什么加速度的单位是"米每秒平方",显示了对概念的深层理解。

在化学知识方面,AI能够清晰地区分原子、分子和化合物的概念。比如在解释氦气、氢气和水的区别时,AI能够准确指出氦气由单个氦原子组成,属于纯元素;氢气由两个氢原子组成的分子构成,也是纯元素;而水则由氢原子和氧原子组成,属于化合物。这种分类能力体现了AI对基础科学概念的准确掌握。

特别值得注意的是AI在处理复杂推理问题时的表现。在一个涉及多个物理概念的问题中,AI需要同时考虑惯性、质量、力和加速度之间的关系。它不仅能正确应用牛顿第二定律,还能通过具体的数值计算来说明质量较大的物体具有更大的惯性这一抽象概念。这种将抽象概念与具体计算相结合的能力,正是优秀学生所具备的特质。

研究团队还特别测试了AI对教学内容时序性的敏感度。他们发现,当教学视频中的图片按照正确的时间顺序排列时,AI的理解效果最好。一旦打乱这种时序关系,AI的表现就会明显下降。这说明AI确实学会了利用知识发展的逻辑顺序来增强自己的理解,就像人类学习时会依赖概念的递进关系一样。

这些应用案例共同展示了一个重要事实:通过模拟真实的课堂学习环境,AI不仅获得了更多的知识,更重要的是学会了如何像人类一样进行逻辑推理和概念理解。这种质的飞跃为AI在教育、科研和实际问题解决中的应用开辟了新的可能性。

六、对比实验:证明新方法的优越性

为了科学地验证新方法的有效性,研究团队进行了大量严谨的对比实验。这些实验就像是不同教学方法的效果评估,通过客观的数据来证明哪种方法更有效。

研究团队选择了两个主流的AI模型作为测试对象:LLaVA-1.5和Idefics2。这就像选择了两类不同的学生来参加相同的课程和考试,通过比较他们的学习效果来评估不同教学方法的优劣。

在训练数据的选择上,研究团队对比了几种不同来源的数据。除了他们自己制作的教学视频数据外,还包括了MMC4和OBELICS这两个目前广泛使用的网页数据集。为了确保对比的公平性,所有数据集都被调整到相同的规模,就像确保不同班级的学生都学习相同课时的内容一样。

实验结果令人信服。在七个不同的测试任务中,使用教学视频数据训练的AI在平均表现上分别比MMC4提高了3.2%,比OBELICS提高了8.3%。这个提升在不同的测试场景下都保持稳定,证明了新方法的可靠性。

更有说服力的是在特定类型任务上的表现差异。在需要数学推理和科学知识的测试中,新方法的优势更加明显。比如在ScienceQA测试中,传统方法的准确率只有16.4%,而新方法达到了37.3%,提升幅度超过20%。这个巨大的差异清楚地表明,结构化的教学内容确实能让AI更好地掌握复杂的科学概念。

研究团队还设计了一个特别巧妙的"作弊测试"来评估AI的上下文理解能力。在这个测试中,他们故意在问题的上下文中包含答案,看AI是否能够发现并利用这个信息。结果显示,用教学视频训练的AI在1-shot测试中达到了94.1%的"作弊"成功率,而传统方法只有72.6%。这说明新方法训练出的AI具有更强的信息整合和利用能力。

为了验证图片顺序的重要性,研究团队还进行了一个"打乱实验"。他们将不同数据集中图片的原始顺序打乱,然后观察这种打乱对训练效果的影响。结果发现,传统的网页数据即使完全打乱顺序,对AI的最终性能几乎没有影响,这证实了这些数据中图片之间本来就缺乏逻辑关系。相比之下,教学视频数据一旦被打乱,AI的性能就会显著下降,这恰恰证明了教学视频中图片序列的逻辑价值。

在不同模型架构上的测试也证实了新方法的普适性。无论是从头开始训练,还是在预训练模型基础上继续学习,使用教学视频数据都能带来一致的性能提升。这说明新方法的优势来自于数据质量的提升,而不是特定的模型设计技巧。

研究团队还测试了各个技术组件的贡献度。通过逐一移除不同的处理步骤,他们发现语音文字的润色处理贡献了4.9%的性能提升,视觉文字的提取贡献了2.3%的提升,而精确的关键帧提取算法贡献了9%的提升。这些数据为未来的改进工作提供了明确的方向。

七、研究意义与未来展望:开启AI教育的新纪元

这项研究的意义远远超出了技术层面的创新,它为AI学习方式的根本性变革指明了方向。就像人类教育史上从死记硬背转向启发式教学的革命一样,这种让AI从真实教学场景中学习的方法,可能会彻底改变我们训练AI的方式。

从教育应用的角度来看,这项技术的潜力巨大。经过这种方式训练的AI可以成为更优秀的智能教师助手,因为它们不仅掌握了丰富的学科知识,更重要的是学会了知识的逻辑结构和教学方法。这些AI助手可以为学生提供个性化的学习指导,就像有一个永远耐心、知识渊博的私人家教一样。

在科研领域,这种方法也展现了广阔的应用前景。由于AI学会了从复杂信息中提取关键线索的能力,它们可以帮助研究人员处理大量的科学文献和实验数据,发现人类可能忽略的重要关联。这就像给科研工作者配备了一个永不疲惫的助手,能够快速筛选和分析海量信息。

更广泛地说,这项研究证明了数据质量比数据量更重要的观点。在AI发展的早期阶段,研究者们往往认为"大力出奇迹",即只要有足够多的数据,AI就能学好。但这项研究表明,精心挑选、结构合理的高质量数据比海量的低质量数据更有价值。这个发现可能会推动整个AI行业重新思考数据收集和处理的策略。

当然,这项研究也存在一些局限性。目前的方法主要适用于基础学科教育,对于更加复杂的专业领域或者实践性强的技能学习,可能需要进一步的改进。而且,高质量教学视频的获取和处理成本相对较高,这可能会限制方法的大规模推广。

研究团队已经将他们的数据集和代码开源,这为后续的研究工作奠定了基础。其他研究者可以在此基础上探索更多学科领域的应用,或者开发更高效的视频处理算法。这种开放的研究态度体现了科学研究的合作精神,有助于加速整个领域的发展。

展望未来,这种基于教学视频的AI训练方法可能会与其他前沿技术相结合,产生更大的价值。比如结合虚拟现实技术,可以创造出沉浸式的AI学习环境;结合个性化推荐算法,可以为每个学习者量身定制最适合的学习路径。

最终,这项研究向我们展示了一个令人兴奋的可能性:AI不仅可以成为人类的工具,更可以成为人类学习和思考的伙伴。当AI学会了像人类一样从结构化的知识中学习和推理时,它们就具备了与人类更深层次合作的基础。这不是要替代人类的智慧,而是要放大和增强人类的智慧,共同探索知识的无限边界。

Q&A

Q1:这个多媒体教科书是怎么制作的?包含什么内容?

A:研究团队从YouTube等平台收集了15.9万个教学视频,经过AI筛选后保留了7.5万个高质量视频,总计2.2万小时。他们开发了自动化系统从视频中提取关键画面、将语音转为文字并润色、识别画面中的公式和文字,最终生成了包含650万张图片和7.5亿个文字的AI专用教科书,涵盖数学、物理、化学、地球科学、工程学和计算机科学六大学科。

Q2:用教学视频训练的AI比传统方法好在哪里?

A:新方法训练的AI在数学推理测试MathVista上比传统方法提高了5.3%-6.4%,在科学问答ScienceQA上提高了超过20%。更重要的是,这种AI学会了更强的上下文理解能力,能从给定信息中敏锐地捕捉解题线索,在"作弊测试"中的成功率达到94.1%,远超传统方法的72.6%。

Q3:为什么教学视频比网页数据训练效果更好?

A:教学视频具有三个关键优势:图片与文字之间联系紧密(不像网页中的装饰性图片),图片之间有清晰的逻辑顺序(体现知识发展过程),知识密度高(专注于基础学科教学)。研究发现,一旦打乱教学视频中图片的顺序,AI性能就会显著下降,而网页数据打乱后几乎无影响,证明了教学视频逻辑结构的价值。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-