微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

香港科技大学团队首次破解AI多模态推理自学难题：让机器像人类一样思考图像问题

多模态推理自我进化训练过程奖励模型

香港科技大学团队首次破解AI多模态推理自学难题：让机器像人类一样思考图像问题

作者：科技行者

2026-03-09 13:07

分享至：

香港科技大学等机构联合开发的M-STAR框架首次系统性解决了多模态AI自学难题。该框架通过连续自我进化训练、首创过程奖励模型和动态温度调节机制，让AI系统能像人类一样自主学习视觉推理能力，在数学推理等测试中实现6-7个百分点的显著提升，为AI从被动学习向主动探索转变奠定了重要基础。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-09 13:07 • 科技行者

当你看到一张复杂的数学图表或几何图形时，大脑会自动调动视觉理解和逻辑推理两套"程序"协同工作。而在人工智能领域，让机器同时"看懂"图像并进行复杂推理，一直是个令人头疼的难题。最近，香港科技大学、上海交通大学、Helixon Research以及香港中文大学的联合研究团队在这个领域取得了重大突破。他们的研究成果《Diving into Self-Evolving Training for Multimodal Reasoning》发表在2025年第42届国际机器学习大会（ICML 2025）上，论文编号为arXiv:2412.17451v3。这项研究首次系统性地解决了多模态AI系统的"自我进化"问题，就像教会了机器如何通过不断练习来提升自己的视觉推理能力。

在日常生活中，我们经常需要同时运用视觉和逻辑思维。比如看一张股票走势图来预测市场，或者根据地图规划最佳路线。对人类而言，这种"看图说话"+"逻辑分析"的组合能力似乎天生就有。但对AI系统来说，这却是个巨大挑战。目前的AI虽然能够识别图像内容，也能进行文本推理，但要让它们像人类一样自然地结合视觉信息进行复杂推理，仍然困难重重。

更棘手的是训练数据的稀缺问题。就像学习一门技能需要大量优质的示范和练习一样，AI系统也需要海量的高质量训练材料。但在多模态推理领域，那种既包含图像又包含详细推理过程的数据极其稀少，就像寻找既会画画又会解数学题的全能老师一样困难。这就迫使研究者们思考：能否让AI系统通过"自学"的方式来突破这个瓶颈？

自学式训练在AI领域被称为"自我进化训练"，它的核心思路就像让学生通过做题、检查答案、总结经验来不断提升自己的能力。在纯文本推理领域，这种方法已经显示出惊人的效果。但在更复杂的多模态推理场景中，情况就完全不同了。毕竟，同时处理图像和文本信息，再进行逻辑推理，这个过程的复杂程度远超单纯的文本处理。

这支联合研究团队决定从强化学习的角度重新审视多模态自学问题。他们发现，自我进化训练的成功与否取决于三个关键要素，就像搭建一座稳固建筑需要地基、支柱和屋顶一样。第一个要素是训练方法本身，也就是AI系统如何安排自己的"学习计划"。第二个要素是奖励机制，类似于学生做题后需要有人批改打分，告诉它哪里做对了哪里做错了。第三个要素是训练材料的多样性，就像学生需要接触各种类型的题目才能全面提升能力。

一、突破传统的连续式自我进化训练法

研究团队首先解决的是AI系统的"学习节奏"问题。传统的自学方法就像学生每学完一整本教科书后才开始复习，这种做法效率很低。研究人员发现了一个关键问题：在传统方法中，AI系统完成一轮完整的数据训练后，才会根据结果调整自己的策略。这就好比一个学生做完所有作业后才知道自己哪里错了，错过了及时纠正的最佳时机。

为了解决这个问题，研究团队提出了"连续自我进化"的概念。这种方法让AI系统能够更频繁地检查和调整自己的学习状态，就像学生每做完几道题就检查一下答案，发现错误立即纠正。具体来说，系统不再等到处理完所有数据才更新，而是在处理一小部分数据后就进行调整。

这种改进带来了显著的效果提升。研究团队在实验中发现，使用连续自我进化方法的AI系统在处理数学视觉推理任务时，准确率从原来的52.6%提升到了57.2%。这个看似不大的数字提升，实际上代表着系统推理能力的重大飞跃。就像学生考试成绩从70分提升到80分，看起来只是10分的差距，但背后反映的是思维能力的质的改变。

研究过程中，团队还发现了一个有趣的现象：学习频率的把握非常关键。如果AI系统更新得太频繁，就像学生每做完一道题就要重新制定学习计划，反而会导致学习过程不稳定。但如果更新得太慢，又会错失及时调整的机会。通过大量实验，研究者找到了最佳的平衡点：让系统在处理大约四分之一的数据后进行一次更新。

更深层的分析显示，这种连续式学习方法的成功在于它更好地平衡了"探索"和"利用"的关系。探索就像学生尝试新的解题方法，而利用则像学生运用已经掌握的技巧。传统方法往往在这两者之间摇摆不定，而连续式方法则让系统能够在保持已有能力的同时，稳步开拓新的推理路径。

二、首创多模态过程奖励模型

如果说训练方法是AI系统的"学习计划"，那么奖励机制就是它的"成绩评定标准"。传统的评分方式非常粗暴，就像考试只看最终答案对错，完全不考虑解题过程。这种方法对于多模态推理来说显然是不够的，因为即使两个学生得出了相同的正确答案，他们的思维过程可能天差地别，一个可能用了最优方法，另一个可能走了很多弯路。

研究团队意识到，要真正提升AI的多模态推理能力，就必须像好老师一样，不仅关注最终答案，更要关注思考过程的质量。于是，他们开发了业界第一个专门针对多模态推理的"过程奖励模型"。这个模型就像一位经验丰富的数学老师，能够逐步分析学生的解题过程，对每一个推理步骤给出评价。

这个过程奖励模型的工作原理颇为巧妙。当AI系统在解决一个视觉数学问题时，比如分析一个几何图形的面积，模型会追踪整个推理过程的每一步。它不仅检查最终计算结果是否正确，还会评估每个中间步骤的合理性。就像判断学生是否正确识别了图形特征、是否选择了合适的公式、是否进行了正确的代入计算等等。

训练这样的评价模型需要大量精心准备的数据。研究团队采用了一种称为"蒙特卡洛推演"的方法来生成训练数据。简单说，就是让一个已经训练得比较好的AI系统从每个推理步骤开始，尝试完成剩余的推理过程。通过观察这些尝试的成功率，就能判断某个中间步骤的质量好坏。这就像让多个学生从同一个解题步骤开始继续往下做，如果从某个步骤开始成功率特别高，说明这个步骤质量很好。

令人意外的是，研究团队发现他们开发的过程奖励模型在某些传统评测上表现并不突出。就像一位专业的美术老师可能不一定能在大众投票中胜出，但他的专业判断却更有价值。深入分析后，研究者发现这个模型的真正价值在于它能够识别出那些推理过程更简洁、更贴切的答案。

具体来说，经过过程奖励模型筛选的答案往往具有两个特点：推理步骤相对较少，且每个步骤都与问题高度相关。这就像好学生的作业，不会有冗余的计算，也不会有跑题的内容。实验结果证明，使用这种过程奖励模型后，AI系统的准确率进一步从57.2%提升到了59.2%，证明了细致评价推理过程的重要性。

三、揭示训练数据扩展的真相

在AI训练领域，一个普遍的观念是"数据越多越好"。就像很多人认为题海战术总是有效的一样。但研究团队在探索是否应该加入更多未标注数据时，却发现了一个颠覆性的结论。

研究者首先进行了一个理想化的实验：他们假设有完美的评价标准（就像有标准答案的练习册），在这种情况下测试加入额外训练数据的效果。结果显示，当有完美的指导时，增加数据确实能带来改善。就像学生在名师指导下做更多题目确实有帮助。

但现实情况远没有这么理想。当研究团队使用他们开发的过程奖励模型来评价额外数据时，情况发生了反转。不仅没有带来预期的改善，反而在某些测试中出现了性能下降。这就像学生在没有标准答案的情况下盲目做题，可能会巩固错误的解题习惯。

更深入的分析揭示了背后的原因：对于没有标准答案的题目，过程奖励模型需要依靠"群体投票"的方式来判断答案质量。系统会生成多个可能的答案，然后选择获得最多"支持票"的答案作为标准。但这种方法在面对复杂的多模态推理问题时并不可靠，就像让一群不确定答案的学生相互讨论，很可能得出错误的共识。

这个发现对AI训练领域具有重要意义。它告诉我们，简单地堆砌更多数据并不能保证更好的效果，关键在于数据质量和评价机制的可靠性。就像学生学习一样，做十道高质量的题目可能比做一百道质量不确定的题目更有价值。

研究团队还测试了在训练的不同阶段引入额外数据的效果。他们发现，如果在训练初期就引入这些数据，负面影响相对较小。但如果在训练后期才引入，系统已经形成了相对稳定的推理模式，新数据反而可能造成干扰。这类似于学生在刚开始学习某个知识点时接受不同观点比较容易，但在已经形成固定思维模式后，新的、可能不准确的信息反而会造成混淆。

四、发现并解决自学过程中的"探索衰退"问题

在深入研究AI系统的自学动态时，研究团队发现了一个令人担忧的现象：随着训练的进行，系统的"探索能力"竟然在逐渐下降。这就像一个学生刚开始学习时思维很活跃，会尝试各种不同的解题方法，但随着时间推移，思维逐渐僵化，只会用固定的套路。

为了量化这个问题，研究团队设计了三个关键的观测指标。第一个叫做"贪婪准确率"，衡量系统在使用最保险方法时的表现，就像学生在考试中使用最熟悉解题方法的成功率。第二个叫做"探索准确率"，衡量系统尝试多种方法时至少有一种成功的概率，就像学生用不同方法都试一遍，看看能否找到正确答案。

最关键的是第三个指标，研究团队称之为"奖励探索度"，这是他们的原创发明。这个指标衡量的是，在系统尝试的多种方法中，有多少能够通过过程奖励模型的质量检验。这就像检查学生尝试的多种解法中，有几种不仅答案正确，解题过程也很优秀。

通过持续监测这些指标，研究者发现了一个清晰的趋势：随着训练进行，系统的贪婪准确率确实在提升，这说明它在使用已掌握方法方面越来越熟练。但探索准确率却在持续下降，而且奖励探索度很快就达到了瓶颈。这意味着系统虽然在已有技能上越来越精进，但开拓新方法的能力却在退化，而且能够找到高质量解法的能力也停滞不前。

这个发现让研究团队意识到，单纯提升系统的"已知技能"并不足够，关键是要维持它的"学习新技能"的能力。就像培养学生不仅要让他们掌握基础知识，更要保持他们的创新思维和探索精神。

进一步分析显示，这种探索能力的衰退与系统的"采样温度"设置密切相关。采样温度就像是系统思维的"活跃度"，高温度会让系统更愿意尝试不同的方法，低温度则让系统倾向于使用熟悉的套路。研究者发现，固定的温度设置无法适应系统能力的动态变化，这就像给活力十足的孩子和沉稳的成年人用同样的教学方法，显然不合适。

基于这些观察，研究团队提出了动态调节采样温度的策略。系统会根据当前的奖励探索度水平，自动调整自己的"思维活跃度"。当发现探索能力下降时，系统会适当提高温度，鼓励自己尝试更多新方法。当探索效果良好时，则保持相对稳定的温度。这就像一个善于自我调节的学生，知道什么时候应该大胆创新，什么时候应该稳扎稳打。

五、M-STAR完整框架的惊人表现

将所有这些发现和改进整合在一起，研究团队构建了他们称之为M-STAR（多模态自我进化推理训练）的完整框架。这个框架就像是为AI系统量身定制的"智能学习系统"，不仅知道该学什么、怎么学，还能实时调整学习策略。

M-STAR框架的核心特色在于它的"自适应性"。传统的AI训练就像按照固定课表上课，不管学生的接受程度如何都按部就班进行。而M-STAR则像一位经验丰富的私人教师，能够根据学生的学习状态随时调整教学策略。当系统的探索能力下降时，框架会自动提升系统的"思维活跃度"，鼓励它尝试新的解题思路。当系统表现稳定时，则保持当前的学习节奏。

为了验证这个框架的通用性，研究团队在三个不同规模的AI模型上进行了测试：包括8B参数的MiniCPM-V-2.5、4B参数的Phi-3.5-Vision和2B参数的InternVL2。这就像在不同年龄段的学生身上验证同一套教学方法的效果。

结果令人振奋：M-STAR框架在所有测试模型上都实现了显著的性能提升。以最大的模型MiniCPM-V-2.5为例，在MathVista测试集上的准确率从基础的52.6%提升到了59.5%，提升幅度达到6.9个百分点。这个提升幅度在AI研究领域是相当显著的，相当于让一个考试成绩为70分的学生提升到77分，这种进步对于复杂推理任务来说是非常可观的。

更重要的是，这种改进不仅体现在单一测试上，而是在多个不同的评测基准上都表现出色。研究团队在五个不同的多模态推理任务上进行了测试，包括数学视觉推理、多步骤思维链推理、综合推理能力评估等等。M-STAR框架在所有这些测试中都取得了一致性的提升，证明了其改进的普遍性和稳健性。

特别值得注意的是，规模较大的模型从这个框架中获益更多。8B参数的模型平均提升了3.9个百分点，而2B参数的模型提升幅度相对较小，只有0.5个百分点。这个现象类似于同样的教学方法对基础更好的学生效果更明显，而对基础薄弱的学生需要更多的基础训练。

六、深度剖析动态调节的核心机制

M-STAR框架最具创新性的部分是它的动态温度调节机制。这个机制的工作原理就像一个智能的学习顾问，能够实时监测AI系统的学习状态，并据此调整学习策略。

具体来说，系统每进行两轮训练后，就会对自己的表现进行一次"体检"。这个体检的核心指标就是前面提到的"奖励探索度"，即系统在尝试多种解法时有多少能够达到高质量标准。如果这个指标下降，说明系统的创新能力在衰退，此时系统会自动提高采样温度，从原来的保守策略转向更加大胆的尝试。

这种调节的效果在实验数据中得到了清晰的体现。研究团队绘制了训练过程中各项指标的变化曲线，发现使用动态调节的系统表现出了完全不同的学习轨迹。在固定温度的情况下，系统的探索能力会单调下降，最终陷入思维僵化。而采用动态调节的系统，其探索能力虽然也会有所波动，但总体保持在较高水平，避免了探索能力的彻底衰退。

更有意思的是，研究团队发现不同的AI模型需要不同的温度调节策略。较大的模型（如8B参数的MiniCPM-V-2.5）表现出更强的适应性，能够在较宽的温度范围内保持良好性能。而较小的模型（如2B参数的InternVL2）则对温度变化更加敏感，需要更精细的调节。这就像不同性格的学生需要不同的激励方式，有些学生适应性强，有些则需要更加细心的引导。

动态调节机制的另一个重要发现是"时机"的重要性。研究显示，在训练的不同阶段应用温度调节会产生不同的效果。在训练初期，系统的基础能力尚未稳定，此时激进的温度调节可能会导致学习不稳定。而在训练中后期，当系统基础能力相对稳定时，适度提升温度反而能够有效防止思维僵化。

七、跨领域验证与普适性分析

为了验证M-STAR框架的普适性，研究团队进行了广泛的跨领域测试。他们选择了五个不同特色的多模态推理任务，每个任务都代表了不同的挑战类型。

首先是MathVista，这是一个综合性的数学视觉推理基准，包含了几何问题、图表分析、数学应用题等多种类型。在这个最具挑战性的测试中，M-STAR框架表现最为出色，三个测试模型的平均提升幅度都超过了5个百分点。这就像一个全能选手在综合性竞赛中展现出的优势。

接下来是M3CoT，专门测试多步骤推理能力。这类任务要求系统不仅要理解图像内容，还要进行多轮逻辑推理才能得出答案。M-STAR在这个测试中同样表现优异，证明了其在复杂推理链处理上的优势。

MMStar和MMBench则侧重于测试系统的综合理解和推理能力，涉及更多实际应用场景。在这两个测试中，M-STAR框架也取得了一致性的改进，显示出良好的实用性潜力。

最后是AI2D，这是一个专门针对科学图表理解的测试。这个测试要求系统能够理解复杂的科学示意图并回答相关问题。虽然在这个特定领域，M-STAR的提升幅度相对较小，但仍然保持了正向的改进趋势。

通过这些跨领域测试，研究团队发现了一个有趣的规律：M-STAR框架在需要复杂推理的任务上表现更加突出，而在主要依赖视觉感知的任务上提升相对有限。这个发现符合框架的设计初衷，因为M-STAR主要针对的就是推理能力的提升，而不是基础的视觉感知能力。

更深层的分析显示，不同规模的模型从M-STAR框架中获益的程度也不相同。较大的模型能够更好地利用框架提供的学习策略，而较小的模型由于基础能力限制，提升空间相对有限。这个现象提醒我们，任何训练方法都不是万能的，需要与模型的基础能力相匹配。

说到底，这项研究最大的价值不仅在于提出了一个有效的训练框架，更在于为AI自学习领域提供了系统性的方法论。研究团队通过严谨的实验设计和深入的机制分析，揭示了多模态AI系统自我进化过程中的关键规律。这些发现不仅对当前的研究有直接指导意义，也为未来更高级的AI自学习系统奠定了理论基础。

从更广阔的视角来看，这项研究代表了AI发展的一个重要趋势：从依赖外部标注数据的"被动学习"向自主探索知识的"主动学习"转变。就像人类从依赖老师教导逐渐发展出独立思考能力一样，AI系统也在朝着更加自主、更加智能的方向发展。M-STAR框架的成功证明，通过精心设计的自学机制，AI系统确实能够在有限的监督下实现能力的显著提升。

这种进步对普通人的生活可能带来深远影响。未来的AI助手可能会更加智能，不仅能够理解我们的语言指令，还能够"看懂"复杂的图表、图形和视觉信息，并基于这些信息进行深度分析和推理。无论是帮助学生解决数学几何题，还是协助专业人士分析复杂的技术图表，这样的AI系统都将大大提升我们的工作效率和生活质量。

当然，这项研究也提出了一些值得思考的问题。比如，随着AI系统自学能力的增强，我们如何确保它们学到的是正确的知识和推理方式？如何在提升AI自主性的同时保持人类的控制和监督？这些问题需要整个AI研究社区继续深入探索。

有兴趣深入了解这项研究细节的读者，可以通过论文编号arXiv:2412.17451v3查询完整的学术论文，其中包含了更详细的技术实现和实验数据。

Q&A

Q1：M-STAR框架是什么？

A：M-STAR是香港科技大学等机构开发的多模态自我进化推理训练框架。它就像为AI系统设计的智能学习系统，能让机器通过自学不断提升处理图像和推理的能力，而不依赖大量人工标注的训练数据。

Q2：为什么AI需要自我进化训练能力？

A：因为多模态推理需要同时处理图像和逻辑思维，但这类高质量训练数据非常稀缺。就像既会画画又会解数学题的全能老师很难找一样，让AI通过自学来突破数据瓶颈是解决这个问题的关键途径。

Q3：M-STAR框架的效果如何？

A：在多个测试中表现优异，比如在MathVista数学推理测试中，AI准确率从52.6%提升到59.5%。这种6-7个百分点的提升在AI研究中是相当显著的进步，相当于学生考试成绩有了质的飞跃。

多模态推理自我进化训练过程奖励模型

分享至