这项由阿里巴巴达摩院联合南洋理工大学的陈桂珍、徐维文、张浩、陈厚鹏、赵德利、刘安端、荣宇等研究人员完成的重要研究,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.17437v1),为解决人工智能在视觉几何推理方面的根本性缺陷提供了突破性方案。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。
当我们看到一个几何图形时,比如一个三角形被旋转了60度,我们的大脑几乎瞬间就能理解这个变化。但对于目前最先进的AI视觉模型来说,这样看似简单的任务却困难重重。就像一个近视眼的学生试图解答几何题,如果连基本的图形都看不清楚,又怎么可能做出正确的推理呢?
研究团队发现了一个令人惊讶的现象:即使是最先进的多模态大语言模型,在处理几何推理任务时经常出现严重的"视觉理解障碍"。这些AI模型就像戴着一副度数不合适的眼镜,经常把简单的几何关系看错,导致后续的逻辑推理全盘皆错。
为了量化这个问题的严重程度,研究团队精心设计了一套名为GeoPQA(几何感知问答)的测试基准。这套测试就像给AI做"视力检查",专门检验它们能否准确识别基本的几何概念和空间关系。测试结果令人震惊:即使是GPT-4o这样的顶级AI模型,在这些基本视觉理解任务上的准确率也只有80%左右,而普通人类可以轻松达到90%以上的准确率。
面对这个根本性问题,研究团队提出了一个创新的解决方案:分阶段训练框架。这个方法就像教孩子学数学一样,不能一上来就让他们解复杂的应用题,而是要先确保他们能准确识别数字和基本运算符号。研究团队将AI的学习过程分为两个阶段:第一阶段专门强化视觉感知能力,第二阶段再进行复杂推理训练。
一、视觉感知是推理的基石
在深入探讨解决方案之前,我们需要理解为什么视觉感知对AI推理如此重要。可以把AI的推理过程想象成一个侦探破案的过程。侦探要想破案,首先必须能够准确观察和收集现场的各种线索。如果侦探连基本的物证都看错了,比如把刀伤看成枪伤,那么后续的推理分析必然会走向错误的方向。
对于AI来说也是如此。当面对一个几何问题时,AI首先需要准确"看懂"图形中的各种元素:哪些是直线,哪些是曲线,角度的大小关系,图形之间的位置关系等等。只有在准确感知这些基础信息的前提下,AI才能进行正确的逻辑推理。
研究团队通过大量实验发现,目前的AI模型在这个基础环节就存在严重缺陷。它们经常把平行线看成相交线,把直角看成锐角,把圆形看成椭圆。这些看似微小的感知错误,会像多米诺骨牌一样引发连锁反应,导致整个推理过程崩溃。
更令人担忧的是,当研究人员尝试直接对这些AI模型进行推理训练时,发现效果非常有限,有时甚至会让模型的表现变得更差。这就像试图教一个视力有问题的学生解几何题,如果不先解决视力问题,再多的练习也无济于事。
这个发现揭示了一个重要的训练原则:AI的能力提升必须建立在坚实的感知基础之上。强化学习虽然是提升AI推理能力的有效方法,但它的效果会被底层的感知能力所限制。如果感知能力不足,AI就无法获得准确的反馈信号,训练效果自然大打折扣。
二、构建专门的视觉感知训练体系
认识到问题的根源后,研究团队着手构建一套专门针对几何视觉感知的训练体系。这个过程就像为AI量身定制一套"视力矫正训练课程"。
首先,研究团队需要创建大量高质量的感知训练数据。他们采用了两种互补的方法来生成这些数据。第一种方法是利用现有的几何图形数据集,通过先进的AI助手生成针对性的感知问题。这些问题专门测试AI对基本几何元素的识别能力,比如"这个图形中有几个三角形?"、"角ABC是直角吗?"、"直线DE与圆形相切吗?"等等。
第二种方法是合成生成几何图形。研究团队开发了一套自动化的图形生成系统,能够创造出各种复杂度的几何图形,从简单的基本形状到复杂的组合图形。这些合成图形的优势在于可以精确控制其几何属性,确保训练数据的准确性和多样性。
为了保证训练数据的质量,研究团队还建立了严格的质量控制流程。他们使用GPT-4o作为"质检员",自动筛选出那些图形信息不清晰或答案有争议的问题。经过人工抽样验证,最终数据集的准确率达到了92%。
在训练方式上,研究团队采用了一种创新的"多问题联合训练"方法。传统的训练方式是针对每个图形只问一个问题,但研究团队发现,如果针对同一个图形同时提出多个相关问题,可以迫使AI更全面、更深入地理解图形的各个方面。这就像让学生不仅要识别一个几何图形是什么,还要说出它的各种属性和关系,从而确保理解的全面性。
这种训练方式虽然更加严格(只有当AI正确回答了一个图形的所有问题时才能获得奖励),但实验证明它能显著提升AI在后续推理任务中的表现。这说明了一个重要道理:基础训练的严格程度直接影响高级能力的发展水平。
三、从感知到推理的渐进式学习
在完成第一阶段的感知能力强化后,AI模型就像戴上了一副合适的眼镜,能够清晰地"看见"几何图形中的各种细节。接下来的第二阶段,就是在这个坚实的视觉基础上进行复杂推理能力的训练。
第二阶段的训练就像教会了基本观察技能的侦探学习高级破案技巧。此时的AI已经能够准确识别几何图形中的各种元素和关系,现在需要学习的是如何将这些信息组合起来,进行多步骤的逻辑推理。
研究团队在这个阶段使用了标准的几何推理数据集,包含各种复杂的几何问题。这些问题通常需要多个推理步骤才能解决,比如先识别图形的基本属性,然后应用几何定理,最后计算出答案。
有趣的是,研究团队发现,经过第一阶段感知训练的AI模型在第二阶段的学习效率明显更高。这就像一个视力良好的学生在学习几何时会比视力有问题的学生进步更快一样。准确的视觉感知为后续的推理学习提供了可靠的基础。
为了验证这种分阶段训练方法的有效性,研究团队设计了多组对比实验。他们比较了三种不同的训练策略:直接进行推理训练、将感知和推理数据混合训练、以及先感知后推理的分阶段训练。
实验结果清晰地显示了分阶段训练的优势。在几何推理任务上,分阶段训练的AI模型比直接推理训练的模型准确率提高了9.7%,比混合训练的模型也有显著提升。这个结果有力地证明了"先打好基础再建高楼"这一训练理念的正确性。
更重要的是,研究团队发现,如果跳过感知训练直接进行推理训练,AI模型的表现甚至会比基础模型更差。这个现象说明了一个重要问题:在感知能力不足的情况下,强行进行推理训练可能会让AI学到错误的模式,反而损害其整体能力。
四、突破性成果与广泛验证
经过两阶段训练的AI模型在各项测试中都展现出了显著的性能提升。在MathVista这个权威的数学视觉推理基准测试中,研究团队的方法取得了令人瞩目的成果。
具体来说,在几何推理任务上,经过两阶段训练的Qwen2.5-VL-3B模型达到了72.0%的准确率,比原始模型提升了8.8个百分点,比直接推理训练提升了9.7个百分点。在几何问题求解任务上,准确率达到了72.1%,同样有显著提升。
这些数字背后的意义远比表面看起来更重要。要知道,这个3B参数的小模型经过优化后,其表现已经接近了GPT-4o这样的顶级商业模型(GPT-4o在相同任务上的准确率为74.1%和75.0%)。考虑到模型规模的巨大差异,这个成果可以说是相当惊人的。
为了进一步验证方法的有效性,研究团队还在7B参数的更大模型上进行了实验。结果显示,即使是能力更强的大模型,也能从这种分阶段训练中获得显著收益。7B模型在几何推理任务上达到了76.2%的准确率,在几何问题求解任务上达到了79.8%的准确率,甚至超越了GPT-4o的表现。
这个结果证明了一个重要观点:无论AI模型的规模多大,基础感知能力的重要性都不容忽视。即使是最先进的大模型,如果在基础感知环节存在缺陷,其推理能力也会受到限制。
研究团队还深入分析了不同视觉强度任务上的表现差异。他们将测试任务按照对视觉信息的依赖程度分为五个等级:文本主导、文本精简、视觉密集、视觉主导和纯视觉。结果发现,在视觉依赖程度越高的任务上,两阶段训练方法的优势越明显。特别是在纯视觉任务上,这种方法的效果最为突出。
这个发现进一步证实了研究的核心观点:视觉感知能力是AI进行有效推理的前提条件。当任务更多依赖视觉信息时,感知能力的重要性就更加凸显。
五、方法的普适性与未来应用
研究团队并没有止步于几何推理领域,他们进一步探索了这种分阶段训练方法在其他视觉密集型任务中的应用效果。结果显示,这种"感知优先"的训练理念具有很强的普适性。
在图表问答任务中,经过感知强化训练的AI模型准确率提升了1.5%。在教科书问答任务中,提升幅度达到了2.6%。在科学推理任务中,也有2.5%的显著提升。这些结果表明,强化基础视觉感知能力对各种需要视觉理解的任务都有积极作用。
当然,研究团队也诚实地报告了方法的局限性。在一些主要依赖文本信息或需要不同类型视觉理解的任务中,几何感知训练的效果有限,甚至可能略有负面影响。比如在数值常识任务中,准确率下降了2.8%,在数学文字题中下降了1.1%。
这个现象其实很好理解,就像专门训练识别几何图形的人在识别人脸或风景照片时可能不会有明显优势一样。不同类型的视觉任务需要不同的感知技能,针对性的训练在相关领域效果最佳。
不过,这个发现也为未来的研究指明了方向。研究团队认为,可以针对不同类型的视觉任务开发相应的感知训练模块,构建更加全面的视觉理解能力。这就像为AI配备一套完整的"视觉工具箱",让它能够应对各种不同的视觉挑战。
研究团队还探讨了这种方法与最新的"视觉思维"技术的结合可能性。随着AI技术的快速发展,让AI在推理过程中生成和分析视觉内容已经成为一个新的研究热点。研究团队认为,强化的视觉感知能力将为这些先进技术提供更坚实的基础。
六、技术实现的精巧设计
在技术实现层面,这项研究展现了许多精巧的设计思路。整个训练框架基于强化学习技术,但在具体实施上有许多创新之处。
在第一阶段的感知训练中,研究团队设计了一套严格的奖励机制。AI模型只有在正确回答一个图形相关的所有问题时才能获得正面奖励,这种"全对才给分"的严格标准迫使模型更加仔细地学习视觉感知技能。虽然这种训练方式更加困难,但实验证明它能产生更好的长期效果。
为了防止AI模型学会"投机取巧"(比如总是回答"是"来获得奖励),研究团队还特意平衡了训练数据中正面和负面答案的比例。这种细致的数据处理确保了训练的公平性和有效性。
在评估环节,研究团队使用了GPT-4o-mini作为自动评判员来判断AI回答的正确性。这种做法既保证了评估的一致性,又大大提高了实验的效率。虽然依赖外部AI进行评估会增加一些成本,但研究团队认为这是确保实验质量的必要投入。
研究团队还仔细调整了训练的各种超参数,包括学习率、批次大小、训练轮数等。这些看似技术性的细节实际上对最终效果有重要影响。通过大量的实验调优,研究团队找到了最适合这种分阶段训练的参数配置。
值得一提的是,整个训练过程都是在相对较小的计算资源上完成的。研究团队主要使用了3B和7B参数的模型,这些模型的计算需求远低于动辄数百亿参数的超大模型。这个特点使得这种方法具有很好的实用性,即使是资源有限的研究团队也能够复现和应用这些技术。
七、对AI发展的深远影响
这项研究的意义远远超出了几何推理这个具体领域。它揭示了AI能力发展中一个根本性的问题:基础能力与高级能力之间的关系。
传统的AI训练往往追求在复杂任务上的直接突破,但这项研究表明,有时候"退一步"专注于基础能力的提升,反而能带来更大的整体进步。这个发现对整个AI领域都有重要的启示意义。
在多模态AI的发展中,视觉理解能力一直是一个关键瓶颈。虽然现在的AI模型在文本理解方面已经达到了很高的水平,但在视觉理解方面仍然存在明显不足。这项研究提供了一个系统性的解决思路,不仅适用于几何推理,也可能适用于其他视觉密集型任务。
从更广阔的角度来看,这种分阶段训练的理念也符合人类学习的基本规律。人类在学习复杂技能时,通常也是先掌握基础技能,再逐步发展高级能力。这项研究在某种程度上让AI的学习过程更加接近人类的自然学习方式。
研究团队在论文中也坦诚地讨论了当前方法的局限性。比如,依赖外部AI进行评估会增加训练成本和时间。针对这个问题,未来的研究可能会开发更加高效的自动评估方法,或者设计不需要复杂评估的训练框架。
另一个值得关注的方向是如何将这种方法扩展到更多类型的视觉任务。目前的研究主要专注于几何图形,但现实世界中的视觉任务要复杂得多。如何设计针对不同视觉任务的感知训练模块,将是一个有趣的研究方向。
说到底,这项研究最大的价值在于它提醒我们:在追求AI能力突破的过程中,不能忽视基础能力的重要性。就像建造摩天大楼需要坚实的地基一样,AI的高级推理能力也需要可靠的感知基础来支撑。
这个发现对于AI技术的实际应用也有重要意义。在部署AI系统时,我们不仅要关注它在复杂任务上的表现,也要确保它在基础感知任务上的可靠性。只有这样,AI系统才能在现实世界中发挥稳定可靠的作用。
随着AI技术的不断发展,我们有理由相信,这种"感知优先"的训练理念将在更多领域得到应用和发展。未来的AI系统将不仅在推理能力上更加强大,在基础感知能力上也会更加可靠,从而为人类社会带来更大的价值。
Q&A
Q1:GeoPQA测试基准是什么?它如何检验AI的视觉能力?
A:GeoPQA是研究团队设计的几何感知问答测试,专门检验AI能否准确识别基本几何概念和空间关系。就像给AI做"视力检查",通过询问"这个图形中有几个三角形?"、"角ABC是直角吗?"等问题,测试AI的基础视觉理解能力。测试结果显示,即使是GPT-4o这样的顶级模型准确率也只有80%左右,而人类可以轻松达到90%以上。
Q2:为什么分阶段训练比直接推理训练效果更好?
A:就像教孩子学数学不能直接让他们解复杂应用题一样,AI也需要先打好基础。研究发现,如果AI连基本的几何图形都看不准确,强行进行推理训练反而会让模型学到错误模式,表现变得更差。分阶段训练先让AI学会准确"看懂"几何图形,再进行推理训练,结果在几何推理任务上准确率提升了9.7%。
Q3:这种训练方法能应用到其他AI任务吗?
A:研究显示这种"感知优先"的方法具有一定普适性。在图表问答、教科书问答、科学推理等视觉密集型任务中都有1.5%-2.6%的性能提升。但在主要依赖文本或需要不同视觉技能的任务中效果有限,甚至可能略有负面影响。这说明针对不同类型任务需要开发相应的感知训练模块。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。