微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 阿里巴巴推出Ovis2.5:能看图思考的AI聊天机器人有了"火眼金睛"

阿里巴巴推出Ovis2.5:能看图思考的AI聊天机器人有了"火眼金睛"

2025-08-27 10:02
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-27 10:02 科技行者

这项由阿里巴巴集团的Ovis团队主导的研究发表于2025年8月,相关技术报告已在arXiv平台发布。感兴趣的读者可以通过Hugging Face模型库(https://huggingface.co/AIDC-AI/Ovis2.5-9B)或GitHub项目页面(https://github.com/AIDC-AI/Ovis)获取完整的技术细节和模型文件。

想象一下,如果AI助手不仅能理解你的话,还能像人类一样仔细观察图片,甚至能对复杂的图表进行深度思考和推理,那会是怎样的体验?阿里巴巴的研究团队刚刚实现了这个愿景,他们开发的Ovis2.5模型就像给AI装上了一双"火眼金睛",不仅能看懂各种图片,还能进行深度思考。

在AI发展的征途中,让机器理解视觉信息一直是个巨大挑战。就好比教一个盲人学会绘画一样困难。传统的AI视觉模型就像戴着度数不合适眼镜的人,看图片时要么只能看清楚局部细节,要么只能模糊地看到整体轮廓,很难同时兼顾。而且更重要的是,即使看懂了图片,AI往往只能给出直接的答案,缺乏像人类那样的深度思考过程。

Ovis2.5的出现就像为AI换上了一副完美的眼镜。与之前的AI视觉模型相比,它有两个革命性的突破。首先,它可以直接处理原始分辨率的图片,不需要像切西瓜一样把图片切成小块再拼接。这就好比一个人能够直接看清整幅画作,而不是只能通过放大镜一小块一小块地观察。其次,Ovis2.5还学会了"思考",遇到复杂问题时不会急于给出答案,而是会在内心进行反复推理,就像人类解决难题时的思维过程一样。

研究团队为Ovis2.5设计了一套完整的"学习课程",就像培养一个天才学生一样循序渐进。这个学习过程分为五个阶段,每个阶段都有明确的目标和方法。首先是基础视觉训练,让AI学会看懂各种图片;然后是多模态预训练,教会它如何将看到的内容与文字联系起来;接着是指令调优阶段,让AI学会按照人类的要求完成各种任务;随后通过偏好优化训练,让AI的回答更符合人类期望;最后通过强化学习,进一步提升AI的推理能力。

在这个训练过程中,研究团队特别注重培养AI的"思考能力"。他们为AI提供了大量包含思考过程的训练数据,就像给学生展示优秀的解题思路一样。这些数据不仅包含正确答案,更重要的是包含了到达答案的完整推理过程,包括自我检查和错误修正。通过这样的训练,AI学会了在遇到复杂问题时先进入"思考模式",在内心进行充分推理后再给出最终答案。

为了验证Ovis2.5的能力,研究团队设计了一系列严格的测试。在OpenCompass这个权威的多模态评测平台上,Ovis2.5-9B模型获得了78.3分的优异成绩,显著超越了之前的版本,也在同等参数规模的开源模型中创造了新的记录。Ovis2.5-2B虽然参数更少,但也达到了73.9分,证明了"小模型,大性能"的设计理念。

一、革命性的视觉处理技术

传统的AI视觉模型处理图片就像一个近视眼的人看画展,需要把大幅画作切成许多小块,然后逐一观察每个片段,最后再在脑海中拼接成完整图像。这种方式不仅效率低下,而且经常会遗漏重要的全局信息,就像只看到树木而忽略了整片森林。

Ovis2.5采用了一种全新的"原生分辨率视觉处理"技术,就像为AI配备了一副完美的眼镜,能够直接以图片的原始分辨率进行观察,无需进行任何裁剪或压缩。这种技术的核心是使用了原生分辨率视觉变换器(NaViT),它能够处理各种尺寸和比例的图片,就像人眼能够自然地观察不同大小的物体一样。

这种技术的优势在处理复杂图表时尤为明显。比如观察一张包含大量数据的财务报表或者科学图表时,传统方法可能会因为切割图片而破坏数据之间的关联性,就像把一张地图撕成碎片后再重组,很容易迷失方向。而Ovis2.5能够保持图表的完整结构,清晰地识别各个数据点之间的关系,准确理解图表所要表达的信息。

为了增强空间感知能力,研究团队还为视觉处理模块配备了旋转位置编码(RoPE)技术。这就像为AI的"眼睛"安装了精确的定位系统,使其能够准确理解图片中各个元素的空间位置关系。无论是判断物体的远近关系,还是分析图表中数据的分布趋势,这种技术都能提供关键的空间信息支持。

整个视觉处理系统基于先进的SigLIP模型进行初始化,这相当于为AI提供了一个良好的视觉基础。就像一个艺术学生在接受专业训练之前已经具备了基本的绘画技能一样,这种预训练为后续的学习奠定了坚实基础。

二、突破性的深度推理能力

如果说传统的AI就像一个只会背标准答案的学生,那么Ovis2.5就像一个真正会独立思考的学者。它最令人惊叹的特色就是具备了"思考模式",能够像人类一样进行深度推理和反思。

当面对复杂问题时,Ovis2.5不会急于给出答案,而是会启动内在的思考过程。这个过程被巧妙地设计为可见的思考标签,用户可以选择查看AI的完整推理过程,就像能够窥视一个天才学者的思维轨迹一样。在这个思考过程中,AI会进行多角度分析,提出不同的假设,甚至会自我质疑和纠错。

这种思考能力的培养并非一蹴而就。研究团队为AI准备了大量包含完整推理过程的训练数据,这些数据不仅展示了正确的答案,更重要的是展示了到达答案的思维路径。就像优秀的老师不仅要告诉学生答案是什么,更要教会学生如何思考一样。

特别值得一提的是,Ovis2.5学会了自我反思和错误修正。当它发现自己的初步推理可能存在问题时,会主动回过头重新审视,调整思路,就像一个负责任的学者会反复检查自己的研究结论一样。这种能力使得AI在处理复杂的数学问题、科学推理或者需要多步逻辑分析的任务时表现尤为出色。

用户可以根据具体需求选择是否启用思考模式。对于简单问题,可以关闭思考模式快速获得答案;而对于复杂问题,启用思考模式虽然会增加一些等待时间,但能获得更准确、更可靠的结果。这就像在速度和准确性之间提供了一个可调节的平衡点。

三、精心设计的五阶段训练体系

培养一个既能看懂图片又会深度思考的AI,就像培养一个全才学者一样需要系统性的教育。Ovis2.5的训练过程被精心设计为五个递进的阶段,每个阶段都有明确的学习目标和专门的训练方法。

第一阶段是视觉感知基础训练。在这个阶段,AI主要学习如何理解图片中的基本信息,就像教一个孩子认识各种物体一样。训练数据主要是图片和相应的文字描述,AI需要学会将看到的视觉内容转换为文字表达。为了确保学习的稳定性,研究团队采用了渐进式的训练策略,先处理较低分辨率的图片,逐步提升到更高分辨率。

第二阶段是多模态理解训练。这个阶段的目标是让AI学会将视觉信息与语言信息进行整合,就像教会一个学生不仅要能看懂图片,还要能用文字准确描述所看到的内容。训练内容扩展到包含文字识别、物体定位、图表分析等多种任务,训练数据也从简单的图片描述扩展到对话形式的问答。

第三阶段是指令理解和执行训练。在这个阶段,AI学会根据具体的指令完成各种复杂任务,就像训练一个助手能够理解并执行各种工作要求。训练内容涵盖了文本处理、多图片分析、视频理解等各个方面。特别重要的是,在这个阶段引入了包含思考过程的训练数据,开始培养AI的深度推理能力。

第四阶段是偏好对齐训练。这个阶段使用直接偏好优化(DPO)技术,让AI学会生成更符合人类期望的回答。训练方式类似于让AI在多个候选答案中学会选择最好的那个,就像培养一个编辑的审美判断能力一样。这个阶段特别注重提升AI在推理任务上的表现,通过对比不同质量的推理过程,让AI学会什么是优质的思考方式。

第五阶段是强化学习优化。在最后这个阶段,使用组相对策略优化(GRPO)技术进一步提升AI的推理能力。这个阶段专注于可验证的推理任务,通过奖励机制鼓励AI生成更准确的推理过程。为了保持之前阶段学到的通用能力,这个阶段只更新语言模型部分的参数,视觉处理部分保持不变。

四、卓越的性能表现

经过精心训练的Ovis2.5在各种测试中都表现出了令人印象深刻的能力。在权威的OpenCompass多模态评测平台上,Ovis2.5展现了全面而均衡的性能。这个评测平台就像是AI领域的"高考",从多个维度考察模型的综合能力。

在基础视觉理解方面,Ovis2.5表现稳健。无论是识别图片中的物体、理解场景内容,还是回答关于图片的各种问题,它都能给出准确而详细的答案。特别是在处理高分辨率图片时,它能够捕捉到许多细微的细节,就像一个观察力敏锐的侦探一样不放过任何线索。

在数学推理能力测试中,Ovis2.5的表现尤为突出。面对复杂的数学问题,它能够展现出完整的解题思路,不仅给出正确答案,还能清晰地说明每一步的推理过程。在MathVista测试中获得了83.4分的优异成绩,证明了其在视觉数学推理方面的强大能力。

文字识别和文档理解是Ovis2.5的另一个强项。无论是扫描的文档、手写的笔记,还是复杂的表格,它都能准确识别并理解其中的信息。在OCRBench测试中,它不仅超越了同类开源模型,甚至在某些方面超过了商业化的GPT-4o模型,显示出了在实用性方面的巨大优势。

在图表分析能力方面,Ovis2.5展现出了专业级的水准。面对复杂的统计图表、科学数据可视化或者商业报表,它能够准确理解数据之间的关系,识别趋势变化,甚至能够基于图表数据进行推理和预测。这种能力在ChartQA Pro测试中得到了充分验证,获得了63.8分的优秀成绩。

物体定位和空间推理也是Ovis2.5的优势领域。在RefCOCO系列测试中,它能够根据自然语言描述准确找到图片中的特定物体,平均准确率达到90.1分。这种能力不仅需要理解语言描述,还需要准确的空间感知,体现了多模态理解的真正融合。

五、实际应用的广阔前景

Ovis2.5的能力远不止停留在实验室的测试中,它在现实世界中有着广阔的应用前景。凭借其强大的视觉理解和推理能力,这个AI系统可以在许多领域发挥重要作用。

在教育领域,Ovis2.5可以成为一个智能的学习助手。学生遇到不懂的题目时,只需要拍一张照片,它就能提供详细的解题思路和步骤说明。特别是对于数学、物理等需要复杂推理的学科,它的思考模式能够帮助学生理解解题的逻辑过程,而不仅仅是得到答案。这就像有了一个永远不会疲倦、知识渊博的私人导师。

在医疗健康领域,Ovis2.5的图像分析能力可以协助医生进行诊断。它可以分析医学影像,识别异常区域,甚至可以解读复杂的检查报告。虽然不能替代专业医生的判断,但可以作为一个有力的辅助工具,提高诊断的效率和准确性。

商业分析是另一个重要的应用场景。面对复杂的财务报表、市场数据图表或者商业演示文档,Ovis2.5可以快速提取关键信息,分析趋势变化,甚至提供决策建议。这对于需要处理大量数据的商业分析师来说,无疑是一个强大的工具。

在日常生活中,Ovis2.5也能提供许多实用的帮助。比如识别菜谱上的文字并提供烹饪建议、分析家庭财务记录、帮助理解复杂的说明书或者合同条款等等。它就像一个博学的朋友,随时准备为你答疑解惑。

对于残障人士来说,Ovis2.5更是一个贴心的助手。视力受损的用户可以通过它来"看懂"各种图片和文档,获得详细的描述和解释。这种无障碍的技术应用体现了AI技术的人文关怀。

六、技术创新的深层意义

Ovis2.5的技术突破不仅仅是性能数据的提升,更代表了人工智能发展的一个重要里程碑。它展示了AI系统如何能够更接近人类的认知方式,具备视觉理解和逻辑推理的综合能力。

原生分辨率处理技术的应用代表了视觉AI的一个重要发展方向。传统的固定分辨率处理方式就像戴着有色眼镜看世界,总会有信息的损失或扭曲。而原生分辨率处理则让AI能够以最原始、最真实的方式感知视觉世界,这为更精确的视觉理解奠定了基础。

思考模式的引入则代表了AI推理能力的重大进步。以往的AI系统往往是"黑盒子",用户只能看到输入和输出,无法了解其内部的推理过程。Ovis2.5的思考模式让这个"黑盒子"变得透明,用户可以理解AI的思考轨迹,这不仅提高了结果的可信度,也为AI的进一步改进提供了方向。

多阶段训练体系的设计体现了AI教育的科学性。就像培养人才需要循序渐进一样,AI的训练也需要有层次、有计划的安排。这种系统性的训练方法不仅提高了训练效率,也确保了AI能力的全面发展。

高效的训练基础设施也是这项研究的重要贡献。通过数据打包和混合并行技术,训练速度提升了3-4倍,这意味着类似的AI系统可以更快速、更经济地进行开发和部署。

说到底,Ovis2.5的意义远超一个简单的技术产品。它展现了AI技术如何能够真正理解和处理复杂的现实世界信息,如何能够进行类人的推理和思考。这种能力的实现不仅推动了学术研究的边界,更为AI技术在各个领域的广泛应用铺平了道路。

对于普通用户而言,Ovis2.5代表着一个更智能、更可靠的AI助手即将走入我们的生活。它不再是简单的问答工具,而是一个能够深度理解、独立思考的智能伙伴。随着技术的不断完善和优化,我们有理由期待AI将在更多场景下为人类提供有价值的帮助。

当然,任何技术都有其局限性和发展空间。研究团队也坦诚地指出了未来的改进方向,包括支持4K级别的超高分辨率图像处理、处理更长时间的视频内容、以及集成更多实用工具等。这种开放和诚实的态度体现了科学研究的严谨性,也为后续的技术发展指明了方向。

总的来说,阿里巴巴团队的这项研究不仅为我们带来了一个功能强大的AI模型,更为整个AI领域的发展贡献了宝贵的经验和方法。随着Ovis2.5等先进AI系统的不断涌现,我们正在见证人工智能从实验室走向现实生活的历史性转变。有兴趣深入了解技术细节的读者,可以通过前文提到的官方链接获取完整的研究资料和模型文件,亲自体验这项令人兴奋的技术创新。

Q&A

Q1:Ovis2.5相比传统AI视觉模型有什么突破性改进?

A:Ovis2.5最大的突破是采用了原生分辨率处理技术,能够直接处理各种尺寸的原始图片,不需要切割或压缩,就像为AI配了一副完美眼镜。同时它还具备思考模式,遇到复杂问题时会进行深度推理和自我检查,而不是急于给出答案。

Q2:Ovis2.5的思考模式是如何工作的?

A:思考模式让AI在回答问题前进行内在推理,用户可以选择查看完整的思考过程。AI会多角度分析问题,提出假设,甚至自我质疑和纠错,就像人类学者的思维轨迹。用户可根据需求选择开启或关闭这个模式,在速度和准确性之间找到平衡。

Q3:普通人可以在哪些场景使用Ovis2.5?

A:Ovis2.5可以作为学习助手帮助解题和理解复杂概念,协助分析各种图表和文档,识别图片中的文字内容,解读说明书或合同条款等。对视力受损用户来说更是贴心助手,能详细描述各种图片和文档内容,在教育、医疗、商业分析等多个领域都有广泛应用前景。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-