
由SenseTime研究院、清华大学以及中科大联合开展的一项突破性人工智能研究在2025年1月1日发表。这项名为"SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning"的研究,开发出了一个真正意义上的"全能AI助手"——SenseNova-MARS。有兴趣深入了解的读者可以通过arXiv:2512.24330v1查询完整论文。
设想一下这样的场景:你给AI看一张赛车手的照片,问它"照片中车手衣服上的那个小标志代表的公司成立年份,和这位车手的出生年份相差多少年?"普通AI可能会被这个问题难住,因为它需要先识别出那个小标志是什么公司,然后搜索该公司的成立时间,接着识别出车手是谁,再搜索车手的出生年份,最后进行计算。这就像让一个人同时扮演侦探、图书管理员和数学家的角色。
现在的AI就像是一个博学但有些刻板的助手。它们要么只能回答已知的问题,要么只会机械地使用单一工具。当遇到需要多种技能配合的复杂任务时,它们往往显得力不从心。这就好比让一个只会查字典的人去完成一项需要同时使用望远镜、计算器和地图的探险任务。
SenseTime研究团队意识到了这个问题的关键所在:真正智能的助手应该像一个经验丰富的研究员一样,不仅知道使用各种工具,更重要的是知道何时使用哪种工具,以及如何将不同工具的结果有机结合起来。他们开发的SenseNova-MARS系统,就像训练了一个能够独立思考、自主决策的数字侦探。
这个"数字侦探"有三项核心技能:首先是"图像搜索",就像拥有一个能够识别任何物品的百科全书;其次是"文本搜索",相当于能够瞬间查阅全世界图书馆的能力;最后是"图像裁剪",就像拥有一台超级放大镜,能够仔细观察图片中的每一个细节。更了不起的是,这个AI知道在什么情况下应该使用哪种技能,并且能够将多种技能的结果巧妙地组合起来。
研究团队采用了一种叫做"强化学习"的训练方法,这种方法就像训练一个孩子学会骑自行车。系统在不断尝试和犯错的过程中,逐渐学会了如何更好地协调各种工具。当AI做出正确的决策时,它会得到奖励;当决策错误时,它会从失败中学习。经过无数次这样的训练,SenseNova-MARS最终学会了像人类专家一样思考和行动。
为了确保AI能够稳定地学习,研究团队还开发了一种特殊的训练技术,叫做"批量标准化组序列策略优化"。听起来很复杂,但其实就像为学习过程添加了一个"稳定器"。就好比在孩子学骑车时安装辅助轮,确保学习过程更加平稳有效。
### 一、三合一的超级工具箱
SenseNova-MARS的核心创新在于它同时掌握了三种截然不同但又相互补充的技能。这就像培养了一个既是艺术鉴赏家、又是调研专家、还是细节观察师的全能助手。
第一项技能是图像搜索能力。当AI看到一张图片时,它能够像经验丰富的艺术品鉴定师一样,瞬间识别出图片中的物体、人物或场景,并在全球范围内搜索相关的图片信息。比如,当它看到一辆汽车时,不仅能识别出这是什么品牌和型号,还能找到关于这辆车的详细资料、历史背景,甚至相关的新闻报道。
第二项技能是文本搜索功能。这就像拥有了一个无所不知的研究助理,能够在海量的文字信息中快速找到所需的确切答案。无论是历史事件、科学数据,还是最新的新闻资讯,AI都能精准地搜索并提取有用信息。
第三项技能是图像裁剪分析。这个功能就像给AI配备了一台超级显微镜,让它能够聚焦于图片的特定区域进行深度分析。在处理高分辨率图像时,这个功能尤其重要。比如,在一张大型体育赛事的照片中,AI可以精确地裁剪出观众席上某个特定区域,然后仔细分析那里的细节信息。
真正的突破在于,SenseNova-MARS不是简单地拥有这些工具,而是学会了如何智能地组合使用它们。就像一个经验丰富的厨师,不仅知道每种调料的作用,更知道在什么时候、用什么顺序来搭配这些调料,才能做出最美味的菜肴。
在面对复杂问题时,AI会先分析任务的性质,然后制定一个多步骤的解决方案。例如,在回答开头提到的赛车手问题时,它首先识别出需要仔细观察照片中的小标志,于是使用图像裁剪功能放大相关区域。接着,它发现标志显示的是某个公司名称,便使用文本搜索查找该公司的成立时间。然后,它需要识别赛车手的身份,于是使用图像搜索功能。最后,再次进行文本搜索来查找车手的出生年份,并进行数学计算得出最终答案。
这种多工具协作的能力使得SenseNova-MARS能够处理以前AI无法解决的复杂视觉推理任务,特别是那些需要外部知识补充和精细视觉分析的问题。
### 二、渐进式学习的训练秘诀
培养这样一个全能AI助手并非一蹴而就,研究团队采用了一种类似于人类学习过程的两阶段训练方法。这个过程就像先教孩子基本的读写能力,然后再让他们学习复杂的推理和创造性思考。
第一个阶段被称为"冷启动监督学习"。在这个阶段,研究人员精心准备了大约3000个高质量的示例,就像为初学者准备的优质教科书。这些示例涵盖了各种类型的问题和相应的解决步骤,展示了如何正确使用不同的工具组合。AI在这个阶段就像一个认真的学生,通过模仿这些优秀的示例来学习基本的工具使用技巧。
研究团队特别注重数据质量而非数量。他们从多个知名数据集中筛选出最具挑战性的问题,然后请专业的AI模型生成解决方案,最后由人类专家进行质量检验。这个过程就像制作一本精品料理书,每一道菜谱都经过大师级厨师的精心调试和验证。
第二个阶段是强化学习训练。如果说第一阶段是照本宣科的学习,那么第二阶段就是让AI学会独立思考和创新。在这个阶段,AI需要在没有标准答案的情况下,自主探索如何更好地解决问题。
强化学习的过程就像训练一个年轻的侦探。AI被给予各种案例,需要自己制定调查计划、选择合适的工具、分析收集到的信息,并得出结论。每当AI的推理过程合理、答案正确时,它就会获得奖励;当出现错误时,它会从中学习并调整策略。经过大量这样的训练,AI逐渐形成了自己的"直觉"和"经验"。
为了确保学习过程的稳定性,研究团队开发了一种特殊的训练算法,称为"批量标准化组序列策略优化"。这个技术解决了一个重要问题:在处理不同类型和难度的任务时,如何保持学习的一致性和稳定性。
想象一下,如果你在学习过程中,有时面对简单的加法题,有时面对复杂的微积分问题,你的学习节奏和策略必然需要调整。同样,AI在处理简单的图片识别任务和复杂的多步推理任务时,也需要不同的策略。新算法就像一个智能的学习调节器,确保AI在面对各种难度的任务时都能保持最佳的学习状态。
这种两阶段训练方法的效果非常显著。经过训练的SenseNova-MARS不仅学会了如何使用各种工具,更重要的是培养了优秀的"工具使用直觉"——知道在什么情况下应该使用哪些工具,以及如何将不同工具的结果有机结合起来。
### 三、专门为高难度视觉推理设计的测试场地
为了全面评估SenseNova-MARS的能力,研究团队不仅在现有的标准测试中验证其性能,还专门创建了一个全新的测试平台——HR-MMSearch。这个测试平台就像为顶级运动员设计的奥林匹克竞技场,专门用来检验AI在最具挑战性的视觉推理任务中的表现。
HR-MMSearch的设计理念源于现实世界的一个重要观察:许多现有的AI测试都使用相对简单的图片和问题,就像让专业马拉松选手在400米跑道上展示实力一样,无法真正考验其极限能力。真实世界中的视觉推理任务往往涉及高分辨率图像中的细微细节,需要AI具备像福尔摩斯一样的观察力和推理能力。
这个新测试平台包含305张精心挑选的4K高分辨率图像,每一张都来自2025年的最新事件和场景。选择最新图像的原因很巧妙:确保AI无法依赖之前训练时记住的信息来"作弊",必须真正使用其推理和搜索能力来解决问题。就像考试时使用全新的试题,而不是让学生背诵题库中的标准答案。
测试中的问题设计得极具挑战性。每个问题都专门针对图片中占据不到5%面积的小细节或文字信息,这就像要求侦探在一张拥挤的街道照片中找出某个路人手中报纸上的特定新闻标题。这种设计确保AI必须使用其图像裁剪功能来进行精细分析,同时结合搜索功能来获取相关背景信息。
测试涵盖了八个不同的领域:体育、娱乐文化、科学技术、商业金融、游戏、学术研究、地理旅行等。每个领域都有其独特的挑战。体育类图片可能需要识别运动员身上的赞助商标志,娱乐类图片可能涉及电影海报中的小字信息,科学技术类图片可能包含设备上的型号标识等。
为了确保测试的公平性和准确性,每一个问题都经过了严格的人工验证过程。研究团队首先邀请具有学士学位的专业人员进行图片标注和问题设计,然后由具有硕士及以上学位的专家进行二次验证,确保答案的准确性和问题的合理性。
特别有趣的是,研究团队还设计了一套难度评级系统。他们使用一个代表性的AI模型来尝试解答所有问题,根据AI的表现将问题分为"简单"和"困难"两类。一般来说,需要使用三种或更多工具才能解决的问题被归类为困难问题,这类问题大约占总数的60%。
在HR-MMSearch测试中,SenseNova-MARS展现出了令人印象深刻的性能。它不仅能够处理需要精细视觉分析的任务,还能在这些任务中灵活运用搜索功能获取必要的背景知识。更重要的是,它学会了根据任务的具体需求来调整自己的工具使用策略。
### 四、超越专业模型的惊艳表现
当SenseNova-MARS接受各种测试时,它的表现就像一个全能运动员在奥运会上大放异彩,不仅在自己的强项中表现出色,在其他项目中也展现出了惊人的适应能力。
在搜索导向的任务测试中,SenseNova-MARS-8B在MMSearch基准测试中达到了67.84分,在新创建的HR-MMSearch测试中达到了41.64分。这些数字看似抽象,但它们代表的意义非同小可。要知道,这些分数超越了许多知名的商业AI产品,包括Google的Gemini-3-Flash和OpenAI的GPT-5等明星产品。
更令人瞩目的是,SenseNova-MARS在需要精细视觉分析的任务中也表现卓越。在V*基准测试中,它达到了92.2分,在HR-Bench 4K测试中取得83.1分,在HR-Bench 8K测试中获得78.4分。这就像一个原本专长推理的数学家,同时也在艺术鉴赏方面展现出了专业水准。
这些成绩的获得并非偶然。研究团队发现,SenseNova-MARS展现出了一种类似人类专家的"任务适应智能"。面对不同类型的挑战时,它会自动调整自己的工具使用策略。
当处理知识密集型的搜索任务时,如MMSearch测试中的问题,SenseNova-MARS主要依赖图像搜索和文本搜索功能,很少使用图像裁剪功能。这种策略选择非常合理,因为这类任务的关键在于快速获取相关的背景信息,而不是进行精细的视觉分析。
相反,在处理高分辨率图像中的细节识别任务时,如V*基准测试,它几乎完全依赖图像裁剪功能,通过逐步放大和分析图像的特定区域来找到答案。这种行为模式与专业的图像分析师的工作方式非常相似。
最有趣的是它在HR-MMSearch测试中的表现。这个测试既需要精细的视觉分析,也需要外部知识搜索,SenseNova-MARS展现出了真正的"多工具协作智能"。它学会了灵活地在三种工具之间切换,根据问题的具体需求制定最优的解决策略。
研究团队还发现了一个重要现象:随着强化学习训练的深入,SenseNova-MARS的工具使用效率显著提升。在训练初期,它可能会使用4个左右的工具调用来解决一个问题,经常出现重复或不必要的操作。经过充分训练后,它将平均工具使用次数降低到约2次,同时准确率反而提升了。这说明AI不仅学会了使用工具,更学会了高效地使用工具。
与其他专业模型的对比结果也很有启发性。一些专门针对搜索任务设计的模型,如MMSearch-R1,虽然在搜索任务中表现不错,但在需要精细视觉分析的任务中就相形见绌。而一些专注于图像分析的模型,如DeepEyes系列,则在需要外部知识的搜索任务中表现平平。SenseNova-MARS的价值就在于它成功地融合了这些不同的能力,成为了一个真正的多面手。
### 五、核心技术创新的深度解析
SenseNova-MARS的成功不是偶然的,它背后蕴含着几项关键的技术创新,这些创新就像精密机械表中的各个齿轮,相互配合才能驱动整个系统的完美运转。
最重要的创新是"批量标准化组序列策略优化"算法的开发。这个名字听起来很技术化,但它解决的问题却很容易理解。设想你在教一群学习能力和背景都不同的学生,有些学生擅长数学,有些擅长语言,有些反应快,有些需要更多时间思考。如果用同一套教学方法,效果必然参差不齐。
传统的AI训练方法就面临类似的问题。当AI处理不同类型的任务时——比如有时需要分析简单的物品识别,有时需要进行复杂的多步推理——训练过程会变得不稳定,就像用同一个教学进度表来教授小学数学和高等微积分一样不切实际。
新算法通过引入两层标准化机制来解决这个问题。第一层标准化确保同一类型的任务能够被一致地处理,第二层标准化则确保不同类型任务之间的训练保持平衡。这就像为不同类型的学生设计了个性化的学习节奏,同时又保证整体教学目标的一致性。
另一个重要创新是多模态奖励机制的设计。在强化学习过程中,如何评判AI的表现好坏是一个关键问题。研究团队设计了一个包含两个方面的评判标准:一是答案的准确性,二是推理过程的规范性。
答案准确性容易理解,就像考试中判断答案对错一样。但推理过程的规范性更加微妙,它要求AI不仅要得出正确答案,还要遵循合理的思考步骤。比如,在进行图像分析时,AI必须先进行必要的推理,然后选择适当的工具,最后给出答案。如果AI跳过思考直接给答案,即使答案碰巧正确,也不会获得最高评价。
这种设计鼓励AI形成良好的"思维习惯",就像培养学生不仅要答对题目,还要展示完整的解题过程一样。这确保了AI不是在"背答案",而是真正学会了推理。
数据构建策略也体现了研究团队的深度思考。他们没有简单地收集大量数据,而是采用了"少而精"的原则。在冷启动阶段,只使用了约3000个精心制作的训练样本,但每一个样本都经过了严格的质量控制。
这些训练样本的制作过程就像编写高质量的教学案例。研究团队首先筛选出具有挑战性的问题,然后使用先进的AI模型生成初步的解决方案,最后由人类专家进行检查和优化。这个过程确保每个训练样本都是"教学典范",能够有效地传授正确的推理模式。
在强化学习阶段,数据策略又有所不同。研究团队使用了更大规模但质量要求相对较低的数据集,这就像让学生在掌握基础知识后进行大量的实践练习。通过处理各种类型和难度的问题,AI逐渐提升了自己的泛化能力和适应性。
工具集成的架构设计也很巧妙。三种工具(图像搜索、文本搜索、图像裁剪)在技术上是独立的模块,但在AI的"大脑"中被统一调度。这种设计既保证了各个工具的专业性,又实现了它们之间的无缝协作。
比如,当AI决定使用图像裁剪功能时,它需要精确地指定裁剪区域的坐标。这个过程需要AI具备精确的空间推理能力,能够理解图像的布局和目标区域的位置。当使用搜索功能时,AI需要生成有效的搜索查询,这要求它能够从视觉信息中提取关键的语义概念。
所有这些技术创新相互配合,最终造就了SenseNova-MARS这样一个能够像人类专家一样思考和行动的AI系统。
说到底,SenseNova-MARS的成功为我们展示了AI发展的一个重要方向:从单一功能的专用工具,向具备多种技能并能灵活运用这些技能的通用智能助手演进。这个系统不仅在技术上取得了突破,更重要的是它展示了AI如何能够更好地服务于人类的复杂需求。
当我们面对需要综合运用多种能力的复杂任务时,SenseNova-MARS就像一个经验丰富的研究助手,能够独立思考、制定策略、使用合适的工具,并最终提供有价值的答案。这种能力在教育、科研、新闻调查、市场分析等许多领域都有巨大的应用潜力。
更令人兴奋的是,这项研究为AI的进一步发展指明了方向。未来的AI助手可能会掌握更多种类的工具和技能,能够处理更加复杂和多样化的任务。同时,通过改进训练方法和算法设计,这些AI助手将变得更加智能、高效和可靠。
虽然当前的SenseNova-MARS还有一些局限性,比如在处理某些特别复杂的推理任务时可能还需要改进,但它已经为我们描绘了一个令人向往的未来图景:AI不再只是被动地回答问题,而是能够主动地理解需求、制定计划、执行任务,真正成为人类的智能伙伴。研究团队承诺将开放所有的代码、模型和数据集,这意味着更多的研究者和开发者能够在这个基础上继续创新,推动整个领域的发展。这项研究的影响还远未结束,它可能会催生出更多令人惊喜的AI应用和技术突破。
Q&A
Q1:SenseNova-MARS和普通AI助手有什么区别?
A:SenseNova-MARS最大的不同在于它能同时使用三种工具:图像搜索、文本搜索和图像裁剪,并且知道在什么情况下使用哪种工具。普通AI通常只能回答已知问题或使用单一功能,而SenseNova-MARS能像人类专家一样分析问题、制定策略、使用多种工具配合解决复杂任务。
Q2:SenseNova-MARS的训练方法有什么特别之处?
A:它采用了两阶段训练:先用3000个精选样本进行基础学习,就像学习教科书;然后用强化学习让AI自主探索,像训练侦探一样在试错中成长。关键创新是"批量标准化组序列策略优化"算法,确保AI在处理不同难度任务时都能保持稳定的学习状态。
Q3:HR-MMSearch测试平台为什么这么重要?
A:HR-MMSearch是专门为测试AI高难度视觉推理能力设计的,使用305张4K高分辨率的2025年最新图像,问题都针对图片中占比不到5%的细节信息。这确保AI无法依赖记忆"作弊",必须真正运用推理和搜索能力,就像让顶级运动员在奥运赛场上展示真实实力。
好文章,需要你的鼓励
openGauss的目标是探索oGRAC和超节点深度融合的可能,打造超节点原生数据库。
清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。
字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。
上海AI实验室团队开发的Yume1.5是一个革命性的AI视频生成系统,能够从单张图片或文字描述创造无限可探索的虚拟世界。用户可通过键盘控制实时探索,系统8秒内完成生成,响应精度达0.836,远超现有技术。该系统采用创新的时空通道建模和自强制蒸馏技术,支持文本控制的事件生成,为虚拟现实和内容创作领域开辟了新的可能性。