这项由中科院自动化所模式识别国家重点实验室的王浩宸博士、李祥泰等研究人员,联合字节跳动技术团队完成的开创性研究,发表于2025年7月的arXiv预印本平台。有兴趣深入了解的读者可以通过https://github.com/Haochen-Wang409/TreeVGR访问完整代码和数据。
当我们看一张复杂的图片时,眼睛会自然地在不同区域间游走,大脑会分析各种细节,然后得出结论。这个看似简单的过程,对人工智能来说却是一个巨大的挑战。目前最先进的AI视觉模型,比如OpenAI的o3和谷歌的Gemini,虽然能回答关于图片的问题,但它们的"思考过程"就像一个黑盒子——我们无法知道它们到底在看哪里,是如何得出答案的。
这就好比一个学生在考试时给出了正确答案,但老师无法看到他的解题步骤。是真的理解了题目,还是瞎猜碰运气?这种不透明性让人工智能的可靠性大打折扣。特别是在需要精确定位小物体、分析复杂空间关系的任务中,现有的AI模型经常出现"答案对了但理由错了"的情况。
正是为了解决这个根本性问题,研究团队开发了一套全新的评测体系TreeBench和训练方法TreeVGR。这套系统最大的创新在于,它不仅要求AI给出正确答案,还要求AI准确指出它在图片中关注的具体区域,让整个"思考"过程变得完全透明和可追溯。
研究团队从一个非常实际的角度出发:如果AI真的"看懂"了图片,那它应该能够准确定位图片中的关键物体,并基于这些物体进行逻辑推理。这就像人类在分析一张照片时,会先找到相关的人物或物品,然后分析它们之间的关系。基于这个思路,他们构建了一个包含405个高难度视觉推理问题的测试集,每个问题都要求AI不仅要回答正确,还要准确框出所有相关的目标物体。
这些测试题目的设计极其巧妙。研究人员特意选择了那些包含大量小物体的复杂真实场景,平均每个目标物体只占整张图片的3.05%。这就像在一张繁忙的街景照片中,要求AI准确找出并分析一个小小的交通标志。更有挑战性的是,这些问题不仅要求基础的视觉识别,还涉及复杂的空间推理,比如"从某个人的视角看,另一个物体在哪个方向"这样的透视变换问题。
测试结果令人震惊。即使是目前最强大的AI模型,在这个看似简单的测试中也表现得相当吃力。OpenAI最新的o3模型只达到了54.87%的准确率,其他模型的表现更是差强人意,没有任何一个模型能够突破60%的及格线。这个结果清楚地表明,现有的AI视觉模型在真正理解和分析复杂视觉场景方面,还有很大的提升空间。
**一、TreeBench:让AI视觉推理能力"原形毕露"的测试体系**
要理解TreeBench的革命性意义,可以把它想象成一场特殊的"驾照考试"。普通的驾照考试只看你是否能把车开到目的地,而TreeBench这场考试不仅要看你能否到达目的地,还要记录下你在整个过程中看向了哪些路标,注意了哪些交通信号,每一个转向决定是基于什么信息做出的。
这个测试体系建立在三个核心原则之上。第一个原则是"聚焦视觉感知",要求AI能够在复杂繁忙的场景中准确识别细小的目标物体。这就像在一张人山人海的音乐会现场照片中,要求你准确找出某个特定的观众。研究团队特意选择了那些包含密集物体的高分辨率真实场景,让AI面对最接近人类日常视觉体验的挑战。
第二个原则是"可追溯证据",这是TreeBench最具创新性的特点。传统的AI测试就像闭卷考试,只看最终答案是否正确。而TreeBench要求AI必须"展示作业过程"——不仅要给出答案,还要用精确的边界框标出它在推理过程中关注的每一个物体。这样一来,研究人员就能清楚地看到AI的"思路"是否正确,即使答案碰巧对了,如果推理过程有问题也会被发现。
第三个原则是"视觉为主的二阶推理能力",这要求AI不仅能识别物体,还能分析物体之间复杂的空间关系和物理交互。比如,AI需要判断两个物体是否接触,一个物体是否被另一个物体遮挡,或者从某个特定视角看某个物体在哪个方向。这些任务远比简单的物体识别要困难得多,需要AI具备类似人类的空间想象和逻辑推理能力。
TreeBench的题目设计可以分为两大类别:感知类和推理类。感知类问题主要测试AI的基础视觉识别能力,包括物体属性识别、材质判断、物理状态分析、复杂描述的物体检索,以及图像中文字信息的理解。这些问题虽然看起来基础,但在复杂场景中要做到精确定位并不容易。
推理类问题则更加具有挑战性,它们测试AI的高阶思维能力。比如透视变换问题,要求AI能够从不同角度理解空间关系,这就像玩魔方时需要在脑海中想象从不同角度看到的图案。排序问题要求AI分析线性排列的物体,判断它们的相对位置关系。接触遮挡问题让AI分析物体之间的物理交互,判断哪些物体相互接触或遮挡。空间包含问题考查AI对层次化空间关系的理解,比如判断某个物体是否在另一个物体内部。比较问题则要求AI对多个物体的属性进行对比分析。
为了确保测试的高质量和高难度,研究团队采用了极其严格的标注流程。他们首先从SA-1B数据集中精选了1000张包含密集物体的高分辨率图像,然后动员8位具有深厚技术背景的专家(包括6名博士候选人和2名资深研究科学家)进行精心标注。整个标注过程包含三轮质量控制,确保每个问题都具有足够的挑战性和准确性。
最终的TreeBench包含405个精心设计的视觉推理问题,其中推理类问题占63%,体现了对高阶思维能力的重视。每个问题都配有精确的边界框标注,标明所有相关目标物体的准确位置。这些目标物体平均只占图像面积的3.05%,大大增加了定位的难度。
**二、AI模型的"期中考试":令人意外的成绩单**
当研究团队将TreeBench这份"考卷"交给目前最先进的AI模型时,结果让所有人都大跌眼镜。这就好比平时成绩优异的尖子生突然在一次特殊考试中集体"滑铁卢",让人不得不重新审视他们的真实水平。
OpenAI最新发布的o3模型,这个在其他各种AI基准测试中表现出色的"学霸",在TreeBench上只获得了54.87%的分数,勉强及格都算不上。要知道,o3在很多传统的AI测试中都能达到90%以上的准确率,这样的成绩落差实在令人震惊。谷歌的Gemini-2.5-Pro模型稍好一些,达到了54.1%,但依然远未达到人们的期望。
更让人意外的是,即使是那些参数量巨大的开源模型也表现平平。比如InternVL3-78B这个拥有780亿参数的巨型模型,在TreeBench上的得分只有46.4%。Qwen2.5-VL-72B模型虽然有720亿参数,得分也仅为42.2%。这些结果清楚地表明,模型规模的增大并不能自动解决视觉推理中的根本问题。
当研究人员深入分析这些"考试答卷"时,发现了一个非常有趣的现象。那些专门设计用于视觉推理的模型,虽然总体分数不一定最高,但在定位准确性(用mIoU指标衡量)方面却表现更好。这就像两个学生,一个回答问题很流利但经常答非所问,另一个虽然回答慢一些但总是能准确理解题意。
更深入的分析揭示了一个重要发现:在感知类问题上,定位准确性与最终答题正确率之间存在明显的正相关关系。也就是说,如果AI能够准确找到问题中提到的物体,那么它回答正确的概率就会大大增加。这证明了"看得准"确实是"答得对"的重要前提。
然而在推理类问题上,这种相关性就变得模糊了。即使AI能够准确定位到所有相关物体,它在复杂推理任务上的表现仍然不尽如人意。这说明了一个重要问题:当前的AI模型在基础视觉感知和高阶推理能力之间存在明显的脱节。它们可能看到了正确的物体,但不知道如何基于这些视觉信息进行逻辑推理。
研究团队还进行了一个有趣的对比实验,将TreeBench的结果与其他知名AI测试基准进行比较。结果发现,在TreeBench上表现好的模型,在其他测试中的排名可能完全不同。这种"成绩倒挂"现象说明,TreeBench确实测试了一种此前被忽视的重要能力——基于精确视觉定位的复杂推理能力。
这些测试结果带来了一个重要启示:当前的AI视觉模型虽然在很多任务上看起来表现出色,但它们的"理解"很可能是表面的。就像一个学生可能通过死记硬背在标准化考试中取得高分,但面对需要真正理解和分析的开放性问题时就暴露了基础能力的不足。
**三、TreeVGR:教AI"手眼并用"思考的训练新方法**
面对AI模型在TreeBench上的整体低迷表现,研究团队并没有止步于发现问题,而是进一步开发了一套全新的训练方法TreeVGR(可追溯证据增强视觉推理)。这个方法的核心思想可以用一个生动的比喻来理解:传统的AI训练就像教学生做数学题时只看答案对错,而TreeVGR则要求学生不仅要给出正确答案,还要清楚地写出每一步解题过程。
TreeVGR的训练过程分为两个阶段,就像学习一门复杂技能需要先打基础再提高一样。第一个阶段叫做"冷启动初始化",这个名字听起来很技术化,但实际上就是让AI学会基本的"指认物体"技能。在这个阶段,研究团队给AI提供了35000个训练样本,每个样本都包含一张图片、一个问题、详细的推理过程和准确的物体定位框。
这就像教一个孩子认识动物:不仅要告诉他"这是一只猫",还要用手指出猫在照片中的具体位置,解释为什么这是猫而不是狗。更有趣的是,研究团队还故意在训练数据中加入一些"错误示例",然后教AI识别这些错误。比如,他们会故意画错边界框,然后在训练数据中加上"等等,这个框画错了"的提示,训练AI学会自我纠错。
第二个阶段是"强化学习与可追溯证据",这是TreeVGR最核心的创新。在这个阶段,AI不再只是被动地学习标准答案,而是要在实践中不断试错和改进。研究团队设计了一个巧妙的奖励机制,AI的"成绩"不仅取决于答案是否正确,还要看它画出的定位框是否准确。
这个奖励机制包含三个部分,就像一个综合性的评分标准。首先是答案准确性奖励,这是基础分数,答对了就得分。其次是格式规范性奖励,确保AI的回答符合要求的格式,就像作文不仅要内容好,字迹也要工整。最关键的是第三个部分——双重IoU奖励,这是TreeVGR的核心创新。
这个双重IoU奖励可以用靶子射击来比喻。传统的训练方法就像只看射中了几环,而双重IoU奖励不仅要看精度(射中靶心的准确性),还要看召回率(不能漏掉任何应该射中的目标)。具体来说,如果图片中有3个相关物体,AI必须准确定位所有3个物体,同时不能画出太多无关的框。这样可以防止AI采用"广撒网"的策略——画一大堆框来碰运气。
为了训练这个新模型,研究团队从多个数据源精心收集了37000个训练样本。这些样本不仅包含常规的问答对,还包含了每个目标物体的精确位置标注。训练过程使用了先进的强化学习算法,让AI在不断的试验中学会更好地平衡答案准确性和定位精确性。
训练完成的TreeVGR模型在各项测试中都表现出色。在TreeBench上,它比基础模型提高了13.4个百分点,在其他知名测试如V*Bench上提高了16.8个百分点,在MME-RealWorld测试中提高了12.6个百分点。更重要的是,它的定位准确性(mIoU)达到了44.0%,远超其他同类模型。
这些改进不仅仅是数字上的提升,更代表了AI"思考"方式的根本性改变。TreeVGR训练出的模型不再是一个黑盒子,而是一个透明的推理系统。当它回答问题时,你可以清楚地看到它关注了图片中的哪些区域,它的每一个判断都有明确的视觉证据支撑。
**四、方法背后的核心创新:让AI学会"眼到手到心到"**
TreeVGR的成功并非偶然,它背后有着深刻的设计哲学。传统的AI视觉训练可以比作教学生做阅读理解:给出一篇文章和问题,学生只需要写出答案,老师不关心学生是如何找到答案的。而TreeVGR则像是要求学生不仅要给出答案,还要用荧光笔标出文章中的关键句子,解释每一步的思考过程。
这种训练方式的核心在于强制AI建立视觉感知和逻辑推理之间的明确连接。在传统模型中,这两个过程往往是分离的:AI可能通过某种"直觉"给出正确答案,但这种直觉无法解释,也无法确保在新情况下的可靠性。TreeVGR通过要求AI明确指出推理依据,确保了整个思考过程的可追溯性和可解释性。
研究团队在设计奖励机制时特别巧妙。他们发现,如果只奖励定位的准确性,AI会倾向于保守策略,只标出最明显的物体而忽略那些不太显眼但同样重要的目标。如果只奖励覆盖的全面性,AI又会倾向于"广撒网",标出大量无关的区域来确保不遗漏。双重IoU奖励机制巧妙地平衡了这两种倾向,迫使AI既要准确又要全面。
在实际训练过程中,研究团队还观察到了一些有趣的现象。比如,在训练初期,AI经常会出现"定位准确但推理错误"或"推理正确但定位模糊"的情况。这就像一个学生要么能找到正确的信息但理解错误,要么理解正确但找错了依据。通过持续的强化学习,AI逐渐学会了将精确的视觉定位与正确的逻辑推理有机结合。
TreeVGR的另一个重要创新是它的数据构造策略。研究团队不仅使用了高质量的标注数据,还特意引入了一些具有挑战性的"困难样本"。这些样本通常包含密集的小物体、复杂的空间关系或容易混淆的视觉元素。通过在这些困难样本上进行训练,AI学会了在复杂情况下保持推理的严谨性。
模型的训练效率也得到了显著提升。传统的强化学习训练往往需要大量的计算资源和时间,比如DeepEyes模型需要32张H100 GPU运行48小时。而TreeVGR通过巧妙的两阶段设计,将总训练时间大大缩短,同时保持了训练效果。这使得更多研究团队能够复现和改进这种方法。
**五、实验验证:从理论到实践的全面检验**
为了全面验证TreeVGR的有效性,研究团队进行了一系列深入的实验分析,这些实验就像给新药做临床试验一样严格和全面。他们不仅要证明新方法确实有效,还要理解它为什么有效,在什么条件下效果最好。
首先是大规模的横向对比实验。研究团队将TreeVGR与目前最先进的各种AI模型进行了正面比较,包括OpenAI的GPT-4o、谷歌的Gemini系列、以及多个开源的大型视觉语言模型。结果显示,尽管TreeVGR的参数量只有70亿(相比之下,一些对比模型有780亿参数),但它在多个重要指标上都表现出色。
在TreeBench这个最具挑战性的测试中,TreeVGR达到了50.4%的准确率,不仅超过了所有同等规模的模型,甚至与一些大10倍的模型相媲美。更重要的是,它的定位准确性(mIoU)达到44.0%,这意味着AI在推理过程中确实能够准确找到相关的物体,而不是仅仅靠"瞎猜"获得正确答案。
在其他知名测试基准上,TreeVGR也展现出了出色的通用性。在V*Bench测试中,它比基础模型提高了16.8个百分点,达到了91.1%的准确率。在HR-Bench这个专门测试高分辨率图像理解能力的基准中,TreeVGR也取得了显著提升。这些结果表明,TreeVGR学到的"看图说话"能力具有很好的泛化性,不仅仅局限于特定类型的问题。
研究团队还进行了详细的消融实验,这就像解剖一台精密机器,要看每个零件的作用。他们逐一移除TreeVGR的各个组成部分,观察性能的变化。结果发现,冷启动初始化阶段虽然看起来简单,但对最终性能贡献很大。没有这个阶段,AI就像一个从未见过标准答案的学生,在强化学习阶段会浪费大量时间在低级错误上。
双重IoU奖励机制的重要性更是显而易见。当研究团队移除precision(精确性)部分时,AI开始表现出"强迫症"行为——为了确保不遗漏任何目标,它会画出大量的边界框,导致回答变得冗长无效。当移除recall(召回率)部分时,AI又变得过于保守,只敢标出最明显的物体,遗漏了很多重要的推理依据。
一个特别有趣的发现是,在不同类型的问题上,定位准确性与推理正确性之间呈现出不同的关系模式。在感知类问题上,这种关系非常明确——定位越准确,答案越可能正确。但在推理类问题上,关系就变得复杂得多。有时候即使AI准确找到了所有相关物体,它在复杂推理步骤上仍然可能出错。这个发现为未来的研究指明了方向:需要在精确定位的基础上,进一步加强逻辑推理能力的训练。
研究团队还分析了TreeVGR在不同物体大小上的表现。TreeBench中的目标物体平均只占图像面积的3.05%,这对任何AI系统都是巨大挑战。分析结果显示,TreeVGR在小物体定位上的改进尤其明显,这证明了专门的训练确实能够提高AI在复杂场景中的细节感知能力。
为了验证方法的通用性,研究团队还在完全不同的视觉任务上测试了TreeVGR。在文档理解、图表分析、甚至基础的物体检测任务上,TreeVGR都展现出了良好的性能。这表明,"可追溯推理"不仅仅是解决复杂视觉问答的特殊技巧,而是一种能够普遍提升AI视觉理解能力的基础方法。
**六、技术细节剖析:工程实现中的精巧设计**
虽然TreeVGR的核心理念相对简单——让AI同时学会准确定位和正确推理——但在具体实现过程中,研究团队遇到了许多技术挑战,他们的解决方案展现出了高超的工程智慧。
首先是坐标系统的统一问题。不同的AI模型使用不同的坐标表示方法,就像有些地图使用经纬度,有些使用平面坐标系一样。TreeVGR需要处理来自不同源头的训练数据,这些数据的边界框标注使用了不同的坐标系统。研究团队开发了一套自动转换机制,能够将归一化坐标(0到1之间的相对位置)准确转换为绝对像素坐标,确保训练数据的一致性。
数据质量控制是另一个关键挑战。机器学习有一个著名的原则:"垃圾进,垃圾出",训练数据的质量直接决定了模型的上限。研究团队设计了多层过滤机制,首先使用现有的强AI模型对候选数据进行预筛选,然后人工专家进行精细标注,最后通过交叉验证确保标注的准确性。这个过程就像制作高级手表,每个零件都要经过多道工序的精密加工。
在强化学习的实现过程中,奖励函数的设计尤其关键。传统的强化学习往往使用简单的0/1奖励(对就是1,错就是0),但TreeVGR需要更精细的奖励信号。研究团队设计的双重IoU奖励不仅考虑了精确性和召回率,还引入了渐进式奖励机制——接近正确答案的尝试会获得部分奖励,这样AI在学习过程中能够获得更丰富的反馈信号。
计算效率的优化也体现了团队的工程功底。强化学习训练通常需要大量的计算资源,特别是需要一个专门的"奖励模型"来评判AI的表现。研究团队使用了分布式训练架构,8张GPU负责训练主模型,另外8张GPU运行奖励模型,通过高效的通信机制确保训练过程的流畅性。
更令人印象深刻的是,TreeVGR采用了一种创新的训练策略,避免了传统方法中的"图像裁剪"步骤。以往的视觉推理方法往往需要先裁剪出感兴趣的区域,然后在这些小图片上进行处理,这不仅增加了计算复杂度,还可能丢失重要的上下文信息。TreeVGR直接在完整图像上进行推理,通过文本描述的边界框来表示关注区域,这种"纯文本空间推理"方法既高效又精确。
在模型架构的选择上,研究团队也展现了实用主义的智慧。他们选择了Qwen2.5-VL-7B作为基础模型,这不是因为它是最大的模型,而是因为它在参数效率和性能之间达到了最佳平衡。通过精心设计的训练策略,这个相对"小巧"的模型在多项测试中都达到了与大10倍模型相媲美的性能。
训练过程的监控和调优也体现了团队的丰富经验。他们发现,在训练初期,模型往往会出现"定位漂移"现象——开始时能够准确定位目标,但随着训练进行,定位精度反而下降。通过引入学习率动态调整和梯度裁剪技术,他们成功解决了这个问题,确保模型在整个训练过程中都能稳定改进。
**七、实际应用前景:从实验室到现实世界的桥梁**
TreeVGR的意义远远超出了学术研究的范畴,它为AI视觉理解技术的实际应用开辟了新的可能性。就像GPS导航不仅要知道目的地,还要能够解释路线选择的原因一样,TreeVGR让AI的视觉推理过程变得可解释和可信赖,这为它在现实世界中的部署奠定了坚实基础。
在医疗影像分析领域,TreeVGR的可追溯性特征具有革命性意义。传统的AI医疗诊断系统就像一个"神秘的专家",能够给出诊断结果但无法解释原因,这让医生很难信任和采用。而基于TreeVGR训练的系统不仅能够识别病变,还能精确指出关注的影像区域,解释诊断的依据。这就像有一个AI助手能够在X光片上准确指出"这里的阴影形状异常,那里的纹理变化可疑",为医生提供具体的分析线索。
在自动驾驶领域,TreeVGR的透明推理能力同样具有重要价值。当前的自动驾驶系统在遇到复杂路况时,往往难以解释其决策过程,这成为了技术普及的重要障碍。TreeVGR技术可以让自动驾驶系统在做出每个决策时,都能清楚地说明它观察到了哪些交通标志、行人、车辆,以及这些观察如何影响了驾驶决策。这种透明性不仅有助于技术调试,也能增强乘客的信任感。
在教育技术方面,TreeVGR开启了"可视化学习分析"的新可能。基于这种技术的教育AI可以在分析学生作业或考试答案时,不仅指出错误,还能准确定位错误的具体位置,解释错误的原因。比如在几何题解答中,AI可以精确指出学生在图形的哪个部分产生了误解,在推理的哪个步骤出现了逻辑跳跃。
零售和电商行业也将从中受益。现有的商品推荐系统往往是"黑盒操作",消费者不知道为什么会收到特定的推荐。基于TreeVGR的系统可以在分析用户上传的图片时,明确指出它关注了哪些产品特征,比如颜色、款式、材质等,然后基于这些具体特征提供个性化推荐。这种透明的推荐过程将大大提升用户体验和信任度。
在内容审核和监管领域,TreeVGR的应用前景同样广阔。当前的内容审核AI经常出现误判,部分原因就是缺乏可解释性。基于TreeVGR的审核系统可以在标记可疑内容时,准确指出触发警报的具体区域和理由,这不仅有助于提高审核准确性,也为申诉和复核提供了明确依据。
更令人兴奋的是,TreeVGR为人机协作开辟了新模式。在传统的AI系统中,人类很难理解AI的"思考"过程,因此协作往往局限于简单的指令执行。而TreeVGR让AI能够与人类进行"可视化对话"——AI可以指出它关注的区域,人类可以纠正或补充AI的观察,形成真正意义上的智能协作。
从技术发展的角度看,TreeVGR也为构建更加可靠的AI系统奠定了基础。在关键应用场景中,AI系统的可解释性往往比纯粹的性能更加重要。TreeVGR证明了在不牺牲性能的前提下实现AI透明化是完全可能的,这为监管机构制定AI应用标准提供了技术参考。
当然,TreeVGR的大规模应用还面临一些挑战。首先是计算成本问题,虽然TreeVGR已经比传统方法更高效,但在处理大规模数据时仍需要相当的计算资源。其次是标注成本,高质量的可追溯训练数据需要专业人员精心标注,这在某些应用场景中可能成为瓶颈。
尽管如此,TreeVGR所代表的"可追溯AI"发展方向已经得到了广泛认可。随着计算技术的进步和标注工具的改进,这些挑战将逐步得到解决。更重要的是,TreeVGR已经证明了让AI"展示工作过程"不仅是可能的,而且是有益的,这为整个AI领域的发展指明了新方向。
说到底,这项由中科院自动化所和字节跳动联合完成的研究,不仅在技术上取得了突破,更在理念上推动了AI发展的新范式。它告诉我们,真正智能的AI不应该是一个神秘的黑盒子,而应该是一个能够清楚解释自己"思考"过程的透明系统。TreeBench揭示了当前AI视觉模型的能力边界,而TreeVGR则为突破这些边界提供了切实可行的路径。随着这种可追溯推理技术的不断发展和完善,我们有理由相信,未来的AI将不仅更加智能,也更加值得信赖。
研究团队在GitHub上开源了完整的代码和数据集,这种开放的科研态度将推动整个领域的快速发展。任何有兴趣的研究者都可以基于这个基础进行进一步的探索和改进。这种科研开放性本身就体现了"可追溯"的精神——不仅研究结果要透明,研究过程同样要开放给全社会检验和完善。
Q&A
Q1:TreeBench和现有的AI测试有什么不同?为什么现有的先进AI模型在上面表现这么差? A: TreeBench最大的特点是要求AI不仅要答对题目,还要准确指出它在图片中关注的具体区域,就像考试时不仅要写答案还要写解题过程。现有AI模型表现差主要是因为它们虽然能"猜对"答案,但实际上并没有真正"看懂"图片,缺乏基于精确视觉定位的推理能力。
Q2:TreeVGR训练方法的核心创新是什么?普通人能理解吗? A: TreeVGR的核心创新是"双重IoU奖励机制",简单说就是训练AI时不仅看答案对错,还要看它有没有准确找到相关物体。就像教孩子认字,不仅要他读对,还要他用手指准确指出每个字的位置。这样训练出的AI既准确又可靠。
Q3:这项研究对普通人的生活会产生什么影响?什么时候能用上? A: 这项技术将让AI变得更可信赖和透明。未来的医疗诊断AI能解释为什么这样诊断,自动驾驶能说明为什么这样决策,购物推荐能告诉你为什么推荐这个商品。虽然完整应用还需要时间,但研究团队已经开源了代码,技术成熟度在不断提升。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。