这项由上海人工智能实验室的张宇涵、卓龙、朱紫阳和华盛顿大学的吴桐领衔,联合复旦大学、清华大学、斯坦福大学、香港中文大学以及南洋理工大学等多所知名学府研究团队共同完成的突破性研究,于2025年8月发表在计算机视觉领域的预印本论文中(编号:arXiv:2508.05609v1)。感兴趣的读者可以通过该编号查询完整论文。
要理解这项研究的重要性,我们可以把3D模型生成比作烘焙蛋糕。当你用AI工具生成3D模型时,就像用智能烤箱烘焙蛋糕一样,最终的成品质量如何,需要有人来品尝和评判。但是,如果每次都需要专业的糕点师傅来评价蛋糕的外观、口感、层次和创意,这个过程就会变得非常耗时且成本高昂。更关键的是,不同师傅的评判标准可能不一致,有的注重外观,有的偏爱口感,这就导致评价结果缺乏统一性。
目前的3D模型评价就面临着类似的问题。随着人工智能技术的快速发展,各种能够根据文字描述或图片生成3D模型的工具如雨后春笋般涌现。但是如何客观、准确地评价这些生成的3D模型质量,一直是个令人头疼的难题。传统的评价方法要么依赖人工评估,耗时费力且主观性强;要么只能从简单的2D图片角度进行评价,无法真正理解3D模型的空间结构和材质特点。
研究团队开发的Hi3DEval系统就像是培养了一位专业且全能的"3D模型品鉴师"。这位品鉴师不仅能够从整体上评价模型的好坏,还能深入到每个细节部分进行精确分析,甚至能够判断材质在不同光照条件下的真实性。更重要的是,这位品鉴师的评价标准与人类专家高度一致,同时具备了24小时不间断工作的能力。
研究的创新之处在于构建了一个多层次的评价体系。就像评价一栋建筑需要从整体设计、各个房间功能到建材质量等多个角度进行考量一样,Hi3DEval从三个不同层次对3D模型进行评价。整体层面评估模型的几何结构合理性、细节丰富度、纹理质量、几何与纹理的协调性以及与原始要求的匹配度。部分层面则深入到模型的各个组成部分,就像检查建筑的每个房间一样,发现局部的问题和缺陷。材质层面则专门评估表面材料在各种光照条件下的真实性和一致性。
为了让这位"品鉴师"具备准确的判断能力,研究团队构建了一个包含超过15000个3D模型的大型数据库Hi3DBench。这些模型来自30种不同的生成方法,涵盖了从文字生成3D模型到图片生成3D模型的各种情况。为了确保评价标准的准确性和一致性,他们还开发了一套多智能体协作的标注系统,让多个AI助手像专家团队一样协作,共同对每个模型进行评分,然后通过反思和修正机制来提高评价的准确性。
在技术实现上,研究团队巧妙地结合了视频和3D几何两种不同的表示方法。对于整体和材质评价,他们让AI观看3D模型的旋转视频,就像人们观察实物一样从多个角度进行评估。对于部分层面的评价,他们直接分析3D模型的几何特征,确保能够准确识别每个部分的质量问题。这种混合方法让AI能够更好地理解3D模型的空间结构和视觉效果。
实验结果表明,Hi3DEval在各个评价维度上都达到了与人类专家高度一致的水平。在整体评价方面,系统的判断准确率比现有方法提高了10-15个百分点。在材质评价方面,特别是在识别光照一致性和材质真实性方面,系统表现尤为出色。部分层面的评价则能够准确定位模型中的问题区域,为改进提供具体指导。
这项研究的意义远超学术范畴。对于游戏开发者而言,Hi3DEval能够帮助他们快速筛选和优化3D资源,大幅提高游戏制作效率。对于虚拟现实和增强现实应用,准确的3D模型质量评估能够确保用户获得更加真实的沉浸式体验。对于电商平台,这套系统能够自动评估商品3D展示模型的质量,提升消费者的购物体验。
研究团队也诚实地指出了当前系统的局限性。Hi3DEval主要针对单个物体进行评价,对于复杂场景或动态内容的评估还有待进一步完善。此外,系统对于高度变形或抽象风格的模型处理还存在一定挑战。
尽管存在这些局限,Hi3DEval代表了3D内容质量评估领域的重要突破。它不仅为当前的3D生成技术提供了标准化的评价工具,更为未来3D内容创作的自动化和智能化奠定了坚实基础。随着技术的不断完善,我们有理由相信,这种智能化的质量评估系统将成为3D内容创作流程中不可或缺的重要工具。
一、构建3D模型的"全能品鉴师"
要理解Hi3DEval系统的工作原理,我们可以把它想象成培养一位专业的艺术品鉴定师。传统的鉴定师可能只从一个角度观察艺术品,或者只关注某个特定方面,但Hi3DEval就像是一位经过特殊训练的全能鉴定师,能够从多个层次和角度全面评估3D模型的质量。
这位"鉴定师"的特殊之处在于它具备三重视角。第一重视角是宏观视角,就像站在远处观察一幅画作的整体构图和色彩搭配。在这个层面,系统会评估3D模型的整体几何结构是否合理,是否存在明显的形状缺陷,细节是否丰富,纹理质量如何,几何结构与表面纹理是否协调一致,以及最终生成的模型是否符合用户的原始要求。
第二重视角是微观视角,就像用放大镜仔细检查画作的每个局部细节。系统会将3D模型分解成多个有意义的部分,比如将一个人物模型分解为头部、躯干、四肢等,然后逐一检查每个部分的几何合理性和细节丰富度。这种部分级别的评估能够精确定位问题所在,比如发现某个手指形状异常或者某个部位存在几何缺陷。
第三重视角是材质视角,这是传统评价方法往往忽视的重要方面。就像鉴定师需要在不同光线条件下观察艺术品的色彩和质感变化一样,系统会在多种光照环境下评估3D模型的材质表现。它会检查材质的细节复杂度、色彩饱和度、在不同光照下的一致性,以及材质的物理真实性,比如金属表面是否表现出正确的反射特性,木材是否呈现出合适的漫反射效果。
为了实现这种全方位的评估能力,研究团队构建了一个庞大的训练数据库。这个数据库包含了超过15300个3D模型,这些模型来自30种不同的生成方法,涵盖了目前主流的各种3D生成技术。其中包括9种文字转3D的方法和21种图片转3D的方法,确保了评估系统能够适应各种不同类型的3D生成工具。
在数据准备过程中,研究团队特别注重模型的多样性和代表性。他们使用了510个不同的生成提示,涵盖了从简单物体到复杂场景的各种情况。每个模型都被渲染成360度旋转视频,包括普通RGB视图、法线贴图视图和着色视图,确保系统能够从多个维度观察和理解3D模型的特征。
对于部分级别的评估,系统需要先将3D模型分割成有意义的组成部分。这个过程就像解剖学家需要准确识别人体的各个器官一样,需要高度的精确性和一致性。研究团队采用了先进的3D分割技术,能够根据几何特征自动将模型分解成语义上有意义的部分。为了确保分割的合理性,他们还利用了大语言模型来预测每个物体应该分割成多少个部分,比如一个茶壶可能包括壶身、壶盖、壶嘴和把手四个部分,而一只猫咪则可能包括头部、身体、四肢和尾巴等更多部分。
在材质评估方面,系统的准备工作更加复杂。研究团队为每个3D模型设置了多种不同的光照条件,包括点光源照明和高动态范围图像环境照明。点光源照明就像摄影师使用聚光灯照射物体一样,能够清晰地显示材质的反射特性。环境照明则模拟了真实世界中的各种光照环境,包括室内和室外、自然光和人工光等六种不同的场景。通过在这些不同光照条件下观察模型的表现,系统能够准确评估材质的真实性和一致性。
二、打造智能化的评分专家
要让AI系统能够像人类专家一样准确评估3D模型质量,关键在于建立一套可靠的评分标准和训练数据。这就像培训一群糕点评委,需要让他们在评判标准上达成一致,并且能够给出与资深专家相似的评分结果。
研究团队开发了一套创新的多智能体协作标注系统,这套系统的工作方式就像组建了一个由多位专家组成的评委团。这个评委团包括了不同类型的AI智能体,其中有擅长深度思考和分析的"思考型"模型,也有具备丰富知识储备、能够快速做出稳定判断的"推理型"模型。具体来说,这个评委团包括了GPT-4.1、GPT o3/o4 mini、Gemini 2.5 Pro、Claude 3.7和Grok-3等先进的多模态大语言模型。
这些AI评委的工作方式很有特色。当面对一个需要评分的3D模型时,它们不是简单地给出一个分数就结束,而是要经历一个完整的评估过程。首先,每个评委都会仔细观察模型的多视角渲染结果,包括旋转视频和多角度静态图片。然后,它们会按照预设的评分标准,从不同维度对模型进行详细分析,并给出初步评分和评分理由。
更重要的是,这个系统还设置了一个"反思"环节。就像人类专家在做出重要判断后会重新检查自己的结论一样,AI评委也会重新审视自己的评分,检查是否存在遗漏或偏差,如果发现问题就会及时修正。这种自我反思机制大大提高了评分的准确性和一致性。
为了确保评分标准的统一性,研究团队设计了非常详细的评分指南。以几何合理性评分为例,系统会将0-8分的评分范围细分为不同的质量等级。0分代表完全失败的情况,比如模型生成完全失败或者呈现空白状态。1-2分对应不可识别或无意义的形状,比如几何体支离破碎或者与预期物体完全不符。3-5分是中等质量范围,虽然能够识别出物体的基本形状,但存在各种程度的结构问题。6-8分则是高质量范围,代表结构完整且细节丰富的模型。
在材质评估方面,评分标准更加细致。系统会从细节复杂度、色彩饱和度、不同光照条件下的一致性,以及材质的物理真实性四个维度进行评估。比如,在评估材质的物理真实性时,系统会检查金属表面是否正确地反射环境光线,木材表面是否呈现出适当的漫反射效果,以及塑料材质是否具有合适的光泽度。
为了验证这套评分系统的可靠性,研究团队进行了大量的人机对比实验。他们邀请人类专家对相同的3D模型进行评分,然后与AI系统的评分结果进行比较。实验结果显示,多智能体协作系统的评分结果与人类专家的评分相比,平均误差显著低于单个AI智能体的表现。具体来说,在使用L1损失(即绝对误差)作为评估指标的情况下,多智能体系统的误差仅为0.257,而单个最好的AI智能体的误差为0.702,其他单个智能体的误差更是达到0.838到1.100的范围。
这套标注系统的另一个优势是其高效性和可扩展性。传统的人工标注方式不仅耗时耗力,而且容易受到评估者个人偏好的影响,导致标注结果的一致性不佳。而AI驱动的标注系统能够24小时不间断工作,在保证质量的同时大大提高了标注效率。每个3D模型的完整评分过程大约需要20-60秒,成本约为0.15美元,相比人工标注具有明显的成本优势。
通过这套精心设计的评分系统,研究团队最终获得了包含超过4万条对象级标注、2.3万条部分级标注和1.1万条材质级标注的大规模数据集。这些高质量的标注数据为后续训练自动评分模型提供了坚实的基础。
三、混合式智能评分引擎的设计
在获得了高质量的标注数据后,研究团队面临的下一个挑战是如何设计能够准确理解和评估3D模型的AI系统。这就像要制造一台能够自动识别和评价艺术品的智能机器,需要让机器具备类似人类视觉系统的能力,能够从不同角度和层次理解3D物体的特征。
传统的3D模型评估方法主要依赖于静态的2D图片,这就像只看照片就要评价一件雕塑作品一样,很难获得完整和准确的信息。研究团队创新性地采用了混合式的表示方法,将视频信息和纯3D几何信息结合起来,让AI系统能够更全面地理解3D模型的特征。
对于对象级和材质级的评估,系统采用了基于视频的分析方法。这种方法的核心思想是让AI观看3D模型的360度旋转视频,就像人们在现实中观察物体时会不自觉地从多个角度进行观察一样。视频相比静态图片的优势在于能够提供连续的视角变化信息,让AI更好地理解物体的三维空间结构和表面特征的连贯性。
这个视频分析系统的构建过程分为两个阶段。第一阶段是让AI学会理解3D渲染视频的特殊性质。由于用于训练的预训练视频模型主要是基于自然场景视频训练的,直接用来分析3D渲染视频会存在领域差异的问题。为了解决这个问题,研究团队收集了大量的3D对象,在各种视觉条件下进行渲染,包括普通的RGB渲染、法线贴图渲染和不同光照条件下的渲染,然后通过对比学习的方式让AI学会将这些渲染视频与对应的文字描述进行匹配。
第二阶段是训练具体的质量评分能力。在AI学会了理解3D渲染视频的基础特征后,研究团队为每个评估维度设计了专门的评分头网络。这些网络就像专门的检测器,能够从视频特征中提取出与特定质量维度相关的信息,并给出相应的分数。
在网络结构设计上,系统采用了3D卷积层来处理视频的时空信息,这样能够同时考虑空间上的视觉特征和时间上的连续性变化。为了防止模型过拟合,系统还采用了较高的Dropout比例,实验表明这种设计对于处理高维视频特征特别有效。
在损失函数设计方面,研究团队巧妙地结合了回归损失和排序损失。回归损失确保模型能够给出准确的绝对分数,而排序损失则确保模型能够正确区分不同质量模型之间的相对好坏关系。这种组合设计让模型既能给出准确的分数,又能进行可靠的质量比较。
对于部分级的评估,系统采用了基于3D几何特征的分析方法。这种方法直接处理3D模型的网格数据,能够更精确地分析局部几何特征。系统首先利用先进的3D特征提取网络获得每个网格面的特征表示,然后根据部分分割结果将这些特征聚合成部分级别的表示。
为了让系统能够同时考虑局部特征和全局上下文,研究团队设计了双重注意力机制。交叉注意力机制让每个部分能够获得整个对象的全局信息,这样在评估某个部分的质量时能够考虑到它在整体中的作用和位置。自注意力机制则让部分内部的不同区域能够相互交流信息,确保对部分质量的评估是综合和一致的。
实验结果表明,这种混合式的设计策略取得了显著的效果。在对象级评估中,基于视频的方法在所有评估维度上都显著优于基于静态图片的传统方法。特别是在几何合理性评估方面,准确率提高了约8个百分点,在纹理质量评估方面提高了约10个百分点。
在材质评估方面,视频方法的优势更加明显。由于材质的真实性很大程度上体现在不同光照条件下的表现,视频能够提供连续变化的光照信息,让AI更好地判断材质的物理真实性。实验显示,在材质一致性和缺陷检测方面,视频方法的准确率比传统方法提高了15-20个百分点。
部分级评估的效果同样令人满意。基于3D几何特征的方法能够准确定位模型中的问题区域,为模型改进提供具体的指导。可视化结果显示,系统能够清楚地标识出几何扭曲、表面缺陷等局部问题,这些信息对于3D模型的质量改进具有重要价值。
四、实验验证与性能表现
为了全面验证Hi3DEval系统的有效性,研究团队设计了一系列严格的实验,就像新药上市前需要经过严格的临床试验一样。这些实验不仅要证明系统的准确性,还要验证其在不同场景下的稳定性和实用性。
在对象级评估的验证实验中,研究团队选择了1000对测试样本,这些样本涵盖了文字转3D和图片转3D两种主要的生成场景。他们将Hi3DEval的评分结果与人类专家的评判结果进行比较,采用成对比较准确率作为主要评估指标。这种评估方式就像让两位品酒师分别品尝两款酒,然后看他们对于哪款酒更好的判断是否一致。
实验结果令人鼓舞。在文字转3D的场景中,Hi3DEval在几何合理性维度达到了77.4%的准确率,显著超过了传统的CLIP Score方法的55.6%和美学评分方法的65.7%。在几何细节方面,系统的准确率达到72.5%,相比之下GPTEval3D方法仅为68.9%。在纹理质量评估上,Hi3DEval的准确率为75.5%,比最好的基准方法高出约8个百分点。
更重要的是,Hi3DEval在几何与纹理协调性以及提示匹配度这两个复杂评估维度上也表现出色。这两个维度需要AI系统具备更高层次的理解能力,不仅要看得懂单个特征,还要理解不同特征之间的关系以及与用户需求的匹配程度。实验结果显示,系统在这两个维度上的准确率分别达到74.9%和72.6%,远超其他对比方法。
在图片转3D的评估场景中,Hi3DEval同样保持了领先优势。值得注意的是,一些专门为文字转3D场景设计的方法,如ImageReward和GPTEval3D,在图片转3D场景中无法直接应用,这突出了Hi3DEval作为通用评估框架的价值。
材质评估的实验结果更加令人印象深刻。研究团队分别从测试集中采样了1000个图片转3D样本和300个文字转3D样本进行评估。在细节复杂度评估方面,Hi3DEval在文字转3D场景中达到76.7%的准确率,在图片转3D场景中达到72.3%的准确率。在色彩饱和度评估方面,系统的表现更加出色,在两种场景中的准确率分别达到77.3%和77.1%。
特别值得一提的是,Hi3DEval在一致性和缺陷检测这个最具挑战性的维度上取得了突破性进展。传统方法在这个维度上的表现普遍较差,最好的方法准确率也只有60%左右,而Hi3DEval达到了73.3%和73.7%的准确率。这个结果表明,基于视频的分析方法确实能够更好地捕捉材质在不同光照条件下的表现,发现传统方法难以察觉的细微缺陷。
为了进一步验证系统的可靠性,研究团队还进行了大量的消融实验。这些实验就像逐一检验汽车的每个零部件,确保每个设计选择都是必要和有效的。在视频分析系统中,他们发现使用CLIP编码器作为提示编码器比使用DINOv2编码器效果更好,这可能是因为CLIP编码器与文本编码器在潜在空间中的对齐更好。
在网络结构设计方面,实验表明较高的Dropout比例对于视频特征处理确实有效,这证实了高维时空特征需要更强的正则化。在损失函数设计上,结合排序损失的设计显著提高了模型的相对比较能力,这对于实际应用中的模型选择和排序非常重要。
在部分级评估系统中,双重注意力机制的有效性也得到了验证。去除交叉注意力机制后,系统的L1误差从0.085上升到0.087,去除自注意力机制后误差上升到0.094。这些结果证明了全局上下文信息和局部特征交互对于准确评估部分质量的重要性。
研究团队还对系统的计算效率进行了详细分析。对象级评估使用16帧视频作为输入,在NVIDIA A800 GPU上的推理时间约为0.32秒每个样本。部分级评估在单个NVIDIA A100 GPU上的推理时间约为0.4秒每个对象。这样的计算效率使得系统能够支持大规模的批量评估任务。
最终,研究团队利用训练好的评估系统对22种主流的3D生成方法进行了全面的性能排名。结果显示,Hunyuan3D 2.5在对象级评估中取得了最高的综合得分16.561,在几何合理性方面表现尤为出色。在材质评估方面,Hunyuan3D 2.0和Trellis方法表现最佳。这些排名结果为研究者和开发者提供了有价值的参考信息,有助于推动整个3D生成领域的技术进步。
五、实际应用价值与未来展望
Hi3DEval系统的成功不仅仅是学术研究的突破,更重要的是它为实际应用带来了巨大的价值。这就像发明了一台能够自动检测产品质量的精密仪器,不仅提高了检测效率,还确保了质量标准的一致性。
在游戏开发领域,Hi3DEval的应用前景特别广阔。现代游戏制作需要大量的3D资产,包括角色模型、道具、建筑和环境元素。传统的质量控制流程往往依赖美术师的主观判断,不仅耗时费力,而且难以保证不同项目之间的质量一致性。有了Hi3DEval,游戏工作室可以建立标准化的质量检测流程,自动筛选出高质量的3D资产,同时识别出需要改进的模型并提供具体的修改建议。
虚拟现实和增强现实应用对3D模型质量的要求更加严格,因为用户在这些环境中会从各个角度近距离观察虚拟物体,任何质量缺陷都可能破坏沉浸感。Hi3DEval的多角度评估能力正好满足了这种需求,它能够确保3D模型在各个视角下都保持高质量的视觉效果,材质评估功能还能验证物体在不同光照条件下的真实性。
在电子商务领域,3D产品展示已经成为提升用户体验的重要手段。消费者可以通过旋转、缩放等操作全方位查看商品,这种交互式的展示方式比传统的平面图片更有说服力。Hi3DEval可以帮助电商平台自动评估商品3D模型的质量,确保消费者获得准确、清晰的产品信息,从而减少因产品展示质量问题导致的退货和投诉。
在建筑和工业设计领域,3D模型的质量直接关系到设计方案的可行性和效果预览的准确性。Hi3DEval的几何合理性评估功能可以帮助设计师及早发现设计中的结构问题,避免在后续的制造或建造过程中出现昂贵的错误。材质评估功能则能够验证材料选择和表面处理方案在实际环境中的表现效果。
教育和培训领域也是Hi3DEval的重要应用场景。在3D建模和设计的教学过程中,教师需要评估学生作品的质量并提供改进建议。传统的评估方式往往受到教师个人经验和时间限制的影响,难以给每个学生提供详细和客观的反馈。Hi3DEval可以作为智能助教,为每个学生作品提供全面的质量分析报告,帮助学生更好地理解质量标准和改进方向。
从技术发展的角度来看,Hi3DEval也为3D生成算法的改进提供了重要工具。算法开发者可以利用这套评估系统来客观地比较不同方法的性能,识别算法的优势和不足,指导后续的技术改进方向。这种标准化的评估工具有助于推动整个3D生成领域的技术进步。
当然,研究团队也清醒地认识到当前系统的局限性。Hi3DEval主要针对单个物体的评估,对于包含多个物体的复杂场景,系统的处理能力还有待提升。在动态内容方面,比如包含动画或变形的3D模型,系统的评估能力也需要进一步扩展。
对于高度风格化或抽象化的3D模型,系统的评估准确性可能会受到影响。这是因为训练数据主要包含写实风格的模型,对于卡通风格、抽象艺术风格的模型,系统可能无法准确理解其设计意图和质量标准。
在材质评估方面,虽然系统能够评估常见材质的表现,但对于一些特殊材质,比如发光材质、透明材质或者具有复杂反射特性的材质,评估的准确性还需要进一步验证和改进。
展望未来,研究团队计划在几个方向上继续完善系统。首先是扩展到场景级评估,让系统能够处理包含多个物体的复杂3D场景,评估物体之间的空间关系、光照一致性和整体美学效果。其次是加强对动态内容的支持,让系统能够评估3D动画和交互式内容的质量。
在评估维度方面,研究团队还计划加入更多的质量指标,比如模型的拓扑结构质量、UV展开的合理性、以及针对特定应用场景的专项评估。在技术实现上,他们希望进一步提高系统的计算效率,让更多的开发者和创作者能够便捷地使用这套工具。
另一个重要的发展方向是个性化评估。不同的应用场景和用户群体可能对3D模型质量有不同的要求和偏好,未来的系统应该能够根据具体的应用需求调整评估标准,提供更加精准和相关的质量评价。
Hi3DEval的成功展示了人工智能在理解和评估复杂视觉内容方面的巨大潜力。随着3D内容创作技术的不断发展,智能化的质量评估工具将成为这个生态系统中不可或缺的重要组成部分,推动整个行业向着更高质量、更高效率的方向发展。
Q&A
Q1:Hi3DEval系统是什么?它能解决什么问题?
A:Hi3DEval是由上海AI实验室等机构开发的3D模型质量自动评估系统。它就像一位专业的3D模型品鉴师,能够从整体结构、局部细节和材质真实性三个层面自动评价AI生成的3D模型质量,解决了传统评估方法耗时费力、主观性强、无法准确理解3D空间结构的问题。
Q2:Hi3DEval比传统的3D模型评估方法好在哪里?
A:传统方法主要依靠人工评估或简单的2D图片分析,Hi3DEval采用了创新的混合方式:通过观看360度旋转视频来理解3D结构,直接分析3D几何特征来检查局部问题,还能在多种光照条件下评估材质真实性。实验显示,它的评判准确率比现有方法提高了10-15个百分点。
Q3:Hi3DEval系统有什么实际应用价值?
A:Hi3DEval可以广泛应用于游戏开发、虚拟现实、电商平台、建筑设计等领域。比如游戏工作室可以用它自动筛选高质量3D资产,电商平台可以用它检查商品3D展示模型质量,设计师可以用它及早发现设计缺陷,大大提高工作效率和质量标准的一致性。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。