在现代医疗中,医生就像侦探一样,需要通过各种线索来诊断病情。而医疗影像就是最重要的线索之一,它能帮助医生看透人体内部的秘密。不过,当医生需要进行精密手术时,仅仅识别大致的器官位置是远远不够的——他们需要看清每一根细小的血管、每一条纤细的胆管,就像工匠雕刻时需要分辨木材的每一道纹理一样。
这项由清华大学杨玉群教授领导的研究团队开发的ASM-UNet技术,发表于2024年8月的arXiv预印本平台,为这个难题提供了一个巧妙的解决方案。有兴趣深入了解技术细节的读者可以通过https://github.com/YqunYang/ASM-UNet访问完整的研究代码和数据集。
传统的医疗影像识别系统就像戴着老花镜的人看报纸——能看清大标题,但看不清小字。它们在识别心脏、肝脏这些大器官时表现不错,就像能轻松辨认出一幢房子的轮廓。但当需要识别胆管系统这些复杂精细结构时,就像要求它们在迷宫中找到特定的小径,往往力不从心。这个问题在医学上被称为"精细粒度分割",是目前医疗人工智能领域的一大挑战。
问题的根源在于,人体的精细结构就像每个人独特的指纹一样,存在着巨大的个体差异。以胆管系统为例,它有六种常见的变异类型,就像树木的分枝模式,每个人都可能不同。有些人的右肝管和左肝管汇合位置靠上,有些人靠下;有些人的胆囊管很粗,有些人却细得像头发丝。这种变异使得传统的人工智能系统无法适应,因为它们通常只能按照固定的"扫描路径"来分析图像,就像只会按照固定路线巡逻的保安,遇到新情况就束手无策。
清华大学的研究团队意识到,要解决这个问题,需要让人工智能系统变得更加"聪明"和"灵活"。他们的灵感来源于一个简单的观察:一个经验丰富的放射科医生在阅读医学影像时,不会机械地从左到右或从上到下扫描,而是会根据患者的具体情况调整观察顺序。当发现某个区域有异常时,医生会重点关注这个区域及其周围结构,形成一种动态的、适应性的观察模式。
基于这个洞察,研究团队开发了ASM-UNet系统,其中ASM代表"自适应扫描Mamba"技术。这个系统的核心创新在于引入了"双重评分机制"——既考虑群体共性,又兼顾个体差异。就像一个经验丰富的医生,他既掌握了解剖学的通用知识(群体共性),又能根据每个患者的具体情况进行个性化分析(个体差异)。
一、破解精细分割的密码:从"糊涂"到"清晰"的技术革命
要理解ASM-UNet的革新意义,我们先来看看传统方法遇到的困境。想象你要在一张复杂的地图上找到一条特定的小巷,传统的计算机视觉系统就像一个只会按照固定路线行走的机器人,无论地图多复杂、目标多隐蔽,它都只会从左上角开始,一行一行地扫描,完全不会根据地图的特点调整搜索策略。
这种固化的扫描方式在处理医疗影像时暴露出严重问题。人体的精细结构,特别是胆管系统,就像一棵独特的树,每个人的"分枝模式"都不相同。研究团队发现,现有的深度学习模型虽然在大器官分割上表现优秀,但在面对直径不足10毫米的胆总管、更加纤细的胆囊管时,准确率急剧下降。
胆管系统的复杂性远超人们想象。研究团队建立的BTMS数据集显示,胆管系统包含八个主要结构:胆囊、胆囊管、胆总管、肝总管、右肝管、右肝后管、右肝前管和左肝管。每个结构不仅尺寸微小,而且相互关系复杂。更具挑战性的是,其中胆囊管和右肝管被标记为"困难类别",因为它们不仅极其细小,位置还可能发生显著变化,甚至在某些个体中完全缺失。
传统的卷积神经网络虽然在图像识别领域取得了巨大成功,但它们在处理长距离依赖关系时存在先天不足。这就像近视眼看远处的物体,只能看清局部细节,却无法把握整体结构的关联性。为了弥补这个缺陷,研究者们引入了Transformer架构,它具有强大的全局建模能力,就像给计算机装上了"远视镜",能够同时关注图像的各个部分。
然而,Transformer也有自己的问题——计算复杂度随着输入长度呈平方级增长。对于高分辨率的三维医疗影像来说,这意味着计算成本会变得极其昂贵,就像要处理一本百科全书,每读一个词都要翻阅整本书来理解上下文关系,效率极其低下。
正在此时,Mamba技术的出现为这个困境提供了新的解决方案。Mamba基于选择性状态空间模型,它的创新在于将计算复杂度降低到线性级别,同时保持了处理长距离依赖的能力。这就像给计算机配备了一套智能的"阅读系统",既能理解全文内容,又不需要每次都从头到尾重复阅读。
不过,现有的Mamba-based医疗影像处理方法仍然依赖固定的扫描顺序。它们就像按照预设程序工作的机器人,虽然效率提高了,但灵活性仍然不足。当面对个体差异巨大的精细结构时,固定的扫描路径往往无法有效捕捉关键信息。
清华团队的突破性贡献在于提出了自适应扫描机制。与其让系统盲目地按照固定路径扫描,不如让它学会根据每张图像的特点动态调整扫描策略。这种方法的精妙之处在于同时考虑了两个层面的信息:群体层面的解剖学常识和个体层面的特异性变化。
群体层面的共性就像解剖学教科书中的标准图谱,描述了大多数人共同的结构特征。比如,肝脏通常位于腹腔右上部,胆囊附着在肝脏下方,这些是相对稳定的解剖关系。个体层面的差异则像每个人独特的"解剖签名",反映了个人在发育过程中形成的特殊结构变异。
ASM-UNet的自适应扫描机制通过生成"扫描评分"来指导系统的注意力分配。这个评分系统就像一个经验丰富的影像科医生的直觉,知道在什么地方应该仔细观察,什么地方可以快速扫过。通过将群体评分和个体评分相结合,系统既能利用解剖学的普遍规律,又能适应每个患者的特殊情况。
二、双重智慧的融合:群体经验与个体特征的完美结合
ASM-UNet的核心创新可以用一个生动的比喻来理解:就像培养一个既有扎实理论基础又能灵活应变的年轻医生。这个"医生"需要先学习解剖学教科书中的标准知识(群体共性),然后在临床实践中学会观察每个患者的独特之处(个体差异),最终形成既科学又灵活的诊断能力。
群体扫描评分就像医学教育中的标准化知识。在解剖学课堂上,所有医学生都会学到相同的基础知识:心脏有四个腔室,肝脏分为左右两叶,胆管系统负责运输胆汁。这些知识构成了医生诊断的基础框架,无论面对哪个患者,这些基本原理都是适用的。
在ASM-UNet中,群体扫描评分通过一个可学习的参数来实现,这个参数在训练过程中会自动调整,逐渐"记住"大多数病例共同的结构特征和空间关系。就像医学教科书经过无数次修订和完善,最终形成了标准化的知识体系一样,这个群体评分会在处理大量医疗影像后,逐渐掌握胆管系统的一般规律。
但仅有群体知识是不够的。每个患者都是独特的个体,就像世界上没有两片完全相同的叶子。在医疗实践中,经验丰富的医生会根据患者的年龄、性别、病史等信息调整诊断策略。年轻患者和老年患者的器官形态可能存在差异,男性和女性的解剖结构也会有所不同,更不用说各种先天性变异和病理性改变。
个体扫描评分就承担了这个个性化分析的任务。它通过一个专门的"个体评分生成器"来实现,这个生成器会仔细分析每张医疗影像的独特特征,然后生成相应的个体化扫描策略。这个过程就像一个经验丰富的放射科医生在阅片时的思考过程:先快速浏览整张片子获得整体印象,然后根据观察到的特征决定重点关注哪些区域。
个体评分生成器的工作原理特别巧妙。它首先使用三种不同的固定扫描方式来分析同一张影像,这就像从三个不同角度观察同一个物体。第一种是从左到右的水平扫描,就像阅读文字一样逐行分析;第二种是从上到下的垂直扫描,就像检查建筑物的每一层;第三种是对角线扫描,能够捕捉一些特殊的空间关系。
通过这三种不同的"视角",系统能够全面理解当前影像的特点。然后,它会综合这些信息,生成一个个体化的扫描评分。这个评分会告诉系统:在这张特定的影像中,哪些区域可能包含重要信息,应该给予更多关注;哪些区域相对次要,可以快速扫过。
群体评分和个体评分的结合过程就像两个专家的协商。群体评分代表了"理论专家"的建议:"根据解剖学知识,胆总管通常出现在这个位置。"个体评分则代表了"临床专家"的观察:"但是在这个患者身上,我注意到肝门区域有特殊的血管变异,可能会影响胆管的走向。"两个建议综合起来,形成了最终的扫描策略:"让我们重点关注这几个区域,并且要特别留意它们之间的连接关系。"
这种双重评分机制的优势在实际应用中得到了充分验证。在处理复杂的胆管系统分割任务时,单独使用群体评分的系统往往过于依赖"标准模板",遇到变异病例时容易出错。而单独使用个体评分的系统虽然适应性强,但可能因为缺乏基础知识而在某些情况下做出错误判断。只有将两者结合,才能既保持科学的严谨性,又具备临床实践所需的灵活性。
更重要的是,这种评分系统是动态调整的。随着处理的病例越来越多,群体评分会越来越准确地反映人群中的共同特征,而个体评分生成器也会越来越善于识别和适应各种特殊情况。这就像一个医生在职业生涯中不断积累经验,既加深了对基础医学知识的理解,又提高了处理复杂疑难病例的能力。
三、技术架构的精妙设计:让机器拥有医生的"直觉"
ASM-UNet的整体架构就像一个设计精良的诊断流水线,每个组件都有其特定的功能,而它们之间的协调配合确保了整个系统的高效运行。这个"流水线"的设计灵感来源于医生阅读影像的实际过程,但通过技术手段实现了超越人类的处理速度和一致性。
整个系统采用了经典的U-Net架构作为基础框架,这就像建筑的承重结构,提供了稳定可靠的基础。U-Net的设计特别适合医疗影像分割任务,因为它采用了"先压缩再展开"的策略:编码器部分逐步压缩图像信息,提取越来越抽象的特征;解码器部分则逐步恢复空间分辨率,最终生成精确的分割结果。这个过程就像艺术家画素描,先勾勒大致轮廓,再逐步添加细节。
但是,传统U-Net在处理复杂的空间关系时存在局限性。这就像一个只能看到局部区域的观察者,虽然能够描述眼前的细节,却难以理解整体的布局和连接关系。为了解决这个问题,研究团队在关键位置引入了ASM模块,就像在关键的观察点安装了"全景摄像头"。
ASM模块的放置位置经过精心设计。它被安排在第一个编码器块之后和最后一个解码器块之前,这两个位置具有特殊的意义。第一个编码器块之后的位置保持了较高的空间分辨率,能够捕捉精细的结构细节;最后一个解码器块之前的位置则负责在输出之前进行最终的优化调整。这种设计就像在诊断流程的关键节点设置"质量控制检查点",确保重要信息不会丢失。
ASM模块的内部工作机制更是体现了设计者的匠心独运。当影像数据进入ASM模块时,首先会经历一个"空间重组"过程。原本按照三维空间排列的像素点会被"摊平"成一个长序列,就像把一本立体书展开成一条长长的纸带。这种转换看似简单,实际上为后续的自适应扫描奠定了基础。
接下来就是ASM模块的核心环节——自适应评分生成和特征重排序。这个过程可以比作一个智能的图书管理员,他不会机械地按照书籍的摆放顺序阅读,而是根据查找的需要重新安排阅读顺序。系统会为序列中的每个位置生成一个评分,这个评分综合考虑了群体知识和个体特征,然后根据评分对序列进行重新排列。
重排序后的特征序列会被送入多个并行的Mamba层进行处理。这种并行处理就像多个专家同时从不同角度分析同一个案例,每个专家都能提供独特的见解。有的专家可能更擅长识别血管结构,有的专家可能对胆管形态更敏感,有的专家可能在判断病理变化方面更有经验。
Mamba层的工作原理体现了序列建模的先进理念。与传统的卷积操作不同,Mamba能够建立序列中任意两点之间的联系,就像一个记忆力超强的分析师,能够同时关注所有细节并理解它们之间的复杂关系。更重要的是,这种处理是高效的,不会因为序列长度的增加而导致计算负担的平方级增长。
多个Mamba层的输出需要进行巧妙的整合。系统采用了"撤销重排序"和"平均融合"的策略来处理这些并行结果。撤销重排序就像把重新洗过的牌按照原始顺序排好,确保每个特征回到其应有的空间位置。平均融合则像多个专家意见的民主投票,通过综合不同视角的分析结果,得出最可靠的最终判断。
整个ASM模块的设计哲学体现了"既要又要"的平衡艺术:既要保持计算效率,又要提供足够的表达能力;既要利用群体知识,又要适应个体差异;既要处理局部细节,又要把握全局关系。这种平衡的实现需要大量的工程优化和实验验证,体现了研究团队深厚的技术功底。
系统的训练过程也体现了精心的设计考量。研究团队采用了组合损失函数,同时优化分割精度和边界清晰度。训练策略包括数据增强、早停机制等技术,确保模型既能充分学习又不会过拟合。这就像培养一个医学生,既要让他掌握足够的知识,又要防止他过度拘泥于教科书而缺乏临床灵活性。
四、实验验证:从理论到实践的华丽转身
理论再完美,也需要实践的检验。清华大学研究团队设计了一系列全面而严格的实验,就像给新药进行多期临床试验一样,要确保ASM-UNet在各种情况下都能表现出色。这些实验不仅证明了技术的有效性,更揭示了精细粒度分割这个领域面临的挑战和机遇。
实验的设计体现了科学研究的严谨性。研究团队选择了三个不同类型的数据集进行测试:两个公开的标准数据集(ACDC和Synapse)用于验证技术的通用性,以及他们自己构建的BTMS数据集用于专门测试精细粒度分割能力。这种多层次的验证策略就像考试中的不同题型,既有基础题检验基本功,又有难题考查真实水平。
ACDC数据集专注于心脏结构分割,包含150个病例的2978张切片,需要识别右心室、心肌和左心室三个结构。这个任务相对简单,主要考查系统处理常规医疗影像的基本能力,就像医学院的期中考试,主要检验学生对基础知识的掌握程度。
Synapse数据集则更具挑战性,它包含30个患者的3779张切片,需要分割八个不同的腹部器官:主动脉、胆囊、左肾、右肾、肝脏、胰腺、脾脏和胃。这个任务的复杂度显著提升,就像从单科考试升级到综合考试,需要系统具备处理多种器官结构的综合能力。
而BTMS数据集才是真正的"终极考试"。这个由研究团队精心构建的数据集专门针对胆管系统的精细分割,包含100个病例的20419张高分辨率切片,需要准确识别八个精细的胆管结构。这些结构不仅尺寸微小,而且个体差异巨大,就像要求学生在显微镜下进行精密操作,既考验技术水平,也考验适应能力。
BTMS数据集的构建本身就是一项了不起的贡献。现有的公开数据集大多只提供胆囊的粗粒度标注,而BTMS数据集则提供了完整胆管系统的精细标注。这就像从只有省级行政区划的地图升级到包含所有街道和小巷的详细地图,为研究者提供了前所未有的研究资源。
实验结果令人振奋,但也充满了深刻的洞察。在ACDC数据集上,ASM-UNet达到了92.61%的平均Dice分数,超越了第二名0.55个百分点。在Synapse数据集上,平均Dice分数达到87.27%,领先第二名0.70个百分点。这些结果证明了ASM-UNet在常规分割任务上的优秀表现,就像一个优等生在基础考试中取得的好成绩。
但真正的考验来自BTMS数据集。在这个专门设计的精细分割任务中,ASM-UNet的优势更加明显。在包含所有八个类别的完整分割任务中,ASM-UNet达到了76.74%的粗粒度分数和42.57%的精细粒度分数。虽然这些数字看起来不如前两个数据集那么亮眼,但考虑到任务的极端困难性,这已经是相当了不起的成就。
更有启发性的是不同类别之间的巨大性能差异。胆囊作为最大的结构,分割准确率达到84.59%,而胆囊管和右肝管这两个"困难类别"的准确率分别只有23.41%和24.37%。这种差异揭示了精细粒度分割面临的核心挑战:结构越小、变异越大,分割就越困难。
研究团队进行的对比实验特别有说服力。他们将ASM-UNet与13种不同的先进方法进行了全面比较,包括9种通用方法和4种基于Mamba的专门方法。结果显示,ASM-UNet在绝大多数指标上都取得了最佳成绩,特别是在精细粒度分割任务中表现出明显优势。
消融实验的结果更是印证了设计思路的正确性。当研究团队逐个移除系统的不同组件时,性能都出现了不同程度的下降。单独使用个体评分时,精细分割准确率为41.34%;单独使用群体评分时,准确率为41.87%;而两者结合使用时,准确率提升到42.57%。这证明了双重评分机制确实实现了"1+1>2"的协同效应。
参数分析实验则揭示了系统设计的科学性。研究团队测试了不同数量的并行分支对性能的影响,发现三个分支时达到最佳平衡点。这个发现具有重要的实用价值:太少的分支无法充分捕捉多样性,太多的分支则可能导致信息冗余和计算浪费。
可视化结果提供了最直观的证据。在展示的分割结果中,ASM-UNet不仅能够准确识别各种胆管结构,还能保持良好的边界清晰度和空间连续性。与其他方法相比,ASM-UNet的结果最接近真实标注,特别是在处理复杂的分支结构和细小的管道时表现突出。
然而,实验结果也诚实地反映了当前技术的局限性。即使是最先进的ASM-UNet,在处理那些极其微小且高度变异的结构时仍然面临挑战。胆囊管和右肝管的低分割准确率提醒我们,精细粒度分割仍有很长的路要走,需要更多的技术创新和数据积累。
五、突破与局限:技术进步路上的光明与阴影
任何科学研究都像登山一样,既有攀登的喜悦,也有面对险峰的谦逊。ASM-UNet的研究成果为精细粒度医疗影像分割开辟了新的道路,但研究团队也十分诚实地指出了当前技术的边界和未来需要攻克的挑战。
ASM-UNet最显著的突破在于首次实现了真正意义上的自适应扫描机制。以往的方法就像按照固定程序工作的机器人,无论面对什么情况都只会重复同样的动作。而ASM-UNet则像一个经验丰富的医生,能够根据每个患者的具体情况调整观察策略。这种灵活性的获得并非偶然,而是基于对医疗影像分析本质的深刻理解。
双重评分机制的提出代表了思维方式的重要转变。传统方法要么完全依赖统计规律(群体共性),要么试图为每个案例量身定制(个体差异),但很少有方法能够有效平衡这两种需求。ASM-UNet的成功证明了"既要又要"不是贪心,而是医疗人工智能发展的必然要求。
从实际性能来看,ASM-UNet在多个数据集上都实现了当前最好的结果。特别是在BTMS这样的挑战性数据集上,相比第二名的改进幅度达到2%以上,这在医疗影像分割领域已经是相当显著的进步。更重要的是,这种改进不是通过简单的参数调优获得的,而是来自于架构设计上的根本性创新。
技术的通用性也得到了验证。ASM-UNet不仅在精细粒度分割任务中表现优异,在传统的粗粒度分割任务中也保持了领先地位。这证明了自适应扫描机制具有广泛的适用性,不是只针对特定问题的权宜之计,而是具有普遍价值的技术进步。
BTMS数据集的构建和开源也是这项研究的重要贡献。现有的公开数据集在精细粒度分割方面存在严重不足,研究者们往往只能在相对简单的任务上验证算法性能。BTMS数据集的发布为整个研究领域提供了一个全新的标准测试平台,这种基础设施的建设对科学进步具有深远意义。
然而,研究团队也坦诚地承认了当前技术的局限性。最明显的问题体现在对"困难类别"的处理上。胆囊管和右肝管这两个结构的分割准确率仍然较低,甚至有些先进方法在某些测试案例中完全无法检测到这些结构,导致0%的分割准确率。
这种局限性的根源是多方面的。首先是尺寸问题:这些结构往往只有几个像素宽,在医疗影像的噪声和伪影干扰下很容易被忽略或误判。其次是变异问题:个体差异导致这些结构的位置、形状甚至存在性都可能发生变化,使得基于统计学习的方法难以建立稳定的模式识别。
数据质量也是一个挑战。虽然BTMS数据集已经达到了相当高的标准,但精细结构的标注本身就是一项极其困难的工作,需要经验丰富的影像科医生投入大量时间和精力。标注的主观性和一致性问题会直接影响模型的学习效果,这是整个领域都面临的共同挑战。
计算资源的需求也不容忽视。虽然Mamba技术相比Transformer有了显著的效率提升,但处理高分辨率的三维医疗影像仍然需要相当的计算能力。ASM-UNet需要在两块高端GPU上训练,这对于资源有限的研究机构或医疗单位来说可能是一个门槛。
更深层次的挑战在于医学知识的整合。现在的人工智能系统主要依赖数据驱动的学习,但医学诊断不仅需要模式识别,还需要大量的先验知识和推理能力。如何将解剖学知识、生理学原理、病理学规律等专业知识有效地融入深度学习模型,仍然是一个开放性问题。
临床应用的复杂性也是需要考虑的因素。实验室环境下的优异表现并不能自动保证临床应用的成功。真实的临床环境中存在各种意想不到的情况:图像质量的波动、设备参数的差异、患者配合度的变化等都可能影响算法的稳定性。
尽管存在这些挑战,ASM-UNet的研究成果仍然具有重要的启发意义。它证明了通过精心的架构设计和创新的技术思路,确实可以在困难的医疗影像分析任务中取得突破性进展。更重要的是,这项研究为未来的发展方向指明了道路:个性化的自适应处理、多层次信息的融合、以及高效计算架构的探索都将是推动这个领域持续发展的关键因素。
说到底,ASM-UNet的意义不仅在于其当前取得的成绩,更在于它开启的可能性。就像第一台计算机并不完美,但开启了信息时代的大门一样,ASM-UNet在精细粒度医疗影像分割领域的探索,可能正在为未来的精准医疗和智能诊断铺设基础。这种从理论创新到实践验证,再到技术开源的完整研究循环,体现了现代科学研究应有的开放精神和社会责任。
当我们回顾这项研究时,会发现它不仅仅是一个技术问题的解决方案,更是科学研究方法的优秀范例。从问题的发现到解决方案的提出,从理论设计到实验验证,从成果分享到局限性的坦诚讨论,每一个环节都体现了严谨的科学态度。这种态度和方法,或许比具体的技术成果更加珍贵,因为它为后续研究者指明了前进的方向,也为整个领域的健康发展奠定了基础。
Q&A
Q1:ASM-UNet与传统医疗影像识别系统相比有什么特别之处?
A:传统系统就像按固定路线巡逻的保安,只会机械地从左到右或从上到下扫描图像。而ASM-UNet像经验丰富的医生,能根据每个患者的具体情况调整观察策略,既掌握解剖学通用知识,又能适应个体差异,特别擅长识别胆管这类精细复杂的结构。
Q2:BTMS数据集有什么特殊价值?为什么要专门建立这个数据集?
A:现有公开数据集只能识别胆囊等大器官,就像只有省级地图。而BTMS数据集提供了胆管系统8个精细结构的完整标注,包含100个病例20419张高分辨率切片,就像详细到街道的精确地图,为精细医疗结构分割研究提供了前所未有的标准测试平台。
Q3:ASM-UNet在实际应用中还存在哪些挑战和限制?
A:主要挑战是处理极小结构时准确率仍然不够高,比如胆囊管这种只有几个像素宽的结构,有时甚至无法检测到。另外需要高端GPU设备支持,且真实临床环境比实验室更复杂,图像质量波动、设备差异等都可能影响性能稳定性。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。