这项由加州大学洛杉矶分校(UCLA)的洪宜宁、孙锐、李炳轩、姚星成、吴美心、钱亚历山大、尹达、吴应念、王哲灿·詹姆斯、张凯维等研究者共同完成的突破性研究,于2025年6月18日以预印本形式发布在arXiv平台上。有兴趣深入了解的读者可以通过https://embodied-web-agent.github.io/访问完整项目资源。这项研究首次提出了"具身网络智能体"的全新概念,创造了一种能够同时在物理世界和数字世界中自由行动的AI系统。
我们日常生活中经常会遇到这样的场景:你想做一道新菜,需要先在网上查找食谱,然后去超市买缺少的食材,回到厨房按照食谱步骤烹饪。或者你想去一个陌生的地方旅行,需要在地图软件上查找路线,然后在现实中按照导航走到目的地,沿途还可能需要查询某个建筑物的历史背景。这些看似简单的任务,实际上需要我们不断在"数字世界"(网络、手机应用)和"物理世界"(真实环境、实际行动)之间切换。
然而令人惊讶的是,目前的AI系统却无法像人类一样自然地完成这种跨域任务。现有的AI要么专注于网络信息处理,能够搜索资料、理解文本,但无法在现实中行动;要么专注于物理世界的操作,比如机器人能够移动、抓取物体,但无法主动上网获取信息。这就像让一个人只能用左手或者只能用右手生活一样,严重限制了AI的实用性。
UCLA的研究团队意识到,真正有用的AI助手应该能够像人类一样,同时具备"数字智慧"和"物理能力"。他们创造性地提出了"具身网络智能体"这一概念,开发出了能够在现实世界中行走、观察、操作物品,同时又能够上网搜索信息、阅读网页、进行在线购物的AI系统。这种智能体不仅能够理解"在网上找到土豆炒蛋的食谱"这样的数字任务,还能够在现实厨房中识别食材、操作炊具,完成真正的烹饪过程。
为了验证这种新型智能体的能力,研究团队构建了一个包含约1500个任务的综合测试平台,涵盖了烹饪、导航、购物、旅游和地理定位五个主要场景。他们使用GPT-4o、Gemini 2.0 Flash、Qwen-VL-Plus和InternVL2.5等当前最先进的大型语言模型进行测试,结果发现这些AI系统在跨域任务上的表现远远不如人类。这一发现不仅揭示了当前AI技术的局限性,也为未来AI发展指明了新的方向。
一、当前AI的"数字-物理"鸿沟究竟有多深
在我们的日常生活中,数字世界和物理世界的界限正在变得越来越模糊。当你饿了想吃饭时,你可能会先在手机上查看美食应用,然后根据评价和距离选择餐厅,接着使用地图导航到达目的地,最后在现实中享用美食。整个过程看似简单,但实际上需要你的大脑在两个不同的世界之间无缝切换:一个是充满信息的数字世界,另一个是需要实际行动的物理世界。
然而,当前的AI系统却面临着严重的"分裂症"问题。一类AI专门处理网络信息,它们可以快速搜索数百万网页,理解复杂文本,甚至能够与人类进行智能对话,但它们就像被困在屏幕里的智慧生物,无法伸出"手"来触摸现实世界。另一类AI则专注于物理操作,比如工厂里的机器人手臂能够精准地装配零件,扫地机器人能够在房间里自主导航,但它们就像"信息盲人",无法主动获取网络上的最新信息来优化自己的行为。
这种分割带来了严重的实用性问题。以烹饪为例,一个专门处理网络信息的AI可以为你推荐完美的食谱,详细解释每一个步骤,甚至能够根据你的饮食偏好进行个性化调整。但当涉及到实际烹饪时,它却无法帮你识别冰箱里的食材是否新鲜,无法判断炒菜时火候是否合适,更无法在发现缺少某种调料时主动建议你去哪家超市购买。
相反,一个专门处理物理任务的机器人可能能够切菜、炒菜,甚至完成相当复杂的烹饪动作,但它无法理解"今天想吃点清淡的"这样的抽象需求,也无法在制作过程中遇到问题时上网查找解决方案。更重要的是,它无法像人类一样,在烹饪过程中突然想到"这道菜的历史背景是什么"而去搜索相关信息,然后在餐桌上与家人分享这些有趣的知识。
研究团队发现,这种分割不仅仅是技术实现上的问题,更是概念框架上的根本缺陷。传统的AI研究往往将"智能"分为两个独立的领域:一个是基于符号和语言的"认知智能",另一个是基于感知和行动的"具身智能"。这就像试图分别训练一个人的左脑和右脑,而忽视了大脑作为一个整体系统的协调工作机制。
更深层的问题在于,现实世界的任务往往天然地需要这两种能力的协同。当你在一个陌生城市旅行时,你需要在手机地图上查找路线(数字能力),然后在现实街道中按照指示行走(物理能力),在看到有趣的建筑时用搜索引擎查询其历史背景(数字能力),最后拍照留念并在社交媒体上分享(物理+数字能力的组合)。这种能力的切换是如此自然和频繁,以至于我们通常意识不到自己在不断地跨越两个世界的边界。
研究团队意识到,如果AI要真正成为人类的智能助手,它必须能够像人类一样在这两个世界之间自由穿梭。这不仅仅是技术上的挑战,更是对AI智能定义的重新思考。他们提出,真正的智能应该是"统一的智能",能够将数字世界的无限信息资源与物理世界的实际操作能力结合起来,形成一种全新的智能形态。
二、革命性的"具身网络智能体"横空出世
面对AI世界中这道看似无法跨越的鸿沟,UCLA研究团队提出了一个大胆而创新的解决方案:具身网络智能体(Embodied Web Agents)。这个概念听起来可能有些抽象,但可以用一个简单的比喻来理解:如果传统的AI是要么只有"大脑"(能思考但不能行动),要么只有"身体"(能行动但缺乏丰富知识),那么具身网络智能体就是拥有完整"大脑+身体+互联网连接"的智能存在。
这种新型智能体的核心理念是"无缝融合"。它不是简单地将两种不同的AI系统拼接在一起,而是从根本上重新设计了智能体的架构,使其能够像人类一样自然地在数字世界和物理世界之间切换。比如,当智能体在厨房里发现缺少某种食材时,它不需要等待人类的指令,而是能够主动访问购物网站,查找该食材的价格和库存信息,甚至直接下单购买,然后继续进行烹饪任务。
为了实现这一愿景,研究团队需要解决几个关键的技术挑战。首先是"感知对齐"问题,也就是如何让智能体将抽象的网络指令与具体的物理观察联系起来。比如,当食谱上写着"将土豆炒至金黄色"时,智能体需要能够通过视觉观察判断土豆是否达到了"金黄色"的状态。这要求智能体不仅要理解语言描述,还要能够将这些描述映射到实际的视觉特征上。
第二个挑战是"跨域规划"问题。在传统的单域AI系统中,规划相对简单:要么制定一系列网络操作步骤,要么规划一系列物理动作。但在跨域系统中,智能体需要能够动态地决定何时应该转向网络搜索,何时应该回到物理操作,尤其是当两个域的信息出现冲突时该如何处理。比如,网络地图显示某条路可以通行,但实际观察发现道路正在施工,智能体需要能够重新规划路线。
第三个挑战是"持续记忆"问题。由于跨域任务往往比较复杂且耗时较长,智能体需要能够在不同域之间保持一致的记忆和状态。它需要记住在网络上查找到的信息,并在物理操作中应用这些信息,同时还要能够将物理世界的观察结果反馈到网络搜索中,形成一个完整的信息循环。
为了应对这些挑战,研究团队开发了一个创新的三层架构系统。底层是环境感知层,包括室内3D环境(基于AI2-THOR平台)、室外街景环境(基于Google Street View)和网络环境(包括多个功能性网站)。中层是融合推理层,负责处理跨域的信息整合和决策制定。顶层是任务执行层,能够根据当前情况选择合适的操作模式。
这种架构的巧妙之处在于,它将整个系统视为一个统一的状态空间,其中物理状态和数字状态被平等对待。智能体的每一次决策都可能涉及状态空间的跨域转换,比如从"在厨房切菜"转换到"在购物网站查找调料",然后再转换到"根据配送时间调整烹饪计划"。这种设计使得智能体能够像人类一样自然地在不同任务模式之间切换。
更重要的是,这种架构支持真正的"协同智能"。传统的AI系统往往是"单向"的:要么从输入到输出,要么从感知到行动。但具身网络智能体创造了一个"多向循环":网络信息可以指导物理行动,物理观察可以触发网络搜索,而新的网络信息又可以修正之前的物理操作。这种循环使得智能体能够在复杂的现实任务中表现出真正的适应性和创造性。
三、构建跨域智能体的技术魔法
要让AI智能体同时在数字世界和物理世界中自如操作,就像要求一个人同时成为出色的网络侦探和灵巧的手工艺师。这需要一套完全不同于传统AI的技术架构。UCLA团队巧妙地将这个复杂系统分解为三个相互配合的环境模块,每个模块都有其独特的功能和挑战。
室外环境模块就像为智能体提供了一双"千里眼"。研究团队没有选择创建虚拟的3D城市模型,而是直接利用了Google Street View的真实街景数据。这个决策看似简单,但实际上解决了一个巨大的技术难题:如何让AI在真实世界的复杂环境中导航。他们选择了纽约、波士顿、费城和匹兹堡四个城市,这些城市的街道布局复杂多样,为智能体提供了丰富的测试场景。
这种基于真实数据的方法带来了意想不到的好处。与那些在理想化虚拟环境中训练的AI不同,这些智能体需要处理真实世界的"噪音":模糊的街景图像、不完整的路标、甚至是拍摄时的天气条件变化。这些看似"缺陷"的因素实际上让智能体变得更加robust,更接近人类在现实中面临的挑战。智能体需要学会从四个方向的街景图像中提取有用信息,理解相邻地点之间的空间关系,并根据距离和方向信息做出导航决策。
室内环境模块则扮演了"精工坊"的角色。基于AI2-THOR平台,研究团队创建了高度逼真的厨房场景,其中包含了各种食材、烹饪设备和存储容器。这个环境的精妙之处在于,它不仅仅是静态的3D模型,而是一个动态的物理仿真系统。当智能体切西红柿时,西红柿会真的被分成几块;当它加热食物时,食物的状态会发生相应变化;当它打开冰箱时,里面的物品布局会根据之前的操作而改变。
这种动态特性使得烹饪任务变得极具挑战性。智能体不仅需要理解"将鸡蛋煎至半熟"这样的指令,还需要通过视觉观察来判断鸡蛋是否达到了理想状态。它需要学会协调多个任务:一边搅拌汤,一边观察面包的烘烤程度,同时还要记住食谱中的下一个步骤。这种多任务协调能力正是人类烹饪技能的核心,也是传统AI系统难以掌握的。
网络环境模块则充当了"信息中枢"的作用。研究团队没有简单地使用现有的网站,而是精心设计了五个功能性网站,每个都针对特定的任务需求。食谱网站不仅提供烹饪步骤,还支持基于食材、饮食偏好和难度级别的智能筛选。购物网站模拟了完整的电商体验,包括商品搜索、价格比较、购物车管理和结账流程。地图网站基于OpenStreetMap,提供交互式的位置搜索和路线规划功能。
最有趣的是,这些网站之间通过一个中央"主页"连接,模拟了真实的网络浏览体验。智能体可以在不同网站之间切换,打开多个浏览器标签,甚至需要处理网页加载时间和网络连接问题。这种设计让智能体的网络行为更加接近人类,需要学会管理注意力和记忆,在复杂的信息环境中保持任务焦点。
系统的核心创新在于"状态同步"机制。当智能体在物理环境中发现缺少某种食材时,这个信息不仅会影响其在厨房中的行为,还会自动触发网络搜索任务。智能体会访问购物网站,查找该食材的可用性和价格,甚至会考虑配送时间对整个烹饪计划的影响。这种跨域信息流动是传统AI系统无法实现的,它要求系统在不同的状态空间之间建立动态映射关系。
更令人印象深刻的是"上下文保持"能力。在复杂的跨域任务中,智能体需要记住大量的上下文信息:食谱的步骤、购物清单、导航指令、时间约束等等。传统的AI系统往往在任务切换时丢失这些信息,但具身网络智能体通过创新的记忆架构,能够在不同操作模式之间保持完整的任务上下文。比如,在前往商店购买食材的路上,它依然记得回到厨房后需要进行的具体烹饪步骤。
四、五大挑战场景:让AI接受"现实世界大考"
为了全面测试具身网络智能体的能力,UCLA团队精心设计了五个不同的挑战场景,每个场景都模拟了人类日常生活中需要跨域思维的典型情况。这些测试不仅要求智能体掌握单一技能,更要考验它们在复杂现实情境中的综合应变能力。
导航任务就像给智能体上了一堂"现实地理课"。这些任务远比简单的"从A点到B点"复杂得多。智能体需要先在OpenStreetMap网站上输入起点和终点,理解生成的路线指示,然后在真实的街景环境中按照这些指示进行移动。听起来简单,但实际操作中却充满挑战。网络地图可能显示"向东走300米后左转",但在实际街景中,智能体需要识别哪个方向是东,如何判断已经走了大约300米,以及在众多的分岔路口中选择正确的左转方向。
更复杂的是,网络信息和现实观察之间经常出现不一致。地图上显示的直路在现实中可能因为施工而被封闭,标注的商店可能已经搬迁,甚至街道名称在地图和实际路标之间可能存在差异。智能体需要学会在这种不确定性中做出合理的决策,既要相信网络信息的总体指导,又要根据实际观察灵活调整路线。
购物任务则将智能体推入了"消费决策"的复杂世界。这不仅仅是找到商品并点击购买那么简单,而是需要综合考虑多个因素的优化问题。比如,任务可能要求智能体"购买最便宜的有机鸡蛋",这就需要它在购物网站上比较不同商家的价格,理解"有机"这个概念,并考虑配送费用和配送时间等隐性成本。
最有趣的是,购物任务往往与导航任务相互交织。智能体可能需要比较在线购买和实体店购买的优劣,这就要求它能够计算前往不同商店的时间成本,评估商品的即时可得性,甚至考虑购物体验的差异。有些任务还要求智能体在多个浏览器标签之间切换,同时管理购物网站和地图网站,这种多任务处理能力对AI系统来说是极大的挑战。
旅游任务将智能体变成了"文化探索者"。这类任务通常从一个简单的导航请求开始,比如"从现代艺术博物馆走到洛克菲勒中心",但在途中会遇到各种有趣的建筑物或地标。智能体需要识别这些地标,然后主动使用Wikipedia搜索相关信息。比如,当它遇到一座哥特式建筑时,需要拍照记录,搜索该建筑的历史背景,了解哥特式建筑风格的特点,甚至可能需要在Reddit等社交平台上分享自己的发现和感受。
这种任务的难点在于"主动探索"和"知识整合"。与传统的被动式信息检索不同,智能体需要学会在物理探索过程中主动识别值得关注的对象,然后将视觉观察与网络知识进行匹配。它需要理解"这座建筑看起来很特别"这种抽象概念,并将其转化为具体的搜索查询。更重要的是,它需要将获得的信息与实际观察相结合,形成完整的理解。
烹饪任务可能是所有挑战中最复杂的,因为它需要精确的物理操作和持续的状态监控。智能体需要在食谱网站上找到合适的菜谱,理解复杂的烹饪指令,然后在厨房中执行这些指令。但现实中的烹饪远比食谱描述的复杂:不同的炉灶温度不同,食材的新鲜程度会影响烹饪时间,甚至环境湿度都可能影响最终效果。
最有挑战性的是"动态适应"要求。当智能体发现缺少某种食材时,它不能简单地停止任务,而是需要决定是寻找替代品、在线订购、还是调整整个菜谱。这种决策需要综合考虑时间约束、成本效益、味道影响等多个因素。有时智能体甚至需要在烹饪过程中暂停,上网搜索"如果没有百里香可以用什么代替"这样的具体问题。
地理定位任务则将智能体变成了"地理侦探"。与传统的图像识别不同,这种任务允许智能体在环境中自由移动,收集多角度的视觉信息,并结合网络搜索来推断自己的位置。比如,智能体可能看到一个写着"109"的商店招牌,然后搜索"109商店",发现这是日本涩谷的著名地标,从而推断出自己在东京。
这种任务的精妙之处在于"信息融合"和"推理链构建"。智能体需要将多个看似无关的线索串联起来:建筑风格、文字符号、植被类型、天气状况等等,然后通过网络搜索验证自己的推测。更有趣的是,即使网络搜索结果不够准确,搜索过程本身也会帮助智能体形成更清晰的推理思路。
五、当最强AI遭遇现实:令人深思的测试结果
当研究团队将当前最先进的AI模型—包括GPT-4o、Gemini 2.0 Flash、Qwen-VL-Plus和InternVL2.5—投入到这些跨域挑战中时,结果既令人惊讶又发人深省。这些在单一领域表现出色的AI巨头,在面对需要跨域协作的现实任务时,表现得就像刚学会走路的孩子一样磕磕绊绊。
在导航任务中,表现最好的GPT-4o仅达到了34.72%的总体成功率,这意味着即使是最先进的AI,在十次导航任务中也会失败六次以上。更有趣的是,这些AI在处理网络部分(比如理解地图指示)时表现相对较好,达到了69.44%的成功率,但一旦需要将这些指示转化为实际的物理移动,成功率就大幅下降到48.61%。这就像一个人能够完美地阅读菜谱,但一进厨房就手忙脚乱。
购物任务的结果更加令人担忧。GPT-4o的总体成功率只有25.46%,这意味着在四次购物任务中,AI会失败三次。考虑到在线购物已经是人类的日常活动,这样的成功率显然远远不够实用。问题的核心在于,AI需要同时处理价格比较、库存查询、配送选择等多个变量,然后还要将在线购买决策与实际的物理位置(比如商店距离)相结合。
最令人印象深刻的是烹饪任务的测试结果。在这个最复杂的跨域挑战中,即使是表现最好的GPT-4o,其总体成功率也仅有6.4%,而人类的成功率达到了77.08%。这个巨大的差距暴露了当前AI在处理复杂多步骤任务时的根本性局限。更有趣的是,研究团队发现,当使用文本形式(而非视觉形式)描述环境状态时,AI的表现会有所改善,这说明当前的视觉理解能力仍然是AI的一个重要瓶颈。
然而,最令人鼓舞的结果来自地理定位任务。在这个任务中,具身网络智能体的表现显著超越了仅使用静态图像的传统方法。比如,GPT-4o在静态图像定位中只能达到1.41%的精确定位率,但在允许移动和网络搜索的具身环境中,这个数字跃升到了3.52%。虽然绝对数字仍然不高,但这种提升证明了跨域协作的潜在价值。
深入分析这些失败案例,研究团队发现了一个重要模式:AI的主要问题不在于单一领域的技能缺失,而在于跨域协调的困难。在烹饪任务的错误分析中,66.6%的失败都源于"跨域错误",比如智能体在网络和物理环境之间切换时出现混乱,或者无法将网络指示正确映射到物理操作上。
最常见的失败模式是"单域陷阱"。在23.6%的失败案例中,智能体会困在物理环境中重复执行无意义的动作,完全忘记了需要返回网络获取下一步指示。另外13.2%的失败则相反,智能体会困在网络环境中无休止地点击"下一步",而忘记了需要回到物理世界执行实际操作。这种行为就像一个人在厨房里反复搅拌空锅,或者在手机上无休止地刷食谱而从不开始烹饪。
还有一类有趣的失败是"指令-行动错位",占总失败的11.8%。智能体可能理解了"切苹果"的指令,但实际上却去切生菜。这种错误暴露了当前AI在将抽象语言指令转化为具体物理行动时的困难。它们就像一个听力很好但手眼协调有问题的人,能够完美理解指示,但在执行时却出现偏差。
更深层的问题在于"上下文丢失"。在长期的跨域任务中,智能体往往会忘记之前的操作历史或当前的任务目标。比如,在购买食材后返回厨房时,它可能已经忘记了最初想要制作的菜品,或者在查询建筑历史后忘记了原本的导航目标。这种短期记忆问题在人类中也存在,但AI的情况更加严重。
六、展望未来:跨域智能的无限可能
尽管当前的测试结果显示了巨大的挑战,但UCLA团队的研究为AI发展开辟了一个全新的方向。具身网络智能体的概念不仅仅是技术创新,更是对AI未来形态的重新想象。这种能够同时驾驭数字世界和物理世界的智能体,可能会在未来几年内彻底改变我们与AI交互的方式。
从技术角度来看,这项研究暴露了当前AI技术的几个关键瓶颈,同时也指明了解决方向。首先是"跨域状态管理"问题。未来的AI系统需要开发更强大的记忆架构,能够在不同操作模式之间保持完整的任务上下文。这可能需要借鉴人类大脑中海马体的工作机制,开发能够动态编码和检索跨域信息的神经网络结构。
其次是"多模态融合"能力的提升。当前的AI在将视觉信息、文本信息和空间信息进行整合时仍然存在困难。未来的系统需要能够像人类一样,将"这个苹果看起来很新鲜"的视觉判断与"食谱要求使用新鲜苹果"的文本信息无缝结合,并据此做出合理的行动决策。
从应用前景来看,具身网络智能体可能会催生全新的AI应用模式。在教育领域,这种智能体可以成为真正的"实践导师",不仅传授理论知识,还能在现实环境中指导学生进行实际操作。比如,一个化学学习智能体可以在网络上查找实验原理,然后在实验室中指导学生安全地进行实验操作。
在医疗保健领域,具身网络智能体可能会成为"全能护理助手"。它们可以在网络上查找最新的医疗指南,然后在现实中协助医生进行诊断和治疗。更重要的是,它们可以在家庭环境中提供持续的健康监护,根据在线健康数据和实际观察来调整护理方案。
在城市管理方面,这种智能体可能会成为"智慧城市的神经系统"。它们可以同时监控网络数据流和物理基础设施,在发现问题时能够快速协调线上资源和线下行动。比如,当检测到某个区域的空气质量下降时,智能体可以同时调用网络数据分析污染源,并协调实际的环境治理行动。
然而,这种技术发展也带来了新的挑战和思考。首先是隐私保护问题。具身网络智能体需要同时访问用户的物理环境和网络活动,这可能会带来前所未有的隐私风险。如何在提供智能服务的同时保护用户隐私,将成为一个重要的技术和法律挑战。
其次是"双重幻觉"问题。传统的AI可能在单一领域产生错误信息,但跨域AI可能会在两个领域同时产生错误,并且这些错误可能会相互强化。比如,智能体可能错误地识别了某个地标,然后基于这个错误识别在网络上搜索了错误信息,最终形成完全偏离现实的认知。
最重要的是,我们需要重新思考人机关系。当AI能够同时在数字世界和物理世界中行动时,它们可能会对人类的生活产生更加深刻和直接的影响。如何确保这种影响是积极的,如何在享受智能便利的同时保持人类的自主性和创造性,这些都是需要深入探讨的问题。
说到底,UCLA团队的这项研究虽然揭示了当前AI技术的局限性,但更重要的是,它为我们描绘了一个AI与人类更加紧密协作的未来图景。在这个图景中,AI不再是被动的工具,而是能够主动理解和参与人类活动的智能伙伴。虽然距离这个目标还有很长的路要走,但这项研究已经为我们指明了前进的方向。
通过构建这个包含1500多个跨域任务的综合测试平台,研究团队不仅创造了一个评估AI跨域能力的标准,更为整个AI研究社区提供了一个新的研究范式。未来的AI研究可能会越来越关注这种"统一智能"的发展,而不是继续在分离的领域中各自为政。这种转向可能会带来AI技术的重大突破,最终实现真正能够理解和适应复杂现实世界的智能系统。
Q&A
Q1:具身网络智能体是什么?它和普通AI有什么区别? A:具身网络智能体是一种能够同时在现实世界和网络世界中行动的AI系统。与传统AI不同,它不仅能搜索网络信息、理解文本,还能在现实环境中移动、观察、操作物品。就像给AI装上了"身体"和"网络连接",让它既能动手又能动脑。
Q2:这种AI技术现在能实际应用吗?成功率怎么样? A:目前还不能实际应用。测试显示,即使是最先进的AI模型,在跨域任务中的成功率也很低。比如在烹饪任务中,GPT-4o的成功率只有6.4%,而人类达到77%。主要问题是AI无法很好地在物理操作和网络搜索之间协调。
Q3:这项研究对未来AI发展有什么意义? A:这项研究开创了AI研究的新方向,即"统一智能"。它揭示了当前AI的关键局限—无法跨域协作,并提供了解决思路。未来可能应用于智能家居、医疗护理、教育等领域,让AI成为真正能理解和参与人类复杂活动的智能伙伴。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。