这项研究由克罗地亚普拉大学信息学院的约西普·托莫·利卡尔多、尼古拉·坦科维奇和达尔科·艾丁格组成的研究团队完成,于2025年9月30日发表。有兴趣深入了解的读者可以通过论文编号arXiv:2509.24592v1查询完整论文。
想象一下,你正在向同事解释公司的订单处理流程。你说:"客户下单后,我们先检查库存,如果有货就安排发货,没货就联系供应商补货。"这个过程说起来很简单,但如果要画成标准的流程图,大多数人就犯难了。你需要学会使用专业的流程图软件,还要掌握各种图形符号的含义,更别提复杂的连接线和分支逻辑了。
这正是企业界面临的一个普遍难题。一方面,标准化的业务流程建模与标记法(BPMN)已经成为描述业务流程的国际标准,就像建筑师必须使用标准图纸一样。另一方面,能够熟练使用这套标准工具的人并不多,导致许多有价值的业务知识被困在员工的脑子里,无法转化为正式的流程文档。这就像有一位经验丰富的老师傅知道所有工艺流程,但他只会用方言描述,没人能把他的知识转换成标准的技术手册。
普拉大学的研究团队开发了一个名为"BPMN助手"的系统,它就像是一位同时精通日常用语和专业术语的翻译员。你只需要用普通话描述业务流程,这个系统就能自动生成标准的BPMN流程图。更厉害的是,当你需要修改流程时,你也可以直接说"把第三步改成并行处理",系统就会自动更新图表。
这个突破的关键在于研究团队设计了一种特殊的中间语言,就像在中文和英文之间创造了一种桥梁语言。传统方法直接让AI生成XML格式的流程图代码,就像让一个刚学会英语的人直接写学术论文一样困难。而新方法先让AI生成结构化的JSON描述,再转换成最终的流程图,就像先让人用简单句子表达想法,再润色成正式文档。
实验结果显示,这种新方法不仅准确率与传统方法相当,处理速度还快了将近一倍。在流程修改任务中,新方法的成功率明显更高,有些AI模型的成功率甚至从传统方法的5%提升到45%。这意味着企业员工可以更轻松地创建和维护业务流程文档,而不再需要依赖专业技术人员。
这项研究为我们描绘了一个更加高效的未来工作场景:业务专家可以直接参与流程设计,技术壁垒被大大降低,企业的流程管理变得更加敏捷和准确。
一、破解流程建模的技术壁垒
在深入了解这项研究的创新之处之前,我们需要先理解一个困扰企业多年的问题。现代企业的运营就像一台复杂的机器,每个部门都是其中的齿轮,信息和任务在不同部门之间流转。为了确保这台机器运转顺畅,企业需要将这些复杂的业务流程用标准化的方式记录下来。
BPMN就像是描述这些流程的官方语言,它规定了用什么图形表示开始和结束,用什么符号表示决策点,用什么线条表示流程走向。这套标准被全世界的企业广泛采用,就像地图上的图例一样,让不同的人都能看懂同一张流程图。
然而,掌握这套"官方语言"并不容易。就像学习外语一样,你需要记住各种符号的含义,理解复杂的语法规则,还要熟练使用专业软件。更重要的是,即使你学会了这些技能,将脑海中的业务逻辑转换成标准图形仍然是一个费时费力的过程。
研究团队发现,这种技术壁垒造成了一个奇特的现象:最了解业务流程的人往往不会画流程图,而会画流程图的人又不够了解具体业务。这就像建房子时,最懂得房屋结构的建筑师不会搬砖,而会搬砖的工人又看不懂图纸。结果就是企业花费大量时间和资源在翻译和沟通上,而且经常出现理解偏差。
传统的解决方案通常是培训更多员工掌握BPMN技能,或者雇佣专业的流程分析师。但这些方法成本高昂,而且培训出来的技能也不一定能跟上业务变化的速度。现代企业环境变化很快,流程需要频繁调整,如果每次调整都需要找专业人员重新绘制流程图,效率就会大打折扣。
近年来,人工智能技术的发展为解决这个问题带来了新的可能性。大语言模型在理解和生成自然语言方面表现出色,理论上应该能够理解业务流程的描述并生成相应的图表。但早期的尝试效果并不理想,主要原因是让AI直接生成复杂的技术格式就像让一个刚学会说话的孩子直接写诗一样困难。
普拉大学的研究团队意识到,问题的关键不在于AI是否足够聪明,而在于如何设计合适的"翻译路径"。他们的创新想法是在自然语言和最终的流程图之间建立一个中间桥梁,让整个转换过程变得更加平滑和可靠。
二、创新的双路径设计思路
研究团队的核心洞察是,传统方法要求AI一步到位地从自然语言直接生成复杂的XML代码,这就像要求一个人从方言直接翻译成古文一样困难。他们设计了一种"两步走"的策略:首先让AI生成结构化但相对简单的JSON描述,然后再将这个描述转换成最终的BPMN流程图。
这种设计的巧妙之处在于充分利用了不同格式的优势。JSON格式就像是用简洁的大纲来描述流程,它的结构清晰,AI更容易理解和生成。而XML格式虽然是BPMN的标准表示方式,但它包含了大量技术细节,就像法律文件一样严谨但复杂。
为了更好地理解这种差异,我们可以比较一下同一个流程用两种格式的表示方式。假设要描述一个简单的审批流程:员工提交申请,经理审核,通过就处理,不通过就退回。用JSON方式描述时,系统会生成一个清晰的步骤列表,标明每个环节的类型和连接关系。而XML格式则需要包含大量技术参数,比如图形元素的精确坐标、样式定义、数据交换规范等。
研究团队开发的JSON表示方法特别注重流程的逻辑结构。每个流程被分解为一系列按顺序执行的元素,包括任务、网关(决策点)和事件(开始或结束点)。任务代表具体的工作活动,比如"审核申请"或"发送通知"。网关处理流程的分支和合并,比如根据审核结果决定下一步行动。事件则标记流程的起始和终点。
在处理复杂的并行流程时,这种设计显示出特别的优势。传统XML方法需要精确定义每个并行分支的起始和结束点,还要处理分支之间的同步问题。而JSON方法则用简洁的分支数组来表示并行流程,系统会自动处理同步逻辑。
更重要的是,这种设计使得流程编辑变得更加直观。当用户要求修改流程时,比如"在第二步后面添加一个通知环节",系统可以直接在JSON结构中定位到相应位置并插入新元素,而不需要重新计算整个XML文档的结构。
研究团队还设计了一套专门的编辑函数来支持各种修改操作。删除元素函数可以移除指定的流程步骤并自动重新连接前后环节。添加元素函数可以在指定位置插入新步骤。移动元素函数可以调整步骤顺序。更新元素函数可以修改现有步骤的属性。重定向分支函数可以改变决策点的指向。这些函数就像是一套精密的外科手术工具,让AI可以精确地对流程进行各种修改。
三、系统架构的精妙设计
BPMN助手系统的整体架构就像一个协调良好的乐队,每个组件都有明确的分工,同时又能完美配合。整个系统分为三个主要部分:负责核心逻辑的Python后端、专门处理图形布局的Node.js服务器,以及提供用户界面的Vue.js前端。
后端系统充当整个操作的大脑。当用户输入自然语言描述时,后端首先要判断用户的意图:是想创建新的流程图,还是要修改现有流程,又或者只是询问相关问题。这个判断过程就像一位经验丰富的助理,能够理解老板话语背后的真实需求。
如果用户想要创建流程图,后端会构造特殊的提示词来指导大语言模型生成JSON格式的流程描述。这些提示词就像是给AI的详细工作指南,告诉它应该用什么格式、包含哪些信息、遵循什么规则。研究团队在提示词设计上投入了大量精力,确保不同的AI模型都能理解并正确执行任务。
如果用户要修改现有流程,后端会分析修改请求并确定需要调用哪些编辑函数。比如用户说"把审核环节改成两人并行审核",系统会识别出这需要将原来的单个任务节点替换为并行网关结构,然后调用相应的编辑函数来实现这个修改。
布局服务器专门负责给流程图添加视觉效果。JSON描述只包含逻辑结构,不包含图形信息。布局服务器接收转换后的XML文件,自动计算每个元素在图上的位置,确定连接线的路径,设置合适的间距和对齐方式。这个过程就像是给房屋设计图添加详细的施工标注,让抽象的结构变成具体可见的图形。
前端界面采用双面板设计,左侧是聊天窗口,右侧是流程图画布。用户可以像使用微信一样在左侧输入文字描述,系统会在右侧实时展示生成的流程图。这种设计让技术小白也能轻松上手,就像使用普通的聊天软件一样简单。
特别值得一提的是,系统支持多种不同的AI模型,包括OpenAI的GPT系列、Anthropic的Claude、Google的Gemini等。用户可以根据自己的需求和预算选择合适的模型。不同模型在处理能力、响应速度和成本方面各有特点,就像选择不同档次的翻译服务一样。
系统的数据流转过程设计得非常流畅。用户在前端输入需求后,请求被发送到后端进行意图识别和处理。如果需要生成或修改流程,后端会调用选定的AI模型。AI模型返回JSON格式的流程描述后,后端将其转换为标准的BPMN XML格式。这个XML文件被发送到布局服务器进行图形化处理,添加坐标和样式信息。最终的完整XML文件返回前端,在画布上渲染出美观的流程图。
四、突破性的评估方法与实验结果
为了验证新方法的效果,研究团队设计了一套科学的评估体系。评估的核心挑战在于如何客观地衡量两个流程图的相似程度。这就像比较两幅画的相似性一样,需要考虑结构、内容、逻辑等多个维度。
研究团队选择了图编辑距离(GED)作为主要评估指标。这个方法将流程图看作由节点和连接线组成的图形结构,通过计算将一个图转换为另一个图所需的最少操作次数来衡量它们的差异。每次操作可能是添加、删除或修改一个节点或连接线。操作次数越少,说明两个图越相似。
为了让比较更加公平,研究团队还引入了相对图编辑距离(RGED)的概念。这就像比较考试成绩时要考虑试卷难度一样,复杂的流程图自然比简单的流程图有更大的变化空间。RGED通过标准化处理消除了流程复杂度对比较结果的影响。
实验设置非常全面,研究团队测试了八种不同的AI模型,每种模型都要完成60个流程生成任务和40个流程编辑任务。这些任务涵盖了从简单的线性流程到复杂的多分支并行流程,确保评估结果的全面性和可靠性。
在流程生成方面,实验结果显示JSON方法和传统XML方法在准确性上非常接近。JSON方法的平均相似度得分为0.70,XML方法为0.69,差距微乎其微。这说明两种方法在最终质量上几乎没有区别,用户不会因为选择新方法而牺牲流程图的准确性。
但在可靠性方面,JSON方法显示出明显优势。在整个实验过程中,JSON方法总共只出现了2次生成失败,而XML方法则失败了12次。这种差异就像两款汽车在长途旅行中的表现差异,虽然都能到达目的地,但一款明显更加可靠。
处理速度方面的差异更加明显。JSON方法的平均处理时间为14.41秒,而XML方法需要24.07秒,新方法快了将近一倍。这种速度优势在实际应用中非常重要,因为用户通常希望能够快速看到结果,而不是等待很长时间。
令人意外的是,虽然JSON方法需要更多的输入词汇(平均2604个词 vs XML的467个词),但它生成的输出更加简洁(平均849个词 vs XML的1835个词)。这种模式反映了一个重要的设计原则:通过在输入端提供更详细的指导,可以获得更精确和简洁的输出。就像给工人更详细的施工图纸,最终建成的房子反而更加整洁规范。
在流程编辑能力的测试中,JSON方法的优势更加突出。大多数AI模型在使用JSON方法时的编辑成功率都比XML方法高出显著的幅度。比如GPT-4o mini模型使用JSON方法的成功率为45%,而使用XML方法时仅为5%,提升了整整8倍。Claude 3.5 Sonnet的表现最好,使用JSON方法时编辑成功率达到68%,而XML方法为65%。
这些实验结果清楚地表明,虽然两种方法在最终质量上相差无几,但JSON方法在可靠性、速度和编辑能力方面都有明显优势。这就像比较两种交通工具,虽然都能把你送到目的地,但一种更快、更稳定、更容易操控。
五、实际应用的巨大潜力与价值
BPMN助手的出现可能会彻底改变企业流程管理的工作方式。目前,大多数企业在流程文档化方面都面临着相似的困境:懂业务的人不会画图,会画图的人不懂业务。这种分工虽然专业化程度高,但却造成了严重的沟通障碍和效率损失。
想象一家制造企业要优化生产流程。以前的做法是:车间主任向IT部门描述现有流程,IT人员根据理解绘制流程图,然后反复确认和修改,整个过程可能需要数周时间。现在有了BPMN助手,车间主任可以直接对着系统说话,几分钟内就能看到标准化的流程图,发现不对的地方立即修改,大大提高了效率。
这种变化的意义不仅仅是提高效率,更重要的是降低了参与门槛。过去,只有受过专业培训的人员才能参与流程设计,现在任何熟悉业务的员工都可以贡献自己的知识。这就像从精英教育转向全民教育,让更多人能够参与到知识创造和分享中来。
在企业的日常运营中,业务流程经常需要调整。市场环境变化、客户需求更新、技术升级换代都可能要求企业修改既有流程。传统方法下,每次修改都需要重新走一遍从需求收集到图形绘制的完整流程。现在企业可以更敏捷地响应变化,快速调整和验证新的流程方案。
教育培训领域也将受益匪浅。商学院的学生在学习流程管理时,往往需要花费大量时间掌握绘图技能,而不是专注于理解流程设计的核心原理。BPMN助手让学生可以把精力集中在思考业务逻辑上,用自然语言表达想法并立即看到可视化结果,这样的学习方式更加直观和高效。
对于中小企业来说,这项技术的价值尤其突出。大企业通常有专门的流程管理团队和充足的IT预算,而中小企业往往缺乏这样的资源。BPMN助手让中小企业也能用较低的成本建立规范的流程管理体系,提升企业的规范化水平和运营效率。
然而,研究团队也诚实地指出了当前系统的局限性。目前支持的BPMN元素还比较有限,主要包括基本的任务、网关和事件,对于复杂的企业级应用场景还需要进一步扩展。系统的表现很大程度上依赖于底层AI模型的质量,不同模型的效果差异较大。另外,对于多语言环境和行业特定术语的处理还有改进空间。
更重要的是,虽然系统在结构准确性方面表现良好,但对于业务逻辑的语义正确性还缺乏深入验证。也就是说,生成的流程图在形式上是正确的,但是否真正反映了用户想要表达的业务含义,还需要在实际应用中进一步验证。
六、技术实现的精巧细节
深入了解BPMN助手的技术实现,我们会发现研究团队在许多细节上都做了精心的设计。整个系统的技术选型体现了现代软件开发的最佳实践:后端使用Python和FastAPI框架,充分利用了Python在AI领域的生态优势和FastAPI的高性能特性;布局服务器使用Node.js和Express框架,借助了JavaScript生态中丰富的图形处理库;前端采用Vue.js框架,提供了现代化的用户交互体验。
在AI模型集成方面,系统的设计特别注重灵活性和可扩展性。研究团队集成了八种不同的AI模型,覆盖了从OpenAI、Anthropic、Google到开源模型如Llama和Qwen等主要选择。每种模型都有其特定的优势:GPT-4o在多模态处理能力方面表现突出,Claude 3.5 Sonnet在推理能力方面更加出色,而开源模型则在成本控制方面有明显优势。
系统的定价策略也考虑得非常周到。不同AI模型的使用成本差异很大,从最便宜的Gemini 2.0 Flash每百万词汇仅需0.1美元,到最贵的Claude 3.5 Sonnet每百万词汇需要15美元,相差150倍。这种价格差异让用户可以根据自己的预算和质量要求做出合适的选择,就像选择不同档次的服务一样。
JSON格式的设计体现了研究团队对BPMN标准的深刻理解。他们将复杂的BPMN规范简化为几种核心元素类型:任务(包括普通任务、用户任务、服务任务)、网关(包括排他网关、并行网关)、事件(包括开始事件、结束事件)。这种简化并非随意删减,而是基于对实际业务流程的深入分析,保留了最常用和最重要的元素。
在处理并行流程时,JSON格式展现出特别的优势。传统XML方法需要明确定义并行分支的分离点和汇聚点,还要处理分支间的同步逻辑。JSON方法则采用了更直观的分支数组表示,系统自动处理分支的创建和合并,大大降低了出错的可能性。
流程编辑功能的实现特别值得称赞。研究团队设计了五个核心编辑函数,每个函数都经过精心优化以确保操作的原子性和一致性。删除元素时系统会自动重新连接前后节点,添加元素时会智能选择插入位置,移动元素时会保持流程的逻辑连贯性。这些细节处理确保了即使是复杂的编辑操作也能保持流程图的完整性。
错误处理和容错机制也设计得很周全。当AI生成无效的JSON格式时,系统会自动重试或提示用户修改输入。当XML转换失败时,系统会回退到上一个有效状态。当布局服务器遇到复杂结构无法处理时,系统会提供简化的布局方案。这些容错措施确保了系统在各种异常情况下都能保持稳定运行。
七、深度对比分析与方法验证
研究团队在验证新方法效果时采用了严格的科学方法。他们不仅要证明JSON方法比XML方法更好,还要确保这种优势是真实可靠的,而不是偶然现象。
实验设计的严谨性体现在多个方面。首先是样本规模的充分性:每种AI模型都要完成60个生成任务和40个编辑任务,总计800个测试用例。这个规模足以保证统计结果的可靠性。其次是任务多样性的全面性:测试任务涵盖了从简单的三步流程到复杂的多分支并行流程,确保了评估的全面性。
评估指标的选择也经过深思熟虑。图编辑距离(GED)虽然是一个经典的图相似性度量方法,但在BPMN领域的应用还需要特殊考虑。研究团队使用了NetworkX Python库的标准GED算法,避免了使用可能有偏见的自定义启发式方法。相对图编辑距离(RGED)的引入则确保了不同复杂度流程之间的公平比较。
实验结果的统计分析揭示了一些有趣的模式。在生成任务中,虽然JSON和XML方法的平均相似度得分非常接近(0.70 vs 0.69),但各个模型的表现差异很大。Deepseek V3和o3-mini模型在两种方法下都表现出色,而Llama 3.3模型则显示出明显的方法敏感性,在XML模式下表现更好。
处理时间的差异分析更加深入。JSON方法的速度优势不仅体现在平均值上,在各个模型上都保持一致。最大的速度提升出现在Llama 3.3模型上,JSON方法比XML方法快了近3倍。最小的差异出现在Claude 3.5 Sonnet上,但仍然有30%的提升。这种一致性说明速度优势不是特定模型的偶然现象,而是方法本身的固有特性。
词汇使用模式的分析揭示了两种方法的本质差异。JSON方法需要更多输入词汇,主要是因为提示词中包含了详细的格式说明和示例。这就像给工人更详细的施工手册,虽然手册本身更厚,但最终的施工过程更加顺畅。XML方法的输出更加冗长,主要是因为XML格式本身包含了大量的标记和技术细节。
编辑任务的结果分析特别有启发性。研究团队发现,不同类型的编辑操作表现差异很大。简单的元素添加和删除操作两种方法都能较好处理,但涉及流程逻辑重构的复杂编辑操作中,JSON方法的优势更加明显。这说明结构化的中间表示不仅提高了生成效率,更重要的是增强了逻辑推理能力。
失败模式的分析也很有价值。XML方法的失败主要集中在格式错误和语法不一致上,就像写作时的拼写和语法错误。JSON方法的失败则主要是逻辑错误,比如流程没有结束事件或者出现了循环引用。这种差异表明JSON方法成功地将技术复杂性转移到了逻辑层面,让AI可以更专注于理解和生成正确的业务逻辑。
八、前景展望与未来发展方向
BPMN助手的成功为业务流程管理领域的发展指明了新的方向。研究团队在论文中不仅展示了当前成果,也坦诚地讨论了存在的挑战和未来的改进空间。
技术扩展方面的潜力巨大。当前系统支持的BPMN元素还相对基础,主要涵盖了核心的任务、网关和事件类型。实际的企业级应用往往需要更复杂的元素,比如消息流、数据对象、泳道分组等。研究团队认为,随着对JSON表示方法的进一步优化,逐步扩展支持的元素类型是完全可行的。
AI模型能力的持续提升也为系统改进提供了动力。当前的评估显示不同模型在处理能力上还有明显差异,但随着AI技术的快速发展,未来的模型很可能在理解复杂业务逻辑和生成准确流程图方面有更大突破。特别是专门针对业务流程建模进行优化的AI模型,可能会显著提升整个系统的性能。
语义验证是一个特别重要的发展方向。目前的系统主要关注结构正确性,也就是生成的流程图在格式上是标准的,但对于业务逻辑的准确性还缺乏深入验证。未来的改进可以引入语义分析技术,比如基于Petri网的形式化验证或者过程挖掘技术,来确保生成的流程图真正反映了用户的意图。
多语言支持是另一个有前景的发展方向。当前系统主要针对英语环境设计,但现代企业往往是跨国运营的,需要支持多种语言的流程描述。研究团队认为,由于底层AI模型大多具备多语言能力,扩展系统的多语言支持在技术上是可行的。
行业特定优化也具有很大价值。不同行业的业务流程有着不同的特点和术语。制造业关注生产效率和质量控制,金融业注重风险管理和合规性,医疗行业强调安全和可追溯性。针对特定行业的定制化版本可能会提供更精准和实用的功能。
协作功能的开发是实际应用中的重要需求。企业的流程设计往往需要多个部门和多个角色的参与,单人操作的系统难以满足复杂的协作需求。未来的版本可以考虑加入实时协作编辑、版本控制、权限管理等企业级功能。
集成能力的扩展也很重要。企业通常已经有了各种流程管理和业务分析工具,新系统需要能够与这些现有工具良好集成,而不是成为信息孤岛。这包括与ERP系统、项目管理工具、文档管理系统等的对接。
成本优化是推广应用的关键因素。虽然当前的成本已经比传统方法有明显优势,但对于大规模应用来说仍然需要进一步优化。随着AI技术的普及和竞争的加剧,预计未来的使用成本会继续下降。
说到底,BPMN助手代表的不仅仅是一个技术工具的创新,更是对企业知识管理方式的一种新思考。它让普通员工能够更直接地参与到流程设计和优化中来,打破了技术专家和业务专家之间的壁垒。这种变化可能会催生出全新的企业组织形式和工作方式,让企业变得更加敏捷和高效。
从更大的视角来看,这项研究也为AI在专业领域的应用提供了有价值的经验。通过设计合适的中间表示和分步转换策略,即使是复杂的专业任务也可以被AI系统有效处理。这种思路可能会在其他需要专业知识的领域得到类似的应用,比如法律文档的自动生成、工程设计的智能辅助等。
当然,技术的进步并不意味着人的作用会被完全替代。BPMN助手提高了效率,但流程设计中的创新思维、业务洞察和战略判断仍然需要人来完成。未来最理想的状态可能是人机协作,让人专注于创造性和战略性的工作,让AI处理重复性和技术性的任务。
Q&A
Q1:BPMN助手是什么?它能做什么?
A:BPMN助手是由克罗地亚普拉大学开发的AI系统,它能将用户的自然语言描述自动转换成标准的BPMN流程图。用户只需要用普通话描述业务流程,比如"客户下单后先检查库存,有货就发货,没货就补货",系统就能自动生成专业的流程图,还能根据用户要求修改现有流程。
Q2:相比传统方法,BPMN助手有什么优势?
A:BPMN助手比传统XML方法快了将近一倍,平均处理时间只需14.41秒,而传统方法需要24.07秒。在流程编辑方面优势更明显,有些AI模型的编辑成功率从传统方法的5%提升到45%。虽然需要更多输入词汇,但输出更简洁,可靠性也更高,总失败次数只有传统方法的六分之一。
Q3:普通人可以使用BPMN助手吗?有什么限制?
A:BPMN助手专门为非技术人员设计,界面像聊天软件一样简单易用。目前支持的BPMN元素包括基本任务、网关和事件,能满足大部分常见的流程建模需求。主要限制是还不支持复杂的企业级功能如泳道和消息流,而且系统表现依赖于所选择的AI模型质量和成本。
好文章,需要你的鼓励
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。
南洋理工大学与腾讯联合研究团队开发出Rolling Forcing技术,实现AI视频实时流式生成的重大突破。该技术通过滚动窗口联合去噪、注意力锚点机制和高效训练算法三项创新,解决了长视频生成中的错误累积问题,可在单GPU上以16fps速度生成多分钟高质量视频,延迟仅0.76秒,质量漂移指标从传统方法的1.66降至0.01,为交互式媒体和内容创作开辟新可能。
华中科技大学研究团队发现,通过让AI模型学习解决几何问题,能够显著提升其空间理解能力。他们构建了包含约30000个几何题目的Euclid30K数据集,使用强化学习方法训练多个AI模型。实验结果显示,几何训练在四个空间智能测试基准上都带来显著提升,其中最佳模型达到49.6%准确率,超越此前最好成绩。这项研究揭示了基础几何知识对培养AI空间智能的重要价值。