微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ComfyMind:通过树状规划和反馈机制打造通用生成系统

ComfyMind:通过树状规划和反馈机制打造通用生成系统

2025-05-31 11:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-31 11:47 科技行者

在人工智能飞速发展的当下,视觉生成技术已经取得了令人瞩目的成就。来自香港科技大学(广州)的研究团队最近发表了一项突破性研究——ComfyMind,这是一个建立在ComfyUI平台上的协作式AI系统,旨在解决目前开源通用生成系统面临的关键挑战。这篇发表于2025年5月23日的论文《ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback》由郭立涛、许心力、王洛洲等研究人员共同完成,提出了一种全新的视觉内容创建方法,让我们一起深入了解这项创新研究吧。

一、研究背景:为什么我们需要更好的通用生成系统?

想象一下,你正在使用一款图像生成软件来创建一张特定场景的图片。有时候它能很好地完成任务,但有时却会出现各种奇怪的问题:手指畸形、物体位置错乱、或者完全无法按照你的要求生成图像。这些问题在当前的开源通用生成系统中相当常见,特别是当你想完成复杂的创作任务时。

随着视觉生成模型的快速发展,我们已经看到了在文本到图像生成、图像编辑和视频生成等多个领域的显著进步。近年来,研究逐渐转向端到端的通用生成模型,试图在单一系统中处理各种不同的任务。然而,现有的开源通用生成模型仍然面临一系列挑战,包括生成质量不稳定以及缺乏处理复杂多阶段视觉工作流所需的结构化规划和组合机制。

相比之下,最近发布的OpenAI的GPT-Image-1因其在统一图像生成方面的卓越能力而备受关注。然而,GPT-Image-1的闭源特性以及主要专注于图像生成任务限制了它在更广泛的多模态生成任务中的应用和可扩展性。

ComfyUI平台提供了实现开源通用生成方法的潜在途径。它是一个开源平台,旨在创建和执行生成工作流,提供基于节点的界面,允许用户根据需要构建以JSON表示的视觉生成工作流。该平台的模块化设计在构建工作流方面提供了高度灵活性。然而,尽管具有灵活性,从头开始构建复杂工作流仍然是一项挑战,特别是在处理定制或复杂的任务需求时,这需要大量专业知识和相当多的试错时间。

最近的研究开始探索使用大型语言模型(LLMs)构建定制工作流,从而实现通用视觉生成。ComfyAgent就是这样一个基于ComfyUI的自动化解决方案,用于从自然语言指令生成工作流。但ComfyAgent也揭示了两个核心问题:首先,它将工作流构建视为平面的、基于标记的解码任务,难以有效建模模块化和层次结构;其次,系统缺乏执行级别的反馈机制,无法在生成过程中获取任何反馈或错误信息。

香港科技大学的研究团队从人类用户构建工作流的方式中汲取灵感,提出了ComfyMind框架。他们观察到,人类用户通常不会从头开始构建复杂工作流,而是将任务分解为更小的子任务,并基于更高层次的语义为每个子任务选择适当的模板工作流。这种模块化、逐步规划的过程,结合本地化反馈策略,使他们能够增量细化和适应。当失败发生时,调整是局部而非全局进行的。这种分层规划和反馈策略增强了解决复杂问题的能力并提高了稳健性。

二、ComfyMind:像搭积木一样构建视觉生成系统

ComfyMind的核心思想是将工作流生成表示为模板工作流的语义组合,而不是节点配置的基于标记的合成。具体来说,ComfyMind将模板工作流视为原子语义模块,每个模块都有明确定义的功能、输入/输出接口和自然语言描述。通过对这些高级组件进行推理,ComfyMind实现了更稳定和可控的任务组合。

ComfyMind由两个核心机制组成。首先是语义工作流接口(Semantic Workflow Interface,简称SWI),它将低级节点图抽象为带有结构化输入、输出和自然语言说明的可调用语义函数。这种抽象允许语言模型在语义层面上操作工作流,减少对平台特定语法的暴露,并最小化结构错误。第二个机制是带有本地反馈执行的搜索树规划(Search Tree Planning with Local Feedback Execution),它将任务执行建模为分层决策过程。规划树中的每个节点代表一个子任务,每条边对应一个选定的SWI模块。在执行过程中,失败会触发当前树层的本地化纠正,避免全链重新生成,显著提高了稳健性。

与之前基于ComfyUI的工作(如ComfyAgent)相比,ComfyMind采用了全新的方法。ComfyAgent使用多代理系统将自然语言指令转换为可执行工作流,但它在低级工作流生成中存在问题。它将工作流构建视为平面的、基于标记的解码任务,难以有效建模模块化和层次结构,导致节点遗漏、语义不匹配和脆弱的组合,难以跨任务泛化。此外,它缺乏执行级别的反馈机制,一旦工作流构建完成,系统就无法获取任何反馈或错误信息,阻碍了增量纠正并降低了整体稳健性。

相比之下,ComfyMind模拟人类策略,提出了一种新颖的框架。如图1所示,该框架展示了强大的通用性,支持广泛的图像和视频生成及编辑任务。ComfyMind通过树状规划和本地反馈机制解决了这些问题,大大提高了系统的鲁棒性和灵活性。它将工作流生成表示为模板工作流的语义组合,而不是节点配置的基于标记的合成。

三、语义工作流接口:简化复杂工作流的秘密武器

想象一下厨房里的一系列电器——烤箱、搅拌机、榨汁机等。每个电器都有特定功能,但如果你想制作一道复杂菜肴,需要知道如何组合使用这些工具。语义工作流接口(SWI)就像是为这些"电器"(即工作流)创建的简单说明书,让你不必了解每个电器的内部构造,只需知道它的功能和如何使用即可。

ComfyMind不同于ComfyAgent的底层构建整个工作流的范式,采用了一种类似人类构建工作流的方法,将生成任务分解为模块化子任务,每个子任务由规划代理独立处理。在每个子任务中,规划代理从工作流库中选择最合适的原子工作流作为工具。与复杂工作流不同,每个原子工作流负责一个简单的单步生成过程,如文本到图像生成或掩码生成。换句话说,ComfyMind用原子工作流替代了ComfyAgent中的单个标记,作为工作流构建中的最小单元。

基于这种方法,研究团队引入了语义工作流接口,它使用自然语言函数而不是低级JSON规范作为工作流构建的中间表示。每个原子工作流,封装一个功能,都带有一个简单的自然语言描述,概述其目的、所需参数和用法。基于这些元数据,ComfyMind中的规划代理选择最合适的函数进行调用。调用过程中,将所需参数(如提示或参考图像)和可选的高级约束传递给函数。然后,执行代理将选定的函数映射到其对应的JSON表示,注入参数。最后,大型语言模型(LLM)对JSON进行自适应参数级调整以满足额外约束。生成的工作流通过ComfyUI平台执行,从而完成各个子任务的生成。

这种抽象允许LLM完全在语义层面上操作,绕过低级语法语法和有效建模模块化和层次结构的难题。通过消除这一瓶颈,ComfyMind显著增强了执行的稳健性。SWI还最小化了对细粒度节点文档的依赖。虽然ComfyAgent的操作依赖于包含3,205个不同节点描述的精心制作的数据集,但ComfyMind只需要一个统一文档来描述可用的原子工作流。无需RAG(检索增强生成),ComfyMind可以直接将工作流元数据注入LLM的上下文窗口,确保完全可见并消除对外部查找的依赖。最终,这种文档简化有利于无缝集成新开发或特定任务的工作流。这种设计使ComfyMind能够快速整合更广泛ComfyUI社区的新兴工作流,同时允许用户灵活定制工作流文档和存储库以满足特定需求。

四、搜索树规划与本地反馈执行:智能规划的关键

如前所述,SWI使LLM能够使用自然语言函数调用调用社区验证的原子工作流。然而,系统仍然必须确定:如何将多个SWI调用组合成一个连贯且完成任务的程序。为了解决这个问题,如图3所示,ComfyMind引入了一种称为搜索树规划与本地反馈执行的机制,它将工作流构建形式化为对语义规划树的搜索过程。在这个结构中,每个节点代表负责特定子任务的本地规划代理,而每条边表示调用SWI函数并传播结果的执行代理。从根到叶的完整路径产生满足用户指令的最终视觉输出。

在每个规划节点,代理检查当前层次工作空间状态——包括文本、图像、上下文和可用的工作流文档。基于这些信息,它生成一系列SWI函数,旨在推进当前任务。在这个阶段,只执行链中的第一个函数,其参数传递给执行代理。这个转换相当于在规划树中沿着一条边前进。

执行代理将选定的函数转换为SWI定义的标准JSON形式,基于更高级的约束应用轻量级参数调整,并使用ComfyUI平台执行工作流。在整个过程中,保留底层DAG结构以确保语法正确性。执行后,视觉语言模型(VLM)解析并注释生成的视觉内容。结果输出、语义描述和更新的任务规范共同定义下一个规划节点的工作空间。

如果规划代理确定其子任务可以通过单个操作完成,它会发出终止信号并调用评估代理来评估最终输出的语义对齐和感知质量。如果结果通过评估,搜索成功结束。否则,将失败信号和诊断反馈传递给父节点,后者记录结果并相应修改其规划策略。如果当前层级没有可行选项,错误信号向上传播。至关重要的是,所有反馈严格限制在当前层次级别,防止全局回滚并保留有效的部分结果。

与ReAct规划器的逐步观察-行动执行风格相比,ComfyMind的方法提供了完整的历史跟踪和结构化回溯能力。这允许系统在失败时只回滚到最近的可行决策点,而不是重新启动整个过程——从而避免冗余重新计算。同时,它通过防止由于缺乏稳定中间状态而导致的重复重新规划周期来提高规划稳定性,否则这可能导致策略震荡和收敛失败。

五、实验验证:全面评估ComfyMind的性能

为了评估ComfyMind的生成能力,研究团队进行了三重评估。第一个是ComfyBench,用于量化系统自主构建工作流和通用生成的能力;第二个是GenEval,评估系统的文本到图像生成能力;第三个是Reason-Edit,衡量复杂编辑指令的执行程度。实验表明,ComfyMind在所有三个基准测试中都大幅超越了最强的开源基线,并取得了与GPT-Image-1相当的性能。

### 自主工作流构建评估

研究团队首先在ComfyBench上评估了ComfyMind的自主工作流构建能力。ComfyBench包含200个分级难度的生成和编辑任务,涵盖图像和视频模态。对于每个任务,代理必须合成可由ComfyUI执行的工作流。基准测试报告了两个指标:通过率,反映工作流是否可运行;以及解决率,反映输出是否满足所有任务要求。

如表1所示,得益于SWI,ComfyMind在所有难度层级上都实现了100%的通过率。这消除了仍然阻碍最强基线ComfyAgent的JSON级别失败。更重要的是,提出的带有本地反馈执行的搜索树规划在任务解决率方面取得了显著提升:相对于ComfyAgent,在Vanilla、Complex和Creative子集上的解决率分别增加了100%、292%和283%。这一强大的泛化能力和输出质量表明,基于ComfyUI的多代理系统是通向通用生成AI的一条有前途的道路。

### 文本到图像生成评估

研究团队使用GenEval评估了ComfyMind在文本到图像生成方面的能力。GenEval测量了六个维度上的组合保真度,包括单一或两个物体、计数、颜色准确性、空间定位和属性绑定。他们将ComfyMind与三类强大的基线进行了比较:冻结文本编码器映射方法(如SD3)、LLM/MLLM增强方法(如Janus和GoT)以及OpenAI最近发布的GPT-Image-1。

如表2所示,ComfyMind实现了0.90的总体得分,得益于其整合了提示优化工作流和本地反馈执行。这一结果超过了所有基线,比SD3高出+0.16,比Janus-Pro-7B高出+0.10。此外,ComfyMind在六个维度中的五个和总体得分上超过了GPT-Image-1。这些结果表明,基于ComfyUI的系统不仅提供了强大的通用性,还能够整合多样化开源模型的优势,在图像合成方面实现最先进的性能。

图4展示了来自GenEval的代表性和具有挑战性的案例。ComfyMind按照提示进行,在核心约束如计数、颜色、位置和属性绑定方面优于现有模型。在计数任务中,只有ComfyMind系统生成了精确的四个键盘,并有清晰的视觉分离。对于非典型的颜色和位置,ComfyMind展示了卓越的图像质量和指令一致性。在属性绑定方面,SD3和Janus-Pro等模型经常混淆属性并无法正确定位它们。虽然GPT-Image-1总体上能够遵循指令,但它经常产生碎片化和视觉不连贯的组合。相比之下,ComfyMind不仅满足细粒度指令,还将它们整合到美学连贯、上下文合理的场景中。这些定性结果证实了前面报告的定量收益。

### 图像编辑评估

研究团队进一步在Reason-Edit上评估了ComfyMind的图像编辑能力。根据基准设置,他们采用GPT-score作为评估指标。该分数量化了对编辑指令的语义保真度和非编辑区域的视觉一致性。

他们将ComfyMind与最先进的开源基线进行比较,包括GoT、SmartEdit、CosXL-Edit、SEED-X、MGIE、MagicBrush和IP2P,以及最强大的闭源模型GPT-Image-1。如图5所示,ComfyMind实现了0.906的分数——所有开源框架中最高的。这一结果比之前的开源SOTA SmartEdit(0.572)提高了+0.334。

此外,ComfyMind实现了与GPT-Image-1(0.929)相当的性能,缩小了开源和闭源模型之间的差距。这一收益来自系统的规划和反馈机制,使其能够合成和组合ComfyUI社区贡献的最有效的编辑工作流。通过推理和迭代纠正,ComfyMind代理可以自适应选择多样化的工作流,提高跨各种场景的编辑稳定性和精确性。这些结果突显了ComfyMind的推理驱动编辑能力,并为通过集成更强大的工作流和模型实现未来性能提升提供了强大潜力。

研究团队还提供了定性结果,以评估ComfyMind在具有挑战性的编辑指令下的语义理解和视觉保真度。如图6所示,ComfyMind在两个代表性任务中一贯展示出最忠实和视觉连贯的结果。与现有的开源基线相比,ComfyMind不仅能识别正确的语义目标(如苹果与面包与橙汁),还能以最小干扰相邻区域的方式执行编辑。

虽然GPT-Image-1成功执行了编辑指令,但它难以在非编辑区域保持视觉一致性。如图6所示,GPT-Image-1在非编辑区域丢失了细节(如放大视图中的果汁盒、酸奶容器和果酱罐上的图案),改变了色调和图像风格,不准确地保留了材质(如木纹),并改变了原始的宽高比。相比之下,ComfyMind以最小的编辑完成了指令,有效保留了视觉细节、图像风格、材质特性和比例。这些观察强调了ComfyMind执行精确和连贯编辑的卓越能力。

### 消融研究

为了分离关键设计组件的贡献,研究团队在ComfyBench基准上进行了消融研究(如表3所示)。他们评估了三个变体:完整系统、没有搜索树规划的版本和没有反馈执行的版本。得益于语义工作流接口,所有变体都实现了100%的通过率;主要差异在于解决率。

移除搜索树规划模块导致任务解决率显著下降,特别是在复杂任务上(从85.0%降至43.4%),突显了它在分解多步指令和选择合适工作流方面的作用。同样,禁用本地反馈机制显著降低了性能,特别是在创意任务上(从57.5%降至17.5%),突显了它对迭代纠正和自适应细化的重要性。这些结果证实了关键组件对实现自主工作流构建的高成功率至关重要。

研究团队还进行了进一步的消融研究,在ComfyMind中使用不同的大型语言模型。如表4所示,Deepseek-V3和GPT-4o在作为主要LLM使用时都取得了强大的性能。具体来说,两个模型都达到了100%的任务通过率和约80%的整体任务完成率。这些结果进一步证实了ComfyMind系统在不同底层LLM之间的稳定性和可靠性。

六、世界知识驱动的语义合成能力

为了评估ComfyMind在复杂语义理解、推理和整合世界知识进行文本到图像生成的能力,研究团队在最近的WISE基准上进行了评估。该基准包含三个主要类别:文化常识、时空推理(包括空间和时间子类别)和自然科学(包括物理、化学和生物学子领域),总共25个专业领域,1000个具有挑战性的提示。

评估指标WiScore结合了一致性、真实性和美学质量,通过加权归一化,最高分为1。更高的WiScore表示更强的能力,使用世界知识准确描绘对象和概念。如表5所示,ComfyMind实现了卓越的0.85分,超过了所有模型,包括GPT-Image-1(0.80)。ComfyMind的方法显著增强了开源解决方案的世界知识集成,比FLUX.1-dev(0.50)高出0.35分,使开源模型能够匹配GPT-Image-1的性能。在WISE上的卓越表现证实了ComfyMind在生成任务中的泛化能力和高质量输出。

七、总结与展望:开源通用生成的新篇章

在这项研究中,香港科技大学的研究团队提出了ComfyMind,一个建立在ComfyUI平台上的新颖框架,解决了通用视觉生成AI中的关键挑战。通过将视觉内容创建概念化为模块化、语义结构化的规划过程,并整合树状规划与本地反馈执行,ComfyMind提高了多阶段工作流的稳定性和稳健性。

研究团队在三个公共基准上评估了ComfyMind:ComfyBench、GenEval和Reason-Edit,涵盖了生成、编辑和推理任务。结果表明,ComfyMind始终优于现有的开源方法,并实现了与GPT-Image-1相当的性能。ComfyMind为开源通用生成AI系统的发展开辟了一条有前途的道路。

研究的局限性在于,虽然ComfyMind支持模块化工作流组合和自动规划,但当前系统缺乏用户友好的界面,无法手动定制或修改原子工作流调用的序列。用户能够调整规划策略、覆盖中间步骤或通过UI指定特定于任务的首选项的能力有限。这可能阻碍非技术用户或具有特定领域需求的从业者更广泛地采用该系统。未来的研究方向可能包括增强界面以支持更灵活和用户可控的规划定制。

总的来说,ComfyMind展示了通过语义工作流接口和层次化反馈规划,开源系统也能实现高质量通用生成。这为研究人员和开发者提供了一个强大的框架,可以构建更加健壮、灵活和用户友好的视觉生成系统,推动AI创意工具的普及和应用。

ComfyMind是实现开源通用AI生成系统的重要一步,它不仅表明了语义工作流抽象的价值,还展示了如何通过模块化组合和层次反馈实现复杂任务的执行。随着社区贡献更多专业工作流和工具,我们可以预期这类系统的能力将继续增长,最终可能为创意专业人士和普通用户提供强大且易于使用的生成工具。有兴趣深入了解ComfyMind的读者可以访问项目页面:https://github.com/LitaoGuo/ComfyMind。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-