微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 StepFun推出Step1X-Edit:让AI图像编辑媲美GPT-4o的开源突破

StepFun推出Step1X-Edit:让AI图像编辑媲美GPT-4o的开源突破

2025-07-16 23:13
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-16 23:13 科技行者

这项由StepFun公司的Step1X-Image团队主导的研究发表于2025年6月23日,论文发表在arXiv平台(论文编号:arXiv:2504.17761v4),有兴趣深入了解的读者可以通过GitHub链接https://github.com/stepfun-ai/Step1X-Edit访问完整项目。

在人工智能的世界里,图像编辑就像是一门神奇的魔法艺术。当你对着电脑说"把这张照片里的猫换成狗"或者"让天空变成紫色"时,AI需要像一位经验丰富的画家一样,不仅要理解你的意图,还要精确地修改图像,同时保持其他部分不变。长期以来,这种能力主要掌握在GPT-4o、Gemini2 Flash这样的商业巨头手中,就像珍贵的秘方被锁在保险柜里一样。

然而,StepFun公司最近打破了这种垄断局面。他们推出的Step1X-Edit模型,就像是一位技艺精湛的开源画师,能够与那些商业巨头平分秋色。这不仅仅是技术上的突破,更是让普通开发者和研究者能够接触到顶级图像编辑能力的里程碑。

这项研究的核心问题其实很简单:如何让AI真正理解人类的编辑意图,并且精确地执行?就像你告诉一位助手"帮我把客厅重新装修一下",这位助手不仅要明白你想要什么风格,还要知道哪些家具需要移动,哪些墙面需要重新粉刷,同时还要保证房子的整体结构不受影响。

研究团队发现,现有的开源图像编辑工具就像是半吊子的装修工人,要么理解能力有限,要么执行效果粗糙。相比之下,GPT-4o这样的商业模型就像是经验丰富的专业装修团队,但普通人却无法雇佣。为了解决这个问题,Step1X-Edit采用了一种全新的思路:将强大的多模态语言理解能力与精密的图像生成技术完美结合。

这项研究的创新之处在于三个方面。首先,研究团队开发了一套全面的数据生成流水线,能够产生超过100万个高质量的图像编辑样本。这就像是为AI编辑师提供了一个巨大的练习册,包含了各种可能遇到的编辑场景。其次,他们设计了一个统一的模型架构,能够处理11种不同类型的编辑任务,从简单的颜色调整到复杂的物体替换都能胜任。最后,他们还创建了一个名为GEdit-Bench的评测基准,专门用来检验各种编辑模型在真实用户需求下的表现。

一、数据收集的艺术:打造AI编辑师的训练营

要让AI成为一名优秀的图像编辑师,就像培养一位画家一样,需要大量的练习和学习样本。Step1X-Edit的成功很大程度上归功于其精心设计的数据收集策略。

研究团队首先从互联网上收集了大量真实的图像编辑案例,就像是收集了世界各地画家的作品集。通过深入分析这些案例,他们发现图像编辑可以分为11个主要类别,每个类别就像是绘画中的不同技法。

主体添加和移除就像是在画面中增加或删除人物。想象你有一张全家福,但临时有人缺席或者多了不相关的路人,AI需要能够自然地添加缺席的家人或者移除多余的人员,同时让整张照片看起来浑然天成。为了收集这类数据,研究团队使用了Florence-2这个强大的图像分析工具来识别照片中的各种物体,然后用SAM2进行精确的区域分割,最后用专门的修复算法来完成添加或移除操作。

主体替换和背景更换则像是换装游戏。你可能想把照片中的轿车换成跑车,或者把城市背景换成海滩。这需要AI不仅要理解什么需要被替换,还要知道新的物体应该如何与周围环境协调。研究团队结合了多种先进的识别工具,确保替换过程既准确又自然。

颜色修改和材质变换就像是为物体重新上色或者改变质感。比如把金属表面改成木质纹理,或者把红色的花朵改成蓝色。这类编辑看似简单,实际上需要AI深度理解物体的几何结构和光照关系。研究团队使用深度估计技术来理解物体的立体形状,然后结合控制网络来实现精确的材质和颜色调整。

文字修改是一个特别有趣的类别。当你想要修改照片中的标语或者路牌上的文字时,AI需要先识别出哪些是文字区域,然后用新的文字自然地替换掉原有内容。这就像是一位精通多种字体的书法家,能够完美地模仿原有的字体风格。

动作变换可能是最具挑战性的编辑类型之一。想象你有一张某人挥手的照片,但你希望这个人是在比划胜利手势。AI需要理解人体的结构和动作的合理性,确保新的姿势既自然又符合物理规律。研究团队从大型视频数据库中提取连续帧,利用光流技术分析动作变化,从而训练AI理解各种动作转换。

人像美化则更像是一位专业的化妆师和摄影师的结合体。无论是去除皮肤瑕疵、调整面部特征,还是改善光照效果,都需要AI具备对人像美学的深度理解。研究团队不仅收集了公开的美化数据,还邀请专业编辑师创建了高质量的美化样本。

风格转换就像是让AI学会不同的绘画风格。同一幅画可以用油画、水彩、素描或者动漫的风格来呈现。有趣的是,研究团队发现双向转换效果更好:既可以从现实照片生成风格化图像,也可以从风格化图像还原现实效果。

色调变换主要处理整体的色彩和氛围调整,比如去雾、去雨、调整明暗度或者模拟不同季节的效果。这就像是调节相机的各种滤镜,但要求更加智能和精确。

为了确保数据质量,研究团队设计了多重过滤机制。他们使用了自家开发的step1o模型和GPT-4o进行自动质量评估,同时还安排了人工审核员进行最终检查。这个过程就像是艺术学院的严格考试,只有最优秀的作品才能进入最终的训练数据集。

最终,研究团队从超过2000万个候选样本中筛选出了100多万个高质量的训练样本。这个20:1的筛选比例说明了他们对数据质量的严格要求。即使经过如此严格的筛选,Step1X-Edit的数据集规模仍然超过了现有的大多数开源数据集。

有趣的是,研究团队还采用了双语标注策略。所有的编辑指令都同时提供中文和英文版本,这不仅提高了模型的多语言能力,也为全球研究者提供了更好的使用体验。他们还使用了一种递归增强的标注方法,通过多轮标注来减少AI标注中常见的幻觉问题,确保标注内容的准确性和一致性。

二、技术架构的巧思:三个组件的完美协作

Step1X-Edit的技术架构就像是一个精密的工厂流水线,由三个核心组件协同工作:多模态大语言模型(MLLM)、连接器模块和扩散变换器(DiT)。

多模态大语言模型就像是这个工厂的总指挥。当用户输入一张图片和编辑指令时,比如"把这只猫的颜色改成金色",MLLM需要同时理解图片内容和文字指令的含义。这就像是一位既懂视觉艺术又精通语言文学的专家,能够准确把握用户的真实意图。

研究团队选择了Qwen-VL作为MLLM的基础,这是一个在图像理解和语言处理方面都表现出色的模型。为了让MLLM更好地为图像编辑服务,研究团队设计了一个巧妙的处理流程。当MLLM处理输入时,它会生成一系列token嵌入,就像是将复杂的编辑需求分解成一个个具体的指令代码。

然而,并不是所有的token都对图像编辑有用。就像在翻译过程中,"嗯"、"啊"这样的语气词通常不包含实质信息一样,MLLM生成的token中也有一些是格式化内容或冗余信息。因此,研究团队设计了一个筛选机制,只保留那些真正与编辑任务相关的token嵌入。

连接器模块就像是工厂中的传输带,负责将MLLM的输出转换成扩散模型能够理解的格式。这个模块虽然在整个架构中看似不起眼,但它的作用至关重要。就像翻译官需要在不同语言之间建立桥梁一样,连接器需要在语言理解和图像生成之间建立有效的沟通渠道。

连接器采用了token级联的方式来处理信息。原始图像首先被编码成图像token,然后与来自MLLM的编辑指令token进行拼接。这种处理方式确保了编辑指令能够与原始图像信息紧密结合,为后续的精确编辑奠定基础。

扩散变换器是整个系统的执行部门,负责根据前面两个组件提供的信息来生成最终的编辑结果。现代的扩散模型就像是非常有耐心的画家,它们通过逐步去除噪声的方式来"画出"目标图像。

在训练过程中,系统会向原始图像添加随机噪声,然后让扩散模型学会根据编辑指令来逐步还原和修改图像。这个过程就像是教一位画家如何在有雾的天气中依然能够准确地作画。通过反复练习这种"去雾"过程,模型逐渐学会了如何根据编辑指令来精确地修改图像。

整个架构的巧妙之处在于各个组件之间的无缝协作。MLLM负责理解用户意图,连接器负责信息转换和融合,扩散变换器负责具体执行。这种分工合作的方式不仅提高了系统的整体性能,也使得每个组件都能专注于自己最擅长的任务。

与其他方法相比,Step1X-Edit的架构有几个显著优势。首先,它避免了传统方法中常见的信息丢失问题。许多早期的图像编辑系统在处理复杂指令时会丢失细节信息,就像传话游戏中信息会逐渐失真一样。Step1X-Edit通过直接的token拼接避免了这个问题。

其次,这种架构具有很好的可扩展性。如果需要支持新的编辑类型,只需要在训练数据中添加相应的样本,而不需要修改整个系统架构。这就像是一个通用的工具箱,可以通过添加新工具来支持新的任务。

最后,整个系统的训练过程相对简单稳定。研究团队只需要使用标准的扩散损失函数进行训练,不需要额外的掩码损失或其他复杂的训练技巧。这大大降低了模型训练的难度和计算成本。

三、GEdit-Bench基准测试:真实世界的试金石

为了真正验证Step1X-Edit的实用性,研究团队创建了一个名为GEdit-Bench的全新评测基准。这个基准就像是为AI编辑师设计的职业资格考试,所有的题目都来自真实用户的实际需求。

传统的图像编辑评测往往使用人工构造的测试样本,就像是闭门造车的模拟考试。虽然这些测试在技术层面有一定意义,但往往无法反映真实世界的复杂性和多样性。GEdit-Bench的不同之处在于,它的所有测试样本都来自真实用户在网络平台上发布的编辑请求。

研究团队从Reddit等社交平台收集了超过1000个真实的图像编辑需求,这些需求涵盖了从简单的颜色调整到复杂的场景重构等各种类型。每个需求都代表着真实用户在日常生活中遇到的实际问题,比如"去掉照片中的路人"、"把我的T恤颜色改成蓝色"或者"让这张照片看起来更有艺术感"。

为了确保评测的公平性和代表性,研究团队对收集到的需求进行了精心筛选和分类。他们去除了过于相似的请求,确保每个测试样本都有其独特性。同时,他们还根据11个编辑类别对所有样本进行了平衡分布,避免某些类型的编辑任务在评测中占据主导地位。

最终的GEdit-Bench包含606个高质量的测试样本,每个样本都包含原始图像、编辑指令和期望的编辑效果描述。这个规模虽然相比训练数据要小得多,但每个样本都经过了严格的人工审核,确保其代表性和挑战性。

特别值得一提的是,研究团队在构建GEdit-Bench时非常注重隐私保护。所有包含个人信息的图像都经过了去标识化处理。他们采用了多种策略来保护原始用户的隐私:对于每张原始图片,团队会在多个搜索引擎中寻找视觉相似且语义一致的公开图片作为替代。如果找不到合适的替代图片,他们会对原始图片进行适当修改,同时调整编辑指令以保持测试的有效性。

这种隐私保护策略就像是在保护真实身份的同时进行角色扮演,既保证了测试的真实性,又避免了隐私泄露的风险。这种做法不仅体现了研究团队的社会责任感,也为其他研究者提供了处理敏感数据的良好范例。

GEdit-Bench的评测方法也很有特色。研究团队采用了VIEScore评估体系,这是一个专门为条件图像生成任务设计的评测标准。这个评测体系从三个维度对编辑结果进行评分:语义一致性、感知质量和整体效果。

语义一致性评估编辑结果是否符合用户的指令要求,就像检查订制的衣服是否符合顾客的要求一样。感知质量则评估生成图像的自然度和是否存在明显的伪影,就像检查照片是否清晰、色彩是否自然。整体效果是前两个指标的综合评估,反映了编辑结果的总体质量。

为了确保评测结果的可靠性,研究团队使用了两种不同的评估模型:GPT-4o和开源的Qwen2.5-VL-72B。这种双重评估机制就像是请两位专家同时进行评判,可以有效避免单一评估模型可能存在的偏见。

考虑到语言的多样性,GEdit-Bench为每个测试样本都提供了中英双语的编辑指令。这不仅测试了模型的多语言能力,也为不同语言背景的研究者提供了便利。

四、实验结果:开源模型的逆袭之路

Step1X-Edit在GEdit-Bench上的表现可以用"令人刮目相看"来形容。在与一众开源和闭源模型的对比中,Step1X-Edit展现出了强劲的竞争力。

在开源模型的竞争中,Step1X-Edit几乎是碾压式的胜利。与之前的开源顶尖模型OmniGen相比,Step1X-Edit在各项指标上都有显著提升。具体来说,在英语指令的完整测试集上,Step1X-Edit的整体评分达到了6.444分,而OmniGen只有5.005分。这种差距就像是专业运动员和业余爱好者之间的区别。

更有意思的是各个编辑类别的详细表现。在风格转换任务上,Step1X-Edit的表现特别突出,评分达到了7.20分,明显超过了其他开源模型。这说明Step1X-Edit在理解和执行艺术风格转换方面有着独特的优势。在主体添加和移除任务上,Step1X-Edit也表现优异,评分分别达到了7.70分和6.21分。

与闭源商业模型的比较更能体现Step1X-Edit的价值。在与GPT-4o的直接对比中,虽然GPT-4o整体上仍然略胜一筹(整体评分7.494 vs 6.444),但在某些特定任务上,Step1X-Edit甚至实现了反超。比如在风格转换和颜色调整任务上,Step1X-Edit的表现就与GPT-4o不相上下,甚至在某些测试样本上表现更好。

这种表现特别令人鼓舞,因为GPT-4o是目前公认的图像编辑领域的标杆模型之一。一个开源模型能够在某些方面达到甚至超越闭源商业模型的水平,这在图像编辑领域还是首次。

与Gemini2 Flash和Doubao的比较也很有启发性。在中文指令的测试中,Step1X-Edit甚至在某些指标上超越了这两个商业模型。这说明Step1X-Edit不仅在技术上有突破,在多语言支持方面也有独特优势。

特别值得注意的是,Step1X-Edit在处理复杂编辑任务时表现出了很好的稳定性。无论是简单的颜色调整还是复杂的场景重构,模型都能保持相对稳定的性能表现。这种一致性对于实际应用来说非常重要,就像一位可靠的员工,无论面对什么任务都能保持稳定的工作质量。

研究团队还进行了用户研究来验证自动评测的结果。他们邀请了55名用户对不同模型的编辑结果进行主观评价。有趣的是,用户研究的结果与自动评测基本一致,进一步验证了Step1X-Edit的优秀性能。

在用户偏好调查中,Step1X-Edit获得了6.939的综合评分,与GPT-4o的7.134分相当接近。考虑到GPT-4o是一个投入了巨额资源的商业模型,这个结果已经相当不错了。更重要的是,在某些特定类型的编辑任务上,用户甚至更偏好Step1X-Edit的结果。

用户反馈中特别提到了Step1X-Edit在保持图像细节方面的优势。许多用户表示,Step1X-Edit在进行编辑时能够很好地保留原始图像中的重要细节,避免了其他模型常见的细节丢失问题。这种能力对于实际应用来说非常重要,因为用户通常希望编辑后的图像既能体现他们的编辑意图,又能保持原有的图像质量。

从技术角度来看,Step1X-Edit的成功证明了几个重要观点。首先,高质量的训练数据比模型规模更重要。虽然Step1X-Edit的参数量可能不如某些商业模型,但通过精心构建的训练数据,它依然能够达到出色的性能。其次,统一的架构设计比任务特定的优化更有价值。Step1X-Edit使用同一个模型处理所有类型的编辑任务,这种简洁性不仅降低了开发和维护成本,也提高了模型的泛化能力。

五、技术创新的深度剖析

Step1X-Edit的技术创新不仅体现在整体架构上,更在于许多精妙的设计细节。这些创新就像是高级厨师在传统菜谱基础上的独特改良,看似微小但却带来了质的提升。

在多模态信息融合方面,Step1X-Edit采用了一种创新的token连接策略。传统的方法通常使用通道拼接或注意力机制来融合不同模态的信息,但这些方法往往会导致信息丢失或融合效果不佳。Step1X-Edit直接在token层面进行拼接,就像是将不同颜色的积木直接组合在一起,既保持了每个组件的完整性,又实现了有效的信息整合。

这种token级拼接的优势在于它能够保持编辑指令和图像信息之间的精确对应关系。当用户说"把左边的苹果改成橙子"时,模型能够准确地将"左边"、"苹果"、"橙子"这些概念与图像中的具体区域和物体建立联系。这种精确的对应关系是实现高质量编辑的关键。

在训练策略方面,Step1X-Edit采用了一种简化但有效的方法。与一些需要复杂损失函数组合的方法不同,Step1X-Edit只使用标准的扩散损失进行训练。这种简化不仅降低了训练的复杂度,也提高了训练的稳定性。就像是在烹饪中使用最基本但最可靠的调料组合,虽然看似简单,但效果往往最好。

模型的泛化能力也是一个重要的创新点。通过在11个不同类别的编辑任务上进行联合训练,Step1X-Edit学会了编辑任务之间的共同规律。比如,在学习颜色修改时获得的知识可以帮助理解材质变换,而在主体替换中学到的空间理解能力也能应用到背景更换任务中。这种知识的迁移和共享使得模型在面对新的编辑任务时也能表现出良好的性能。

另一个技术亮点是模型的多语言支持能力。通过双语训练,Step1X-Edit不仅能够理解中英两种语言的编辑指令,还能够处理跨语言的细微表达差异。比如,中文中的"让照片更有意境"和英文中的"make the photo more artistic"虽然表达方式不同,但模型都能理解其中蕴含的美学要求。

在实际部署方面,Step1X-Edit的设计也充分考虑了实用性。模型采用了模块化的架构,不同组件可以独立优化和替换。比如,如果有更先进的多模态语言模型出现,可以直接替换MLLM组件而不需要重新训练整个系统。这种灵活性使得Step1X-Edit能够随着技术发展而持续改进。

模型的计算效率也值得称道。虽然Step1X-Edit的功能强大,但其计算需求相对合理。在标准的GPU硬件上,模型能够在几秒钟内完成一次编辑任务,这使得它在实际应用中具有很好的可用性。

研究团队还特别关注了模型的鲁棒性。通过大量的测试,他们发现Step1X-Edit对于输入的变化具有很好的适应性。无论是图像质量的差异、编辑指令的表达方式变化,还是编辑要求的复杂程度不同,模型都能保持相对稳定的性能表现。

六、开源影响与未来展望

Step1X-Edit的开源发布就像是在图像编辑领域投下了一颗重磅炸弹,其影响远远超出了技术层面。这不仅仅是一个新模型的发布,更是对整个AI图像编辑生态系统的重新塑造。

从技术民主化的角度来看,Step1X-Edit的开源意味着高质量图像编辑能力不再是大公司的专利。过去,只有拥有巨额研发投入的科技巨头才能开发出媲美GPT-4o级别的图像编辑模型。现在,任何有一定技术基础的开发者或研究团队都可以使用、修改甚至改进这个模型。这就像是将原本只有少数大师傅掌握的烹饪秘籍公开分享,让更多人能够做出美味的菜肴。

对于学术研究而言,Step1X-Edit提供了一个强大的基线模型。研究者们不再需要从零开始构建自己的图像编辑系统,而可以在Step1X-Edit的基础上进行改进和创新。这大大降低了研究的门槛,加速了整个领域的发展进程。就像是有了一个坚实的地基,研究者们可以将更多精力投入到探索新的编辑技术和应用场景上。

从商业应用的角度来看,Step1X-Edit为中小企业和创业公司提供了前所未有的机会。过去,这些公司如果想要在产品中集成高质量的图像编辑功能,要么需要支付昂贵的API费用,要么需要投入大量资源自主研发。现在,他们可以直接使用Step1X-Edit来构建自己的图像编辑应用,大大降低了创新的成本和门槛。

这种技术的普及也催生了新的应用场景。电商平台可以使用Step1X-Edit来帮助商家快速编辑商品图片,提高商品展示效果。社交媒体应用可以集成这种技术来提供更丰富的图片编辑功能。教育软件可以使用它来创建更生动的教学材料。甚至传统的设计行业也可能因为这种技术的普及而发生变革。

然而,技术的普及也带来了新的挑战和责任。随着高质量图像编辑技术变得触手可得,如何防止技术被恶意使用成为了一个重要问题。虽然Step1X-Edit本身是为了积极的创新目的而开发的,但任何强大的技术都有被滥用的可能性。研究团队在论文中也提到了这个问题,并呼吁使用者遵守相关的伦理规范。

从技术发展的趋势来看,Step1X-Edit的成功验证了几个重要的发展方向。首先,数据质量比模型规模更重要。Step1X-Edit通过精心构建的训练数据达到了出色的性能,这证明了在AI发展中,"巧干"比"蛮干"更有效。其次,统一架构的优势越来越明显。与其为每种编辑任务开发专门的模型,不如构建一个能够处理多种任务的通用模型。

这种趋势预示着未来的AI图像编辑工具将会更加智能和通用。用户可能不再需要学习使用复杂的图像编辑软件,而是可以用自然语言与AI进行交互,就像与人类助手对话一样简单。

从研究方法论的角度来看,Step1X-Edit的成功也提供了有价值的启示。研究团队没有盲目追求模型的复杂性,而是专注于解决实际问题。他们从真实用户需求出发,构建了贴近实际应用的评测基准,这种以用户为中心的研究方法值得其他研究者借鉴。

未来的发展方向可能包括更细粒度的编辑控制、更好的多模态理解能力、以及更高效的模型架构。随着计算资源的不断提升和算法的持续优化,我们可能会看到能够处理视频编辑、三维场景编辑等更复杂任务的AI系统。

Step1X-Edit的开源也为国际合作提供了新的平台。世界各地的研究者可以在这个共同的基础上进行协作,加速技术的发展和应用。这种开放合作的模式可能会成为未来AI研究的主流趋势。

从更宏观的角度来看,Step1X-Edit代表了AI技术从实验室走向实际应用的重要一步。它不仅证明了开源模型能够达到商业级别的性能,也为整个AI生态系统的健康发展提供了新的思路。这种开放、合作、共享的发展模式,可能正是推动AI技术真正普及和造福人类的关键所在。

说到底,Step1X-Edit的意义远超一个技术项目的范畴。它代表着一种新的可能性:高质量的AI技术不再是少数巨头的专利,而是可以被广泛共享和改进的公共资源。这种变化不仅会加速技术创新,也会让更多人受益于AI技术的进步。正如研究团队在论文中所表达的愿景,他们希望通过开源Step1X-Edit来推动整个图像编辑领域的发展,让更多的创新想法能够变成现实。

随着越来越多像Step1X-Edit这样的高质量开源项目出现,我们有理由相信,AI技术的未来将更加开放、包容和充满活力。这不仅是技术发展的胜利,也是人类协作精神的体现。在这个充满挑战和机遇的时代,像Step1X-Edit这样的项目为我们展示了技术如何能够真正服务于人类的创造力和想象力。

Q&A

Q1:Step1X-Edit是什么?它能做什么? A:Step1X-Edit是由StepFun公司开发的开源AI图像编辑模型,它的核心能力是理解用户的自然语言编辑指令并精确执行图像修改。它可以处理11种不同的编辑任务,包括物体添加删除、颜色材质修改、风格转换、背景更换、人像美化等,就像一位全能的数字化图像编辑师。

Q2:Step1X-Edit会不会取代专业的图像编辑软件? A:目前不会完全取代,但会大大改变图像编辑的工作方式。Step1X-Edit更像是一个智能助手,能够快速完成常见的编辑任务,特别适合不熟悉复杂编辑软件的普通用户。对于专业设计师,它可以作为提高效率的工具,但复杂的创意设计仍然需要专业软件的精细控制。

Q3:普通人如何使用Step1X-Edit?有什么要求? A:Step1X-Edit已经在GitHub上开源(https://github.com/stepfun-ai/Step1X-Edit),有一定技术基础的用户可以直接下载使用。对于普通用户,可能需要等待基于Step1X-Edit开发的用户友好型应用出现。使用时需要提供原始图片和清晰的编辑指令,模型会自动完成编辑过程。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-