阶跃星辰发布通用图像编辑模型Step1X – Edit,引领开源图像编辑新时代

🤖 由 文心大模型 生成的文章摘要

4月27日,上海阶跃星辰智能科技有限公司正式发布通用图像编辑模型Step1X – Edit,为图像编辑领域带来重大革新。这款总参数量达 19B(由7B MLLM与12B DiT构成)的模型,凭借语义精准解析、身份一致性保持、高精度区域级控制三项关键能力,强势进入大众视野,为用户提供强大且易用的多模态改图能力。​

Step1X – Edit能够助力用户完成11类高频图像编辑任务,涵盖工作与生活的多个场景。无论是替换图片中的文字,满足海报文案修改、产品包装文字更替等需求;还是进行人物美化修图,服务于个人照片精修、商业人像摄影后期处理;亦或是对画面进行风格迁移,将现代照片转换为复古风、油画风,用于艺术创作与风格化展示,以及实现材质变换,改变物体表面质感,用于工业设计、电商产品展示等,该模型都能应对自如。简单来说,Step1X – Edit不仅能 “改图”,更能 “听得懂、改得准、保得住”。例如,用户只需输入 “将图片中的晴天改为清晨,同时把人物的服装换成古装”,模型便能精准理解指令,完成场景氛围的转换与人物服饰的替换,且保持人物身份特征与画面整体风格的一致性。​

在技术架构上,Step1X – Edit采用MLLM(Multimodal LLM)+ Diffusion的解耦式架构,这种创新架构与现有图像编辑模型相比,在指令泛化能力与图像可控性上优势明显。MLLM模块负责处理自然语言指令与图像内容,凭借其多模态语义理解能力,将复杂编辑需求解析为 latent 控制信号;Diffusion模块作为图像生成器(Image Decoder),依据MLLM生成的latent 信号完成图像的重构或局部修改,确保图像细节保真与风格统一,打破了传统pipeline模型中 “理解” 和 “生成” 相互分离、各自为政的问题,让模型在执行复杂编辑指令时准确性与控制力更上一层楼。​

为了让模型测试能最大程度贴近市场产品需求,阶跃星辰自研了基准测试集GEdit – Bench,其评测数据均来源于社区真实编辑请求。根据GEdit – Bench的评测结果,Step1X – Edit在语义一致性、图像质量与综合得分等三项核心指标中均大幅领先现有开源模型,达到开源SOTA(State of the Art,即“当前最佳技术”)水平,在语言理解与图像重构之间实现了理想平衡。

值得关注的是,Step1X – Edit上线即开源,这一举措极大地推动了图像编辑技术的普及与创新。目前,开发者已经可以在GitHub、HuggingFace、ModelScope等技术社区便捷调用。这意味着,无论是专业的图像设计师、AI开发者,还是对图像编辑感兴趣的普通爱好者,都能借助这一开源模型,开发出更具创意、更贴合需求的图像编辑应用或工具,加速行业的创新发展。​

实际上,这已是近一个月内阶跃星辰上新的第三款多模态模型。此前,阶跃星辰还陆续推出了图生视频开源模型和多模态推理模型。数据显示,截至目前,在阶跃星辰Step系列基座模型矩阵中,多模态模型的占比已达七成,充分展现了阶跃星辰在多模态领域的持续投入与创新实力。

「93913原创内容,转载请注明出处」