阶跃星辰发布通用图像编辑模型Step1X – Edit，引领开源图像编辑新时代

🤖 由文心大模型生成的文章摘要

4月27日，上海阶跃星辰智能科技有限公司正式发布通用图像编辑模型Step1X – Edit，为图像编辑领域带来重大革新。这款总参数量达 19B（由7B MLLM与12B DiT构成）的模型，凭借语义精准解析、身份一致性保持、高精度区域级控制三项关键能力，强势进入大众视野，为用户提供强大且易用的多模态改图能力。

Step1X – Edit能够助力用户完成11类高频图像编辑任务，涵盖工作与生活的多个场景。无论是替换图片中的文字，满足海报文案修改、产品包装文字更替等需求；还是进行人物美化修图，服务于个人照片精修、商业人像摄影后期处理；亦或是对画面进行风格迁移，将现代照片转换为复古风、油画风，用于艺术创作与风格化展示，以及实现材质变换，改变物体表面质感，用于工业设计、电商产品展示等，该模型都能应对自如。简单来说，Step1X – Edit不仅能 “改图”，更能 “听得懂、改得准、保得住”。例如，用户只需输入 “将图片中的晴天改为清晨，同时把人物的服装换成古装”，模型便能精准理解指令，完成场景氛围的转换与人物服饰的替换，且保持人物身份特征与画面整体风格的一致性。

在技术架构上，Step1X – Edit采用MLLM（Multimodal LLM）+ Diffusion的解耦式架构，这种创新架构与现有图像编辑模型相比，在指令泛化能力与图像可控性上优势明显。MLLM模块负责处理自然语言指令与图像内容，凭借其多模态语义理解能力，将复杂编辑需求解析为 latent 控制信号；Diffusion模块作为图像生成器（Image Decoder），依据MLLM生成的latent 信号完成图像的重构或局部修改，确保图像细节保真与风格统一，打破了传统pipeline模型中 “理解” 和 “生成” 相互分离、各自为政的问题，让模型在执行复杂编辑指令时准确性与控制力更上一层楼。

为了让模型测试能最大程度贴近市场产品需求，阶跃星辰自研了基准测试集GEdit – Bench，其评测数据均来源于社区真实编辑请求。根据GEdit – Bench的评测结果，Step1X – Edit在语义一致性、图像质量与综合得分等三项核心指标中均大幅领先现有开源模型，达到开源SOTA（State of the Art，即“当前最佳技术”）水平，在语言理解与图像重构之间实现了理想平衡。

值得关注的是，Step1X – Edit上线即开源，这一举措极大地推动了图像编辑技术的普及与创新。目前，开发者已经可以在GitHub、HuggingFace、ModelScope等技术社区便捷调用。这意味着，无论是专业的图像设计师、AI开发者，还是对图像编辑感兴趣的普通爱好者，都能借助这一开源模型，开发出更具创意、更贴合需求的图像编辑应用或工具，加速行业的创新发展。

实际上，这已是近一个月内阶跃星辰上新的第三款多模态模型。此前，阶跃星辰还陆续推出了图生视频开源模型和多模态推理模型。数据显示，截至目前，在阶跃星辰Step系列基座模型矩阵中，多模态模型的占比已达七成，充分展现了阶跃星辰在多模态领域的持续投入与创新实力。

「93913原创内容，转载请注明出处」

阶跃星辰发布通用图像编辑模型Step1X – Edit，引领开源图像编辑新时代

相关文章

Apple Intelligence：以生成式人工智能来增强iPhone、iPad和Mac用户体验

AMD推出适用于商用笔记本电脑和台式机的AI芯片

Figure推出新一代对话式人形机器人，具备3倍人工智能算力，可执行完全自主任务

国内大学开设DeepSeek课程，助力人工智能发展

人工智能助力中国电信业

红杉资本承诺投资马斯克旗下人工智能初创公司xAI

推荐

索尼全息显示器重磅升级，零头显3D体验开启视觉新革命

Meta Quest性能革新利器！「Virtual Desktop」1.34.1 Beta版可定制视野，流畅度拉满

我国已形成完整人工智能产业体系

硅基智能千万美元收购域名，强势上线DUIX数字人实时交互平台

AI应用推荐

热门

索尼全息显示器重磅升级，零头显3D体验开启视觉新革命

Meta Quest性能革新利器！「Virtual Desktop」1.34.1 Beta版可定制视野，流畅度拉满

友情链接

推荐

索尼全息显示器重磅升级，零头显3D体验开启视觉新革命

Meta Quest性能革新利器！「Virtual Desktop」1.34.1 Beta版可定制视野，流畅度拉满

我国已形成完整人工智能产业体系

硅基智能千万美元收购域名，强势上线DUIX数字人实时交互平台