字节跳动Seedream 3.0追平GPT-4o,引领文生图技术新变革

🤖 由 文心大模型 生成的文章摘要

文生图领域权威的第三方榜单Artificial Analysis竞技场发布重要消息,字节跳动Seed团队的图像生成模型Seedream 3.0取得重大技术突破。其综合性能成功追平当前文生图领域的 SOTA(State-of-the-Art,最先进)模型GPT – 4o,并稳定超越Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等知名模型,正式迈入全球第一梯队。这一成果标志着文生图技术迎来了新的发展阶段,也为相关领域的应用带来了更多可能。​

Seedream 3.0作为字节跳动在文生图领域的新一代主力模型,已经在即梦、豆包等台全量开放,向广大用户展示其强大的功能。据技术报告显示,该模型支持中英双语图像生成,并且在图像输出质量上实现了质的飞跃,时常无需后处理即可直接生成2K高清图像,这在行业内处于领先水平。​

在生成速度和质量方面,Seedream 3.0表现卓越。它能够在约3秒的极短时间内,迅速生成一幅1K分辨率的高品质图像。相比之下,市场上大多数同类模型生成同样分辨率内容往往需要10秒以上,就连此前的文生图SOTA模型GPT-4o,其生成 1K分辨率图像的平均耗时也达到了77秒。Seedream 3.0的高效表现,极大地提升了用户的创作效率。​

为了实现这一突破,豆包大模型团队在研发 Seedream 3.0时深入调研设计师的实际需求,将图文匹配、结构和美感等行业共识性指标纳入模型设计方向。团队还重点攻克了小字体生成与复杂文本排版等行业难题,为海报设计等实际应用奠定了坚实基础。在技术架构上,Seedream 3.0 采用了 Transformers 架构,能够灵活处理变长输入序列,支持从512×512到2048×2048的多种分辨率及不同长宽比的快速生成。同时,模型引入的新推理加速算法,包括一致性噪声预测法和重要时间步采样,确保了在生成速度和图像质量之间达到良好平衡。​

在图像质量提升方面,Seedream 3.0 针对小字体的高保真生成以及多行文本的语义排版表现有显著改进。这得益于模型在预训练阶段引入的跨模态旋转位置编码技术,该技术极大地增强了文字的渲染能力,使得生成的海报不仅美观,而且符合设计伦理,满足了用户对美学体验的更高要求。此外,字节跳动团队通过全新的数据处理和训练方案,在数据处理和 RLHF(强化学习与人类反馈)阶段将有效数据集扩充超过 20%,并采用更加精准的美感描述维度,进一步优化 RLHF 奖励模型,使其具备多维度的质量判别能力,从而显著提升了模型的综合性能。

「93913原创内容,转载请注明出处」