OpenAI对GPT – 4o和Sora进行重大更新,发布全新文生图模型

🤖 由 文心大模型 生成的文章摘要

OpenAI宣布对GPT – 4o和Sora进行重大更新,将迄今最先进的图像生成器集成至GPT – 4o,推出全新文生图模型。即日起,所有Plus、Pro、Team及免费用户将陆续在ChatGPT和Sora 中体验该功能,企业版与教育版也即将接入,Sora平台同步启用。开发者将在未来数周内获得接口权限,通过API调用GPT – 4o图像生成功能。​

此次推出的全新文生图模型功能十分强大。除了基础的文生图能力外,它还支持多种实用功能。在自定义操作方面,用户能够更改宽高比、调整图像物体角度,甚至可以用十六进制代码指定精确颜色等。连续发问功能让用户与模型的交互更加流畅,能够基于前一次生成的图像继续提出修改或拓展需求。

风格转换功能可将图像在不同风格之间切换,比如能把合照转化为动画画风。图像 PPT 功能则对教育、金融、医疗等领域帮助巨大,例如在教育场景中,教师可根据知识点快速生成具有一致性的系列图像用于教学演示。​

在图像生成效果上,该模型表现惊艳。生成图像的逼真度极高,肉眼几乎难以看出破绽,在精细度、细节和文本遵循方面尤为出色,在一些功能上甚至可媲美乃至超越 Midjourney 这一头部文生图平台。比如在生成复杂场景或物体时,模型能精准呈现丰富细节,对于文本指令中的复杂语义也能很好地理解并转化为对应的图像内容。​

技术层面,新模型采用非自回归生成技术,这成为提升图片质量和生成效率的关键。与传统的依赖逐像素生成过程不同,非自回归生成模块能直接生成整个图像。

它借助特殊的编码器 – 解码器架构,一次性理解和处理图像的整体结构与细节。这种技术带来了多方面优势:其一,生成速度大幅提升,对于实时应用以及需要大规模生成图像的场景,如设计工作中需要快速产出大量草图,或教育场景中教师需要迅速生成教学相关图像等,能显著提高工作效率;其二,生成图像质量更优,在处理复杂场景图像时,能更好地协调多个对象及其相互关系,使图像更加自然逼真,并且能更精准地遵循文本指令中的复杂语义生成图像;其三,在多模态融合方面表现出色,不仅能依据文本生成图像,还能结合音频或已有图像等其他模态信息,生成更为丰富多样的图像内容,更好地满足用户多元化需求。

「93913原创内容,转载请注明出处」