字节跳动在人工智能领域再推创新成果,发布了一款名为 InfiniteYou(InfU)的图片生成框架。这一框架能够依据用户输入的文字描述,生成具有高质量画面的图片,尤为独特的是,它能在灵活变换场景及其中内容的同时,精准保留角色的形象特点。
InfiniteYou的核心技术是InfuseNet框架。通过精妙的技术手段,InfuseNet可以将特定的角色身份融入到DIT生成模型中。在这一过程中,它采用“残差连接”等精细操作,在提升人脸相似度的同时,不会对原有生成模型的能力造成破坏,进而保证生成的图像既契合用户给定的文字描述,又能稳定地保持人物角色的特征,有效规避了传统换脸技术中面部特征粘贴生硬等问题。
在训练策略上,InfiniteYou历经了多个关键阶段。先是进行预训练,而后利用合成的单人多样本(SPMS)数据开展监督微调(SFT)。这样的多阶段训练方式极大地提升了文本与图像之间的对齐程度,使得生成的图像不仅在内容上与用户描述高度相符,在图像质量和美观度方面也达到了较高水准。此外,字节跳动还贴心地推出了aes_stage2和sim_stage1两种模型版本,用户可依据自身对图像美观度或人脸相似度的侧重不同,灵活选择更符合需求的版本。
从功能层面来看,InfiniteYou展现出了强大的优势。用户能够借助它生成带有自身身份特征的高质量图像,想象一下,无论是身着宇航服漫步在浩瀚太空,还是穿着古装穿越回古代,图像中的人物面部特征始终与用户本人保持一致,真正实现了在不同场景中“出现”的个性化体验。同时,用户只要通过文字描述心中所想的场景或情境,该框架就能迅速生成对应的图像,极大地拓展了图像创作的边界和可能性。经对比实验验证,InfiniteYou在身份相似性、文本图像对齐、图像质量和美观度等关键指标上,均超越了诸如FLUX.1-dev IP – Adapter和PuLID – FLUX等现有的先进方法。
值得一提的是,InfiniteYou具备“即插即用”的特性,能够与FLUX.1-dev的各类变体(如更为高效的 FLUX.1 – schnell)、ControlNets、LoRAs 等现有工具实现无缝集成。这种强大的兼容性为用户赋予了更强的可控性和定制化能力,进一步推动了个性化图像风格迁移技术的发展。
目前,InfiniteYou基于 Creative Commons Attribution – NonCommercial 4.0 International Public License 发布,不过现阶段仅供学术研究使用。这一举措旨在鼓励全球科研人员基于该框架开展深入研究,共同探索人工智能在图像生成领域的更多可能性,推动行业技术的进步与创新。