字节跳动开源MegaTTS3语音合成模型,中英混合与口音控制成亮点

🤖 由 文心大模型 生成的文章摘要

字节跳动近日发布其最新的文本转语音(TTS)模型MegaTTS3。根据技术社区反馈和官方信息,MegaTTS3被誉为语音合成领域的一次重要进步。

MegaTTS3是一款由字节跳动与浙江大学合作开发的开源语音合成工具,其主干模型仅包含 0.45亿个参数,相较于传统大型TTS模型显得异常轻量。这一设计不仅降低了计算资源需求,还使其更适合在资源受限的设备上部署,例如移动设备或边缘计算场景。

该模型支持中文和英文语音生成,并具备独特的中英混合朗读能力,能够自然流畅地处理双语文本。在实际应用场景中,无论是双语教学材料的音频制作,还是跨国商务场景中的语音交互,MegaTTS3 都能轻松应对,打破语言切换时可能出现的生硬感。此外,MegaTTS3 还引入了口音强度控制功能,用户可以通过调整参数生成带有不同程度口音的语音,为个性化语音应用提供了更多可能性。比如,语言学习者可以利用这一功能,生成带有特定外语口音的句子,进行口音模仿练习;影视配音爱好者也能借此创造出更贴合角色设定的语音效果。​

技术专家在评论中特别指出:“支持口音强度控制,这一点非常亮眼。”MegaTTS3的轻量级架构设计,其核心TTS Diffusion Transformer 主干网络参数量仅为 0.45B,却在追求高质量语音合成的道路上取得了显著成效。它不仅能够生成清晰、自然、韵律丰富的语音,还能学习并模仿目标说话人的独特音色,实现高质量的语音克隆。在语音合成的过程中,MegaTTS3 通过先进的模型架构设计,将语音分解为内容、音色、韵律等独立属性进行建模。

音色建模使用全局向量捕捉音色这一随时间缓慢变化的全局属性;韵律建模利用基于潜在码的语言模型,捕捉韵律在句子中快速变化的特性以及局部和长距离依赖关系;内容建模基于 VQGAN的声学模型生成语谱图;相位建模基于GAN的声码器构建相位,无需语言模型参与。​

MegaTTS3 在包含20,000小时语音数据的大规模多领域数据集上进行训练,并引入稀疏对齐算法,有效降低了对齐难度,最终实现了高自然度的语音合成。从应用前景来看,MegaTTS3 的适用范围极为广泛。在语音合成领域,它能为有声读物、智能客服等场景提供高质量的语音解决方案;在语音编辑方面,创作者可以轻松对语音进行个性化处理;跨语言语音合成场景中,其出色的中英混合朗读及口音控制能力更是大显身手。

「93913原创内容,转载请注明出处」