OpenAI推出全新一代音频模型,提升语音交互体验

🤖 由 文心大模型 生成的文章摘要

OpenAI在其API中发布了全新一代音频模型,为语音转文本和文本转语音功能带来了重大升级。这些模型包括gpt – 4o – transcribe、gpt – 4o – mini – transcribe和gpt – 4o – mini – tts,基于GPT – 4o和GPT – 4o – mini架构构建,运用了一系列创新技术,旨在为开发者和用户提供更高效、准确和个性化的语音交互体验。目前,这些模型已面向全球开发者开放。​

在语音转文本方面,新推出gpt – 4o – transcribe模型表现卓越。与现有的Whisper模型相比,它在多个基准测试中展现出更低的单词错误率,尤其是在处理口音多样、环境嘈杂等具有挑战性的场景时优势明显。OpenAI在其官网上发布的图表显示,gpt – 4o – transcribe在识别33 种语言的单词时,错误率显著降低,其中英语的错误率低至2.46%。这一成果得益于模型内置的噪声消除和语义语音活动检测器,它们能够有效判断说话者何时结束表达,从而提高转录的准确性。​

为了满足资源有限但仍需要高质量语音识别的场景需求,OpenAI还推出了gpt – 4o – mini – transcribe模型。作为gpt – 4o – transcribe的精简版本,它在保证一定准确性的同时,速度更快、效率更高。这使得开发者在一些对资源消耗敏感的应用中,也能够轻松集成高质量的语音识别功能。

「93913原创内容,转载请注明出处」