首页
Ai人工智能
OpenAI推出全新一代音频模型，提升语音交互体验

OpenAI推出全新一代音频模型，提升语音交互体验

William2025年3月22日 · Ai人工智能 ·

🤖 由文心大模型生成的文章摘要

OpenAI在其API中发布了全新一代音频模型，为语音转文本和文本转语音功能带来了重大升级。这些模型包括gpt – 4o – transcribe、gpt – 4o – mini – transcribe和gpt – 4o – mini – tts，基于GPT – 4o和GPT – 4o – mini架构构建，运用了一系列创新技术，旨在为开发者和用户提供更高效、准确和个性化的语音交互体验。目前，这些模型已面向全球开发者开放。

在语音转文本方面，新推出gpt – 4o – transcribe模型表现卓越。与现有的Whisper模型相比，它在多个基准测试中展现出更低的单词错误率，尤其是在处理口音多样、环境嘈杂等具有挑战性的场景时优势明显。OpenAI在其官网上发布的图表显示，gpt – 4o – transcribe在识别33 种语言的单词时，错误率显著降低，其中英语的错误率低至2.46%。这一成果得益于模型内置的噪声消除和语义语音活动检测器，它们能够有效判断说话者何时结束表达，从而提高转录的准确性。

为了满足资源有限但仍需要高质量语音识别的场景需求，OpenAI还推出了gpt – 4o – mini – transcribe模型。作为gpt – 4o – transcribe的精简版本，它在保证一定准确性的同时，速度更快、效率更高。这使得开发者在一些对资源消耗敏感的应用中，也能够轻松集成高质量的语音识别功能。

「93913原创内容，转载请注明出处」

标签:

gpt - 4o - transcribe OpenAI