AI Pulse

AI语音模型可实时打断并边听边翻译

OpenAI通过API发布了两款新语音模型。GPT-Realtime-2是其最智能的语音模型,具备接近GPT-5级别的推理能力。它能边听边思考、处理用户的打断,同时保持对话流畅,适合用在客服、医疗辅助或个人助理这类场景。

另一款是GPT-Realtime-Translate,支持超过70种语言的流式翻译——一边说话一边同步转成另一种语言,跨国会议或外语学习都派得上用场。

两个模型现已通过Realtime API提供,但ChatGPT用户暂时用不了。OpenAI表示正在给ChatGPT准备语音更新,具体上线时间没说。

GPT-Realtime-2让语音代理从简单问答升级为实时协作者。它在复杂问题上的边听边推理能力,是前代模型没有的。不过定价、延迟和准确性相比前代的提升幅度,以及哪些语言被完整覆盖,OpenAI都没有公布。

这是OpenAI在语音交互上的一次集中发布,把语音能力拉到与文本推理相近的水平。开发者可以立刻用上,ChatGPT用户还得再等等。

📎 阅读原文 · @OpenAI on 𝕏
📚 相关主题 语音API

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部