AI Pulse

OpenAI开放实时语音AI:听懂翻译并自然回应

OpenAI开放实时语音AI:听懂翻译并自然回应

OpenAI在API里推出一组新语音功能。核心是GPT‑Realtime‑2,一个基于GPT‑5级别推理的语音模型——它能像真人一样说话,听懂复杂请求,自然回应。配套的还有专门做翻译的GPT‑Realtime‑Translate和做转录的GPT‑Realtime‑Whisper。

翻译功能支持超过70种输入语言、13种输出语言,能跟上对话节奏。转录在对话发生时同步抓取语音,转成文字。OpenAI自己说,这套东西把实时语音从简单的“你问我答”变成了能听、能推理、能翻译、能转录、还能直接干活的语音界面。

这些能力首先面向客户服务、教育、媒体、活动和创作者平台这类企业应用。普通用户不会直接调用API,但通过客服热线、在线课程这些APP,能间接体验到更流畅的语音。

所有新模型都在OpenAI的Realtime API里。翻译和转录按分钟计费,GPT‑Realtime‑2按消耗的token计费。开发者的成本有可能转嫁到你头上。

OpenAI说装了防护措施——系统内置触发器,一旦检测到违反内容准则的对话就自动中断,防止被用来搞垃圾信息或欺诈。但实际效果如何,目前还不清楚。

阅读原文
📚 相关主题 API

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部