OpenAI发布新语音模型，AI能边听边思考并实时处理多任务

📅 2026 年 5 月 8 日 📖 约 7 分钟 OpenAI AI语音识别API

OpenAI周三发布三款新的音频模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。它们都在API中开放，开发者可用来构建更智能的语音应用。

最核心的是GPT-Realtime-2。OpenAI说这是首个具备GPT-5级推理能力的语音模型——它不是在你说完话后才处理，而是边听边思考，能处理更复杂的请求，并且自然地推进对话。

这种能力在实际交互中更接近真人对话。比如开发者可以设置前置短语——“让我查一下”“请稍等”——当AI正在处理请求时，用户不会觉得沉默是卡住了。模型还能同时调用多个工具，并用语音告知用户：“正在查你的日历”“在找这个信息”。出错了也会主动说“我现在遇到问题”，而不是中断对话。

上下文窗口从32K增加到128K，更长的会话也能保持连贯。专业术语、医疗词汇、专有名词的保留也有所改善——这在客服、医疗等行业场景中很关键。开发者还能调节模型的语气和表达方式：解决问题时冷静，用户沮丧时共情，确认成功时兴奋。

推理努力级别支持从minimal到xhigh共五档，默认是low。调到high时，GPT-Realtime-2在Big Bench Audio上的音频智能评测比上一代高15.2%；调到xhigh时，在Audio MultiChallenge（指令遵循任务）上提升13.8%。

Zillow正在用GPT-Realtime-2构建一个语音助手。用户可以说：“找我能买得起的房，避开繁忙街道，安排周六看房。”在Zillow设置的最难基准测试中，优化提示词后通话成功率从69%提升到95%——提高26个百分点。Priceline也在探索用语音管理整个旅行：搜索航班酒店、处理变更、获取实时信息、翻译对话。Deutsche Telekom在测试实时翻译用于多语言语音支持。

第二个模型GPT-Realtime-Translate专注实时翻译。它支持70多种输入语言和13种输出语言的语音翻译，能跟上说话速度。在印地语、泰米尔

📎 阅读原文 · OpenAI

📚 相关主题 API

📬 订阅 AI Pulse