AI Pulse

OpenAI发布新语音模型,AI能边听边思考并实时处理多任务

OpenAI发布新语音模型,AI能边听边思考并实时处理多任务

OpenAI周三发布三款新的音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。它们都在API中开放,开发者可用来构建更智能的语音应用。

最核心的是GPT-Realtime-2。OpenAI说这是首个具备GPT-5级推理能力的语音模型——它不是在你说完话后才处理,而是边听边思考,能处理更复杂的请求,并且自然地推进对话。

这种能力在实际交互中更接近真人对话。比如开发者可以设置前置短语——“让我查一下”“请稍等”——当AI正在处理请求时,用户不会觉得沉默是卡住了。模型还能同时调用多个工具,并用语音告知用户:“正在查你的日历”“在找这个信息”。出错了也会主动说“我现在遇到问题”,而不是中断对话。

上下文窗口从32K增加到128K,更长的会话也能保持连贯。专业术语、医疗词汇、专有名词的保留也有所改善——这在客服、医疗等行业场景中很关键。开发者还能调节模型的语气和表达方式:解决问题时冷静,用户沮丧时共情,确认成功时兴奋。

推理努力级别支持从minimal到xhigh共五档,默认是low。调到high时,GPT-Realtime-2在Big Bench Audio上的音频智能评测比上一代高15.2%;调到xhigh时,在Audio MultiChallenge(指令遵循任务)上提升13.8%。

Zillow正在用GPT-Realtime-2构建一个语音助手。用户可以说:“找我能买得起的房,避开繁忙街道,安排周六看房。”在Zillow设置的最难基准测试中,优化提示词后通话成功率从69%提升到95%——提高26个百分点。Priceline也在探索用语音管理整个旅行:搜索航班酒店、处理变更、获取实时信息、翻译对话。Deutsche Telekom在测试实时翻译用于多语言语音支持。

第二个模型GPT-Realtime-Translate专注实时翻译。它支持70多种输入语言和13种输出语言的语音翻译,能跟上说话速度。在印地语、泰米尔

📎 阅读原文 · OpenAI
📚 相关主题 API

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部