AI Pulse

语音

6 篇文章 · 18 条要点 · 3 条信号 · 持续更新

📡 有个TTS模型说话比你听的速度快167倍,还能在手机上运行 𝕏2026 年 5 月 16 日
📡 开源语音AI能演戏还能签数字名 𝕏2026 年 5 月 14 日
💡 Google Gemini 2.5 Flash 语音客服对话平均仅需2.4分钟 2026 年 5 月 13 日
💡 最快模型比最慢模型快一倍以上,速度差距显著 2026 年 5 月 13 日
💡 该基准测试仅评估速度,未涉及回答准确性和客户满意度 2026 年 5 月 13 日
💡 Vapi 融资 5000 万美元,已处理超 10 亿通电话 2026 年 5 月 13 日
💡 亚马逊 Ring 100% 客服电话由 Vapi AI 代理处理 2026 年 5 月 13 日
💡 Ring 选择 Vapi 因其精细控制能力,替代人工和录音菜单 2026 年 5 月 13 日
📖 AI语音客服对话最快2.4分钟完成,速度差一倍 AI基准测试2026 年 5 月 13 日
📖 AI客服代理Vapi融资5千万,已处理超10亿通电话 AI企业应用2026 年 5 月 13 日
💡 OpenAI推出GPT-Realtime-2语音模型,能听懂复杂请求并自然回应 2026 年 5 月 8 日
💡 翻译功能支持70种输入语言和13种输出语言,可跟上对话节奏 2026 年 5 月 8 日
💡 新功能面向客服、教育等企业应用,普通用户通过APP间接体验 2026 年 5 月 8 日
💡 Parloa的AMP平台用自然语言定义代理行为,无需编写代码 2026 年 5 月 8 日
💡 Parloa通过模拟和评估管道测试模型,确保生产中的一致性 2026 年 5 月 8 日
💡 一家全球旅游公司使用Parloa后,请求人工座席的次数减少了80% 2026 年 5 月 8 日
💡 OpenAI发布GPT-Realtime-2语音模型,具备接近GPT-5的推理能力 2026 年 5 月 8 日
💡 GPT-Realtime-Translate支持超70种语言的流式同步翻译 2026 年 5 月 8 日
💡 两款新语音模型通过Realtime API提供,但ChatGPT用户暂不可用 2026 年 5 月 8 日
📖 OpenAI开放实时语音AI:听懂翻译并自然回应 AIAPI2026 年 5 月 8 日
📖 Parloa打造客户愿意交谈的服务代理 AI企业应用2026 年 5 月 8 日
📖 AI语音模型可实时打断并边听边翻译 AIAPI2026 年 5 月 8 日
💡 微软VibeVoice-ASR可一次性转录60分钟音频并自动标注说话人 2026 年 4 月 29 日
💡 VibeVoice-TTS支持最长90分钟多说话人合成,因深度伪造风险已撤下代码 2026 年 4 月 29 日
💡 三个模型基于连续语音分词器,以7.5Hz超低帧率运行,采用下一标记扩散框架 2026 年 4 月 29 日
📖 微软开源VibeVoice-ASR:1小时音频一次性转录,自动标注说话人 AI开源2026 年 4 月 29 日
📡 开源工具把ElevenLabs和Descript全装进一个本地界面 𝕏2026 年 4 月 27 日

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部