不用写代码，几分钟让AI替你接打电话

📅 2026 年 5 月 3 日 📖 约 19 分钟 GitHub AI工程开源

托管平台是上手最快的方式。Vapi、Retell和Bland这几个平台，能让用户5分钟内拿到一个可以打电话的语音代理。Vapi的快速入门演示里，填几项配置，就能拿到一个美国免费电话号码。ElevenLabs的Conversational AI更快：5分钟把语音代理小部件嵌入任何网站，访客直接对着浏览器说话。Pipecat的快速入门也一样，5分钟在浏览器里调通一条Deepgram转文字加OpenAI大模型加Cartesia语音合成的完整管道。

这些工具的核心，是把语音AI拆成几个通用模块：识别你说了什么（ASR），理解并生成回复（LLM），把文字变成声音（TTS），再配合判断你何时说完话的语音活动检测（VAD）。过去这些模块需要自己写代码调参数，现在开源框架LiveKit Agents和Pipecat把它们打包成了生产级方案。

打电话是语音AI最直接的应用场景。Twilio Programmable Voice是接入传统电话网络的标准起点。LiveKit的SIP入门文档画了从电话线路到SIP中继再到AI代理的完整流程图。不走电话网络时，WebRTC是默认传输协议。

对话体验是否自然，取决于延迟和轮换控制。Cartesia Sonic的TTS首字节延迟低于100毫秒，专为语音代理设计；一个基于M系列Mac的本地语音代理，端到端延迟可以做到800毫秒以下。OpenAI的Realtime API支持通过WebRTC、WebSocket或SIP实时语音交互。Google Gemini Live API支持低延迟、双向语音加视觉，能插话和使用工具。第一次令牌时间低于300毫秒，对话感觉会完全不同。

轮换控制也在进化。现在的语音代理不止靠声学VAD——会加一个小型语义模型，从你的词语和语调预测话语何时结束。Silero VAD是LiveKit和Pipecat默认使用的检测器，在CPU上每块处理时间不到1毫秒。LiveKit的turn-detector是一个多语言端点检测模型，基于SmolLM，体积小于500MB，在CPU上用ONNX格式运行。Pipecat Smart Turn v3用Whisper-Tiny做音频语义VAD，CPU推理只需12毫秒。

想自己拼组件，生态有大量选择。语音识别方面，OpenAI Whisper是DIY项目的默认起点，SYSTRAN/faster-whisper比原版快4倍，支持INT8量化，适合自托管。Moonshine是约190MB的微型设备端模型，为边缘设备实时流式传输优化。文字转语音方面，Kokoro 82M体积极小、采用Apache许可证，在社区ELO排行榜上名列前茅，甚至可以在CPU上运行。Orpheus-TTS基于Llama-3B，支持情感标签和约200毫秒的流式传输。Moshi是Kyutai实验室开源的全双工语音-文本基础模型，延迟200毫秒，是目前研究开源端到端语音模型的首选。推理加速方面，Groq的LPU推理云在Llama模型上比通用GPU快约10倍。

不过，搭建原型容易，大规模运行依然困难。生产级语音基础设施是这个领域最难解决的问题。没有明确说明这些框架在极端高并发下的稳定性，不同STT/TTS/LLM组合在真实多语言环境下的表现差距也缺乏公开对比。

评估语音AI好坏也不是只看识别准确率。Coval定义了核心指标：首字节时间、词错误率、解决率、模拟口音和中断处理。Twilio在2025年的一份指南里主张用业务成果指标替代原始延迟和词错误率——比如AI是否解决了用户的问题。语音代理的评估本质上是概率性的，同一段对话在不同运行中可能通过或失败，因此仿真和统计比固定的测试用例更可靠。

还有一个容易被忽略的细节：为语音AI设计提示词时，必须比聊天提示词短60-70%。用户说话比打字更随意、更短，冗长的提示会让AI反应迟钝或答非所问。

📎 阅读原文 · GitHub

📬 订阅 AI Pulse