不用写代码,几分钟让AI替你接打电话
托管平台是上手最快的方式。Vapi、Retell和Bland这几个平台,能让用户5分钟内拿到一个可以打电话的语音代理。Vapi的快速入门演示里,填几项配置,就能拿到一个美国免费电话号码。ElevenLabs的Conversational AI更快:5分钟把语音代理小部件嵌入任何网站,访客直接对着浏览器说话。Pipecat的快速入门也一样,5分钟在浏览器里调通一条Deepgram转文字加OpenAI大模型加Cartesia语音合成的完整管道。
这些工具的核心,是把语音AI拆成几个通用模块:识别你说了什么(ASR),理解并生成回复(LLM),把文字变成声音(TTS),再配合判断你何时说完话的语音活动检测(VAD)。过去这些模块需要自己写代码调参数,现在开源框架LiveKit Agents和Pipecat把它们打包成了生产级方案。
打电话是语音AI最直接的应用场景。Twilio Programmable Voice是接入传统电话网络的标准起点。LiveKit的SIP入门文档画了从电话线路到SIP中继再到AI代理的完整流程图。不走电话网络时,WebRTC是默认传输协议。
对话体验是否自然,取决于延迟和轮换控制。Cartesia Sonic的TTS首字节延迟低于100毫秒,专为语音代理设计;一个基于M系列Mac的本地语音代理,端到端延迟可以做到800毫秒以下。OpenAI的Realtime API支持通过WebRTC、WebSocket或SIP实时语音交互。Google Gemini Live API支持低延迟、双向语音加视觉,能插话和使用工具。第一次令牌时间低于300毫秒,对话感觉会完全不同。
轮换控制也在进化。现在的语音代理不止靠声学VAD——会加一个小型语义模型,从你的词语和语调预测话语何时结束。Silero VAD是LiveKit和Pipecat默认使用的检测器,在CPU上每块处理时间不到1毫秒。LiveKit的turn-detector是一个多语言端点检测模型,基于SmolLM,体积小于500MB,在CPU上用ONNX格式运行。Pipecat Smart Turn v3用Whisper-Tiny做音频语义VAD,CPU推理只需12毫秒。
想自己拼组件,生态有大量选择。语音识别方面,OpenAI Whisper是DIY项目的默认起点,SYSTRAN/faster-whisper比原版快4倍,支持INT8量化,适合自托管。Moonshine是约190MB的微型设备端模型,为边缘设备实时流式传输优化。文字转语音方面,Kokoro 82M体积极小、采用Apache许可证,在社区ELO排行榜上名列前茅,甚至可以在CPU上运行。Orpheus-TTS基于Llama-3B,支持情感标签和约200毫秒的流式传输。Moshi是Kyutai实验室开源的全双工语音-文本基础模型,延迟200毫秒,是目前研究开源端到端语音模型的首选。推理加速方面,Groq的LPU推理云在Llama模型上比通用GPU快约10倍。
不过,搭建原型容易,大规模运行依然困难。生产级语音基础设施是这个领域最难解决的问题。没有明确说明这些框架在极端高并发下的稳定性,不同STT/TTS/LLM组合在真实多语言环境下的表现差距也缺乏公开对比。
评估语音AI好坏也不是只看识别准确率。Coval定义了核心指标:首字节时间、词错误率、解决率、模拟口音和中断处理。Twilio在2025年的一份指南里主张用业务成果指标替代原始延迟和词错误率——比如AI是否解决了用户的问题。语音代理的评估本质上是概率性的,同一段对话在不同运行中可能通过或失败,因此仿真和统计比固定的测试用例更可靠。
还有一个容易被忽略的细节:为语音AI设计提示词时,必须比聊天提示词短60-70%。用户说话比打字更随意、更短,冗长的提示会让AI反应迟钝或答非所问。