AI客服语音延迟压至400毫秒成本直降六分之一

📅 2026 年 6 月 17 日 📖 约 8 分钟 @togethercompute on 𝕏 AI语音技术商业合作

你给客服打电话，AI接起电话，自然对话，几乎没有停顿。Decagon的语音AI将每次响应的延迟压到400毫秒以下，每轮对话成本只有GPT-5 mini的六分之一。

Decagon的语音代理栈在实时中编排多个专用模型，其中许多是内部训练的。一次交互可能跨越数千token的长对话上下文，模型需要记住之前说了什么。为了降低延迟，他们采用了推测解码等技术。

推测解码是Decagon推理管线的核心。他们先训练一个较小的草稿模型（称为“投机者”），快速预测下一个可能生成的token。主模型——一个更大的、经过微调的开源模型——只需要验证草稿模型的预测。由于验证比生成快，整体延迟大幅降低。研究主管Max Lu说，推测解码是端到端延迟改进的主要驱动力。在此基础上，Decagon还使用了提示缓存和请求级优化。这些技术叠加，使p95模型延迟从秒级降到400毫秒以下——输入可达数万token，依然保持低延迟。

为了控制成本，Decagon的策略是使用较小的微调模型，再通过高效的规模化服务来摊薄每次推理的费用。相比闭源模型如GPT-5 mini，他们实现了每轮成本降低近6倍。

生产栈使用微调的开源模型进行核心推理，部署在NVIDIA Blackwell GPU（HGX B200）上，配合高张量并行。Decagon与Together AI合作，将大部分工作负载迁移到B200，并使用Together的推理引擎作为执行层。Max Lu描述Together是“可靠的生产合作伙伴”。为了让企业安心部署，Decagon还加入了额外的合规审核：研究团队安排了微调检查器模型，在输出环节审核内容是否合规，且不引入额外延迟。

客服系统需要24小时在线，流量还可能突然暴涨。Decagon和Together一起针对流量波动调整部署配置，在已知高峰前预先扩展资源，并通过优化镜像和部署流程减少意外激增时的启动时间。一次真实案例中，AWS发生重大故障，大量用户从其他不可用的服务重定向到Decagon代理。流量瞬间飙升，但系统保持了稳定。

企业客户已经用上了这些优化。Avis Budget Group、Chime、Oura Health和Hunter Douglas等公司使用Decagon的Agent Operating Procedures（AOPs），将复杂的工作流程映射为自然语言指令。仅去年一年，Decagon的AI代理就处理了数千万次礼宾交互，平均转接率超过80%。客户描述语音体验为“有帮助且对话式”，有些用户甚至在通话结束后主动感谢AI代理。对话质量已经接近真人。

Decagon对模型的迭代速度很快：每周甚至每天都会发布新模型。用户使用的服务会持续变得更聪明、更低延迟。

现在，你打电话给客服时，那个耐心、流畅、从不抱怨的AI，背后是一套每天打磨的推理引擎。

阅读原文

📚 相关主题商业合作

订阅 AI Pulse