AI Pulse

AI客服语音延迟压至400毫秒 成本直降六分之一

AI客服语音延迟压至400毫秒 成本直降六分之一

你给客服打电话,AI接起电话,自然对话,几乎没有停顿。Decagon的语音AI将每次响应的延迟压到400毫秒以下,每轮对话成本只有GPT-5 mini的六分之一。

Decagon的语音代理栈在实时中编排多个专用模型,其中许多是内部训练的。一次交互可能跨越数千token的长对话上下文,模型需要记住之前说了什么。为了降低延迟,他们采用了推测解码等技术。

推测解码是Decagon推理管线的核心。他们先训练一个较小的草稿模型(称为“投机者”),快速预测下一个可能生成的token。主模型——一个更大的、经过微调的开源模型——只需要验证草稿模型的预测。由于验证比生成快,整体延迟大幅降低。研究主管Max Lu说,推测解码是端到端延迟改进的主要驱动力。在此基础上,Decagon还使用了提示缓存和请求级优化。这些技术叠加,使p95模型延迟从秒级降到400毫秒以下——输入可达数万token,依然保持低延迟。

为了控制成本,Decagon的策略是使用较小的微调模型,再通过高效的规模化服务来摊薄每次推理的费用。相比闭源模型如GPT-5 mini,他们实现了每轮成本降低近6倍。

生产栈使用微调的开源模型进行核心推理,部署在NVIDIA Blackwell GPU(HGX B200)上,配合高张量并行。Decagon与Together AI合作,将大部分工作负载迁移到B200,并使用Together的推理引擎作为执行层。Max Lu描述Together是“可靠的生产合作伙伴”。为了让企业安心部署,Decagon还加入了额外的合规审核:研究团队安排了微调检查器模型,在输出环节审核内容是否合规,且不引入额外延迟。

客服系统需要24小时在线,流量还可能突然暴涨。Decagon和Together一起针对流量波动调整部署配置,在已知高峰前预先扩展资源,并通过优化镜像和部署流程减少意外激增时的启动时间。一次真实案例中,AWS发生重大故障,大量用户从其他不可用的服务重定向到Decagon代理。流量瞬间飙升,但系统保持了稳定。

企业客户已经用上了这些优化。Avis Budget Group、Chime、Oura Health和Hunter Douglas等公司使用Decagon的Agent Operating Procedures(AOPs),将复杂的工作流程映射为自然语言指令。仅去年一年,Decagon的AI代理就处理了数千万次礼宾交互,平均转接率超过80%。客户描述语音体验为“有帮助且对话式”,有些用户甚至在通话结束后主动感谢AI代理。对话质量已经接近真人。

Decagon对模型的迭代速度很快:每周甚至每天都会发布新模型。用户使用的服务会持续变得更聪明、更低延迟。

现在,你打电话给客服时,那个耐心、流畅、从不抱怨的AI,背后是一套每天打磨的推理引擎。

阅读原文

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部