90毫秒延迟，语音AI终于让你感觉像在跟真人说话

📅 2026 年 6 月 23 日 📖 约 8 分钟 @togethercompute on 𝕏 AI语音AI基础设施

你对着语音助手说句话，现在几乎不需要等待——延迟降到了90毫秒，接近人类日常对话中的自然停顿。

这是语音AI公司Cartesia的成果。其语音生成模型Sonic系列，在模型推理层面做到了90毫秒延迟。相比之前，提升很明显。

Cartesia没有用Transformer，而是选择了状态空间模型（SSM）。SSM更适合语音这类连续流式数据。所以模型部署不能直接用标准云服务——Cartesia需要定制化的推理引擎，还要拿到集群级别的访问权限，包括SSH和文件系统，才能调优服务器堆栈。

它的GPU集群来自Together AI，两家分工明确：Together AI管硬件编排、入口控制器这些底层基础设施；Cartesia管自定义推理引擎。语音应用依赖长连接WebSocket，必须持续低延迟。Together AI为此优化了网络和存储。

训练音频模型时，数据加载器每轮会发出数百万次小随机读取，对象是短WAV或FLAC片段。如果存储跟不上，GPU就空转。Together AI把WekaFS并行文件系统挂载到整个集群，通过RDMA加速读取。节点内GPU用NVLink互联，节点间走InfiniBand和GPU直连RDMA。Cartesia还用了PyTorch FSDP，在训练时把优化器状态和梯度切分到所有节点上，提高内存利用率。Together AI通过调WekaFS参数和InfiniBand网络，稳定了训练环境。

语音AI如果用于银行客服、支付确认这些场景，必须满足合规要求。Together AI提供PCI合规环境，具备数据隔离、传输和存储加密、审计日志。这样一来，Cartesia的模型能接入金融等行业的实时通话，处理敏感信息而不必担心数据泄露。

90毫秒延迟是模型推理阶段的数据，端到端延迟——包括网络传输、音频编解码和播放——可能更高。Cartesia没有披露完整链路数据。目前也不清楚其语音服务面向哪些终端用户：是API给开发者，还是直接面向消费者。模型是否会开源，也没有明确说法。

低延迟语音AI正在改变人机对话的体验，但要大规模落地，还得在硬件适配、合规认证和部署灵活性上持续打磨。

阅读原文

📚 相关主题基础设施

📬 订阅 AI Pulse