90毫秒延迟,语音AI终于让你感觉像在跟真人说话
你对着语音助手说句话,现在几乎不需要等待——延迟降到了90毫秒,接近人类日常对话中的自然停顿。
这是语音AI公司Cartesia的成果。其语音生成模型Sonic系列,在模型推理层面做到了90毫秒延迟。相比之前,提升很明显。
Cartesia没有用Transformer,而是选择了状态空间模型(SSM)。SSM更适合语音这类连续流式数据。所以模型部署不能直接用标准云服务——Cartesia需要定制化的推理引擎,还要拿到集群级别的访问权限,包括SSH和文件系统,才能调优服务器堆栈。
它的GPU集群来自Together AI,两家分工明确:Together AI管硬件编排、入口控制器这些底层基础设施;Cartesia管自定义推理引擎。语音应用依赖长连接WebSocket,必须持续低延迟。Together AI为此优化了网络和存储。
训练音频模型时,数据加载器每轮会发出数百万次小随机读取,对象是短WAV或FLAC片段。如果存储跟不上,GPU就空转。Together AI把WekaFS并行文件系统挂载到整个集群,通过RDMA加速读取。节点内GPU用NVLink互联,节点间走InfiniBand和GPU直连RDMA。Cartesia还用了PyTorch FSDP,在训练时把优化器状态和梯度切分到所有节点上,提高内存利用率。Together AI通过调WekaFS参数和InfiniBand网络,稳定了训练环境。
语音AI如果用于银行客服、支付确认这些场景,必须满足合规要求。Together AI提供PCI合规环境,具备数据隔离、传输和存储加密、审计日志。这样一来,Cartesia的模型能接入金融等行业的实时通话,处理敏感信息而不必担心数据泄露。
90毫秒延迟是模型推理阶段的数据,端到端延迟——包括网络传输、音频编解码和播放——可能更高。Cartesia没有披露完整链路数据。目前也不清楚其语音服务面向哪些终端用户:是API给开发者,还是直接面向消费者。模型是否会开源,也没有明确说法。
低延迟语音AI正在改变人机对话的体验,但要大规模落地,还得在硬件适配、合规认证和部署灵活性上持续打磨。