写代码时AI建议零延迟？背后是Blackwell芯片在支撑

📅 2026 年 6 月 11 日 📖 约 6 分钟 @togethercompute on 𝕏 AI工程基础设施

在Cursor里写代码，AI建议几乎感觉不到延迟——光标刚移到新位置，提示就跟上了。这是因为Cursor和Together AI用NVIDIA最新Blackwell芯片搭了一套实时推理基础设施。

开发者一边编辑，AI代理一边生成输出。响应如果太慢，开发者已经移动到代码另一个区域，AI的输出可能不再匹配生成时的上下文，建议就失效了。Cursor的代理在后台调试问题、生成功能、执行重构，这就要求可预测的最坏情况延迟和持续负载下的稳定运行。

为了满足这个延迟预算，Cursor找到了Together AI，直接采用NVIDIA Blackwell架构——GB200 NVL72和HGX B200。这些芯片内存带宽和张量吞吐量更高，能大幅缩短推理时间。Together AI在Blackwell早期部署阶段就和Cursor合作，提供快速升级和替换，让Cursor比竞争对手更早拿到先进硬件。

GB200 NVL72把GPU与ARM指令集的NVIDIA Grace CPU配对，而高性能推理生态大多基于x86架构。移植推理栈到ARM需要内核和主机级调优。Together AI专门为Blackwell Tensor Core构建了自定义内核，直接针对新低精度格式指令优化，把硬件吞吐量榨得更干净。GB200 NVL72以全互联拓扑连接72个GPU。模型分散到这么多芯片之间会带来通信和同步开销。为此，Together设计了并行网格，让协调成本可控。

硬件就位后，软件侧的模型迭代也得跟上。Cursor的研究团队内部训练模型，组合专有数据和代码工作流的针对性优化，不断产生新的候选权重。Together AI建立了一条可重复的路径，几天内就能把新权重量化、验证并启动测试端点。量化流程围绕NVIDIA TensorRT LLM和NVFP4实现，在压缩和编码模型质量之间找到了平衡。随后Cursor跑内部评估、做生产流量下的A/B测试，通过验证和实时检查后才切换上线。

目前Cursor的生产部署运行在多个数据中心的NVIDIA Blackwell GPU上，GB200 NVL72负责推理。下一步重点转向吞吐量和利用率——Cursor和Together AI正在Blackwell平台上构建更高吞吐量的端点，改善每GPU的经济性。随着用户规模增长，这可能会影响长期服务成本。

阅读原文

📚 相关主题工程基础设施

📬 订阅 AI Pulse