写代码时AI建议零延迟?背后是Blackwell芯片在支撑
在Cursor里写代码,AI建议几乎感觉不到延迟——光标刚移到新位置,提示就跟上了。这是因为Cursor和Together AI用NVIDIA最新Blackwell芯片搭了一套实时推理基础设施。
开发者一边编辑,AI代理一边生成输出。响应如果太慢,开发者已经移动到代码另一个区域,AI的输出可能不再匹配生成时的上下文,建议就失效了。Cursor的代理在后台调试问题、生成功能、执行重构,这就要求可预测的最坏情况延迟和持续负载下的稳定运行。
为了满足这个延迟预算,Cursor找到了Together AI,直接采用NVIDIA Blackwell架构——GB200 NVL72和HGX B200。这些芯片内存带宽和张量吞吐量更高,能大幅缩短推理时间。Together AI在Blackwell早期部署阶段就和Cursor合作,提供快速升级和替换,让Cursor比竞争对手更早拿到先进硬件。
GB200 NVL72把GPU与ARM指令集的NVIDIA Grace CPU配对,而高性能推理生态大多基于x86架构。移植推理栈到ARM需要内核和主机级调优。Together AI专门为Blackwell Tensor Core构建了自定义内核,直接针对新低精度格式指令优化,把硬件吞吐量榨得更干净。GB200 NVL72以全互联拓扑连接72个GPU。模型分散到这么多芯片之间会带来通信和同步开销。为此,Together设计了并行网格,让协调成本可控。
硬件就位后,软件侧的模型迭代也得跟上。Cursor的研究团队内部训练模型,组合专有数据和代码工作流的针对性优化,不断产生新的候选权重。Together AI建立了一条可重复的路径,几天内就能把新权重量化、验证并启动测试端点。量化流程围绕NVIDIA TensorRT LLM和NVFP4实现,在压缩和编码模型质量之间找到了平衡。随后Cursor跑内部评估、做生产流量下的A/B测试,通过验证和实时检查后才切换上线。
目前Cursor的生产部署运行在多个数据中心的NVIDIA Blackwell GPU上,GB200 NVL72负责推理。下一步重点转向吞吐量和利用率——Cursor和Together AI正在Blackwell平台上构建更高吞吐量的端点,改善每GPU的经济性。随着用户规模增长,这可能会影响长期服务成本。