英伟达用4bit精度预训练大模型,AI可能更便宜更快
预训练大语言模型的精度长期被16bit和8bit统治,过去几年几乎没变。英伟达打破了这种停滞:他们用4bit精度,在10万亿tokens上预训练了一个12B参数的大语言模型。
推理阶段用4bit量化来压缩模型、节省显存已是常见做法——DeepSeek之前做过MXFP4研究,学术界在推理侧量化也有大量工作。但训练阶段用4bit之前没有大规模验证过。英伟达这次的规模证明,4bit训练至少在可行性上站住了脚。
如果训练和推理都能用更低精度,整个计算链条的成本会下降,用户用的AI服务响应速度可能提升,甚至能在更便宜的硬件上运行。
不过目前还不知道这个4bit模型在常见任务上的表现如何——没有看到对比数据。至于其他AI巨头会不会跟进4bit预训练,还没有信号。但低精度预训练从学术概念走向工业应用,又近了一步。