英伟达用4bit精度预训练大模型，AI可能更便宜更快

📅 2026 年 5 月 19 日 📖 约 1 分钟 @MaxForAI on 𝕏 AI工程研究

预训练大语言模型的精度长期被16bit和8bit统治，过去几年几乎没变。英伟达打破了这种停滞：他们用4bit精度，在10万亿tokens上预训练了一个12B参数的大语言模型。

推理阶段用4bit量化来压缩模型、节省显存已是常见做法——DeepSeek之前做过MXFP4研究，学术界在推理侧量化也有大量工作。但训练阶段用4bit之前没有大规模验证过。英伟达这次的规模证明，4bit训练至少在可行性上站住了脚。

如果训练和推理都能用更低精度，整个计算链条的成本会下降，用户用的AI服务响应速度可能提升，甚至能在更便宜的硬件上运行。

不过目前还不知道这个4bit模型在常见任务上的表现如何——没有看到对比数据。至于其他AI巨头会不会跟进4bit预训练，还没有信号。但低精度预训练从学术概念走向工业应用，又近了一步。

📚 相关主题工程研究

📬 订阅 AI Pulse