大模型训练提速25%，精度没掉——Unsloth新优化上线

📅 2026 年 5 月 7 日 📖 约 10 分钟 Unsloth - Train and Run Models Locally AI工程开源

Unsloth和NVIDIA联合把大语言模型训练速度提升了大约25%，精度没掉。这个加速是自动的——只要你的机器是RTX笔记本、数据中心GPU或DGX Spark，更新一下Unsloth版本就能用上，不用改任何参数。

这25%的提速来自三项具体技术。

第一项是缓存打包序列元数据。训练时模型要处理变长序列，以前每次都得重新算序列边界，现在把元数据缓存起来，省掉重复劳动。在Qwen3-14B上做QLoRA微调测试，前向传播快了43.3%，反向传播快了5.8%，每批次整体提速14.3%。

第二项是双缓冲异步梯度检查点。梯度检查点这技术，本质是用少量计算换内存。以前每个卡算自己的，现在计算和数据传输能并行，把GPU的空闲时间利用起来。在NVIDIA B200 Blackwell GPU上测了不同大小的密集模型：8B参数提速8.40%，14B提升6.70%，32B提升4.61%。内存开销不大——8B多占0.37GB，14B多占0.47GB，32B才多占0.23GB。

第三项针对混合专家模型（MoE）。MoE路由时需要对专家排序计数，Unsloth用argsort和bincount替代了原来的做法，让GPT-OSS训练速度提升大约10-15%。在路由路径这个环节，前向传播快了23%，反向传播快了13%。只要是用了native_torch后端的MoE，都能吃上这个优化。

Unsloth之前已经比标准训练快2-5倍，这次和NVIDIA的合作是在那基础上的额外提速。文章发于2026年5月6日，作者是Daniel、Michael、Mathew和Datta，得到了NVIDIA的帮助。

不过，这些优化是不是在所有LLM架构上都管用（比如纯解码器或编码器-解码器模型），目前不清楚。小模型（1B以下）的测试数据也没有。双缓冲检查点在非NVIDIA GPU（比如AMD或Apple Silicon）上是否同样有效，Unsloth没说。另外，除了速度，优化会不会影响模型收敛性或最终性能，目前也没有公开细节。

对正在训练或微调模型的团队来说，这次更新等于——不用换硬件、不损失质量，训练时间能压掉约四分之一。

📎 阅读原文 · Unsloth - Train and Run Models Locally

📬 订阅 AI Pulse