大模型训练提速25%,精度没掉——Unsloth新优化上线
Unsloth和NVIDIA联合把大语言模型训练速度提升了大约25%,精度没掉。这个加速是自动的——只要你的机器是RTX笔记本、数据中心GPU或DGX Spark,更新一下Unsloth版本就能用上,不用改任何参数。
这25%的提速来自三项具体技术。
第一项是缓存打包序列元数据。训练时模型要处理变长序列,以前每次都得重新算序列边界,现在把元数据缓存起来,省掉重复劳动。在Qwen3-14B上做QLoRA微调测试,前向传播快了43.3%,反向传播快了5.8%,每批次整体提速14.3%。
第二项是双缓冲异步梯度检查点。梯度检查点这技术,本质是用少量计算换内存。以前每个卡算自己的,现在计算和数据传输能并行,把GPU的空闲时间利用起来。在NVIDIA B200 Blackwell GPU上测了不同大小的密集模型:8B参数提速8.40%,14B提升6.70%,32B提升4.61%。内存开销不大——8B多占0.37GB,14B多占0.47GB,32B才多占0.23GB。
第三项针对混合专家模型(MoE)。MoE路由时需要对专家排序计数,Unsloth用argsort和bincount替代了原来的做法,让GPT-OSS训练速度提升大约10-15%。在路由路径这个环节,前向传播快了23%,反向传播快了13%。只要是用了native_torch后端的MoE,都能吃上这个优化。
Unsloth之前已经比标准训练快2-5倍,这次和NVIDIA的合作是在那基础上的额外提速。文章发于2026年5月6日,作者是Daniel、Michael、Mathew和Datta,得到了NVIDIA的帮助。
不过,这些优化是不是在所有LLM架构上都管用(比如纯解码器或编码器-解码器模型),目前不清楚。小模型(1B以下)的测试数据也没有。双缓冲检查点在非NVIDIA GPU(比如AMD或Apple Silicon)上是否同样有效,Unsloth没说。另外,除了速度,优化会不会影响模型收敛性或最终性能,目前也没有公开细节。
对正在训练或微调模型的团队来说,这次更新等于——不用换硬件、不损失质量,训练时间能压掉约四分之一。