本地显存不够？靠梯度累积硬凑出16倍batch size

📅 2026 年 4 月 16 日 📖 约 19 分钟 Giles Thomas AI工程开源

想在本地复现云端模型的效果，那个96的batch size绕不开。我手上的RTX 3090最多塞进6个序列——差了整整16倍。

光把batch size从6拉到96，验证损失就降了0.252474，比其他所有技巧加起来（0.113765）还多出一倍不止。牛皮吹爆了。

办法是梯度累积：分16次各跑6个样本，每次算梯度但不动参数，攒够16轮再统一更新一次。这样能保住大batch的核心优势——梯度更稳、训练不飘。但它吃不到GPU并行加速的红利，说白了就是用时间换显存。

作者照着《从零构建大语言模型》搭了个GPT-2-small风格的LLM，在云端反复试各种训练干预对验证损失的影响。梯度累积不是黑魔法，它不凭空变出信息，只是让小显存机器能“假装”自己有大显存。

代码改起来其实就两行：把optimizer.step()和zero_grad()从每步执行改成每N步执行一次。不过实际跑起来还得处理一堆边角料——比如数据集长度除不尽、梯度清零时机不对、学习率要不要跟着缩放。我原以为改个循环就行，结果调了三天才跑通。