五个有效改动合起来，效果反而缩水了

📅 2026 年 4 月 10 日 📖 约 12 分钟 Giles Thomas AI工程研究

他在本地显卡上从头训练的语言模型，测试集损失是3.944。原始GPT-2在同一数据上的损失为3.500。后来他搬到云上，用八块A100重训，损失降到3.692——更强的算力拉近了差距，但没能抹平。

他接着尝试了九种训练配置改动：权重绑定、梯度裁剪、QKV层加偏置、调低权重衰减、关掉Dropout、调度学习率等等。其中五项被确认能稳定提升性能。关键细节藏得很深：比如在第17个epoch把学习率从0.0014线性衰减到0.0002，或者给QKV矩阵里那个默认设为零的偏置项赋一个非零值。

但五个有效改动合起来，只降低了0.09分损失，远低于单独效果加总预期的0.22分。问题出在交互效应上：单独调学习率或单独改权重衰减都有效，可两者一起动时，效果不叠加，反而需要重新配比。它们共享同一个调节杠杆——参数更新的步长稳定性。

现在他手上有五个确定有效的改动，但还没跑完全部组合。下一次训练启动前，得先决定是把它们全塞进一次实验，还是像调试电路一样，每次只动一个变量。

这暴露了一个现实：大模型训练仍缺乏成熟的实验方法论。即使知道哪些改动“有效”，如何高效验证组合仍是开放问题。