训练7个模型后，他发现AI性能差异可能只是随机种子的影子

📅 2026 年 4 月 8 日 📖 约 20 分钟 Giles Thomas AI工程研究

有人在自家RTX 3090上从零训练了一个1.63亿参数的GPT-2风格模型，测试损失是3.944；后来租用8块A100重训，损失降到3.692。这0.252的差距，看起来像硬件升级的功劳。

但接着他做了7次完全相同的训练：同代码、同超参、同机器、仅初始权重随机种子不同。结果测试损失在3.661到3.691之间浮动——最大差值0.03。这意味着，哪怕不改一行代码，光靠换种子，就能‘刷出’比多数干预更显著的提升。

他试过的所有优化里，效果最大的是学习率调度（-0.09），最小的是梯度裁剪（-0.014）。而0.014只占基准损失的0.3%，还不到单次重复实验自然波动的一半。

这说明：当改进幅度小于训练本身的随机波动时，你无法靠单次实验判断它是不是真有效。所谓‘调参成功’，可能只是运气站在了你这边。

别人盯着loss曲线下降欢呼时，他盯着七条几乎重叠的曲线想：我们到底在优化模型，还是在优化随机性？

现在他手上有九个模型——七个是控制变量下的噪声样本，两个是干预组。但还没人把它们全放进同一个评估 pipeline 比一比。