训练7个模型后,他发现AI性能差异可能只是随机种子的影子
有人在自家RTX 3090上从零训练了一个1.63亿参数的GPT-2风格模型,测试损失是3.944;后来租用8块A100重训,损失降到3.692。这0.252的差距,看起来像硬件升级的功劳。
但接着他做了7次完全相同的训练:同代码、同超参、同机器、仅初始权重随机种子不同。结果测试损失在3.661到3.691之间浮动——最大差值0.03。这意味着,哪怕不改一行代码,光靠换种子,就能‘刷出’比多数干预更显著的提升。
他试过的所有优化里,效果最大的是学习率调度(-0.09),最小的是梯度裁剪(-0.014)。而0.014只占基准损失的0.3%,还不到单次重复实验自然波动的一半。
这说明:当改进幅度小于训练本身的随机波动时,你无法靠单次实验判断它是不是真有效。所谓‘调参成功’,可能只是运气站在了你这边。
别人盯着loss曲线下降欢呼时,他盯着七条几乎重叠的曲线想:我们到底在优化模型,还是在优化随机性?
现在他手上有九个模型——七个是控制变量下的噪声样本,两个是干预组。但还没人把它们全放进同一个评估 pipeline 比一比。