模型调参省下的损失,可能还不如随机波动大
一位研究者先在自家 RTX 3090 上从零训练了一个 1.63 亿参数的 GPT-2 风格模型,测试损失为 3.944。后来他改用 8 块 A100 重训,损失降到 3.692。
但这两次训练条件不同,不能直接比较。真正用来衡量波动的是接下来的七次实验:同代码、同超参、同机器,仅初始权重的随机种子不同。测试损失在 3.661 到 3.691 之间浮动,最大差值 0.03。
他在这些设置下尝试过多种优化。其中学习率调度让损失减少约 0.09,梯度裁剪减少约 0.014。后者只占基准损失的 0.3%,还不到单次重复实验自然波动的一半。
目前他手上有九个模型——七个来自控制变量下的重复训练,两个来自不同的优化干预。但它们还没被放进同一个评估 pipeline 里统一比较。
如果一次改动带来的损失下降比训练本身的随机起伏还小,单次实验真能说明它有效吗?