小模型训练实录：从鬼扯到鸡汤，它根本不懂努力的意思

📅 2026 年 4 月 18 日 📖 约 5 分钟 Giles Thomas AI工程研究

研究跑了个1.63亿参数的GPT-2小模型，在32亿词元（约12.8 GiB）的网络文本上训练。一开始给它提示“Every effort moves you”，它回的是“youhhhh esoteric Suns 1896ricia enormous initially speculative arena...”——虽然鬼扯，但好歹拼出了类单词单位，不像2015年那些字符级RNN，连字母都堆不成形。

训练到第617步（约6千万词元），它开始机械复读英语高频词：“and to was, in the, a...”。它最先学会的不是语义，而是哪些词爱扎堆、怎么串起来顺眼。这就像饭馆新学徒先背菜单顺序，不管菜名啥意思。

到第2468步（约2.4亿词元），输出突然冒出一句人话：“Every effort moves you to a different country.” 主谓宾结构稳了，搭配也像模像样，哪怕后半句跑偏到移民局去了。

到了第9255步（约10亿词元，刚练完三分之一），它已经能端出标准网感鸡汤：“Every effort moves you forward and it is important to make sure that your clients are satisfied.” 它根本没懂“努力”的意义，只是发现网上这句话后面八成跟着“forward”或“toward your goals”。后续检查点里，它甚至学会了打项目符号、重复关键词、卡励志文案的节奏点——全靠对数据分布抠得更细。

这条路走到头，不是变成人，是变成一台复读机，只不过复得特别稳、特别像人写的。牛皮吹爆了。

📎 阅读原文 · Giles Thomas