AI Pulse

小模型训练实录:从鬼扯到鸡汤,它根本不懂努力的意思

小模型训练实录:从鬼扯到鸡汤,它根本不懂努力的意思

研究跑了个1.63亿参数的GPT-2小模型,在32亿词元(约12.8 GiB)的网络文本上训练。一开始给它提示“Every effort moves you”,它回的是“youhhhh esoteric Suns 1896ricia enormous initially speculative arena...”——虽然鬼扯,但好歹拼出了类单词单位,不像2015年那些字符级RNN,连字母都堆不成形。

训练到第617步(约6千万词元),它开始机械复读英语高频词:“and to was, in the, a...”。它最先学会的不是语义,而是哪些词爱扎堆、怎么串起来顺眼。这就像饭馆新学徒先背菜单顺序,不管菜名啥意思。

到第2468步(约2.4亿词元),输出突然冒出一句人话:“Every effort moves you to a different country.” 主谓宾结构稳了,搭配也像模像样,哪怕后半句跑偏到移民局去了。

到了第9255步(约10亿词元,刚练完三分之一),它已经能端出标准网感鸡汤:“Every effort moves you forward and it is important to make sure that your clients are satisfied.” 它根本没懂“努力”的意义,只是发现网上这句话后面八成跟着“forward”或“toward your goals”。后续检查点里,它甚至学会了打项目符号、重复关键词、卡励志文案的节奏点——全靠对数据分布抠得更细。

这条路走到头,不是变成人,是变成一台复读机,只不过复得特别稳、特别像人写的。牛皮吹爆了。

📎 阅读原文 · Giles Thomas