1982年的Commodore 64跑起了真正的Transformer

📅 2026 年 4 月 21 日 📖 约 6 分钟 GitHub AI开源工程

一台主频1 MHz、内存64 KB的Commodore 64，现在能跑一个货真价实的Transformer。两层解码器、四头注意力，25,000个int8参数——不是模拟，也不是玩具，就是现代大模型那套核心架构，硬塞进1982年的铁盒子里。

整个系统是手搓的6502汇编。连softmax都得靠128项查表加14位移位来凑合。项目里连浮点参考、整数仿真、内存影子区、汇编源码和端到端测试链都齐了，90个测试从Python算式一路盯到6502的指令周期。

模型从软盘加载，只认小写字母和标点。回车一按，屏幕边框开始闪，SID芯片每吐一个token就“滴”一声。完整回复通常得等几分钟。训练时写几行对话（比如<SEP>hello<SEP>hey!<SEP>），跑train.py生成int8权重，再用build.py打包成.d64镜像，烧进1541软驱就能在真机上跑。

这套工具链从BPE分词、量化训练、6502汇编、内存布局一直干到软盘扇区写入。它不是怀旧摆件，倒像一本能开机的AI教科书——当所有现代抽象层被扒光，注意力机制的骨头就露出来了。

完蛋，文件名果然都是乱码。

📎 阅读原文 · GitHub