AI Pulse

1982年的Commodore 64跑起了真正的Transformer

1982年的Commodore 64跑起了真正的Transformer

一台主频1 MHz、内存64 KB的Commodore 64,现在能跑一个货真价实的Transformer。两层解码器、四头注意力,25,000个int8参数——不是模拟,也不是玩具,就是现代大模型那套核心架构,硬塞进1982年的铁盒子里。

整个系统是手搓的6502汇编。连softmax都得靠128项查表加14位移位来凑合。项目里连浮点参考、整数仿真、内存影子区、汇编源码和端到端测试链都齐了,90个测试从Python算式一路盯到6502的指令周期。

模型从软盘加载,只认小写字母和标点。回车一按,屏幕边框开始闪,SID芯片每吐一个token就“滴”一声。完整回复通常得等几分钟。训练时写几行对话(比如<SEP>hello<SEP>hey!<SEP>),跑train.py生成int8权重,再用build.py打包成.d64镜像,烧进1541软驱就能在真机上跑。

这套工具链从BPE分词、量化训练、6502汇编、内存布局一直干到软盘扇区写入。它不是怀旧摆件,倒像一本能开机的AI教科书——当所有现代抽象层被扒光,注意力机制的骨头就露出来了。

完蛋,文件名果然都是乱码。

📎 阅读原文 · GitHub