越简单的AI模型,越扛不住真实世界的流量
AI圈里有种迷思:能 scale 的东西一定得简单,甚至越简单越好扩。牛皮吹爆了。
可扩展性和简单性压根不搭边。真要把系统扛住十倍数据、百倍用户,靠的不是砍功能,而是往里塞更多严谨设计。
SVM、kNN、随机森林,这些课本里的入门模型,代码短、概念清,看着人畜无害。但数据一翻倍,训练时间直接起飞,内存咔嚓爆掉——我试过拿 kNN 跑百万级日志,完蛋,文件名果然都是乱码。
它们的“简单”只活在 Jupyter Notebook 里。一旦撞上真实世界的并发洪流或长尾分布,结构性短板立马露馅。
一个能线性扩容的服务,背后藏着分片策略、状态同步、异步队列和一堆容错兜底;而你那个20行的单线程脚本,连第二个用户都伺候不了。
可扩展从来不是省出来的,是堆出来的——堆机制、堆判断、堆对失败场景的预判。起点不是“怎么简化”,而是“它会在哪一步死掉”。