AI公司正在悄悄关掉自己的明星产品来省电
有人刚用Claude写完一段Python,按下运行键后等了47秒才出结果;另一群人发现,昨天还能调用的视频生成接口,今天返回‘服务暂时不可用’;还有工程师凌晨三点收到告警:模型推理队列堆积到23分钟——这不是故障,是常态。
GitHub最近三个月的代码提交量年化增长约14倍。提交(commit)本身不直接等于AI推理次数,但它是一个锚点:当大量新人第一次写出可运行代码,却还没搞懂Git怎么用时,真实推理请求只会比这个数字更高;而那些完全绕过GitHub、直接跑在本地或私有Agent平台上的调用,根本没被计入。 这意味着什么?AI推理需求正以远超硬件交付速度的方式喷发,而我们连‘到底用了多少’都只能靠旁证估算。
OpenAI已暂停Sora的对外服务,业内普遍推测是为了腾出GB200集群给更紧急的文本与编码任务;Anthropic则从限制‘高峰时段’用量,升级到禁止第三方工具调用claude-p——不是技术封禁,是物理层面的插座不够插。 这意味着什么?所谓‘大模型能力升级’,正在被翻译成一张张机柜供电申请单和液冷管道施工图。
NVIDIA最新GB200芯片必须全液冷,但全球数据中心此前从未在百兆瓦级规模部署过整套液冷系统。缺的不只是GPU,还有能设计高压流体回路的电气工程师、能焊接特种不锈钢管件的技工、甚至耐高温密封垫片的库存。 这意味着什么?算力瓶颈不再卡在芯片厂光刻机里,而卡在工地焊枪的火苗里、在工程师手绘的管道图纸上、在阿联酋一座1GW数据中心因地缘冲突被伊朗官方视频点名的那一刻。
最隐蔽的断层藏在内存里:SK Hynix花80亿美元买ASML的EUV光刻设备,两年内无法投产;谷歌CEO桑达尔·皮查伊在Stripe播客中直言,DRAM才是当前AI扩展真正的天花板。 这意味着什么?哪怕TurboQuant这类KV缓存压缩技术能把显存占用砍掉40%,也只够让现有服务器多撑三周——而新模型每周都在要求更多。
所有人都在说‘算力短缺’,但没人明说的是:这轮短缺不是周期性的,而是结构性的——它第一次把AI公司的技术路线图,变成了电力公司和市政管网的联合审批事项。 你下次看到某个AI功能突然变慢、变贵、或者干脆消失,别急着骂产品团队,先看看当地数据中心有没有拿到新的环评批文。