AI公司正在悄悄关掉自己的明星产品来省电

📅 2026 年 4 月 7 日 📖 约 6 分钟 Martin Alderson AI基础设施商业

有人刚用Claude写完一段Python，按下运行键后等了47秒才出结果；另一群人发现，昨天还能调用的视频生成接口，今天返回‘服务暂时不可用’；还有工程师凌晨三点收到告警：模型推理队列堆积到23分钟——这不是故障，是常态。

GitHub最近三个月的代码提交量年化增长约14倍。提交（commit）本身不直接等于AI推理次数，但它是一个锚点：当大量新人第一次写出可运行代码，却还没搞懂Git怎么用时，真实推理请求只会比这个数字更高；而那些完全绕过GitHub、直接跑在本地或私有Agent平台上的调用，根本没被计入。这意味着什么？AI推理需求正以远超硬件交付速度的方式喷发，而我们连‘到底用了多少’都只能靠旁证估算。

OpenAI已暂停Sora的对外服务，业内普遍推测是为了腾出GB200集群给更紧急的文本与编码任务；Anthropic则从限制‘高峰时段’用量，升级到禁止第三方工具调用claude-p——不是技术封禁，是物理层面的插座不够插。这意味着什么？所谓‘大模型能力升级’，正在被翻译成一张张机柜供电申请单和液冷管道施工图。

NVIDIA最新GB200芯片必须全液冷，但全球数据中心此前从未在百兆瓦级规模部署过整套液冷系统。缺的不只是GPU，还有能设计高压流体回路的电气工程师、能焊接特种不锈钢管件的技工、甚至耐高温密封垫片的库存。这意味着什么？算力瓶颈不再卡在芯片厂光刻机里，而卡在工地焊枪的火苗里、在工程师手绘的管道图纸上、在阿联酋一座1GW数据中心因地缘冲突被伊朗官方视频点名的那一刻。

最隐蔽的断层藏在内存里：SK Hynix花80亿美元买ASML的EUV光刻设备，两年内无法投产；谷歌CEO桑达尔·皮查伊在Stripe播客中直言，DRAM才是当前AI扩展真正的天花板。这意味着什么？哪怕TurboQuant这类KV缓存压缩技术能把显存占用砍掉40%，也只够让现有服务器多撑三周——而新模型每周都在要求更多。

所有人都在说‘算力短缺’，但没人明说的是：这轮短缺不是周期性的，而是结构性的——它第一次把AI公司的技术路线图，变成了电力公司和市政管网的联合审批事项。你下次看到某个AI功能突然变慢、变贵、或者干脆消失，别急着骂产品团队，先看看当地数据中心有没有拿到新的环评批文。

📎 阅读原文 · Martin Alderson