AI硬件最紧缺的环节已从训练芯片转向推理与代理计算所需的基础设施,电力供应和专用芯片的产能同时成为主要瓶颈。知识库中多个案例表明,随着AI从实验阶段进入真实业务场景,推理请求量正以远超硬件交付速度的方式爆发,而现有的数据中心和芯片供应链还无法及时跟上。
推理需求的高速增长让许多公司被迫削减服务。OpenAI已暂停Sora的对外服务以腾出计算资源,Anthropic则从限制高峰用量升级到禁止第三方工具调用自己的模型,原因不是技术问题,而是物理层面的插座不够插。[4] 韩国AI芯片公司Rebellions在融资时指出,推理正成为算力需求增长最快的环节,并强调AI的价值已转向真实场景下的规模化与能效比。[2] 与此同时,GitHub代码提交量年化增长约14倍,这背后是大量新人使用AI编码工具,而真实推理调用数量只会更高,连具体用量都只能靠旁证估算。[4]
芯片厂商正加速推出专为推理和代理工作负载设计的硬件。谷歌发布了第八代TPU,将其拆分为TPU 8t负责训练、TPU 8i负责推理,后者专门为AI代理的低延迟响应优化。[18][19][20] Groq获得6.5亿美元融资,明确将业务重心转向推理云服务,押注自研芯片而非英伟达GPU。[7] Cerebras在IPO文件中宣称其芯片在推理时比英伟达GPU更快、功耗更低,OpenAI既是其最大客户也是投资人。[13] 英伟达自己则推出了专为智能体AI设计的CPU Vera,认为这是价值2000亿美元的新市场,并声称已售出200亿美元。[9] 这些产品都指向同一个事实:推理阶段的计算负载正在重塑芯片设计方向。
电力与基础设施的短缺同样不容忽视。全球数据中心此前从未在百兆瓦级规模部署过整套液冷系统,而英伟达最新的GB200芯片必须全液冷运行。[4] Meta在财报电话会上提到,2026年资本支出预计高达1250亿至1450亿美元,部分原因是组件成本上升,尤其是内存价格。[14] 此外,亚马逊与Meta签署了数百万颗自研Graviton CPU的供应合同,专门用于AI代理的计算,这也说明芯片竞争已从“谁训得更快”转向“谁跑得更稳、更省、更适配真实AI工作流”。[17] Snowflake则花了60亿美元购买AWS的Graviton芯片,其CEO表示AI跑起来后CPU比GPU更忙,因为日常使用和自动化代理全部依赖CPU。[1]
本地硬件虽然在尝试,但性能受限。Hermes Agent和Ollama可以构建本地AI指挥中心,但文章明确提到本地模型速度受硬件限制,代理工作流仍需清晰指令与人工复核。[3] 英伟达将AI超级芯片塞进PC的计划虽然展示了前景,但历史上2013年Surface RT的失败提醒人们,ARM架构Windows设备的接受度仍是未知数。[5] 这些探索表明,尽管算力紧缺推动厂商寻找新路径,但短期内云端和专用硬件仍是主流。