AI上线后，九成时间卡在CPU上

📅 2026 年 4 月 10 日 📖 约 2 分钟 TechCrunch AI硬件基础设施

AI模型上线后，90%以上的实际运行时间花在CPU上。加载模型、调度任务、处理API请求、管理内存带宽、协调GPU与存储之间的数据流——这些事GPU干不了。训练模型的战场在GPU，而推理部署的瓶颈，在CPU和IPU组成的‘后勤系统’里。

Google Cloud将全面采用Intel最新Xeon 6处理器，并继续联合开发定制化基础设施处理单元（IPU）——一种专为数据中心卸载任务而生的ASIC芯片。它不负责算力，而是让CPU从繁杂的调度、加密、网络协议解析中解脱出来。一个IPU能释放出相当于两颗高端CPU的可用算力。

眼下全球CPU供应正持续吃紧。通过引入IPU，云服务商能在不增加CPU数量的情况下提升AI服务吞吐能力。

这个合作始于2021年，但直到今天才扩大规模。与此同时，Arm也首次自研CPU（Arm AGI CPU），直接切入AI推理基础设施赛道。目前不清楚Arm的具体架构和目标场景，也不清楚Google-Intel的IPU是否已大规模部署。