AI上线后,九成时间卡在CPU上
AI模型上线后,90%以上的实际运行时间花在CPU上。加载模型、调度任务、处理API请求、管理内存带宽、协调GPU与存储之间的数据流——这些事GPU干不了。训练模型的战场在GPU,而推理部署的瓶颈,在CPU和IPU组成的‘后勤系统’里。
Google Cloud将全面采用Intel最新Xeon 6处理器,并继续联合开发定制化基础设施处理单元(IPU)——一种专为数据中心卸载任务而生的ASIC芯片。它不负责算力,而是让CPU从繁杂的调度、加密、网络协议解析中解脱出来。一个IPU能释放出相当于两颗高端CPU的可用算力。
眼下全球CPU供应正持续吃紧。通过引入IPU,云服务商能在不增加CPU数量的情况下提升AI服务吞吐能力。
这个合作始于2021年,但直到今天才扩大规模。与此同时,Arm也首次自研CPU(Arm AGI CPU),直接切入AI推理基础设施赛道。目前不清楚Arm的具体架构和目标场景,也不清楚Google-Intel的IPU是否已大规模部署。