AI算力芯片领域近期发生了一系列深刻变化,焦点已从单一的算力竞赛转向芯片架构分化、基础设施瓶颈以及商业模式重构。各主要玩家不再仅仅追求浮点运算峰值,而是围绕实际应用场景重新设计硬件与分配资源。
谷歌在第八代TPU上首次采用了双芯片架构,将训练与推理彻底分开。训练专用TPU 8t和推理专用TPU 8i分别应对大模型的长周期训练和AI代理所需的毫秒级响应[15][19]。这一设计反映出AI代理时代的硬件需求:模型不再只是静态跑分,而是需要支持自我思考、多步规划和迭代执行,因此芯片需要为不同任务专门优化[19]。值得注意的是,尽管谷歌大举推进自研TPU,其云服务仍计划部署英伟达Vera Rubin GPU,并保持合作[14],说明异构计算格局短期内难以撼动。
英伟达在训练市场的强势地位正受到多重挑战,其CEO公开表现出对TSMC制程密度压力的焦虑。GB200 GPU采用4NP工艺,晶体管密度约1.45亿/平方毫米,虽比H100提升30%,但面对AI算力需求的指数级增长,物理极限的逼近让竞争转向系统级创新[16]。与此同时,英伟达凭借在编码Agent推理需求中的软硬件协同优势,仍在巩固其推理芯片霸权,这使其从训练侧全面转向生产级推理基础设施[18]。
芯片本身的设计也因能耗和散热瓶颈而被迫改道。AI用电压力已深入到芯片背面供电层的微米级结构中,BSPDN技术将供电线路挪到芯片背面以解决电流密度问题[11]。数据中心层面,液冷系统、DRAM内存和高压供电基础设施成为新的算力瓶颈,甚至迫使AI公司关停部分产品以节省电力[5]。同时,AI系统不仅需要算得快,还需要高频读写缓存和向量数据库,这催生了带CXL接口的内存池架构等存储创新[2]。
在硬件受限环境下,算法层面的优化成为重要突破口。华为推出的HiFloat4 4比特浮点格式,在训练大模型时精度损失仅约1.0%,比西方MXFP4方案低0.5个百分点,仅靠随机舍入就能逼近BF16效果[4]。这表明当芯片制程和配额受限时,通过数值格式创新可以显著提升有效算力。Anthropic也通过推理技术让客户算力产出提升40%,其年收入已达300亿美元[17],说明软件优化带来的算力释放同样可观。
新兴硬件平台正在多元化算力供给。Seeed Studio发布了基于Rockchip芯片的开源AI盒子,提供最高32GB内存和6 TOPS NPU,面向开发者和嵌入式AI创新者[6]。微软Azure与英特尔合作上线由Xeon 6处理器驱动的Dl/D/Esv7系列虚拟机,专为AI训练与推理场景设计[7]。此外,针对苹果芯片优化的开源框架Cider被推出,能激活Apple Silicon此前闲置的计算单元,让本地大模型跑得更快、更省内存[9],显示硬件潜力正被软件生态持续