最近的算力芯片相关资讯

Question

最近的算力芯片相关资讯

Accepted Answer

AI算力芯片领域近期发生了一系列深刻变化，焦点已从单一的算力竞赛转向芯片架构分化、基础设施瓶颈以及商业模式重构。各主要玩家不再仅仅追求浮点运算峰值，而是围绕实际应用场景重新设计硬件与分配资源。

谷歌在第八代TPU上首次采用了双芯片架构，将训练与推理彻底分开。训练专用TPU 8t和推理专用TPU 8i分别应对大模型的长周期训练和AI代理所需的毫秒级响应[15][19]。这一设计反映出AI代理时代的硬件需求：模型不再只是静态跑分，而是需要支持自我思考、多步规划和迭代执行，因此芯片需要为不同任务专门优化[19]。值得注意的是，尽管谷歌大举推进自研TPU，其云服务仍计划部署英伟达Vera Rubin GPU，并保持合作[14]，说明异构计算格局短期内难以撼动。

英伟达在训练市场的强势地位正受到多重挑战，其CEO公开表现出对TSMC制程密度压力的焦虑。GB200 GPU采用4NP工艺，晶体管密度约1.45亿/平方毫米，虽比H100提升30%，但面对AI算力需求的指数级增长，物理极限的逼近让竞争转向系统级创新[16]。与此同时，英伟达凭借在编码Agent推理需求中的软硬件协同优势，仍在巩固其推理芯片霸权，这使其从训练侧全面转向生产级推理基础设施[18]。

芯片本身的设计也因能耗和散热瓶颈而被迫改道。AI用电压力已深入到芯片背面供电层的微米级结构中，BSPDN技术将供电线路挪到芯片背面以解决电流密度问题[11]。数据中心层面，液冷系统、DRAM内存和高压供电基础设施成为新的算力瓶颈，甚至迫使AI公司关停部分产品以节省电力[5]。同时，AI系统不仅需要算得快，还需要高频读写缓存和向量数据库，这催生了带CXL接口的内存池架构等存储创新[2]。

在硬件受限环境下，算法层面的优化成为重要突破口。华为推出的HiFloat4 4比特浮点格式，在训练大模型时精度损失仅约1.0%，比西方MXFP4方案低0.5个百分点，仅靠随机舍入就能逼近BF16效果[4]。这表明当芯片制程和配额受限时，通过数值格式创新可以显著提升有效算力。Anthropic也通过推理技术让客户算力产出提升40%，其年收入已达300亿美元[17]，说明软件优化带来的算力释放同样可观。

新兴硬件平台正在多元化算力供给。Seeed Studio发布了基于Rockchip芯片的开源AI盒子，提供最高32GB内存和6 TOPS NPU，面向开发者和嵌入式AI创新者[6]。微软Azure与英特尔合作上线由Xeon 6处理器驱动的Dl/D/Esv7系列虚拟机，专为AI训练与推理场景设计[7]。此外，针对苹果芯片优化的开源框架Cider被推出，能激活Apple Silicon此前闲置的计算单元，让本地大模型跑得更快、更省内存[9]，显示硬件潜力正被软件生态持续

📬 订阅 AI Pulse