AI Pulse

AI GPU的实际寿命很可能超过三年

AI GPU的实际寿命很可能超过三年

AI GPU的实际寿命很可能超过三年

认为当前AI使用不可持续的人,常常依赖一个论据:推理用的GPU在高负载下“最多只能撑三年”。这个观点的逻辑是:一旦AI泡沫资金枯竭,现有基础设施会迅速过时,市面上也拿不出足够的钱来买一批全新的GPU。推理成本将因此急速上涨,使得当前AI产品在经济上毫无意义。

这个“最多三年”的说法从何而来?是否可信?

引言的源头

Tom's Hardware 那篇原文引用的是 Tech Fund(一位匿名前产品经理兼科技投资者)的推文,他转述了一位匿名“谷歌GenAI首席架构师”的话:“如果利用率很高,持续高负载一两年,那么寿命最多三年。”

这张截图看起来像是来自某次访谈。什么访谈?我翻到Tech Fund在2024年10月的Twitter流,看到一串格式类似的截图,其中有几张标明来自Tegus。Tegus这家公司的商业模式是联系内部人士(这里指AI公司员工),按几百美元一小时付费,让他们回答特定的技术问题。它本质上是接近但尚未触及内幕交易的零工:你听起来越有见识、越自信,Tegus的分析师就越有可能在未来的访谈中选中你。

我确信这条推文的来源确实是一位GenAI首席架构师,因为Tegus在付钱之前大概会要求某种身份证明。但很明显,这里的激励是让你听起来自信且权威,即使是在你并不确定的提问上。这一点也让我对引文本身有些怀疑。我跟足够多的首席工程师和架构师打过交道,对他们随手给出的粗略估算都会存疑。如果他们真的知道Google数据中心里GPU的实际失效和退役率,难道不会直接说出来吗?

支持更长寿命的证据

我们有一些零散证据指向相反方向。Google公开声称他们运行着八年前生产的TPU(他们的GPU版本),并且达到了“100%利用率”。Nvidia A100 GPU只从2020年生产到2024年,但2026年2月AWS的CEO声称AWS从未退役过一台A100服务器(而且你至今仍然可以轻松租到A100来做AI工作)。AI GPU的使用方式和加密货币挖矿GPU不完全一样,但前几年退役的加密矿GPU似乎确实还能用。还有我在Hacker News上看到的一条评论,有人声称他们学术机构的GPU集群已经运行了六年,故障率不到20%。

那么硬数据呢?AI GPU寿命的具体数据很难获得,因为现代AI数据中心才出现了没几年。但一个有趣的案例是近年来的超级计算机集群,比如Oak Ridge的Summit(2018至2024年间运行了超过2.7万块Nvidia V100),以及它的前身Cray Titan超级计算机(2012至2019年运行)。我没有找到任何证据表明Summit需要额外购买2.7万块GPU来替换旧卡,而Titan中GPU的故障已被仔细研究过:

这些GPU笼子垂直堆叠,冷空气从底部泵入,这解释了为什么笼子0(底部)的存活率高于笼子2(顶部)。我们只看笼子0,这样关注的是GPU本身的寿命,而不是制冷不当的GPU。三年时,超过95%的GPU存活。六年时,节点2和3(最接近笼底的GPU)存活率仍在90%以上,最高节点超过60%。

有可能新款Nvidia GPU比老款更不可靠(它们确实功耗更高),或者AI数据中心制冷不足,或者大语言模型的负载比传统GPU数据中心的负载压力更大。但至少有间接证据表明,GPU在高负载下可以远不止运行三年。

经济寿命

讨论变得复杂的原因是,GPU可能只有较短的经济寿命。据说一块B100 GPU功耗是A100的两倍,但算力是五倍。对于某些AI供应商来说,这可能意味着A100只值得运行到被B100取代为止(如果你受限于电力,就应该把电全部用在B100上,扔掉过时的A100)。这也是Titan超级计算机被Summit取代的原因:它本可以继续运行,但将资金和维护精力花在新硬件上更划算。

显然,这并不支持“泡沫破裂后推理会变得更贵”的论点。只要A100目前还能盈利,资金短缺的AI供应商就可以继续用它们盈利性地提供推理服务,即使对那些有资金升级的人来说有更高效的选项。

除此之外,GPU只是AI数据中心基础设施支出的一部分。如果GPU磨损了,你不需要从头建一个全新的数据中心。大约30-50%的数据中心支出用于土地、电力、冷却等,剩下的50-70%是整个服务器机架的成本,其中包括很多非GPU部件。

结论

与“AI推理需要消耗大量水资源”的观点类似,“AI GPU只能用一两年”的说法之所以流行,是因为它对AI怀疑论者来说是一个有用的论点,而不是因为它符合事实。它来自一条匿名推文,引用的匿名消息来源被人花钱请他听起来像一位可信的AI专家。其他AI推理供应商的公开声明给出了更高的寿命数字,而超级计算机(传统上大型GPU集群的例子)的统计数字也不支持“最长寿命三年”的说法。

经济寿命或许真的是三年——在一个新GPU每十八个月推出一次、GPU供应商资金充裕可以不断升级的世界里,但这对AI寒冬时期的推理经济学并没有太大参考价值。如果资金变得稀缺,AI数据中心很可能会继续盈利地运行它们的B300(或H100甚至A100)长达六年或更久。

阅读原文
📚 相关主题 工程商业

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部