AI Pulse

AI推理显然盈利:成本核算与市场证据

AI推理显然盈利:成本核算与市场证据

AI推理显然盈利

许多人声称AI推理服务无利可图,因此必须由投资者(那些相信未来某个AI模型将主宰世界经济的“傻钱”)补贴。一旦这些傻钱消失,AI产品也会随之消亡。根据这种观点,LLM本质上太昂贵(在金钱、电力和水资源方面),无法用于消费产品。实际上,它们今天之所以能用,是因为成本被外部化了:金钱成本转嫁给了风险投资基金(以及现在的零售ETF投资者),电力成本转嫁给了电力用户,水资源成本转嫁给了数据中心所在的社区。

我们有很多理由不喜欢AI,但这真的不是其中之一。事实上,AI推理显然盈利。

算一笔账就能证明推理是盈利的

前沿AI提供商报告推理业务的毛利率在70%-80%之间,但也许我们不能相信他们。我们来粗略估算一下实际成本。

一块Nvidia A100在满载时功耗为400W。在实践中,即使经过精细调优的推理服务器也不可能一直处于满载状态,但这至少是一个上限。假设你运行一个70B的密集模型1,它可以在四块A100上舒适运行(未量化),吞吐量约为每小时200万tokens。按工业电价计算,在美国大约是每小时13美分。假设(悲观地)冷却成本相同,那么每百万输出tokens的成本约为13美分2。

我们来摊销GPU的成本,因为这将是最昂贵的部分。一块A100大约2万美元。如果每块A100能使用大约五年3,那么你需要每年赚取1.6万美元才能收回资本投资(相当于每小时1.80美元)。在利用率较低的情况下,回收期会更长,但GPU寿命也会更长。无论如何,总的推理成本大约为每百万tokens 1美元。

GPT-5.4-mini的收费是每百万tokens 4.50美元,而更强的OpenAI或Anthropic模型的价格是这个数字的三到六倍。很难直接比较,因为我们不知道OpenAI或Anthropic模型的规模,但所谓的70%或80%的利润率是极其合理的。

开源LLM证明推理是盈利的

如果你也不相信我的估算怎么办?我们来看看开源权重的中国LLM的定价。DeepSeek声称其DeepSeek-R1推理业务的利润率略高于80%。由于他们R1的API定价不到OpenAI或Anthropic的一半4,这暗示我上面的推理成本估算可能太贵了。大规模冷却可能比电力更便宜,R1的有效参数量只有70B密集模型的一半,现代GPU比A100更高效,而且推理存在显著的规模经济。

由于DeepSeek的模型可以自由下载,他们无法攫取高额利润。其他推理提供商会用同样的模型进行降价竞争。市场上DeepSeek-V4-Pro的推理成本大约是每百万输出tokens 87美分,这可能非常接近于服务该模型的实际成本。

对AI实验室而言,推理必须补贴训练

所有这些并不意味着OpenAI或Anthropic是盈利的。这些公司正在进行巨额资本投资,这些投资可能不会成功,并且他们花费大量资金在人才和算力上,以训练全新的模型并留住用户。

他们做着疯狂的事情,比如提供每月订阅模型以获取近乎无限的推理服务,这几乎肯定不盈利。如果你在Claude Code中使用API token而非你的Anthropic订阅,你需要支付十倍的成本。但这并不意味着基于API的Claude Code不是一笔好交易。有些人已经在使用DeepSeek的推理API进行智能体编程,因为一旦去掉高额利润,它比月度订阅更便宜。

为什么OpenAI或Anthropic不降价?据说OpenAI考虑过,但对于AI实验室来说,推理必须补贴训练成本。像OpenAI这样的公司必须用现有模型的推理利润来资助新模型的研发(至少部分如此)。这就是推理利润率如此之高的原因:AI实验室正试图榨取每一分钱,以便在训练军备竞赛中生存下去。

然而,推理只需要为AI实验室的培训成本提供补贴。如果你只是一个推理提供商,你根本不需要进行任何训练。因此,即使OpenAI和Anthropic倒闭,任何收购其前沿模型权利的人都能继续以盈利方式销售Opus和GPT推理服务5。AI泡沫破裂并不意味着推理业务的终结,因为AI推理显然盈利。

前沿模型很可能是混合专家(MoE)而非密集模型,这更难估算。不过,我认为一个70B密集模型和一个具有70B有效参数的MoE在大规模下最终会得出基本相同的数据(尽管MoE需要更多GPU内存,从而初始成本更高)。前沿模型大约有70B参数吗?除了AI实验室内部,没人真正知道,但我的猜测是70B可能比Haiku/mini级别的模型还要大。

我认为只估算输出tokens的成本是合理的,因为这是推理服务中最昂贵的部分。输入tokens更便宜,原因有二:transformer允许并行预填充,而且对于大多数实际用例,可以在KV缓存中积极缓存。

通常(错误地)估算GPU寿命为三年。我在《AI GPU寿命可能超过三年》中对此写了大量内容。

再说一遍,这只是猜测,因为我们不知道哪个OpenAI或Anthropic模型与R1规模相当。

我确实想知道,如果Anthropic倒闭,它能否阻止其他人访问模型。Anthropic目前欠Broadcom、谷歌以及一批私募股权公司的债务。他们会越过Dario的反对意见获得Mythos和Opus的权重吗?

阅读原文
📚 相关主题 商业

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部