AI推理显然盈利：成本核算与市场证据

📅 2026 年 6 月 27 日 📖 约 5 分钟 seangoedecke.com AI商业

AI推理显然盈利

许多人声称AI推理服务无利可图，因此必须由投资者（那些相信未来某个AI模型将主宰世界经济的“傻钱”）补贴。一旦这些傻钱消失，AI产品也会随之消亡。根据这种观点，LLM本质上太昂贵（在金钱、电力和水资源方面），无法用于消费产品。实际上，它们今天之所以能用，是因为成本被外部化了：金钱成本转嫁给了风险投资基金（以及现在的零售ETF投资者），电力成本转嫁给了电力用户，水资源成本转嫁给了数据中心所在的社区。

我们有很多理由不喜欢AI，但这真的不是其中之一。事实上，AI推理显然盈利。

算一笔账就能证明推理是盈利的

前沿AI提供商报告推理业务的毛利率在70%-80%之间，但也许我们不能相信他们。我们来粗略估算一下实际成本。

一块Nvidia A100在满载时功耗为400W。在实践中，即使经过精细调优的推理服务器也不可能一直处于满载状态，但这至少是一个上限。假设你运行一个70B的密集模型1，它可以在四块A100上舒适运行（未量化），吞吐量约为每小时200万tokens。按工业电价计算，在美国大约是每小时13美分。假设（悲观地）冷却成本相同，那么每百万输出tokens的成本约为13美分2。

我们来摊销GPU的成本，因为这将是最昂贵的部分。一块A100大约2万美元。如果每块A100能使用大约五年3，那么你需要每年赚取1.6万美元才能收回资本投资（相当于每小时1.80美元）。在利用率较低的情况下，回收期会更长，但GPU寿命也会更长。无论如何，总的推理成本大约为每百万tokens 1美元。

GPT-5.4-mini的收费是每百万tokens 4.50美元，而更强的OpenAI或Anthropic模型的价格是这个数字的三到六倍。很难直接比较，因为我们不知道OpenAI或Anthropic模型的规模，但所谓的70%或80%的利润率是极其合理的。

开源LLM证明推理是盈利的

如果你也不相信我的估算怎么办？我们来看看开源权重的中国LLM的定价。DeepSeek声称其DeepSeek-R1推理业务的利润率略高于80%。由于他们R1的API定价不到OpenAI或Anthropic的一半4，这暗示我上面的推理成本估算可能太贵了。大规模冷却可能比电力更便宜，R1的有效参数量只有70B密集模型的一半，现代GPU比A100更高效，而且推理存在显著的规模经济。

由于DeepSeek的模型可以自由下载，他们无法攫取高额利润。其他推理提供商会用同样的模型进行降价竞争。市场上DeepSeek-V4-Pro的推理成本大约是每百万输出tokens 87美分，这可能非常接近于服务该模型的实际成本。

对AI实验室而言，推理必须补贴训练

所有这些并不意味着OpenAI或Anthropic是盈利的。这些公司正在进行巨额资本投资，这些投资可能不会成功，并且他们花费大量资金在人才和算力上，以训练全新的模型并留住用户。

他们做着疯狂的事情，比如提供每月订阅模型以获取近乎无限的推理服务，这几乎肯定不盈利。如果你在Claude Code中使用API token而非你的Anthropic订阅，你需要支付十倍的成本。但这并不意味着基于API的Claude Code不是一笔好交易。有些人已经在使用DeepSeek的推理API进行智能体编程，因为一旦去掉高额利润，它比月度订阅更便宜。

为什么OpenAI或Anthropic不降价？据说OpenAI考虑过，但对于AI实验室来说，推理必须补贴训练成本。像OpenAI这样的公司必须用现有模型的推理利润来资助新模型的研发（至少部分如此）。这就是推理利润率如此之高的原因：AI实验室正试图榨取每一分钱，以便在训练军备竞赛中生存下去。

然而，推理只需要为AI实验室的培训成本提供补贴。如果你只是一个推理提供商，你根本不需要进行任何训练。因此，即使OpenAI和Anthropic倒闭，任何收购其前沿模型权利的人都能继续以盈利方式销售Opus和GPT推理服务5。AI泡沫破裂并不意味着推理业务的终结，因为AI推理显然盈利。

前沿模型很可能是混合专家（MoE）而非密集模型，这更难估算。不过，我认为一个70B密集模型和一个具有70B有效参数的MoE在大规模下最终会得出基本相同的数据（尽管MoE需要更多GPU内存，从而初始成本更高）。前沿模型大约有70B参数吗？除了AI实验室内部，没人真正知道，但我的猜测是70B可能比Haiku/mini级别的模型还要大。

我认为只估算输出tokens的成本是合理的，因为这是推理服务中最昂贵的部分。输入tokens更便宜，原因有二：transformer允许并行预填充，而且对于大多数实际用例，可以在KV缓存中积极缓存。

通常（错误地）估算GPU寿命为三年。我在《AI GPU寿命可能超过三年》中对此写了大量内容。

再说一遍，这只是猜测，因为我们不知道哪个OpenAI或Anthropic模型与R1规模相当。

我确实想知道，如果Anthropic倒闭，它能否阻止其他人访问模型。Anthropic目前欠Broadcom、谷歌以及一批私募股权公司的债务。他们会越过Dario的反对意见获得Mythos和Opus的权重吗？

阅读原文

📚 相关主题商业

算一笔账就能证明推理是盈利的

开源LLM证明推理是盈利的

对AI实验室而言，推理必须补贴训练

📬 订阅 AI Pulse