当前AI定价模式终将消亡：推理成本飙升与需求弹性双重挤压

📅 2026 年 5 月 23 日 📖 约 5 分钟 Arnon Shimoni AI商业工程

当前AI定价模式终将消亡。这根本说不通。

本周，微软取消了内部的Claude Code许可证（无论原因是什么，哪怕是因为他们整合了它），Uber在四个月内花光了整个2026年的AI预算，而GitHub正在其所有产品中取消固定费率计划。

你会看到“AI补贴时代即将结束”这样的说法，这是一种礼貌的表达，实际上每个人一直在做的事情是：将AI功能塞进产品的每个层级，赌推理成本会持续下降。

但它们并没有下降，成本曲线正在朝着错误的方向弯曲，而实验室别无选择，只能将成本转嫁出去。

我们是不是集体忘记了二阶思维？

每一代模型，每token的成本理论上确实下降了，有时降低10倍，但那是在可比质量的前提下……很多人外推了这一点，并基于外推建立了商业模式，这……不是你应该思考的方式。

有谁想过二阶思维吗？

任何参与道路规划的人都知道诱导需求。每一项新能力都会创造新的需求。高速公路就是典型的例子。增加一条车道，就会产生新的通勤需求。这些通勤在车道出现之前并不存在。AI也是如此。更便宜的推理并不会减少账单，而是会扩大人们让模型做的事情范围。

现在，我的推理查询需要超过4分钟，而以前只要2分钟……代理工作流会发出50次调用，而以前的工作流只发出一次。单位成本下降，但调用量爆炸，总支出仍然上升。

任何销售固定费率“AI助手”的人，都假设用户行为不会改变。但事实是，它变了。它总是会变。

第二个问题是，供给端不再配合——内存和GPU的经济学正在对你不利。

内存价格上涨了4倍。GPU价格上涨了超过95%。

前沿训练和推理运行在英伟达加速器搭配高带宽内存上。天花板不再是晶体管，而是HBM以及将其与计算芯片结合在一起的先进封装技术。

摩根士丹利估计，新款NVIDIA VR200的物料清单将高出95%——仅内存一项就增长了435%。

这个天花板实际上只有一家工厂这么深。台积电的CoWoS封装产线曾是、现在仍然是加速器供应的瓶颈。SK海力士主导着HBM（并已成为一家非常受欢迎的公司），三星落后，美光更在后面。它们都无法一夜之间增加产能。这些至少需要18到36个月的投入，而且它们是在一个需求被低估了一个数量级的世界中规划的。

所以，GPU定价就是稀缺定价的样子！最顶级的GPU、TPU和其他类型的加速器，在同等集群规模下，比上一代贵了大约2倍。HBM价格在18个月内上涨了4倍。电力和冷却现在在那些以前没人考虑过电力的地方成为真正的约束，这就是为什么每个超大规模云服务商现在都有“我们正在建设千兆瓦园区”的故事和核电购电协议的新闻稿——无论最终能否实现。

Anthropic的首席财务官今年三月在宣誓作证时称，公司花费了100亿美元在计算上，却只赚了50亿美元的收入（Ed Zitron的计算似乎正确）。实验室在计算和推理上完全亏损，所以他们提高价格以维持运营。

那些销售固定费率“AI无处不在”产品的公司，现在面临着自己设计的利润率问题。他们赌的是，有一条曲线会向他们有利的方向弯曲。但一个都没有，可能永远也不会，至少在他们的定价所假设的时间线上不会。

从今往后会有什么变化

产品问题发生了转变。它不再是“我们可以在哪里加入AI？”，而是变成了“哪些用例值得它们所消耗的推理成本？”。这是一张更难写的路线图。它也会改变定价表面，这是大多数产品团队尚未内化的部分。

三种架构可以应对变动的成本。它们都不新鲜。所有对习惯于销售座位的销售团队来说都不舒服。

按动作付费。每一次API调用、每一次生成、每一个代理步骤都有价格。收入与成本同步增长，因为它们都基于同一个底层事件。Twilio从2008年起就采用这种模式。AWS从2006年起就运行着类似版本。缺点在于透明度是把双刃剑。客户能看到计费表，他们会谈判。优点在于你的毛利率不依赖于猜测你的重度用户会如何使用系统。

积分制。预付费包。客户购买100,000积分，随意消耗，再充值。积分可以平滑现金流，并让你将不同模型成本混合在一个单一单位下，这是处理一个在五个不同推理提供商之间路由的产品的唯一合理方式。陷阱在于未使用积分。Snowflake的积分是基础设施，客户明白他们买的是什么。很多积分后来变成了“搁浅资产”（就像你忘记使用的礼品卡），而客户能分辨出他们买的是哪种。第二种情况你只能做一次。

混合制！每个人最喜欢的新事物（其实并不新），但它包括：一个包含积分的基本席位，加上按量计费的超额部分。我见过的大多数企业销售流程都能接受这种方式，不太需要争论，因为一个座位数（或“固定平台费”）仍然锚定了合同，而计费表是安全阀。这是大多数AI原生产品在第一个重新定价周期内最终采用的方案。同样，这不是我最喜欢的，但不管怎样，它似乎有效！

形式本身不是重点，重点是当成本线移动时，收入线是否也随之移动。按座位付费是唯一假装成本是固定的架构。

其他所有形式都是某种将收入与底层事件挂钩的变体。

两难选择

如果你的定价能随成本变动，你就能继续构建。

你可以推出代理工作流、更重的推理模型、面向重度用户的缓慢而昂贵的功能，并且你有办法为此获得报酬。

如果你被锁定在按座位付费（或固定费率等）的模式中——你只能在两个失败选项中选择。要么吃掉利润率，看着它每个季度随着客户使用量增长而压缩。要么从低价套餐中剥离AI，然后看着你的激活率从那些曾经是你的漏斗的低价用户群中下滑。

这两个选项都会出现在下一次的董事会幻灯片上。

哪一个看起来都不好玩。

阅读原文

📚 相关主题商业工程

📬 订阅 AI Pulse