Google给AI接口加了两个档位，像水电一样按需开关

📅 2026 年 4 月 3 日 📖 约 4 分钟 Google AI工程商业

凌晨三点，一家电商公司的数据团队正在跑用户行为模拟——几百个AI代理同时‘浏览’商品页、‘比较’价格、‘推测’点击动机。这些任务不急，但量大；等结果要三分钟，没人盯着看。同一时间，客服页面上的AI助手正卡在第17轮追问里：用户刚发来一张模糊的退货凭证图，系统必须在800毫秒内返回可操作建议。

现在，这两件事可以用同一个API调用完成，只靠一个叫 service_tier 的参数切换：填 flex，AI就进入‘后台思考’状态；填 priority，则立刻调用最高优先级资源。这意味着什么？开发者不再需要为‘不着急但要便宜’和‘必须快且不能掉链子’的任务，硬生生拆出两套基础设施。

Flex tier 价格比标准档低50%，代价是响应可能延迟几秒、偶尔失败——但它仍是同步接口，不用你写文件、轮询状态、重试队列。这意味着什么？那些曾被塞进异步批处理系统的后台任务（比如CRM字段自动补全、AI代理的多步推理），现在能用和聊天接口完全一样的代码逻辑调度。

Priority tier 不保证‘永远最快’，但承诺‘绝不最先被砍’：当平台负载飙升时，它的请求仍排在最前；哪怕超出配额，溢出流量也会悄悄降级到标准档，而不是直接报错。这意味着什么？实时客服机器人不会突然失语，内容审核流水线不会因高峰而积压——故障边界被清晰地框定在‘慢一点’，而非‘断一下’。

背后的逻辑是：AI服务正从‘统一管道’走向‘分层水网’——不是所有字节都该走同一条高速路。

有人已经在用 Flex 跑每周一次的竞品话术生成，把成本压到原来的三分之一；也有人把 Priority 绑在银行APP的反欺诈提示上，哪怕多花三倍钱，也要换那0.2%的额外可用性。

接下来你会注意到：API文档里开始出现越来越多带‘tier’后缀的参数，而它们背后，是一整套正在成型的AI资源经济学。