Google给AI接口加了两个档位,像水电一样按需开关
凌晨三点,一家电商公司的数据团队正在跑用户行为模拟——几百个AI代理同时‘浏览’商品页、‘比较’价格、‘推测’点击动机。这些任务不急,但量大;等结果要三分钟,没人盯着看。同一时间,客服页面上的AI助手正卡在第17轮追问里:用户刚发来一张模糊的退货凭证图,系统必须在800毫秒内返回可操作建议。
现在,这两件事可以用同一个API调用完成,只靠一个叫 service_tier 的参数切换:填 flex,AI就进入‘后台思考’状态;填 priority,则立刻调用最高优先级资源。 这意味着什么?开发者不再需要为‘不着急但要便宜’和‘必须快且不能掉链子’的任务,硬生生拆出两套基础设施。
Flex tier 价格比标准档低50%,代价是响应可能延迟几秒、偶尔失败——但它仍是同步接口,不用你写文件、轮询状态、重试队列。 这意味着什么?那些曾被塞进异步批处理系统的后台任务(比如CRM字段自动补全、AI代理的多步推理),现在能用和聊天接口完全一样的代码逻辑调度。
Priority tier 不保证‘永远最快’,但承诺‘绝不最先被砍’:当平台负载飙升时,它的请求仍排在最前;哪怕超出配额,溢出流量也会悄悄降级到标准档,而不是直接报错。 这意味着什么?实时客服机器人不会突然失语,内容审核流水线不会因高峰而积压——故障边界被清晰地框定在‘慢一点’,而非‘断一下’。
背后的逻辑是:AI服务正从‘统一管道’走向‘分层水网’——不是所有字节都该走同一条高速路。
有人已经在用 Flex 跑每周一次的竞品话术生成,把成本压到原来的三分之一;也有人把 Priority 绑在银行APP的反欺诈提示上,哪怕多花三倍钱,也要换那0.2%的额外可用性。
接下来你会注意到:API文档里开始出现越来越多带‘tier’后缀的参数,而它们背后,是一整套正在成型的AI资源经济学。