谷歌AI战略解析:Gemini 3.5 Flash的定价与定位,以及编码工具困境
Google 目前处于一个奇怪的位置。可以说,他们拥有业内最深厚的研究储备、自研芯片和几乎无限的资金——然而,我接触的大多数开发者日常几乎不使用 Gemini。最近的 Google I/O 大会公告明确了我对其 AI 战略感到困惑的许多方面,所以我想写下来,阐述我认为他们实际所处的境况。
当前格局
普遍的共识是,目前 Anthropic 和 OpenAI 在前沿模型智能方面遥遥领先,这两家实验室每个月都在互相竞争。这种情况可能在未来发生变化——如果 Anthropic 发布 OpenAI 无法匹敌的 Mythos 级模型——但就目前而言,我认为大多数从业者都会同意 GPT5.5 和 Opus 4.8 大致处于同一水平。
在此之后是 Google,其 Gemini 3.1 Pro 在基准测试中领先于中国模型,但落后于旗舰级的 Anthropic/OpenAI 模型。不过,根据我个人的经验,在软件工程任务中,我用顶尖中国模型(GLM 5.1 和 Qwen 3.7)获得的结果比 Gemini 3.1 Pro 更好。
Gemini 3.5 Flash 令人困惑
Google I/O 上发布的主要模型是 Gemini 3.5 Flash。其编码基准测试结果并不出众:
Gemini 3.5 Flash 在 Artificial Analysis 编码指数上的表现——处于中游水平。
然而,该模型速度极快——每秒输出的 token 数大约是前述 Anthropic/OpenAI 模型的 4 倍:
每秒输出 token 数——Gemini 3.5 Flash 达到 206 t/s,远超 Opus 4.8 和 GPT-5.5。
这确实是一个非常有趣的发展,尤其是对于面向用户的应用而言,这些应用可能会让用户感觉非常缓慢。
但是,有一个很大的“但是”——他们宣布了大幅涨价,比之前的 Flash 版本贵了 3 倍。每百万 token 9 美元的价格远高于顶尖的中国模型,我很难看出它的定位在哪里——如果你想要顶级的智能,你会为 Opus/GPT5.5 支付额外费用;如果你想要便宜但不太聪明的模型,中国模型则非常合适。在我看来,围绕中国模型的风险有些被夸大了——你可以自行托管其中许多模型,或者通过 OpenRouter 使用美国的推理提供商。
这个模型真的是为 Google 自己准备的吗?
话虽如此,也许这个模型本就不是像 OpenAI/Anthropic 模型那样为外部使用而设计的。显然,Google 内部消耗了海量的 token——用于他们所有的产品,如 AI 模式、Gmail 等。
如果你从这个角度来看,这个模型就合理多了。模型的快速对于 Google 的许多用例来说至关重要——AI 模式高度依赖用户交互,而 Google 比任何人都清楚速度至关重要。而且,Google 实际承担的服务器成本几乎肯定只是对外标价的一小部分,因此价格问题就不那么重要了。
不过,这个故事最有趣的部分,是 Hacker News 上一条精彩的评论,有人估算了该模型的大小,并指出它应该能在一张 TPU 8i 卡(Google 最新的定制推理硬件)上运行。
这确实给了 Google 巨大的优势。他们是目前唯一一家自行设计 AI 硬件的前沿实验室。虽然其他实验室当然也会针对硬件优化他们的模型,而且在推动 Nvidia/AMD 路线图符合其规格方面无疑也有很大的发言权,但 Google 的模型团队和硬件团队之间的协作水平几乎肯定远超其他实验室。
这至关重要。如果你对即将推出的硬件有非常清晰的把握,你就会知道训练时应瞄准何种规模的模型。同样,Google Deepmind 的研究可以直接进入硬件路线图,无需任何谈判。[1]
看到这一点如何继续发展将非常有趣。推理效率将是 AI 实际单位经济效益的关键驱动力,而 Google 可能会在这方面建立起巨大的领先优势。
编码代理
不过,我认为 Google 的一个真正弱点,是他们关于编码代理的混乱且不连贯的战略。Anthropic 有 Claude Code,OpenAI 有 Codex,而 Google 却以典型的方式推出了一堆工具。
目前有 Antigravity、Jules、Gemini Code Assist、Gemini CLI 和 AI Studio,它们各自做着略有不同的事情。这还不包括他们用于专门用途(如 Android Studio)的其他代理式软件工程工具。
他们宣布 Gemini CLI 将被停止使用并并入 Antigravity,但我很少遇到使用 Google 软件工程工具的开发者。
这对 Google 来说是一个巨大的问题——毫无疑问,Claude Code 和 Codex 正在产生大量非常详细的遥测数据和训练数据,可用于改进未来的模型。如果不解决这个问题,Google 在 AI 领域增长最快(至少在收入方面)的细分市场上将存在一个极端弱点。
虽然我肯定不会看扁 Google——他们在其他领域确实拥有巨大的结构性优势——但我有种感觉,因为 Google 拥有如此定制化的内部软件开发工作流程[2],他们与“行业其他公司”在软件方面的做法隔离程度如此之大,以至于他们可能很难真正为行业其他公司设计代理工具。
我的看法是,Google 正在玩一场与 OpenAI 和 Anthropic 截然不同的游戏。只有当你认为 Gemini 3.5 Flash 旨在赢得同一场比赛时,它才会显得奇怪——如果把它视为为 Google 自身巨大的内部 token 消耗而定价和调优,并融入 TPU 优势,那就完全合理了。他们真正落后的地方在于面向开发者的表面:一堆混乱的编码工具,以及一个难以理解我们其他人如何构建软件的机构。如果 Google 理顺了代理故事,那么其底层的结构性优势——芯片、研究、集成——可能会让他们变得难以击败。这是一个大大的“如果”。但我不会押注他们失败。
---
[1] 虽然很难说这里面是否有任何真实性——或者只是一种谈判策略——但有传言称 OpenAI 今年早些时候对 Nvidia 的方向/进展感到不满:https://finance.yahoo.com/news/sam-altman-pushes-back-report-213000823.html [2] Google 工程师拥有大量自建/定制/内部工具,这在 Google 规模以外的公司中并不常见。他们使用的源代码控制、构建工具、测试基础设施和构建部署都与行业其他公司不同——这是有充分理由的!但对于 99% 的公司来说,这套工具栈绝对是大材小用,当你习惯了以 Google 规模思考软件工程时,我怀疑要理解人们在该生态系统之外如何构建软件是非常困难的。