AI Pulse

谷歌AI战略I/O大会后深度点评:三大竞赛决定未来

谷歌AI战略I/O大会后深度点评:三大竞赛决定未来

谷歌AI战略I/O大会后我的诚实评价

本周早些时候我参加了Google I/O,想分享我对谷歌AI战略哪些方面有效、哪些无效的看法。

有效的是Gemini增长迅速。Gemini应用目前拥有9亿月活跃用户,仅次于ChatGPT;谷歌同时推出了大量新产品。

但后者恰恰构成问题:

AI产品过多

看看谷歌在I/O上发布的所有AI产品。乍一看这像是实力的展示,但我觉得有负面影响。谷歌推出的AI产品太多,用户不知从何下手:

Gemini、AI Studio、Antigravity、Spark、Flow、Stitch、Pomelli以及十几个其他名称,消费者和企业越来越搞不清哪个产品该用于什么场景。

真正重要的AI竞赛只有三场

与其到处发布所有东西,我认为谷歌应该专注于赢得三场AI竞赛:

- 将聊天演变为个人代理的竞赛 - 构建编码+知识工作超级应用的竞赛 - 从文本扩展至多模态的竞赛

让我们逐一审视。

竞赛一:将聊天演变为个人代理

我认为AI聊天时代正走向终结。人们不想要只在聊天中回复的AI,他们需要能实际帮助完成工作的AI。

这就是为什么我确信AI个人代理将成为一个巨大的市场。每个人都想要一个私人幕僚长,哪怕他们从未打算“vibe coding”任何东西。

以下是我对个人代理格局的心智模型:

一端是OpenClaw和Hermes。这些代理驻留在你的消息应用中,完全可定制,并开创了整个品类。我每天用Hermes处理邮件、日历、周报等。

中间是Codex和Claude Code。这些产品背后有近万亿美元的公司支持,正在快速增加个人代理功能,但它们仍感觉像是编码工具优先。

然后是谷歌。事实上,谷歌已经掌握了我所有的个人上下文。我的邮件在Gmail,日程在Google Calendar,文档在Google Docs,所有文件都在Google Drive。

但长期以来,Gemini应用甚至无法编辑Google Doc,这非常令人沮丧。

这就是为什么Spark是我在I/O上最兴奋的发布。

在Spark中构建个人化、强大且主动的代理

谷歌的愿景是通过Spark将Gemini打造成一个个人化、主动且强大的代理。我们来分解每个词的含义:

个人化意味着通过Gmail、Calendar、Workspace、Drive和其他应用理解你。

主动意味着告诉你重要的事项,比如新的Daily Brief功能,它能汇总你在谷歌其他应用中需要处理的事务。

强大意味着能够使用谷歌的应用,也能使用任何第三方API或MCP。

我特别喜欢Spark在云端虚拟机上运行,这样你就不必让电脑一直开着来使用它。谷歌需要注意的一点是:

让用户决定授予代理多少控制权

我和Gemini应用产品负责人Chris进行了一次很好的交谈。我问他什么时候可以将Spark连接到任意API或MCP——这我目前已经可以在OpenClaw、Codex和Claude Code上做到。

他的回答是,对于任何写入操作,他们应该先询问用户批准。

我理解,Gemini有9亿用户,他们不想让人们意外删除所有文件。

但我认为这过于谨慎了。

谷歌应该让用户自行决定授予代理多少控制权——无论是每次请求权限,还是完全绕过所有权限。我使用Codex和Claude Code时,基本上总是绕过所有权限。这些代理现在足够聪明,不会做错事,而且只会越来越好。

关键是,谷歌在个人代理竞赛中输不起。

竞赛二:编码与知识工作

现在来谈谈编码和知识工作。

谷歌在编码领域处于追赶状态。我认识的AI原生开发者大多转向了Codex,因为其速率限制慷慨、应用体验出色,而且GPT-5.5目前可以说最佳编码模型。

与此同时,企业大多转向了Claude Code,因为Anthropic在利用炒作周期和推动采用方面做得非常出色。

那么谷歌处于什么位置?让我们谈谈该公司的新模型和新工具。

模型:Gemini 3.5 Flash

首先,Gemini 3.5 Flash在这些基准测试中看起来是个很棒的模型。它无疑是谷歌迄今为止最好的编码模型。

然而,定价也上涨了,尽管仍然比GPT-5.5和Opus 4.7便宜:

我认为这一点实际上很重要,因为企业使用昂贵的尖端模型已经预算紧张。他们正在寻找“足够好”且更便宜的模型来完成大部分代理工作。

工具:Antigravity

现在来谈谈工具。我试用了新的Antigravity应用,感觉很流畅,但它看起来与Codex和Claude Code的工具非常相似——左侧面板用于与代理对话。

我认为这样的工具对于个人用户与代理交流来说不错,但对于团队或组织来说并不太有效。我原本希望看到更多创新。

构建超级应用 vs. 在每个产品中添加聊天

我还认为谷歌的工具太多了。比如,我不明白为什么Stitch(谷歌的AI设计工具)是一个与Antigravity完全独立的产品。当我构建产品时,我希望使用一个工具完成规划、设计、编码。我不应该在三个不同的谷歌应用之间切换。

OpenAI和Anthropic都在构建超级应用,一个工具可以处理编码、设计和知识工作。谷歌应该让Antigravity成为那个超级应用。

这个观点可能有争议,因为谷歌也在Docs、Slides、Sheets以及所有其他知识工作产品中添加AI聊天。

但我认为未来我们将仅与个人代理和超级应用交互来完成编码和知识工作。也许我们还会进入这些其他应用手动调整一些东西,但单个代理和应用将完成大部分工作。

Antigravity需要达到这个期望。它必须非常出色。

竞赛三:从文本到多模态

好了,我对谷歌AI编码的批评已经不少了,所以让我以我认为谷歌真正领先的领域作为结束:多模态AI。

除非他们真的搞砸了什么,否则我感觉谷歌将赢得消费者AI。它是唯一一家真正在构建有竞争力视频模型的美国实验室,而消费者喜爱视频。毕竟,TikTok和YouTube远比任何基于文本的平台受欢迎。谷歌在视频领域目前唯一的真正竞争对手是Seedance和其他似乎不关心版权的中国视频模型。

我也对新Omni模型感到兴奋,它允许你接受任意输入并生成任意类型的输出——无论是文本、图像、音频还是视频。

但即便如此,我认为谷歌仍有太多独立产品。例如:

为什么Flow不是Gemini的一部分?

Flow实际上是谷歌生成图像和视频的最佳产品。你可以用它制作出惊艳的场景。但它真的需要成为一个独立产品吗?为什么它不能直接成为Gemini默认体验的一部分?

另一个让我不爽的点:我认为图像和视频编辑的首要用例是家庭照片。但谷歌的安全限制不允许我用AI编辑孩子的照片或视频。我理解为什么不允许,但作为家长,这仍然是我的首选用例,所以目前的安全措施感觉太严格了。

我对谷歌文化持乐观态度

我想以我认为谷歌真正做得好的方面作为结束:Gemini团队内部的文化。

Josh Woodward可能是我在谷歌最喜欢的执行高管,甚至可能是在所有公司中最喜欢的。他不断说出我深信不疑的话:

“多尝试,通过构建来学习。”

“我们只有90天的路线图,幸运的话可能是120天。”

“我不知道我们是否还会回到一年的路线图。我已经5年没有制定过那种路线图了。”

速度优于计划。原型优于演示文稿。向Josh汇报的Gemini VP Chris告诉我,他的团队将PRD限制在一页,会议上使用Studio原型而不是Mockup。这就是在这个领域取胜所需要的。

谷歌需要赢得的3场AI竞赛

总结一下,我认为谷歌需要赢得3场AI竞赛(当然,用AI治愈癌症也很棒🙂):

1. 聊天 → 个人代理。谷歌拥有数据、产品、模型,现在又有了Spark。但他们需要信任用户,在Spark中更快地提供更强大的能力(例如第三方API、计算机使用)。

2. 编码 → 知识工作。谷歌在编码方面落后,但Antigravity是正确的一步。围绕它进行整合,构建超级应用,并将其扩展到知识工作。不要只是给每个谷歌产品添加聊天窗口。Claude和ChatGPT对Google Workspace的功能不应该比Gemini更好。

3. 文本 → 多模态。这是谷歌真正领先的领域。他们的视频模型是最好的,而且谷歌拥有YouTube。我对Omni感到兴奋,他们凭借视频本身就有机会赢得消费者AI。

我支持谷歌。人才在那里,数据在那里,基础设施也在那里。Josh和他的团队正在建立正确的文化。

他们只需要聚焦。

阅读原文
📚 相关主题 商业工程

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部