谷歌AI战略三大关键赛道:个人代理、知识工作超应用、多模态
我本周参加了Google I/O大会,想分享我对谷歌AI战略哪些方面有效、哪些无效的看法。
📌 可观看我15分钟带实例的视频回顾,或继续阅读:https://www.youtube.com/watch?v=zvMfA1VtUi0
有效的是Gemini增长迅速。Gemini应用目前拥有9亿月活跃用户,仅次于ChatGPT;谷歌同时推出了大量新产品。
但后者恰恰构成问题:AI产品过多。
仅I/O大会上发布的AI产品就包括Gemini、AI Studio、Antigravity、Spark、Flow、Stitch、Pomelli等十余个名称。消费者和企业难以分辨各产品适用场景,认知负担加重。
真正重要的AI竞赛只有三场:
第一场:将聊天演进为个人代理。
AI聊天时代正走向终结。用户不再满足于仅在对话中回复的AI,而需要能实际协助完成工作的AI。AI个人代理将成为巨大市场。谷歌已掌握全部个人上下文——邮件在Gmail、日程在Google Calendar、文档在Google Docs、所有文件在Google Drive。但长期以来,Gemini应用甚至无法编辑Google Doc。因此,Spark是I/O中最令我期待的发布。
Spark旨在将Gemini打造成个人化、主动式、强能力的代理: “个人化”指通过Gmail、Calendar、Workspace、Drive等理解用户; “主动式”指主动提示关键事项,例如新推出的Daily Brief功能; “强能力”指可调用谷歌应用及任意第三方API或MCP(Model Control Protocol)。 Spark运行于云端虚拟机,无需保持电脑开机。但谷歌需注意:应让用户自主决定授予代理的控制权限级别。
第二场:编码与知识工作统一平台。
谷歌在编码领域处于追赶状态。AI原生开发者普遍转向Codex,因其速率限制宽松、应用体验好,且GPT-5.5当前被公认为最佳编程模型。企业则多采用Claude Code,因Anthropic成功推动其采用。
谷歌新模型Gemini 3.5 Flash在基准测试中表现优异,是其迄今最强编程模型,但定价上涨(仍低于GPT-5.5和Opus 4.7)。这对预算紧张的企业意义重大——他们正寻求“足够好且更便宜”的模型承担多数代理任务。
新工具Antigravity界面流畅,但与Codex和Claude Code的左侧面板交互设计高度相似。此类界面适合个人用户,却不适配团队协作。Stitch(AI设计工具)与Antigravity完全分离,违背“规划—设计—编码”一体化需求。OpenAI与Anthropic正构建覆盖编码、设计、知识工作的超级应用,谷歌应让Antigravity成为该超级应用,而非在Docs、Sheets等每个产品中单独添加AI聊天窗口。
第三场:从文本迈向多模态。
谷歌在多模态AI上真正领先:是唯一正在构建有竞争力视频模型的美国实验室;YouTube与TikTok的流行印证了视频对消费者的吸引力。当前主要对手是Seedance等中国视频模型,后者对版权问题关注度较低。
新Omni模型支持任意输入生成任意输出(文本、图像、音频、视频)。但产品仍过度分散:Flow是谷歌最佳图像与视频生成工具,却作为独立产品存在,未整合进Gemini默认体验。另一痛点是家庭照片编辑——因安全限制,用户无法用AI编辑子女影像,尽管这是许多家长的首要使用场景。
谷歌文化值得肯定:Gemini团队负责人Josh Woodward强调“快速试错、以建促学”, roadmap仅90天(幸运时120天),已五年未制定年度路线图。VP Chris团队将PRD限制在一页,会议直接基于Studio原型而非静态Mockup。
总结:谷歌需赢得三场AI竞赛——聊天→个人代理(Spark需更快开放第三方API与计算机操作权限);编码→知识工作(以Antigravity为统一超级应用,整合Stitch等,超越Claude/ChatGPT对Google Workspace的支持能力);文本→多模态(依托YouTube与视频模型优势,Omni是关键)。人才、数据、基础设施均已具备,唯需聚焦。