Google搜索YouTube文档将内置AI，可24小时后台执行任务

📅 2026 年 5 月 20 日 📖 约 15 分钟 Google AIagentsproduct

编者按： 以下是谷歌首席执行官桑达尔·皮查伊在2026年谷歌I/O大会上的演讲编辑稿，已进行调整以包含更多在舞台上宣布的内容。请在我们的合集中查看所有公告。

自去年I/O大会以来，这是非凡的一年，一个持续交付、技术进步和超速发展的时期。我们现在正处于AI周期的阶段，人们希望看到他们在日常使用的产品中的价值。我们一直非常专注于这一点，你们将在今天I/O大会上宣布的产品和功能中看到这一点。

自我们公司转向AI优先战略十年来，我们仍然认为AI是实现我们使命和大规模改善人们生活的最深刻方式。这就是为什么我们一直采用差异化的全栈式AI创新方法，从我们的定制芯片和安全基础，到世界级的研究和模型，再到触及数十亿人的产品和平台。这种方法使我们能够更快地迭代和创新，从而照亮公司的每一个角落。

令人难以置信的是人们如何使用AI，无论是学生使用Gemini应用准备期末考试，音乐家和艺术家使用Lyria和Veo等生成式AI模型作为其创作流程的一部分，还是开发者编写代码并将他们的想法变为现实。

全栈AI势头

这些人们如何使用AI的故事是衡量进步的最佳标准。要了解人们采用AI的规模，还有另一个很好的指标——Token，即我们模型处理的基本数据单元，许多Token代表着一个正在被解决的问题。

两年前，我们在各个平台上每月处理9.7万亿个Token——这是一个巨大的数字。去年在I/O大会上，这个数字增长到大约480万亿个Token。快进到今天，这个数字跃升了7倍，达到每月超过3200万亿个Token。

这讲述了一个关于我们产品以及其他人如何构建的重要故事——尤其是开发者和企业：
- 每月有超过850万开发者正在使用我们的模型构建新的应用和体验。
- 我们的模型API现在每分钟处理大约190亿个Token。
- 在过去12个月里，超过375家谷歌云客户各自处理了超过1万亿个Token，这代表了来自各行各业对AI的巨大需求。

我们产品的势头

今天，我们有13个产品各自拥有超过10亿用户。其中5个拥有超过30亿用户。我们的Gemini模型是更多人使用我们产品以及他们更频繁使用我们产品的一个重要原因。

这一切都始于搜索，它比世界上任何其他产品都更能让更多人享受到生成式AI的好处。AI概览现在拥有超过25亿月活跃用户。而AI模式是一个启示，是我们对搜索有史以来最大的升级。人们喜欢它，在短短一年内，它已经超过了10亿月活跃用户。

当人们在搜索中使用我们AI驱动的功能时，他们更频繁地使用搜索。搜索已不再仅仅是单个查询，感觉更像是一场持续的对话，为你提供更深入的见解，并将你与广阔的互联网连接起来。

另一个我们一直在快速创新的领域是Gemini应用。去年在I/O大会上，Gemini应用拥有4亿月活跃用户。今天，我们已经超过了9亿，一年内翻了一番多。在同一时期，每日请求量增长了七倍多。

我们添加了许多独特的功能，例如个人智能，它使响应更加个性化和有用。迄今为止，已有超过500亿张图像使用我们的Nano Banana图像生成模型生成。它在过去一年中成为了一个突破性的明星，展示了世界上有多少潜在的创造力。

产品中的自然对话式AI

还有大量潜在的生产力有待释放。在过去的一年里，我们一直在将直接在谷歌产品内与Gemini进行更自然对话的能力引入。最近，地图获得了十年来最大的升级，包括一个名为“问问地图”的新功能。人们正在使用“问问地图”提出更复杂、更长的查询。

现在，我们将更自然的对话式AI带到更多产品中。

问问YouTube
人们每天都会来到YouTube提出很多问题。有很多很棒的视频，但有时很难知道从哪里开始。“问问YouTube”彻底重新构想了体验，使信息更易于消化和导航。你会看到最符合你兴趣的视频，最重要的是，它会直接跳转到与你最相关的视频部分。

我们现在开始测试“问问YouTube”，它将于今年夏天在美国广泛推出。

语音驱动的Docs Live
很多时候，我想以我说话的速度完成事情。由于我们音频模型的技术飞跃，这在今天变得更加可能。一项名为Docs Live的新功能将这一点提升到了另一个水平。以前用Gemini创建文档，你必须输入精确的提示。使用Docs Live，你可以口头“倾倒”你脑海中的任何想法，然后让Gemini完成剩下的工作。这是一个实时演示：

未来，你将能够直接用语音创建新文档并直接编辑它们。Docs Live将于今年夏天向订阅用户推出，强大的语音功能随后也将应用于Gmail和Keep。

支持大规模创新的基础设施

看到创新在我们产品中如此快速地推出，真是令人难以置信。为我们的用户支持所有这些规模，同时服务于世界各地的企业和开发者，需要对基础设施进行大规模投资。我们一直在为现在和未来进行投资。2022年，我们的年度资本支出为310亿美元。今年，我们预计这个数字将约为其六倍，大约在1800亿到1900亿美元之间。这项投资的一个关键部分是我们的定制芯片。

十年前，我们在I/O舞台上宣布了我们的第一个商用张量处理单元（TPU）。从那时起，我们改变了行业为AI构建的方式。我们最近在Cloud Next上宣布了我们的第八代TPU。我们首次采用了双芯片方法，为训练和推理提供了专门的架构：TPU 8t和8i。

TPU 8t针对大规模预训练进行了优化，其原始计算能力几乎是上一代的三倍。我们对训练基础设施采取了根本不同的方法。借助JAX和Pathways，我们的训练不再受单个大型数据中心限制的约束。相反，我们现在可以无缝地将训练分布到多个站点，在全球范围内跨超过100万个TPU进行扩展训练。这使我们能够创建世界上最大的训练集群。对于模型构建者来说，这意味着可以在数周而不是数月内训练出更大、能力更强的模型。

TPU 8i专为推理而设计。我们在每一步都显著提高了速度。因为如果我们在27年的搜索工作中学到了什么，那就是延迟至关重要。除了速度，我们也在考虑可持续地扩展。两款芯片都更加节能，每瓦性能提升高达两倍。

Gemini Omni

TPU的进步使我们能够在模型、编码和智能体方面取得计算进展。借助世界模型，AI正在从预测文本转向模拟现实。我们一直在努力突破这些模型的能力边界。

Gemini Omni是我们的新模型，能够从任何输入生成任何输出模态的样本。我们从视频输出开始，随着时间的推移，将支持图像和文本。这个新模型将Gemini的智能与我们的生成式媒体模型相结合——这是世界理解方面的一次巨大飞跃。我们正在推出Omni系列的第一个模型：Gemini Omni Flash。

Gemini Omni Flash从今天开始可用。你将能够在Gemini应用、Google Flow和YouTube Shorts上试用它。我们将在未来几周内通过API向开发者和企业客户推出。

新的SynthID更新和合作伙伴

随着生成式AI变得更好，对更高透明度的需求也在增加。研究表明，人们正确识别高质量深度伪造视频的时间只有大约四分之一。三年前，我们推出了SynthID，这是一种肉眼不可见的水印。自推出以来，SynthID现已为超过1000亿张图像和视频以及六万年的音频资产添加了水印。

数百万人正在Gemini应用中使用我们的SynthID检测器来验证AI生成的内容。现在我们更进一步，在产品中增加了内容凭证验证。这将向你显示内容的来源是AI还是相机，以及是否使用生成式AI工具进行了编辑。我们希望更多人能够轻松使用这些工具，因此我们将内容凭证和SynthID验证扩展到搜索和Chrome。

当然，这只有在更多合作伙伴决定为他们自己的AI生成内容添加水印时才能大规模生效。英伟达去年签约了SynthID。今天，我们非常激动地宣布，OpenAI、Kakao和Eleven Labs也采用了SynthID。很高兴看到跨行业的合作。我们期待扩展到更多合作伙伴，并为AI时代设定透明度标准。

Gemini 3.5 Flash

Gemini 3在几个月前发布，拥有完整的模型系列。这是我们迄今为止采用率最高的系列。我们很高兴看到开发者将Flash作为日常驱动模型，并使用Pro的深度推理和多模态能力构建令人难以置信的体验。我们一直在努力改进这些模型，特别关注智能体编码、长周期任务和现实世界工作流程。

今天，我们推出Gemini 3.5 Flash，这是我们系列中第一个将前沿智能与行动相结合的模型。我想强调两点：
- 与3.1 Pro相比，3.5 Flash在几乎所有基准测试中都表现更好。它在编码方面取得了巨大进步——看看GDPVal的非凡飞跃。这捕捉了许多现实世界中具有经济价值的任务。
- Gemini 3.5 Flash是一个非常强大的模型，处于前沿水平，可与最佳模型媲美，但它仍然非常快。这就是为什么当你查看智能与输出速度时，它在右上象限中独树一帜。在每秒输出Token方面，它比其他前沿模型快四倍。

新模型对我们谷歌内部来说是一个游戏规则改变者。我们一直在使用3.5 Flash与我们重新构想的智能体优先开发平台Antigravity一起，这极大地加速了我们的构建方式。三月份，我们在内部AI开发者工具中每天处理0.5万亿个Token，并且每几周就翻一番。现在，我们每天处理超过3万亿个Token。这种规模创造了一个强大的反馈循环，帮助我们改进3.5。

Flash的惊人之处在于，它以不到同类前沿模型一半的价格提供了前沿级别的能力。我们听说许多公司已经用完了他们全年的Token预算，而现在才五月。如果公司混合使用Flash和其他前沿模型，他们可以节省大量资金。具体来说，顶级公司每天处理约1万亿个Token。如果他们将其80%的工作负载从其他前沿模型转移到3.5 Flash，他们每年将节省超过10亿美元。这是他们可以重新投入到公司中的真正节省。

Gemini 3.5 Flash今天已向所有人开放，可通过我们的产品和API使用。我们也对Gemini 3.5 Pro感到兴奋。我们正在内部使用它，它显示出巨大的改进，并将于下个月推出。

Antigravity 2.0

我们还将3.5 Flash通过Antigravity提供给开发者。Antigravity正在扩展到编码环境之外，转变为一个开发和托管自主AI智能体集群的平台。这包括Antigravity 2.0，一个全新的独立桌面应用程序，作为智能体交互的中心枢纽，任何人都可以编排智能体来完成各种任务。我们还开发了一个更优化的Flash版本：不仅比其他前沿模型快4倍，而是快12倍。

Antigravity中的用户从今天开始就可以体验这种体验。在此处阅读更多关于Antigravity 2.0的信息。

Gemini Spark 是你的全天候智能体

Gemini 3.5和Antigravity正在开启智能体和智能体能力的新世界。我们向开发者和企业提供智能体已经有一段时间了。现在我们非常专注于安全可靠地将智能体的力量带给消费者，使其适用于每个人。今天，你将在我们的许多产品中看到智能体体验。

我特别对Gemini Spark感到兴奋，它是Gemini应用中的个人AI智能体，帮助你驾驭数字生活，在你的指示下代表你采取行动。它运行在谷歌云上的专用虚拟机上。它是全天候的，所以你不需要让笔记本电脑保持开机状态。它由Gemini 3.5和Google Antigravity框架驱动，使其能够在后台轻松执行长周期任务。

Spark将无缝集成各种工具，从我们自己的工具开始，并在未来几周内通过MCP集成第三方工具。你可以以最方便的方式与Spark合作：在Gemini应用中，或者很快通过电子邮件和聊天。在Android上，你将能够通过一个名为Android Halo的新UI空间查看Spark等智能体的实时更新和任务进度，该功能将于今年晚些时候推出。今年夏末，Spark将直接在Chrome中运行，充当你在网络上的智能体浏览器。

我们本周开始向受信任的测试者推出Gemini Spark，Beta版将于下周向美国的Google AI Ultra订阅用户推出。

智能体时代的搜索

Gemini Spark是首个由3.5模型和Antigravity实现的体验。这种组合为我们提供了新的方式来加速我们的使命，并从根本上改变我们的产品，使其更有帮助。随着我们进入这个智能体时代，搜索将比以往任何时候都更有帮助、更强大。今天，我们在搜索中引入了信息智能体。这些是你可以在后台设置、全天候工作的个性化AI智能体，用于在恰当时刻找到你需要的信息，并帮助你采取行动。信息智能体将于今年夏天推出，首先面向Google AI Pro和Ultra订阅用户。

我们构建真正智能体搜索的另一种方式是注入智能体编码能力。借助Gemini 3.5 Flash和Google Antigravity的力量，搜索将为你个人问题构建定制体验，例如动态布局和交互式视觉效果。这些生成式UI功能将于今年夏天免费向搜索中的所有用户提供。

对于需要你不断回访的长期运行任务，搜索可以更进一步——构建持久的、定制的仪表板或追踪器，你可以返回并取得进展。你可以将这些视为针对你特定任务的迷你应用。在接下来的几个月里，你将能够在搜索中直接使用Antigravity构建定制体验，首先面向美国的Google AI Pro和Ultra订阅用户。

来自我们智能体Gemini时代的更多内容

以下是我们在I/O上分享的其他内容：
- 每日简报是即将在Gemini应用中推出的另一个开箱即用的智能体。它为你提供个性化的摘要，并综合来自你的收件箱、日历和任务的信息，找出最重要的事项。它不仅仅是总结数据：它还在优先排序、组织和建议下一步行动，让你轻松采取行动。所有这些都包含在这个为快速浏览而构建的超级简洁的晨间简报中。
- Google Flow今天向所有人推出一个新的智能体，它可以根据你的输入规划并通过复杂任务进行推理，并在你的控制之下。它使用Gemini模型构建，带来了专业知识和对你项目的深刻理解，以帮助进行早期的头脑风暴、创建和编辑。你也可以在Flow中直接为任何创意工具进行“氛围编码”——例如设计视频效果、手绘动画或叠加文本的工具。
- Google Pics是我们新的AI图像创建和编辑工具，基于我们最新的Nano Banana模型构建，帮助你使用你想要的创意控制创建几乎任何东西。无论你是从空白画布开始设计还是编辑现有照片，Pics都将每个元素视为一个独立对象，而不是一个扁平的静态图像。这使你能够创建、替换或完善特定细节，从而将你的确切愿景变为现实。Google Pics现已向受信任的测试者提供，并将于今年夏末向Workspace中的Google AI Pro和Ultra订阅用户推出。
- 我们还分享了更多关于我们智能眼镜的信息，我们去年首次展示了它，包括提供语音帮助的音频眼镜和在你需要时显示所需信息的显示眼镜。两者都让你解放双手、保持抬头，只需询问Gemini即可获得帮助。音频眼镜将首先推出，于今年秋季晚些时候上市。
- Gemini for Science汇集了许多AI工具，以帮助加速科学研究。它建立在Gemini以及Deep Think和Deep Research的深度推理和研究能力之上，包括Labs上的新实验以及Science Skills，后者将Google Antigravity等智能体平台连接到超过30个主要生命科学数据库和工具。用户可以在Google Labs上表达兴趣以尝试Gemini for Science实验，而Science Skills今天已在Github上以及直接在Antigravity中可用。

当我们审视整个创新栈，从TPU 8i背后的基础设施到Gemini 3.5和Antigravity的前沿能力，很明显我们已坚定地进入了我们的智能体Gemini时代。我很兴奋地看到它将如何开启新的方式来加速我们的使命，并从根本上改变我们的产品，使其对世界各地的每个人都更有帮助。

在此处查看我们宣布的所有内容。

阅读原文

📚 相关主题 product