一句话让AI在云端自动完成任务,后台运行不用等
Google 今天宣布,Interactions API 正式上线(GA),成为与 Gemini 模型和智能体交互的主要接口。该 API 于 2025 年 12 月进入公开测试版,稳定版新增了多项开发者要求的能力。
新 API 的核心是 Managed Agents:一次调用就能在远程 Linux 沙箱中创建一个智能体,它可以在里面推理、执行代码、浏览网页、管理文件。默认智能体叫 Antigravity,开发者也可以自定义指令、技能和数据源。GA 版本增加的后台执行,设置 background=True 就能异步运行,结果稍后返回。架构从“角色”简化为“步骤”,每个动作用独立类型标记,开发复杂度下降了。
工具调用的改进允许混合使用 Google 搜索、Google 地图等内置工具和自定义函数,工具结果可以同时返回图像和文本。Deep Research 功能升级,现在提供两种智能体版本(侧重速度或深度),支持协作规划、原生图表和信息图,并能处理图像、PDF、音频等多模态内容。媒体生成方面,新 API 集成了 Nano Banana 2 图像生成、Lyria 3 音乐生成以及多说话人 TTS 语音,一个请求就能同时生成图片和音乐。
Google 表示,现在大多数开发者已经使用编码智能体(如 Antigravity)来构建应用。为了让这些智能体及时了解 API 的最佳实践,Google 专门构建了 gemini-interactions-api Skill,将流式传输、函数调用、结构化输出、Deep Research 等模式注入智能体的上下文。Interactions API 可通过 Python 和 JavaScript SDK 使用,并已集成到 LiteLLM、Eigent 和 Agno 等合作伙伴平台。
API 新增了 Flex 和 Priority 两个层级,Flex 可降低 50% 成本,Priority 针对低延迟优化。付费层的交互记录保留 55 天,便于错误排查。旧版 generateContent API 仍然受支持,未来也会继续接收主流 Gemini 模型,但前沿能力——长时间运行模型和智能体——将只会出现在 Interactions API 上。Google 已发布迁移指南,帮助开发者逐步切换。Gemini Omni 能力即将推出,但具体细节和时间尚未公布。
Interactions API 现已取代 generateContent API 成为 Google AI Studio、Gemini API 和所有文档的默认接口,文档提供了切换回旧格式的开关。