一个API搞定聊天、画图、后台任务，谷歌统一AI接口来了

📅 2026 年 6 月 24 日 📖 约 4 分钟 @GoogleAIStudio on 𝕏 API开发Gemini谷歌AI

谷歌推出了Interactions API，作为Gemini模型和智能体的统一入口。一个接口就能处理文本生成、流式传输、多轮对话、多模态输入、图像生成、结构化输出、工具使用、函数调用、托管智能体和后台执行。以前每种能力都要单独对接一个API，现在一个就够了。

在Google AI Studio免费创建API密钥就能直接用。

文本聊天是最基础的用法。设成stream: true再遍历事件，就能实现逐字输出的效果——每个step.delta里type === "text“的块可以立刻显示，用户不用等完整回复。多轮对话传previous_interaction_id就能让服务器帮你管理历史，或者设store: false自己管也行。

Gemini原生支持图像、音频、视频和文档。上传文件后就能跟文本一起处理。你拍张菜单照片就能让AI翻译，上传录音让它总结也行。图像生成用gemini-3.1-flash-image模型（内部代号Nano Banana 2），语音生成（多说话人TTS）和音乐生成（Lyria 3）都一样。同一个API不光能生成图像，还能生成语音和音乐，内容创作者一站式搞定多种媒体。

内置工具包括Google搜索、代码执行、URL上下文、文件搜索、Google地图、计算机使用，而且一次请求能混着用多个工具。AI可以调Google搜索拿实时信息，或者用地图、代码执行来回答问题。函数调用时，模型返回status: ”requires_action“和function_call步骤，你执行本地代码后提交function_result步骤回去就行。

托管智能体可以在远程沙箱里跑，支持代码执行、网页浏览和文件管理。传agent参数并设environment: ”remote"就能用。需要长时间处理的任务，设background: true，调用立刻返回，你轮询拿结果。比如分析大量文档，提交后先干别的事，稍后再回来看。

这个Interactions API取代了之前的generateContent方法，迁移指南已经发布。目前还没说清楚定价细节、免费层限制、远程沙箱的安全约束、后台任务最长能跑多久，以及是否支持自定义模型微调。

阅读原文

📚 相关主题 Gemini

📬 订阅 AI Pulse