AI Pulse

一个API搞定聊天、画图、后台任务,谷歌统一AI接口来了

一个API搞定聊天、画图、后台任务,谷歌统一AI接口来了

谷歌推出了Interactions API,作为Gemini模型和智能体的统一入口。一个接口就能处理文本生成、流式传输、多轮对话、多模态输入、图像生成、结构化输出、工具使用、函数调用、托管智能体和后台执行。以前每种能力都要单独对接一个API,现在一个就够了。

在Google AI Studio免费创建API密钥就能直接用。

文本聊天是最基础的用法。设成stream: true再遍历事件,就能实现逐字输出的效果——每个step.delta里type === "text“的块可以立刻显示,用户不用等完整回复。多轮对话传previous_interaction_id就能让服务器帮你管理历史,或者设store: false自己管也行。

Gemini原生支持图像、音频、视频和文档。上传文件后就能跟文本一起处理。你拍张菜单照片就能让AI翻译,上传录音让它总结也行。图像生成用gemini-3.1-flash-image模型(内部代号Nano Banana 2),语音生成(多说话人TTS)和音乐生成(Lyria 3)都一样。同一个API不光能生成图像,还能生成语音和音乐,内容创作者一站式搞定多种媒体。

内置工具包括Google搜索、代码执行、URL上下文、文件搜索、Google地图、计算机使用,而且一次请求能混着用多个工具。AI可以调Google搜索拿实时信息,或者用地图、代码执行来回答问题。函数调用时,模型返回status: ”requires_action“和function_call步骤,你执行本地代码后提交function_result步骤回去就行。

托管智能体可以在远程沙箱里跑,支持代码执行、网页浏览和文件管理。传agent参数并设environment: ”remote"就能用。需要长时间处理的任务,设background: true,调用立刻返回,你轮询拿结果。比如分析大量文档,提交后先干别的事,稍后再回来看。

这个Interactions API取代了之前的generateContent方法,迁移指南已经发布。目前还没说清楚定价细节、免费层限制、远程沙箱的安全约束、后台任务最长能跑多久,以及是否支持自定义模型微调。

阅读原文
📚 相关主题 Gemini

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部