浏览器将内置AI助手,离线也能用文字图片语音
Chrome 正在把 AI 直接塞进浏览器。Prompt API 调用的是 Google 的 Gemini Nano 模型,在本地运行,下载一次模型后你可以离线使用它。
但前提是你的电脑够格。硬件门槛不低:系统需要 Windows 10/11、macOS 13+、Linux 或 ChromeOS(Chromebook Plus);空闲存储至少 22GB;GPU 显存必须超过 4GB,如果只用 CPU,得 16GB 内存加 4 核以上。手机和平板目前不支持。首次使用前要下载模型,还得同意 Google 的生成式 AI 禁止使用政策。
输入方面很自由。API 支持文本、图片(HTMLImageElement、SVGImageElement 等多种格式)和音频(AudioBuffer 等)。输出目前只支持文字——你能对着摄像头拍张照片让 AI 描述,或用语音提问,但回答只能以文字呈现。
调用方式有两种:prompt() 一次性返回完整回答,promptStreaming() 逐字输出,交互更流畅。它还支持结构化输出,开发者可以传入 JSON Schema 约束返回格式。会话管理方面,每个会话有上下文窗口,超限时会丢弃早期对话(系统提示除外),用户可以克隆会话以分支讨论,或调用 destroy() 释放资源。
安全性上,API 默认只对顶层窗口和同源 iframe 开放,跨域 iframe 可以通过 Permission Policy 的 allow 属性授权。目前不支持 Web Workers,后台脚本无法直接调用。Google 从 Chrome 138 开始开放 Origin Trial,针对采样参数的 Origin Trial 从 Chrome 148 开始。官方提供了多个演示:Prompt API playground、音频录制交互、Canvas 图片处理,以及一个 Chrome 扩展。
还有一些未明确的问题:模型下载的具体大小没给出来,稳定版本何时发布不清楚,离线使用是否完全不需要网络——原文没说清。隐私方面,用户数据会不会被上传也没有交代。
Google 正在把 AI 能力变成浏览器的原生功能,就像网页渲染一样。但高硬件配置要求和对模型下载的依赖,让这个能力离“人人可用”还有距离。