AI Pulse

浏览器里跑通了整套AI代理,连数据都不用出你的电脑

浏览器里跑通了整套AI代理,连数据都不用出你的电脑

你正在查机票,页面弹出一堆筛选条件和隐藏的‘加载更多’按钮;你刚填完一半的退税表单,突然想确认某个字段是否必填;你打开一份PDF转成的网页版合同,需要快速定位‘不可抗力’条款在哪。这些事,过去得靠人盯、手动翻、反复试错。

现在,一个Chrome扩展能在你当前页面上直接完成:它把Google最新发布的Gemma 4模型(E2B或E4B版本)完整加载进浏览器,全程通过WebGPU在本地显卡上运行——没有远程服务器,没有API密钥,没有数据上传,连网络请求都省了。 这意味着:你问它的每一句话、让它点的每一个元素、填的每一条信息,从始至终只存在你自己的设备内存里。

它不是简单问答。它有三重身份:内容脚本负责操作DOM(读文字、点按钮、输内容)、服务工作线程接管截图和JS执行、离屏文档承载整个模型与推理循环。三者之间只传结构化消息,不共享内存,也不依赖外部状态。 这意味着:哪怕网页断网、公司禁用外部API、或你正处理未公开的内部系统,它依然能响应。

模型体积不小(E2B约500MB,E4B约1.5GB),但只在首次运行时下载缓存;之后每次启动,它都在几秒内完成加载并开始流式输出token——不是等整句生成完才显示,而是像真人打字一样逐字浮现。 这意味着:交互延迟感消失了,你不再是在‘提交问题→等待→接收答案’,而是在‘边问边改、边看边调’中推进任务。

别人还在争论‘大模型该不该上云’,这个项目已经把推理、工具调用、UI交互全塞进浏览器沙盒里,且所有核心逻辑(agent/目录)零依赖、可抽离、能复用。 这意味着:这不是一次性的玩具,而是一条被验证可行的路径——本地AI代理,不需要新硬件,不需要新操作系统,只需要今天就能更新的Chrome。

下次你看到一个‘AI浏览器插件’,不妨先看它有没有‘离屏文档’这个模块。

📎 阅读原文 · GitHub