浏览器里跑通了整套AI代理，连数据都不用出你的电脑

📅 2026 年 4 月 7 日 📖 约 3 分钟 GitHub AI开源工程

你正在查机票，页面弹出一堆筛选条件和隐藏的‘加载更多’按钮；你刚填完一半的退税表单，突然想确认某个字段是否必填；你打开一份PDF转成的网页版合同，需要快速定位‘不可抗力’条款在哪。这些事，过去得靠人盯、手动翻、反复试错。

现在，一个Chrome扩展能在你当前页面上直接完成：它把Google最新发布的Gemma 4模型（E2B或E4B版本）完整加载进浏览器，全程通过WebGPU在本地显卡上运行——没有远程服务器，没有API密钥，没有数据上传，连网络请求都省了。这意味着：你问它的每一句话、让它点的每一个元素、填的每一条信息，从始至终只存在你自己的设备内存里。

它不是简单问答。它有三重身份：内容脚本负责操作DOM（读文字、点按钮、输内容）、服务工作线程接管截图和JS执行、离屏文档承载整个模型与推理循环。三者之间只传结构化消息，不共享内存，也不依赖外部状态。这意味着：哪怕网页断网、公司禁用外部API、或你正处理未公开的内部系统，它依然能响应。

模型体积不小（E2B约500MB，E4B约1.5GB），但只在首次运行时下载缓存；之后每次启动，它都在几秒内完成加载并开始流式输出token——不是等整句生成完才显示，而是像真人打字一样逐字浮现。这意味着：交互延迟感消失了，你不再是在‘提交问题→等待→接收答案’，而是在‘边问边改、边看边调’中推进任务。

别人还在争论‘大模型该不该上云’，这个项目已经把推理、工具调用、UI交互全塞进浏览器沙盒里，且所有核心逻辑（agent/目录）零依赖、可抽离、能复用。这意味着：这不是一次性的玩具，而是一条被验证可行的路径——本地AI代理，不需要新硬件，不需要新操作系统，只需要今天就能更新的Chrome。

下次你看到一个‘AI浏览器插件’，不妨先看它有没有‘离屏文档’这个模块。

阅读原文

📚 相关主题开源工程

📬 订阅 AI Pulse