AI Pulse

本地AI知识库:断网也能用,8GB内存就能跑

本地AI知识库:断网也能用,8GB内存就能跑

如果你在意隐私,或者想在没有网络的环境下使用自己的文档,一套完全运行在本地的知识库是可行的方案。它的核心是检索增强生成(RAG)技术——不是把文档喂给模型训练,而是在每次提问时,系统从你的文档中检索相关片段,再交给模型回答。

这套系统由四个组件构成。Ollama负责在电脑上运行大模型,Open WebUI提供聊天界面和知识库管理,向量模型把文档片段转换成数字向量,向量数据库则保存这些向量并在提问时找出相关内容。真正的工作流程是:文档 → 提取文字 → 切成小块 → 生成向量 → 检索相关片段 → 交给模型回答。

Open WebUI的Knowledge功能支持两种模式。RAG模式按相似度检索最相关的片段,Full Context模式则把短文全文放进上下文,适合篇幅较短的文档。

### 硬件门槛并不高
你不需要一台昂贵的服务器。8GB内存的电脑就能跑起qwen3.5:4b模型,但速度和上下文长度有限。16GB内存优先选qwen3.5:9b,中文问答更稳。如果内存有24GB到32GB,可以尝试qwen3.5:27b,不过仍然要给系统和向量模型留出空间。

截至2026年6月,qwen3.5:4b的模型文件约3.4GB,9b约6.6GB,27b约17GB。统一使用对话模型qwen3.5:4b和向量模型qwen3-embedding:0.6b。Ollama官方支持macOS、Windows和Linux,默认API地址是http://localhost:11434。

### 安装需要几步命令行
Ollama安装完成后,通过Docker运行Open WebUI。启动命令包含只允许本机访问(127.0.0.1:3000)、连接Ollama、指定向量模型等参数。首次进入需要创建本地账号——这个账号只用于区分本机用户,不等于注册云服务。创建后建议先到管理设置中关闭公开注册。

首次安装和下载模型需要联网。等镜像与模型全部下载完成,并且没有启用外部服务后,日常问答可以在断网环境中进行。

### 上传文档与设置参数
向量模型设置中,推荐Chunk Size(切块大小)为800,Chunk Overlap(相邻段重叠)为120,Top K(检索片段数)为5。文档会被切成小段,每段默认800字,相邻段有120字重叠,每次提问取最相关的5段。修改切块方式或向量模型后,旧文档不会自动重建,需要执行重新索引。

知识库适合需要跨多次对话重复使用的资料;只问一次的文件,直接拖进当前对话即可。建议先准备3到5份结构清楚的文档测试,确认每份文档都能提取出文字,再分批增加资料。

对话中使用知识库时,在输入框中输入#选择创建的知识库,部分版本也可以从附件或知识按钮中选择。约束提示词很重要:只根据已连接的知识库回答,每个关键结论注明来源文件,如果知识库没有足够证据,明确说“没有找到”,不要用常识补全。

### 验收和常见的坑
至少测试五类问题:原文明确写过的、换一种说法的、跨文件合并的、存在冲突的、资料中不存在的。很多知识库失败是因为模型在编造答案,测试“不知道”的能力比测试它知道什么更重要。

扫描版PDF需要先做OCR,如果鼠标无法选中PDF里的文字,直接上传后系统可能读到空白或乱码。另外,建议一个文件只讲一类事情,标题写完整,保留版本和日期。文档质量直接影响检索效果,花时间整理文档比换更大的模型更有效。

常见故障包括:Open WebUI里没有模型、文档上传成功但检索不到、中文检索差、回答只引用前半份文档、回答慢、3000端口被占用。部分Ollama模型默认运行参数的上下文可能只有2048 token,复杂RAG任务往往不够,可到模型高级参数中先提高到8192,内存允许时再测试16384。

### 隐私检查与维护
要让资料不离开电脑,至少检查这几项:对话模型选Ollama本地版,别选带cloud的。Embedding Engine用本地Ollama。关掉联网搜索。别连OpenAI这种云端API。OCR和文档解析别调远程服务。Open WebUI只监听127.0.0.1。关闭公开注册。系统硬盘加密。备份文件也加密。

知识库数据保存在Docker volume中,备份命令使用docker run和tar。更新Open WebUI前先备份,然后pull新镜像、停止并删除旧容器、重新运行docker run命令。

### 本地方案不是万能
如果你的电脑内存很小又需要强推理,或者多人同时使用需要权限审计,或者资料本身就是公开内容没有隐私负担,又或者需要极强OCR、复杂表格解析或超大规模检索——这些情况下云服务可能更省事。本地知识库适合愿意花时间维护模型、容器、备份和版本升级的人。

目前材料没有明确说明Open WebUI的Full Context模式最大支持多长的文档,也不清楚qwen3-embedding:0.6b与bge-m3在中文检索上的具体性能差距。如果文档数量超过100份,检索速度和准确率会下降多少,同样没有数据。多用户权限管理(如不同用户只能访问特定知识库)是否支持,也尚未确认。在Windows上使用Docker Desktop时,Ollama的GPU加速如何配置,仍是一个常见但未解答的问题。

阅读原文
📚 相关主题 教程隐私

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部