本地AI知识库：断网也能用，8GB内存就能跑

📅 2026 年 6 月 30 日 📖 约 10 分钟 @VincentLogic on 𝕏 AI教程隐私

如果你在意隐私，或者想在没有网络的环境下使用自己的文档，一套完全运行在本地的知识库是可行的方案。它的核心是检索增强生成（RAG）技术——不是把文档喂给模型训练，而是在每次提问时，系统从你的文档中检索相关片段，再交给模型回答。

这套系统由四个组件构成。Ollama负责在电脑上运行大模型，Open WebUI提供聊天界面和知识库管理，向量模型把文档片段转换成数字向量，向量数据库则保存这些向量并在提问时找出相关内容。真正的工作流程是：文档 → 提取文字 → 切成小块 → 生成向量 → 检索相关片段 → 交给模型回答。

Open WebUI的Knowledge功能支持两种模式。RAG模式按相似度检索最相关的片段，Full Context模式则把短文全文放进上下文，适合篇幅较短的文档。

### 硬件门槛并不高
你不需要一台昂贵的服务器。8GB内存的电脑就能跑起qwen3.5:4b模型，但速度和上下文长度有限。16GB内存优先选qwen3.5:9b，中文问答更稳。如果内存有24GB到32GB，可以尝试qwen3.5:27b，不过仍然要给系统和向量模型留出空间。

截至2026年6月，qwen3.5:4b的模型文件约3.4GB，9b约6.6GB，27b约17GB。统一使用对话模型qwen3.5:4b和向量模型qwen3-embedding:0.6b。Ollama官方支持macOS、Windows和Linux，默认API地址是http://localhost:11434。

### 安装需要几步命令行
Ollama安装完成后，通过Docker运行Open WebUI。启动命令包含只允许本机访问（127.0.0.1:3000）、连接Ollama、指定向量模型等参数。首次进入需要创建本地账号——这个账号只用于区分本机用户，不等于注册云服务。创建后建议先到管理设置中关闭公开注册。

首次安装和下载模型需要联网。等镜像与模型全部下载完成，并且没有启用外部服务后，日常问答可以在断网环境中进行。

### 上传文档与设置参数
向量模型设置中，推荐Chunk Size（切块大小）为800，Chunk Overlap（相邻段重叠）为120，Top K（检索片段数）为5。文档会被切成小段，每段默认800字，相邻段有120字重叠，每次提问取最相关的5段。修改切块方式或向量模型后，旧文档不会自动重建，需要执行重新索引。

知识库适合需要跨多次对话重复使用的资料；只问一次的文件，直接拖进当前对话即可。建议先准备3到5份结构清楚的文档测试，确认每份文档都能提取出文字，再分批增加资料。

对话中使用知识库时，在输入框中输入#选择创建的知识库，部分版本也可以从附件或知识按钮中选择。约束提示词很重要：只根据已连接的知识库回答，每个关键结论注明来源文件，如果知识库没有足够证据，明确说“没有找到”，不要用常识补全。

### 验收和常见的坑
至少测试五类问题：原文明确写过的、换一种说法的、跨文件合并的、存在冲突的、资料中不存在的。很多知识库失败是因为模型在编造答案，测试“不知道”的能力比测试它知道什么更重要。

扫描版PDF需要先做OCR，如果鼠标无法选中PDF里的文字，直接上传后系统可能读到空白或乱码。另外，建议一个文件只讲一类事情，标题写完整，保留版本和日期。文档质量直接影响检索效果，花时间整理文档比换更大的模型更有效。

常见故障包括：Open WebUI里没有模型、文档上传成功但检索不到、中文检索差、回答只引用前半份文档、回答慢、3000端口被占用。部分Ollama模型默认运行参数的上下文可能只有2048 token，复杂RAG任务往往不够，可到模型高级参数中先提高到8192，内存允许时再测试16384。

### 隐私检查与维护
要让资料不离开电脑，至少检查这几项：对话模型选Ollama本地版，别选带cloud的。Embedding Engine用本地Ollama。关掉联网搜索。别连OpenAI这种云端API。OCR和文档解析别调远程服务。Open WebUI只监听127.0.0.1。关闭公开注册。系统硬盘加密。备份文件也加密。

知识库数据保存在Docker volume中，备份命令使用docker run和tar。更新Open WebUI前先备份，然后pull新镜像、停止并删除旧容器、重新运行docker run命令。

### 本地方案不是万能
如果你的电脑内存很小又需要强推理，或者多人同时使用需要权限审计，或者资料本身就是公开内容没有隐私负担，又或者需要极强OCR、复杂表格解析或超大规模检索——这些情况下云服务可能更省事。本地知识库适合愿意花时间维护模型、容器、备份和版本升级的人。

目前材料没有明确说明Open WebUI的Full Context模式最大支持多长的文档，也不清楚qwen3-embedding:0.6b与bge-m3在中文检索上的具体性能差距。如果文档数量超过100份，检索速度和准确率会下降多少，同样没有数据。多用户权限管理（如不同用户只能访问特定知识库）是否支持，也尚未确认。在Windows上使用Docker Desktop时，Ollama的GPU加速如何配置，仍是一个常见但未解答的问题。

阅读原文

📚 相关主题教程隐私

📬 订阅 AI Pulse