四个软件三个步骤搭建本地知识库

每家企业都有自己的很多历史资料，这些数据包含了大量的信息在里面，都是公司的财富，这些财富要想发挥作用，就要被引用，否则就是放在仓库里落灰发霉。想象一下，你有一堆宝贵的文档------技术手册、读书笔记、项目资料------每次想找个信息都要翻半天。如果能有一个AI助手，基于这些文档精准回答你的问题，那该多好？

这就是RAG（检索增强生成）系统的价值。而更棒的是，这一切都可以在你的电脑上本地运行，数据不外传，隐私有保障，而且完全免费。

本文将带你一步步搭建一个完整的本地知识库系统，涵盖从原理到实践的所有细节。

一、系统架构： 四 个组件如何协同工作？

各组件的职责详解

|-----------------|-------------|---------------------|-----------------------|
| 组件 | 角色 | 核心职责 | 技术本质 |
| AnythingLLM | 总指挥 | 流程编排、文档管理、界面交互 | RAG应用框架 |
| BGE-M3 | 图书管理员 | 文档向量化、语义检索 | 嵌入模型（Embedding Model） |
| Qwen2.5 | 首席专家 | 理解问题、生成答案 | 大语言模型（LLM） |
| Ollama | 引擎/基础设施 | 加载模型、分配显存、提供API | 模型运行框架 |

关键理解：这四个组件缺一不可。BGE-M3负责"找到"相关内容，Qwen2.5负责"写出"答案，AnythingLLM负责"协调"整个过程。Ollama 负责"运行"BGE-M3和Qwen2.5这两个模型。如果没有 Ollama，BGE-M3 和 Qwen2.5 只是两个下载到本地的模型文件，无法被 AnythingLLM 调用。

二、为什么选这些组件？

RAG应用我尝试过微软的GraphRAG与 AnythingLLM ，嵌入模型我尝试过 nomic-embed-text 与BGE-M3，以下的选择是我对比后的优选。

2.1 AnythingLLM ：最佳 RAG 框架

AnythingLLM是目前最成熟的开源RAG框架之一，优势明显：

开箱即用：提供完整的桌面应用，无需编程即可使用
多格式支持：支持PDF、Word、Markdown、网页链接等20+格式
本地优先：支持Ollama等本地模型，数据完全私有
工作区隔离：可为不同项目创建独立知识库

2.2 BGE-M3 ：中文嵌入模型的王者

BGE-M3（BAAI General Embedding M3）由北京智源研究院推出，是目前最适合中文场景的嵌入模型：

|----------|--------------------|------------------|
| 特性 | 说明 | 实际价值 |
| 多语言性 | 支持100+语言，中英文混合处理出色 | 解决"问A答B"的跨语言混淆问题 |
| 多粒度性 | 支持8192 token超长上下文 | 可一次性处理整本书籍章节 |
| 多功能性 | 稠密检索+稀疏检索+多向量检索 | 提高检索准确率，减少漏检 |

2.3 Qwen2.5 （千问）：本地部署的最佳选择

通义千问2.5是阿里巴巴开源的新一代大语言模型，是目前本地部署效果最好的中文模型之一：

|-----------|--------------------------|
| 特性 | 说明 |
| 中文原生 | 专为中文优化，理解能力远超同规模英文模型 |
| 超长上下文 | 支持128K token，可处理大部头书籍 |
| 开源免费 | 可完全本地部署，无API调用费用 |
| 轻量可选 | 提供7B、14B、72B等多种规格，适配不同硬件 |

2.4 Ollama ：模型运行引擎

Ollama 是整个系统的"基础设施"：

|----------------|------------------------|
| 特性 | 说明 |
| 统一管理 | 一个命令即可下载、管理、运行各种开源模型 |
| 硬件适配 | 自动处理GPU加速和CPU回退，无需手动配置 |
| API 兼容 | 提供OpenAI兼容的API接口，易于集成 |
| 轻量高效 | 资源占用小，启动速度快 |

三 、完整搭建流程

以下过程基于Mac OS系统：

3 .1 安装 Ollama 并下载模型

安装Ollama（macOS）

brew install ollama

或从官网下载：https://ollama.com/download

启动Ollama服务

ollama serve

下载BGE-M3嵌入模型（关键！）

ollama pull bge-m3:latest

下载Qwen2.5对话模型

ollama pull qwen2.5:7b

验证模型已安装

ollama list

应显示：bge-m3:latest 和 qwen2.5:7b

3 .2 安装 AnythingLLM

访问 AnythingLLM官网下载对应系统版本
安装并启动应用

3 .3 配置 AnythingLLM

步骤 1 ：配置嵌入模型（最重要！）

设置 → 嵌入模型提供商 → Ollama

Ollama Embedding Model: bge-m3:latest

Ollama Base URL: http://127.0.0.1:11434

文本块大小: 512

文本块重叠: 50

⚠️常见错误 ：千万不要用LLM （如qwen2.5）作为嵌入模型！这是导致检索效果差的头号原因。

步骤 2 ：配置对话模型

设置 → LLM首选项

提供商: Ollama

Ollama Base URL: http://127.0.0.1:11434

Ollama Model: qwen2.5:7b

Token上下文窗口: 128000

温度: 0.7

步骤 3 ：创建工作区

主界面 → 新建工作区 → 命名（如"COSMIC规模度量"）

步骤 4 ：上传文档

工作区界面 → 上传按钮 → 选择文档 → 保存和嵌入

支持格式：.txt、.md、.pdf、.docx、.csv、网页链接

3 .4 参数调优指南

|-----------|----------|------------|-----------------|
| 参数 | 推荐值 | 作用 | 调优方向 |
| 文本块大小 | 512-1024 | 每个知识碎片的大小 | 太小→语义断裂；太大→检索不准 |
| 文本块重叠 | 50-100 | 相邻块的重叠区域 | 保持语义连贯性 |
| 相似度阈值 | 0.5或"中" | 检索结果的严格程度 | 调低→召回更多；调高→更精准 |
| Top K | 4-6 | 每次检索返回的片段数 | 知识密集可适当增加 |

注意：修改文本块大小和重叠后，必须删除工作区内所有文档并重新上传才能生效。

现在，你已经拥有了一个完全属于自己的、永不联网的智能知识库。 所有数据都在你的电脑上，所有处理都在本地完成，再也不用担心隐私泄露或API费用了。

最后，请务必牢记一点：所有工具系统的"智商"，都建立在输入资料的质量之上。知识库中原始资料的正确性、实时性，与上述工具系统本身同样重要，甚至更为关键。再强大的AI，也无法从错误或过时的信息中提炼出真正有价值的答案。工具再好，也怕"垃圾进，垃圾出"。

四个软件三个步骤搭建本地知识库

RAG应用我尝试过微软的GraphRAG与 AnythingLLM ， 嵌入模型我尝试过 nomic-embed-text 与BGE-M3，以下的选择是我对比后的优选。

RAG应用我尝试过微软的GraphRAG与 AnythingLLM ，嵌入模型我尝试过 nomic-embed-text 与BGE-M3，以下的选择是我对比后的优选。