LLM Wiki - 本地知识库管理系统

LLM Wiki - 本地知识库管理系统

基于 Andrej Karpathy 提出的 LLM Wiki 理念,这是一个由 AI 自动维护的结构化本地 Markdown 知识库。

核心理念

让大模型在后台持续构建、维护一个结构化、相互链接的本地 Markdown 知识库,而不是在每次提问时临时去海量原始数据里翻找。

与传统 RAG 的区别

维度 传统 RAG LLM Wiki
知识处理时机 查询时(每次重新处理) 摄入时(只处理一次)
交叉引用 临时发现 预先构建并持续维护
矛盾检测 可能忽略 主动标记
知识积累 无(每次从零开始) 复利式增长
输出格式 聊天回复(转瞬即逝) 持久化的 Markdown 文件
维护者 系统黑箱 LLM(透明、可编辑)

架构设计

三层架构

复制代码
┌─────────────────┐
│ Raw Sources     │ ← 人类策划,LLM 只读
│ (原始源)         │
└────────┬────────┘
         │ 摄入↓
┌─────────────────┐
│ The Wiki        │ ← LLM 生成和维护
│ (知识库)         │
└────────┬────────┘
         │ 查询↓
┌─────────────────┐
│ The Schema      │ ← 人类+LLM 共同演化
│ (配置指令)       │
└─────────────────┘

目录结构

复制代码
llm-wiki/
├── AGENTS.md                    # Schema:LLM 的行为规范
├── README.md                    # 本文件:使用指南
├── raw/                         # 原始素材(人类写入,LLM 只读)
│   ├── 00-Inbox/                # 快速收集箱
│   ├── 01-Daily/                # 每日笔记
│   ├── 10-Research/             # 研究资料
│   ├── 20-Tech/                 # 技术文档
│   ├── 30-Business/             # 商业资料
│   ├── 80-Templates/            # 笔记模板
│   ├── 90-Attachments/          # 附件
│   └── 95-Archive/              # 归档区
├── wiki/                        # LLM 编译产物(LLM 读写)
│   ├── index.md                 # 全局索引
│   ├── log.md                   # 操作日志
│   ├── entities/                # 实体页
│   ├── concepts/                # 概念页
│   ├── sources/                 # 源摘要页
│   ├── comparisons/             # 对比分析页
│   └── synthesis/               # 综合分析页
└── output/                      # 成品输出
    ├── posts/                   # 博客文章
    ├── reports/                 # 研究报告
    ├── slides/                  # 演示文稿
    └── tutorials/               # 教程、指南

快速开始

第一步:添加原始文档

将你的文档(文章、论文、笔记等)放入 raw/ 目录的对应子文件夹:

  • raw/00-Inbox/ - 快速收集,稍后整理
  • raw/10-Research/ - 研究资料
  • raw/20-Tech/ - 技术文档
  • raw/30-Business/ - 商业资料

第二步:让 AI 消化文档

在对话中告诉 AI:

复制代码
请消化这篇文章:[粘贴文章内容或提供文件路径]

或者:

复制代码
请消化 raw/10-Research/ 目录下的所有文档

第三步:查询知识

当知识库中有内容后,你可以提问:

复制代码
什么是 Transformer 架构?
飞行器可靠性有哪些主要方法?
对比一下 RAG 和 LLM Wiki 的区别

第四步:生成输出

让 AI 从 wiki 中提炼内容:

复制代码
基于现有知识,写一篇关于 Transformer 的技术博客
生成一份竞品分析报告
创建一个教程

核心工作流

1. 摄入(Ingest)

当你添加新文档时,AI 会:

  1. 读取源内容
  2. 提取关键信息
  3. 创建源摘要页(wiki/sources/
  4. 创建/更新概念页(wiki/concepts/
  5. 创建/更新实体页(wiki/entities/
  6. 建立交叉引用([[双链]]
  7. 标记矛盾信息
  8. 更新索引和日志

一次摄入可能更新 10-15 个 wiki 页面。

2. 查询(Query)

当你提问时,AI 会:

  1. 先读 wiki/index.md 找相关页面
  2. 读取相关概念页和源摘要
  3. 综合回答,带引用
  4. 如果回答质量高,可存为新的综合页

3. 维护(Lint)

定期检查知识库健康:

复制代码
请检查一下知识库的健康状况

AI 会:

  1. 检查矛盾(不同源是否有冲突)
  2. 检查过时(新源是否使旧声明失效)
  3. 检查孤立(是否有页面无入链)
  4. 检查缺失(是否有重要概念无独立页面)
  5. 建议新源(基于知识缺口推荐搜索方向)

使用场景

研究者:论文综述自动化

  1. 导入 100 篇 PDF 到 raw/10-Research/
  2. AI 自动生成"领域演进时间线"
  3. 矛盾结论自动标红
  4. 自动生成综述报告

学习者:书籍知识体系化

  1. 每章导入到 raw/00-Inbox/
  2. 自动生成概念页
  3. 图谱揭示逻辑链
  4. 生成学习笔记

知识工作者:竞品分析动态更新

  1. 导入会议记录和客户反馈
  2. 自动维护"竞品功能对比表"
  3. 新功能上线?AI 立即更新对比矩阵
  4. 生成分析报告

页面格式

所有 wiki 页面都包含:

  • YAML Frontmatter:标题、描述、标签、分类、时间戳
  • 双链语法[[页面名]] 实现交叉引用
  • 结构化内容:概述、要点、详细内容、相关概念
  • 来源追溯:每个声明都可以追溯到原始来源

标签体系

领域标签

研究 技术 商业 学习 理论 实践

状态标签

待完善 待验证 核心 边缘

类型标签

人物 机构 工具 方法 事件

推荐工具

Obsidian(强烈推荐)

  • 纯本地存储,所有数据都是 .md 文件
  • 原生支持 [[双链]] 语法
  • 图谱视图可视化知识结构
  • 插件生态(Dataview、Web Clipper 等)

配置方法:

  1. 下载并安装 Obsidian
  2. 选择 f:\llm-wiki 作为 Vault
  3. 启用 Daily notes 插件
  4. 安装 Dataview 插件(可选)

VS Code

  • 安装 Markdown 插件
  • 安装 Markdown Preview Enhanced
  • 使用搜索功能查找页面

最佳实践

  1. 保持 raw/ 的整洁:定期整理收集箱,归档旧文件
  2. 定期查询:通过提问发现知识缺口
  3. 定期维护:每周让 AI 检查知识库健康
  4. 善用输出:将 wiki 内容转化为文章、报告、教程
  5. 版本控制:使用 Git 管理知识库版本(可选)

高级技巧

批量摄入

复制代码
请批量消化 raw/20-Tech/ 目录下的所有文档

主题综合

复制代码
基于现有知识,综合一下关于"机器学习"的所有内容

知识缺口分析

复制代码
分析一下当前知识库的缺口,建议我应该摄入哪些方面的资料?

生成特定格式输出

复制代码
基于 wiki 中关于 Docker 的内容,生成一份教程

注意事项

  1. 永远不要手动修改 wiki/ 目录的文件(除非你要纠正 AI 的错误)
  2. raw/ 是你的领地,AI 绝不修改
  3. 保持文档质量:输入垃圾,输出也是垃圾
  4. 定期备份:虽然都是本地文件,但建议定期备份
  5. 耐心:知识库需要时间积累,不要期望一次摄入就完美

扩展阅读

许可

本项目采用本地知识库管理理念,可自由使用和修改。

相关推荐
马***41115 小时前
适配成人英语学习痛点,打造落地性强的学习辅助方式
人工智能·学习
夜焱辰15 小时前
浏览器端 Agent 的文件版本管理:不用 Git,基于 OPFS + SQLite 自己造了一个
前端·人工智能
Ricky055315 小时前
CTRL-WORLD:一种用于机器人操控的可控生成世界模型(中美2025年联合研究)
人工智能·机器人·世界模型
jeffer_liu15 小时前
Spring AI 生产级实战:工具调用
java·人工智能·后端·spring·ai编程
阿乔外贸日记15 小时前
2026尼日利亚五项清关政策更新,拉高能源装备进口综合成本
大数据·人工智能·搜索引擎·智能手机·云计算·能源
民乐团扒谱机16 小时前
【AI笔记】短时纯音时长对音高感知偏移效应研究综述
人工智能·笔记
侃谈科技圈16 小时前
破除数据中台落地困境:2026数据治理平台差异化能力与选型决策指南
大数据·人工智能
大象说16 小时前
Python多进程共享队列无报错僵死 120G Nginx访问日志清洗踩坑全记录
人工智能·自然语言处理
Cosolar16 小时前
AutoGen 精通教程:从零到企业级多 Agent 系统架构师
人工智能·后端·面试
甲维斯17 小时前
Claude Code 省钱小妙招!200K和自动压缩
人工智能