LLM Wiki - 本地知识库管理系统

LLM Wiki - 本地知识库管理系统

基于 Andrej Karpathy 提出的 LLM Wiki 理念,这是一个由 AI 自动维护的结构化本地 Markdown 知识库。

核心理念

让大模型在后台持续构建、维护一个结构化、相互链接的本地 Markdown 知识库,而不是在每次提问时临时去海量原始数据里翻找。

与传统 RAG 的区别

维度 传统 RAG LLM Wiki
知识处理时机 查询时(每次重新处理) 摄入时(只处理一次)
交叉引用 临时发现 预先构建并持续维护
矛盾检测 可能忽略 主动标记
知识积累 无(每次从零开始) 复利式增长
输出格式 聊天回复(转瞬即逝) 持久化的 Markdown 文件
维护者 系统黑箱 LLM(透明、可编辑)

架构设计

三层架构

复制代码
┌─────────────────┐
│ Raw Sources     │ ← 人类策划,LLM 只读
│ (原始源)         │
└────────┬────────┘
         │ 摄入↓
┌─────────────────┐
│ The Wiki        │ ← LLM 生成和维护
│ (知识库)         │
└────────┬────────┘
         │ 查询↓
┌─────────────────┐
│ The Schema      │ ← 人类+LLM 共同演化
│ (配置指令)       │
└─────────────────┘

目录结构

复制代码
llm-wiki/
├── AGENTS.md                    # Schema:LLM 的行为规范
├── README.md                    # 本文件:使用指南
├── raw/                         # 原始素材(人类写入,LLM 只读)
│   ├── 00-Inbox/                # 快速收集箱
│   ├── 01-Daily/                # 每日笔记
│   ├── 10-Research/             # 研究资料
│   ├── 20-Tech/                 # 技术文档
│   ├── 30-Business/             # 商业资料
│   ├── 80-Templates/            # 笔记模板
│   ├── 90-Attachments/          # 附件
│   └── 95-Archive/              # 归档区
├── wiki/                        # LLM 编译产物(LLM 读写)
│   ├── index.md                 # 全局索引
│   ├── log.md                   # 操作日志
│   ├── entities/                # 实体页
│   ├── concepts/                # 概念页
│   ├── sources/                 # 源摘要页
│   ├── comparisons/             # 对比分析页
│   └── synthesis/               # 综合分析页
└── output/                      # 成品输出
    ├── posts/                   # 博客文章
    ├── reports/                 # 研究报告
    ├── slides/                  # 演示文稿
    └── tutorials/               # 教程、指南

快速开始

第一步:添加原始文档

将你的文档(文章、论文、笔记等)放入 raw/ 目录的对应子文件夹:

  • raw/00-Inbox/ - 快速收集,稍后整理
  • raw/10-Research/ - 研究资料
  • raw/20-Tech/ - 技术文档
  • raw/30-Business/ - 商业资料

第二步:让 AI 消化文档

在对话中告诉 AI:

复制代码
请消化这篇文章:[粘贴文章内容或提供文件路径]

或者:

复制代码
请消化 raw/10-Research/ 目录下的所有文档

第三步:查询知识

当知识库中有内容后,你可以提问:

复制代码
什么是 Transformer 架构?
飞行器可靠性有哪些主要方法?
对比一下 RAG 和 LLM Wiki 的区别

第四步:生成输出

让 AI 从 wiki 中提炼内容:

复制代码
基于现有知识,写一篇关于 Transformer 的技术博客
生成一份竞品分析报告
创建一个教程

核心工作流

1. 摄入(Ingest)

当你添加新文档时,AI 会:

  1. 读取源内容
  2. 提取关键信息
  3. 创建源摘要页(wiki/sources/
  4. 创建/更新概念页(wiki/concepts/
  5. 创建/更新实体页(wiki/entities/
  6. 建立交叉引用([[双链]]
  7. 标记矛盾信息
  8. 更新索引和日志

一次摄入可能更新 10-15 个 wiki 页面。

2. 查询(Query)

当你提问时,AI 会:

  1. 先读 wiki/index.md 找相关页面
  2. 读取相关概念页和源摘要
  3. 综合回答,带引用
  4. 如果回答质量高,可存为新的综合页

3. 维护(Lint)

定期检查知识库健康:

复制代码
请检查一下知识库的健康状况

AI 会:

  1. 检查矛盾(不同源是否有冲突)
  2. 检查过时(新源是否使旧声明失效)
  3. 检查孤立(是否有页面无入链)
  4. 检查缺失(是否有重要概念无独立页面)
  5. 建议新源(基于知识缺口推荐搜索方向)

使用场景

研究者:论文综述自动化

  1. 导入 100 篇 PDF 到 raw/10-Research/
  2. AI 自动生成"领域演进时间线"
  3. 矛盾结论自动标红
  4. 自动生成综述报告

学习者:书籍知识体系化

  1. 每章导入到 raw/00-Inbox/
  2. 自动生成概念页
  3. 图谱揭示逻辑链
  4. 生成学习笔记

知识工作者:竞品分析动态更新

  1. 导入会议记录和客户反馈
  2. 自动维护"竞品功能对比表"
  3. 新功能上线?AI 立即更新对比矩阵
  4. 生成分析报告

页面格式

所有 wiki 页面都包含:

  • YAML Frontmatter:标题、描述、标签、分类、时间戳
  • 双链语法[[页面名]] 实现交叉引用
  • 结构化内容:概述、要点、详细内容、相关概念
  • 来源追溯:每个声明都可以追溯到原始来源

标签体系

领域标签

研究 技术 商业 学习 理论 实践

状态标签

待完善 待验证 核心 边缘

类型标签

人物 机构 工具 方法 事件

推荐工具

Obsidian(强烈推荐)

  • 纯本地存储,所有数据都是 .md 文件
  • 原生支持 [[双链]] 语法
  • 图谱视图可视化知识结构
  • 插件生态(Dataview、Web Clipper 等)

配置方法:

  1. 下载并安装 Obsidian
  2. 选择 f:\llm-wiki 作为 Vault
  3. 启用 Daily notes 插件
  4. 安装 Dataview 插件(可选)

VS Code

  • 安装 Markdown 插件
  • 安装 Markdown Preview Enhanced
  • 使用搜索功能查找页面

最佳实践

  1. 保持 raw/ 的整洁:定期整理收集箱,归档旧文件
  2. 定期查询:通过提问发现知识缺口
  3. 定期维护:每周让 AI 检查知识库健康
  4. 善用输出:将 wiki 内容转化为文章、报告、教程
  5. 版本控制:使用 Git 管理知识库版本(可选)

高级技巧

批量摄入

复制代码
请批量消化 raw/20-Tech/ 目录下的所有文档

主题综合

复制代码
基于现有知识,综合一下关于"机器学习"的所有内容

知识缺口分析

复制代码
分析一下当前知识库的缺口,建议我应该摄入哪些方面的资料?

生成特定格式输出

复制代码
基于 wiki 中关于 Docker 的内容,生成一份教程

注意事项

  1. 永远不要手动修改 wiki/ 目录的文件(除非你要纠正 AI 的错误)
  2. raw/ 是你的领地,AI 绝不修改
  3. 保持文档质量:输入垃圾,输出也是垃圾
  4. 定期备份:虽然都是本地文件,但建议定期备份
  5. 耐心:知识库需要时间积累,不要期望一次摄入就完美

扩展阅读

许可

本项目采用本地知识库管理理念,可自由使用和修改。

相关推荐
tedcloud1231 小时前
UI-TARS-desktop部署教程:构建AI桌面自动化系统
服务器·前端·人工智能·ui·自动化·github
曦月逸霜4 小时前
啥是RAG 它能干什么?
人工智能·python·机器学习
AI医影跨模态组学4 小时前
Lancet Digit Health(IF=24.1)广东省人民医院刘再毅&南方医科大学南方医院梁莉等团队:基于可解释深度学习模型预测胶质瘤分子改变
人工智能·深度学习·论文·医学·医学影像·影像组学
应用市场4 小时前
AI 编程助手三强争霸(2026 版):Claude、Gemini、GPT 各自擅长什么?
人工智能·gpt
AC赳赳老秦4 小时前
供应链专员提效:OpenClaw自动跟踪物流信息、更新库存数据,异常自动提醒
java·大数据·服务器·数据库·人工智能·自动化·openclaw
脑极体4 小时前
从Token消耗到DAA增长,AI价值标尺正在重构
人工智能·重构
csdn小瓯4 小时前
LangGraph自适应工作流路由机制:从关键词匹配到智能决策的完整实现
人工智能·fastapi·langgraph
QYR-分析4 小时前
高功率飞秒激光器行业发展现状、市场机遇及未来趋势分析
大数据·人工智能
AI医影跨模态组学5 小时前
J Clin Oncol(IF=43.4)美国Cedars-Sinai医学中心等团队:基于计算组织学人工智能的晚期胰腺癌化疗选择预测性生物标志物的开发与验证
人工智能·机器学习·论文·医学·医学影像·影像组学
冬奇Lab5 小时前
RAG 系列(十六):Graph RAG——用知识图谱解决多跳关系问题
人工智能·llm