llm wiki

rag系列文章目录


文章目录


前言

近两年,大模型(LLM)最重要的应用之一,就是"知识库"。

企业希望让 AI 理解内部文档,研究者希望 AI 管理论文,开发者希望 Agent 能拥有长期记忆,于是:RAG(Retrieval-Augmented Generation)成为了当前最主流的知识库方案。

但随着 Agent、多轮推理、长期记忆等需求出现,传统 RAG 的问题也越来越明显。

2026 年,Andrej Karpathy 提出了一个新的模式:LLM Wiki

其核心思想是:

不要让 AI 每次都重新检索和理解文档,

而是先把知识"编译"为一个长期维护的 Wiki。


一、简介

LLM Wiki 的核心思想非常简单:不要在 query 时临时理解知识,而是在 ingest 时提前"编译"知识。

Karpathy 用了一个经典比喻:

传统程序:

bash 复制代码
Source Code
   ↓
Compiler
   ↓
Binary

程序不会每次运行:都重新解释源码。而是:提前编译。

LLM Wiki:

bash 复制代码
Raw Documents
    ↓
LLM Compiler
    ↓
Compiled Wiki

即让 LLM:

  • 阅读原始资料
  • 提取知识
  • 总结概念
  • 建立关联
    维护结构化 Wiki,之后,查询直接读取 Wiki。而不是重新扫描 PDF。

LLM Wiki 通常采用三层结构。

第一层:Raw Sources(原始资料层)

第二层:Wiki(知识层),由 LLM 自动维护

第三层:Schema(规则层),是LLM 的行为规范

二、如何实现

1 INGEST:知识摄入

Step1:读取 Source

系统读取:

  • PDF
  • URL
  • markdown
  • transcript
    统一转换为文本。

Step2:Concept Routing

LLM 先判断:这个资料和哪些 Wiki 页面相关,然后只更新相关页面,而不是全量重建。

Step3:Knowledge Synthesis

LLM 会读取,旧 Wiki 页面+新 Source。然后重新生成页面。重点是:保留旧知识,增强新知识,而不是简单覆盖。

Step4:建立 Cross Links

页面之间自动建立依赖关系

Step5:更新 Embedding

为 Wiki 页面建立 embedding。注意:这里 embedding 的不是原始 chunk。而是:已经理解过的知识页面

2 QUERY:知识查询

查询流程

bash 复制代码
Question
   ↓
Search Wiki
   ↓
LLM Synthesis

3 SAVE:知识回写

这是非常重要的一步。

如果某次 Query 产生了高质量答案。系统可以:--save将答案重新写回 Wiki。

4 LINT:知识体检

LLM Wiki 会定期扫描整个 Wiki:

检查:

  • Broken Links
  • 孤立页面
  • 缺失概念
  • 过时内容
  • 知识冲突
    例如:两个页面结论矛盾,系统会自动发现。

三、与rag对比

两者的区别如下

维度 RAG LLM Wiki
核心思想 Query 时检索 Ingest 时编译
知识状态 无状态 持久化
数据单位 Chunk Wiki Page
是否长期积累
是否支持知识演化
是否支持知识图谱
Token 消耗 每次重复理解 一次编译长期复用
擅长 实时检索 长期知识沉淀

rag更适合场景:高实时性场景、海量文档场景、强事实精确场景

LLM Wiki 适合什么场景:长期研究、Agent Memory、个人知识库、复杂概念关联


总结

传统 RAG 的核心问题是:AI 不会真正"学会"知识,它只是:不断重新阅读。

而 LLM Wiki 的核心思想是:让知识先沉淀,再查询,它把LLM从问答工具变成知识编译器。

从长期来看:未来 AI 系统真正的竞争力,可能不只是:模型能力。而是:它积累了多久的知识。

参考文章12

相关推荐
a8057626871 小时前
Luston.ai深度评测:沉浸式AI虚拟陪伴,普通与18+双模式全体验
人工智能
Kiyra1 小时前
Agent 的记忆不是存数据库就行:上下文预算与轻量记忆的设计实战
数据库·人工智能·后端·面试·职场和发展·哈希算法
agicall.com1 小时前
信电助 - 信创无线盒 UB-W-XC 型号功能列表
人工智能·语音识别·信创电话助手·座机语音转文字·固话座机录音转文字
昨夜见军贴06161 小时前
爆破冲击试验越来越严格,AI报告审核如何借助IACheck守住安全底线
人工智能·安全
TEC_INO1 小时前
Linux_54:RV1126的VI模块讲解
linux·运维·人工智能
mit6.8241 小时前
20种Agent 设计模式
人工智能·设计模式
张二娃同学1 小时前
专栏第01篇_深度学习导论
人工智能·python·深度学习·cnn
ConardLi1 小时前
Harness 实践:让 Agent 全自动制作知识讲解视频
前端·人工智能·后端
workflower1 小时前
企业酝酿数智化内驱力
大数据·人工智能·设计模式·机器人·动态规划