llm wiki

rag系列文章目录


文章目录


前言

近两年,大模型(LLM)最重要的应用之一,就是"知识库"。

企业希望让 AI 理解内部文档,研究者希望 AI 管理论文,开发者希望 Agent 能拥有长期记忆,于是:RAG(Retrieval-Augmented Generation)成为了当前最主流的知识库方案。

但随着 Agent、多轮推理、长期记忆等需求出现,传统 RAG 的问题也越来越明显。

2026 年,Andrej Karpathy 提出了一个新的模式:LLM Wiki

其核心思想是:

不要让 AI 每次都重新检索和理解文档,

而是先把知识"编译"为一个长期维护的 Wiki。


一、简介

LLM Wiki 的核心思想非常简单:不要在 query 时临时理解知识,而是在 ingest 时提前"编译"知识。

Karpathy 用了一个经典比喻:

传统程序:

bash 复制代码
Source Code
   ↓
Compiler
   ↓
Binary

程序不会每次运行:都重新解释源码。而是:提前编译。

LLM Wiki:

bash 复制代码
Raw Documents
    ↓
LLM Compiler
    ↓
Compiled Wiki

即让 LLM:

  • 阅读原始资料
  • 提取知识
  • 总结概念
  • 建立关联
    维护结构化 Wiki,之后,查询直接读取 Wiki。而不是重新扫描 PDF。

LLM Wiki 通常采用三层结构。

第一层:Raw Sources(原始资料层)

第二层:Wiki(知识层),由 LLM 自动维护

第三层:Schema(规则层),是LLM 的行为规范

二、如何实现

1 INGEST:知识摄入

Step1:读取 Source

系统读取:

  • PDF
  • URL
  • markdown
  • transcript
    统一转换为文本。

Step2:Concept Routing

LLM 先判断:这个资料和哪些 Wiki 页面相关,然后只更新相关页面,而不是全量重建。

Step3:Knowledge Synthesis

LLM 会读取,旧 Wiki 页面+新 Source。然后重新生成页面。重点是:保留旧知识,增强新知识,而不是简单覆盖。

Step4:建立 Cross Links

页面之间自动建立依赖关系

Step5:更新 Embedding

为 Wiki 页面建立 embedding。注意:这里 embedding 的不是原始 chunk。而是:已经理解过的知识页面

2 QUERY:知识查询

查询流程

bash 复制代码
Question
   ↓
Search Wiki
   ↓
LLM Synthesis

3 SAVE:知识回写

这是非常重要的一步。

如果某次 Query 产生了高质量答案。系统可以:--save将答案重新写回 Wiki。

4 LINT:知识体检

LLM Wiki 会定期扫描整个 Wiki:

检查:

  • Broken Links
  • 孤立页面
  • 缺失概念
  • 过时内容
  • 知识冲突
    例如:两个页面结论矛盾,系统会自动发现。

三、与rag对比

两者的区别如下

维度 RAG LLM Wiki
核心思想 Query 时检索 Ingest 时编译
知识状态 无状态 持久化
数据单位 Chunk Wiki Page
是否长期积累
是否支持知识演化
是否支持知识图谱
Token 消耗 每次重复理解 一次编译长期复用
擅长 实时检索 长期知识沉淀

rag更适合场景:高实时性场景、海量文档场景、强事实精确场景

LLM Wiki 适合什么场景:长期研究、Agent Memory、个人知识库、复杂概念关联


总结

传统 RAG 的核心问题是:AI 不会真正"学会"知识,它只是:不断重新阅读。

而 LLM Wiki 的核心思想是:让知识先沉淀,再查询,它把LLM从问答工具变成知识编译器。

从长期来看:未来 AI 系统真正的竞争力,可能不只是:模型能力。而是:它积累了多久的知识。

参考文章12

相关推荐
前沿科技说i5 小时前
2026年AI大模型API中转站:主流服务商性能与成本
人工智能
黄啊码7 小时前
【黄啊码】程序员真正该担心的,不是 AI 会写代码
人工智能
随意起个昵称8 小时前
区间dp-基础题目1(石子合并)
算法·动态规划
weixin_468466858 小时前
Ava 2.0 智能应用场景落地指南
人工智能·自然语言处理·大模型·智能交互·ava
John_ToDebug8 小时前
MCP 深度解析:大模型的“万能插头”
人工智能·经验分享·ai
吞下星星的少年·-·8 小时前
线段树模板
算法
浦信仿真大讲堂8 小时前
CST 仿真软件与 AI 融合的工程应用实战
人工智能·仿真软件·达索仿真·达索软件
mit6.8248 小时前
A Software Engineer‘s Apology | CODA
人工智能
段一凡-华北理工大学8 小时前
2026 高炉炼铁智能化技术全景与演进路径~系列文章11:演进路径与行业未来
大数据·网络·人工智能·算法·工业智能体·高炉炼铁智能化
小脑斧1239 小时前
AI技能化落地:从对话式大模型到可生产、可复用的AI工程体系
人工智能·skills·openclaw·hermes·marvis