多模态 LLM Wiki Skill

多模态思路 LLM Wiki Skill

"LLM 负责写和维护 wiki;人负责阅读和提问。"


llm-wiki-skill是什么

llm-wiki-skill 是一个运行在 Claude Code 中的 Skill,将任意格式的原始文档(PDF、DOCX、PPTX、XLSX、Markdown、图片)摄入到结构化 Wiki,并自动构建可交互的知识图谱(graph.html)。

它实现 Karpathy 提出的知识管理理念:知识在摄入时合成,而非查询时合成。每次新文档加入时,LLM 自动提取要点、建立交叉引用、标记矛盾、更新综合摘要,使知识库随每次摄入复利增长。

这与 RAG 的核心区别在于:RAG 把原始文档丢进向量库,查询时临时组装答案;llm-wiki 在摄入时就把知识编译为耐久的 wiki 页面,查询时读取已综合好的结论。


目录结构

perl 复制代码
<wiki-root>/
  raw/                  # 原始文档(永远不修改)
    <topic>/            # 按主题组织,一级子目录
  wiki/
    index.md            # 所有页面的目录(按主题分区)
    overview.md         # 跨来源的 living synthesis
    log.md              # 只追加的操作日志
    sources/            # 每份原始文档的摘要页
    entities/           # 人物 / 公司 / 项目 / 产品
    concepts/           # 概念 / 框架 / 方法论
    syntheses/          # 查询答案存档
    archive/            # 归档的过时页面
  graph/
    graph.json          # 节点 + 边数据
    graph.html          # 基于 vis.js 的自包含可视化

命令速查

命令 用途
wiki-config workspace <path> 设置 wiki 工作空间路径
wiki-config show 查看当前配置及目录状态
wiki-input <path> [--topic <slug>] 摄入任意路径文件(自动归档到 raw/<topic>/
wiki-ingest <file> 摄入已在 raw/ 中的文件
wiki-query: <问题> 查询知识库,综合答案
wiki-lint 检查孤立页面、断链、矛盾等质量问题
wiki-graph 构建可视化知识图谱(graph.html

日常使用推荐 wiki-input :接受本地或远程路径,自动复制到 raw/<topic>/ 归档后再摄入,无需手动管理 raw/ 目录。


工作流说明

摄入(Ingest)

摄入一份文档时,LLM 会依次执行:

  1. 多模态内容提取(PDF/DOCX/PPTX/XLSX/图片 → Markdown)
  2. 写入 wiki/sources/<slug>.md(摘要、要点、关键引用)
  3. 更新 wiki/index.mdwiki/overview.md
  4. 创建或更新 wiki/entities/wiki/concepts/ 页面
  5. 标记与已有内容的矛盾
  6. 追加操作日志到 wiki/log.md

查询(Query)

读取 wiki/index.md 识别相关页面,综合答案并以 [[PageName]] 格式内联引用。可选将答案存为 wiki/syntheses/<slug>.md 归档备查。

知识图谱(Graph)

提取页面间的显式 wikilink(EXTRACTED)和 AI 推断的语义关联(INFERRED,置信度 ≥ 0.5),生成零依赖的自包含 graph.html,支持节点类型着色和社区分组。


支持格式

格式 提取方式
.md .txt 直接读取
.pdf pdfplumber(文本 + 表格)
.docx python-docx(正文 + 标题 + 表格)
.pptx python-pptx(标题 + 正文 + 备注)
.xlsx .csv pandas(转 Markdown 表格)
.png .jpg .jpeg .webp .gif .bmp Claude vision(多模态)

多模态支持详解

llm-wiki 使用 Claude 原生多模态能力理解图像内容------不仅是 OCR 文字识别,而是对图表、流程图、截图的完整语义理解。

直接摄入图片文件

将图片文件直接传给 wiki-inputwiki-ingest,Claude 读取图片并转换为结构化 Markdown,再进入标准 Ingest 流程:

bash 复制代码
wiki-input ~/截图/架构图.png --topic system-design
wiki-input ~/照片/白板会议.jpg --topic meetings

Claude 从图片中提取的内容:

  • 图表与折线图 --- 数据系列、坐标轴标签、趋势、数值
  • 架构图与流程图 --- 节点、连线、关系、流向
  • 截图 --- UI 结构、可见文本、布局上下文
  • 手写笔记 / 白板 --- 转录文字和绘制的结构
  • 图片中的表格 --- 重建为 Markdown 表格
  • 混合内容 --- 拍照或扫描的含文字和图形的文档

文档内嵌图片

摄入包含嵌入图片的 PDF、DOCX 或 PPTX 时,提取工具会获取所有文字内容。若文档中的图表对理解至关重要,而纯文字提取不足以覆盖,可将这些图表另存为图片文件单独摄入。

支持的图片格式

格式 说明
.png 无损压缩,适合截图、架构图
.jpg / .jpeg 照片、扫描文档
.webp 网络优化图片
.gif 分析第一帧(静态内容)
.bmp 未压缩位图

多模态提取流程

所有图片内容经过与文本文档相同的 Ingest 流程------图片仅在进入流程前先转换为 Markdown:

perl 复制代码
图片文件
    │
    ▼
Claude Vision(Read 工具)
    │  提取:文字、结构、数据、关系
    ▼
Markdown 描述
    │
    ▼
标准 Ingest 流程(步骤 2--10)
    │  sources/ entities/ concepts/ index/ overview/ log/
    ▼
Wiki 页面 + 知识图谱

快速开始

bash 复制代码
# 1. 设置 wiki 工作空间
wiki-config workspace ~/my-wiki

# 2. 摄入第一份文档
wiki-input ~/Downloads/paper.pdf --topic papers

# 3. 查询
wiki-query: 这篇论文的核心贡献是什么?

# 4. 构建知识图谱
wiki-graph

地址

相关推荐
染指11102 小时前
26.RAG进阶(Advanced RAG)-假设性问题索引
人工智能·windows·agent·rag·advanced rag
闵孚龙2 小时前
动态图机制:为什么 PyTorch 调试起来更舒服
人工智能·pytorch·python
甲维斯3 小时前
还要啥Codex!DeepSeek接入Zcode远程连接!
人工智能
百胜软件@百胜软件3 小时前
百胜软件亮相“AI消费新生活”主题日活动,AI智能运营平台入选市级案例征集
人工智能·生活·零售数字化·数智中台·珠宝行业
专注搞钱4 小时前
GPT-4o写设备Recipe:从3小时到10分钟
数据库·人工智能·gpt·半导体
闻道参看4 小时前
贝芯宠AI灵兽 ELFVET 大模型聚焦临床应用,强化宠物诊疗综合能力
人工智能·宠物
MartinYeung55 小时前
[论文学习]重新思考大型语言模型忘却目标:梯度视角与超越
人工智能·学习·语言模型
财经资讯数据_灵砚智能5 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月14日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
m0_380167145 小时前
加密货币价格 API、市场数据 API 与 分析 API 有什么区别?
人工智能·ai·区块链
zyplayer-doc5 小时前
企业知识库安全与权限管理完全指南:从加密到审计的六层防护
人工智能·安全·pdf·编辑器·创业创新