科研数字大脑系列（二）：Dataview + 本地 RAG——让知识库从死档案变成会思考的数据库

系列简介： 本系列共3篇，手把手带你搭建"输入-沉淀-输出"全闭环科研知识管理系统。上一篇解决了结构化输入问题，本篇解决知识沉淀与自动检索问题。

上一篇结束后，你的 Obsidian 里可能已经有了几十甚至几百篇带 YAML 元数据的文献笔记。但此时它们还是一座静态档案馆------你想找"两年前读的那篇关于 TCN 的文章"，还是得靠记忆或全文搜索一条条翻。

这篇文章解决的核心问题：如何让这几百篇笔记自动聚合、互相连接，并且在你提问时，5秒内给出跨越整个库的综合回答------全程不联网，数据不出本地。

一、Dataview：你的知识库动态目录引擎

什么是 Dataview？

Dataview 是 Obsidian 的一个插件，允许你像写 SQL 一样查询你的笔记库。它把每个笔记的 YAML Front Matter 当作数据库字段，支持 TABLE、LIST、CALENDAR 等多种视图。

安装

在 Obsidian 插件市场搜索 Dataview，一键安装启用。开启 Enable JavaScript Queries 选项（高级查询需要）。

场景1：项目知识地图------自动聚合所有关联文献

在你的项目主页笔记（如 Projects/低空经济优化.md）中插入：

markdown 复制代码

```dataview
TABLE 
  authors AS "作者",
  year AS "年份",
  status AS "阅读状态",
  file.mtime AS "最后修改"
FROM "Literature"
WHERE project = "低空经济优化"
SORT status ASC, year DESC
```

效果：任何新导入的文献，只要 project 字段匹配，自动出现在这张表里，无需手动维护目录。

场景2：待读清单------按优先级排序

markdown 复制代码

```dataview
LIST file.link
FROM #time-series OR #deep-learning
WHERE status = "to-read"
SORT priority ASC, created DESC
LIMIT 10
```

场景3：知识热图------看哪些标签积累最多

markdown 复制代码

```dataviewjs
const tags = {};
for (const page of dv.pages()) {
    for (const tag of (page.tags || [])) {
        tags[tag] = (tags[tag] || 0) + 1;
    }
}
const sorted = Object.entries(tags).sort((a,b) => b[1]-a[1]).slice(0,15);
dv.table(["标签", "笔记数"], sorted);
```

二、本地 RAG 挂载：让 AI 真正读懂你的笔记库

为什么要用本地 RAG，而不是直接用 ChatGPT？

对比项	ChatGPT/Claude	本地 RAG
数据安全	内容上传到云端	全本地，绝对安全
知识边界	只知道公开知识	能检索你的私有笔记
引用精度	容易幻觉	基于实际文档，可追溯
使用成本	按 token 计费	本地跑，0 成本

对于有未发表成果、涉密数据或商业敏感内容的科研人员，本地 RAG 是唯一正确的选择。

方案一：Ollama + Smart Connections（推荐新手）

Step 1：在 WSL2 中安装 Ollama

bash 复制代码

# 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# 拉取推荐模型（科研中文场景首选 Qwen2.5）
ollama pull qwen2.5:7b

# 拉取 embedding 模型（用于向量化笔记）
ollama pull nomic-embed-text

# 验证服务
ollama serve &
curl http://localhost:11434/api/tags

Step 2：安装 Smart Connections 插件

在 Obsidian 插件市场安装 Smart Connections，配置：

复制代码

Model Provider: Ollama (Local)
Chat Model: qwen2.5:7b
Embedding Model: nomic-embed-text
API Base URL: http://localhost:11434

Step 3：建立本地向量数据库

首次使用时，点击 Smart Connections 侧边栏的 Build Index，插件会自动把你的所有笔记：

切片（Chunking）成 512 token 的块
通过本地 nomic-embed-text 模型转为向量
存储到 .smart-connections/ 目录下的本地向量数据库

整个过程完全离线，通常几分钟内完成（取决于笔记库大小）。

方案二：Copilot 插件（界面更友好）

复制代码

Obsidian 插件市场 → 搜索 "Copilot" → 安装
设置 → Model: Ollama → Chat Model: qwen2.5:7b
开启 "QA Conversation" 模式

三、实战演示：提问一个真实的科研问题

假设你现在遇到了一个研究瓶颈：

如何在时域卷积网络（TCN）中处理10万级超长时序数据的特征提取？现有方法有什么局限？

过去你可能要：

翻遍自己记的笔记（30分钟）
再去 Google Scholar 搜一遍（1小时）
汇总整理（30分钟）

现在，在 Obsidian 侧边栏的 AI 对话框直接输入这个问题，本地 RAG 会：

向量检索出库内最相关的 Top-10 笔记块
把这些上下文喂给本地 Qwen2.5
生成包含 [[精确双链引用]] 的综合回答

实际输出示例：

复制代码

基于你的知识库，关于超长时序 TCN 特征提取的现有研究：

【方法1：多尺度膨胀卷积】（来源：[[Wang2024_TCN长时序]]）
膨胀系数按 r=2^k 递增，理论感受野可达 2^L-1，
但实测在 L>12 层时梯度消失问题明显...

【方法2：Patch Embedding 分块压缩】（来源：[[PatchTST论文笔记]]）
将时序切成固定长度 Patch 再做自注意力，
有效降低复杂度至 O(n/p)...

【当前局限】（综合 3 篇文献）：...

全程 5-8 秒，引用全部来自你自己读过并内化的笔记，零幻觉。

四、维护技巧：保持向量数据库新鲜

bash 复制代码

# 如果向量库损坏，删除重建
rm -rf /path/to/your/vault/.smart-connections/
# 然后在插件中重新 Build Index

建议每周 Re-index 一次（如果每周有大量新文献输入），日常增量更新插件会自动处理。

总结

经过这两篇文章的配置，你的 Obsidian 知识库已经具备了：

动态目录：Dataview 自动聚合，新文献入库即可见
私有 AI 检索：基于真实笔记内容的本地 RAG，精准引用，零幻觉
数据安全保障：全流程本地运行，未发表成果绝对安全

下一篇（终章）： 如何基于这个知识库，配合严格的 Prompt 策略，完成学术论文初稿的"增量撰写"和"零幻觉润色"，并一键导出为 Word/LaTeX 格式。