Feynman—证据驱动的 AI 研究代理

文章目录

[Feynman --- 证据驱动的 AI 研究代理](#Feynman — 证据驱动的 AI 研究代理)
- 一、项目介绍
- 二、核心功能
- - [2.1 十大研究工作流](#2.1 十大研究工作流)
  - [2.2 四大子代理](#2.2 四大子代理)
  - [2.3 工具与集成](#2.3 工具与集成)
  - [2.4 模型支持](#2.4 模型支持)
- 三、主要的运行逻辑
- - [3.1 Pi 运行时------Feynman 跑在什么上面](#3.1 Pi 运行时——Feynman 跑在什么上面)
  - [3.2 以 /deepresearch 为例------完整执行步骤](#3.2 以 /deepresearch 为例——完整执行步骤)
  - [3.3 其他工作流的执行逻辑](#3.3 其他工作流的执行逻辑)
- 四、如何设计提示词
- - [4.1 第一层：系统提示词（.feynman/SYSTEM.md）](#4.1 第一层：系统提示词（.feynman/SYSTEM.md）)
  - [4.2 第二层：子代理提示词（.feynman/agents/）](#4.2 第二层：子代理提示词（.feynman/agents/）)
  - [4.3 第三层：工作流提示词模板（prompts/*.md）](#4.3 第三层：工作流提示词模板（prompts/*.md）)
  - [4.4 技能提示词（skills/*/SKILL.md）](#4.4 技能提示词（skills/*/SKILL.md）)
  - [4.5 提示词设计的整体哲学](#4.5 提示词设计的整体哲学)
- [五、Feynman 能不能自己做实验？不只是查论文](#五、Feynman 能不能自己做实验？不只是查论文)
- [六、三者对比：Feynman vs AutoResearchClaw vs ML-Intern](#六、三者对比：Feynman vs AutoResearchClaw vs ML-Intern)

Feynman --- 证据驱动的 AI 研究代理

一、项目介绍

Feynman 是一个开源的 AI 研究代理，你可以在终端里用它做学术研究------搜论文、读论文、写文献综述、做同行评审、审计论文和代码的匹配度、甚至自动跑实验循环。

它的核心信条是：证据优先于流畅性（Evidence over fluency） 。普通 AI 聊天机器人会给你一段看起来很顺滑的文字，但里面的数字、结论可能根本没出处。Feynman 不干这事------它产出的每一句话，都必须能追溯到某篇论文、某个官方文档、某个代码仓库，带 URL。如果找不到来源，它会老老实实标上 UNVERIFIED，而不是假装确定。

它不是从零造了个 AI 引擎 。Feynman 跑在 Pi 这个开源 AI 代理运行时上面。你可以把 Pi 理解成"AI 代理的操作系统"------它管代理循环（agent loop）、子代理调度、文件系统工具、会话持久化、终端 UI 渲染、模型路由这些底层能力。Feynman 在 Pi 上面加了一层学术研究专用东西：AlphaXiv 论文搜索工具、10 个研究工作流、4 个专职研究子代理。就像你在 Linux（Pi）上跑了一个研究专用应用（Feynman）。

Feynman 用 alphaXiv 做学术论文搜索和问答。alphaXiv 是一个面向 AI/ML 论文的搜索服务，能搜论文、读论文、对论文提问、读论文关联的 GitHub 代码。

二、核心功能

2.1 十大研究工作流

你可以在终端里直接用自然语言提问，也可以用斜杠命令触发专门的工作流：

命令	它到底干什么
`/deepresearch <主题>`	旗舰工作流。多代理并行搜论文+搜网页，读源材料，提取发现，综合成带引文的研究简报，最后验证引文。
`/lit <主题>`	文献综述。搜论文，梳理领域里大家共识是什么、争议在哪里、还有哪些没研究清楚的。
`/review <文档>`	模拟同行评审。像审稿人一样逐条检查方法论、证据支撑、可复现性，按严重程度分级（致命/重大/次要）。
`/audit <论文名>`	论文 vs 代码审计。拿论文里声称的东西和它 GitHub 代码里实际实现的对，找出不匹配。
`/draft <主题>`	写论文草稿。从已有研究产出写一篇结构化的学术草稿。
`/autoresearch <想法>`	自主实验循环。自动提假设→跑实验→分析结果→决定继续还是转向，适合调参、prompt 优化这类需要反复试的任务。
`/compare <主题>`	来源比较。多个来源对同一主题的说法放一起比，哪些一致哪些矛盾。
`/replicate <论文>`	复现实验。在本地或云 GPU 上复现论文的实验。
`/watch <主题>`	定期监控。定期搜这个主题的新进展。
`/summarize <来源>`	摘要。对长文档做分层摘要。

2.2 四大子代理

Feynman 有四个专职子代理，工作流自动调度它们，你不用手动调用：

Researcher（研究者） --- 搜集证据的人。

它搜学术论文（通过 alphaXiv）和网页（通过 Exa/Perplexity/Gemini），读源材料，提取关键发现。
搜索策略是"先宽后窄"：先用短的宽泛查询找方向，评估后逐步缩小。
多个 researcher 可以并行跑，各搜不同角度（比如一个搜奠基性论文，一个搜最新挑战性工作）。
严格戒律：不伪造来源、不声称没检查过的东西存在、不外推没读过的内容、每个证据必须带 URL。

Reviewer（审稿人） --- 模拟严格但建设性的同行评审。

从六个维度评估：声明 vs 证据、方法论、实验设计、可复现性、写作质量、完整性。
每条反馈标严重度：Critical（致命，结论不可靠）、Major（重大，缺基线/消融）、Minor（改进建议）、Nit（格式）。
对每个评估给置信度：明确错误高置信，合理争议低置信。

Writer（写作者） --- 把原始研究笔记变成结构化文档。

只从已有的证据写作，不自己编，不做"审美清洗"把缺失证据光滑掉。
不加引文（这活留给 Verifier），不加 Sources 节。

Verifier（验证者） --- 质量把关。

把草稿里每个事实性声明锚定到具体来源，验证每个 URL 是否可达、是否真支持那个声明。
找到误引（引了但原文说的不是那个意思）、夸大（声称比原文更强的结论）、无源声明直接删除。
诚实标记：确认不了的标 UNVERIFIED，不假装验证过了。

2.3 工具与集成

工具	干什么
AlphaXiv	搜论文、读论文、对论文提问、写注释、读论文关联代码
Web 搜索	Perplexity / Exa / Gemini 三选一，搜网页
Docker	隔离容器跑实验，安全
Modal	无服务器 GPU，适合短时训练/推理
RunPod	持久 GPU Pod，SSH 访问，适合长时间实验
Session Search	在历史会话里搜之前的研究
Memory	跨会话记住你的偏好和修正
Charts / Mermaid	画图表和流程图
Zotero	文献管理

2.4 模型支持

Feynman 支持几乎所有主流 AI 模型：Anthropic Claude、OpenAI GPT、Google Gemini，以及 Z.AI/GLM、MiniMax、Kimi、xAI、Groq、Mistral、Cerebras 等。还支持 6 级 Thinking Level（推理深度），从 off 到 xhigh。

三、主要的运行逻辑

3.1 Pi 运行时------Feynman 跑在什么上面

Pi 是什么？ Pi 是一个开源的 AI 代理运行时（你可以类比成 AI 代理的操作系统）。它提供：

代理循环（agent loop）：接收用户输入 → 调用 LLM → 解析工具调用 → 执行工具 → 把结果喂回 LLM → 重复，直到 LLM 给出最终回复。
子代理调度：主代理可以 spawn 子代理，子代理独立跑在自己的上下文里，结果通过磁盘文件交接。
文件系统工具：读写文件、搜索代码、执行命令行。
会话持久化：聊天记录保存到磁盘，可以恢复。
终端 TUI：漂亮的终端界面渲染。
模型路由：多个模型提供商的统一接口，自动路由。
扩展/技能/提示词模板加载：通过声明式配置加载自定义工具、工作流、技能。
包管理：Pi 有自己的包生态（pi-subagents、pi-web-access 等），Feynman 用这些包获得能力。

"Feynman 跑在 Pi 上"是什么意思？ 就是 Feynman 自己不写代理循环、不写 TUI、不写模型路由这些底层东西。它做的是：

在 Pi 启动时注入自己的系统提示词（告诉 AI "你是研究代理，要证据优先"）
注册自己的工具（AlphaXiv 的 6 个工具）
注册自己的工作流提示词模板（10 个斜杠命令）
注册自己的子代理定义（researcher/reviewer/writer/verifier）
注册自己的技能包（20 个研究技能）
对 Pi 做一些 monkey-patch 微调行为

用户在终端输入 feynman，实际启动的是 Pi 的代理循环，只不过加载了 Feynman 的定制配置。你可以理解成：Pi 是引擎，Feynman 是装在引擎上的研究专用车身。

3.2 以 /deepresearch 为例------完整执行步骤

这是 Feynman 的旗舰工作流，最能体现它的运行逻辑：

复制代码

你输入: /deepresearch "transformer 的 scaling laws"

第 1 步：制定计划（Plan）

主代理根据你的主题，生成一份研究计划：要回答哪些关键问题、用什么来源策略、搜几个角度、预估规模。
计划写到 outputs/.plans/ 目录。
暂停，等你确认。你可以修改计划再让它跑。这防止方向跑偏。

第 2 步：搜集证据（Gather）

主代理根据计划，派出 researcher 子代理。
如果主题比较宽，会并行派多个 researcher，各搜不同角度。
每个 researcher 先搜 AlphaXiv 论文，再搜网页，先宽后窄。
找到论文/文章后，读摘要评估相关性，挑最值得深读的读全文。
提取关键声明、方法、结果、局限性，每项标来源。
结果写到磁盘文件（<slug>-research-papers.md、<slug>-research-web.md）。

第 3 步：综合写作（Draft）

派出 writer 子代理，读 researcher 写的文件。
Writer 把零散的研究笔记组织成结构化文档：背景、关键发现、开放问题。
只用已有的证据写，不自己编，不做"审美清洗"。
草稿写到 outputs/.drafts/。

第 4 步：引文验证（Cite）

派出 verifier 子代理，读草稿。
对每个事实性声明，找到研究文件中对应的来源，加行内引文。
逐个验证 URL：能访问吗？内容还相关吗？有没有死链？
无来源的声明直接删掉。
构建 Sources 节（编号列表和行内引文一一对应）。
输出到 <slug>-brief.md。

第 5 步：同行评审（Review）

派出 reviewer 子代理，读带引文的简报。
逐条评估：声明有没有证据支撑、方法论严谨不严谨、实验设计有没有漏洞、能不能复现、写作清晰不清晰。
每条反馈标严重度（Critical/Major/Minor/Nit）和置信度。
输出到 <slug>-review.md。

第 6 步：交付（Deliver）

主代理综合评审反馈，修正致命问题。
最终报告写到 outputs/<slug>.md。
同时写一个 .provenance.md 副件，记录来源统计和验证状态（比如引用了多少篇论文、验证通过率多少、哪些没验证）。
更新 CHANGELOG.md。

降级处理 ：如果中间某步工具挂了（比如 AlphaXiv 搜不了了），Feynman 不会直接崩溃。它会继续跑，但在产出里标 BLOCKED 或 UNVERIFIED，让你知道哪些部分受了影响。

3.3 其他工作流的执行逻辑

/lit（文献综述）：和 deepresearch 类似，但输出结构不同------重点是梳理"共识、争议、开放问题、时间线"，而不是一份研究简报。优先找综述论文、高引奠基性工作、最新前沿。

/review（同行评审）：直接派出 researcher 搜相关背景，然后 reviewer 对目标文档做六维评估，输出严重度分级反馈 + 修订计划。

/audit（论文-代码审计）：researcher 读论文提取声明，verifier 对比代码实现，逐项检查超参、架构、训练流程、评估指标是否匹配，标出不一致的地方。

/autoresearch（自主实验循环） ：不搜论文，而是自动跑实验。循环：提假设 → 设计实验 → 执行 → 分析结果 → 和前一轮比 → 决定继续/变体/转向。每轮都记录做了什么、结果怎样、当前最优是什么，避免重复失败的方向。后台运行，你可以 /jobs 查进度。

/compare（来源比较）：researcher 搜多个来源，verifier 验证，然后对比哪些说法一致、哪些矛盾、证据强度如何。

四、如何设计提示词

Feynman 的提示词设计是它最核心的工程，分三层：系统提示词（全局行为规则）、子代理提示词（各代理的职责和戒律）、工作流提示词模板（触发哪个流水线、怎么跑）。

4.1 第一层：系统提示词（.feynman/SYSTEM.md）

这是全局指令，告诉 AI "你是什么、你怎么做事"。核心规则：

证据优先于流畅性 --- 偏好论文、官方文档、数据集、代码等一手来源，而不是凭训练数据编。
分离观察与推断 --- 直接读到的和推断的必须区分标注。
明确陈述不确定性 --- 不确定时标 BLOCKED / UNVERIFIED / INFERRED，不假装确定。
工具使用规则 --- 学术话题用 alphaXiv，时事/非学术用 web_search，混合话题两个都用。
子代理调度规则 --- 大任务拆给子代理，长任务后台跑，深度研究先计划再批量再综合再验证。
溯源规则 --- 禁止伪造实验数据，每个定量声明必须有源 URL，不声称 verified 除非真验证了。
默认工作流 --- 澄清目标 → 搜一手来源 → 读最相关的 → 综合共识/分歧/缺口 → 可选做实验 → 写产出。

4.2 第二层：子代理提示词（.feynman/agents/）

每个子代理的提示词都定义了 YAML frontmatter（name、description、thinking level、可用工具、输出文件名）+ 正文（职责、戒律、输出格式）。

关键设计思路：

职责严格分离：Researcher 只搜不写，Writer 只写不搜不引，Verifier 只验证引文，Reviewer 只评审。各自不越界，减少出错。
戒律（integrity injunctions）比指令更重要：每个代理的第一优先级不是"做好任务"，而是"不做假"。Researcher 的第一戒律是"永不伪造来源"，Writer 的是"只从已有证据写作"。这比任何正面的"写得好"的指令都靠前。
工具集精确控制：Writer 没有搜索工具------它只能读已有文件、写文件，这从工具层面就不可能让它凭空编造。Verifier 有搜索工具------它需要验证 URL 可达性。
Thinking Level 分级 ：Researcher 和 Reviewer 用 high（需要深度推理），Writer 和 Verifier 用 medium（侧重结构化输出和验证逻辑，不需要太发散）。
文件交接而非上下文传递：子代理之间不把大量中间结果塞进聊天上下文，而是写到磁盘文件，下一个代理读文件。这避免了上下文爆炸。

4.3 第三层：工作流提示词模板（prompts/*.md）

每个斜杠命令对应一个 .md 文件，定义这个工作流怎么跑。

结构：YAML frontmatter（description、args、section、topLevelCli）+ 正文（分步指令）。

核心设计模式：

模式	解释
Plan → Gather → Draft → Cite → Review → Deliver	六步流水线，每步派不同代理，逐步从原始证据走向验证过的最终产出
强制确认点	Plan 之后必须等用户说"继续"才往下跑，防止 AI 跑偏了还一口气跑完
文件交接	子代理写文件到磁盘，下一个子代理读文件，不在聊天上下文里塞大块中间结果
降级容错	工具挂了不崩溃，产出带 `BLOCKED`/`UNVERIFIED` 标记的部分结果
溯源副件	每个最终产出旁边有个 `.provenance.md`，记录来源统计和验证状态
slug 命名	文件名从主题派生（如 `scaling-laws`），不同研究不会文件名冲突

4.4 技能提示词（skills/*/SKILL.md）

20 个技能包，每个是独立的 SKILL.md 文件。和子代理不同，技能不是专职代理，而是"知识片段"------告诉 AI 什么时候该用什么工具、怎么用。比如 deep-research/SKILL.md 告诉 AI 深度研究的触发条件和操作步骤，docker/SKILL.md 告诉 AI 怎么用 Docker 跑实验。

4.5 提示词设计的整体哲学

Feynman 的提示词工程有一个贯穿始终的思想：对 AI 诚实性的不信任，用制度来弥补。

不信任 AI 会自觉加引文 → 用 Verifier 代理专职做引文验证
不信任 AI 不会编造来源 → 每个 Researcher 戒律第一条就是"永不伪造"，且要求每个证据带 URL
不信任 AI 会自己发现错误 → 用 Reviewer 做对抗审查
不信任 AI 会承认不确定 → 系统提示词强制要求标 UNVERIFIED/BLOCKED/INFERRED
不信任 AI 一口气跑对方向 → Plan 后强制等用户确认
不信任 AI 会验证自己说的 → Verifier 独立验证，不是写草稿的那个代理自己验证

每一层都不信任上一层，用下一个环节来兜底。这就是 Feynman 提示词设计的核心。

五、Feynman 能不能自己做实验？不只是查论文

能，但有限度。 Feynman 不是只能查论文。它的实验能力来自以下途径：

/autoresearch --- 自主实验循环。自动提假设、写实验代码、跑实验、分析结果、决定继续还是转向。这是 Feynman 最接近"自己做实验"的工作流，底层靠 @tmustier/pi-ralph-wiggum 包提供长运行代理循环。
/replicate --- 复现论文实验。可以在本地或云 GPU（Modal/RunPod）上跑。
Docker 沙盒 --- 用 Docker 容器隔离跑实验代码。
Modal / RunPod --- 云 GPU 计算，适合需要 GPU 的训练/推理任务。
本地命令行 --- Feynman 的 bash 工具可以直接执行 Python 脚本。

但它不是端到端的"从想法到论文"流水线。Feynman 的实验是辅助性的------你给它一个研究方向，它可以搜论文、写综述、验证引文，中间穿插一些实验来验证假设。但它不会像 AutoResearchClaw 那样从零开始自动生成实验代码、自动跑完整实验、自动写 LaTeX 论文、自动导出 deliverables。Feynman 更偏"研究助手"，不是"全自动论文工厂"。

六、三者对比：Feynman vs AutoResearchClaw vs ML-Intern

数据来源：各项目 GitHub README 及官方文档，截至 2026 年 5 月。

维度	Feynman	AutoResearchClaw	ML-Intern
一句话定位	证据驱动的研究助手终端	全自动"从想法到论文"流水线	HuggingFace 生态的 ML 工程师代理
GitHub Stars	6.2k	11.9k	8.5k
技术栈	TypeScript (跑在 Pi 运行时上)	Python (独立流水线)	Python (smolagents + litellm)
许可证	MIT	MIT	无明确 license 文件
核心目标	搜论文、读论文、写带引文的研究简报/文献综述	给一个想法，自动出完整论文（LaTeX + BibTeX + 实验 + 图表）	读论文、训练模型、部署模型到 HuggingFace
能查论文吗？	能，主力功能。通过 alphaXiv 搜/读/问答论文，Web 搜索补全	能，通过 OpenAlex + Semantic Scholar + arXiv，4 层引文验证	能，内置 HF 文档/论文搜索工具
能自己做实验吗？	有限能。`/autoresearch` 可循环跑实验，`/replicate` 可复现，Docker/Modal/RunPod 跑代码，但不是端到端自动	能，这是核心卖点。23 阶段流水线自动生成实验代码、沙盒执行、自修复、自动调参、PIVOT/REFINE 循环	能，这是核心卖点。直接调 HuggingFace 的训练/推理 API，可以 fine-tune 模型、推到 Hub、管理 Jobs
能写论文吗？	写研究简报/文献综述/草稿，不生成 LaTeX	能，端到端。生成 NeurIPS/ICML/ICLR 格式 LaTeX + BibTeX + 图表，compile-ready	不写学术论文，写 ML 代码
子代理架构	4 个专职代理：Researcher / Writer / Verifier / Reviewer，严格职责分离	流水线式 23 阶段 8 阶段组，有 CodeAgent / BenchmarkAgent / FigureAgent 子系统	单代理 + ToolRouter，无专职子代理，工具路由统一调度
引文验证	最强。Verifier 代理逐条验证 URL、含义、死链，产出带 `.provenance.md`	4 层验证（arXiv → CrossRef → Semantic Scholar → LLM 相关性评分），伪造引文自动删除	无专门引文验证机制
同行评审	有。Reviewer 代理六维评估 + 严重度分级 + 置信度评分	有。Stage 18 多代理评审 + 4 轮论文质量审计（AI-slop 检测 + 7 维评分 + NeurIPS 检查清单）	无
人机协作	Plan 后等用户确认；`/autoresearch` 可 `/jobs` 监控	6 种 HITL 模式（full-auto / gate-only / checkpoint / co-pilot / step-by-step / custom），SmartPause 自动暂停	代理循环中敏感操作需用户 approval；Doom Loop Detector 防循环卡死
自学习/进化	无跨会话自学习，有 Memory 持久偏好	有。MetaClaw 跨运行学习：失败→结构化教训→技能注入，+18.3% 鲁棒性	会话自动上传到 HF Hub（可分享），但无跨会话学习
模型支持	20+ 提供商（Anthropic/OpenAI/Google/Z.AI 等），6 级 Thinking Level	OpenAI-compatible + 多个 fallback + ACP 协议（Claude Code/Codex/Copilot/Gemini CLI/Kimi CLI）	Anthropic + OpenAI，通过 litellm 路由
云 GPU	Modal（无服务器）+ RunPod（持久 Pod）	Docker 沙盒 + SSH 远程 GPU + 硬件自适应（CUDA/MPS/CPU）	HuggingFace Spaces/Docker，依赖 HF 生态
输出格式	Markdown 研究简报 + provenance 副件	LaTeX 论文 + BibTeX + 实验代码 + 图表 + 评审报告 + deliverables 目录	代码 + 模型推到 HF Hub
论文搜索源	alphaXiv（AI/ML 专用）+ Web	OpenAlex + Semantic Scholar + arXiv（跨学科）	HuggingFace Papers + 文档
适合谁用	需要可靠研究简报/文献综述的学者、研究者	想从想法自动生成完整论文的人	想快速 fine-tune/部署模型的 ML 工程师

核心区别总结

Feynman 的差异化优势：引文验证最严格（Verifier 代理 + provenance 副件），子代理职责分离最清晰，学术研究辅助最专业。它不追求全自动，追求的是"产出的每句话都有出处"。

AutoResearchClaw 的差异化优势：唯一做到"给想法→出完整论文"端到端全自动。23 阶段流水线、自修复实验、PIVOT/REFINE 决策循环、MetaClaw 跨运行学习。代价是复杂度高，输出更"自动化"但可控性弱于 Feynman。

ML-Intern 的差异化优势：和 HuggingFace 生态深度绑定。直接访问 HF 文档、数据集、模型、Jobs、Spaces。如果你要在 HF 上 fine-tune 和部署模型，ML-Intern 最顺手。但它不做学术写作和引文验证。

写可靠的文献综述 / 研究简报 → Feynman（引文验证最强）
从想法全自动出一篇论文 → AutoResearchClaw（端到端流水线）
训练和部署 ML 模型 → ML-Intern（HF 生态最顺）
做论文 vs 代码的审计 → Feynman（独有的 /audit）
反复实验调参 → AutoResearchClaw 或 Feynman 的 /autoresearch（前者更端到端，后者更轻量可控）
复现别人的论文实验 → Feynman（/replicate）