科研 Agent 实战:文献检索与证据验证流水线
概念速查
学术 API 速查
| API | 接入方式 | 数据规模 | 速率限制 | 认证 | 最适用场景 | 关键限制 |
|---|---|---|---|---|---|---|
| arXiv API | REST + Atom/XML | 2.3M+ 预印本 | ~1 req/3s(非官方) | 无 Key | AI/CS/物理最新追踪 | 仅预印本;XML 需额外解析 |
| Semantic Scholar | REST + JSON + GraphQL | 200M+ papers, 2.4B+ 引用关系 | 100 req/min(免费) | API Key | 论文检索、引用图谱、作者影响力 | 返回 metadata,非 evidence chunk |
| OpenAlex | REST + JSON | 4.77 亿 works | 10 req/s(无 Key)→ 100 req/s | API Key(可选) | 开放学术图谱、机构/作者/主题分析 | 语义搜索仅基于 title+abstract |
| Crossref | REST + JSON | 1.8 亿 DOI 记录 | 50 req/s | 无 Key | DOI 元数据验证、出版信息确认 | 不抓全文,非语义检索 |
| Europe PMC | REST + JSON | 3300 万+ publications | 3 req/s | 无 Key | 生物医学 OA 全文与图表 | 学科集中,跨学科弱 |
| Sciverse | REST + JSON | 5.16 亿记录 | 文档未公开 | Token | 科研 Agent evidence 检索、全文 chunk 读取 | 需要 Token,生态扩展中 |
arXiv API 接入示例:
bash
curl "https://export.arxiv.org/api/query?search_query=all:multi-agent+reinforcement+learning&start=0&max_results=5&sortBy=submittedDate&sortOrder=descending"
返回 Atom XML 格式,需解析 <entry> 中的 <title>, <summary>, <arxiv:doi>。
Semantic Scholar API 接入示例:
bash
curl "https://api.semanticscholar.org/graph/v1/paper/search?query=multi-agent+reinforcement+learning&limit=5&fields=title,year,abstract,authors,citationCount,openAccessPdf"
返回 JSON,支持 fields 参数精确定义返回字段,这是 Semantic Scholar 相比 arXiv 的核心优势------结构化的论文图数据。
OpenAlex API 接入示例:
bash
curl "https://api.openalex.org/works?search=semantic+scholar+agent+literature&per-page=5&select=id,title,publication_year,doi,relevance_score"
OpenAlex 的主打优势是规模------4.77 亿 works 的跨学科覆盖,且按年更新。它同时提供 semantic search 端点(基于 title + abstract 的 embedding 检索),适合快速发现"相关论文"但无法直接返回正文 evidence chunk。
Sciverse API 接入示例:
bash
curl -X POST "https://api.sciverse.space/agentic-search" \
-H "Authorization: Bearer $SCIVERSE_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{"query": "semantic scholar agent literature", "top_k": 5}'
Sciverse 将科研 Agent 的常用动作抽象为 5 个接口:agentic-search 负责自然语言→evidence chunks,meta-search 负责结构化条件→论文列表,content 负责 doc_id→全文分段读取,resource 负责图表/附件下载,meta-catalog 负责字段字典。这套设计的出发点不是"人搜论文",而是"Agent 调接口"。
四种 API 的核心差异:
| 维度 | arXiv API | Semantic Scholar | OpenAlex | Sciverse |
|---|---|---|---|---|
| 协议 | Atom XML | REST JSON + GraphQL | REST JSON | REST JSON |
| 速率限制 | 有限,需注意频率 | 100 req/min(免费) | 10→100 req/s | 文档未公开 |
| 返回粒度 | 整篇元数据+摘要 | 可按 field 筛选 metadata | 可按 field 筛选 | evidence chunk + doc_id + 页码 |
| 引用网络 | 不直接提供 | 完整 citation graph | 完整引用数据 | 通过元数据关联 |
| 全文读取 | 不直接支持 | 有限(开放 PDF 链接) | 不直接支持 | content 接口分段读取 |
| 开放度 | 完全免费无 Key | 需 API Key | 无 Key 可读 | 需 Token |
科研 Agent 核心能力对比
| 维度 | Co-Scientist | PaperQA | Open Deep Research | ARS |
|---|---|---|---|---|
| 证据来源 | PubMed + 内部知识库 | arXiv + Semantic Scholar | Web + 预印本 | Semantic Scholar + OpenAlex + Crossref |
| 引用可追溯 | 部分(附引用列表) | 全文级(chunk + doc_id) | 有限(多为 URL) | 三层锚点(quote/page/section/paragraph) |
| 证据验证 | 同行评估(模拟) | 多源交叉验证 | 无内置验证 | 三索引三角验证 + 声明对齐审计 |
| 人机协同 | 迭代反馈 | 人工检查点 | 单次问答 | 两道硬门(Integrity Gate) |
| 架构风格 | 生成→评估→反驳循环 | 检索→阅读→回答 | 搜索→汇总 | 10 阶段编排 + 4 技能模块 |
| 适用场景 | 生物医学前沿假设生成 | 跨学科综述 | 快速背景调研 | 结构化论文写作与审计 |
论文检索 → 证据提取 → 引用追溯 完整流水线
#mermaid-svg-nRW21WLQMJYxW7U9{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-nRW21WLQMJYxW7U9 .error-icon{fill:#552222;}#mermaid-svg-nRW21WLQMJYxW7U9 .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-nRW21WLQMJYxW7U9 .marker{fill:#333333;stroke:#333333;}#mermaid-svg-nRW21WLQMJYxW7U9 .marker.cross{stroke:#333333;}#mermaid-svg-nRW21WLQMJYxW7U9 svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-nRW21WLQMJYxW7U9 p{margin:0;}#mermaid-svg-nRW21WLQMJYxW7U9 .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-nRW21WLQMJYxW7U9 .cluster-label text{fill:#333;}#mermaid-svg-nRW21WLQMJYxW7U9 .cluster-label span{color:#333;}#mermaid-svg-nRW21WLQMJYxW7U9 .cluster-label span p{background-color:transparent;}#mermaid-svg-nRW21WLQMJYxW7U9 .label text,#mermaid-svg-nRW21WLQMJYxW7U9 span{fill:#333;color:#333;}#mermaid-svg-nRW21WLQMJYxW7U9 .node rect,#mermaid-svg-nRW21WLQMJYxW7U9 .node circle,#mermaid-svg-nRW21WLQMJYxW7U9 .node ellipse,#mermaid-svg-nRW21WLQMJYxW7U9 .node polygon,#mermaid-svg-nRW21WLQMJYxW7U9 .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-nRW21WLQMJYxW7U9 .rough-node .label text,#mermaid-svg-nRW21WLQMJYxW7U9 .node .label text,#mermaid-svg-nRW21WLQMJYxW7U9 .image-shape .label,#mermaid-svg-nRW21WLQMJYxW7U9 .icon-shape .label{text-anchor:middle;}#mermaid-svg-nRW21WLQMJYxW7U9 .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-nRW21WLQMJYxW7U9 .rough-node .label,#mermaid-svg-nRW21WLQMJYxW7U9 .node .label,#mermaid-svg-nRW21WLQMJYxW7U9 .image-shape .label,#mermaid-svg-nRW21WLQMJYxW7U9 .icon-shape .label{text-align:center;}#mermaid-svg-nRW21WLQMJYxW7U9 .node.clickable{cursor:pointer;}#mermaid-svg-nRW21WLQMJYxW7U9 .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-nRW21WLQMJYxW7U9 .arrowheadPath{fill:#333333;}#mermaid-svg-nRW21WLQMJYxW7U9 .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-nRW21WLQMJYxW7U9 .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-nRW21WLQMJYxW7U9 .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-nRW21WLQMJYxW7U9 .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-nRW21WLQMJYxW7U9 .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-nRW21WLQMJYxW7U9 .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-nRW21WLQMJYxW7U9 .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-nRW21WLQMJYxW7U9 .cluster text{fill:#333;}#mermaid-svg-nRW21WLQMJYxW7U9 .cluster span{color:#333;}#mermaid-svg-nRW21WLQMJYxW7U9 div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-nRW21WLQMJYxW7U9 .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-nRW21WLQMJYxW7U9 rect.text{fill:none;stroke-width:0;}#mermaid-svg-nRW21WLQMJYxW7U9 .icon-shape,#mermaid-svg-nRW21WLQMJYxW7U9 .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-nRW21WLQMJYxW7U9 .icon-shape p,#mermaid-svg-nRW21WLQMJYxW7U9 .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-nRW21WLQMJYxW7U9 .icon-shape .label rect,#mermaid-svg-nRW21WLQMJYxW7U9 .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-nRW21WLQMJYxW7U9 .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-nRW21WLQMJYxW7U9 .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-nRW21WLQMJYxW7U9 :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 用户问题
元搜索层
arXiv API
Semantic Scholar
OpenAlex
去重与排序
证据提取层
正文 chunk 读取
元数据关联
图表资源定位
证据验证层
多源交叉验证
引用追溯校验
置信度打分
结构化证据包
LLM 答案生成
输出 + doc_id / 页码 / DOI
底层原理
arXiv API + Semantic Scholar 接入方式对比
arXiv API 采用传统 REST + Atom XML 协议,适合批量抓取预印本元数据。由于返回格式为 XML,在 Agent 内部需要额外解析层将其转为结构化 JSON。arXiv 的优势在于完全开源、无需 API Key,但搜索能力有限------仅支持基于标题/摘要/作者的关键词匹配,不支持语义搜索。它的 /api/query 端点仅支持 search_query、start、max_results、sortBy 四个参数,无法做多条件组合过滤。
Semantic Scholar 提供了两种接入路径:REST API 适合快速检索和简单查询,GraphQL 端点则允许精确控制返回字段。其 TACO API(Turing Academic Corpus)提供了引用关系的完整图谱,这对 Agent 进行文献追溯至关重要。相比 arXiv,Semantic Scholar 支持按引用量、影响力排序,并能返回开放 PDF 链接。Agent 可以利用其 /graph/v1/paper/{id}/citations 端点进行引用图谱分析------逐层递归遍历被引网络。
OpenAlex 的差异化优势在于规模(4.77 亿 works vs Semantic Scholar 的 2 亿 papers),且完全开放数据至 Snowflake 和 BigQuery,适合批处理级分析。但它的 semantic search 仅作用于 title + abstract 的 embedding,适合"找相关论文"而非"拿正文证据"。OpenAlex 不提供 pdf 链接或正文内容,在 Agent 工作流中更适合做元数据丰富层而非证据层。
Sciverse 在设计上直接面向 Agent。它的 agentic-search 接口以自然语言问题为输入,返回 evidence chunks------每一条包含 doc_id、文本片段、页码、offset。这种返回结构让 Agent 可以在拿到底层证据后,通过 content 接口分段读取全文,通过 resource 接口获取图表资源。整个链路不需要 LLM 猜测字段名或拼凑查询参数,每个步骤的输出就是下一步的输入。
在科研 Agent 中,建议采用三层数据源架构:arXiv 作为预印本热数据层(即时性优先)、Semantic Scholar 作为元数据和引用图谱层(结构优先)、Sciverse 作为 evidence chunk 层(可追溯性优先)。高频查询走本地缓存,减少 API 调用和速率限制风险。
证据验证策略
科研 Agent 的核心挑战不是"能否找到论文",而是"拿到的证据是否可信"。证据验证有三个层次:
多源交叉验证:同一结论需要至少 2 个独立来源支撑。Agent 可以设计为:从 Semantic Scholar 获取论文列表,从 OpenAlex 验证作者和机构信息,从 Crossref 确认 DOI 元数据。三元组验证能显著降低单点失效风险。ARS 实现了"三索引交叉三角验证"------每条引用必须通过 Semantic Scholar + OpenAlex + Crossref 中至少两个索引的确认,否则标记为"存疑"并触发人工审查。
python
def cross_validate(claim: str, sources: list) -> dict:
"""多源交叉验证核心逻辑"""
evidence = []
for source in sources:
chunks = source.search(claim)
if not chunks:
continue
evidence.append({
"source": source.name,
"doc_id": chunks[0]["doc_id"],
"chunk": chunks[0]["text"],
"score": chunks[0]["relevance"]
})
return {
"claim": claim,
"evidence_count": len(evidence),
"sources_agreed": len(evidence) >= 2,
"confidence": min(1.0, len(evidence) * 0.4),
"items": evidence
}
引用追溯校验:向 arXiv 或 Semantic Scholar 提交"这篇论文是否真的引用了某文献"的查询,结合 DOI 和标题的双重匹配。ARS 方案采用三索引交叉三角验证------Semantic Scholar + OpenAlex + Crossref,每条引用必须通过至少两个索引的确认。
三层引用锚点:ARS v3.7.3 实现了一套严格的三层锚点机制------每条引用必须携带 quote(原文引用语句)、page(页码)、section/paragraph(段落位置)。Agent 在生成答案时,不能只在句末插一个引用标记,而是要输出"这段话来自哪篇论文的第几页第几段"。这本质上是把证据链从"元数据级"推进到了"行级别"。输出前需要执行"声明-引用对齐审计":LLM 逐句判断每一条声明是否被锚点中的引用语句所支撑,不匹配的声明被标记为 HIGH-WARN 并阻止输出。
置信度打分:综合来源数、来源权威度、chunk 相关度、时间新鲜度四个维度,输出 0-1 的置信度分数。低于 0.6 的证据不应直接进入答案生成环节,而应触发二次检索。置信度评分在 Agent 内部应当作为一个独立模块运行,与 LLM 推理解耦------避免模型自我美化评分。
科研 Agent 的幻觉问题与缓解
科研 Agent 的幻觉分两类:
引用幻觉------生成的参考文献格式正确但文献不存在。Nature 2026 年的报道指出,SSRN 上高达 1.91% 的引用是幻觉引用。Cornell 大学对 250 万篇论文的 1.11 亿条引用进行全量交叉审计,发现 146,932 条幻觉引用,其中 SSRN 的幻觉引用率最高。更隐蔽的是,这些幻觉引用倾向于伪造高知名度男性学者的作品------AI 生成的假引用并非随机,而是有统计偏好的系统性污染。缓解措施包括:每条引用必须携带 quote/page/section/paragraph 锚点;输出前执行声明-引用对齐审计。
结论幻觉------基于真实文献得出错误或过度推断的结论。缓解措施包括:将 Agent 的搜索和推理分离为独立阶段;只允许 LLM 基于 evidence pack 生成答案(而非凭记忆);设置人机协同检查点,高风险结论必须人工确认。
Co-Scientist 的工作流设计 :Google 的 Co-Scientist 采用"生成→评估→反驳→改进"的循环框架。首先生成候选假设,然后由评估模块(模拟同行评审)对假设打分,再由反驳模块寻找证伪证据,最后根据反驳结果改进假设。这个循环持续多轮,直到假设收敛到一个置信度足够高的版本。它的关键设计是搜索和推理严格分离------搜索阶段只能收集证据,推理阶段只能基于收集到的证据做推演,两者不共享同一个上下文窗口。这让模型无法在推理时"凭空记起"未检索的内容,从架构层面堵死了结论幻觉的一条主要路径。
#mermaid-svg-wUoQSYzJOqtgQ9K3{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .error-icon{fill:#552222;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .marker{fill:#333333;stroke:#333333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .marker.cross{stroke:#333333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 p{margin:0;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .cluster-label text{fill:#333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .cluster-label span{color:#333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .cluster-label span p{background-color:transparent;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .label text,#mermaid-svg-wUoQSYzJOqtgQ9K3 span{fill:#333;color:#333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .node rect,#mermaid-svg-wUoQSYzJOqtgQ9K3 .node circle,#mermaid-svg-wUoQSYzJOqtgQ9K3 .node ellipse,#mermaid-svg-wUoQSYzJOqtgQ9K3 .node polygon,#mermaid-svg-wUoQSYzJOqtgQ9K3 .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .rough-node .label text,#mermaid-svg-wUoQSYzJOqtgQ9K3 .node .label text,#mermaid-svg-wUoQSYzJOqtgQ9K3 .image-shape .label,#mermaid-svg-wUoQSYzJOqtgQ9K3 .icon-shape .label{text-anchor:middle;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .rough-node .label,#mermaid-svg-wUoQSYzJOqtgQ9K3 .node .label,#mermaid-svg-wUoQSYzJOqtgQ9K3 .image-shape .label,#mermaid-svg-wUoQSYzJOqtgQ9K3 .icon-shape .label{text-align:center;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .node.clickable{cursor:pointer;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .arrowheadPath{fill:#333333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-wUoQSYzJOqtgQ9K3 .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-wUoQSYzJOqtgQ9K3 .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .cluster text{fill:#333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .cluster span{color:#333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 rect.text{fill:none;stroke-width:0;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .icon-shape,#mermaid-svg-wUoQSYzJOqtgQ9K3 .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .icon-shape p,#mermaid-svg-wUoQSYzJOqtgQ9K3 .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .icon-shape .label rect,#mermaid-svg-wUoQSYzJOqtgQ9K3 .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-wUoQSYzJOqtgQ9K3 .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-wUoQSYzJOqtgQ9K3 :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} >= 0.6
< 0.6
是
否
用户问题
独立搜索阶段
生成 evidence pack
证据置信度
LLM 推理阶段
二次检索
引用锚点校验
引用通过
输出答案
人工检查点
架构设计原则
搜索并行化
科研检索是典型的 I/O 密集型任务。多个学术 API 应并行调用而非串行执行,可降低 60-70% 的检索延迟。关键点:设置独立超时(每路 15s),任一 API 失败不影响其他路;结果合并阶段做去重(按 DOI + title 模糊匹配)。DeepResearchAgent 采用"规划-执行-反思"框架将这四个步骤编排为端到端流水线:规划智能体将宽泛课题分解为子问题,搜索智能体并行调用 arXiv、Semantic Scholar 等 API,阅读智能体对返回结果做 RAG 分段理解,最后综合智能体交叉对比生成结构化报告。
证据链可追溯
Agent 输出答案时,必须附带完整的证据链:doc_id + 页码 + 原文 chunk。这不仅是验证手段,也是信任基础。Sciverse 将 Agent 常用动作拆为 agentic-search/content/resource 接口的设计值得借鉴------它在架构层面保证了每个答案都有原文可回溯。Co-Scientist 的做法更进一步:它要求每条输出声明都必须携带指向原始文献的"证据锚点",不满足锚点要求的声明不允许出现在最终输出中。PaperQA 则对所有检索到的 chunk 标注了 doc_id 和来源论文标题,保证每个信息片段都可以被反查验证。
人机协同检查点
高风险结论(新药靶点、实验方案、量化预测)必须在输出前插入人工审批阶段。ARS 在 10 阶段流水线中设置了两道硬门(Integrity Gate):Stage 2.5 捕获引用伪造,Stage 4.5 捕获逻辑错误。如果某条引用在三角验证中只通过了一个索引,ARS 会将其标记为"部分验证"并加入人工审核队列,而非直接丢弃或放行。同时,ARS 引入了 Concession Threshold Protocol------禁止 Agent 在用户质疑时立即让步,要求 DA 在 1-5 分量表上评分且 ≥4 分才允许修改结论。这不是降低效率,而是科研 Agent 信任基线的必要条件。在真实运行中,Stage 2.5 一次捕获了 15 条伪造引用和 3 个统计错误。
科研 Agent 的竞争力不在"用哪个模型",而在于谁能让证据链像代码一样可审计、可复现、可追溯。