科研 Agent 实战：文献检索与证据验证流水线

概念速查

学术 API 速查

API	接入方式	数据规模	速率限制	认证	最适用场景	关键限制
arXiv API	REST + Atom/XML	2.3M+ 预印本	~1 req/3s（非官方）	无 Key	AI/CS/物理最新追踪	仅预印本；XML 需额外解析
Semantic Scholar	REST + JSON + GraphQL	200M+ papers, 2.4B+ 引用关系	100 req/min（免费）	API Key	论文检索、引用图谱、作者影响力	返回 metadata，非 evidence chunk
OpenAlex	REST + JSON	4.77 亿 works	10 req/s（无 Key）→ 100 req/s	API Key（可选）	开放学术图谱、机构/作者/主题分析	语义搜索仅基于 title+abstract
Crossref	REST + JSON	1.8 亿 DOI 记录	50 req/s	无 Key	DOI 元数据验证、出版信息确认	不抓全文，非语义检索
Europe PMC	REST + JSON	3300 万+ publications	3 req/s	无 Key	生物医学 OA 全文与图表	学科集中，跨学科弱
Sciverse	REST + JSON	5.16 亿记录	文档未公开	Token	科研 Agent evidence 检索、全文 chunk 读取	需要 Token，生态扩展中

arXiv API 接入示例：

bash 复制代码

curl "https://export.arxiv.org/api/query?search_query=all:multi-agent+reinforcement+learning&start=0&max_results=5&sortBy=submittedDate&sortOrder=descending"

返回 Atom XML 格式，需解析 <entry> 中的 <title>, <summary>, <arxiv:doi>。

Semantic Scholar API 接入示例：

bash 复制代码

curl "https://api.semanticscholar.org/graph/v1/paper/search?query=multi-agent+reinforcement+learning&limit=5&fields=title,year,abstract,authors,citationCount,openAccessPdf"

返回 JSON，支持 fields 参数精确定义返回字段，这是 Semantic Scholar 相比 arXiv 的核心优势------结构化的论文图数据。

OpenAlex API 接入示例：

bash 复制代码

curl "https://api.openalex.org/works?search=semantic+scholar+agent+literature&per-page=5&select=id,title,publication_year,doi,relevance_score"

OpenAlex 的主打优势是规模------4.77 亿 works 的跨学科覆盖，且按年更新。它同时提供 semantic search 端点（基于 title + abstract 的 embedding 检索），适合快速发现"相关论文"但无法直接返回正文 evidence chunk。

Sciverse API 接入示例：

bash 复制代码

curl -X POST "https://api.sciverse.space/agentic-search" \
  -H "Authorization: Bearer $SCIVERSE_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{"query": "semantic scholar agent literature", "top_k": 5}'

Sciverse 将科研 Agent 的常用动作抽象为 5 个接口：agentic-search 负责自然语言→evidence chunks，meta-search 负责结构化条件→论文列表，content 负责 doc_id→全文分段读取，resource 负责图表/附件下载，meta-catalog 负责字段字典。这套设计的出发点不是"人搜论文"，而是"Agent 调接口"。

四种 API 的核心差异：

维度	arXiv API	Semantic Scholar	OpenAlex	Sciverse
协议	Atom XML	REST JSON + GraphQL	REST JSON	REST JSON
速率限制	有限，需注意频率	100 req/min（免费）	10→100 req/s	文档未公开
返回粒度	整篇元数据+摘要	可按 field 筛选 metadata	可按 field 筛选	evidence chunk + doc_id + 页码
引用网络	不直接提供	完整 citation graph	完整引用数据	通过元数据关联
全文读取	不直接支持	有限（开放 PDF 链接）	不直接支持	content 接口分段读取
开放度	完全免费无 Key	需 API Key	无 Key 可读	需 Token

科研 Agent 核心能力对比

维度	Co-Scientist	PaperQA	Open Deep Research	ARS
证据来源	PubMed + 内部知识库	arXiv + Semantic Scholar	Web + 预印本	Semantic Scholar + OpenAlex + Crossref
引用可追溯	部分（附引用列表）	全文级（chunk + doc_id）	有限（多为 URL）	三层锚点（quote/page/section/paragraph）
证据验证	同行评估（模拟）	多源交叉验证	无内置验证	三索引三角验证 + 声明对齐审计
人机协同	迭代反馈	人工检查点	单次问答	两道硬门（Integrity Gate）
架构风格	生成→评估→反驳循环	检索→阅读→回答	搜索→汇总	10 阶段编排 + 4 技能模块
适用场景	生物医学前沿假设生成	跨学科综述	快速背景调研	结构化论文写作与审计

论文检索 → 证据提取 → 引用追溯完整流水线

#mermaid-svg-nRW21WLQMJYxW7U9{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-nRW21WLQMJYxW7U9 .error-icon{fill:#552222;}#mermaid-svg-nRW21WLQMJYxW7U9 .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-nRW21WLQMJYxW7U9 .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-nRW21WLQMJYxW7U9 .marker{fill:#333333;stroke:#333333;}#mermaid-svg-nRW21WLQMJYxW7U9 .marker.cross{stroke:#333333;}#mermaid-svg-nRW21WLQMJYxW7U9 svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-nRW21WLQMJYxW7U9 p{margin:0;}#mermaid-svg-nRW21WLQMJYxW7U9 .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-nRW21WLQMJYxW7U9 .cluster-label text{fill:#333;}#mermaid-svg-nRW21WLQMJYxW7U9 .cluster-label span{color:#333;}#mermaid-svg-nRW21WLQMJYxW7U9 .cluster-label span p{background-color:transparent;}#mermaid-svg-nRW21WLQMJYxW7U9 .label text,#mermaid-svg-nRW21WLQMJYxW7U9 span{fill:#333;color:#333;}#mermaid-svg-nRW21WLQMJYxW7U9 .node rect,#mermaid-svg-nRW21WLQMJYxW7U9 .node circle,#mermaid-svg-nRW21WLQMJYxW7U9 .node ellipse,#mermaid-svg-nRW21WLQMJYxW7U9 .node polygon,#mermaid-svg-nRW21WLQMJYxW7U9 .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-nRW21WLQMJYxW7U9 .rough-node .label text,#mermaid-svg-nRW21WLQMJYxW7U9 .node .label text,#mermaid-svg-nRW21WLQMJYxW7U9 .image-shape .label,#mermaid-svg-nRW21WLQMJYxW7U9 .icon-shape .label{text-anchor:middle;}#mermaid-svg-nRW21WLQMJYxW7U9 .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-nRW21WLQMJYxW7U9 .rough-node .label,#mermaid-svg-nRW21WLQMJYxW7U9 .node .label,#mermaid-svg-nRW21WLQMJYxW7U9 .image-shape .label,#mermaid-svg-nRW21WLQMJYxW7U9 .icon-shape .label{text-align:center;}#mermaid-svg-nRW21WLQMJYxW7U9 .node.clickable{cursor:pointer;}#mermaid-svg-nRW21WLQMJYxW7U9 .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-nRW21WLQMJYxW7U9 .arrowheadPath{fill:#333333;}#mermaid-svg-nRW21WLQMJYxW7U9 .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-nRW21WLQMJYxW7U9 .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-nRW21WLQMJYxW7U9 .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-nRW21WLQMJYxW7U9 .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-nRW21WLQMJYxW7U9 .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-nRW21WLQMJYxW7U9 .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-nRW21WLQMJYxW7U9 .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-nRW21WLQMJYxW7U9 .cluster text{fill:#333;}#mermaid-svg-nRW21WLQMJYxW7U9 .cluster span{color:#333;}#mermaid-svg-nRW21WLQMJYxW7U9 div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-nRW21WLQMJYxW7U9 .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-nRW21WLQMJYxW7U9 rect.text{fill:none;stroke-width:0;}#mermaid-svg-nRW21WLQMJYxW7U9 .icon-shape,#mermaid-svg-nRW21WLQMJYxW7U9 .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-nRW21WLQMJYxW7U9 .icon-shape p,#mermaid-svg-nRW21WLQMJYxW7U9 .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-nRW21WLQMJYxW7U9 .icon-shape .label rect,#mermaid-svg-nRW21WLQMJYxW7U9 .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-nRW21WLQMJYxW7U9 .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-nRW21WLQMJYxW7U9 .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-nRW21WLQMJYxW7U9 :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 用户问题
元搜索层
arXiv API
Semantic Scholar
OpenAlex
去重与排序
证据提取层
正文 chunk 读取
元数据关联
图表资源定位
证据验证层
多源交叉验证
引用追溯校验
置信度打分
结构化证据包
LLM 答案生成
输出 + doc_id / 页码 / DOI

底层原理

arXiv API + Semantic Scholar 接入方式对比

arXiv API 采用传统 REST + Atom XML 协议，适合批量抓取预印本元数据。由于返回格式为 XML，在 Agent 内部需要额外解析层将其转为结构化 JSON。arXiv 的优势在于完全开源、无需 API Key，但搜索能力有限------仅支持基于标题/摘要/作者的关键词匹配，不支持语义搜索。它的 /api/query 端点仅支持 search_query、start、max_results、sortBy 四个参数，无法做多条件组合过滤。

Semantic Scholar 提供了两种接入路径：REST API 适合快速检索和简单查询，GraphQL 端点则允许精确控制返回字段。其 TACO API（Turing Academic Corpus）提供了引用关系的完整图谱，这对 Agent 进行文献追溯至关重要。相比 arXiv，Semantic Scholar 支持按引用量、影响力排序，并能返回开放 PDF 链接。Agent 可以利用其 /graph/v1/paper/{id}/citations 端点进行引用图谱分析------逐层递归遍历被引网络。

OpenAlex 的差异化优势在于规模（4.77 亿 works vs Semantic Scholar 的 2 亿 papers），且完全开放数据至 Snowflake 和 BigQuery，适合批处理级分析。但它的 semantic search 仅作用于 title + abstract 的 embedding，适合"找相关论文"而非"拿正文证据"。OpenAlex 不提供 pdf 链接或正文内容，在 Agent 工作流中更适合做元数据丰富层而非证据层。

Sciverse 在设计上直接面向 Agent。它的 agentic-search 接口以自然语言问题为输入，返回 evidence chunks------每一条包含 doc_id、文本片段、页码、offset。这种返回结构让 Agent 可以在拿到底层证据后，通过 content 接口分段读取全文，通过 resource 接口获取图表资源。整个链路不需要 LLM 猜测字段名或拼凑查询参数，每个步骤的输出就是下一步的输入。

在科研 Agent 中，建议采用三层数据源架构：arXiv 作为预印本热数据层（即时性优先）、Semantic Scholar 作为元数据和引用图谱层（结构优先）、Sciverse 作为 evidence chunk 层（可追溯性优先）。高频查询走本地缓存，减少 API 调用和速率限制风险。

证据验证策略

科研 Agent 的核心挑战不是"能否找到论文"，而是"拿到的证据是否可信"。证据验证有三个层次：

多源交叉验证：同一结论需要至少 2 个独立来源支撑。Agent 可以设计为：从 Semantic Scholar 获取论文列表，从 OpenAlex 验证作者和机构信息，从 Crossref 确认 DOI 元数据。三元组验证能显著降低单点失效风险。ARS 实现了"三索引交叉三角验证"------每条引用必须通过 Semantic Scholar + OpenAlex + Crossref 中至少两个索引的确认，否则标记为"存疑"并触发人工审查。

python 复制代码

def cross_validate(claim: str, sources: list) -> dict:
    """多源交叉验证核心逻辑"""
    evidence = []
    for source in sources:
        chunks = source.search(claim)
        if not chunks:
            continue
        evidence.append({
            "source": source.name,
            "doc_id": chunks[0]["doc_id"],
            "chunk": chunks[0]["text"],
            "score": chunks[0]["relevance"]
        })
    return {
        "claim": claim,
        "evidence_count": len(evidence),
        "sources_agreed": len(evidence) >= 2,
        "confidence": min(1.0, len(evidence) * 0.4),
        "items": evidence
    }

引用追溯校验：向 arXiv 或 Semantic Scholar 提交"这篇论文是否真的引用了某文献"的查询，结合 DOI 和标题的双重匹配。ARS 方案采用三索引交叉三角验证------Semantic Scholar + OpenAlex + Crossref，每条引用必须通过至少两个索引的确认。

三层引用锚点：ARS v3.7.3 实现了一套严格的三层锚点机制------每条引用必须携带 quote（原文引用语句）、page（页码）、section/paragraph（段落位置）。Agent 在生成答案时，不能只在句末插一个引用标记，而是要输出"这段话来自哪篇论文的第几页第几段"。这本质上是把证据链从"元数据级"推进到了"行级别"。输出前需要执行"声明-引用对齐审计"：LLM 逐句判断每一条声明是否被锚点中的引用语句所支撑，不匹配的声明被标记为 HIGH-WARN 并阻止输出。

置信度打分：综合来源数、来源权威度、chunk 相关度、时间新鲜度四个维度，输出 0-1 的置信度分数。低于 0.6 的证据不应直接进入答案生成环节，而应触发二次检索。置信度评分在 Agent 内部应当作为一个独立模块运行，与 LLM 推理解耦------避免模型自我美化评分。

科研 Agent 的幻觉问题与缓解

科研 Agent 的幻觉分两类：

引用幻觉------生成的参考文献格式正确但文献不存在。Nature 2026 年的报道指出，SSRN 上高达 1.91% 的引用是幻觉引用。Cornell 大学对 250 万篇论文的 1.11 亿条引用进行全量交叉审计，发现 146,932 条幻觉引用，其中 SSRN 的幻觉引用率最高。更隐蔽的是，这些幻觉引用倾向于伪造高知名度男性学者的作品------AI 生成的假引用并非随机，而是有统计偏好的系统性污染。缓解措施包括：每条引用必须携带 quote/page/section/paragraph 锚点；输出前执行声明-引用对齐审计。

结论幻觉------基于真实文献得出错误或过度推断的结论。缓解措施包括：将 Agent 的搜索和推理分离为独立阶段；只允许 LLM 基于 evidence pack 生成答案（而非凭记忆）；设置人机协同检查点，高风险结论必须人工确认。

Co-Scientist 的工作流设计 ：Google 的 Co-Scientist 采用"生成→评估→反驳→改进"的循环框架。首先生成候选假设，然后由评估模块（模拟同行评审）对假设打分，再由反驳模块寻找证伪证据，最后根据反驳结果改进假设。这个循环持续多轮，直到假设收敛到一个置信度足够高的版本。它的关键设计是搜索和推理严格分离------搜索阶段只能收集证据，推理阶段只能基于收集到的证据做推演，两者不共享同一个上下文窗口。这让模型无法在推理时"凭空记起"未检索的内容，从架构层面堵死了结论幻觉的一条主要路径。
#mermaid-svg-wUoQSYzJOqtgQ9K3{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .error-icon{fill:#552222;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .marker{fill:#333333;stroke:#333333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .marker.cross{stroke:#333333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 p{margin:0;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .cluster-label text{fill:#333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .cluster-label span{color:#333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .cluster-label span p{background-color:transparent;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .label text,#mermaid-svg-wUoQSYzJOqtgQ9K3 span{fill:#333;color:#333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .node rect,#mermaid-svg-wUoQSYzJOqtgQ9K3 .node circle,#mermaid-svg-wUoQSYzJOqtgQ9K3 .node ellipse,#mermaid-svg-wUoQSYzJOqtgQ9K3 .node polygon,#mermaid-svg-wUoQSYzJOqtgQ9K3 .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .rough-node .label text,#mermaid-svg-wUoQSYzJOqtgQ9K3 .node .label text,#mermaid-svg-wUoQSYzJOqtgQ9K3 .image-shape .label,#mermaid-svg-wUoQSYzJOqtgQ9K3 .icon-shape .label{text-anchor:middle;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .rough-node .label,#mermaid-svg-wUoQSYzJOqtgQ9K3 .node .label,#mermaid-svg-wUoQSYzJOqtgQ9K3 .image-shape .label,#mermaid-svg-wUoQSYzJOqtgQ9K3 .icon-shape .label{text-align:center;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .node.clickable{cursor:pointer;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .arrowheadPath{fill:#333333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-wUoQSYzJOqtgQ9K3 .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-wUoQSYzJOqtgQ9K3 .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-wUoQSYzJOqtgQ9K3 .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .cluster text{fill:#333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .cluster span{color:#333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-wUoQSYzJOqtgQ9K3 rect.text{fill:none;stroke-width:0;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .icon-shape,#mermaid-svg-wUoQSYzJOqtgQ9K3 .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .icon-shape p,#mermaid-svg-wUoQSYzJOqtgQ9K3 .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .icon-shape .label rect,#mermaid-svg-wUoQSYzJOqtgQ9K3 .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-wUoQSYzJOqtgQ9K3 .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-wUoQSYzJOqtgQ9K3 .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-wUoQSYzJOqtgQ9K3 :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} >= 0.6
< 0.6
是
否
用户问题
独立搜索阶段
生成 evidence pack
证据置信度
LLM 推理阶段
二次检索
引用锚点校验
引用通过
输出答案
人工检查点

架构设计原则

搜索并行化

科研检索是典型的 I/O 密集型任务。多个学术 API 应并行调用而非串行执行，可降低 60-70% 的检索延迟。关键点：设置独立超时（每路 15s），任一 API 失败不影响其他路；结果合并阶段做去重（按 DOI + title 模糊匹配）。DeepResearchAgent 采用"规划-执行-反思"框架将这四个步骤编排为端到端流水线：规划智能体将宽泛课题分解为子问题，搜索智能体并行调用 arXiv、Semantic Scholar 等 API，阅读智能体对返回结果做 RAG 分段理解，最后综合智能体交叉对比生成结构化报告。

证据链可追溯

Agent 输出答案时，必须附带完整的证据链：doc_id + 页码 + 原文 chunk。这不仅是验证手段，也是信任基础。Sciverse 将 Agent 常用动作拆为 agentic-search/content/resource 接口的设计值得借鉴------它在架构层面保证了每个答案都有原文可回溯。Co-Scientist 的做法更进一步：它要求每条输出声明都必须携带指向原始文献的"证据锚点"，不满足锚点要求的声明不允许出现在最终输出中。PaperQA 则对所有检索到的 chunk 标注了 doc_id 和来源论文标题，保证每个信息片段都可以被反查验证。

人机协同检查点

高风险结论（新药靶点、实验方案、量化预测）必须在输出前插入人工审批阶段。ARS 在 10 阶段流水线中设置了两道硬门（Integrity Gate）：Stage 2.5 捕获引用伪造，Stage 4.5 捕获逻辑错误。如果某条引用在三角验证中只通过了一个索引，ARS 会将其标记为"部分验证"并加入人工审核队列，而非直接丢弃或放行。同时，ARS 引入了 Concession Threshold Protocol------禁止 Agent 在用户质疑时立即让步，要求 DA 在 1-5 分量表上评分且 ≥4 分才允许修改结论。这不是降低效率，而是科研 Agent 信任基线的必要条件。在真实运行中，Stage 2.5 一次捕获了 15 条伪造引用和 3 个统计错误。

科研 Agent 的竞争力不在"用哪个模型"，而在于谁能让证据链像代码一样可审计、可复现、可追溯。

科研 Agent 实战：文献检索与证据验证流水线