从"人找论文"到"Agent 调用证据"
过去很长一段时间,科研检索的核心问题是:
研究者如何更快找到一篇相关论文?
因此,Google Scholar、万方数据、OpenAlex、Bohrium 等产品,分别从不同角度解决了科研信息发现的问题:有人擅长做通用学术搜索,有人擅长中文学术资源,有人擅长开放学术元数据,有人尝试把 AI for Science 做成一站式工作台。
但随着 Claude、Cursor、Codex、Manus 等 Agent 工具逐渐进入科研和开发流程,一个新的问题开始出现:
如果不是人,而是 Agent 要完成科研任务,它需要什么样的科学数据能力?
Agent 不只是"搜索论文"。它需要:
- 找到可信证据
- 读取原文上下文
- 拿到可引用片段
- 按年份、期刊、DOI、语言等条件筛选论文
- 获取图表、实验图、附件等资源
- 将结果接入 RAG、文献综述、科研问答、专利分析等工作流
- 保留 doc_id、页码、来源信息,避免生成不可追溯的答案
这意味着,科学数据产品正在从"给人看的检索入口",走向"给 Agent 调用的数据基础设施"。
Sciverse 的价值,正是在这个变化中变得清晰起来。
Sciverse 不是另一个 Google Scholar,也不只是一个论文搜索框。它更适合被理解为:面向 Agent 和开发者的 AI-Ready 科学数据 API,支持检索证据、读取全文、拉取资源和结构化筛选。
一、科研信息产品正在分成两类
如果把常见产品放在一起看,大致可以分成两类。
第一类是用户侧科研检索入口。
它们主要面向研究者本人,强调搜索、浏览、筛选和阅读体验。
代表产品包括:
- Google Scholar
- 万方数据
- Bohrium
第二类是数据和 API 基础设施。
它们主要面向开发者、系统和 Agent,强调数据可调用、结构化、自动化集成。
代表产品包括:
- OpenAlex
- Sciverse Agentic Search
- Sciverse Meta Search
这两类产品并不是简单替代关系,而是服务不同任务。
Google Scholar 适合研究者快速发现论文。
万方数据适合中文学术资源检索和机构知识服务。
Bohrium 更接近 AI for Science 工作台。
OpenAlex 提供开放学术元数据基础设施。
Sciverse 则面向 Agent / 开发者提供可调用的科学数据能力。
二、为什么传统科研检索不完全适合 Agent
传统科研检索通常围绕人的行为设计:
- 输入关键词
- 浏览结果列表
- 打开论文页面
- 阅读摘要或全文
- 人工判断相关性
- 手动整理引用
这个流程对人有效,但对 Agent 不够友好。
Agent 需要的是更明确、更结构化、可继续调用的数据接口。
例如,当用户让一个科研 Agent 回答:
"AlphaFold-Multimer 在跨膜受体复合物预测上有哪些进展?"
Agent 不应该只拿到一组网页链接。它更需要:
- 相关文献标题
- 可引用的正文片段
- 片段所在页码或位置
- doc_id
- 是否可以继续读取全文
- 是否有图表资源
- 后续如何生成引用依据
换句话说,Agent 需要的不是"搜索结果页",而是"证据调用链"。
这也是 AI-Ready 科学数据 API 的核心价值。
三、主要产品对比
下面用几个关键维度对比当前常见科研信息产品。
| 产品 | 核心定位 | 主要服务对象 | 最强能力 | 对 Agent 的适配程度 |
|---|---|---|---|---|
| Google Scholar | 通用学术搜索入口 | 研究者 | 覆盖广、使用门槛低、用户认知强 | 较低 |
| 万方数据 | 中文学术资源与知识服务平台 | 高校、机构、科研人员 | 中文期刊、学位论文、会议、专利、标准等资源 | 中低 |
| Bohrium | AI for Science 科研工作台 | 科研人员、AI4S 用户 | 科研工具体验、AI 科研场景整合 | 中高 |
| OpenAlex | 开放学术元数据 API | 开发者、数据分析团队 | 开放学术元数据、作者、机构、主题、引用关系 | 高 |
| Sciverse Agentic Search | Agent 科学证据检索 API | Agent、开发者、RAG 系统 | 自然语言检索 evidence chunks,返回 doc_id、片段和位置 | 高 |
| Sciverse Meta Search | 结构化科学元数据检索 API | 开发者、数据产品、Agent | 按年份、期刊、DOI、语言等字段筛选论文元数据 | 高 |
从这个对比可以看到,Sciverse 的差异点不在于"做一个更像搜索引擎的网页",而在于它把科学数据拆成了 Agent 可以调用的接口能力。
四、Google Scholar:适合人找论文,不适合作为 Agent 后端
Google Scholar 是全球研究者最熟悉的学术搜索入口之一。它的优势非常明确:
- 覆盖范围广
- 搜索体验简单
- 用户认知强
- 适合快速发现相关论文
- 引用、相关论文、版本等功能对人工研究很有帮助
但如果把 Google Scholar 放到 Agent 工作流里,就会遇到几个问题:
- 它不是稳定官方 API 产品
- 不适合大规模程序化调用
- 搜索结果不天然返回 evidence chunk
- 不提供标准化 doc_id → 全文读取链路
- 对 RAG、Agent 工具调用、自动化引用核对不够友好
因此,Google Scholar 更适合作为"人类研究者的搜索入口"。
而 Sciverse 更适合作为"Agent 的科学数据调用层"。
两者不是简单替代关系,而是面向不同使用方式。
| 对比维度 | Google Scholar | Sciverse |
|---|---|---|
| 主要用户 | 研究者 | Agent、开发者、科研系统 |
| 使用方式 | 人工搜索和浏览 | API / Skills / CLI / SDK 调用 |
| 返回结果 | 论文列表、引用、版本等 | evidence chunk、doc_id、元数据、全文、资源 |
| 是否适合 Agent | 不以 Agent 为核心设计 | 面向 Agent 工作流设计 |
| 典型场景 | 人找论文 | Agent 找证据、读全文、生成可追溯答案 |
五、万方数据:中文资源强,但 Agent-Native 不是核心方向
万方数据在中文学术资源领域具有很强积累。它覆盖中文期刊、学位论文、会议论文、专利、标准、科技成果等多类资源,并长期服务高校、科研院所、医院和企业研发部门。
它的优势在于:
- 中文学术资源丰富
- 机构采购和学术服务体系成熟
- 适合中文论文检索、资源查询和知识服务
- 在国内科研用户中有较强认知
但对于 Agent 和开发者而言,传统中文学术数据库通常面临几个挑战:
- 产品心智更偏资源库,而不是 API 基础设施
- 接口、开发者生态、Agent 工具链不是主要卖点
- 结果不一定天然适合 RAG / Agent 自动消费
- 面向全球科学数据和多语言 AI 工作流的能力需要额外补足
Sciverse 并不需要和万方在中文学术资源库上直接竞争。更适合的差异化方向是:
- 全球科学数据
- AI-Ready 全文
- Agent-Native API
- 文献、图书、专利、全文、资源的组合调用
- 适配 Claude、Cursor、Codex、Manus 等 Agent 工具链
如果说万方更像中文学术资源平台,Sciverse 更像面向 AI 和 Agent 的科学数据基础设施。
六、Bohrium:更像科研工作台,Sciverse 更像数据能力层
Bohrium 的产品形态更接近 AI for Science 工作台。它面向科研人员,将搜索、理解、计算、工具和 AI 能力组织在一起,帮助用户完成科研任务。
这类产品的优势在于:
- 用户体验完整
- 面向科研场景包装较好
- 更接近终端科研人员的工作流
- 适合做 AI4S 应用入口
但 Sciverse 的定位不同。
Sciverse 不一定要成为一个大而全的科研工作台。它更适合成为其他工具、Agent 和科研应用背后的科学数据能力层。
例如:
- 文献综述 Agent 可以调用 Sciverse 找证据
- 科学 RAG 系统可以调用 Sciverse 召回文献片段
- 教育问答产品可以调用 Sciverse 提供可追溯来源
- 专利分析工具可以调用 Sciverse 做文献与专利交叉探索
- MinerU 解析后的文档可以跳转到 Sciverse 继续查找外部科学证据
因此,Bohrium 更偏应用层,Sciverse 更偏基础设施层。
| 对比维度 | Bohrium | Sciverse |
|---|---|---|
| 产品形态 | AI4S 工作台 | 科学数据 API 与 Agent 工具层 |
| 主要入口 | 科研人员直接使用 | 开发者、Agent、RAG 系统调用 |
| 核心价值 | 一站式科研体验 | 检索证据、读全文、取资源、结构化筛选 |
| 适合场景 | 科研工作台 | 科学 Agent、RAG、SDK、MCP、API 接入 |
七、OpenAlex:开放元数据强,Sciverse 强在证据链和全文链路
OpenAlex 是开放学术数据领域非常重要的基础设施。它提供 works、authors、sources、institutions、topics 等实体,适合做学术元数据分析、作者关系、机构产出、主题趋势和引用网络研究。
OpenAlex 的优势包括:
- 开放程度高
- API 成熟
- 元数据结构清晰
- 适合 bibliometrics 和知识图谱分析
- 对开发者和研究团队友好
但 OpenAlex 的核心更偏"开放学术元数据"。
对于 Agent 来说,元数据只是第一步。很多任务还需要:
- 找到具体证据片段
- 读取全文上下文
- 拉取图表资源
- 支持自然语言问题召回
- 让模型生成可追溯答案
这正是 Sciverse 与 OpenAlex 的关键差异。
Sciverse 提供的不只是论文元数据检索,还包括 Agentic Search、全文读取、资源拉取和字段发现能力。
| 能力 | OpenAlex | Sciverse |
|---|---|---|
| 开放学术元数据 | 强 | 支持 |
| 作者、机构、主题分析 | 强 | 不是核心重点 |
| 自然语言证据检索 | 不是核心能力 | Agentic Search 支持 |
| 全文读取 | 不是核心卖点 | content 支持 |
| 图表/资源拉取 | 不是核心卖点 | resource 支持 |
| Agent 工具链接入 | 需要自行封装 | Skills / MCP / CLI / SDK |
| 适合任务 | 学术元数据分析 | Agent 证据检索与科学 RAG |
可以这样理解:
OpenAlex 更像开放学术元数据图谱。
Sciverse 更像 Agent 可直接消费的科学证据 API。
八、Sciverse 的两个核心入口:Agentic Search 与 Meta Search
Sciverse 当前最重要的两类检索能力,可以分别理解为:
1. Agentic Search:面向自然语言问题的证据检索
Agentic Search 适合处理开放式科研问题。
例如:
- "AlphaFold 在蛋白复合物预测中的局限是什么?"
- "固态电解质近两年的关键突破有哪些?"
- "mRNA 疫苗递送系统有哪些新进展?"
- "COVID-19 长期效应有哪些临床证据?"
它的关键不是返回一堆论文标题,而是返回 Agent 可以继续使用的证据片段。
典型链路是:
text
自然语言问题
→ agentic-search
→ 返回相关文献片段、标题、doc_id、页码/位置
→ content 继续读取全文
→ Agent 生成带引用答案
这类能力非常适合:
- 科研问答
- 文献综述 Agent
- 科学 RAG
- Citation Grounding
- 研究证据召回
- 教育问答
- 专利与文献交叉探索
2. Meta Search:面向结构化条件的论文筛选
Meta Search 更适合做结构化论文检索。
例如:
- 按年份筛选
- 按期刊筛选
- 按 DOI 查询
- 按语言筛选
- 按字段排序
- 分页返回论文列表
- 导出元数据
典型链路是:
text
meta-catalog
→ 查看可筛选字段、可排序字段、默认返回列
→ meta-search
→ 返回标题、摘要、作者、发表年份等书目信息
→ content 读取全文
这类能力非常适合:
- 论文列表页
- 学术趋势分析
- 文献筛选器
- 批量导出
- 研究主题监控
- 开发者构建科研产品
- Agent 自动生成查询条件
两者配合起来,Sciverse 可以同时支持"自然语言找证据"和"结构化筛论文"。
九、Sciverse 的 5 个接口如何组成 Agent 工作流
Sciverse 的价值并不来自某一个单独接口,而是来自它们可以组合成完整工作流。
| 接口 | 作用 | 适合场景 |
|---|---|---|
| agentic-search | 用自然语言检索文献证据片段 | 科研问答、RAG、文献综述 Agent |
| meta-search | 按年份、期刊、DOI、语言等结构化条件筛选论文 | 论文列表、筛选器、趋势分析 |
| content | 根据 doc_id 分段读取文章全文 | 引用核对、上下文补全、详情页展示 |
| resource | 根据 file_name 获取论文图表、实验图、解析图等资源 | 图表检索、多模态分析、资源下载 |
| meta-catalog | 查看 meta-search 支持的字段、筛选、排序能力 | 自动生成查询表单、Agent 拼接请求 |
一个典型 Agent 工作流可以是:
text
用户提出科研问题
→ agentic-search 找到相关证据片段
→ 根据 doc_id 调用 content 读取原文上下文
→ 如果正文包含图表路径,调用 resource 获取图表
→ 用 doc_id、页码、DOI 和 chunk 生成可追溯回答
另一个典型开发者工作流可以是:
text
开发者要做论文筛选器
→ meta-catalog 获取字段定义
→ meta-search 按年份、期刊、语言筛选论文
→ 用户选择论文后调用 content 读取全文
→ 导出论文清单或生成 Evidence Pack
这就是 Sciverse 与传统搜索入口最大的不同:它不是让用户停留在搜索结果页,而是让开发者和 Agent 可以继续调用、组合和扩展。
十、面向 Agent 的科学数据 API,真正要解决什么
Agent 在科研任务中最容易出错的地方,不是"不会写答案",而是"答案没有可信来源"。
常见问题包括:
- 引用不存在
- 引用和结论不匹配
- 只根据摘要推断全文
- 找到论文但无法读取上下文
- 找到结论但无法定位来源
- 无法核对图表、实验结果和原文片段
因此,面向 Agent 的科学数据 API 需要提供的不只是搜索,而是可追溯证据链。
Sciverse 的设计正好对应这条证据链:
text
Evidence Retrieval
→ Full-text Reading
→ Resource Fetching
→ Structured Filtering
→ Agent Integration
也就是:
text
检索证据
→ 读取全文
→ 拉取资源
→ 结构化筛选
→ 接入 Agent 工作流
这使得 Sciverse 可以服务更复杂的应用,而不仅是论文检索页面。
十一、典型场景:Sciverse 可以被怎么用
场景一:科研文献综述 Agent
用户输入一个研究问题:
text
总结 2024 年固态电解质的关键突破。
Agent 可以通过 Sciverse:
- 调用 agentic-search 找到相关 evidence chunks
- 根据 doc_id 调用 content 读取原文上下文
- 提取关键结论、方法、材料体系和实验结果
- 输出带引用的综述草稿
场景二:科学 RAG 数据源
开发者构建科学问答系统时,可以用 Sciverse 作为检索后端:
text
query
→ agentic-search
→ evidence chunks
→ rerank / grounding
→ LLM answer with citations
这样可以减少模型凭空回答,提高科研问答的可追溯性。
场景三:结构化论文筛选器
如果开发者要构建论文数据库,可以使用:
text
meta-catalog
→ meta-search
→ content
实现按年份、期刊、DOI、语言等条件筛选论文,并支持分页、导出和详情页展示。
场景四:论文图表资源获取
很多科学信息并不只存在于正文,而是在图表里。
通过 Sciverse:
text
content 中发现图片相对路径
→ resource 拉取图表资源
→ 接入多模态模型或前端展示
这为多模态科研分析提供了基础。
场景五:MinerU 解析后的外部科学证据扩展
用户用 MinerU 解析 PDF 后,可以将标题、摘要、关键词、表格内容带到 Sciverse,继续查找相关科学文献、图书、专利和 AI-Ready 全文数据。
这条路径非常自然:
text
MinerU 读懂用户手里的文档
→ Sciverse 补充外部科学证据
十二、综合评测表
| 评测维度 | Google Scholar | 万方数据 | Bohrium | OpenAlex | Sciverse |
|---|---|---|---|---|---|
| 人工找论文 | 强 | 强 | 强 | 中 | 中 |
| 中文学术资源 | 中 | 强 | 中 | 弱 | 中 |
| 开放学术元数据 | 弱 | 中 | 中 | 强 | 中强 |
| 稳定 API 调用 | 弱 | 中 | 中 | 强 | 强 |
| 自然语言证据检索 | 中 | 中 | 强 | 中 | 强 |
| 全文读取链路 | 弱 | 视权限而定 | 中 | 中 | 强 |
| 图表资源获取 | 弱 | 视权限而定 | 中 | 弱 | 强 |
| 结构化筛选 | 中 | 强 | 中 | 强 | 强 |
| Agent 工具链 | 弱 | 弱 | 中 | 中 | 强 |
| 科学 RAG 适配 | 弱 | 中 | 中 | 中强 | 强 |
| Citation Grounding | 弱 | 中 | 中 | 中 | 强 |
Sciverse 的优势不在于单项替代所有产品,而在于它把 Agent 需要的科学数据能力组织成了一套可调用链路。
十三、Sciverse 的核心优势总结
1. 面向 Agent,而不是只面向人类搜索
Sciverse 的接口不是简单返回网页结果,而是围绕 Agent 工作流设计:
- evidence chunk
- doc_id
- page / position
- content
- resource
- metadata
- catalog schema
这些信息更适合被模型、RAG 系统和开发者产品消费。
2. 同时支持自然语言检索和结构化筛选
Agentic Search 适合开放问题。
Meta Search 适合字段筛选。
一个负责"找证据",一个负责"筛论文"。
这比单一搜索框更适合复杂科研应用。
3. 支持从检索到全文的连续链路
很多学术 API 只停留在元数据层,而 Sciverse 支持从检索结果继续读取全文内容。
这对文献综述、引用核对、RAG grounding 都非常关键。
4. 支持资源拉取,为多模态科研场景做准备
论文中的图、表、实验图、解析图往往承载大量科学信息。Sciverse 的 resource 能力让开发者可以继续获取这些资源,而不是只处理文本。
5. 适合接入 Agent 生态
Sciverse 不只提供 API,还提供 Skills、MCP、CLI、SDK 等接入方式,适合进入 Claude、Cursor、Codex、Manus 等 Agent 工作流。
这让 Sciverse 不只是一个数据服务,而是一个 Agent 工具层。
十四、结语:科学数据 API 的未来,是可调用、可追溯、可组合
科研信息产品的第一阶段,是让人更容易找到论文。
第二阶段,是让系统更容易调用学术数据。
第三阶段,是让 Agent 能够基于真实科学证据完成任务。
在这个阶段,单纯的搜索结果已经不够了。
Agent 需要的是:
text
能检索
能筛选
能读全文
能取资源
能追溯来源
能接入工具链
这也是 Sciverse 的核心定位:
面向 Agent 的 AI-Ready 科学数据 API,支持检索证据、读取全文、拉取资源和结构化筛选,让开发者可以把真实科学数据接入科研 Agent、科学 RAG、文献综述、专利分析和 AI4S 应用。
Sciverse 不需要成为另一个 Google Scholar。
它更应该成为下一代科研 Agent 的科学数据调用层。
参考链接:
Google Scholar:https://scholar.google.com/intl/engb/scholar/about.html
OpenAlex:https://docs.openalex.org/
万方数据:https://www.wanfangdata.com.cn/
Bohrium:https://www.bohrium.com/en/intro
Sciverse:https://sciverse.opendatalab.com/
Sciverse Docs:https://sciverse.opendatalab.com/docs