导读
近日,OpenKG SIGSciKG兴趣组正式发布全面升级的ElementKG 2.0化学知识图谱。新版本面向化学智能体的实验闭环应用,构建了覆盖"元素---官能团---分子---反应---实验"全链条的化学知识底座,旨为大模型驱动的反应预测、实验步骤生成与多跳推理问答等任务提供了统一的化学知识支撑,构建化学智能体可复用的"认知中枢"。
目前,ElementKG 2.0已涵盖超过2300万个节点与7300万条边,其中包括844万余个分子节点及573万余个实验流程节点。本次发布除提供千万级规模的原始数据集下载外,还开放了基于该图谱自动生成的、面向智能体训练的合成指令数据集。同时,还同步在书生科学发现平台(Intern-Discovery)上线基于科学上下文协议(SCP)的大模型访问开放API服务。未来,完整数据将主要通过SCP开放服务对外提供。
🔗官网与数据入口
ElementKG官方主页:http://scigraph.openkg.cn/elementkg-2
OpenKG数据集链接:http://data.openkg.cn/dataset/elementkg-2-0
书生平台SCP服务链接:https://scphub.intern-ai.org.cn/detail/37
Caption:ElementKG 2.0 的构建框架与任务闭环示意。从 PubChem、ORD 等数据源出发,按"元素---官能团---分子---反应---实验"的 Schema 构建面向智能体的知识图谱(Cognitive Center),支撑多跳问答、反应预测与实验规划。
1. 范式演进:从静态预测走向实验闭环
过去十年中,深度学习及大语言模型已在分子性质预测、正合成预测、逆合成预测等化学任务上取得了令人瞩目的成功。研究人员们长期将AI模型作为"预测者"使用,将输入映射到目标性质或反应结果。随着研究进一步发展,AI正在经历一场范式演进:模型不再局限于静态预测,而是以"智能体"的形态进入实验闭环,在环境中持续感知、行动并根据反馈更新策略,完成推理与决策。由此,AI扮演的角色也从"预测者"转变为能够设计、规划并执行实验流程的"行动者"。
然而,要让智能体真正覆盖化学实验全流程,仍面临两大严峻挑战。
第一,推理不透明。Transformer等黑盒模型本质在学习统计概率而非化学原理,难以提供可靠、可溯源的推理链条,显著阻碍了其在工业界的部署。
第二,决策失真。智能体缺乏与物理世界对齐的知识库,导致生成的方案在化学上合理,但在操作上不可行。
造成以上挑战的原因之一是缺少能够被智能体追溯和使用的知识链条。因此,我们推出了ElementKG 2.0,一个贯通"元素---官能团---分子---反应---实验"的全链路化学知识底座。
2. 核心理念:从数据存储走向知识推理
目前,我们拥有海量的分子档案(如 PubChem)和专利文本库(如 USPTO),但它们本质上是为"存储"而非"推理" 设计的,其核心本体论围绕目标的静态属性展开,数据之间缺乏显式的语义连接,造成了深层**"数据---知识鸿沟"**。
ElementKG 2.0的核心贡献在于重新构建了化学数据的组织维度。作为专为化学智能体打造的"认知中枢",它将扁平的记录转化为可计算的知识网络,支持稳定检索与组合推理,从而填补了计算预测与真实实验之间的空白。
3. 全链路Schema:模拟化学家的认知闭环
为了实现可靠的推理,我们构建了一个五层级联、覆盖从知识到行动的全链路Schema,用以模拟化学家从微观基础到宏观执行的思考闭环。
元素层 刻画原子层面的基础属性与约束条件。官能团层 表达决定反应性与功能特征的关键结构单元。分子层 把具体化学物质作为核心实体统一表征,使结构、性质与语义描述在同一框架对齐。反应层 描述物质转化过程,显式组织反应物产物对应关系、条件对路径选择的影响与可行性约束。实验层将推理结果映射为可执行步骤序列,并关联仪器、试剂用量、操作动作与顺序,使智能体能够从化学原理出发逐级推演,输出面向真实实验流程的操作方案。
4. 数据集构建与规模
ElementKG 2.0的能力来自对高质量原始数据的系统整合、清洗与结构化构建。微观层面以PubChem为主要来源 ,汇聚并规范化元素属性、分子结构信息以及官能团等关键结构单元,从而为后续推理提供稳定且可复用的基础语义表示。反应与实验层面以Open Reaction Database (ORD)与USPTO提供的数据为核心,抽取并整理反应物与产物关系、条件与产率等关键要素,同时将实验流程中的步骤描述、试剂用量、操作顺序以及常用仪器与动作进行结构化表示,使反应知识能够自然延伸到可执行的实验层。
截止目前,ElementKG 2.0已形成覆盖广、语义密度高的知识网络,**目前包含 23,091,652 个节点与 73,698,897 条边,其中分子节点超过 844 万个,实验流程节点超过 573 万个。**如此规模的语义关联不仅增强了知识的连通性与可检索性,也使跨层组合推理、多步路径规划与决策支持具备现实可行的知识基础,为面向智能体的化学应用提供了坚实支撑。
5. 数据集发布:面向智能体的三类核心资源
我们对外提供三类数据资产和访问服务,分别支撑"知识推理"与"能力学习"。
✅ ElementKG 2.0知识图谱数据集包含全链路 Schema 下的实体、关系与跨层链接,面向检索、组合推理与可溯源约束。完整数据通过书生科学发现平台提供 SCP 开放服务对外提供。
✅ElementKG-Inst指令数据集 由知识图谱自动合成,面向智能体训练与对齐。该数据集使模型学习的不仅是答案本身,还包括答案所依赖的知识证据与可执行约束,从而提升推理可信性与实验可落地性。
✅ 如何使用SCP服务访问服务「书生」科学发现平台是依托基础大模型、整合科研全流程资源的一站式智能科研平台;SCP协议是面向科学智能的标准化协作与组件交换规范。
1.安装 MCP SDK
go
pip install mcp
2.申请 API Key(请前往SCP广场申请)
3.配置信息
go
Endpoint
https://scp.intern-ai.org.cn/api/v1/mcp/37/SciGraph
go
配置示例
{
"mcpServers": {
"SciGraph": {
"type": "streamableHttp",
"description": "这是一款面向科学研究的统一知识查询服务,集成了化学、生物等多个学科领域的知识图谱数据,支持跨学科知识检索、实体关系查询、领域知识问答等操作",
"url": "https://scp.intern-ai.org.cn/api/v1/mcp/37/SciGraph",
"headers": {
"SCP-HUB-API-KEY": "{API-KEY}"
}
}
}
}
🔍 以下是 ElementKG 展示查询方法的示例:
go
import asyncio
import json
from mcp.client.streamable_http import streamablehttp_client
from mcp.client.session import ClientSession
async def main():
## 客户端创建和连接
client = MultiDomainKGClient()
if not await client.connect():
print("连接失败")
return
## 示例1:获取知识图谱统计信息
result = await client.session.call_tool(
"get_kg_statistics",
arguments={"kg_name": "ElementKG"} # 不指定 kg_name,返回所有图谱统计
)
stats = client.parse_result(result)
print(stats)
## 示例2:查询 ElementKG 实验的完整工作流
result = await client.session.call_tool(
"get_experiment_workflow",
arguments={"experiment_id": "experiment_1"}
)
workflow = client.parse_result(result)
print(workflow)
## 示例3:使用 Cypher 查询 ElementKG 相关信息
result = await client.session.call_tool(
"query_cypher",
arguments={
"cypher": "MATCH (e:Experiment:ElementKG) RETURN e.id as experiment_id",
"kg_name": "ElementKG",
"limit": 5
}
)
experiment_id = client.parse_result(result)
print(experiment_id)
## 示例4:获取 ElementKG 实体详情
result = await client.session.call_tool(
"get_entity_details",
arguments={
"entity_identifier": "experiment_1",
"kg_name": "ElementKG"
}
)
entity = client.parse_result(result)
print(entity)
## 客户端断开
await client.disconnect()
if __name__ == '__main__':
asyncio.run(main())
6. 潜在应用与未来愿景
ElementKG 2.0可面向多类高复杂度下游任务提供统一支撑,既覆盖正向与逆向反应预测,也支持实验方案规划与需要多步推理的问答场景。在这一框架下,知识不再只是用于检索的静态条目,而是能够被组合、约束与验证的结构化语义资产,从而为反应路径选择、条件推断与实验步骤生成提供可解释的依据。
面向未来,我们计划在现有基础上进一步扩展其能力边界,一方面通过多模态融合,将教材、论文等非结构化内容引入并结构化映射到既有Schema中,使知识体系能够同时吸收规范化事实与开放域经验;另一方面推动与实验硬件的直接对接,使系统能够把人类研究者的科学目标拆解为可执行的实验流程,并进一步落到具体设备的操作序列与参数配置,形成端到端的实验闭环。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文 ,进入 OpenKG 网站。