化合物数据集API接口(数据结构及样例)

在药物研发、材料科学和环境监测等领域,化合物数据是驱动创新的核心燃料。随着化学信息学平台的蓬勃发展,通过API(应用程序编程接口)获取化合物数据已成为最高效、最灵活的方式。本文将系统介绍化合物API接口数据字段概览、数据结构样例,帮助科研人员和技术开发者快速上手。

以某数据开放平台举例,在其生化分子栏目下拥有化合物的预计算性质(小分子LogP、重原子数、可旋转键数、环数、sp3杂化碳原子占比等核心结构与类药特征参数)、化合物分类(层级分类树)、化合物标识信息(名称,化学式,分子量,CAS号,结构式、编码)、化合物安全信息等数据集,并提供对应的API接口。相关介绍如下:

①化合物标识数据集API接口

该数据集拥有1.8亿小分子化合物的标识信息,包括化合物中英文名称,化学式,分子量,CAS号,结构式、编码信息等。

数据结构及样例(JSON格式)

javascript 复制代码
{

"数据ID": "xxxxxxxxx",

"英文名称": [

"N,N-diethylnicotinamide",

"nikethamide",

"N,N-diethylpyridine-3-carboxamide"

],

"中文名称": [

"尼可刹米",

"N,N-二乙基烟酰胺",

"可拉明",

"烟酰乙胺",

"二乙烟酰胺",

"妥卡尼",

],

"化学式": "C<sub>10</sub>H<sub>14</sub>N<sub>2</sub>O",

"分子量": 178.234,

"结构式图片存储路径": "xxx.jpg",

"CAS": [

"59-26-7"

],

"InChi": "InChI=1S/C10H14N2O/c1-3-12(4-2)10(13)9-6-5-7-11-8-9/h5-8H,3-4H2,1-2H3",

"InChIKey": "NCYVXEGFNDZQCU-UHFFFAOYSA-N",

"SMILES": "CCN(CC)C(=O)C1=CN=CC=C1",

"MOL": "\n\n\n 0 0 0 0 0 999 V3000\nM V30 BEGIN CTAB\nM V30 COUNTS 13 13 0 0 0 REGNO=5743\nM V30 BEGIN ATOM\nM V30 1 C -19.3306 0.3785 0 0\nM V30 2 C -20.6647 1.1519 0 0\nM V30 3 N -19.3337 -1.1615 0 0\nM V30 4 O -17.9954 1.1471 0 0\nM V30 5 C -20.6647 2.6936 0 0\nM V30 6 C -21.998 0.3881 0 0\nM V30 7 C -18.0014 -1.933 0 0\nM V30 8 C -20.6695 -1.9282 0 0\nM V30 9 N -21.9951 3.473 0 0\nM V30 10 C -23.3261 1.1584 0 0\nM V30 11 C -18.005 -3.473 0 0\nM V30 12 C -20.6724 -3.4682 0 0\nM V30 13 C -23.3261 2.7027 0 0\nM V30 END ATOM\nM V30 BEGIN BOND\nM V30 1 1 1 2\nM V30 2 1 1 3\nM V30 3 2 1 4\nM V30 4 2 2 5\nM V30 5 1 2 6\nM V30 6 1 3 7\nM V30 7 1 3 8\nM V30 8 1 5 9\nM V30 9 2 6 10\nM V30 10 1 7 11\nM V30 11 1 8 12\nM V30 12 2 9 13\nM V30 13 1 10 13\nM V30 END BOND\nM V30 END CTAB\nM END\n",

"MDL": [

"MFCD00006386"

],

"EINECS": [],

"Beilstein": []

}

②物化及计算性质数据集API接口

该数据集全面整合权威实测实验数据与大规模预计算性质,共收录100余种实测性质,既涵盖沸点、熔点、密度等基础物化参数,也包含燃烧热、表面张力等热力学核心指标,同时纳入药物化学领域重点关注的LogP、解离常数、溶解度等关键性质,所有实测值均标注对应测试条件,可直接溯源原始文献来源,数据量 ≥ 140万。 此外该数据集有1.8亿级化合物的预计算性质,覆盖小分子LogP、重原子数、可旋转键数、环数、sp3杂化碳原子占比等核心结构与类药特征参数。

数据结构及样例(JSON格式)

javascript 复制代码
{

"数据ID": "xxxxxxxxx",

"中文名称": "苯甲醛",

"英文名称": "benzaldehyde",

"化学式": "C<sub>7</sub>H<sub>6</sub>O",

"分子量": 106.124,

"CAS": [

"100-52-7"

],

"InChIKey": "HUMNYLRZRPPJDN-UHFFFAOYSA-N",

"SMILES": "C1=CC=C(C=C1)C=O1",

"沸点":{

"数值":"179.0 °C",

"来源":"https://...",

},

"熔点":{

"数值":"-26.0 °C",

"来源":"https://...",

},

"密度":{

"数值":"1.050 at 15 °C/4 °C",

"来源":"https://...",

},

"燃烧热:":{

"数值":"-3525.0 kJ/mol",

"来源":"https://...",

},

"辛醇/水分配系数":"1.5",

"重原子数": "8",

"可旋转键数": "1",

"环数": "1",

"sp3杂化的碳原子比例": "0",

"拓扑面积": "17.1",

"氢给体数": "0",

"氢受体数": "1"

}

③化合物安全信息数据集API

该数据集含有180万条安全信息数据,完整覆盖全球通用的化学品安全属性,包括危险品标志、安全说明(S码)、危险类别码(R码)、危险品运输UN编号、GHS危险性说明/防范说明/标识、德国水危害等级(WGK Germany)、RTECS毒理学编号、中国海关编码、包装等级、危险类别等监管所需的全量合规字段。

数据结构及样例(JSON格式)

javascript 复制代码
{

"中文名称":"苯",

"英文名称":"benzene",

"inchikey":"UHOVQNZJYSORNB-UHFFFAOYSA-N",

"安全信息": {

"危险品标志": [

"F"

],

"安全说明": [

"S36/37",

"S53"

],

"危险类别码": [

"R36/38",

"R45",

"R48/23/24/25",

"R11",

"R65",

"R46"

],

"危险品运输编号": [

"UN 1114 3/PG 2"

],

"危险性说明": [

"H225",

"H304"

],

"危险性防范说明": [

"P201",

"P308 + P313"

],

"危险性标志": [

"GHS02",

"GHS07"

],

"WGK Germany": [

"3"

],

"RTECS号": [

"CY1400000"

],

"海关编码": [

"2707100000"

],

"包装等级": [

"II"

],

"危险类别": [

"3"

]

},

"SDS文档列表": [

{

"提供商": "AirGas",

"文档地址(有效时长2分钟)": ".pdf",

"修订日期": "2015-04-26"

},

{

"提供商": "Alfa Aesar",

"文档地址(有效时长2分钟)": ".pdf",

"修订日期": "2017-02-02"

}

]

}

④化合物分类数据集API接口

该数据集涵盖1.8亿有机化合物分类信息,采用公开公认的化合物分类法对亿级化合物进行科学的分类,形成层级分类树,方便了解化合物的类别,促进发现共同的结构和反应模式,从而为新化合物的合成提供参考。

数据结构及样例(JSON格式)

javascript 复制代码
{

"中文名称":"阿莫西林",

"英文名称":"amoxicillin",

"inchikey":"LSQZJLSUYDQPKJ-NJBDSQKTSA-N",

"分类_en": [

"Organic compounds",

"Organoheterocyclic compounds",

"Lactams",

"Beta lactams",

"Penams",

"Penicillins"

],

"分类_cn": [

"有机化合物",

"有机杂环化合物",

"内酰胺类",

"β内酰胺类",

"青霉烷",

"青霉素类"

]

}
相关推荐
fu的博客1 小时前
【数据结构16】图:基于邻接矩阵、邻接表实现DFS/BFS
数据结构·算法
plainGeekDev1 小时前
算法刷题笔记:一维DP没那么难,状态想清楚就赢了一半
java·算法·面试
IceBing1 小时前
还在一个个连接 Arthas?这个开源平台支持批量诊断 JVM
java
SL_staff2 小时前
《如何用规则引擎替代if-else?JVS-Rules可视化编排比硬编码强在哪里?》
java·低代码·架构
Sam_Deep_Thinking2 小时前
java中的class到底是个什么东西?
java·开发语言·面试
swordbob2 小时前
Spring 3 级缓存解决循环依赖
java·spring
摇滚侠2 小时前
SpringMVC 入门到实战 获取请求参数 25-32
java·spring·intellij-idea
咖啡八杯2 小时前
【无标题】
java·后端·设计模式
mqiqe2 小时前
面试题-MyBatis 面试篇
java·面试·mybatis