人工智能应用- 预测化学反应:08. 基于 BERT 的化学反应分类

将化学反应方程式序列化为SMILES 格式后,我们可以像处理文本字符串一样处理化学反应数据。图 展示了 BERT 模型在化学反应分类中的系统结构。整个流程如下:

**:**基于 BERT 的化学反应分类。图片来源:Schwaller et al., 2021.

  1. 输入序列生成:将化学反应方程转换为 SMILES 格式,并在序列开头添加 CLS 符号,用于表示整个反应方程的特征。序列中间的">>"符号用于分隔反应物和生成物,类似于 BERT 处理自然语言文本时的 SEP符号。
  2. 序列编码:将 SMILES 序列输入 BERT 模型。通过多层 Transformer 编码,模型能够捕捉序列的上下文信息,并生成一个 CLS 向量作为整个反应方程的特征表示。
  3. 分类器训练:CLS 向量与已知化学反应类型的特征向量进行比较。参考与其最接近的反应类型,判断该化学反应属于哪一类。

研究人员在 13.2 万个化学反应上测试了该方法。结果显示:基于 BERT 的分类器达到了 98.2% 的分类准确率。传统方法的准确率仅 41.0%,远落后于BERT。这表明BERT 模型在捕捉复杂化学反应规律方面具有显著优势。

不仅如此,BERT 还能够识别影响化学反应分类的关键成分。在图 41.7中,阴影部分标出了 BERT 认为对分类结果起关键作用的化学成分,为化学家分析反应机理和特性提供了重要线索。

: 基于BERT 的分类预测可以定位化学反应中的关键成分。图中蓝色和绿色阴影部分对化学反应类型的判断起到了关键作用。图片来源:Schwaller et al., 2023.

相关推荐
马丁聊GEO1 小时前
解码AI用户心智,筑牢可信GEO根基——悠易科技深度参与《中国AI用户态度与行为研究报告(2026)》发布会
人工智能·科技
nap-joker1 小时前
Fusion - Mamba用于跨模态目标检测
人工智能·目标检测·计算机视觉·fusion-mamba·可见光-红外成像融合·远距离/伪目标问题
一只幸运猫.1 小时前
2026Java 后端面试完整版|八股简答 + AI 大模型集成技术(最新趋势)
人工智能·面试·职场和发展
Promise微笑1 小时前
2026年国产替代油介损测试仪:油介损全场景解决方案与技术演进
大数据·网络·人工智能
深海鱼在掘金1 小时前
深入浅出 LangChain —— 第三章:模型抽象层
人工智能·langchain·agent
生信碱移1 小时前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言
workflower2 小时前
具身智能行业应用-生活服务业
大数据·人工智能·机器人·动态规划·生活
GitCode官方2 小时前
基于昇腾 MindSpeed LLM 玩转 DeepSeekV4-Flash 模型的预训练复现部署
人工智能·开源·atomgit
大刘讲IT2 小时前
AI重塑企业信息价值标准:从“系统供给”到“用户定义”的企业数字化新范式
人工智能·经验分享·ai·制造
流年似水~2 小时前
MCP协议实战:从零搭建一个让Claude能“看见“数据库的工具服务
数据库·人工智能·程序人生·ai·ai编程