notes for datawhale summer camp chemistry task2

appendix/Task2_RNN.ipynb\|Task2_RNN.ipynb

本次的任务是进一步了解 AI4Science 相关知识，然后使用深度学习的方法建模。

你可以从中：了解一些相关历史、了解 SMILES 和分子指纹，并对 RDkit 工具包有更深的认识；探究深度学习方法如何建模化学中的序列问题。

随着计算机技术的发展，将化学知识用计算机存储的方法也一直在发展和进步

AI4Chemistry知识点补充

AI4Science的发展历史大致也经历这三个阶段：

Simplified Molecular Input Line Entry Syetem, SMILES, 将化学分子用ASCII字符表示，在化学信息学领域举足轻重

![[appendix/Pasted image 20240730094417.png]]

事实上，使用图数据（grpah）表示分子是非常合适的。图网络相比于基于SMILES的序列网络，在某些方面会更胜一筹

分子指纹是一个具有固定长度的位向量（即由0，1组成），其中，每个为1的值表示这个分子具有某些特定的化学结构。

通常，分子指纹的维度都是上千的，也即记录了上千个子结构是否出现在分子中。

化学信息学中主要的工具

几乎所有的与化学信息学相关的内容都可以在网站上找到

示例代码略

//之前无背景知识，复制过来学习

机器学习按照目标可以分为分类任务（classification）和回归（regression）任务两大类。

所谓分类任务，就是模型预测的结果是离散的值，例如类别；那么，回归任务中，模型预测的结果就是连续的值，例如房价等等。

在本次竞赛中，我们需要预测的目标是反应的产率，是0-1之间的一个连续的数值，所以是一个回归任务。

//离散值通过一些处理可以近似认为是连续值

![[appendix/Pasted image 20240730103640.png]]
分类型决策树（左），回归型决策树（右）

划分每个节点的目标是让该节点中的值尽可能相同。

在分类任务中，常见的就是信息熵衡量；在回归任务中，可以使用均方误差、绝对误差等进行衡量。

![[appendix/Pasted image 20240730103557.png]]
随机森林

将多个决策树结合在一起，训练每个决策树的数据集都是随机有放回地从原数据中选出。预测的时候，输入会通过每个决策树进行预测，然后考虑每个树地输出结果，得到最终的预测值。

深度学习可以归为机器学习的一个子集，主要通过神经网络学习数据的特征和分布。深度学习的一个重要进化是不再需要繁琐的特征工程，让神经网络自己从里面学习特征。

SMILES是一种以ASCII组成的序列，可以被理解为一种"化学语言"。既然是一种语言，那么很自然地想到了可以使用NLP中的方法对SMILES进行建模。

使用RNN对SMILES建模是早期的一个主要方法。RNN（Recurrent Neural Network）是处理序列数据的一把好手。RNN的网络每层除了会有自己的输出以外，还会输出一个隐向量到下一层。

![[appendix/Pasted image 20240730104819.png]]
RNN架构示意图

其中，每一层相当于做了一次线性变换：
h n = σ ( W h h h n − 1 + W h x x n + b n ) h_{n}=\sigma(W_{hh}h_{n-1}+W_{hx}x_{n}+b_{n}) hn=σ(Whhhn−1+Whxxn+bn)

每层的输出：
y n = S o f t m a x ( V h n + c ) y_{n}=Softmax(Vh_{n}+c) yn=Softmax(Vhn+c)

但是RNN也有缺点：如果序列太长，那么两个相距比较远的字符之间的联系需要通过多个隐藏向量。这就像人和人之间传话一样，传递的人多了，很容易导致信息的损失或者扭曲。因此，它对长序列的记忆能力较弱。

同时，RNN需要一层一层地传递，所以并行能力差，比较容易出现梯度消失或梯度爆炸问题。

在后面学习中，我们会继续学习使用Transformer这种架构，这种架构就完美解决了长序列学习能力差、难以并行、出现梯度消失或者爆炸等问题。

略

机器学习实践还是第一次

跑完不用花太多时间，太好了

最近在本地笔记本尝试玩AI，深感配置不足，最终投向阿里云的怀抱