第一个化学领域的开源多模态大语言模型：通过ChemVLM架起视觉与化学知识的桥梁

Seeing and Understanding:

Bridging Vision with Chemical Knowledge Via ChemVLM

https://huggingface.co/AI4Chem/ChemVLM-26B

Abstract

In this technical report, we propose ChemVLM, the first open-source multimodal large language model dedicated to the fields of chemistry, designed to address the incompatibility between chemical image understanding and text analysis. Built upon the VIT-MLP-LLM architecture, we leverage ChemLLM-20B as the foundational large model, endowing our model with robust capabilities in understanding and utilizing chemical text knowledge. Additionally, we employ InternVIT-6B as a powerful image encoder. We have curated high-quality data from the chemical domain, including molecules, reaction formulas, and chemistry examination data, and compiled these into a bilingual multimodal question-answering dataset. We test the performance of our model on multiple open-source benchmarks and three custom evaluation sets. Experimental results demonstrate that our model achieves excellent performance, securing state-of-the-art results in five out of six involved tasks.

本文提出了ChemVLM，这是首个面向化学领域的开源多模态大型语言模型 ，旨在解决化学图像理解与文本分析之间的不兼容问题。

该模型基于VIT-MLP-LLM架构，采用ChemLLM-20B作为基础大型模型，使模型在理解和利用化学文本知识方面具备了强大的能力。

此外，还采用了InternVIT-6B作为强大的图像编码器。从化学领域精心挑选了高质量数据，包括分子、反应式以及化学考试数据，并将这些数据编译成一个双语多模态问答数据集。

本文在多个开源基准测试集和三个自定义评估集上测试了模型的性能。实验结果表明，本文的模型表现优异，在六个相关任务中的五个任务中均达到了最先进水平。

Introduction

需求动机：

大型语言模型（LLMs）因其加速科学理解和发现的巨大潜力，已被广泛应用于各种科学领域[1]。尽管这些模型在促进研究方面具有令人兴奋的可能性，但：

1）纯语言模型在处理化学中普遍存在的多模态数据（如分子结构、反应机制等）时存在不足。这些局限性阻碍了它们对复杂化学现象的理解，可能导致不准确或误解。

2）另一方面，化学家经常花费大量时间使用专业软件（如ChemDraw[2]）手动重新绘制化学图像 ，以将其转换为机器可读格式，如SMILES[3]或IUPAC名称[4]。因此，人们渴望拥有一个能够无缝解释化学中视觉和文本信息的模型。

现有的多模态大型语言模型（MLLMs）虽然在处理多模态数据方面功能强大，但并未针对化学领域的独特需求进行专门定制 。它们缺乏处理和解释复杂化学数据所需的专业知识和上下文理解能力 。这一差距促使开发一个专用模型，以弥合这一鸿沟，为化学家提供一个结合文本和视觉信息优势的工具，以增强其研究和分析能力。

现有问题：

尽管传统的化学光学字符识别（OCR）模型，特别是基于Transformer的模型如MolScribe[5]和Decimer[6]，在将化学图像转换为SMILES表达式方面取得了一些成功[5, 7]，但这些模型主要关注模态转换，并未解决综合文本-图像推理的挑战。对于复杂的化学图像，简单的文本转换往往不够，需要先进的文本-图像推理能力。

模型方法：

为了解决这个问题，本文提出了一种基于ViT-MLP-LLM[8]架构的新型模型ChemVLM，旨在实现对化学图像和文本的全面推理。该模型结合了视觉Transformer（ViT）、多层感知机（MLP）和大型语言模型（LLM）的优势 ，采用两阶段训练方法将一般视觉感知与特定领域的化学知识相结合。在这些部分中，视觉Transformer（ViT）擅长处理和嵌入视觉信息，因为它们能够通过自注意力机制捕捉图像中的空间关系和模式[9]。作为基础模型的LLM存储了大量知识以处理各种任务。MLP增强了模型在视觉和文本模态之间更好交互的能力。具体来说，本文的ChemVLM结合了ChemLLM-20B[1]在化学理解和应用能力方面的优势与InternVIT-6B强大的图像嵌入能力。

评估方法：

为了进行高效且有效的评估，引入了三个创新的数据集------ChemOCR、MMChemExam和MMChemBench，这些数据集用于评估化学领域模型的性能。这些数据集涵盖了从分子图像到多模态化学考试的各种数据类型，为评估化学领域的视觉语言模型提供了一个全面的基准。

ChemOCR提供了双语问题，用于识别显示分子图像的SMILES格式。

MMChemExam收集自中国高考的化学部分，这可以对回答化学考试问题的能力进行多样化评估。

MMChemBench基于ChemBench[1]构建，用于分子和反应信息的多模态问题。

还引入了著名的开源基准[10, 11]以及化学考试问题，以证明本文模型的良好性能。

实验结果：

在我们的实验中，所提出的模型相较于基线模型展现了显著的改进，并在多个任务上达到了最先进的（SOTA）性能，超越了GPT-4视觉模型[12, 13]。这些结果凸显了模型在化学图像理解和文本-图像推理方面的实质性优势。

主要贡献：

新型模型：提出了ChemVLM，这是首个针对化学领域的开源多模态大型语言模型（MLLM）。具体而言，提出并实现了一种专门为化学领域视觉-语言处理定制的视觉Transformer-多层感知机-大型语言模型（ViT-MLP-LLM）架构。
全面的基准套件：开发了三个新的数据集（ChemOCR、MMChemExam和MMChemBench），用于评估化学领域的视觉-语言模型。

希望化学领域的多模态语言模型在文档智能、分子设计和药物研究等领域具有巨大的应用潜力，为智能文档解析、分子设计支持和药物发现提供增强的能力。

ChemVLM Architecture

如图1所示，ChemVLM遵循了来自LLaVA[8, 30]的著名架构，即"ViT-MLP-LLM"。在该架构中，实现了预训练的InternVIT-6B[42]作为图像特征提取器，以及预训练的ChemLLM-20B[1]作为语言模型部分。投影仪是一个多层感知机（MLP），其权重是随机初始化的，用于训练我们化学数据的文本-图像模态对齐。详细的训练方法将在后续部分中提及。本文的模型支持输入一个包含化学信息的448×448图像以及一个化学领域的专业问题。模型生成后，会为用户提供问题的答案和详细分析。

Training

训练策略：

遵循InternVL[55]的训练范式，ChemVLM的整体训练分为两个阶段：图像-文本模态对齐阶段和随后的监督微调阶段。

这两个阶段利用广泛的化学多模态数据集来增强模型在化学领域的能力，并利用纯文本数据集来提高模型的泛化能力。

在训练过程中，使用ChemLLM-20B对文本进行编码，并使用InternViT-6B提取视觉特征。

将图像分割成448×448像素的片（tiles），根据图像的纵横比和分辨率，片数量最多可达12个。此外，还采用了2048的上下文长度，并采用了与LLaVA 1.5一致的响应格式化提示。以下各节将详细介绍这两个阶段。

图像-文本模态对齐训练。在第一阶段，利用一套广泛的多模态数据集来增强视觉和文本表示的对齐。具体而言，冻结了ChemLLM-20B和InternViT-6B的权重，仅训练随机初始化的projector以及带有额外LoRA层的InternViT-6B。这增强了模型理解和关联图像与其相应文本描述的能力。

监督微调训练。在第二阶段，进一步使用大型化学多模态数据集和纯文本数据集对模型进行微调，以增强其化学能力。在此过程中，基于LoRA对ChemLLM-20B和InternViT-6B进行训练，并对投影仪也进行训练。该阶段使用的参数来源于第一阶段合并和处理后的参数。

训练细节：

总共使用了16个NVIDIA A100×80G GPU，每个训练阶段都配备了所有GPU。在一个训练周期（epoch）中，将批量大小（batch size）设置为4，并在4次迭代中累积梯度。

此外，采用了InterLM2中的聊天模板作为大型语言模型（LLMs）的对话架构，并始终使用Deepspeed ZeRO-3[56]训练策略来执行分布式训练。

有关更详细的参数信息，请参阅后续章节和表1。

Result

References

1\] Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, et al. Chemllm: A chemical large language model. arXiv preprint arXiv:2402.06852, 2024. \[2\] Zhenjiang Li, Honggui Wan, Yuhu Shi, and Pingkai Ouyang. Personal experience with four kinds of chemical structure drawing software: Review on chemdraw, chemwindow, isis/draw, and chemsketch. Journal of Chemical Information and Computer Sciences, 44(5):1886--1890, August 2004. \[3\] David Weininger. Smiles, a chemical language and information system. 1. introduction to methodology and encoding rules. Journal of chemical information and computer sciences, 28(1):31--36, 1988. \[4\] Henri A Favre and Warren H Powell. Nomenclature of Organic Chemistry. The Royal Society of Chemistry, 12 2013. \[5\] Y Qian, J Guo, Z Tu, Z Li, Coley CW, and Barzilay R. Molscribe: Robust molecular structure recognition with image-to-graph generation. Journal of chemical information and modeling, 63:1925--1934, 2023. \[6\] C Steinbeck K Rajan, A Zielesny. Decimer: towards deep learning for chemical image recognition. Journal of Cheminformatics, 2020. \[7\] Kohulan Rajan, Achim Zielesny, and Christoph Steinbeck. Decimer 1.0: deep learning for chemical image recognition using transformers. Journal of Cheminformatics, 13:1--16, 2021. \[8\] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. In Thirty-seventh Conference on Neural Information Processing Systems, 2023. \[9\] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. \[10\] Pan Lu, Swaroop Mishra, Tanglin Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, and Ashwin Kalyan. Learn to explain: Multimodal reasoning via thought chains for science question answering. Advances in Neural Information Processing Systems, 35:2507--2521, 2022. \[11\] Zheqi He, Xinya Wu, Pengfei Zhou, Richeng Xuan, Guang Liu, Xi Yang, Qiannan Zhu, and Hua Huang. Cmmu: A benchmark for chinese multi-modal multi-type question understanding and reasoning. arXiv preprint arXiv:2401.14011, 2024. \[12\] OpenAI. Gpt-4v(ision) system card, 2023. \[13\] OpenAI. Hello gpt-4o, 2024. \[42\] Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, et al. Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 24185--24198, 2024. \[55\] Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Botian Shi, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, and Wenhai Wang. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites, 2024. \[56\] Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, and Yuxiong He. Zero: Memory optimizations toward training trillion parameter models, 2020.