AI在医学领域：基础模型和视觉-语言模型在计算病理学应用概述

近年来，人工智能（AI）基于方法在计算病理学（CPath）领域中的应用迅速增长，这主要得益于数字幻灯片扫描仪的广泛采用。因此，大规模的全幻灯片图像（Whole Slide Images, WSIs）的整理和注释成为可能，确保了训练这些基于AI的模型所需的充足数据。这些基于AI的模型的目标是自动化和加速CPath的诊断和预后过程。

CPath面临的挑战：

数据收集挑战：这可能包括获取高质量、大规模的病理学数据的难度，这些数据对于训练有效的AI模型至关重要。
数据注释挑战：病理学图像的注释需要专业知识，而且可能是耗时和昂贵的。这涉及到确保数据准确标记，以便模型可以从中学习。
缺乏多样化数据：在不同的器官、疾病类型、染色技术等方面获取多样化的数据集对于训练鲁棒的模型非常重要。
任务数量庞大：病理学涉及多种不同的诊断和分析任务，模型需要能够适应这些不同的任务。
深度学习架构的挑战：设计和优化深度学习模型以处理病理学图像的复杂性和多样性可能具有挑战性。

应对上述挑战，FMs和VLMs提供自动化工具和加速诊断过程来改变了病理学家的诊断工作流程。

基础模型（FM）：利用自监督学习（SSL）方案学习任务无关的丰富表示空间，可以适应各种下游任务，并具有对组织样本变化的鲁棒性。
视觉-语言模型（VLM）：利用自然语言病理报告作为语义信息源，可以显著提高现有模型性能，并生成自然语言形式的预测结果。

1 病理学中的多模态数据集

病理学中的多模态数据集通常包含两种主要模态：视觉（图像）和语言（文本）。这些数据集可以用于训练和评估各种深度学习模型，例如基础模型和视觉-语言模型，以解决计算病理学中的各种任务。

1.1 数据集类型

图像-文本对：包含组织切片图像和与之相关的文本信息，例如病理报告、图像描述或问题/答案对。例如，PathGen-1.6M、Quilt-1M 和 OpenPath 都属于这一类别，它们包含从不同来源获取的图像和文本，例如 TCGA、PubMed、病理教科书和教育视频。
WSI VQA：包含全切片图像和与之相关的问题/答案对。例如，PathText 和 WSI-VQA 都属于这一类别，它们使用 TCGA 数据库中的图像和报告来生成问题/答案对，并可以进行多种类型的VQA，例如闭式和开放式。
VQA：包含低至中质量的图像和与之相关的问题/答案对。例如，PathMMU 和 PathVQA 都属于这一类别，它们使用病理教科书和 PEIR 数字图书馆中的数据来生成图像和问题/答案对，并可以进行多种类型的VQA，例如闭式和开放式。
指令微调数据集：包含指令和与之相关的答案对，用于提供对话能力。例如，Quilt-Instruct、PathInstruct 和 PathChatInstruct 都属于这一类别，它们使用教育病理学视频来生成指令和答案对，并可以用于微调现有的多模态模型以获得对话能力。

1.2 数据来源

PubMed：包含大量的病理图像和文本，是许多数据集的常见数据源。
TCGA：包含大量的全切片图像和相应的病理报告，是许多数据集的主要数据源。
内部专有数据集：由医院或研究机构收集和组织。
OpenPath：包含来自Twitter帖子和回复的病理图像和文本，是一个独特的数据源。
病理教科书和图谱：是重要的知识来源，可以用于提取图像描述/文本。

1.3 数据标注和预处理

解析：使用解析工具从PubMed或病理教科书中提取图像和文本。
图像分类器：使用图像分类器区分病理图像和非病理图像，并检测和分离子图像。
LLM提示：使用LLM提示来格式化和完善图像描述/文本，或根据预定义模板结构化提取的信息。
CLIP模型：使用CLIP模型和余弦相似度作为度量标准来分类病理图像和非病理图像。
其他手工算法和启发式方法：例如，路径分割、图像增强、图像去噪等。

1.4 数据集的优缺点

高质量数据集：例如 PathQABench，由专家病理学家进行标注，质量高但规模较小。
大规模数据集：例如 Quilt-1M 和 PathMMU，规模大但可能存在噪声。
特定领域数据集：例如 PathVQA，专注于病理学，但可能缺乏泛化能力。

1.5 数据集的融合

数据集子集：许多数据集包含其他数据集作为子集，例如 Quilt-1M 和 PathMMU。
数据集扩展：例如，PathLAION 是从 LAION-5B 数据集中提取的病理图像子集。

2 基础模型（FM）

基础模型（FM）是深度学习领域的一种模型，它通过自监督学习（SSL）方案学习任务无关的丰富表示空间，可以适应各种下游任务，并具有对输入数据的鲁棒性。在计算病理学中，FM 可以用于各种任务，例如癌症检测、肿瘤检测、疾病/癌症/组织/肿瘤/分子亚型、癌症分级、图像/组织/肿瘤/细胞分割、生存预测、文本到图像检索、图像到文本检索、图像到图像检索、图像字幕、模式/组织/图像分类、生物标志物预测/检测/筛选/评分、转移检测、器官移植评估、突变检测/预测、VQA 和报告生成等。

2.1 FM 的特点

自监督学习（SSL）：FM 使用 SSL 方案在预训练阶段进行训练，不需要显式标签或注释。
通用表示空间：FM 学习一个通用且丰富的表示空间，可以用于各种下游任务。
大规模数据集：FM 使用包含来自不同器官和组织部位的样本的大规模和多样化的数据集进行训练。
大模型规模：FM 通常具有数百万参数，需要大量的计算资源进行训练。

2.2 FM 的类别

视觉基础模型（VFMs）：专注于学习视觉表示空间，例如 Virchow、RudolfV、PLUTO 和 Hibou。
视觉-语言基础模型（VLFMs）：学习视觉-语言表示空间，例如 PathChat 和 PathAsst。
FM 的框架、基准和适应：例如 eva3 框架、基准分析和适应现有 FM。

2.3 FM 的预训练工作流程和策略

单模态视觉预训练：使用 SSL 方案，例如自蒸馏、对比学习和掩码图像建模（MIM），学习视觉表示空间。
视觉-语言预训练：使用 SSL 方案，例如 CLIP 和 CoCa，学习视觉-语言表示空间。
指令微调：使用指令微调数据集微调预训练模型，以获得对话能力。

2.4 FM 的下游任务

线性探针：在预训练模型之上训练线性分类器/回归器，不需要更新预训练模型的参数。
KNN 探针：使用 K 近邻算法利用预训练模型。
微调：在预训练模型之上添加分类器/回归器，并更新预训练模型的参数。
零样本评估：直接使用预训练模型进行下游任务，不需要探针或微调。
少样本评估：预训练模型只看到下游任务数据集的少量示例。
简单样本评估：少样本评估的一种变体，预训练模型只看到下游任务数据集的简单示例。

3 视觉-语言模型（VLM）

视觉-语言模型（VLM）是深度学习领域的一种模型，它结合了视觉和语言信息，以解决计算病理学中的各种任务。VLM 可以根据它们使用语言模态的原因进行分类，例如：

字幕生成：需要视觉和语言模态来生成字幕，例如 TraP-VQA、PathVQA 和 PathM3。
VQA：需要视觉和语言模态来回答视觉问题，例如 TraP-VQA、PathVQA 和 PathM3。
语义信息注入：使用语言模态作为语义信息的来源，以增强模型性能，例如 MI-Zero 和 PathChat。

3.1 VLM 的类别

VLMs：专注于解决单个或两个视觉-语言任务，例如字幕生成和 VQA。
VLFMs：使用 FM 类似的方法进行训练，并适应不同的下游任务，例如 PathGen-CLIP 和 Quilt-Net。

3.2 VLM 的架构组件

预处理：使用 LLM 清洁和优化字幕或生成关于特定类标签或图像中形态或纹理模式的描述。
视觉模块/编码器：将 WSI 片转换为图像嵌入，例如 CNN、ViT 和特殊编码器。
语言编码器：将文本转换为嵌入，例如 BERT、GPT 和 PubMedBERT。
字幕/文本生成模块：生成文本序列，例如 RNN、LSTM、Transformer 解码器和 LLM。
视觉-语言对齐/融合模块：将视觉和语言嵌入组合，例如 CLIP 和自定义方法。

3.3 VLM 的相关工作

VLM 攻击：例如 Thota 等人研究的 Projected Gradient Descent (PGD) 攻击。
病理报告处理：例如 Lucassen 等人提出的报告预处理工作流程。
文本引导的扩散模型：用于图像生成，例如 PathLDM。

4 结论

VLFMs 将成为主流：结合了 FM 和 VLM 优势的 VLFMs 将在未来占据主导地位。
更多语言先验知识：将更多地使用 LLM 来提供更多语言先验知识，以增强 VLM 的性能。
更强大的模型：将开发更强大的模型来解决更复杂的任务，例如多器官和疾病类型的病理学诊断。