在 NVIDIA DGX 上以细胞分辨率绘制全人脑神经映射

这篇文章最初发表在 NVIDIA 技术博客上。

为了在 2 年内对 100 个大脑进行全人脑细胞级成像以及后续的分析和映射，我们需要加速超级计算和计算工具。NVIDIA 的技术很好地满足了这一需求，包括硬件、计算系统、高带宽互连、特定领域的库、加速工具箱、精心策划的深度学习模型和容器运行时。NVIDIA 的加速计算涵盖了 IIT Madras 大脑中心的解决方案构建、推出、优化、管理和扩展的技术之旅。

视频 1.Sudha Gopalakrishnan 大脑中心

如今，对于像苍蝇这样的小型昆虫大脑，以及老鼠和小猴子的大脑，获取、转换、处理、分析和解释的过程已经相当复杂。然而，对于整个人类大脑来说，这些活动规模更大、更复杂，更需要技能和时间。

IITM Brain Centre 的成像管线的关键大数据特征是体积和速度。每个扫描仪的扫描速率为 250 GB/小时，当多个扫描仪同时运行时，该中心每小时能生成 2 TB 的高分辨率未压缩图像。所有图像都必须进行处理，以绘制每个成像单元的地图。对于计算机视觉物体检测模型，同等的发生率约为每秒 1 万个物体。

处理此类大规模的初级神经解剖学数据需要采用数学和计算方法，以揭示在多个时空尺度下控制大脑结构、组织和发展演变的复杂生物学原理。

这项重要且具有挑战性的科学研究涉及分析精心获取的细胞分辨率大脑图像，以对以下内容进行量化描述：

空间布局
细胞结构
神经元路径
分割式组织
全脑架构

它扩展到研究所有这些级别的大脑间相似性和关系。

IIT Madras 的新大脑中心已经接受了这一挑战，正在推动一项大规模的多学科工作，在细胞层面绘制 100 多个人类大脑的地图。该中心利用其专有技术平台，对不同类型和年龄的人的死后大脑进行成像。

他们的目标是创建前所未有的细胞分辨率，并对多种类型的人类大脑进行统一研究的数字采集，这些大脑可以从细胞级别到全脑级别进行查询。这需要每个大脑能够枚举 1000 亿个神经元，需要超过 100 个大脑，并且能够连接不同的大脑区域。

满足细胞分辨率脑成像的计算需求

该中心开发了一个出色的计算平台，可通过 Web 浏览器界面存储、处理、访问、处理和可视化此类超过 100 PB 的高分辨率数字人脑数据。

这项工作可能与绘制多个完整行星的地图有关，通过通过地球体积的高分辨率横截面成像数据统一研究模式、趋势和差异。地球表面的卫星图像将达到 TB，在当今的计算机和 Web 浏览器中可以管理大小。这些地理空间渲染技术为 Google 地图和其他地图提供支持。

然而，在细胞分辨率下，全脑的容积成像可为每个大脑生成 PB 级的数字数据，这对通过 Web 界面进行可视化、处理、分析和查询构成了挑战。

幕后的计算挑战同样巨大：

人类在环大型图像数据管道
通过索引来自多个并发成像系统的数据实现自动化
将图像传输到统一的中央并行文件存储集群
以便于随机访问的任意规模的格式进行编码
机器学习模型，适用于检测组织轮廓等多项自动化任务
成像质量控制
用于大型图像归一化的深度学习任务
蜂窝级物体检测、分类和区域划分
先进的数学模型，用于跨模式和分辨率对图像进行几何对齐，然后使用计算几何来推导量化信息学
格式化为大容量快速可检索的元数据和信息学数据存储，将令人望而却步的操作变为可能：按需执行单单元到全脑查询，并及时回复基于 Web 的交互

要设想这项挑战的规模，只需查看其中一项任务，这是一项看似合理的物体检测任务。众所周知，现代深度学习卷积神经网络在这项任务中表现出色，在识别和标记物体方面达到了甚至在某些情况下超过了人类水平的能力。

但是，这些模型经过训练，可以处理包含数十个物体的百万像素图像。单单元分辨率的图像是千兆像素，可以包含数百万个不同的物体。处理此类大型数据需要专业的计算工作负载。

这就是 Brain Centre 向 NVIDIA 寻求帮助的原因。NVIDIA 是基于 GPU 的行业领导者，已经实施了 HPC 和 DGX A100 系统集群，以完成 10 到 20 个大脑的完整处理。随着中心扩展到 100 个大脑等，他们希望 DGX SuperPOD 能够提供可扩展的性能，以及行业领先的计算、存储、网络和基础设施管理。

在 NVIDIA DGX 上的 8 个 NVIDIA A100 Tensor Core GPU，将每个 DGX 节点上检测细胞的相同数据所需的时间从至少 1 小时减少到不到 10 分钟。这使得在一个月的时间内进行全脑分析，并扩展到 100 个大脑变得切实可行。

IIT Madras 的杰出校友兼 Infosys 的联合创始人 Kris Gopalakrishan 说："我很高兴看到 IITM Brain Centre 与 NVIDIA 合作，共同应对分析我们生成的庞大而复杂的细胞级人脑数据的挑战。他在建立和支持 IITM Brain Centre 方面发挥了关键作用。通过与 NVIDIA 这样的行业领导者合作，我们期待在该领域取得突破，从而产生全球影响。"

解决计算挑战

一张包含 25 万张 256 X 256 图像的千兆像素全幻灯片图像在 A100 GPU 上进行推理只需 420 秒。通过使用 NVIDIA 库和应用程序框架进行端到端流程优化，即可实现：

使用 NVIDIA DALI 执行加速的图块创建和批处理。
MONAI Core 模型通过 TensorRT 进行优化。
TensorRT 计划文件在网络的不同部分混合选择 INT8、FP16 和 TF32，并生成引擎。
一个 A100 GPU 中包含三个引擎，用于分布式推理。
NVIDIA 加速图像处理库 cuCIM 用于加速图像配准。
NVIDIA IndeX 用于各种缩放级别的多 GPU 立体可视化。不久，MONAI Label 的 AI 辅助注释以及 NVIDIA 联合学习 SDK-Flare 将用于进一步优化其他各种 MONAI 核心模型，并将使用 MONAI Deploy 部署流程。

NVIDIA 南亚地区总经理 Vishal Dhupar 表示：" NVIDIA 技术堆栈使 IIT Madras Brain Centre 的先驱者能够有效地满足细胞层面对高分辨率脑成像的计算需求，从而推动国家和全球范围内的神经科学研究向前发展。

MONAI 和 TensorRT 可用于 NVIDIA AI Enterprise，后者包含在 NVIDIA DGX 基础架构中。

图 1. 适用于医学成像的 NVIDIA 加速计算工作流程

NVIDIA DGX 系统具有双 64 核 CPU 和 8 块 NVIDIA A100 GPU (具有 640GB GPU 显存)，以及 2 TB RAM 和 30 TB 闪存存储，其计算能力代表了单个 4U 机箱中可用的最高级别服务器计算能力。

此外，DGX 具有可扩展性。 NVIDIA 提供了一个软件和网络生态系统，可互连多个 DGX 系统，并满足 IITM 大脑中心的规模和性能需求，用于处理流水线批作业的数据处理以及按需突发计算。

在对大脑中心数据进行基准测试时，用于 CNN 推理的单个 NVIDIA A100 GPU 的有效处理速率为每小时 60 GB (数据单位为 uint8，推理单位为 FP16 精度)，或在五台 DGX 服务器(40 个 A100 GPU)上的有效处理速率为每小时 2.4 TB，这与当前的成像速率相匹配。这使得成像和计算流程没有瓶颈。由于 DGX 计算节点具有可扩展性，还可以通过横向扩展增长来匹配数据流入速率的任何激增。

A100 GPU 主要面向大型数据集和大型模型的深度学习训练，这些数据集和模型可能不适合较小的 GPU vRAM.在 IITM Brain Centre 中，DGX 系统中的 A100 GPU 以每个 A100 GPU 多引擎的方式用于 CNN 推理，数据在多 GPU 和多节点中映射，以便在五个 DGX 服务器上从 1 -- 40 倍扩展。

这使得我们能够处理可变的图像大小，这与从胎儿到成年人不同年龄阶段的人脑物理大小可变性(比例变化 1 -- 32 倍)相对应。此外，DGX A100 系统的 CPU 计算能力和存储类型在 Brain Centre 的计算管线中得到了很好的应用，可用于 CPU 密集型工作负载、数据访问或移动密集型工作负载以及远程可视化。

NVIDIA 技术堆栈以容器运行时的统一格式为流程中的每个步骤提供工具和优化库，以更轻松地促进采用，并确保最佳实践和自动化操作。

改变医学成像领域的深度学习格局

过去，深度学习技术专注于设计最佳方法，或在训练时进行调优，以逐步提升性能。现在，该技术已转向使用计算机视觉(物体检测、语义和全景分割、基于 DL 的图像注册)和自然语言等领域经过验证的基础模型进行推理。这些结果正在实现以前不适合计算自动化的应用程序。

现在的重点是围绕由深度学习推理提供动力支持的新应用程序实施软件护栏。集成的硬件系统和软件堆栈不仅是朝着这个新方向发展的便利，而且是扩展和简化的工具。 NVIDIA 技术堆栈是实现解决方案构建、部署和扩展的一种飞跃。

如今，每个人都可以访问详细的地球地图，该地图已成为一个支持新应用程序和新业务的平台。它现在可以指导和塑造全球的行动方式。IIT Madras Brain Centre 的工作目标是打造一个类似的变革性平台，该平台将在脑科学中产生新的成果，塑造和指导脑部手术和治疗，并加深我们对医学最后前沿 --- --- 人类大脑的了解。

想要了解更多信息，请访问 HTIC-Medical-Imaging GitHub 存储库。

阅读原文