连接矩阵与脑图

前言

连接组学的核心目标之一是全面绘制各神经单元(可以是单个的神经元、特定的神经元群，亦或是脑区)之间的连接图谱。但问题是，这些单元之间可能的连接数量极为庞大：如果一个网络中包含N个节点，那么可能的连接数量约为N2。因此，我们需要一种既简洁又有意义的方式来表征这些海量数据。

一种常见的做法是，将网络中每对节点之间的连接表示为一个二维矩阵。在该矩阵中，每一行和每一列都对应一个不同的节点，而位于第i行与第j列交汇处的矩阵元素则编码了关于脑区i与脑区j之间连接的信息。这个矩阵通常被称为连接矩阵，它是网络分析的基础，也是几乎所有分析方法的基础。重要的是，连接矩阵可用于生成网络的图论表征，其中矩阵的每一行/列对应于图中的一个节点，而每个矩阵元素则代表一条边。矩阵表征与图表征之间的这种等价性意味着，我们可以在脑网络连接分析中任意选用其中之一。

连接矩阵

连接矩阵可以看作一个简洁的"通讯录"，记录着大脑网络里所有节点之间两两的连接情况。为了给包含N个节点的脑网络构建一个连接矩阵C，我们首先需要构建一个二维阵列，称之为方阵，它包含N行和N列。每一行及其对应的列代表一个特定的网络节点。然后，将估算出的每对节点之间的连接值填入矩阵的相应格子里，从而构建出一个N×N的矩阵。

根据此约定，C的下标用于索引每个元素：第一个下标i索引行，第二个下标j索引列。这种用矩阵表示网络的方法非常灵活，可以用来编码网络的各种结构特征。

对角线与非对角线元素

一个方阵可被分为对角线元素与非对角线元素。上述公式中连接矩阵的对角线元素Cii以黑色字体显示。对角线元素有时被解释为节点与自身的连接，但更常见的用法是编码每个节点的某种内在属性。例如，在神经元网络中，我们可以在矩阵对角线上填入不同的值，以代表不同种类的神经元，如锥体神经元、抑制性中间神经元等。在介观或宏观尺度的脑网络中，对角线可用于表征每个脑区内部回路或功能角色的某种属性。在功能连接网络中，对角线也能反映每个脑区局部活动的差异。实际上，在神经科学中，矩阵对角线其实很少这么用。通常大家会忽略节点之间的内在差异，直接给所有节点设定一个相同的对角值。许多脑网络图论指标都直接忽略对角线，默认其全是零值。

连接矩阵的非对角线元素Cij(其中i≠j)代表了不同神经单元对之间的连接。因此，这些非对角线元素中包含的数值对应于成对连接的测量估计值，具体取值范围取决于所用的估算方法。一般来说，这些元素的值可用于表示每对脑区之间连接的类型(例如，兴奋性或抑制性)及强度(例如，强或弱)。非对角线元素还可以进一步划分为下三角部分(对角线以下的值，公式中用蓝色标示)与上三角部分(对角线以上的值，用红色标示)。

方向性

如果连接矩阵的上三角和下三角部分数值不同，那就意味着Cij不一定等于Cji，这种矩阵叫做非对称矩阵。在这种情况下，矩阵代表的是一个有向图(或称有向网络)，而这种非对称性编码了连接的方向。有向网络可以描绘一个网络节点对另一个节点所施加的影响。

不同研究者使用矩阵来表示方向性的方式各不相同。有的用列表示传出连接、行表示传入连接，有的则刚好反过来。因此，在开始分析之前，一定要先弄清楚有向连接矩阵是怎么构建的。除非另有说明，本文将统一采用如下规则：边的方向为从矩阵的第二个索引(列)指向第一个索引(行)。例如，连接矩阵的元素C1,4编码了从节点4投射到节点1的边。反之，元素C4,1则编码了相反方向的投射，即从节点1到节点4。

按照这个约定，图1a展示了一个包含六个节点和七条边的有向网络是如何构建连接矩阵的(另见图1b)。图中的箭头表示连接的方向，即箭头指向每条连接的目标节点(上图)。在矩阵表示中，方向性通过矩阵元素的非对称性来编码(下图)。例如，节点A投射到E，但E并未向A发回投射。因此，矩阵元素CE,A是非零值，而CA,E则为零。

如果连接矩阵的上三角和下三角部分完全相同，即Cij等于Cji，则该矩阵是对称的。在这种情况下，该矩阵代表的是一个无向图(或称无向网络)。该网络使我们能够识别特定网络节点对之间存在哪些连接，但无法告诉我们连接的方向。在脑网络中，这意味着我们无法推断信息流的可能方向，也无法判断一个神经单元对另一个神经单元的活动是否有因果影响。图1c展示了一个无向网络的例子：图示中没有箭头(上图)，且连接矩阵的上三角和下三角部分互为镜像(下图)。

图1.图与矩阵之间的等价性。

脑解剖网络本质上是具有方向性的，因为每个轴突投射均起始于一个细胞体，并终止于一个或多个突触。绘制神经元连接的方向性图谱通常需要使用侵入性方法，例如示踪剂追踪或电子显微镜。然而，像弥散磁共振这种可以在活体上无创使用的方法，目前还无法解析轴突投射的方向。因此，通过这些技术构建出来的网络，一般都是无向的。在功能连接和有效连接的分析中，方向性可以通过一些特定方法进行测量或建模，但大多数分析使用的还是时域中的相关系数或相关指标(例如，偏相关)或频域中的指标(例如，相干性)来量化功能连接，这些方法生成的网络同样是无向网络。虽然无向网络能为神经系统的组织提供重要见解，但解析大脑连接的方向性可以提供更为丰富的信息。

连接权重

并非所有神经单元之间的连接都一样。有的连接突触更多，有的轴突束更密集，还有的纤维髓鞘化程度更高、信号传得更快。这些差异可以通过连接权重来描述。大多数测量脑连接的方法都提供了某种连接权重指数，对于任意一对节点i和j，该指数记为wij。通过将这些连接权重填入矩阵元素中，即令Cij等于wij，就能在连接矩阵中保留这些信息。这样得到的网络就是一个加权图或加权网络。在绘图时，通常用边的粗细来表示节点对之间连接权重的差异。在矩阵表示中，则用颜色深浅来体现。加权网络的矩阵与图示示例见图1a和c。

脑网络中的连接权重可能表现出巨大差异，具体取决于用于估计脑区间连接的方法。例如，如果使用电子显微镜重建神经元间的每个突触连接，其值将在零(表示无连接)到某个上限(由神经元布线空间及生理约束决定)之间变化。另一种常见的方法是，向源脑区注射逆行示踪剂，计算被标记目标脑区的神经元比例。在这种情况下，wij将在0到1之间变化，其中wij=0表示不存在连接，而wij=1表示目标脑区内的所有神经元均被标记。

功能连接网络中的权重取值范围取决于所使用的估计方法。例如，基于相关性的功能连接估计值在-1至1之间，其中wij=-1表示两个脑区的时间进程完全负相关，而wij=1则表示完全正相关。如果改用互信息等其他指标来量化功能连接，连接权重通常是非负的。因此，测量方法直接决定了权重的范围以及如何解释这些权重。此外，权重还会受到测量技术的灵敏度和分辨率的影响。

脑网络也可以表示为无权图或二值图。在这些网络中，如果脑区i与j相连，则Cij=1，否则Cij=0(图1b和d)。二值网络只告诉我们哪些位置有连接，但不提供连接强弱的任何信息。鉴于脑网络中的连接权重可能相差好几个数量级，大家可能会觉得所有脑网络分析都应该用加权网络。但其实，只看连接矩阵的二值拓扑结构，通常也能获得很有价值的见解，而且目前连接组学数据分析中使用的大多数图论指标，最初都是为二值网络开发的。

稀疏矩阵

方阵的一种替代网络表示形式是边列表，有时也称为稀疏矩阵。当大多数矩阵元素为零时，这种表示形式特别实用。边列表中的每一行代表一条不同的边，通常包含两列数值。第一列是一对节点索引，表示该边连接的是哪一对节点。第二列表示该边的连接权重。以图1c中的网络为例，其稀疏表示的第一列列出的是图中所有唯一的边，即{AC, AE, BC, BD, CF, DE}。第二列则对应这些边的权重，即{13, 6, 10, 15, 20, 2}。如果是有向网络，那么从i到j和从j到i的边需要分别作为两个条目列出。

之所以叫"稀疏矩阵"，是因为这种表示方式只记录非零的边，那些没列出来的边默认权重为零。这种紧凑的表示形式对于分析大型、稀疏连接的网络非常有用，因为它消除了在计算机内存中存储零值矩阵元素的需要。

邻接矩阵

连接矩阵有时也被称为邻接矩阵，记为A。在图论中，由一条边直接相连的两个节点被称为相邻或互为邻居。因此，邻接矩阵实际上定义的就是节点之间"谁和谁相邻"的关系。

在连接组学中，通常会在分析之前对连接矩阵做一些处理或过滤。例如，为了减少低权重连接或虚假连接对网络拓扑结构的影响，我们可能会对矩阵进行阈值化处理。在这里，本文将原始的或未经滤波的矩阵称为连接矩阵，记为C，而将用于后续分析的矩阵称为邻接矩阵，记为A。在某些情况下，矩阵C与A是等价的，但更多时候，A是C经过处理或滤波后的版本。接下来，本文将介绍两个最常见的处理步骤：阈值化与二值化。

阈值化

有些脑网络，例如基于时间序列相关性的功能连接网络，在矩阵的每个非对角线元素中几乎都有非零值(图2a)。这种网络被称为全连接网络，因为每对脑区之间都存在一个非零连接。但问题是，这些连接是否都是真实的？分析时是否应该考虑所有边？其实，大脑并不是一个全连接网络。举个例子，秀丽隐杆线虫的中枢神经系统有 302 个神经元，它们之间大约有 5600 个化学突触和间隙连接，这大约占可能存在的总连接数(N(N-1)=302×301=90902)的6%。在分辨率较低的网络中，连接密度会更高一些------比如用病毒示踪技术构建的猕猴皮层网络，密度估计值高达 66%。但即使这样，也远没有达到全连接的程度。这些数据说明，任何能够得出全连接矩阵(即每个神经单元与其他所有单元都相连)的脑网络重建方法，很可能都混入了大量虚假连接。事实上，大多数测量脑连接(无论是结构连接还是功能连接)的方法都伴随着测量噪声，这让我们很难区分真实连接和虚假连接。因此，连接矩阵中一个微小的非零值，很可能只是噪声，而不是真的有连接存在。

图2.邻接矩阵的阈值化与二值化。

为解决此问题，我们可以对连接矩阵设定一个截断值或阈值τ，以确定哪些连接应保留在邻接矩阵中，具体如下：

其中，边Cij是边Aij的超集(图2b)。这样做的好处是：有助于最大限度地分离信号与噪声(即区分真实连接与虚假连接)，并突出那些不太可能反映测量误差的边的拓扑属性。同时还能提高计算效率，因为大多数网络指标在边数较少的网络上计算速度更快。

阈值化有两个主要缺点。首先，阈值选多少是个问题，因此τ的最终选择权落在研究者手里。尽管已经开发出多种对脑网络进行阈值化的不同方法，但每种方法都有各自的局限性。其次，阈值化可能会导致个体间网络连接密度不一致。例如，若对一组人类功能连接网络样本统一应用阈值τ=0.2，那么平均连接水平较高个体的邻接矩阵中，超过此阈值的边数将多于平均连接水平较低的个体。这种差异也是一个混淆因素，因为大多数网络指标对边的数量都很敏感。另一种替代方法是自适应地改变τ的值，以使所有网络中的边数达到相同水平，但该方法可能会让分析变得更复杂。

二值化

对连接矩阵应用阈值后，可将剩余元素进行二值化处理，如下所示：

二值连接矩阵分析关注的是节点间连接的拓扑模式，而忽略其权重差异(图2c)。也就是说，仅关注节点之间连接的有无和位置，这可以为理解连接组的基本结构提供见解。

因此，有向网络中边的总数为Edir=∑ijAij。

另一种思考方式是：将每条边视为具有两个端点或线头。由一条边连接的两个节点各占一个线头。无论是有向网络还是无向网络，都将包含2E个线头。如果对矩阵A中所有非零元素求和，实际上就是在数这些线头。这对于有向网络来说是合理的，因为本来就要区分从i到j以及从j到i的连接。但对于无向网络来说，这相当于把每条边数了两次。

连接密度(也称连接度)指的是A中非零元素的数量，占网络中可能存在的最大连接总数的比例。无向网络中最大可能连接总数为N(N-1)/2，其中N是网络中的节点数，而N(N-1)即为邻接矩阵中非对角线元素的数量。因此，无向网络的连接密度κ为：

由于κ是一个比例，其取值范围在0到1之间，其中κ=0表示不存在任何连接，κ=1表示网络为全连接(即所有可能的连接均存在)，而0＜κ＜1则表示网络中存在的连接占所有可能连接的比例。

在分析有向网络时，区分每条边的两端(线头)至关重要。因为有向网络中从节点i到j以及从节点j到i是两条不同的边，每个线头都提供了独特的信息。因此，有向网络中边的总数等于邻接矩阵中所有非零非对角线元素之和(图1a和b)，有向网络的连接密度可以表示为：

请注意，无向和有向的公式相差一个因子2。后面统一使用κ来表示有向与无向网络的连接密度。

接下来，将进一步举例说明有向与无向网络之间的区别。取一个简单的三节点有向矩阵：

该矩阵中有三个非零元素：A1,2、A2,3和A3,1。所以Edir=3，最大可能连接数为3(3-1)=6，因此κ=3/6=0.50。

对于无向矩阵：

假设该矩阵中有四个非零元素，它们代表了在最大可能数量为三的连接中存在的两条唯一连接。不区分传入或传出连接，因此Aij=Aji，且非零元素的数量等于唯一连接数量的两倍(即2E=∑ijAij)。因此，可以将无向网络中边的总数计算为矩阵上三角或下三角中非零元素的数量，或更普遍地表示为½∑ijAij。此无向网络中最大可能连接总数为3(3-1)/2=3，连接密度为κ=2/3≈0.67。

对于加权网络，还可以计算邻接矩阵中边的总权重。根据测量方法的不同，权重可能有正有负(例如，相关系数就可以是负的)。若将正权重记为wij＋，负权重记为wij－，那么无向图中同时包含正负边的总权重W±，就是所有边的正负权重加起来再除以2。

正权重和负权重的总权重也可以分开进行计算，即W＋=½∑ijwij＋，而W－=½∑ijwij－。对于有向网络，总权重不需要除以2，因为每个矩阵元素代表一条有特定方向的边，i→j和j→i是两条不同的连接，各自提供独立的信息，所以直接求和即可。另外，在某些情况下(例如基于相关性的网络)，平均权重可能会比总权重提供更直观的概括。

脑网络的连接密度可因物种、分辨率尺度及测量技术的不同而变化。从跨物种的角度看，大脑皮层神经元越多，通过白质投射出去的长程连接反而越少。简而言之，脑子越大，形成的长距离连接反而较少，这可能是由于较大的脑部需要更多的代谢和物质资源来维持连接所致。

分辨率尺度对连接密度的影响表现为，以较低空间分辨率绘制的网络往往具有更高的连接密度。这是因为在一对较小的神经单元(比如在几十亿个神经元里随便挑两个)之间发现连接的概率，肯定远低于在一对较大的单元(比如大脑几百个分区里随便挑两个)之间发现至少一条连接纤维的概率。当用于节点定义和连接图谱绘制的分辨率不匹配时，这个效应将被放大------若我们想测量两个大型神经元群之间的连接，与较低分辨率的绘图技术(如弥散磁共振成像)相比，高分辨率连接绘图技术(如侵入性示踪追踪)识别出至少一条连接的可能性要高得多。因此，当低分辨率的分区方案与高分辨率的连接绘图方法相结合时，最后得出的网络连接密度一定会特别高。

用于量化连接的测量技术也会影响连接密度。使用示踪追踪和确定性弥散纤维束成像衍生的结构连接网络来说，通常会产生包含某些零值元素的连接矩阵。这些零值可能是真阴性(无连接)，也可能是由测量技术的局限性和/或偏倚造成的假阴性。其他技术，例如基于高阶交叉纤维模型的弥散纤维束成像及概率性追踪方法，通常会产生更为密集的连接矩阵。这些密集矩阵很可能包含假阳性连接，即在实际上并未真正互连的脑区对之间绘制出的连接。滤波和阈值化方法或许能消除其中一些假阳性。因此，使用这些方法构建的脑网络具有一个由大脑实际连接性与测量技术偏倚共同决定的固有密度。

在其他类型的网络中，特别是基于相关性的网络(如功能连接和形态测量协方差分析中所研究的那些网络)，则不存在固有密度。因为在这些网络中，所有边都具有连续变化的非零数值，网络从构造原理上讲就是全连接的。在这种情况下，阈值化决定了网络密度，并成为分析前的一个关键处理步骤。

网络可视化

可视化在网络分析中至关重要，并且存在多种不同的方式来可视化邻接矩阵与脑图。在这里，本文将探讨不同类型的矩阵与图形可视化如何用于凸显网络组织的不同方面。

邻接矩阵的可视化

对邻接矩阵进行可视化有助于理解网络的拓扑组织。在矩阵中，每一行和每一列分别对应一个网络节点，而每个元素则代表相应节点间的成对连接。在可视化过程中，通常采用颜色编码来区分边权重的变化(图2)。此外，还可将不同元素视为可独立调整大小与形状的图块，从而编码更多属性信息(图1)。

通过重新排列矩阵的行和列，可以揭示网络的不同组织属性。图3展示了几种常见的排列示例。所有四个矩阵均源自同一数据集：一个基于82个解剖学区域节点构建的人类结构连接矩阵，该矩阵由40名健康个体样本中采集的弥散磁共振成像数据平均而得。在图3a中，行和列按解剖学标准排序，即所有左半球脑区列于前，随后是所有右半球脑区。在每个半球内部，脑区的排序是相同的，因此第一个列出的左半球脑区与第一个列出的右半球脑区互为同源区域。通过这种排序方式，可以观察到两个明显的连接增强区块：一个位于左上象限，另一个位于右下象限。这两个区块分别代表左半球(左上象限)和右半球(右下象限)的半球内连接。半球间连接则呈现于右上和左下象限中。图3a中的白色方框突出显示了矩阵次对角线元素，这些元素编码了左右半球同源区域之间的连接。从这种基于解剖学的矩阵表示中，可以看出半球内连接强于半球间连接，并且对侧半球的同源区域之间存在彼此连接的趋势。

图3.邻接矩阵的可视化。

在图3b中，行和列按节点连接强度降序排列，从连接最广泛的区域到连接最弱的区域。高度连接的区域集中出现在左上角。这些区域与大多数其他脑区具有广泛的连接，而弱连接区域在全脑中整体连接度较低(右下角)。这种排列结构符合大脑网络的典型组织方式，即围绕一个由高度互连区域构成的核心进行组织，而连接较弱的节点则分布在外周。

图3c通过对邻接矩阵的行和列进行排序，以凸显网络的模块化组织结构。属于同一拓扑模块(以白线划分)的所有节点被聚集在一起，使矩阵呈现出块对角化形态。从图中可以看出，同一模块内部节点之间的连接强度高于不同模块之间的连接强度。

在图3d中，行和列随机排序，无法辨识出清晰的结构。通过比较这些可视化结果可知，对邻接矩阵进行重新排列能够突出不同的网络属性。此外，还有许多其他类型的排序方式可供选择。在某些分析中，节点排序并不仅仅是可视化层面的修饰，还可能影响部分网络属性的计算结果。

脑图的可视化

如图1所示，我们可以在网络的矩阵表征与图表征之间轻松切换。实际上，从邻接矩阵生成图是一个相对简单的过程。每个对应于邻接矩阵特定行(和列)的脑区，在图中被表示为一个独立的节点(通常以圆形或球体表示)，而每条连接则表示为连接两个节点的边。在图论中，节点有时也被称为顶点，边有时也被称为弧或连接。

连接权重的变化可以在图中通过调整每条边的粗细来表示。方向性则可以通过附着于边末端的箭头来表示，其中箭头指向连接的目标节点。与矩阵类似，我们可以采用不同的方式将节点和边投影到图上，以突显不同的网络属性。本文主要考虑三类图布局：解剖布局、环形布局和力导向布局。每种布局的示例如图4所示。

图4.脑图的可视化。

解剖网络投影根据节点在大脑中的实际物理位置对其进行定位。对于哺乳动物大脑而言，这一过程通常是在颅内体积的三维坐标空间内完成的，即每个节点根据其立体定向坐标{x, y, z}进行绘制，而边则以节点间的直线绘制。颜色可用于突出显示节点和/或边的不同分组(图4a)。解剖投影非常适用于揭示数据中的空间效应以及定位特定发现。然而，这种可视化方式容易变得杂乱，尤其是在处理大型且密集的网络时。此外，由于我们只能在打印页面上呈现三维空间的二维投影，因此往往需要多个视图才能"摆脱平面限制"，获得对数据的全面视觉描绘。边捆绑和其他算法可在一定程度上减少此类投影中的视觉杂乱。

环形投影提供了网络连接性的简洁表征。在该投影中，节点被定位在一个圆(环)的圆周上，而边则以穿过圆内部的直线或曲线绘制。Watts和Strogatz在其对小世界网络属性的经典图示中使用了此类可视化方法(图3)。通过根据不同的标准(如皮层叶或拓扑模块)沿圆周对节点进行排序，可以进一步展示特定的网络属性。边的宽度或颜色可随连接权重等特征的变化而调整。附加属性还可编码为环绕圆周的同心环中的彩色符号(图4b)。这类可视化通常被称为连接图谱。

力导向投影将图建模为一个节点系统，其中节点之间根据与成对节点距离(例如连接权重或拓扑路径长度)成比例的某种物理力相互吸引或排斥。使用该方法时，最优布局通常力求在以下属性之间取得平衡：(1)最小化边交叉，以减少视觉杂乱并使边的路径易于追踪；(2)对称性，有助于理解网络结构；(3)均匀的边长度，以避免几何扭曲；(4)节点在空间上均匀分布，以最小化杂乱并形成规则结构；(5)确保节点的空间邻近度与其拓扑邻接性相关联，从而有效展示成对节点之间的关系。

力投影布局的最优解通常通过以下方式获得：首先对节点进行初始定位，随后通过迭代调整节点位置，以最小化一个定义了布局总能量的目标函数，该能量由赋予边的物理力决定。目标函数的设计原则是，在低能量布局中，拓扑相邻节点的图形位置接近某个预设的理想距离，而非相邻节点则彼此远离。一些最流行的方法使用类似弹簧的力来定义节点的吸引与排斥。其他技术(如基于多维缩放的技术)，则试图寻找一个与观测到的节点间拓扑距离最大程度对应的数据投影。力导向方法通常能够提供节点间拓扑关系的有用视觉概括，尤其适用于识别诸如模块等强连接子集(图4c)。此外，该方法还可以与其他约束条件相结合，以辅助特定网络属性的可视化。

小结

总的来说，一个理想的脑图(图5)应能解释以下属性：

1.空间嵌入。

2.节点属性的异质性。

3.连接的权重。

4.连接的方向性。

5.边类型的异质性。

6.网络组织的动态变化。

图5.理想与实际脑图。顶行是一个理想脑图的表征。底行则展示了迄今已生成的各种脑图类型，并列出了用于构建这些脑图所采用的技术。

参考文献：Connectivity Matrices and Brain Graphs, Editor(s): Alex Fornito, Andrew Zalesky, Edward T. Bullmore, Fundamentals of Brain Network Analysis, Academic Press, Pages 89-113, ISBN 9780124079083, https://doi.org/10.1016/B978-0-12-407908-3.00003-0.