论文阅读(一)：下一代基因组学和遗传学的概率图模型

1.论文链接：Probabilistic Graphical Models for Next-generation Genomics and Genetics

摘要：

组学和其他类型的生物数据的爆炸增加了对可靠的大规模统计方法的需求。这些数据可以是离散的或连续的、依赖的或独立的，来自许多个体或组织类型。除了协变量之外，可能有来自单个个体的数百万个相关观测，不同尺度和水平的观测。生命系统的研究涵盖了广泛的关注，从前瞻性到预测性和因果关系的问题，反映了理解生物学机制，疾病病因，预测结果和破译数据中因果关系的多重利益。准确地说，概率图模型提供了一个灵活的统计框架，适合分析这些数据。值得注意的是，图形模型能够处理数据中的依赖关系，这几乎是细胞和其他生物数据的决定性特征。

**关键词：**生命系统，生物复杂性，高通量技术，组学，概率图模型

背景：

"组学"和其他类型的生物数据的爆炸增加了对可靠的大规模统计方法的需求。这些数据可以是离散的或连续的，依赖的或独立的，并且来自许多个体或组织类型。除了协变量之外，可能有来自单个个体或不同尺度和水平的数百万个相关观测值。生命系统的研究涵盖了广泛的关注，从前瞻性到预测性和因果关系的问题，反映了理解生物学机制，疾病病因，预测结果和破译数据中因果关系的多重利益。准确地说，概率图模型提供了一个灵活的统计框架，适合分析这些数据。值得注意的是，图形模型能够处理数据中的依赖关系，这几乎是细胞和其他生物数据的决定性特征。

本章旨在为不熟悉生物学或需要本书中描述的模型所处理的高通量生物数据的读者提供最低限度的背景知识。本章还提供了使用概率图形模型来处理高通量生物数据的动机。本章的结构如下。第1.1节描述了分子生物学研究的颗粒成分，并提供了关键术语的定义 。生物信息允许在遗传学，基因组学和后基因组学领域进行研究。这三个领域的各自范围首先被定义。在这些领域中，各种类型的分析允许推断关于生命系统的一个或多个描述水平的知识。然后，第1.2节将重点放在与本书各章相关的生命系统的多层次生物组织上。 本节借此机会澄清这本书对"系统生物学"的定义感兴趣。"整合生物学"的定义也是明确的艾德。在现代基因组学时代，数据是由高通量技术提供的;第1.3节简短的描述了本书所涵盖的数据类型。 最后，本节强调了目前可用的生物数据的复杂性，并强调了在处理这些数据时遇到的各种问题。这一重点作为1.4节 的过渡，开始倡导在遗传学，基因组学和后基因组学中使用概率图形模型：因此可以证明和利用各种生物成分之间的依赖关系，目的是解释和预测。本章最后简要介绍了概率图形网络在本书中突出的六个应用中的应用：基因网络推理、因果关系发现、关联遗传学、表观遗传学、拷贝数变异检测和预测高维基因组数据的结果。

1.1生命系统的细粒度描述

1.1.1 DNA和基因组

除病毒外，细胞是所有生物体中能够通过代谢活动独立发挥功能的最小结构单位。代谢包括细胞内的所有化学转化。与原核细胞（例如，细菌），真核细胞通常被描述为具有通过膜与细胞的其余部分（细胞质）隔离的核;核包含大部分遗传物质，称为基因组。在原核生物中，遗传物质并不局限于细胞核内。本书中所描述的所有应用都是针对人类基因组的，这也解释了我们对真核细胞的关注。在环境因素的影响下，基因组在个体可观察特征（又称表型）的形成中扮演着重要角色。例如，众所周知，基因影响种族、头发和眼睛的颜色、性别、身高和体重。

在生物体的每个真核细胞中，相同的遗传信息编码在生化分子DNA中。DNA分子是双链的，它被扭曲成螺旋。每条链由核苷酸（或碱基）的长聚合物组成。基因组由四种碱基组成：腺嘌呤（A）、鸟嘌呤（G）、胞嘧啶（C）和胸腺嘧啶（T）。DNA分子的两条链是配对的，基于杂交特性：A和T（分别为C和G），在相对的链上，作为互补碱基物理连接在一起。DNA分子通过中间信使核糖核酸（mRNA）分子决定蛋白质的合成：mRNA通过转录步骤由DNA产生;蛋白质通过翻译步骤由mRNA产生。去杂交特性，即局部释放两条DNA链，涉及复制和转录过程。复制步骤从DNA分子产生DNA拷贝;转录步骤从双链DNA分子产生单链RNA分子。在二十世纪，科学中最具革命性的手段之一是聚合酶链式反应（PCR），它利用了杂交和去杂交的特性。因此，PCR允许从单个DNA片段获得数百万个相同的拷贝。

在真核生物中，基因组被包装成染色体，每个染色体都由一个特定的DNA序列组成，由于蛋白质的作用，DNA序列紧密地包装成一系列复杂的螺旋（即组蛋白）。人类基因组包含大约34亿个碱基对的DNA，这些DNA被包装成23条染色体。除了雌性卵子和雄性精子外，人体内的大多数细胞都是二倍体。二倍体是指这样的细胞具有两组同源染色体。因此，每个细胞含有总共68亿个碱基对的DNA。如果（实际上）首尾相连，每个人类细胞中的46个DNA分子将产生一个两米长的序列。

在任何两个人之间，遗传变异大约为0.1%。因此，平均而言，每1000个碱基对中约有一个在任何两个个体之间是不同的。已知有多种类型的DNA多态性：最常见的类型是单核苷酸多态性（SNP），其中遗传变异包括单碱基对差异;此外，SNP的另一个特征是在四种可能的核苷酸（A，G，C和T）上，在研究人群中只显示两种变体。其他不太常见的多态性类型包括DNA片段的插入、缺失、重复和重排，以及给定片段拷贝数的差异。

总结：

DNA分子：是生物体遗传信息的载体，存在于真核细胞的细胞核中。DNA分子呈双螺旋结构，由两条长链的核苷酸（或碱基）组成。遗传信息通过四种碱基：腺嘌呤（A）、鸟嘌呤（G）、胞嘧啶（C）和胸腺嘧啶（T）编码。
基因组：是指一个生物体的全部遗传物质，包括DNA序列。人类基因组包含大约34亿个碱基对，分布在23对染色体中。每个细胞中的DNA分子长度可达两米。
基因表达：DNA通过转录和翻译过程指导蛋白质的合成。转录是指DNA被转录成信使RNA（mRNA），翻译是指mRNA被翻译成蛋白质。这一过程涉及DNA的解旋和复制，以及蛋白质合成的多个步骤。

1.1.2基因和蛋白质

任何产生功能性RNA分子的DNA区域都称为基因。此外，对术语"基因"最广为人知的接受涉及编码蛋白质的基因类别。人类基因组包含大约20000个这样的基因。蛋白质是在生物体中发挥大部分作用的大分子。在多细胞生物中，蛋白质是生物组织和器官的结构、功能和调节所必需的。 例如，酶催化细胞中发生的数千种化学反应中的绝大多数;因此，这些蛋白质对于生产生命所必需的剩余有机生物分子至关重要。例如，苯丙氨酸羟化酶将氨基酸苯丙氨酸转化为另一种氨基酸酪氨酸。另一个关键作用是转录因子。 这些蛋白质结合到特定的DNA序列，单独或以复合物的形式，以促进（激活）或阻止（抑制）RNA聚合酶在DNA分子上的定位。因此，这两种蛋白质都控制着遗传信息从DNA到mRNA的流动，从而形成新的蛋白质分子。其他蛋白质构成细胞的结构成分。**在更大的范围内，它们也允许生物体移动。**例如，肌动蛋白是由多个亚基组成的结构蛋白;它们帮助细胞保持形状，也参与肌肉收缩。储存和运输是蛋白质的另外两个重要功能：相关蛋白质与原子或小分子结合;因此，在整个生物体中的运输成为可能。例如，铁蛋白，一种由24个相同亚基组成的蛋白质，参与铁的储存。一些蛋白质是传递信号以协调不同细胞、组织和器官之间的生物过程的信使。一个例子是生长激素，它调节细胞生长。我们完成了由蛋白质所完成的重要功能的列举，并提到了抗体。抗体是一种蛋白质，它与特定的外来颗粒（如病毒或细菌）结合，以帮助保护生物体。例如，免疫球蛋白G是血液中存在的一种抗体。

总结：

基因：是DNA上的一个区域，能够产生一个功能性的RNA分子。人类基因组包含大约20,000个编码蛋白质的基因。蛋白质是生物体的主要功能分子，参与细胞的结构、功能和调控。
蛋白质的功能：
- 酶：催化化学反应，如苯丙氨酸羟化酶将苯丙氨酸转化为酪氨酸。
- 转录因子：结合特定的DNA序列，调控RNA聚合酶的定位，从而控制基因的表达。
- 结构蛋白：如肌动蛋白丝，维持细胞形状并参与肌肉收缩。
- 运输和储存蛋白：如铁蛋白，参与铁的储存。
- 信号分子：如生长激素，调节细胞生长。
- 抗体：结合特定的外来颗粒，如病毒或细菌，帮助保护生物体。

1.1.3表型和基因型

**生物体的表型被定义为生物体的可观察特征或性状的组合。**特别是，表型可以在生命系统的最低水平，即细胞水平上描述：表型的定义可以扩展到指定只有通过某些技术程序才能观察到的特征。这些特征与观察生物系统的尺度的各个层次有关。高级性状包括生化特性、生理特性、发育和形态、物候和行为。例如，物候特征包括与气候和栖息地条件有关的周期性生物现象，如开花，繁殖和迁移。甚至这个水平也受到生物体携带的遗传信息的影响。表型是由生物体基因的表达以及环境因素的影响和两者之间的相互作用引起的。

**生物体的基因型被定义为在某些特定性状中表达的基因的交替变异的集合。**这些特征通常通过蛋白质的合成来表达。在遗传学中，基因表达是基因型产生表型的最基本水平。在另一种常见的用法中，生物体的基因型更系统地定义为基于一组遗传标记的DNA变异的描述。遗传标记是基因组的特征位点，代表了观察个体之间DNA多态性的许多短窗口。特别是，二倍体生物的基因型解释了存在于一对染色体的两个同源染色体上的相对基因座上的DNA变体或等位基因。比较同一物种的一组生物体之间的基因型是破译观察到的表型差异的关键。

总结：

表型：是指生物体的可观察特征或性状，包括细胞水平的特征以及更高层次的生化、生理、发育和形态特征。
基因型：是指生物体基因的替代变异，这些变异通过蛋白质的合成表达出来。基因型是通过比较同种生物体的基因组来解码表型差异的关键。

1.1.4分子生物学、遗传学、基因组学和后基因组学

分子生物学是生物学的一个分支，它描述了基因组的分子特征，如DNA、RNA和蛋白质。可以为术语遗传学和基因组学提供各种定义。在本书的范围内，遗传学这个词指的是研究某些群体中个体基因组之间变异的学科;这种变异分析可能集中在简单的单位（遗传标记）或更复杂的单位（基因）上。基因组学的定义通常包括与基因组测序，基因作图和基因组注释相关的生物技术和计算分析的范围;功能基因组学是本书的适当表达。功能基因组学主要研究转录、翻译和蛋白质之间的相互作用。值得注意的是，功能基因组学包括通过DNA芯片研究转录组，以描述和量化基因表达：例如，基因表达相关性可能表明基因属于同一基因相互作用网络;识别差异表达的基因，例如在受试者和未受试者之间，可以识别所研究疾病的推定原因。

除了功能基因组学，后基因组学更进一步，涵盖了越来越广泛的主题。所有这些主题本质上都旨在从原始数据中挖掘更高的功能生物学理解。这些数据允许对生物体的不同观点。这些观点可以是转录组学（通过mRNA分析基因表达水平）、蛋白质组学（分析作为蛋白质的基因表达）和代谢组学（表征作为代谢中间体和产物的小分子），仅举几例。

在遗传学、基因组学和后基因组学中，各种类型的分析使得能够推断关于生命系统的一个或多个描述水平的知识。下一节将介绍本书所涉及的各个层面。

总结：

分子生物学：研究基因组的分子特征，包括DNA、RNA和蛋白质。
遗传学：研究个体间基因组的变异，分析简单单位（遗传标记）或复杂单位（基因）的变异。
基因组学：包括与基因组测序、基因定位和基因组注释相关的生物技术和计算分析。功能基因组学特别关注转录、翻译和蛋白质间的相互作用。

1.2生命系统的更高描述层次

多细胞生物体的活动和状态可以从不同的角度来描述：细胞、器官或组织、系统（例如，心血管的、神经的）和整个机体。在本书中，描述了基于概率图形模型的方法，这些方法允许对关于生命系统的各种描述水平的知识进行推理。本书中的章节涉及以下描述级别：基因组，转录组，基因相互作用网络，表型。

根据不同的章节，知识推理解决一个单一的层次或处理几个层次。我们通过介绍过程的复杂性和细胞生命中涉及的各种角色来介绍这一部分。然后，我们关注的多个层次的生物组织的生活系统，这本书的章节是连接。

1.2.1细胞的复杂性

真核细胞由细胞核和各种细胞器（简称细胞"器官"）组成，这些细胞器浸没在细胞质中（见图1.1）。细胞被半透膜包围。虽然不能提供确切的数目，但成人体内的细胞数目可近似为10的14次方个。一个独特的细胞，受精卵，是所有这些细胞的起源，通过细胞分裂。然而，尽管多细胞生物体的细胞核中携带着相同的遗传信息，但它们根据在器官或组织中的位置，执行着不同的特定任务：红细胞交换氧气，肌细胞扩张和收缩，免疫系统中的细胞识别病原体。基因表达的调控在引导和维持细胞分化中发挥关键作用。

外在和内在因素调节细胞中的基因表达。第一类包括小分子、分泌蛋白、温度和氧气。在生物体内，细胞通过发送和接收分泌的蛋白质（例如，生长因子、形态发生素、细胞因子）。这些信号分子的接收触发了细胞间信号级联，从而改变了基因的表达。在细胞中，序列特异性转录因子被认为是基因调控中最重要和最多样的机制[28]。细胞内在调节的一个例子是细胞自身机制对染色质（与组蛋白相关的DNA）的修饰。染色质修饰的一个可能结果是基因对转录因子的可及性发生变化；对基因表达的影响可能是积极的或消极的。染色质修饰的两大类包括DNA甲基化和组蛋白修饰。

在细胞中，新陈代谢包括数千个复杂的化学反应。这些反应在代谢途径中是连锁的。代谢途径由一系列生化反应组成，从底物S开始生成产物P。每个中间反应（除了第一个和最后一个）至少使用途径中另一个反应的一种产物作为底物，并生成途径中另一个反应的底物。例如，在生命系统中最普遍的代谢途径是糖酵解，它分解葡萄糖以产生能量，并发生在细胞质中。代谢途径的另一个例子是克雷布斯循环（见图1.2），其特异性在于其基本底物之一也是该途径的终产物。细胞产生和转化有机分子，提供生命所需的物质和能量。新陈代谢由两个相反的过程组成，即代谢和代谢。催化剂从复杂分子中提取能量（例如，糖、脂类）通过将它们分解成更小的分子。合成需要能量从简单的分子合成复杂的分子。代谢途径由酶控制。酶是催化化学反应的蛋白质;也就是说，它们加速反应，即使是少量的，也不参与这些反应。由于许多蛋白质都是酶，因此代谢的控制和基因表达的调节是密切相关的。有时，代谢控制的目的是稳态，即保持某些变量的恒定水平或某些过程的恒定速率;有时适应需要改变。基因调控允许细胞在需要时表达蛋白质，从而确保生物体的多功能性和适应性。基因表达的调控涉及广泛的机制和行为体（蛋白质，microRNA，染色质）和复杂的动力学（生产，储存，降解）。基因表达的所有步骤都可以被调节，包括转录起始、RNA加工、蛋白质合成和蛋白质的翻译后修饰。图1.3说明了生命系统的层次结构。

总结：

细胞结构：真核细胞由细胞核和各种细胞器（如线粒体、内质网）组成，这些细胞器在细胞质中。细胞被半透膜包围，成人体内细胞数量约为10^14个，所有细胞源自一个受精卵。
细胞分化：尽管细胞核中的遗传信息相同，但多细胞生物体中的细胞根据其在器官或组织中的位置执行不同的特定任务。基因表达的改变在指导和维持细胞分化中起关键作用。
基因表达调控：细胞内的基因表达受到多种因素的调控，包括小分子、分泌蛋白、温度和氧气等。细胞通过接收和发送分泌蛋白（如生长因子、形态发生素、细胞因子）来相互沟通，这些信号分子触发细胞内信号级联反应，从而改变基因的表达。
表观遗传调控：表观遗传特征如DNA甲基化和组蛋白修饰是可遗传的，并通过调控基因表达影响表型。表观遗传特征在不同组织和细胞类型中有所不同，大多数脊椎动物基因组是甲基化的，而未甲基化的位点倾向于聚集成簇，这些未甲基化簇通常位于许多基因的调控区域。

1.2.2遗传学、表观遗传学和拷贝数多态性

遗传学、表观遗传学中的DNA甲基化和拷贝数多态性都涉及DNA序列。遗传数据内的依赖性（例如，SNPs）决定了连锁不平衡（LD）。LD的可靠模型需要在各种尺度（包括基因组尺度）上进行LD的可视化，或进行下游分析，如关联研究（见1.2.6小节）。LD的发生是因为染色体上的DNA变异几乎不被性细胞形成过程中发生的染色体重组（重组）分开。因此，这些变体一起（作为单倍型）从父母传递给孩子。这样的模式是所谓的单倍型块结构的基础[12]："块"，其中基因座之间的统计依赖性高，与以低统计依赖性为特征的较短区域（重组热点）交替。

表观遗传学特征，如DNA甲基化和组蛋白修饰，这两个研究得最多的特征，已知是跨细胞分裂遗传的。表观遗传学机制通过调控基因表达而影响表型.表观遗传学特征在不同的组织和细胞类型中是不同的。大多数脊椎动物基因组是甲基化的。未甲基化位点显示出沿着基因组聚集在一起的倾向;未甲基化簇通常存在于许多基因的调控区。DNA甲基化修饰是影响基因表达的重要调控因子，与细胞分化密切相关。此外，在许多疾病中，这些簇的异常甲基化导致邻近基因的转录沉默。特别是，已经报道过的甲基化状态改变和各种癌症之间的联系。此外，肿瘤细胞中的DNA甲基化编码关于肿瘤或肿瘤亚型的表型信息与基因组测序和基因分型之间的差异类似，其中只有一小部分个体的核苷酸被测定甲基分型与甲基组测序相比分辨率较低。因此，甲基分型对DNA甲基化过程提出了挑战。对DNA甲基化进行建模以展示群体中的亚型是另一个挑战。

在二倍体基因组中，对于每个基因，或更一般地对于每个基因组片段，每个个体从其父亲继承一个拷贝，从其母亲继承一个拷贝。因此，原则上，副本总数为两份。然而，拷贝数突变可能发生：拷贝总数可能是一个（缺失），或三个或更多（扩增/插入）。

据报道，拷贝数改变与许多疾病相关。特别是染色体畸变如扩增和缺失导致了重要的癌基因或肿瘤抑制基因的发现.阵列比较基因组杂化（aCGH）技术是一种能够识别基因组中拷贝数变化的技术。

在aCGH中，这是一种基于阵列的技术，荧光被用来间接测量阵列中每个DNA片段的拷贝数。使用aCHG数据分析拷贝数多态性包括两个任务：检测拷贝数显示变化的边界，以及推断任何此类指定区域的拷贝数状态。在这种情况下，进行基因组水平内的基本数据整合，因为有必要比对阵列靶向的区域，从而参考基因组序列。

总结：

遗传学：研究个体间基因组的变异，分析简单单位（遗传标记）或复杂单位（基因）的变异。基因型是通过比较同种生物体的基因组来解码表型差异的关键。
表观遗传学：研究表观遗传特征如DNA甲基化和组蛋白修饰，这些特征是可遗传的，并通过调控基因表达影响表型。表观遗传特征在不同组织和细胞类型中有所不同。
拷贝数多态性（CNV）：指基因组中DNA片段的拷贝数变异，包括缺失、重复、插入和重排等。CNV与多种疾病相关，如某些癌症。阵列比较基因组杂交（aCGH）是一种用于检测CNV的技术。

1.2.3表观遗传学与基因组的额外先验知识

在下面提到的章节中，知识集成是在同一描述级别（DNA）内进行的：

第14章：全基因组DNA甲基化研究中的贝叶斯网络。

其中，从基因组数据并入更多信息。基本上，基因组结构被用作甲基化状态的先验：在脊椎动物中，未甲基化的位点倾向于聚集在一起。此外，未甲基化的所谓CpG位点比其他位点更保守。因此，当CpG位点的实验注释可用时，CpG簇中基因组区域的丰富性倾向于指出未甲基化的区域。

1.2.4转录组学

mRNA的序列反映了转录它的DNA的序列。因此，通过分析细胞中RNA（转录本）的整个集合，转录组学可以确定生物体的细胞和组织中哪个基因被打开或关闭。不同的细胞表现出不同的基因表达模式.转录组学检查基因表达微阵列，其中观察个体的一组共同基因。

转录组学的一个目的是确定基因表达如何在各种因素的压力下变化，如组织类型，发育阶段，药物或疾病状态。差异表达基因是指在给定条件下（治疗、疾病状态（检测）），一组个体的平均表达显著高于或低于对照组（例如，未检测）的平均表达的基因。为了进行严格的基因表达评估，微阵列数据集中的信息比通常的分析提取物要多得多：应该考虑基因之间的相关结构。通常的简化假设没有相关性是不合理的，因为基因是已知的路径或网络连接。

由于蛋白质可以是其他基因的转录因子，基因的相互作用可以概括为基因调控网络。被相同转录因子靶向的基因（在其调控区）倾向于随时间显示相似的表达模式沿着。因此，在某些实验或生理条件下同时共表达的基因（即高度相关的基因，因为它们具有相似的表达谱）可能受到相同基因的共同调控。

然而，基因网络推断远比识别共表达基因簇复杂。在相似条件或时间点表达或抑制的基因可能一起相互作用。然而，基因网络重建需要区分两个基因之间的相关性是由于直接因果关系还是源于中间基因。因此，有必要对调节其他基因的基因之间的相关性进行评估。通过展示直接因果关系，基因网络推断突出了潜在的调控或调控链。例如，识别枢纽基因（hub）是至关重要的，枢纽基因是那些调控许多其他基因的关键基因。另一方面，基因的模块或社区是生物网络的鲁棒性和可进化性的主要贡献者;模块被定义为一组相互作用的基因，其功能与其他模块的功能是可分离的。生物学家的作用仍然是验证推断的基因网络或阐明哪些是对应于调控链的确切路径。

在不同条件下的观察揭示了这些依赖性的恒定或变化，即基因调控网络的可变性。与特定条件或样品特有的基因关系相反，一些相互作用可以在条件或样品之间共享。通过混合模型可以描述基因表达在广泛条件下的潜在复杂分布。

在某些情况下，合并不同的实验条件主要是为了扩大可用于推断基因网络的观测数量。在这种情况下，微阵列实验之间的异质性是一个要去解决的问题。一种补救办法是同时研究多个网络，并鼓励在不同条件下分享相互作用。

总结：

转录组学：分析细胞中所有RNA（转录本）的表达，以确定哪些基因在细胞和组织中被激活或抑制。不同细胞表现出不同的基因表达模式。
基因表达微阵列：通过比较不同条件下个体的基因表达，研究基因表达如何在不同因素（如组织类型、发育阶段、药物或疾病状态）的影响下变化。微阵列数据集中的信息比通常的分析提取的更多，需要考虑基因之间的相关性。
基因网络推断：推断基因网络旨在从基因表达数据中识别基因之间的相互作用。基因网络推断比识别共表达基因簇更复杂，需要区分两个基因之间的相关性是由于直接因果关系还是中介基因。

1.2.5具有先前生物学知识的转录组学

第五章是本书所描述的整合方法的另一个例子。其中，使用了关于潜在基因网络结构的先验知识。许多来源可用作网络结构上的生物先验。例如，先验知识可能来自基因水平，如关于代谢途径或关于哪些基因编码其他基因的转录因子的信息。代谢途径可从KEGG（京都基因和基因组百科全书）[20]或BioCarta数据库（http：//www.biocarta.com/genes/index.asp）获得;两个基因之间的连接是促进还是抑制取决于基因是否属于相同的途径。此外，转录因子的结合位点指出哪些基因可能受转录因子的调节。书中所有其他章节都是通过整合各种来源的数据来推断知识的。

1.2.6从多个层面整合数据

这一转变为定义整合生物学和系统生物学的概念提供了机会。根据一些科学家的说法，综合生物学是指多学科研究（跨学科，跨学科），包括化学，物理学，数学和计算机科学。在界面上，科学家们聚集了不同但特定的技能，讨论了重大问题。由于本书的每一章都采用机器学习的方法来处理遗传学、基因组学或后基因组学，因此这是本书对整合生物学的第一个定义。

对其他研究人员来说，综合生物学意味着使用一组各种技术和方法来完成他们自己的研究计划。前面的定义包括处理跨生物组织水平整合的层次方法。在极端情况下，这种综合框架描述了从分子到生物圈的生命，包括病毒、细菌、植物和动物在内的各种生物。组学数据（基因组学，转录组学，蛋白质组学，代谢组学，表型组学......）的可用性允许在生物组织的许多水平上实施综合方法[19]。在这本书中，本节中没有提到的所有章节都是关于整合生物学的后一个具体定义。

在某种程度上，上述定义符合系统生物学的概念。系统生物学（英语：Systems biology）是生物学和生物医学研究中的一种方法，旨在将生命系统作为一个整体来理解，无论是一个有机体、一个组织还是一个细胞。在更传统的所谓还原论生物学中，系统的各个部分是分开研究的。与此相反，系统生物学的目的是从整体的角度将系统的各个部分组合起来。通过这种整合，系统生物学旨在发现细胞，组织和有机体作为一个系统的突现特性。理想情况下，通过同时观察多个组件并基于数学模型严格整合数据来证明这种新兴特性。这些涌现的性质主要描述了生物系统中复杂的相互作用，如基因调控网络，因果表型网络，以及基因型和表型之间的关联。前面三个主题是本书十四章的核心。其中跨越的生物水平的层次可能看起来不是很深，因为它们连接基因组和基因水平，依赖于遗传学，转录组学和表型组学。尽管如此，所描述的综合方法需要先进的模型。

整合遗传学和表型组学

本书中有四章涉及数量遗传学，这是对基因型如何影响表型的理解。在生物医学研究领域，关联研究旨在确定某些基因组位点与疾病状态之间的因果关系（a-ected/una-ected）。全基因组关联研究（GWASs）解决了从大量数据中揭示这种基因型-表型依赖性的问题。这些数据通常描述了数千或数万名受试者，具有几十万到一两百万个SNP。以下两章讨论全球WAS战略：

第九章：通过概率图形模型模拟连锁不平衡和执行关联研究：最近进展的参观之旅(C. Sinoquet and R. Mourad)

第11章：基因-表型关联的贝叶斯网络模型的评分、搜索和评估(X. Jiang, S. Visweswaran and R.E. Neapolitan)

此外，其中一章彻底回顾了各种相关概念，而另一章则从GWAS数据预测表型的角度略有不同：

第13章复杂表型关联的贝叶斯、基于系统的多层次分析：从解释到决策(P. Antal, A. Millingho�er, G. Hullám, G. Hajós, P. Sárközy, A. Gézsi, C.Szalai and A. Falus)

第17章从全基因组数据预测临床结果(S. Visweswaran)

整合遗传学、表型组学和生物学途径的先验知识

在数量遗传学领域，书中有一章阐述了生物组织的三个层次的整合：

第12章全基因组关联研究中生物通路的图形建模(M. Chen, J. Cho and H. Zhao)

在本章中，标准GWAS提供了与所研究疾病相关的基因列表。另一方面，一些其他基因，没有调查的GWAS，已知属于相同的生物学途径作为以前的基因。目的是估计这些其他基因可能与疾病相关的概率。

整合遗传学和转录组学

在上面引用的章节中处理的表型是离散变量（受测/不受测状态）。在第1.1节中，我们回顾了在特定的环境条件下，生物体的表型由其基因型的表达组成。可观察特征的表达包括只有通过技术的帮助才可观察到的特征。转录组学为微阵列靶向的基因提供基因表达水平。这些表达水平代表许多连续或定量表型。

数量表型（或性状）被定义为生物体可以观察到的任何物理，生理或生化的数量特征。数量性状基因座（QTL）定位的目的是确定基因型变异引起表型变异的基因组区域，称为QTL。QTL的定义直接转置为表达QTL（eQTL），其连续表型是基因表达水平。

剖析同一生物学途径中涉及的表达性状之间的因果关系--因此是相关的--是当下的研究课题。"关于观测变量的因果结构的假设通常用有向无环图来表示。在因果关系推断中，对每个表型的eQTL的识别是至关重要的.一个特定表型的遗传结构（GA）表示其（直接）因果QTL的位置和效应.因果表型网络（CPN）的推断必须贝内于遗传结构的知识：将因果QTL节点添加到表型网络中，可以推断单用表型数据无法区分的表型之间的因果关系。相反地，遗传算法的推理可以基于CPN所携带的信息来进行。

书中的三章致力于因果表型网络的推理。其中两个依赖于遗传学和转录组学的简单整合：

第6章：利用基因型信息作为学习基因网络的先验(K. Chipman and A.Singh)

第8章：研究数量遗传学中因果表型网络的结构方程模型(G.J.M. Rosa and B.D. Valente)

整合遗传学、转录组学和先验生物学知识

为了重建因果表型网络，下一章将进一步整合数据：

第七章：贝叶斯因果表型网络解释遗传变异和生物学知识。(J. Young Moon, E. Chaibub Neto, X. Deng and B.S. Yandell)

结合了先前的生物学知识，其可以源自生物学信息的各种来源。一个可能的信息来源是染色质免疫沉淀与微阵列实验（ChIP on chip），其用于研究蛋白质和DNA在体内的相互作用。该技术用于生成给定转录因子的假定靶基因列表;它证明给定转录因子结合到某些假定靶上。来自敲除数据和蛋白质-蛋白质相互作用的调控推断也可用作先验。基因敲除技术可以使生物体内的特定基因失活.通过改变编码蛋白质的基因区域来敲除基因。因此，可以确定该基因对生物体功能的影响.通路信息还可以指导因果表型网络的重建。最后，来自基因本体（GO）[6]的信息可以有助于生物学先验。GO是描述基因的分子功能、生物过程和细胞组分的专门术语词汇。GO这个术语注释了大部分基因。基因之间的相似性度量可以在这个GO框架中定义，它可以连接基因网络中的基因。该网络随后被用作因果表型网络推理的先验。

最后，第7章中描述的方法不仅执行数据集成，还执行过程集成;而大多数方法分别进行GA推理和CNP重建，这两个过程是交织在一起的。

1.2.7重述

表1.1概括了本书所述综合方法中涉及的各种数据源。

1.3高通量基因组技术时代

在上一节中，我们强调了本书所有章节中的整合维度，只有一章除外。对于那些不熟悉高通量技术数据的读者，我们现在布里简单介绍一下本书各章中涉及的数据和数据的起源。其他读者可以跳过本节。各种技术可用于生成基因组规模的数据，这些数据提供生物组织各个层次的测量结果。这些所谓的"组学"数据具有前所未有的潜力，可以深入了解生命系统的运作。

1.3.1基因型

从广义上讲，基因分型是通过检查其DNA序列来确定生物体的遗传组成的过程。

基因分型可以通过多种方法来实现，这取决于感兴趣的多态性（例如，SNP、插入、缺失、重复和重排）和可用资源。复制和缺失导致的拷贝数变异（CNV）将在第1.3.2小节中讨论。在本节中，我们重点关注SNP。基于SNP的基因分型集中于已知在受试者群体内表现出多样性的一小部分核苷酸位置。SNP的特征在于，在每个这样的位置，当涉及两条DNA链之一时，在四种可能的核苷酸中只有两个变量是可观察到的。根据国际HapMap项目[7]，人类基因组中SNP的估计数量达到1000万。SNP基因分型与低成本但低分辨率的技术相关。使用基因分型芯片或阵列是同时检查多个位点的有效和准确的选择。此外，下一代技术已经降低了DNA测序的成本，以至于通过测序进行基因分型现在是可行的。

1.3.4小节专门介绍阵列技术中所用的原理。

DNA测序的目的是确定给定DNA区域的确切序列。这样的区域可以覆盖短片段、整个基因组或基因组的部分（例如，"外显子组"，即约2%的人类基因组中含有基因）。如果靶向DNA片段包含SNP，则DNA测序可以实现基因分型的目的。本节的其余部分简要地解释了DNA测序背后的技术。

DNA聚合酶是参与DNA复制的酶，DNA复制是使DNA模板分子产生DNA拷贝的生物过程。产生的分子由原始分子的一条链和一条新的互补链组成。DNA测序反应类似于用于大规模复制DNA的聚合酶链式反应（PCR）。测序反应混合物包括模板DNA、游离核苷酸、酶和引物。引物是单链DNA的20-30个核苷酸长的区段，旨在与模板DNA链上的一个区段杂交。加热DNA模板的两条链需要它们的分离；然后引物可以粘在模板链上的目标位置，使得DNA聚合酶可以开始合成互补链。延伸消耗反应混合物的游离核苷酸。

如果继续伸长直到完成，则该过程将产生新的股线。DNA测序依赖于终止子核苷酸的使用。经过数百万次的启动，含有痕量的所有四种A、G、C和T终止子核苷酸的反应混合物将分别产生在每个可能的A、G、C和T处终止的链。反应混合物中的所有终止子核苷酸都具有四种颜色之一，用于区分A，G，C和T。然后使用电泳按大小分离所得片段。再加上四种染料中的荧光，这种大小顺序允许破译核苷酸序列。图1.4说明了这一原理。

基于自动测序的DNA测序处理有限数量的DNA片段。相比之下，下一代测序技术首先将DNA片段化为一个小片段库。然后，数百万个反应以大规模并行的方式进行。随后，新鉴定的核苷酸艾德序列-读段-被重新组装。如果参考基因组可用，则将其用作比对读数的标尺；否则，进行从头测序。

2001年，第一个人类基因组测序的成本高达1亿美元。2013年，这一费用已降至10 000美元左右。

1.3.2拷贝数多态

拷贝数变异（CNV）约占人类基因组的12%，据报道是某些疾病易感性的基础[29]。每个变异的范围可以从大约1000个核苷酸到小于5兆碱基。

作为CNV检测的教学介绍，我们主要集中在荧光原位杂交（FISH）和（阵列）比较基因组杂交（CGH，aCGH）。FISH是一种分子生物学技术，在细胞水平上使用标记有荧光标记的特异性探针。因此，通过显微镜或分子成像在细胞载玻片中证明杂交。FISH方法的一个缺陷在于它使用的探针和引物只针对基因组中的特定区域。相比之下，CGH允许在基因组规模上分析CNV，并且不依赖于细胞培养。原理如下：来自所研究组织的细胞的DNA（例如，肿瘤）用绿色荧光染料标记，而参考DNA（即，来自健康组织中的细胞）用红色荧光素标记。然后，两种DNA以相等的比例混合，竞争与健全细胞的DNA杂交。杂交后，沿基因组沿着测量绿色与红色荧光的比率。这个比率指出了整个基因组的增益或损失，对于所研究的组织。在损失（增益）的情况下，在特定区域的研究组织，绿色红色比将低于（大于）一。

更具体的阵列CGH形式被开发出来，它结合了DNA微阵列技术（见1.3.4小节）和CGH技术。其中，两种DNA都与阵列上存在的几千个探针杂交。这些探针涵盖了大多数已知基因和基因组的非编码区。这种技术的结合允许将CNV检测的分辨率降低到100个碱基。aCGH的原理如图1.5所示。

aCGH技术是目前证明CNV的参考方法。同样，下一代测序提供了一种替代方案：其原理是比较研究组织和参考组织在连续窗口中的读数数量[15]。

1.3.3 DNA甲基化测量

最新的甲基化分析利用微阵列甚至测序技术。这一段主要介绍了基因组测序，全基因组DNA甲基化的金标准。在DNA序列中，根据单个胞嘧啶核苷酸的甲基化状态，用亚硫酸氢钠处理将引起特定的变化。因此，可以获得关于DNA片段的甲基化状态的单核苷酸分辨率信息。上述原理是亚硫酸氢盐测序的基础，并辅以DNA测序技术，进一步用于读取改变的DNA序列。与甲基化组测序相反，已经提出了甲基化技术，其强调低成本而损害分辨率。例如，限制性内切酶可用于在特定的未甲基化胞嘧啶位点处将DNA片段化。由于实验偏差，整个甲基化组的恢复是一个挑战。

1.3.4基因表达数据

为了并行分析数千个已知和未知功能的基因的表达，使用了基于DNA微阵列的技术。通常，微阵列实验的目的是将代表基因在特定条件下表达模式的样品与对照进行比较。在本文中，例如，术语"样品"是指患有相同疾病或用相同药物治疗的受试者。"DNA微阵列"（或DNA芯片，或生物芯片）的通用名称涵盖了广泛的变体。它们的共同特征在于附着在固体支持物上的数千个已知序列的有序排列（例如，玻璃、硅、尼龙）。每个阵列点包含少量（皮摩尔）相同的DNA序列，例如基因组DNA片段、PCR产物或化学合成的寡核苷酸。这些相同的单链序列称为靶标。用于制造阵列的机器人要么将预制的DNA目标点到载玻片上，要么原位合成寡核苷酸。

具有双通道检测的典型微阵列实验开始于从感兴趣的样品（例如，感染的细胞）和对照（例如，听细胞）。在mRNA提取的情况下，需要使用逆转录酶将该mRNA转化为互补DNA（cDNA）。然后，分别扩增样品和对照DNA（通过PCR，见第4页第1.1节），并用不同的荧光染料标记。然后，使混合的标记cDNA与DNA靶标进行竞争性杂交。标记的混合物中的每个分子将仅与适当的靶标结合。杂交后，将未结合的cDNA从阵列中洗出。在阵列干燥后，激光扫描仪确定有多少标记的DNA与每个目标点结合。这提供了一个基于比率的指标，以确定上调和下调的基因。通常，随后的图像采集将绿色点分配给与对照相比上调的样品基因;相对于对照下调的样品基因表示为红色点;黄色指出相等丰度的基因。该方案如图1.6所示。

相比之下，单通道微阵列提供基因表达的绝对水平的估计。其结果是，两组条件的比较需要两倍多的阵列作为双通道检测：两个单独的单染料杂交进行。与双通道检测相比，数据更容易在不同的实验之间进行比较;同样，数据可以在相隔数月或数年的研究之间进行比较。两种流行的单通道系统是AYYEARS"基因芯片"和Illumina"珠芯片"。在1.28平方厘米的区域内，芯片包含多达50万个目标。Illumina的微珠阵列技术依赖于3微米的二氧化硅微珠，这些微珠在基底的微孔中自组装（无论是光纤束还是平面二氧化硅载玻片）。每个珠子上附着着成千上万个特定目标的副本。为了提高分析精度，任何这种类型的珠都要多次表示。illumina最新的全基因组表达阵列涵盖了人类转录组中超过47000种转录本和已知的剪接变体。

下一代测序推动了一种新的替代微阵列的方法，该方法基于RNA测序（RNA-seq）[35]。为了定量基因表达，通过首先从mRNA合成cDNA，然后对cDNA进行测序来获得关于样品mRNA含量的信息。随后，将cDNA的短读段与参考基因组进行比对。对于每个基因，对比对的读段进行计数。值得注意的是，RNA-seq能够识别先前未注释的转录物。

1.3.5数量性状基因座

数量性状基因座（QTL）被定义为与数量性状或性状紧密相关的染色体区域（例如，身高、体重、肤色）。特别地，这样的区域包含一起影响表型性状的几个基因。基因的数量可能很大，每个基因对表型的影响很小。与环境影响一起，全球表型来自许多可能的等位基因组合。这意味着连续表型的分布在最简单的情况下显示钟形曲线，在最复杂的情况下显示高斯曲线的叠加。剖析复杂性状的遗传结构对于动植物育种中的分子标记辅助选择具有重要意义。在这些领域，实验线杂交允许定位QTL。所有QTL作图策略都依赖于对大量近交系群体中基因型和表型之间依赖性的统计检测（例如，F_2代由自交系产生）。首先选择两个在性状上不同的亲本或品系。然后，识别出相对于两个亲本表现出多态性的标记。评估每个重组个体或品系的表型，以及在亲本菌株之间变化的标记物的基因型。区间作图是一种广泛使用的QTL检测方法。对于每一个标记组合，区间作图估计两个标记之间的区间与影响性状的QTL相关的概率。H0是区间内不存在QTL的假设，H1是替代假设，标准统计检验是对数优势比（或LOD得分）,是与假设Hi相关联的可能性。在高于给定显著性阈值的似然比中，QTL位置的最佳估计由具有最高统计量的染色体位置提供。

1.3.6处理组学数据的挑战

在处理组学数据时，研究人员必须面对几个问题。首先，全基因组的维度 带来了许多障碍：需要适当的存储容量;由于处理这些数据可能会带来令人望而却步的计算负担，网格计算和并行化可能是不可避免的步骤;否则，必须设计创新的易处理算法来科普高维数据。第二，在提供高通量数据方面，质量不断提高;然而，缺失值、误差测量和噪声需要各种预处理步骤 ，如数据插补、管理和校正。第三，组学数据具有高维度，但样本量相对较小 ;因此，可以实施荟萃分析以扩大样本集，这可能需要对由于不同采集条件而产生的偏倚进行数据插补和校正;无论如何，小样本量阻止了标准统计方法的使用。第四，从多个组学数据源中提取可辨别的生物学意义通常需要设计高级模型和算法：后者必须科普数据源的异质性和数据复杂性;除了存储原始数据所需的空间复杂性之外，处理数据的内在复杂性（例如，推断的依赖性网络）是非常具有挑战性的。

1.4从组学数据中推断新知识的概率图模型

在机器学习、统计学和计算机科学之间的十字路口，概率图模型（probabilistic graphical models，PGMs）提供了一个正式的框架，既可以表示变量之间的依赖关系，也可以对这些变量之间的定量依赖关系的不确定知识进行建模。基于图的组件编码多维空间上的依赖关系;通常，它是这些依赖关系的定性紧凑（或因子分解）表示。在贝叶斯网络（最流行的PGM类别之一）中，定量分量是考虑不确定性的概率分布的集合。

PGMs对生物学和生物信息学来说并不新鲜。然而，在生物学和医学研究领域，高通量组学技术产生的大量和复杂的异构数据引起了人们对这些模型的新兴趣。他们的灵活性，可扩展性和能力，预计将有助于从异构数据源推断新的知识。

1.4.1基因网络推理

推断或"反向工程"基因网络旨在通过计算分析从基因表达数据中识别基因相互作用[4，9，25]。基因调控网络推断是数据内依赖性推断的典型例证，很自然地导致了基于贝叶斯网络的研究（例如，[10，37]）。此外，当涉及到从时间序列推断基因网络的变化结构时，动态贝叶斯网络是合适的工具（例如，[23，31]）。

1.4.2因果关系发现

因果贝叶斯网络与普通贝叶斯网络的区别在于对有向边的解释。在通常的贝叶斯网络中，变量之间的联系可以解释为相关或关联。在因果贝叶斯网络中，链接编码父变量对其子变量值的因果影响。推断这种因果关系是具有挑战性的;仅凭观察数据很少能够获得关于因果关系的知识;因果关系发现的关键是诉诸干预数据（除了观察数据）。添加这样的介入数据允许区分否则将是等同的有向图。这里的等价性意味着任何这样的图都可以解释观测数据。在遗传基因组学的新领域进行的开创性工作，引导了使用微阵列数据与其他信息相结合，以促进复杂性状的潜在机制的识别[17]。在这种情况下，通过利用分离群体中观察到的自然发生的DNA变异，同时将表达谱视为由eQTL控制的表型，提供了额外的信息。在由Shatt及其同事推广的一种这样的技术中，考虑了两类eQTL：如果给定基因的位置与其eQTL之一的位置重叠，则eQTL被认为是顺式作用的;否则eQTL被认为是反式作用的。顺式eQTL通常被认为是由基因调控区的变异引起的，该变异影响了mRNA的丰度。与感兴趣的复杂性状的QTL共定位的顺式作用eQTL的鉴定是信息性的，特别是在表达和疾病性状相关的情况下。总之，使用顺式和反式作用eQTL数据以及复杂性状QTL数据来指导贝叶斯网络建模因果性状网络中的边。2.上述工作方向必须与其他综合办法区分开来。因果关系发现依赖于干预数据。仅在植物和动物育种中（例如，实验室小鼠）可以通过线交叉带来类似于从介入数据中获得的知识。

1.4.3关联遗传学

在关联遗传学中，围绕概率图模型（PGMs）的深入研究导致了可扩展工具的设计。现在可以在基因组规模上忠实地模拟遗传数据中的依赖性-连锁不平衡[1，26]。在GWAS领域的研究是密集的。截至2013年6月，已发表的GWAS目录包括1640篇出版物和10876个SNP [16]。已经提出了基于PGM的GWAS策略[36，5]，包括专门用于多位点模式（上位性）关联评估的方法[14，18]。PGM也是有吸引力的，因为可以通过潜变量实现数据降维[26]。值得注意的是，已经表明通过潜变量的包容并不妨碍检测与研究疾病的关联的可能性[34]。

1.4.4表观遗传

明确基于PGMs的方法的发展在表观遗传学中是相对较新的。在基因组规模上绘制甲基化模式[33]，从甲基化模式中检测特异性[12]以及在癌症数据中识别DNA甲基化亚组[21]是最近在表观遗传学中使用PGMs的三个例证。

1.4.5拷贝数变异的检测

除了标准方法[39]，全基因组拷贝数变异检测已被用于一类特定的PGM，即隐马尔可夫模型（HMRM）（即，[38，2]）。直到最近，基于条件随机场的研究才被证明优于基于HMM的方法[40]。

1.4.6从高维基因组数据预测结果

在机器学习领域，贝叶斯网络已被证明是进行预测的有价值的工具[24]。这种能力源于他们灵活的结构，这使他们能够提取目标变量和相关解释变量之间的相关和稳健的关系。毫不奇怪，贝叶斯网络经常用于健康领域的预测[11，22]。特别是，为了预测疾病和疾病治疗的未来结果，贝叶斯网络经常被用作预后模型[27，3]。值得注意的是，贝叶斯网络允许在基因组学中遇到的高维环境中进行预测[13]。

引用

略

论文阅读(一)：下一代基因组学和遗传学的概率图模型

摘要：

背景：

1.1生命系统的细粒度描述

1.1.1 DNA和基因组

1.1.2基因和蛋白质

1.1.3表型和基因型

1.1.4分子生物学、遗传学、基因组学和后基因组学

1.2生命系统的更高描述层次

1.2.1细胞的复杂性

1.2.2遗传学、表观遗传学和拷贝数多态性

1.2.3表观遗传学与基因组的额外先验知识

1.2.4转录组学

1.2.5具有先前生物学知识的转录组学

1.2.6从多个层面整合数据

1.2.7重述

1.3高通量基因组技术时代

1.3.1基因型

1.3.2拷贝数多态

1.3.3 DNA甲基化测量

1.3.4基因表达数据

1.3.5数量性状基因座

1.3.6处理组学数据的挑战

1.4从组学数据中推断新知识的概率图模型

1.4.1基因网络推理

1.4.2因果关系发现

1.4.3关联遗传学

1.4.4表观遗传

1.4.5拷贝数变异的检测

1.4.6从高维基因组数据预测结果

引用