玉米细胞类型特异性顺式调控的遗传结构

The genetic architecture of cell type--specific cis regulation in maize

玉米细胞类型特异性顺式调控的遗传结构

┌────────────────────────────────────────────────────────────┐

│ 材料准备与测序 Materials & Sequencing │

│────────────────────────────────────────────────────────────│

│ • 290 个玉米基因型（最终 177 个） │

│ • 单细胞 ATAC-seq（10x Genomics） │

│ • 单核 RNA-seq（snRNA-seq） │

│ • 全基因组重测序（WGS） │

└────────────────────────────────────────────────────────────┘

│

▼

┌────────────────────────────────────────────────────────────┐

│ 数据预处理与细胞注释 Preprocessing & Cell Annotation │

│────────────────────────────────────────────────────────────│

│ • Socrates：TF-IDF + SVD + Harmony + Leiden 聚类 │

│ • Symphony：参考嵌入与投影 │

│ • Marker gene + cell cycle 注释 │

└────────────────────────────────────────────────────────────┘

│

▼

┌────────────────────────────────────────────────────────────┐

│ ACR 鉴定与归一化 ACR Identification & Normalization│

│────────────────────────────────────────────────────────────│

│ • MACS2 调用 ACR（108,843 个） │

│ • 非重叠 ACR 筛选策略 │

│ • 归一化：CPM + quantile normalization + inverse norm │

└────────────────────────────────────────────────────────────┘

│

▼

┌────────────────────────────────────────────────────────────┐

│ caQTL 映射（顺式） cis-caQTL Mapping │

│────────────────────────────────────────────────────────────│

│ • tensorQTL：每个细胞类型独立映射 │

│ • 57,984 个 ACR 进入 caQTL 分析 │

│ • 识别细胞状态特异的调控变异 │

└────────────────────────────────────────────────────────────┘

│

▼

┌────────────────────────────────────────────────────────────┐

│ F1 转调控检测 F1 Differential Trans Regulation │

│────────────────────────────────────────────────────────────│

│ • 使用 allele-specific ATAC-seq │

│ • 比较 F1 可及性 vs 双亲期望值 │

│ • 标记 F1 trans-regulated ACRs 和 SNPs │

└────────────────────────────────────────────────────────────┘

│

▼

┌────────────────────────────────────────────────────────────┐

│ 多样性群体转调控定位 Trans-caQTL Mapping │

│────────────────────────────────────────────────────────────│

│ • 使用 172 个基因型的 diversity panel │

│ • MDF（Multiple Discovery Filtering） │

│ • 识别远程调控 SNP │

└────────────────────────────────────────────────────────────┘

│

▼

┌────────────────────────────────────────────────────────────┐

│ 杂种优势机制解析 Heterosis Mechanism Dissection │

│────────────────────────────────────────────────────────────│

│ • BxO 杂交种表现出最强 heterosis │

│ • B73 提供 trans 因子 → 提升 Oh43 的 ACR 可及性 │

│ • dominant / over-dominant ACR 富集 │

│ • TF motif 富集 + SNP 功能注释 │

└────────────────────────────────────────────────────────────┘

1.方法

### 1.scATAC-seq 原始数据处理

从 Illumina S4 NovaSeq 6000 平台产出的 scATAC-seq 二进制碱基调用序列文件（BCL）首先使用 cellranger-atac mkfastq (v1.2) 进行拆分（Demultiplexing）。随后，利用 chromap (v0.2.3) 并结合非默认参数（-l 2000 -q 1 --low-mem --trim-adapters --barcode-whitelist --bc-error-thresholds 2 --remove-pcr-duplicates-at-cell-level）将序列比对至 B73 AGP v5 玉米参考基因组。

接着，使用 samtools view (v1.16.1) 并设置非默认参数（-bhq 10 -f 3），仅保留制图质量（Mapping Quality）大于 10 的唯一比对且正确配对的 reads。随后使用 picardtools MarkDuplicates (v2.27.4) 并在非默认设置下（BARCODE_TAG=CB REMOVE_DUPLICATES=true）根据每个条形码（Barcode）去除重复片段。

最后，通过对比对结果的起始和终止坐标分别进行 +5 bp 和 -4 bp 的偏移校正，提取单碱基分辨率的 Tn5 整合位点。对这些 Tn5 整合位点进行进一步过滤，以确保每个条形码仅保留唯一的坐标信息。

2.变异位点处理（Variant Processing）

为了根据各自的基因型对reads和条形码（barcodes）进行分割，我们首先利用BWA mem（v0.7.17）并设置非默认参数（-M -t 4），将来自全部172个交系的短读长全基因组重拷贝（WGS）数据重新比对至B73 v5玉米参考基因组。对于具有多个WGS实验记录的近交系，其数据被整理为单个BAM文件。另外，使用samtools (v1.16.1)对每个近交系的比对结果进行排序和去重。

变异检测采用了freebayes (v1.2.0)，并结合非默认参数（--strict-vcf -n 4 -q 10 --max-coverage 10000）。为了简化后续分析，我们只保留了二等位基因单核苷酸多态性（bi-allelic SNPs）。

在质控过滤阶段，读取数缺少4条的基因型检测结果被设为缺失值。同时，缺失率超过25%最终或次要等位基因频率（MAF）低于5%的变异位点被剔除。，获得了一套包含31,478,930个二等位基因SNPs的集合，用于后续序列基因组的分配。

3.计算机模拟基因型分离（In silico genotype-deplexing）

为了将条形码（barcodes）分配给其来源基因型，我们首先剔除唯一Tn5整合位点少100个的条形码。然后，使用souporcell软件评估了条形码的基因型以及细胞单（singlet）/双细胞（doublet）的对数似然值（loglikelihoods）。

分析采用了非默认参数设置（-k numgeno−−min−alt5−−min−ref5−−skip−remapTRUE−−no−umiTRUE），其中num_geno --min-alt 5 --min-ref 5 --skip-remap TRUE --no-umi TRUE），其中numgeno−−min−alt5−−min−ref5−−skip−remapTRUE−−no−umiTRUE），其中num_geno代表了不一致文库中混合的基因型数量。

在筛选过程中，只有满足以下条件的队列才被保留用于下游分析：

1.单细胞与双细胞的概率：即单细胞对数似然值大于双细胞对数似然值。

2.基因型分配明确：最佳基因型分配的对数似然值必须比次佳分配高出3倍以上。

4.基因型分型质量控制（Genotyping Quality Control）

为了评估本研究方法中同一基因型内染色质开放性特征的可重复性，我们首先独立收集了每个文库中对应于质控细胞核的Tn5插入位点（每个文库代表一个独立的基因型生物学重复）。

1.染色质开放区域（ACR）定量与标准化：利用bedtools annotate计算了每个基因型重复中Tn5插入位点与总计108,843个ACR区域的交集，从而构建原始计数矩阵。另外，分别使用R包edgeR的cpm函数和limma的normalizeQuantiles函数对计数矩阵进行百万分率标准化（CPM）和补充标准化。

突发效应处理与相关性分析：在利用limma包的removeBatchEffect函数（设置参数batch=library.batch）达到突发效应后，我们计算了基因型重复之间的Spearman相关系数。
scATAC-seq变异检测与验证：为确定低覆盖度全基因组重测序（WGS）检测到的变异位点与scATAC-seq聚合得到的基因型特征之间的一致性，我们利用质控的细胞核为每个基因型生成了BAM文件。另外，采用前文"变异处理"中描述的相同，使用freebayes对这172个BAM文件进行单变异（SNV）检测。
变异合并与遗传关系分析：使用picardtools (v2.27.4)的MergeVcfs函数将WGS和scATAC-seq的变异检测结果进行合并，并剔除ACR区域及未支架定支架（unanchoredscaffolds）上的SNV。最后，利用SNPRelate包的snpgdsGRM函数计算遗传关系矩阵。该过程基于连锁不平衡（LD）削减后的二等位基因变异（参数ld.threshold=0.25，通过snpgdsLDpruning实现），且要求次要等位基因频率（MAF）大于0.05，缺失率低于25%，计算方法设为"Corr"。

5.scATAC-seq 质量控制 (scATAC-seq Quality Control)

从原始未过滤的数据集开始，只有满足以下条件的条形码（barcodes）才被识别为推定的细胞核：

测序深度：至少包含 500 个唯一的 Tn5 整合位点（unique Tn5 integration sites）。
TSS 富集度：TSS（转录起始位点）上下 2-kb 范围内 Tn5 整合位点所占比例的标准化得分（Z-score）必须大于"均值减去两个标准差"与 0.2 之间的最大值。
ACR 富集度：ACR（染色质开放区域）内 Tn5 整合位点所占比例的标准化得分（Z-score）必须大于"均值减去两个标准差"与 0.2 之间的最大值。

为了进一步剔除代表破碎细胞核或环境背景噪音的条形码，我们首先利用未过滤的条形码集构建了一个"条形码 x 500-bp 基因组网格（bins）"的二元稀疏矩阵。

为了判断一个条形码的全基因组染色质图谱是代表一个完整的细胞核还是背景噪音，我们计算了每个条形码与以下两组聚合数据的 Spearman 相关系数（数据经过 TF-IDF 标准化处理）：

(i) 非背景组：Tn5 插入数排名前 1,000 的条形码。
(ii) 背景组：Tn5 插入数少于 100 的条形码。

最终，仅保留了与"非背景组"相关性高于其与"背景组"相关性的条形码。

6. 基于参考细胞核的 scATAC-seq 聚类

为了降低计算成本并提高细胞状态识别的准确性，我们首先通过移除少于 1,000 个开放特征的细胞核，从过滤后的"条形码 × 500-bp 仓（bin）"稀疏二值矩阵中分离出一组参考条形码 。此步骤使用了 Socrates 软件包中的 cleanData 函数，并设置了非默认参数（min.c=1000, min.t=0.0025, max.t=0）。结果保留了在所有条形码中染色质开放频率大于或等于 0.25% 的 Bins。

随后，利用 Socrates 中的 tfidf 函数对该二值化稀疏矩阵进行词频-逆文档频率（TF-IDF）转换 和 L2 归一化 （参数 doL2=T）。通过奇异值分解（SVD），利用前 25% 的变异特征将 TF-IDF 归一化矩阵降维至 21 个缩放后的主成分（PCs）。由于第一主成分与细胞核读取深度高度相关（PCC > 0.7），因此通过 reduceDims 函数将其移除（参数设置：method="SVD", n.pcs=21, cor.max=0.7, num.var 取特征总数的 25%, scaleVar=T, doL2=T）。

接着，使用 Harmony 算法移除库效应（Library effects）和基因型效应（Genotype effects）。处理后的整合对象通过 R 包 symphony 的 buildReferenceFromHarmonyObj 函数构建参考嵌入空间（Reference embedding）。为了可视化参考细胞核之间的染色质开放相似性，我们使用 umap 函数进一步降维（参数：metric="cosine", n_neighbors=30, ret_model=T）。生成的模型被添加到 symphony 参考对象中，而 UMAP 嵌入结果则存入 Socrates 对象的 UMAP 插槽。

利用 Socrates 的 callClusters 函数并基于 Leiden 图论聚类算法，识别具有相似染色质开放模式的细胞核群。Leiden 聚类的最优分辨率通过在一定范围（0 -- 5e-3）内迭代分辨率参数并评估各分辨率下的聚类稳定性得分来确定。稳定性评估通过扰动 2% 的图边并计算 5 次排列组合的聚类一致性值（Consensus values）来完成。最终选择稳定性得分最高的分辨率参数进行聚类。

将剩余细胞投影至参考嵌入空间：

我们首先过滤掉开放特征少于 100 个的细胞核。随后，将查询细胞核（Query nuclei）的特征 ID 与参考对象对齐，以进行后续整合。剩余的查询细胞核通过 projectTFIDF 函数投影到与参考细胞核相同的 TF-IDF 空间中。细胞核被分成约 5,000 个一组的批次，迭代地投影到参考 SVD 嵌入空间中。具体而言，在每次迭代过程中，我们运行了 mapQuery2（这是 symphony 软件包中 mapQuery 函数针对 scATAC-seq 修改后的变体），并使用了特定的非默认参数（包括 do_umap=T, doL2=T 等），从而完成投影与映射。

7.scATAC-seq 细胞类型注释

为了进行细胞类型注释，我们首先利用 Socrates 软件包中的 estGeneActivity 函数计算基因活性得分（Gene activity scores）。计算方法是统计重叠在基因体（Gene bodies）以及转录起始位点（TSS）上游 500-bp 近端区域内的唯一 Tn5 插入位点数量。随后，对基因活性得分进行标准化，使每个细胞核的总得分总和为 10,000。

接下来，通过以下四种方法结合进行细胞类型注释（参考方法 9）：

**先验标志基因（Marker gene）**活性在 UMAP 上的分布特征；
细胞类型标志物的富集分析；
差异基因活性分析（Differential gene activity）；
多项逻辑回归分类（Multinomial logistic classification）。

此外，考虑到细胞周期阶段对聚类及细胞类型注释解读的影响，我们首先收集了一系列已知的细胞周期阶段特异性基因（参考方法 13）。随后，我们评估了每个细胞核内各阶段特异性基因的富集情况（即平均标准化基因活性），并将其与 1,000 次随机抽取的等量细胞周期基因的置换检验（Permutation）结果进行对比。

最终的细胞周期阶段评分（Z-score）通过标准化处理得出：即用目标阶段的平均标准化基因开放度减去置换背景的平均值，再除以置换背景的标准差。得分最高的阶段被预测为该细胞核所属的细胞周期阶段。最终的细胞状态注释是由预测的细胞类型和细胞周期阶段信息共同构成的。

这段文字详细描述了单细胞测序中**可接近染色质区域（ACRs, Accessible Chromatin Regions）**的鉴定、过滤及功能分类的流程。以下是准确的中文翻译：

8.ACR 鉴定流程

首先，利用 MACS2 (v2.2.7.1) 软件，针对每个"基因型 × 细胞类型"组合的 Tn5 插入计数聚合数据鉴定出一套全面的 ACR。使用了非默认参数（-g 1.6e9 --nomodel --keep-dup all --extsize 150 --shift -75 --qvalue 0.05）。随后，将所有基因型与细胞类型组合产出的 ACR 合并为一个单一的总列表（数量 n=65,450,651）。

为了在不合并区间的情况下解决重叠问题，我们采用了递归选择法：选取显著性最高（基于 -log10 q-value）的 ACR，并移除所有与其直接重叠且显著性较低的 ACR；这一过程不断迭代，最终产生了一套互不重叠的 ACR 集合（n=4,323,286）。对于每种细胞类型，我们从该集合中保留了在至少两个不同基因型中均被检测到（重叠度 >= 1bp）的 ACR，最终得到 631,846 个 ACR。

为了剔除那些染色质开放性富集程度与背景 Tn5 插入率相似的区域，我们从**可比对区域（Mappable regions）**中收集了相同数量（n=631,846）且长度匹配的随机基因组区域作为对照。可比对区域定义为：在利用 wgsim 生成的模拟数据集（参数 -N 5e8 -1 100 -2 100 -d 300）中，至少被一条 reads 覆盖的基因组区域。

接着，我们构建了（1）对照区域 × 细胞和（2）ACRs × 细胞的二值化稀疏矩阵，并计算了每个特征在所有细胞中的平均 Tn5 插入频率。利用 R 语言 fitdistrplus 包中的 fitdist 函数，根据对照区域的平均插入频率拟合 Beta 分布 。通过 R 语言内置函数 pbeta，将观察到的 ACR 插入频率与对照区域派生出的零模型参数进行比较，从而获得每个 ACR 的 P 值。P 值随后使用 p.adjust 函数进行多重假设检验校正（method="fdr"）。保留 FDR 小于 0.01 的区域，共计 108,843 个 ACR。

针对顺式调控功能（Cis-regulatory function）的特定分析，我们评估了每个 ACR 对应于外显子、内显子、基因间区（TSS 上游 >2-kb）、TSS 周边 50-bp 区域以及近端区域（TSS 上游 <2-kb）的比例。随后，移除了大部分区间与外显子重叠的 ACR，除非该 ACR 同时与 TSS 重叠。最终，我们共鉴定出 82,098 个具有潜在顺式调控功能的 ACR 用于后续分析。

保守性与特异性定义：

保守 ACR：指在至少 75% 的基因型中，与 B73 参考基因组拥有至少 90% 共享序列比对的区域。
细胞状态特异性 ：通过 Tau 指标进行评估，Tau 值大于 0.7 的 ACR 被视为具有细胞状态特异性。

9.snRNA-seq 原始数据处理

我们对之前生成的来自相同组织类型的一个 snRNA-seq 数据集（NCBI GEO 登录号：GSM5344025）与三个新生成的 snRNA-seq 数据进行了联合重新分析。对于新数据集，将 Illumina S4 NovaSeq 6000 输出的二进制基库调用序列文件（BCL）使用 cellranger mkfastq (v6.1.1) 进行拆分（Demultiplexing）。

随后，利用 cellranger count 对所有新旧数据集的原始 reads 进行比对，生成的 BAM 文件包含了所有 reads（包括比对上和未比对上的），并在 CB 标签中包含经过白名单校正的细胞条形码（Barcode），在 UM 标签中包含 UMI 序列。

接下来对比对文件进行过滤：

使用 samtools view (v1.16.1) 移除低比对质量的序列（-q 30）。
使用 picardtools (v2.27.4) 的 MarkDuplicates 函数移除重复 reads，其中 BARCODE_TAG 参数设置为 CB 与 UMI 序列的组合（存储在名为 UM 的自定义标签中）。

我们将过滤后的 BAM 比对文件转换为 BED 格式 ，方法是将细胞索引和 UMI 序列移动到 read 名称中，并利用管道传输至 bedtools bamtobed (v2.27.1)。通过自定义 Perl 脚本计算每个细胞中每条基因的 reads 数（统计与基因体区域（包括内含子）重叠的比对序列）。

细胞与质量控制（QC）标准：

筛选阈值：移除了 UMI 少于 750 个、转录基因少于 250 个或多于 10,000 个的条形码。
细胞器基因过滤：移除了线粒体或叶绿体基因比率超过 5% 的条形码，仅保留 95% 以上的 UMI 来源于核基因组的细胞。
背景过滤：类似于 scATAC-seq 的处理流程（见上文），我们过滤了基因表达模式与背景转录谱高度相关的细胞条形码。

基因型鉴定：

利用 souporcell (8) 鉴定细胞基因型，使用了非默认参数（--threads 30 -k 2 --known_genotypes $vcf --known_genotypes_sample_names Mo17 B73），并在后续分析中剔除了被鉴定为"双细胞"（Doublets）的条形码。

这段文字描述了**多模态数据整合（ATAC + RNA）**与细胞类型注释的生物信息学流程。核心是通过 rliger 包利用联合非负矩阵分解（jNMF）技术来实现不同模态间的对齐。以下是准确的中文翻译：

10.多模态数据整合与细胞类型注释

首先对基因染色质可及性矩阵和转录丰度矩阵进行过滤，仅保留在至少 0.1% 的细胞核中具有可及性或表达的基因（以及至少包含 100 个可及/表达基因的细胞核），并确保两种模态间的基因匹配。随后将 ATAC 和 RNA 矩阵导入 R 软件工具包 rliger (16) ，并使用 normalize 函数以默认参数进行归一化。

利用 selectGenes 函数筛选出变异程度最高的基因（设置非默认参数：datasets.use="RNA", var.thresh=0.5）。接着，使用 scaleNotCenter 函数对两种模态的矩阵进行缩放（不进行中心化处理），以保留非负矩阵分解（NMF）所要求的非负分布特性。使用 optimizeALS 函数执行联合非负矩阵分解 （设置参数：k=20, lambda=5）。最后，通过 quantile_norm 函数进行分位数归一化，以完全整合来自两种模态的细胞因子负荷（Cell factor loadings）。

细胞核聚类的方法与前述 scATAC-seq 数据处理类似，区别在于：在调用基于共识的聚类方法时，设置 k=15，并使用分位数归一化后返回的 20 个细胞因子负荷。

细胞类型注释的流程与仅包含 scATAC-seq 的数据集完全一致，包括：

通过 UMAP 和聚类聚合热图实现标记基因（Marker genes）的可视化。
评估差异可及基因（DAGs）和差异转录基因（DEGs）。
通过多元逻辑回归（Multinomial regression）执行自动化的单细胞水平注释。

11.ACR 保守性分析

为了确定 ACR 在不同玉米自交系及其野生祖先种大刍草（Teosinte）中的序列保守程度，我们整合了多方数据并计算了每个 ACR 被至少一条 read 覆盖的比例。整合的数据包括：已发表的全基因组重测序数据（Goodman-Buckler 多样性面板 (6) 和 20 个大刍草基因型 (22)）、基于现有参考基因组组装序列（NAM 创始人系 (2) 和 TIL11 (23)）生成的 150bp 模拟 reads，以及本研究的 scATAC-seq 数据。

模拟双端测序 reads 是使用 samtools 套件中的 wgsim 工具以默认参数生成的，读长（read length）设置为 150bp，双端 read 总数设置为 500,000,000 条。

驯化玉米特异性 ACR 的鉴定标准：在所有 21 个大刍草基因型中均缺乏比对序列（ACR 覆盖度 < 10%）的区域被定义为驯化玉米特异性 ACR。

在 Monte Carlo 置换岭回归测试中，我们根据合并比对结果中是否至少有一条测序 read 完全覆盖，对每个基因型中 ACR 内给定的 TFBS 进行存在/缺失（presence/absence）评分。

利用 R 语言包 glmnet 中的 cv.glmnet 函数拟合岭回归模型（模型公式：ACR 保守性得分 ~ 含有 TFBS 的基因型比例），并设置非默认参数 alpha=0。将观测到的 beta 值与通过 1,000 次随机置换行、列 ID 生成的零分布（null beta distributions）进行比较。

统计显著性评估：

Z-score：通过观测到的 beta 值与零分布均值之差，除以零分布的标准差计算得出。
P 值：通过比较观测 beta 值与零分布得出。
FDR（错误发现率） ：使用 R 函数 p.adjust（参数设置：method="fdr"）进行估计。

图 S2：质量控制分析

（A）跨 40 个基因型混合 scATAC-seq 库的所有 ACR 附近 Tn5 插入位点的元图（Meta plot）和热图。

注：Meta plot 通常用于展示所有目标区域聚合后的信号分布特征。

（B）所有 40 个基因型混合 scATAC-seq 库的片段大小分布图（Fragment size distributions）。

（C）基于所有 ACR 合集的相关性分析：对比了本次研究的 40 个幼苗基因型混合库与先前已发表的玉米 scATAC-seq 库。

（D）条形码（Barcode）质量控制过滤指标。

（E）具有代表性的基因组浏览器视图（Genome browser view），展示了所有 40 个基因型混合 scATAC-seq 库中细胞核聚合后的归一化读取深度。

各行轨道（Row tracks）按 pool1 到 pool 40 的顺序排列。