怎样使用 Juicer tools 的 dump 命令将.hic文件转换为交互矩阵matrix计数文件 (Windows)

创作日志: 万恶的生信...一个scHiC数据集没有提供处理好的计数文件,需要从.hic转换。Github一个个好长的文档看了好久才定位到 juicer tools 的dump命令,使用起来比想象中简单。


一、下载Juicer tools

注意:使用Juicer tools的前提是你的电脑里装了Java哦!

网址:Juicer tools jar包下载官网

我不知道有什么具体区别,下载的是第一个。下载之后也不需要有什么操作,直接就可以用。

二、dump命令讲解

1. juicer_tools dump 用法1------提取观测值或期望值

  • 参数:

    observed/oe \] \[ NONE/VC/VC_SQRT/KR \] \[ hicFile(s) \] \[ chr1 \]\[:x1:x2\] \[ chr2 \]\[:y1:y2\] \[ BP/FRAG \] \[ binsize \] \[ outfile (可选)

  • 参数解释:
    • [observed/oe]: 选择提取观测值 (observed) 或 观测/期望值 (oe)。
    • [NONE/VC/VC_SQRT/KR]: 选择归一化选项:

    NONE:无归一化

    VC:Vector Correction 归一化

    VC_SQRT:Square Root Vector Correction 归一化

    KR:Knight-Ruiz 归一化
    • [hicFile(s)]: 输入的 .hic 文件路径。
    • [chr1][:x1:x2]: 第一个染色体及其范围(例如 chr1:0:100000)。
    • [chr2][:y1:y2]: 第二个染色体及其范围(例如 chr2:0:100000),也可以是相同的染色体。
    • [BP/FRAG]: 选择单位:基对 (BP) 或 酶切片段 (FRAG)。
    • [binsize]: 分辨率,例如 10000 表示 10kb。
    • [outfile]: 输出文件路径(可选)。

2. juicer_tools dump 用法2------提取归一化或期望值

  • 参数:

    norm/expected \] \[ NONE/VC/VC_SQRT/KR \] \[ hicFile(s) \] \[ chr \] \[ BP/FRAG \] \[ binsize \] \[ outfile (可选)

  • 参数解释:
    • [norm/expected]:选择提取归一化值 (norm) 或 期望值 (expected)。
    • [NONE/VC/VC_SQRT/KR]:选择归一化选项(同上)。
    • [hicFile(s)]:输入的 .hic 文件路径。
    • [chr]:染色体。
    • [BP/FRAG]:选择单位:基对 (BP) 或 酶切片段 (FRAG)。
    • [binsize]:分辨率。
    • [outfile]:输出文件路径(可选)。

3. juicer_tools dump 用法3------提取染色质环loop或域domain信息

  • 参数:

    loops/domains \] \[ hicFile URL\] \[ outfile (可选)

  • 参数解释:
    • [loops/domains]:选择提取环 (loops) 或 域 (domains) 信息。
    • :输入的 .hic 文件 URL。
    • [outfile]:输出文件路径(可选)。

三、使用实例

  1. 打开Windows cmd
  2. 输入java -jar 你的juicer_tools jar包安装路径 dump 以上所需参数 即可完成转换

拿我的举个例子:

最后在我的指定路径中生成了extract_matrix.txt文件:

打开内容是这样的:

相关推荐
zhangfeng11334 天前
R和python 哪个更适合生物信息分析,或者更擅长做什么工作
开发语言·python·r语言·生物信息
zhangfeng113311 天前
代谢物数据 不带snp 数据 ,需要转换才能得到rsid,转换的几种方法
生物信息
zhangfeng113321 天前
R语言 读取tsv的三种方法 ,带有注释的tsv文件
开发语言·r语言·生物信息
zhangfeng113323 天前
亲测可用,R语言 ggplot2 箱线图线条控制参数详解,箱线图离散数值控制
开发语言·python·r语言·生物信息
zhangfeng113324 天前
R 导出 PDF 时中文不显示 不依赖 showtext** 的最简方案(用 extrafont 把系统 TTF 真正灌进 PDF 内核)
开发语言·r语言·pdf·生物信息
zhangfeng11331 个月前
R语言 表达矩阵 count_table 筛选出 行名是 某个 基因的 数据或者某个列中的数据是某个基因的数据
矩阵·r语言·生物信息
zhangfeng11331 个月前
geo Counts 数据 ,机器学习 模型的外部验证 ROC外部验证数据处理流程
人工智能·机器学习·r语言·生物信息
zhangfeng11331 个月前
生物信息 R语言和 cytoscape 相互沟通的组件RCy3,构建cytoscape网络表 节点类型表 链接边的表,并推送到cytoscape
数据库·r语言·生物信息
zhangfeng11331 个月前
基于STRING数据库构建模型基因的PPI网络 基于GeneMANIA构建Hub基因的功能相似网络
开发语言·生物信息
zhangfeng11331 个月前
wgcna 相关性热图中4个颜色 4个共表达模块 的模块基因是否都要做GO/KEGG分析”,核心取决于你的**研究目标和模块的生物学意义*
开发语言·r语言·生物信息