R语言读取tsv的三种方法，带有注释的tsv文件

zhangfeng11332025-10-11 9:38

下面给出 3 种在 R 里"跳过注释行（以 ## 开头）并读取真正列名在第 1 行"的通用做法，任选其一即可。

示例文件假设叫 demo.tsv，放在工作目录下，字段分隔符为 tab（\t）。

方案 1：readr::read_tsv + skip

（最简洁，tidyverse 用户首选）

r 复制代码

library(readr)

df <- read_tsv(
  "demo.tsv",
  skip = 6,            # 前 6 行全是注释，直接跳过
  locale = locale(encoding = "UTF-8")  # 如有中文可改 GB18030
)

head(df)

方案 2：data.table::fread + autostart

（速度最快，自动识别 tab 分隔）

r 复制代码

library(data.table)

df <- fread(
  "demo.tsv",
  autostart = 7L,      # fread 会自己从第 7 行开始找列名
  sep = "\t"
)

head(df)

方案 3：base::read.table + 文本预处理

（不依赖任何外部包，纯 base R）

r 复制代码

## 1. 先把注释行扔掉
con <- file("demo.tsv", open = "rt")
clean <- grep("^##", readLines(con), invert = TRUE, value = TRUE)
close(con)

## 2. 用 textConnection 把干净文本喂给 read.table
df <- read.table(
  text = clean,
  header = TRUE,
  sep = "\t",
  stringsAsFactors = FALSE,
  fileEncoding = "UTF-8"
)

head(df)

补充说明

如果注释行数不固定，可用 grep("^##", readLines()) 动态计算要跳过的行数。
文件若用 CRLF（Windows）换行，以上三种方法均能自动识别，无需额外处理。
读进来后 colnames(df) 就是
"Transcription factor""Synonyms""Official Full Name"... 可直接使用。

R语言 读取tsv的三种方法 ，带有注释的tsv文件

R语言读取tsv的三种方法，带有注释的tsv文件