下面给出 3 种在 R 里"跳过注释行(以 ## 开头)并读取真正列名在第 1 行"的通用做法,任选其一即可。
示例文件假设叫 demo.tsv
,放在工作目录下,字段分隔符为 tab(\t
)。
方案 1:readr::read_tsv + skip
(最简洁,tidyverse 用户首选)
r
library(readr)
df <- read_tsv(
"demo.tsv",
skip = 6, # 前 6 行全是注释,直接跳过
locale = locale(encoding = "UTF-8") # 如有中文可改 GB18030
)
head(df)
方案 2:data.table::fread + autostart
(速度最快,自动识别 tab 分隔)
r
library(data.table)
df <- fread(
"demo.tsv",
autostart = 7L, # fread 会自己从第 7 行开始找列名
sep = "\t"
)
head(df)
方案 3:base::read.table + 文本预处理
(不依赖任何外部包,纯 base R)
r
## 1. 先把注释行扔掉
con <- file("demo.tsv", open = "rt")
clean <- grep("^##", readLines(con), invert = TRUE, value = TRUE)
close(con)
## 2. 用 textConnection 把干净文本喂给 read.table
df <- read.table(
text = clean,
header = TRUE,
sep = "\t",
stringsAsFactors = FALSE,
fileEncoding = "UTF-8"
)
head(df)
补充说明
- 如果注释行数不固定,可用
grep("^##", readLines())
动态计算要跳过的行数。 - 文件若用 CRLF(Windows)换行,以上三种方法均能自动识别,无需额外处理。
- 读进来后
colnames(df)
就是
"Transcription factor""Synonyms""Official Full Name"... 可直接使用。