R语言 读取tsv的三种方法 ,带有注释的tsv文件

下面给出 3 种在 R 里"跳过注释行(以 ## 开头)并读取真正列名在第 1 行"的通用做法,任选其一即可。

示例文件假设叫 demo.tsv,放在工作目录下,字段分隔符为 tab(\t)。


方案 1:readr::read_tsv + skip

(最简洁,tidyverse 用户首选)

r 复制代码
library(readr)

df <- read_tsv(
  "demo.tsv",
  skip = 6,            # 前 6 行全是注释,直接跳过
  locale = locale(encoding = "UTF-8")  # 如有中文可改 GB18030
)

head(df)

方案 2:data.table::fread + autostart

(速度最快,自动识别 tab 分隔)

r 复制代码
library(data.table)

df <- fread(
  "demo.tsv",
  autostart = 7L,      # fread 会自己从第 7 行开始找列名
  sep = "\t"
)

head(df)

方案 3:base::read.table + 文本预处理

(不依赖任何外部包,纯 base R)

r 复制代码
## 1. 先把注释行扔掉
con <- file("demo.tsv", open = "rt")
clean <- grep("^##", readLines(con), invert = TRUE, value = TRUE)
close(con)

## 2. 用 textConnection 把干净文本喂给 read.table
df <- read.table(
  text = clean,
  header = TRUE,
  sep = "\t",
  stringsAsFactors = FALSE,
  fileEncoding = "UTF-8"
)

head(df)

补充说明

  1. 如果注释行数不固定,可用 grep("^##", readLines()) 动态计算要跳过的行数。
  2. 文件若用 CRLF(Windows)换行,以上三种方法均能自动识别,无需额外处理。
  3. 读进来后 colnames(df) 就是
    "Transcription factor""Synonyms""Official Full Name"... 可直接使用。
相关推荐
无限进步_5 分钟前
C语言单向链表实现详解:从基础操作到完整测试
c语言·开发语言·数据结构·c++·算法·链表·visual studio
好好研究25 分钟前
SpringMVC框架 - 异常处理
java·开发语言·spring·mvc
songroom34 分钟前
Rust: 量化策略回测与简易线程池构建(MPMC)
开发语言·后端·rust
摇滚侠40 分钟前
Vue 项目实战《尚医通》,完成确定挂号业务,笔记46
java·开发语言·javascript·vue.js·笔记
十五年专注C++开发1 小时前
libdatrie: 一个高效的 基于双数组字典树(Double-Array Trie)的C语言函数库
c语言·开发语言·trie
程序猿_极客2 小时前
【2025最新】 Java入门到实战:包装类、字符串转换、equals/toString + 可变字符串,一篇搞定开发高频场景(含案例解析)
java·开发语言·java进阶·面试核心·java快速入门
U***e632 小时前
Python测试
开发语言·python
yi碗汤园2 小时前
Visual Studio常用的快捷键
开发语言·ide·c#·编辑器·visual studio
Elias不吃糖2 小时前
NebulaChat:C++ 高并发聊天室服务端
开发语言·c++·redis·sql·项目文档
haofafa2 小时前
JavaScript性能优化实战
开发语言·javascript·性能优化