NLP 常见语料库
- [NLP 常见语料库](#NLP 常见语料库)
-
- [1. 语料库=任务定义的一部分](#1. 语料库=任务定义的一部分)
- [2. 入门最常用的"通用基准"](#2. 入门最常用的“通用基准”)
- [3. 任务型语料库](#3. 任务型语料库)
- [4. 预训练常用"大语料"](#4. 预训练常用“大语料”)
- [5. 加载数据集(Hugging Face Datasets)](#5. 加载数据集(Hugging Face Datasets))
NLP 常见语料库
1. 语料库=任务定义的一部分
同一个"看起来类似"的任务,换一个数据集,难度和评估方式可能完全不同。选语料库时优先问 3 个问题:
- 任务是什么?(分类 / NER / QA / 摘要 / 检索 / 翻译...)
- 语言是什么?(中文 / 英文 / 多语)
- 要做什么阶段?(入门验证 / 模型对比 / 工程落地 / 预训练)
2. 入门最常用的"通用基准"
这类数据集适合:刚训练一个 encoder/LLM,想快速对齐大家的指标与难度。
| 基准 | 典型任务覆盖 | 你什么时候用 |
|---|---|---|
| GLUE | 英文 NLU 基础任务合集(句子分类、句对推理等) | 训练/微调后快速跑一轮"通用理解能力" |
| SuperGLUE | 更难的英文 NLU 基准 | GLUE 已经很高了,想测更难任务 |
| CLUE | 中文 NLU 基准 | 做中文任务、中文模型对比 |
3. 任务型语料库
| 任务方向 | 经典语料库(英文/多语) | 常见中文语料库 | 备注 |
|---|---|---|---|
| 文本分类 / 句对匹配 | GLUE / SuperGLUE | CLUE、LCQMC | 句对匹配可直接练检索/对比学习 |
| NER / 信息抽取 | CoNLL-2003、OntoNotes | (中文 NER 多见于各比赛/数据集汇总) | OntoNotes/部分资源可能需要申请授权 |
| 阅读理解 / 抽取式 QA | SQuAD | CMRC2018 | "答案是原文 span"这一类 |
| 开放域 QA / MRC | (多源) | DuReader | 更贴近真实搜索/开放域问答 |
| 摘要(Summarization) | CNN/DailyMail | (中文摘要可另选 LCSTS 等) | 常用 ROUGE 指标 |
| 检索 / Passage Ranking | MS MARCO | DuReader Retrieval | 典型评估:MRR、nDCG |
| 机器翻译 MT | WMT(新闻/通用) | (按具体中英/多语任务选) | MT 领域常用 WMT 系列 |
| 对话 / 字幕语料 | OpenSubtitles(OPUS) | (中文口语对话常见于公开集合) | 多语平行字幕很常见 |
4. 预训练常用"大语料"
如果要做预训练、继续预训练、或构建自己的大规模文本库,下面两类非常常见:
- Wikipedia Dumps:结构相对干净、适合百科类知识
- Common Crawl / C4:网页级规模巨大,但更依赖清洗与过滤策略
5. 加载数据集(Hugging Face Datasets)
很多公开数据集都能用 datasets.load_dataset() 直接加载验。
python
# pip install datasets
from datasets import load_dataset
# 例:GLUE(按具体子任务选择,比如 "sst2")
glue = load_dataset("nyu-mll/glue", "sst2")
# 例:SQuAD
squad = load_dataset("rajpurkar/squad")
# 例:中文 CLUE
clue = load_dataset("clue/clue", "tnews") # 例如 tnews 子任务