深度学习-NLP 常见语料库

NLP 常见语料库

[NLP 常见语料库](#NLP 常见语料库)
- [1. 语料库=任务定义的一部分](#1. 语料库=任务定义的一部分)
- [2. 入门最常用的"通用基准"](#2. 入门最常用的“通用基准”)
- [3. 任务型语料库](#3. 任务型语料库)
- [4. 预训练常用"大语料"](#4. 预训练常用“大语料”)
- [5. 加载数据集（Hugging Face Datasets）](#5. 加载数据集（Hugging Face Datasets）)

NLP 常见语料库

1. 语料库=任务定义的一部分

同一个"看起来类似"的任务，换一个数据集，难度和评估方式可能完全不同。选语料库时优先问 3 个问题：

任务是什么？（分类 / NER / QA / 摘要 / 检索 / 翻译...）
语言是什么？（中文 / 英文 / 多语）
要做什么阶段？（入门验证 / 模型对比 / 工程落地 / 预训练）

2. 入门最常用的"通用基准"

这类数据集适合：刚训练一个 encoder/LLM，想快速对齐大家的指标与难度。

基准	典型任务覆盖	你什么时候用
GLUE	英文 NLU 基础任务合集（句子分类、句对推理等）	训练/微调后快速跑一轮"通用理解能力"
SuperGLUE	更难的英文 NLU 基准	GLUE 已经很高了，想测更难任务
CLUE	中文 NLU 基准	做中文任务、中文模型对比

3. 任务型语料库

任务方向	经典语料库（英文/多语）	常见中文语料库	备注
文本分类 / 句对匹配	GLUE / SuperGLUE	CLUE、LCQMC	句对匹配可直接练检索/对比学习
NER / 信息抽取	CoNLL-2003、OntoNotes	（中文 NER 多见于各比赛/数据集汇总）	OntoNotes/部分资源可能需要申请授权
阅读理解 / 抽取式 QA	SQuAD	CMRC2018	"答案是原文 span"这一类
开放域 QA / MRC	（多源）	DuReader	更贴近真实搜索/开放域问答
摘要（Summarization）	CNN/DailyMail	（中文摘要可另选 LCSTS 等）	常用 ROUGE 指标
检索 / Passage Ranking	MS MARCO	DuReader Retrieval	典型评估：MRR、nDCG
机器翻译 MT	WMT（新闻/通用）	（按具体中英/多语任务选）	MT 领域常用 WMT 系列
对话 / 字幕语料	OpenSubtitles（OPUS）	（中文口语对话常见于公开集合）	多语平行字幕很常见

4. 预训练常用"大语料"

如果要做预训练、继续预训练、或构建自己的大规模文本库，下面两类非常常见：

Wikipedia Dumps：结构相对干净、适合百科类知识
Common Crawl / C4：网页级规模巨大，但更依赖清洗与过滤策略

5. 加载数据集（Hugging Face Datasets）

很多公开数据集都能用 datasets.load_dataset() 直接加载验。

python 复制代码

# pip install datasets

from datasets import load_dataset

# 例：GLUE（按具体子任务选择，比如 "sst2"）
glue = load_dataset("nyu-mll/glue", "sst2")

# 例：SQuAD
squad = load_dataset("rajpurkar/squad")

# 例：中文 CLUE
clue = load_dataset("clue/clue", "tnews")  # 例如 tnews 子任务