深度学习-NLP 常见语料库

NLP 常见语料库

  • [NLP 常见语料库](#NLP 常见语料库)
    • [1. 语料库=任务定义的一部分](#1. 语料库=任务定义的一部分)
    • [2. 入门最常用的"通用基准"](#2. 入门最常用的“通用基准”)
    • [3. 任务型语料库](#3. 任务型语料库)
    • [4. 预训练常用"大语料"](#4. 预训练常用“大语料”)
    • [5. 加载数据集(Hugging Face Datasets)](#5. 加载数据集(Hugging Face Datasets))

NLP 常见语料库

1. 语料库=任务定义的一部分

同一个"看起来类似"的任务,换一个数据集,难度和评估方式可能完全不同。选语料库时优先问 3 个问题:

  1. 任务是什么?(分类 / NER / QA / 摘要 / 检索 / 翻译...)
  2. 语言是什么?(中文 / 英文 / 多语)
  3. 要做什么阶段?(入门验证 / 模型对比 / 工程落地 / 预训练)

2. 入门最常用的"通用基准"

这类数据集适合:刚训练一个 encoder/LLM,想快速对齐大家的指标与难度。

基准 典型任务覆盖 你什么时候用
GLUE 英文 NLU 基础任务合集(句子分类、句对推理等) 训练/微调后快速跑一轮"通用理解能力"
SuperGLUE 更难的英文 NLU 基准 GLUE 已经很高了,想测更难任务
CLUE 中文 NLU 基准 做中文任务、中文模型对比

3. 任务型语料库

任务方向 经典语料库(英文/多语) 常见中文语料库 备注
文本分类 / 句对匹配 GLUE / SuperGLUE CLUE、LCQMC 句对匹配可直接练检索/对比学习
NER / 信息抽取 CoNLL-2003、OntoNotes (中文 NER 多见于各比赛/数据集汇总) OntoNotes/部分资源可能需要申请授权
阅读理解 / 抽取式 QA SQuAD CMRC2018 "答案是原文 span"这一类
开放域 QA / MRC (多源) DuReader 更贴近真实搜索/开放域问答
摘要(Summarization) CNN/DailyMail (中文摘要可另选 LCSTS 等) 常用 ROUGE 指标
检索 / Passage Ranking MS MARCO DuReader Retrieval 典型评估:MRR、nDCG
机器翻译 MT WMT(新闻/通用) (按具体中英/多语任务选) MT 领域常用 WMT 系列
对话 / 字幕语料 OpenSubtitles(OPUS) (中文口语对话常见于公开集合) 多语平行字幕很常见

4. 预训练常用"大语料"

如果要做预训练、继续预训练、或构建自己的大规模文本库,下面两类非常常见:

  • Wikipedia Dumps:结构相对干净、适合百科类知识
  • Common Crawl / C4:网页级规模巨大,但更依赖清洗与过滤策略

5. 加载数据集(Hugging Face Datasets)

很多公开数据集都能用 datasets.load_dataset() 直接加载验。

python 复制代码
# pip install datasets

from datasets import load_dataset

# 例:GLUE(按具体子任务选择,比如 "sst2")
glue = load_dataset("nyu-mll/glue", "sst2")

# 例:SQuAD
squad = load_dataset("rajpurkar/squad")

# 例:中文 CLUE
clue = load_dataset("clue/clue", "tnews")  # 例如 tnews 子任务

相关推荐
NAGNIP1 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab2 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab2 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP6 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年6 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼6 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS6 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区8 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈8 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang8 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx