深度学习-NLP 常见语料库

NLP 常见语料库

  • [NLP 常见语料库](#NLP 常见语料库)
    • [1. 语料库=任务定义的一部分](#1. 语料库=任务定义的一部分)
    • [2. 入门最常用的"通用基准"](#2. 入门最常用的“通用基准”)
    • [3. 任务型语料库](#3. 任务型语料库)
    • [4. 预训练常用"大语料"](#4. 预训练常用“大语料”)
    • [5. 加载数据集(Hugging Face Datasets)](#5. 加载数据集(Hugging Face Datasets))

NLP 常见语料库

1. 语料库=任务定义的一部分

同一个"看起来类似"的任务,换一个数据集,难度和评估方式可能完全不同。选语料库时优先问 3 个问题:

  1. 任务是什么?(分类 / NER / QA / 摘要 / 检索 / 翻译...)
  2. 语言是什么?(中文 / 英文 / 多语)
  3. 要做什么阶段?(入门验证 / 模型对比 / 工程落地 / 预训练)

2. 入门最常用的"通用基准"

这类数据集适合:刚训练一个 encoder/LLM,想快速对齐大家的指标与难度。

基准 典型任务覆盖 你什么时候用
GLUE 英文 NLU 基础任务合集(句子分类、句对推理等) 训练/微调后快速跑一轮"通用理解能力"
SuperGLUE 更难的英文 NLU 基准 GLUE 已经很高了,想测更难任务
CLUE 中文 NLU 基准 做中文任务、中文模型对比

3. 任务型语料库

任务方向 经典语料库(英文/多语) 常见中文语料库 备注
文本分类 / 句对匹配 GLUE / SuperGLUE CLUE、LCQMC 句对匹配可直接练检索/对比学习
NER / 信息抽取 CoNLL-2003、OntoNotes (中文 NER 多见于各比赛/数据集汇总) OntoNotes/部分资源可能需要申请授权
阅读理解 / 抽取式 QA SQuAD CMRC2018 "答案是原文 span"这一类
开放域 QA / MRC (多源) DuReader 更贴近真实搜索/开放域问答
摘要(Summarization) CNN/DailyMail (中文摘要可另选 LCSTS 等) 常用 ROUGE 指标
检索 / Passage Ranking MS MARCO DuReader Retrieval 典型评估:MRR、nDCG
机器翻译 MT WMT(新闻/通用) (按具体中英/多语任务选) MT 领域常用 WMT 系列
对话 / 字幕语料 OpenSubtitles(OPUS) (中文口语对话常见于公开集合) 多语平行字幕很常见

4. 预训练常用"大语料"

如果要做预训练、继续预训练、或构建自己的大规模文本库,下面两类非常常见:

  • Wikipedia Dumps:结构相对干净、适合百科类知识
  • Common Crawl / C4:网页级规模巨大,但更依赖清洗与过滤策略

5. 加载数据集(Hugging Face Datasets)

很多公开数据集都能用 datasets.load_dataset() 直接加载验。

python 复制代码
# pip install datasets

from datasets import load_dataset

# 例:GLUE(按具体子任务选择,比如 "sst2")
glue = load_dataset("nyu-mll/glue", "sst2")

# 例:SQuAD
squad = load_dataset("rajpurkar/squad")

# 例:中文 CLUE
clue = load_dataset("clue/clue", "tnews")  # 例如 tnews 子任务

相关推荐
大龄程序员狗哥19 分钟前
第47篇:使用Speech-to-Text API快速构建语音应用(操作教程)
人工智能
KKKlucifer19 分钟前
数据安全合规自动化:策略落地、审计追溯与风险闭环技术解析
人工智能·安全
RWKV元始智能30 分钟前
RWKV超并发项目教程,RWKV-LM训练提速40%
人工智能·rnn·深度学习·自然语言处理·开源
dyj09533 分钟前
Dify - (一)、本地部署Dify+聊天助手/Agent
人工智能·docker·容器
墨染天姬40 分钟前
【AI】Hermes的GEPA算法
人工智能·算法
小超同学你好42 分钟前
OpenClaw 深度解析系列 · 第8篇:Learning & Adaptation(学习与自适应)
人工智能·语言模型·chatgpt
紫微AI1 小时前
前端文本测量成了卡死一切创新的最后瓶颈,pretext实现突破了
前端·人工智能·typescript
码途漫谈1 小时前
Easy-Vibe开发篇阅读笔记(四)——前端开发之结合 Agent Skills 美化界面
人工智能·笔记·ai·开源·ai编程
易连EDI—EasyLink1 小时前
易连EDI–EasyLink实现OCR智能数据采集
网络·人工智能·安全·汽车·ocr·edi
冬奇Lab1 小时前
RAG 系列(二):用 LangChain 搭建你的第一个 RAG Pipeline
人工智能·langchain·llm