中文命名实体识别（NER）数据集全面整理

下载地址链接：https://pan.quark.cn/s/8e8b0b7c67b1

命名实体识别（Named Entity Recognition，NER）是自然语言处理中的基础任务之一，目标是在文本中识别具有特定语义的实体，并将其归入预定义的类别，如人名、地名、机构名、时间、产品等。

在中文 NER 研究与实际应用中，数据集的质量与领域覆盖范围对模型效果具有决定性影响。本文对公开可获取的中文命名实体识别数据集进行了系统梳理，涵盖通用文本、社交媒体、电商、金融、医疗、军事、对话等多个应用场景，供学习和研究参考。

2. 文娱领域命名实体识别数据集

该类数据主要来源于视频与娱乐相关文本，文本长度较短，但实体类型具有明显领域特征。

数据集中实体主要包括娱乐人物、影视作品、音乐作品等，并进一步细分为电影、电视剧、综艺、动漫等子类。

整体数据规模在万级左右，通常划分为训练集、验证集和测试集，适用于娱乐内容理解、推荐系统及短文本实体识别研究。

3. 电商领域命名实体识别数据集

电商领域数据集主要基于商品标题或商品描述构建，文本具有明显的"非完整句"特征。

常见实体类型包括：

商品名称
商品型号
品牌
人名
地名

数据规模通常在数千到数万条不等，适用于商品信息抽取、搜索理解和推荐系统等场景。

4. 金融与简历类命名实体识别数据集

该类数据多来源于企业信息或人物简历文本，语言规范性较强，实体边界清晰。

常见实体类型包括：

人名
组织名
职称
教育背景
专业
地名
国籍

由于文本结构相对固定，该类数据集上模型通常可以取得较高的识别精度，常被用于验证模型上限或作为领域迁移实验数据。

5. 社交媒体命名实体识别数据集

社交媒体文本具有口语化强、噪声多、语法不规范等特点，是中文 NER 中较具挑战性的场景。

实体类型一般包括：

人名（具体 / 泛指）
地址（具体 / 泛指）
行政区
组织机构

数据规模相对较小，但在鲁棒性研究、噪声文本建模方面具有重要价值。

6. 新闻语料命名实体识别数据集

新闻语料是中文 NER 研究中最经典的数据来源之一，文本结构清晰，标注规范。

常见实体类型为：

人名（PER）
地名（LOC）
机构名（ORG）

这类数据集通常被作为基准数据，用于模型对比、算法评测和教学示例。

7. 细粒度命名实体识别数据集

细粒度 NER 数据集在传统实体类型基础上进行了更精细的划分。

典型实体类型包括：

公司
书名
电影
游戏
职位
政府机构
景点
地址

该类数据集适用于多类别实体识别、层级标签建模以及复杂实体区分任务。

8. 医疗领域命名实体识别数据集

医疗文本是中文 NER 的重要应用场景之一，文本专业性强，对实体识别准确率要求较高。

常见实体类型包括：

疾病
症状
药物
手术
医学检查
身体部位
医疗设备

不同数据集在实体粒度和类别设置上存在差异，适合用于医学文本理解、临床决策支持及知识图谱构建等任务。

9. 军事与专业领域命名实体识别数据集

该类数据集主要来源于专业性较强的文本，如军事装备说明、试验鉴定报告等。

实体类型通常包括：

装备或试验要素
性能指标
系统组成
应用或任务场景

文本长度相对较长，术语密集，对模型的长文本建模能力和领域适应能力要求较高。

10. 对话系统命名实体识别数据集

对话场景中的命名实体识别通常服务于任务型系统或智能问答系统。

常见实体包括：

地点
联系人
时间
年龄
歌曲 / 演员
情绪
医疗相关实体（在医患对话中）

数据往往以多轮对话形式存在，实体上下文依赖较强，适合研究上下文感知型 NER 模型。

11. 商品与标题类命名实体识别数据集

该类数据集以商品标题为核心文本，实体类型数量多、标注粒度细。

特点包括：

实体类别数量多（数十类）
标签体系复杂
存在大量非实体字符

常用于大规模预训练、半监督学习以及工业级实体抽取任务研究。

12. 事件与实体联合标注数据集

部分数据集在实体标注的基础上，同时提供事件和关系信息。

数据通常包含：

实体提及
事件触发词
事件类型
实体之间的关系

适用于联合建模实体识别、事件抽取和关系抽取的研究方向。