下载地址链接:https://pan.quark.cn/s/8e8b0b7c67b1

命名实体识别(Named Entity Recognition,NER)是自然语言处理中的基础任务之一,目标是在文本中识别具有特定语义的实体,并将其归入预定义的类别,如人名、地名、机构名、时间、产品等。
在中文 NER 研究与实际应用中,数据集的质量与领域覆盖范围对模型效果具有决定性影响。本文对公开可获取的中文命名实体识别数据集进行了系统梳理,涵盖通用文本、社交媒体、电商、金融、医疗、军事、对话等多个应用场景,供学习和研究参考。
2. 文娱领域命名实体识别数据集
该类数据主要来源于视频与娱乐相关文本,文本长度较短,但实体类型具有明显领域特征。
数据集中实体主要包括娱乐人物、影视作品、音乐作品等,并进一步细分为电影、电视剧、综艺、动漫等子类。
整体数据规模在万级左右,通常划分为训练集、验证集和测试集,适用于娱乐内容理解、推荐系统及短文本实体识别研究。
3. 电商领域命名实体识别数据集
电商领域数据集主要基于商品标题或商品描述构建,文本具有明显的"非完整句"特征。
常见实体类型包括:
- 商品名称
- 商品型号
- 品牌
- 人名
- 地名
数据规模通常在数千到数万条不等,适用于商品信息抽取、搜索理解和推荐系统等场景。
4. 金融与简历类命名实体识别数据集
该类数据多来源于企业信息或人物简历文本,语言规范性较强,实体边界清晰。
常见实体类型包括:
- 人名
- 组织名
- 职称
- 教育背景
- 专业
- 地名
- 国籍
由于文本结构相对固定,该类数据集上模型通常可以取得较高的识别精度,常被用于验证模型上限或作为领域迁移实验数据。
5. 社交媒体命名实体识别数据集
社交媒体文本具有口语化强、噪声多、语法不规范等特点,是中文 NER 中较具挑战性的场景。
实体类型一般包括:
- 人名(具体 / 泛指)
- 地址(具体 / 泛指)
- 行政区
- 组织机构
数据规模相对较小,但在鲁棒性研究、噪声文本建模方面具有重要价值。
6. 新闻语料命名实体识别数据集
新闻语料是中文 NER 研究中最经典的数据来源之一,文本结构清晰,标注规范。
常见实体类型为:
- 人名(PER)
- 地名(LOC)
- 机构名(ORG)
这类数据集通常被作为基准数据,用于模型对比、算法评测和教学示例。
7. 细粒度命名实体识别数据集
细粒度 NER 数据集在传统实体类型基础上进行了更精细的划分。
典型实体类型包括:
- 公司
- 书名
- 电影
- 游戏
- 职位
- 政府机构
- 景点
- 地址
该类数据集适用于多类别实体识别、层级标签建模以及复杂实体区分任务。
8. 医疗领域命名实体识别数据集
医疗文本是中文 NER 的重要应用场景之一,文本专业性强,对实体识别准确率要求较高。
常见实体类型包括:
- 疾病
- 症状
- 药物
- 手术
- 医学检查
- 身体部位
- 医疗设备
不同数据集在实体粒度和类别设置上存在差异,适合用于医学文本理解、临床决策支持及知识图谱构建等任务。
9. 军事与专业领域命名实体识别数据集
该类数据集主要来源于专业性较强的文本,如军事装备说明、试验鉴定报告等。
实体类型通常包括:
- 装备或试验要素
- 性能指标
- 系统组成
- 应用或任务场景
文本长度相对较长,术语密集,对模型的长文本建模能力和领域适应能力要求较高。
10. 对话系统命名实体识别数据集
对话场景中的命名实体识别通常服务于任务型系统或智能问答系统。
常见实体包括:
- 地点
- 联系人
- 时间
- 年龄
- 歌曲 / 演员
- 情绪
- 医疗相关实体(在医患对话中)
数据往往以多轮对话形式存在,实体上下文依赖较强,适合研究上下文感知型 NER 模型。
11. 商品与标题类命名实体识别数据集
该类数据集以商品标题为核心文本,实体类型数量多、标注粒度细。
特点包括:
- 实体类别数量多(数十类)
- 标签体系复杂
- 存在大量非实体字符
常用于大规模预训练、半监督学习以及工业级实体抽取任务研究。
12. 事件与实体联合标注数据集
部分数据集在实体标注的基础上,同时提供事件和关系信息。
数据通常包含:
- 实体提及
- 事件触发词
- 事件类型
- 实体之间的关系
适用于联合建模实体识别、事件抽取和关系抽取的研究方向。