中文命名实体识别(NER)数据集全面整理

下载地址链接https://pan.quark.cn/s/8e8b0b7c67b1

命名实体识别(Named Entity Recognition,NER)是自然语言处理中的基础任务之一,目标是在文本中识别具有特定语义的实体,并将其归入预定义的类别,如人名、地名、机构名、时间、产品等。

在中文 NER 研究与实际应用中,数据集的质量与领域覆盖范围对模型效果具有决定性影响。本文对公开可获取的中文命名实体识别数据集进行了系统梳理,涵盖通用文本、社交媒体、电商、金融、医疗、军事、对话等多个应用场景,供学习和研究参考。


2. 文娱领域命名实体识别数据集

该类数据主要来源于视频与娱乐相关文本,文本长度较短,但实体类型具有明显领域特征。

数据集中实体主要包括娱乐人物、影视作品、音乐作品等,并进一步细分为电影、电视剧、综艺、动漫等子类。

整体数据规模在万级左右,通常划分为训练集、验证集和测试集,适用于娱乐内容理解、推荐系统及短文本实体识别研究。


3. 电商领域命名实体识别数据集

电商领域数据集主要基于商品标题或商品描述构建,文本具有明显的"非完整句"特征。

常见实体类型包括:

  • 商品名称
  • 商品型号
  • 品牌
  • 人名
  • 地名

数据规模通常在数千到数万条不等,适用于商品信息抽取、搜索理解和推荐系统等场景。


4. 金融与简历类命名实体识别数据集

该类数据多来源于企业信息或人物简历文本,语言规范性较强,实体边界清晰。

常见实体类型包括:

  • 人名
  • 组织名
  • 职称
  • 教育背景
  • 专业
  • 地名
  • 国籍

由于文本结构相对固定,该类数据集上模型通常可以取得较高的识别精度,常被用于验证模型上限或作为领域迁移实验数据。


5. 社交媒体命名实体识别数据集

社交媒体文本具有口语化强、噪声多、语法不规范等特点,是中文 NER 中较具挑战性的场景。

实体类型一般包括:

  • 人名(具体 / 泛指)
  • 地址(具体 / 泛指)
  • 行政区
  • 组织机构

数据规模相对较小,但在鲁棒性研究、噪声文本建模方面具有重要价值。


6. 新闻语料命名实体识别数据集

新闻语料是中文 NER 研究中最经典的数据来源之一,文本结构清晰,标注规范。

常见实体类型为:

  • 人名(PER)
  • 地名(LOC)
  • 机构名(ORG)

这类数据集通常被作为基准数据,用于模型对比、算法评测和教学示例。


7. 细粒度命名实体识别数据集

细粒度 NER 数据集在传统实体类型基础上进行了更精细的划分。

典型实体类型包括:

  • 公司
  • 书名
  • 电影
  • 游戏
  • 职位
  • 政府机构
  • 景点
  • 地址

该类数据集适用于多类别实体识别、层级标签建模以及复杂实体区分任务。


8. 医疗领域命名实体识别数据集

医疗文本是中文 NER 的重要应用场景之一,文本专业性强,对实体识别准确率要求较高。

常见实体类型包括:

  • 疾病
  • 症状
  • 药物
  • 手术
  • 医学检查
  • 身体部位
  • 医疗设备

不同数据集在实体粒度和类别设置上存在差异,适合用于医学文本理解、临床决策支持及知识图谱构建等任务。


9. 军事与专业领域命名实体识别数据集

该类数据集主要来源于专业性较强的文本,如军事装备说明、试验鉴定报告等。

实体类型通常包括:

  • 装备或试验要素
  • 性能指标
  • 系统组成
  • 应用或任务场景

文本长度相对较长,术语密集,对模型的长文本建模能力和领域适应能力要求较高。


10. 对话系统命名实体识别数据集

对话场景中的命名实体识别通常服务于任务型系统或智能问答系统。

常见实体包括:

  • 地点
  • 联系人
  • 时间
  • 年龄
  • 歌曲 / 演员
  • 情绪
  • 医疗相关实体(在医患对话中)

数据往往以多轮对话形式存在,实体上下文依赖较强,适合研究上下文感知型 NER 模型。


11. 商品与标题类命名实体识别数据集

该类数据集以商品标题为核心文本,实体类型数量多、标注粒度细。

特点包括:

  • 实体类别数量多(数十类)
  • 标签体系复杂
  • 存在大量非实体字符

常用于大规模预训练、半监督学习以及工业级实体抽取任务研究。


12. 事件与实体联合标注数据集

部分数据集在实体标注的基础上,同时提供事件和关系信息。

数据通常包含:

  • 实体提及
  • 事件触发词
  • 事件类型
  • 实体之间的关系

适用于联合建模实体识别、事件抽取和关系抽取的研究方向。


相关推荐
自可乐17 小时前
n8n全面学习教程:从入门到精通的自动化工作流引擎实践指南
运维·人工智能·学习·自动化
king of code porter17 小时前
百宝箱企业版搭建智能体应用-创建应用
人工智能·大模型·智能体
HDO清风17 小时前
CASIA-HWDB2.x 数据集DGRL文件解析(python)
开发语言·人工智能·pytorch·python·目标检测·计算机视觉·restful
策知道18 小时前
依托政府工作报告准备省考【经验贴】
大数据·数据库·人工智能·搜索引擎·政务
纠结哥_Shrek18 小时前
外贸选品工程师的工作流程和方法论
python·机器学习
工程师老罗18 小时前
Pytorch如何加载和读取VOC数据集用来做目标检测?
人工智能·pytorch·目标检测
测试_AI_一辰18 小时前
Agent & RAG 测试工程05:把 RAG 的检索过程跑清楚:chunk 是什么、怎么来的、怎么被命中的
开发语言·人工智能·功能测试·自动化·ai编程
Henry-SAP18 小时前
SAP(ERP) 组织结构业务视角解析
大数据·人工智能·sap·erp·sap pp
龙腾亚太18 小时前
航空零部件加工变形难题破解:数字孪生 + 深度学习的精度控制实战
人工智能·深度学习·数字孪生·ai工程师·ai证书·转型ai
Coding茶水间18 小时前
基于深度学习的输电电力设备检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
开发语言·人工智能·深度学习·yolo·目标检测·机器学习