中文命名实体识别(NER)数据集全面整理

下载地址链接https://pan.quark.cn/s/8e8b0b7c67b1

命名实体识别(Named Entity Recognition,NER)是自然语言处理中的基础任务之一,目标是在文本中识别具有特定语义的实体,并将其归入预定义的类别,如人名、地名、机构名、时间、产品等。

在中文 NER 研究与实际应用中,数据集的质量与领域覆盖范围对模型效果具有决定性影响。本文对公开可获取的中文命名实体识别数据集进行了系统梳理,涵盖通用文本、社交媒体、电商、金融、医疗、军事、对话等多个应用场景,供学习和研究参考。


2. 文娱领域命名实体识别数据集

该类数据主要来源于视频与娱乐相关文本,文本长度较短,但实体类型具有明显领域特征。

数据集中实体主要包括娱乐人物、影视作品、音乐作品等,并进一步细分为电影、电视剧、综艺、动漫等子类。

整体数据规模在万级左右,通常划分为训练集、验证集和测试集,适用于娱乐内容理解、推荐系统及短文本实体识别研究。


3. 电商领域命名实体识别数据集

电商领域数据集主要基于商品标题或商品描述构建,文本具有明显的"非完整句"特征。

常见实体类型包括:

  • 商品名称
  • 商品型号
  • 品牌
  • 人名
  • 地名

数据规模通常在数千到数万条不等,适用于商品信息抽取、搜索理解和推荐系统等场景。


4. 金融与简历类命名实体识别数据集

该类数据多来源于企业信息或人物简历文本,语言规范性较强,实体边界清晰。

常见实体类型包括:

  • 人名
  • 组织名
  • 职称
  • 教育背景
  • 专业
  • 地名
  • 国籍

由于文本结构相对固定,该类数据集上模型通常可以取得较高的识别精度,常被用于验证模型上限或作为领域迁移实验数据。


5. 社交媒体命名实体识别数据集

社交媒体文本具有口语化强、噪声多、语法不规范等特点,是中文 NER 中较具挑战性的场景。

实体类型一般包括:

  • 人名(具体 / 泛指)
  • 地址(具体 / 泛指)
  • 行政区
  • 组织机构

数据规模相对较小,但在鲁棒性研究、噪声文本建模方面具有重要价值。


6. 新闻语料命名实体识别数据集

新闻语料是中文 NER 研究中最经典的数据来源之一,文本结构清晰,标注规范。

常见实体类型为:

  • 人名(PER)
  • 地名(LOC)
  • 机构名(ORG)

这类数据集通常被作为基准数据,用于模型对比、算法评测和教学示例。


7. 细粒度命名实体识别数据集

细粒度 NER 数据集在传统实体类型基础上进行了更精细的划分。

典型实体类型包括:

  • 公司
  • 书名
  • 电影
  • 游戏
  • 职位
  • 政府机构
  • 景点
  • 地址

该类数据集适用于多类别实体识别、层级标签建模以及复杂实体区分任务。


8. 医疗领域命名实体识别数据集

医疗文本是中文 NER 的重要应用场景之一,文本专业性强,对实体识别准确率要求较高。

常见实体类型包括:

  • 疾病
  • 症状
  • 药物
  • 手术
  • 医学检查
  • 身体部位
  • 医疗设备

不同数据集在实体粒度和类别设置上存在差异,适合用于医学文本理解、临床决策支持及知识图谱构建等任务。


9. 军事与专业领域命名实体识别数据集

该类数据集主要来源于专业性较强的文本,如军事装备说明、试验鉴定报告等。

实体类型通常包括:

  • 装备或试验要素
  • 性能指标
  • 系统组成
  • 应用或任务场景

文本长度相对较长,术语密集,对模型的长文本建模能力和领域适应能力要求较高。


10. 对话系统命名实体识别数据集

对话场景中的命名实体识别通常服务于任务型系统或智能问答系统。

常见实体包括:

  • 地点
  • 联系人
  • 时间
  • 年龄
  • 歌曲 / 演员
  • 情绪
  • 医疗相关实体(在医患对话中)

数据往往以多轮对话形式存在,实体上下文依赖较强,适合研究上下文感知型 NER 模型。


11. 商品与标题类命名实体识别数据集

该类数据集以商品标题为核心文本,实体类型数量多、标注粒度细。

特点包括:

  • 实体类别数量多(数十类)
  • 标签体系复杂
  • 存在大量非实体字符

常用于大规模预训练、半监督学习以及工业级实体抽取任务研究。


12. 事件与实体联合标注数据集

部分数据集在实体标注的基础上,同时提供事件和关系信息。

数据通常包含:

  • 实体提及
  • 事件触发词
  • 事件类型
  • 实体之间的关系

适用于联合建模实体识别、事件抽取和关系抽取的研究方向。


相关推荐
2401_841495642 小时前
知识工程:人工智能从通用求解到知识驱动的演进基石
人工智能·自然语言处理·知识图谱·语义网络·状态空间·知识工程·自然语言理解
西安同步高经理2 小时前
秒表实现自动化测量助力时频测量行业发展、秒表检定仪、毫秒表测量仪
人工智能·算法
非著名架构师2 小时前
超级工程的“数字风洞”:高精度AI气象如何在数字孪生中预演台风、暴雪,确保重大基础设施全生命周期安全?
人工智能·智慧农业·灾害预警·galeweather.cn·ai气象模型·高精度农业气象
延凡科技2 小时前
延凡智慧水库系统:数字孪生+AI驱动水库安全与智能调度
人工智能·安全
magic_ll2 小时前
【yolo系列】yolov10的结构解析、一致性双重分配
人工智能
Christo32 小时前
2024《Three-way clustering: Foundations, survey and challenges》
人工智能·算法·机器学习·数据挖掘
言之。3 小时前
Claude Code IDE 集成工作原理详解
ide·人工智能
肥猪猪爸3 小时前
计算机视觉中的Mask是干啥的
图像处理·人工智能·深度学习·神经网络·目标检测·计算机视觉·视觉检测
yiersansiwu123d3 小时前
工程化破局,2025年AI大模型的价值兑现之路
人工智能