中文命名实体识别(NER)数据集全面整理

下载地址链接https://pan.quark.cn/s/8e8b0b7c67b1

命名实体识别(Named Entity Recognition,NER)是自然语言处理中的基础任务之一,目标是在文本中识别具有特定语义的实体,并将其归入预定义的类别,如人名、地名、机构名、时间、产品等。

在中文 NER 研究与实际应用中,数据集的质量与领域覆盖范围对模型效果具有决定性影响。本文对公开可获取的中文命名实体识别数据集进行了系统梳理,涵盖通用文本、社交媒体、电商、金融、医疗、军事、对话等多个应用场景,供学习和研究参考。


2. 文娱领域命名实体识别数据集

该类数据主要来源于视频与娱乐相关文本,文本长度较短,但实体类型具有明显领域特征。

数据集中实体主要包括娱乐人物、影视作品、音乐作品等,并进一步细分为电影、电视剧、综艺、动漫等子类。

整体数据规模在万级左右,通常划分为训练集、验证集和测试集,适用于娱乐内容理解、推荐系统及短文本实体识别研究。


3. 电商领域命名实体识别数据集

电商领域数据集主要基于商品标题或商品描述构建,文本具有明显的"非完整句"特征。

常见实体类型包括:

  • 商品名称
  • 商品型号
  • 品牌
  • 人名
  • 地名

数据规模通常在数千到数万条不等,适用于商品信息抽取、搜索理解和推荐系统等场景。


4. 金融与简历类命名实体识别数据集

该类数据多来源于企业信息或人物简历文本,语言规范性较强,实体边界清晰。

常见实体类型包括:

  • 人名
  • 组织名
  • 职称
  • 教育背景
  • 专业
  • 地名
  • 国籍

由于文本结构相对固定,该类数据集上模型通常可以取得较高的识别精度,常被用于验证模型上限或作为领域迁移实验数据。


5. 社交媒体命名实体识别数据集

社交媒体文本具有口语化强、噪声多、语法不规范等特点,是中文 NER 中较具挑战性的场景。

实体类型一般包括:

  • 人名(具体 / 泛指)
  • 地址(具体 / 泛指)
  • 行政区
  • 组织机构

数据规模相对较小,但在鲁棒性研究、噪声文本建模方面具有重要价值。


6. 新闻语料命名实体识别数据集

新闻语料是中文 NER 研究中最经典的数据来源之一,文本结构清晰,标注规范。

常见实体类型为:

  • 人名(PER)
  • 地名(LOC)
  • 机构名(ORG)

这类数据集通常被作为基准数据,用于模型对比、算法评测和教学示例。


7. 细粒度命名实体识别数据集

细粒度 NER 数据集在传统实体类型基础上进行了更精细的划分。

典型实体类型包括:

  • 公司
  • 书名
  • 电影
  • 游戏
  • 职位
  • 政府机构
  • 景点
  • 地址

该类数据集适用于多类别实体识别、层级标签建模以及复杂实体区分任务。


8. 医疗领域命名实体识别数据集

医疗文本是中文 NER 的重要应用场景之一,文本专业性强,对实体识别准确率要求较高。

常见实体类型包括:

  • 疾病
  • 症状
  • 药物
  • 手术
  • 医学检查
  • 身体部位
  • 医疗设备

不同数据集在实体粒度和类别设置上存在差异,适合用于医学文本理解、临床决策支持及知识图谱构建等任务。


9. 军事与专业领域命名实体识别数据集

该类数据集主要来源于专业性较强的文本,如军事装备说明、试验鉴定报告等。

实体类型通常包括:

  • 装备或试验要素
  • 性能指标
  • 系统组成
  • 应用或任务场景

文本长度相对较长,术语密集,对模型的长文本建模能力和领域适应能力要求较高。


10. 对话系统命名实体识别数据集

对话场景中的命名实体识别通常服务于任务型系统或智能问答系统。

常见实体包括:

  • 地点
  • 联系人
  • 时间
  • 年龄
  • 歌曲 / 演员
  • 情绪
  • 医疗相关实体(在医患对话中)

数据往往以多轮对话形式存在,实体上下文依赖较强,适合研究上下文感知型 NER 模型。


11. 商品与标题类命名实体识别数据集

该类数据集以商品标题为核心文本,实体类型数量多、标注粒度细。

特点包括:

  • 实体类别数量多(数十类)
  • 标签体系复杂
  • 存在大量非实体字符

常用于大规模预训练、半监督学习以及工业级实体抽取任务研究。


12. 事件与实体联合标注数据集

部分数据集在实体标注的基础上,同时提供事件和关系信息。

数据通常包含:

  • 实体提及
  • 事件触发词
  • 事件类型
  • 实体之间的关系

适用于联合建模实体识别、事件抽取和关系抽取的研究方向。


相关推荐
程序猿追31 分钟前
深度解码昇腾 AI 算力引擎:CANN Runtime 核心架构与技术演进
人工智能·架构
金融RPA机器人丨实在智能31 分钟前
Android Studio开发App项目进入AI深水区:实在智能Agent引领无代码交互革命
android·人工智能·ai·android studio
lili-felicity35 分钟前
CANN异步推理实战:从Stream管理到流水线优化
大数据·人工智能
做人不要太理性35 分钟前
CANN Runtime 运行时组件深度解析:任务下沉执行、异构内存规划与全栈维测诊断机制
人工智能·神经网络·魔珐星云
不爱学英文的码字机器36 分钟前
破壁者:CANN ops-nn 仓库与昇腾 AI 算子优化的工程哲学
人工智能
晚霞的不甘39 分钟前
CANN 编译器深度解析:TBE 自定义算子开发实战
人工智能·架构·开源·音视频
愚公搬代码39 分钟前
【愚公系列】《AI短视频创作一本通》016-AI短视频的生成(AI短视频运镜方法)
人工智能·音视频
哈__39 分钟前
CANN内存管理与资源优化
人工智能·pytorch
极新40 分钟前
智启新篇,智创未来,“2026智造新IP:AI驱动品牌增长新周期”峰会暨北京电子商务协会第五届第三次会员代表大会成功举办
人工智能·网络协议·tcp/ip
island131442 分钟前
CANN GE(图引擎)深度解析:计算图优化管线、内存静态规划与异构任务的 Stream 调度机制
开发语言·人工智能·深度学习·神经网络