中文命名实体识别(NER)数据集全面整理

下载地址链接https://pan.quark.cn/s/8e8b0b7c67b1

命名实体识别(Named Entity Recognition,NER)是自然语言处理中的基础任务之一,目标是在文本中识别具有特定语义的实体,并将其归入预定义的类别,如人名、地名、机构名、时间、产品等。

在中文 NER 研究与实际应用中,数据集的质量与领域覆盖范围对模型效果具有决定性影响。本文对公开可获取的中文命名实体识别数据集进行了系统梳理,涵盖通用文本、社交媒体、电商、金融、医疗、军事、对话等多个应用场景,供学习和研究参考。


2. 文娱领域命名实体识别数据集

该类数据主要来源于视频与娱乐相关文本,文本长度较短,但实体类型具有明显领域特征。

数据集中实体主要包括娱乐人物、影视作品、音乐作品等,并进一步细分为电影、电视剧、综艺、动漫等子类。

整体数据规模在万级左右,通常划分为训练集、验证集和测试集,适用于娱乐内容理解、推荐系统及短文本实体识别研究。


3. 电商领域命名实体识别数据集

电商领域数据集主要基于商品标题或商品描述构建,文本具有明显的"非完整句"特征。

常见实体类型包括:

  • 商品名称
  • 商品型号
  • 品牌
  • 人名
  • 地名

数据规模通常在数千到数万条不等,适用于商品信息抽取、搜索理解和推荐系统等场景。


4. 金融与简历类命名实体识别数据集

该类数据多来源于企业信息或人物简历文本,语言规范性较强,实体边界清晰。

常见实体类型包括:

  • 人名
  • 组织名
  • 职称
  • 教育背景
  • 专业
  • 地名
  • 国籍

由于文本结构相对固定,该类数据集上模型通常可以取得较高的识别精度,常被用于验证模型上限或作为领域迁移实验数据。


5. 社交媒体命名实体识别数据集

社交媒体文本具有口语化强、噪声多、语法不规范等特点,是中文 NER 中较具挑战性的场景。

实体类型一般包括:

  • 人名(具体 / 泛指)
  • 地址(具体 / 泛指)
  • 行政区
  • 组织机构

数据规模相对较小,但在鲁棒性研究、噪声文本建模方面具有重要价值。


6. 新闻语料命名实体识别数据集

新闻语料是中文 NER 研究中最经典的数据来源之一,文本结构清晰,标注规范。

常见实体类型为:

  • 人名(PER)
  • 地名(LOC)
  • 机构名(ORG)

这类数据集通常被作为基准数据,用于模型对比、算法评测和教学示例。


7. 细粒度命名实体识别数据集

细粒度 NER 数据集在传统实体类型基础上进行了更精细的划分。

典型实体类型包括:

  • 公司
  • 书名
  • 电影
  • 游戏
  • 职位
  • 政府机构
  • 景点
  • 地址

该类数据集适用于多类别实体识别、层级标签建模以及复杂实体区分任务。


8. 医疗领域命名实体识别数据集

医疗文本是中文 NER 的重要应用场景之一,文本专业性强,对实体识别准确率要求较高。

常见实体类型包括:

  • 疾病
  • 症状
  • 药物
  • 手术
  • 医学检查
  • 身体部位
  • 医疗设备

不同数据集在实体粒度和类别设置上存在差异,适合用于医学文本理解、临床决策支持及知识图谱构建等任务。


9. 军事与专业领域命名实体识别数据集

该类数据集主要来源于专业性较强的文本,如军事装备说明、试验鉴定报告等。

实体类型通常包括:

  • 装备或试验要素
  • 性能指标
  • 系统组成
  • 应用或任务场景

文本长度相对较长,术语密集,对模型的长文本建模能力和领域适应能力要求较高。


10. 对话系统命名实体识别数据集

对话场景中的命名实体识别通常服务于任务型系统或智能问答系统。

常见实体包括:

  • 地点
  • 联系人
  • 时间
  • 年龄
  • 歌曲 / 演员
  • 情绪
  • 医疗相关实体(在医患对话中)

数据往往以多轮对话形式存在,实体上下文依赖较强,适合研究上下文感知型 NER 模型。


11. 商品与标题类命名实体识别数据集

该类数据集以商品标题为核心文本,实体类型数量多、标注粒度细。

特点包括:

  • 实体类别数量多(数十类)
  • 标签体系复杂
  • 存在大量非实体字符

常用于大规模预训练、半监督学习以及工业级实体抽取任务研究。


12. 事件与实体联合标注数据集

部分数据集在实体标注的基础上,同时提供事件和关系信息。

数据通常包含:

  • 实体提及
  • 事件触发词
  • 事件类型
  • 实体之间的关系

适用于联合建模实体识别、事件抽取和关系抽取的研究方向。


相关推荐
Roselind_Yi12 小时前
池化对比:CNN池化 VS Java线程池
java·人工智能·经验分享·笔记·深度学习·神经网络·cnn
动物园猫12 小时前
人群计数行人检测数据集分享(适用于YOLO系列深度学习检测任务)
人工智能·深度学习·yolo
心中有国也有家12 小时前
hixl:昇腾分布式推理的「快递专线」
人工智能·经验分享·笔记·分布式·学习·算法
创世宇图13 小时前
【AI入门知识点】Harness 是什么?为什么 DeepSeek 要组建 Harness 团队?
人工智能·ai·harness
Henry-SAP13 小时前
SAP MRP核心概念与学习路线解析
人工智能·sap
Terrence Shen15 小时前
Agent面试八股文(系列之二)
人工智能·大模型·agent·rag
爱睡懒觉的焦糖玛奇朵19 小时前
【从视频到数据集:焦糖玛奇朵的魔法工具使用说明】
人工智能·python·深度学习·学习·算法·yolo·音视频
oy_mail19 小时前
2026教程:用Gemini解决PCB设计与EMC/EMI问题,工程师效率跃升指南(国内直访)
人工智能
Runawayliquor19 小时前
opbase:CANN 所有算子的公共地基
大数据·数据库·人工智能·算法
英辰朗迪AI获客19 小时前
AI动态简报之算力基建篇(2026.05.22)
人工智能