Chinese Treebank 5.0数据集介绍,官网编号LDC2005T01

Chinese Treebank 5.0(CTB5.0,LDC2005T01)是 LDC 于 2005 年发布的 Penn 中文句法树库,以 GB 编码提供 18,782 句新闻语料(约 50.7 万词 / 82.5 万汉字),含分词、词性、句法括号三级标注,采用双轮校验 + 部分盲注仲裁的标注流程,适配句法解析、语义角色标注、机器翻译等研发,是中文 NLP 句法建模的经典基准资源。以下从核心信息、语料构成、标注体系、应用与获取等方面展开:


一、核心基础信息

属性 详情
数据集名称 Chinese Treebank 5.0(Penn Chinese Treebank 5.0)
LDC 编号 LDC2005T01;更新版 CTB5.1(LDC2005T01U01)
开发 / 分发机构 宾夕法尼亚大学 / Brandeis University/LDC
发布时间 2005 年;2006 年发布 5.1 版(修正顶层节点错误、编码空格等)
语言 现代汉语(含大陆、香港、台湾地区新闻语体)
数据规模 18,782 句,507,222 词,824,983 汉字,890 个数据文件
语料来源 新华社、香港 / 台湾新闻(含《光华杂志》1996-1998/2000-2001)
编码格式 GB2312(5.1 版优化编码一致性)
核心用途 句法解析、词性标注、语义角色标注、机器翻译、中文 NLP 模型基线评估

二、语料采集与文件组织

  1. 采集背景:延续 Penn Treebank 体系,为中文句法处理提供标准化标注语料,支撑中文 NLP 工具研发与评测。
  2. 语料体裁:以新闻为主(通讯社、杂志),兼顾书面语规范性与真实文本多样性,适配通用与新闻领域 NLP 任务。
  3. 文件版本 :提供 4 种格式,均从括号化句法文件派生,确保数据一致性:
    • Bracketed:核心句法括号文件(chtb_nnnn.fid),含完整句法结构标注。
    • Raw:原始文本(未分词)。
    • Segmented:分词后文本。
    • Postagged:分词 + 词性标注文本。
  4. 更新说明:5.1 版修正多顶层节点、GB 编码空格等问题,提升数据质量,面向生产环境优化。

三、标注体系与质量控制

  1. 标注层级
    • 分词:按现代汉语词边界切分,适配中文无形态分隔的特点。
    • 词性标注(POS):采用 Penn 中文词性集,含 23 类词类(如 DEC/DEG 等 8 类语气词、M 量词、CC/CS 连词等),覆盖汉语虚词与句式特征。
    • 句法标注:短语结构括号标注,与 Penn English Treebank 格式一致,含 17 类短语标签(ADJP/ADVP/CLP 等)、6 类分句 / 特殊标记,支持成分句法分析。
  2. 标注流程
    • 首轮标注→二轮校验;部分文件双盲标注后仲裁,形成黄金标准文件,确保标注一致性与可靠性。
    • 标注指南公开,可用于复现标注规范与模型对齐。
  3. 数据特性:语料覆盖多地区书面语,标注粒度细、一致性高;5.1 版修复早期错误,更适配工业级应用。

四、典型应用场景

  • 句法解析器研发:作为基准训练与测试集,用于中文成分句法 / 依存句法模型开发(如 BERT + 句法解析基线)。
  • 词性标注工具优化:训练中文词性标注模型,适配新闻等书面语场景。
  • 语义角色标注(SRL):支撑论元结构抽取,服务信息抽取与机器翻译语义建模。
  • 机器翻译:用于双语句法对齐、翻译模型的语言知识注入。
  • 中文 NLP 评测:作为通用句法任务的标准测试集,评估模型泛化能力。

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

相关推荐
Rubin智造社16 小时前
OpenAI发布GPT-5.4 mini/nano,性能差距悬殊,费用直降1/12
人工智能·gpt
宸津-代码粉碎机16 小时前
SpringBoot 任务执行链路追踪实战:TraceID 透传全解析,实现从调度到执行的全链路可观测
开发语言·人工智能·spring boot·后端·python
春日见16 小时前
端到端自动驾驶技术路线(E2E)
人工智能·机器学习·docker·架构·机器人·自动驾驶·汽车
这张生成的图像能检测吗16 小时前
(论文速读)PatchTST:通道无关补丁时间序列变压器
人工智能·深度学习·神经网络·计算机视觉·注意力机制·vit·时序模型
CoderJia程序员甲16 小时前
GitHub 热榜项目 - 日榜(2026-03-19)
人工智能·ai·大模型·github·ai教程
IT_陈寒16 小时前
SpringBoot项目启动速度提升300%?这5个隐藏配置太关键了!
前端·人工智能·后端
rainy雨16 小时前
精益生产系统功能拆解:利用精益生产解决多品种小批量场景下的库存积压难题
大数据·人工智能·精益工程
小碗细面16 小时前
5 分钟上手 Claude 自定义 Subagents
前端·人工智能·ai编程
白鲸开源16 小时前
SeaTunnel × Gravitino:Schema URL 驱动的表结构自动感知方案
大数据·人工智能·开源
Narrastory16 小时前
明日香 - Pytorch 快速入门保姆级教程(七)
人工智能·pytorch·深度学习