Chinese Treebank 5.0数据集介绍，官网编号LDC2005T01

ldccorpora2026-01-13 8:52

Chinese Treebank 5.0（CTB5.0，LDC2005T01）是 LDC 于 2005 年发布的 Penn 中文句法树库，以 GB 编码提供 18,782 句新闻语料（约 50.7 万词 / 82.5 万汉字），含分词、词性、句法括号三级标注，采用双轮校验 + 部分盲注仲裁的标注流程，适配句法解析、语义角色标注、机器翻译等研发，是中文 NLP 句法建模的经典基准资源。以下从核心信息、语料构成、标注体系、应用与获取等方面展开：

一、核心基础信息

属性	详情
数据集名称	Chinese Treebank 5.0（Penn Chinese Treebank 5.0）
LDC 编号	LDC2005T01；更新版 CTB5.1（LDC2005T01U01）
开发 / 分发机构	宾夕法尼亚大学 / Brandeis University/LDC
发布时间	2005 年；2006 年发布 5.1 版（修正顶层节点错误、编码空格等）
语言	现代汉语（含大陆、香港、台湾地区新闻语体）
数据规模	18,782 句，507,222 词，824,983 汉字，890 个数据文件
语料来源	新华社、香港 / 台湾新闻（含《光华杂志》1996-1998/2000-2001）
编码格式	GB2312（5.1 版优化编码一致性）
核心用途	句法解析、词性标注、语义角色标注、机器翻译、中文 NLP 模型基线评估

二、语料采集与文件组织

采集背景：延续 Penn Treebank 体系，为中文句法处理提供标准化标注语料，支撑中文 NLP 工具研发与评测。
语料体裁：以新闻为主（通讯社、杂志），兼顾书面语规范性与真实文本多样性，适配通用与新闻领域 NLP 任务。
文件版本 ：提供 4 种格式，均从括号化句法文件派生，确保数据一致性：
- Bracketed：核心句法括号文件（chtb_nnnn.fid），含完整句法结构标注。
- Raw：原始文本（未分词）。
- Segmented：分词后文本。
- Postagged：分词 + 词性标注文本。
更新说明：5.1 版修正多顶层节点、GB 编码空格等问题，提升数据质量，面向生产环境优化。

三、标注体系与质量控制

标注层级
- 分词：按现代汉语词边界切分，适配中文无形态分隔的特点。
- 词性标注（POS）：采用 Penn 中文词性集，含 23 类词类（如 DEC/DEG 等 8 类语气词、M 量词、CC/CS 连词等），覆盖汉语虚词与句式特征。
- 句法标注：短语结构括号标注，与 Penn English Treebank 格式一致，含 17 类短语标签（ADJP/ADVP/CLP 等）、6 类分句 / 特殊标记，支持成分句法分析。
标注流程
- 首轮标注→二轮校验；部分文件双盲标注后仲裁，形成黄金标准文件，确保标注一致性与可靠性。
- 标注指南公开，可用于复现标注规范与模型对齐。
数据特性：语料覆盖多地区书面语，标注粒度细、一致性高；5.1 版修复早期错误，更适配工业级应用。

四、典型应用场景

句法解析器研发：作为基准训练与测试集，用于中文成分句法 / 依存句法模型开发（如 BERT + 句法解析基线）。
词性标注工具优化：训练中文词性标注模型，适配新闻等书面语场景。
语义角色标注（SRL）：支撑论元结构抽取，服务信息抽取与机器翻译语义建模。
机器翻译：用于双语句法对齐、翻译模型的语言知识注入。
中文 NLP 评测：作为通用句法任务的标准测试集，评估模型泛化能力。

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

上一篇：物理信息神经网络（PINN）：AI与物理定律的融合新范式

下一篇：ConcurrentHashMap源码分析

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 102026 年 AI 大模型 & AI 编程工具实战全总结