GALE Phase 1 Chinese Broadcast News Parallel Text - Part 1数据集介绍,官网编号LDC2007T23

GALE Phase 1 Chinese Broadcast News Parallel Text - Part 1(LDC2007T23)是 LDC 于 2007 年面向 DARPA GALE 项目发布的中 - 英平行文本语料,核心为中文广播新闻转写文本及其人工英译对,适配机器翻译(MT)训练与评测,是 GALE Phase 1 中文广播新闻平行文本的首期子库。以下是详细介绍:


基本信息

项目 详情
发布机构 Linguistic Data Consortium(LDC)
发布时间 2007 年 6 月
语种 中文(普通话)、英语
编号 LDC2007T23
语料类型 中文广播新闻转写文本 + 人工英译平行对
数据规模 约 10 万词级平行句对,覆盖新闻播报、专题报道等广播场景
核心标注 句级对齐、人工翻译质量评分、转写文本时间戳与说话人标注
数据格式 UTF - 8 文本、XML 标注文件、句对齐索引表
适配项目 DARPA GALE Phase 1,用于 MT 系统训练与基准评测

数据内容与结构

  1. 核心语料
    • 源文本:中文广播新闻转写文本,来自 CCTV、凤凰卫视等主流华语媒体,含新闻播报、访谈、专题节目等,保留口语化表达与少量口语现象(如停顿、重复),贴近真实广播场景。
    • 平行英译:专业译员完成的人工英译,确保语义准确、表达自然,适配 MT 参考标准。
    • 句对齐数据:中 - 英句子级对齐结果,标注句对映射关系,支持 MT 模型训练与对齐任务。
  2. 标注与元数据
    • 翻译标注:含翻译质量评分(如流利度、准确度)、译员 ID、标注时间等,保障数据可靠性。
    • 转写元数据:广播节目 ID、频道、时间戳、说话人信息等,便于溯源与场景化应用。
    • 索引文件:句对 ID - 文本映射表、语料统计报告,支持快速检索与数据管理。
  3. 辅助资源
    • 标注规范:明确转写、翻译、对齐的流程与标准,统一标注口径。
    • 质量报告:标注一致性统计、错误案例分析,为数据使用提供参考。

下载方法:

1、关注LDC语料小助手,回复GALE Phase 1 Chinese Broadcast News Parallel Text - Part 1

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

相关推荐
guslegend2 分钟前
第5节:动态切片策略与重叠机制提升RAG召回率
人工智能·大模型·rag
V搜xhliang02462 分钟前
AI大模型在临床决策与手术机器人领域的应用
大数据·人工智能·机器人
Captain_Data5 分钟前
Python机器学习sklearn线性模型完整指南:LinearRegression/Ridge/Lasso详细代码注释
python·机器学习·数据分析·线性回归·sklearn
爱码小白8 分钟前
MySQL 单表查询练习题汇总
数据库·python·算法
数据堂官方账号10 分钟前
数据竞赛 | 第二届多语种对话语音语言模型(MLC-SLM)挑战赛正式开启
人工智能·语言模型·自然语言处理·语音语言模型
橘颂TA10 分钟前
【笔试】算法的暴力美学——牛客 NC213140 :除2!
c++·算法·结构与算法
Agent产品评测局14 分钟前
企业数据处理自动化落地,抓取分析全流程实现方案 —— 2026企业级智能体选型与技术路径深度解析
运维·人工智能·ai·自动化
大强同学25 分钟前
对比 VS Code:Zed 编辑器编码体验全面解析
人工智能·windows·编辑器·ai编程
豆沙糕34 分钟前
RAG文档切分最佳实践:企业级方案+主流策略+生产落地
数据库·人工智能
minglie135 分钟前
zynq环境用opencv测摄像头
人工智能·opencv·计算机视觉