如何构建自己高质量语料库?

语料库一词译自英文"corpus(复数常用corpora)。

语料库语言学家辛克莱将其定义为"按照一定的采样标准采集而来的、能够代表一种语言或某语言的一种变体或文类的电子文本"。

语料收集整理

语料通常都会以txt格式保存。

如果是书面语料,需要先扫描将其转成电子版,然后通过OCR识别,再自行校对和格式转换;

如果是语音语料,则需要首先进行转写,再进行后续步骤;

而如果已经是电子语料(如pdf,mobi,html等)则直接进行格式转换即可。

OCR识别工具推荐:ABBYYFineReader2,天若文字识别,Adobe Acrobat Pro DC等。

格式转换工具推荐:Adobe Acrobat Pro DC,或网站Aconvert,iLovePDF,Convertio等。

语料清洗

语料的预处理,对语料进行校对降噪。

在这个过程中,我们需要把整理好的文本中多余的空格、空行、回车、乱码、错别字、以及其他不需要的信息(包括附录,表格,前言等)都去除掉。

推荐工具:MS Word和EmEditor

在语料清洗的过程中,正则表达式是一个好帮手,在一些语料清洗工具中也提供了快捷键,不需要手动输入正则表达式,且能满足不少大家的需要。

分词标注

分词(tokenization)是指将一串字符转换成可以分析,容易识别的形符(token)------也就是词语------的过程;

标注(annotation)是指将文本中的词语按照各种属性(part of speech)进行标注;

但是请注意,对于汉语来说,分词是必须的,因为汉语的词语之间没有明显分隔,不进行分词的话难以识别分析;而标注不是必需步骤,在有需要时进行即可。

截止以上前三步,语料的加工基本已经完成,但如果你的语料是双语或多语,则需要对其进行对齐处理。

对齐是指将多语言语料实现句子的-一对应,也可以实现段落的-一对应,以形成规范的语对。对齐推荐工具:memoQ,Tmxmall等。

相关推荐
KIKIiiiiiiii1 分钟前
微信个人号API二次开发中的解决经验
java·人工智能·python·微信
哈哈你是真的厉害4 分钟前
解构 AIGC 的“核动力”引擎:华为 CANN 如何撑起万亿参数的大模型时代
人工智能·aigc·cann
Ekehlaft5 分钟前
这款国产 AI,让 Python 小白也能玩转编程
开发语言·人工智能·python·ai·aipy
哈__6 分钟前
CANN多模型并发部署方案
人工智能·pytorch
予枫的编程笔记8 分钟前
【Linux入门篇】Linux运维必学:Vim核心操作详解,告别编辑器依赖
linux·人工智能·linux运维·vim操作教程·程序员工具·编辑器技巧·新手学vim
慢半拍iii9 分钟前
对比分析:ops-nn与传统深度学习框架算子的差异
人工智能·深度学习·ai·cann
心疼你的一切11 分钟前
解构CANN仓库:AIGC API从底层逻辑到实战落地,解锁国产化AI生成算力
数据仓库·人工智能·深度学习·aigc·cann
啊阿狸不会拉杆19 分钟前
《机器学习导论》第 5 章-多元方法
人工智能·python·算法·机器学习·numpy·matplotlib·多元方法
薯一个蜂蜜牛奶味的愿19 分钟前
模块化显示神经网络结构的可视化工具--BlockShow
人工智能·深度学习·神经网络
班德先生23 分钟前
深耕多赛道品牌全案策划,为科技与时尚注入商业表达力
大数据·人工智能·科技