如何构建自己高质量语料库？

Legend NO242025-12-31 12:19

语料库一词译自英文"corpus（复数常用corpora）。

语料库语言学家辛克莱将其定义为"按照一定的采样标准采集而来的、能够代表一种语言或某语言的一种变体或文类的电子文本"。

语料通常都会以txt格式保存。

如果是书面语料，需要先扫描将其转成电子版，然后通过OCR识别，再自行校对和格式转换；

如果是语音语料，则需要首先进行转写，再进行后续步骤；

而如果已经是电子语料（如pdf，mobi，html等）则直接进行格式转换即可。

OCR识别工具推荐：ABBYYFineReader2，天若文字识别，Adobe Acrobat Pro DC等。

格式转换工具推荐：Adobe Acrobat Pro DC，或网站Aconvert，iLovePDF，Convertio等。

语料的预处理，对语料进行校对降噪。

在这个过程中，我们需要把整理好的文本中多余的空格、空行、回车、乱码、错别字、以及其他不需要的信息（包括附录，表格，前言等）都去除掉。

推荐工具：MS Word和EmEditor

在语料清洗的过程中，正则表达式是一个好帮手，在一些语料清洗工具中也提供了快捷键，不需要手动输入正则表达式，且能满足不少大家的需要。

分词（tokenization）是指将一串字符转换成可以分析，容易识别的形符（token）------也就是词语------的过程；

标注（annotation）是指将文本中的词语按照各种属性（part of speech）进行标注；

但是请注意，对于汉语来说，分词是必须的，因为汉语的词语之间没有明显分隔，不进行分词的话难以识别分析；而标注不是必需步骤，在有需要时进行即可。

截止以上前三步，语料的加工基本已经完成，但如果你的语料是双语或多语，则需要对其进行对齐处理。

对齐是指将多语言语料实现句子的-一对应，也可以实现段落的-一对应，以形成规范的语对。对齐推荐工具:memoQ，Tmxmall等。