系列文章目录
第一章 规则和传统NLP之NLP概述
第二章 规则和传统NLP之NLP任务范式
第三章 规则和传统NLP之困难和挑战
文章目录
一、语料库
语料库(Corpus)是指用于语言研究的、大量的、结构化的文本或语言数据集合。它是自然语言处理(NLP)和语言学研究中的一个核心资源,通常包含从不同来源收集的文本数据,旨在帮助研究人员分析语言的规律、构建语言模型、训练机器学习算法等。
二、 数据来源
语料库可以包括各种类型的文本,常见的来源包括:
- 书籍、文章:文学作品、学术文章、报纸和杂志。
- 网页内容:从互联网抓取的网页、博客、论坛等。
- 对话数据:口语或书面对话、社交媒体对话、电影剧本等。
- 法律、医学、技术文档:专业领域的文献、手册、法规等。
- 语音数据:通过转录过程将语音数据转换为文本。
三、 常用语料库介绍
- 北京大学计算机语言所语料库标记(中文),地址:http://opendata.pku.edu.cn/dataverse/icl
- London-Lund英语口语语料库,地址:http://www.helsinki.fi/varieng/CoRD/corpora.LLC/
- 腾讯中文语料库。包含800多万个中文词汇,其中每个词对应一个200维的向量,覆盖很多现代词汇,包括最近一两年出现的新词。采用了更大规模的数据和更好算法。
地址:https://ai.tencent.com/ailab/nlp/data/Tencent_All_ab_ChineseEmbedding.tar.gz - 中文维基百科语料库。维基百科是最常用且权威的开放网络数据集之一,作为极少数人工编辑、内容丰富、格式规范的文本语料,各类语言的维基百科在NLP中广泛应用。