规则和传统NLP之语料库

醉卧考场君莫笑2026-04-22 8:05

系列文章目录

第一章规则和传统NLP之NLP概述
 第二章规则和传统NLP之NLP任务范式
 第三章规则和传统NLP之困难和挑战

文章目录

系列文章目录
一、语料库
[二、数据来源](#二、数据来源)
[三、常用语料库介绍](#三、常用语料库介绍)

一、语料库

语料库（Corpus）是指用于语言研究的、大量的、结构化的文本或语言数据集合。它是自然语言处理（NLP）和语言学研究中的一个核心资源，通常包含从不同来源收集的文本数据，旨在帮助研究人员分析语言的规律、构建语言模型、训练机器学习算法等。

二、数据来源

语料库可以包括各种类型的文本，常见的来源包括：

书籍、文章：文学作品、学术文章、报纸和杂志。
网页内容：从互联网抓取的网页、博客、论坛等。
对话数据：口语或书面对话、社交媒体对话、电影剧本等。
法律、医学、技术文档：专业领域的文献、手册、法规等。
语音数据：通过转录过程将语音数据转换为文本。

三、常用语料库介绍

北京大学计算机语言所语料库标记（中文），地址：http://opendata.pku.edu.cn/dataverse/icl
London-Lund英语口语语料库，地址：http://www.helsinki.fi/varieng/CoRD/corpora.LLC/
腾讯中文语料库。包含800多万个中文词汇，其中每个词对应一个200维的向量，覆盖很多现代词汇，包括最近一两年出现的新词。采用了更大规模的数据和更好算法。
地址：https://ai.tencent.com/ailab/nlp/data/Tencent_All_ab_ChineseEmbedding.tar.gz
中文维基百科语料库。维基百科是最常用且权威的开放网络数据集之一，作为极少数人工编辑、内容丰富、格式规范的文本语料，各类语言的维基百科在NLP中广泛应用。

上一篇：Redis源码探究系列—双向链表（adlist）源码实现解析

下一篇：Vue 3开发中遇到的报错（1）

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？092026 年 AI 大模型 & AI 编程工具实战全总结 10微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新