语料库应用入门讲座

语料库应用入门讲座

引言

主要介绍语料库的概念、功能、意义和基础的方法。主要包括:

  1. 什么是语料库?语料库有什么作用?

  2. 语料库的分类有哪些?

  3. 语料库有什么功能?

  4. 常见的语料库工具有哪些?

  5. 常用的语料库语言学研究方法有哪些?

一、语料库的定义

语料库(Corpus)是一种存放语料材料的仓库,是一种按照一定的规则收集的大规模的真实文本数据集合。 它包括书面文本、口语对话、网页新闻、视频、音频等多种形式的语言材料。 常见语料库有:Brown, BNC, TEC, COCA等。 语料库语言学(corpus linguistics)就是在语料库的基础上逐步发展起来的。

二、语料库的作用

语言学研究(Linguistic Study) 语音学、语法研究、语义学分析 语言学习 翻译学习、自然语言处理(NLP) 机器翻译、文本分类、模型训练、情感分析 翻译研究和实践 翻译研究 支持翻译专业的学习和实践 提供上下文信息,学习翻译、提高翻译质量。

三、语料库的建设工具

语料库建设工具是一种专门用于构建语言数据库的软件,它可以帮助语言学家、文本分析专家等研究人员快速、准确地收集、整理、标注和分析大量的文本数据。 文本采集工具:如爬虫程序、八爪鱼采集器,teleport pro, webscrapper, data instant scrapper 格式转换工具:AbbyFineReader 15, WPS, 百度图片识别API,天诺识别,白描, CS扫描全能王 文本清洗工具:Emeditor, 文本整理器器V5.0,Editpad, PowerGREP

四、语料库检索工具

Emeditor/ Editpad 文本处理和清洗工具 2. AntConc 4.2.2 简易而实用的免费语料库工具 3. WordSmith 8 强大而专业的语料库工具 4. Wordless 3.3 由上海外国语大学博士叶磊发明的语料库工具集

五、语料库量化指标

1. 词云图

2. 索引行 Concordance

3. N元组-词簇

4. Collocate 搭配信息

5. Wordlist 词频表

6. 关键词表 Keyword List

六、语料库入门书籍推荐

1. 语料库应用教程

2. 语料库辅助英语教学入门

3. 语料库辅助中学英语教学案例选编

4. 语料库语言学实用入门教程

七、参考文献

梁茂成等. 语料库应用教程[M].北京: 外语教学与研究出版社.2010.

何安平等. 语料库辅助中学英语教学案例选编[M]. 北京: 外语教学与研究出版社.2020. martinweisser, http://martinweisser.org/courses/intro/corpusLing.html\[OL\].2023.9

Barnbrook, Geoff. (1996). Language and Computers. Edinburgh: EUP. Kennedy, G. (1998).

An Introduction to Corpus Linguistics. London: Longman.

McEnery, T. & Wilson, A. (2001). Corpus Linguistics (2nd ed.). Edinburgh: EUP.

相关推荐
救救孩子把11 分钟前
3-机器学习与大模型开发数学教程-第0章 预备知识-0-3 函数初步(多项式、指数、对数、三角函数、反函数)
人工智能·数学·机器学习
CareyWYR11 分钟前
每周AI论文速递(250908-250912)
人工智能
张晓~1833994812112 分钟前
短视频矩阵源码-视频剪辑+AI智能体开发接入技术分享
c语言·c++·人工智能·矩阵·c#·php·音视频
deephub40 分钟前
量子机器学习入门:三种数据编码方法对比与应用
人工智能·机器学习·量子计算·数据编码·量子机器学习
AI 嗯啦43 分钟前
计算机视觉----opencv实战----指纹识别的案例
人工智能·opencv·计算机视觉
max5006001 小时前
基于多元线性回归、随机森林与神经网络的农作物元素含量预测及SHAP贡献量分析
人工智能·python·深度学习·神经网络·随机森林·线性回归·transformer
trsoliu1 小时前
前端基于 TypeScript 使用 Mastra 来开发一个 AI 应用 / AI 代理(Agent)
前端·人工智能
白掰虾1 小时前
STM32N6&AI资料汇总
人工智能·stm32·嵌入式硬件·stm32n6·stm32ai
爱思德学术2 小时前
中国计算机学会(CCF)推荐学术会议-C(软件工程/系统软件/程序设计语言):MSR 2026
人工智能·机器学习·软件工程·数据科学
小李独爱秋2 小时前
特征值优化:机器学习中的数学基石
人工智能·python·线性代数·机器学习·数学建模