NLP——操作步骤讲义与实践链接

数据集与语料

  • 语料是NLP的生命之源,所有NLP问题都是从语料中学到数据分布的规律
  • 语料的分类:单语料,平行语料,复杂结构
  • 语料的例子:Penn Treebank, Daily Dialog, WMT-1x翻译数据集,中文闲聊数据集,中国古诗数据集
  • 语料来源:公开数据集,爬虫,社交工具埋点,数据库,上述数据集如何获取?这里 (吐槽一下,B站的这个视频讲得很一般,浪费好几个小时时间,收获甚微,作为科普快速拉一下可以)

句子理解

用计算机处理一个句子,主要包含以下几个方面:分词词性识别命名实体识别依存句法分析

分词

分词与NLP的关系

  • 分词是中文语言特有的需求,是中文NLP的基础,没有中文分词,我们对于语言很难量化,进而很难运用数学的知识去解决问题。而对于拉丁语系是不需要分词的,因为它们有空格天然的隔开

  • 中分分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词操作的输入是句子,输出是词序列,如

  • 关于分词,可参阅B站上一个视频动手学中文分词,(这个视频还不错,理论部分讲得不是很细,但代码部分很细,通过debug帮助理解算法 )该系列课程讲解了三种分词算法及其实现、中文分词工具Jieba分词的用法,最后实现了一个简单的在线分词工具,内嵌了自研的三种算法以及调用Jieba分词工具,原视频给的百度链接无效,我跟做的Flask项目online_fenci资源:链接:百度网盘 提取码:ci07 。由于缺少原视频中css, js等样式文件,所有页面画风有点。。。丑,只能将就看。

词性识别

词性识别的输入是一个句子,输出是识别出的词性,例如,对于特朗普昨天在推特上攻击拜登这句话,在对其进行分词后,紧接着做词性识别,得出与词序列一一对应的词性序列,如:特朗普-名词人名(nh), 昨天-名词时间(nt),在-介词(p)

命名实体识别

依存句法分析

预处理

词向量模型------word2vec

词向量的通俗理解,如果用CBOWSkip-gram模型训练词向量,参阅这里

两种构建词向量的模式:CBOW模型与Skip-gram模型

Skip-gram模型

Skip-gram模型构建训练数据的方法如图,对于Thou shalt not make a machine in the likeness of a human mind这句话,用一个长度为5(一般为奇数)的滑窗在句中扫过,将input_word前2个词与后2个词作为output_word(或者叫target_word),构建出的数据集如下所示。

相关推荐
无心水几秒前
【OpenClaw:进阶开发】12、掌控每一个像素:OpenClaw + CDP 打造无界浏览器自动化
人工智能·cdp·openclaw·ai前沿·养龙虾·无界浏览器
飞升不如收破烂~9 分钟前
Transformer 架构:用「工厂流水线」讲透(无代码、纯人话)
人工智能·深度学习·transformer
八角Z11 分钟前
AI价值跃迁的核心:输出责任转移与新兴工种的精准重塑
大数据·人工智能·科技·机器学习·计算机视觉·服务发现
Σίσυφος190014 分钟前
傅里叶变换
人工智能·机器学习
林姜泽樾14 分钟前
腾讯workbuddy接入QQ,制作AI智能助手
人工智能·ai
阿拉斯攀登16 分钟前
第八篇(终篇):选型指南——开源 vs 闭源、国内 vs 国外
人工智能·机器学习·ai·大模型·ollma
qq_4542450320 分钟前
AI模块化工作流的基石:三要素双向生成与可信存储机制
人工智能·架构
ZKNOW甄知科技21 分钟前
深度对标ServiceNow:燕千云如何破解企业全球化运维难题?
大数据·运维·人工智能·科技·ai·自动化·运维开发
回家路上绕了弯24 分钟前
Claude Code Agent Team 全解析:AI 集群协作,重构代码开发新范式
人工智能·分布式·后端
工业甲酰苯胺32 分钟前
深度学习核心训练逻辑:自迭代五步法深度解析与实践
人工智能·深度学习