词向量化和文本向量化,KMeans

文本向量化

文本是由词和字组成的,想将文本转化为向量,首先要能够把词和字转化为向量

所有向量应该由同一维度n,我们可以称这个n维空间是一个语义空间

one - hot 编码

首先统计一个字表或词表,选出n个字或词

在对文本向量化时,也可以考虑词频

不错 0,0,0,1,0

不错不错0,0,0,2,0

有时也可以不事先准备词表,临时构建

如做文本对比任务,成对输入,此时维度可随时变化

one-hot编码 - 缺点:

1.如果有很多词,编码维度会很高,而且向量十分稀疏(大部分位置是零),计算负担很大

2.编码向量不能反映字词之间的语义相似性,只能做到区分

词向量-word2vec

我们希望得到一种词向量,使得向量关系能反映语义关系,比如:

cos(你好,您好)>cos(你好,天气)

即词义的相似性反映在向量的相似性

词向量- 基于语言模型

1.作出假设:

每段文本中的某一个词,由它前面n个词决定

模型是怎么做到输入一段文字,模型能预测出下一个字呢

word2vec 基于窗口

1.做出假设:

如果两个词在文本中出现时,它的前后出现的词相似,则这两个词语义相似

不过也有问题 比如 我开心了一天,和我难过了一天·

词如何训练:

基于前述思想,我们尝试用窗口的词(或者说周围此)来表示(预测)中间词

CBOW模型

窗口: 你想(明白)了吗

输入:你想了吗

输出: 明白

或用中间词来表示周围词

SkipGram模型

窗口: 你想(明白)了吗

(输入,输出):

(明白,你)(明白,想) (明白,了)(明白,吗)

基于Huffman树的方法:

什么是Huffman树

  1. 不同词编码不同

  2. 每个词的编码不会成为另一个词编码的前缀

即如果某个词编码为011,则不能有词的编码是 0111或0110或011001等

  1. 构造出的词编码总体长度最小,且越高词频编码越短

如何构建

  1. 选取词频最低的两个节点,词频更低的放在左侧,较低的放在右侧,形成一个二叉树,顶点的值记录为二者频率之和

  2. 选择剩余词中词频最小的,将其与前两个词之和对比,仍然是小的放在左侧,形成树

形成如下

那怎么用于词向量的训练呢

我们之前要找一个,就比如他们,我们需要从7个词或字里面选,但现在只需要进行5次二分类就可以

Glove基于共现矩阵

共现概率:

Pij = P(j|i) = xij / xi

词j出现在词i周围的概率,被称为词i和词j的共现概率 P(天气|今天) = 2/2 = 1

空格代表切分

词向量训练总结

一 : 根据词与词之间关系的某种假设,指定训练目标

二: 设定模型,以词向量为输入

三:随机初始化词向量,开始训练

四: 训练过程中词向量作为参数不断调整,获取一定的语义信息

五: 使用训练好的词向量做为下游任务

词向量应用 - 寻找近义词

输入: 红绕肉

注意:

依赖分词正确

与A最接近的词是B,不代表B最接近的是A

有时也会右反义词很相似

总会有很多badcase

词向量应用 - 句向量或文本向量

1.讲一句话或一段文本分成若干个词

  1. 找到每个词对应的词向量

3.所有词向量加和求平均或通过各种网络模型,得到文本向量

  1. 使用文本向量计算相似度或进行聚类

词向量应用 - KMeans

KMeans

随机选择k个点作为初始质心

repeat:

将每个点指派到最近的质心,形成k个簇

重新计算每个簇的质心

until

质心不发送变化

KMeans优点:

速度很快,可以支持大量的数据

样本均匀特征明显的情况下,效果不错

KMeans缺点:

人为设定聚类数量

初始化中心影响效果,导致结果不稳定

对于个别特殊样本敏感,会大幅度影响聚类中心位置

不适合多分类或样本较为离散的数据

KMeans一些使用技巧

1.先设定较多的聚类类别

  1. 聚类结束后计算类内平均距离

  2. 排序后,舍弃类内平均距离较长的类别

  3. 计算距离时可以尝试欧式距离,余弦距离或其他距离

  4. 短文本的聚类记得先去重,以及其他预处理

相关推荐
Raink老师4 小时前
【AI面试临阵磨枪-79】实时数据 RAG:订单、商家、物流、天气、动态库存
人工智能·面试·职场和发展
是一个Bug4 小时前
Agent(智能体)应用 的入门学习路径
学习·机器学习
脑极体4 小时前
点亮星河AI+鸿蒙,一座艺术场馆的日神觉醒
人工智能·华为·harmonyos
Cosolar4 小时前
Chroma向量库面试学习指南
数据库·人工智能·面试·职场和发展·数据库架构
BUG指挥官4 小时前
Claude Code的自动化编程
人工智能
意图共鸣4 小时前
意图共鸣科技《认知智能白皮书》——感知与执行分离:认知架构(CA)如何重塑大模型底层结构
人工智能·架构
等一个人的@4 小时前
让数据自己开口:数睿通智库新增智能问数模块
人工智能·自然语言处理
ZGi.ai4 小时前
人工审查节点:让自动化工作流多一步人工把关
运维·人工智能·自动化·人机协同·智能体工作流·人工审查
王莎莎-MinerU5 小时前
MinerU 深度技术解析:从架构原理到生产部署的全面指南
css·人工智能·自然语言处理·架构·ocr·个人开发
盘古信息IMS5 小时前
盘古信息IMS V6 8.0重磅发布:以薪火AI数智平台点燃离散制造数智化引擎
大数据·人工智能·制造