多模态基础--- word Embedding

1 word Embedding

原始的单词编码方式:

one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。

wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3都属于生物

word Embedding编码方式:

将每个word映射到高维向量上

1.1 word Embedding方式

word Embedding主要有两种方法:
count based:

通过阅读大量的文章,比较不同的词汇后面跟随的内容一致性判断该两个词汇的相关性。

例:乔丹在NBA打球《===》科比在NBA打球

prediction based:

如下图,输入为Wi-1这个单词,通过神经网络,输出为不同的词汇中下个单词为Wi的概率。
取第一个隐藏层 Z作为word的编码

由于只依靠前一个单词预测后面的单词,这很困难,因此可以选择前面的多个单词来预测后面的单词。

我们将输入的单词Xi-2和Xi-1

相关推荐
zeroporn9 天前
以玄幻小说方式打开深度学习词嵌入算法!! 使用Skip-gram来完成 Word2Vec 词嵌入(Embedding)
人工智能·深度学习·算法·自然语言处理·embedding·word2vec·skip-gram
_oP_i10 天前
实现 “WebView2 获取word选中内容
开发语言·c#·word
LENG_Lingliang10 天前
word出现由WPS切换后公式异常无法删除的情况处理
word·wps·mathtype
贤和兄10 天前
使用docx4j 实现word转pdf(linux乱码处理)
linux·pdf·word
开开心心就好11 天前
高效批量转换Word到PDF的方法
javascript·安全·智能手机·pdf·word·objective-c·lisp
response_L11 天前
麒麟v10、uos系统在线批量生成pdf文件
java·pdf·word·pageoffice·在线编辑
一个处女座的程序猿11 天前
LLMs之Embedding:Qwen3 Embedding的简介、安装和使用方法、案例应用之详细攻略
llm·embedding
清风细雨_林木木12 天前
私有 Word 文件预览转 PDF 实现方案
pdf·word
一只秋田犬12 天前
基于 Apache POI 实现的 Word 操作工具类
word
酌沧13 天前
Qwen3 Embedding 结构-加载-训练 看透模型设计哲学
人工智能·embedding