多模态基础--- word Embedding

1 word Embedding

原始的单词编码方式:

one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。

wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3都属于生物

word Embedding编码方式:

将每个word映射到高维向量上

1.1 word Embedding方式

word Embedding主要有两种方法:
count based:

通过阅读大量的文章,比较不同的词汇后面跟随的内容一致性判断该两个词汇的相关性。

例:乔丹在NBA打球《===》科比在NBA打球

prediction based:

如下图,输入为Wi-1这个单词,通过神经网络,输出为不同的词汇中下个单词为Wi的概率。
取第一个隐藏层 Z作为word的编码

由于只依靠前一个单词预测后面的单词,这很困难,因此可以选择前面的多个单词来预测后面的单词。

我们将输入的单词Xi-2和Xi-1

相关推荐
薛定谔的猫-菜鸟程序员11 小时前
用Node.js施展文档比对魔法:轻松实现Word文档差异比较小工具,实现Word差异高亮标注(附完整实战代码)
node.js·word·diff算法·word文档差异比较工具
Lxinccode19 小时前
Java查询数据库表信息导出Word-获取数据库实现[1]:KingbaseES
java·数据库·word·获取数据库信息·获取kingbasees信息
pyengine1 天前
基于pandoc的MarkDown格式与word相互转换小工具开发(pyqt5)
开发语言·python·qt·word
东方佑1 天前
使用Python创建带边框样式的Word表格
数据库·python·word
Lxinccode2 天前
Java查询数据库表信息导出Word
word·数据库信息导出为word文档
振宇i2 天前
Java 富文本转word
java·word·富文本·docx4j
ai大模型木子3 天前
嵌入模型(Embedding Models)原理详解:从Word2Vec到BERT的技术演进
人工智能·自然语言处理·bert·embedding·word2vec·ai大模型·大模型资料
南博萬3 天前
java将pdf转换成word
java·pdf·word
zhishishe4 天前
2025 年免费 Word 转 PDF 转换器有哪些?
android·windows·pdf·电脑·word
神奇侠20244 天前
基于PaddleOCR对图片中的excel进行识别并转换成word(一)
python·word·excel·paddleocr