多模态基础--- word Embedding

1 word Embedding

原始的单词编码方式:

one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。

wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3都属于生物

word Embedding编码方式:

将每个word映射到高维向量上

1.1 word Embedding方式

word Embedding主要有两种方法:
count based:

通过阅读大量的文章,比较不同的词汇后面跟随的内容一致性判断该两个词汇的相关性。

例:乔丹在NBA打球《===》科比在NBA打球

prediction based:

如下图,输入为Wi-1这个单词,通过神经网络,输出为不同的词汇中下个单词为Wi的概率。
取第一个隐藏层 Z作为word的编码

由于只依靠前一个单词预测后面的单词,这很困难,因此可以选择前面的多个单词来预测后面的单词。

我们将输入的单词Xi-2和Xi-1

相关推荐
yivifu10 小时前
使用VBA区分简体中文段落和繁体中文段落的方法
word·excel·vba
小蜗牛~向前冲15 小时前
大模型学习系列-Embedding与向量数据库
人工智能·python·神经网络·学习·机器学习·embedding
新缸中之脑20 小时前
Gemini Embedding 2
embedding
骆驼爱记录1 天前
Word三线表制作全攻略
自动化·word·wps·新人首发
大傻^2 天前
【OpenClaw -07】OpenClaw 记忆系统:三层记忆架构与 Daily Notes 机制
embedding·rag·长期记忆·上下文管理·openclaw·记忆架构
盘古工具2 天前
告别重复劳动:Word 重复上一次操作的两种方法
windows·word
自传丶2 天前
【学习笔记】大模型应用开发系列(二)Embedding 模型
笔记·学习·embedding
好名字08212 天前
Vue2转Word方法(html-docx-js库)
javascript·html·word
武汉知识图谱科技3 天前
超越预测性维护:基于知识超图与根因推理的能源电力“免疫系统”构建
人工智能·物联网·langchain·能源·知识图谱·embedding
檐下翻书1733 天前
企业组织架构图导出Word 在线编辑免费工具
人工智能·信息可视化·去中心化·word·流程图·ai编程