多模态基础--- word Embedding

1 word Embedding

原始的单词编码方式:

one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。

wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3都属于生物

word Embedding编码方式:

将每个word映射到高维向量上

1.1 word Embedding方式

word Embedding主要有两种方法:
count based:

通过阅读大量的文章,比较不同的词汇后面跟随的内容一致性判断该两个词汇的相关性。

例:乔丹在NBA打球《===》科比在NBA打球

prediction based:

如下图,输入为Wi-1这个单词,通过神经网络,输出为不同的词汇中下个单词为Wi的概率。
取第一个隐藏层 Z作为word的编码

由于只依靠前一个单词预测后面的单词,这很困难,因此可以选择前面的多个单词来预测后面的单词。

我们将输入的单词Xi-2和Xi-1

相关推荐
夜幕下的ACM之路1 天前
一、基础知识学习(Transformer + 上下文窗口 + Token 计算 + Embedding 向量)
人工智能·学习·transformer·embedding
Trouvaille ~2 天前
零基础入门 LangChain 与 LangGraph(一):理解大模型、提示词、Embedding 和接入方式
算法·langchain·大模型·embedding·rag·langgraph·llm应用
最贪吃的虎2 天前
我的第一个 RAG 程序:从 0 到 1,用 PDF 搭一个最小可运行的知识库问答系统
人工智能·python·算法·机器学习·aigc·embedding·llama
诗词在线2 天前
诗词在线古诗词传播
人工智能·word·php
reasonsummer2 天前
【办公类-142-04】20260330插班生word转长表EXCLE(4)新表重制
python·word
weixin_416660072 天前
解决方案:DeepSeek/ChatGPT生成的内容,如何无损转为Word文档?
chatgpt·word·论文·数学公式·deepseek
骆驼爱记录2 天前
Word双语目录制作全攻略
自动化·word·新人首发
simple_whu3 天前
目录中不显示标题中间的软换行符Shift+Enter
word·office
weixin_416660073 天前
2026年 DeepSeek 导出 Word 完全指南
word
珞瑜·4 天前
【word】撰写文章中实用快捷键
word