多模态基础--- word Embedding

1 word Embedding

原始的单词编码方式:

one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。

wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3都属于生物

word Embedding编码方式:

将每个word映射到高维向量上

1.1 word Embedding方式

word Embedding主要有两种方法:
count based:

通过阅读大量的文章,比较不同的词汇后面跟随的内容一致性判断该两个词汇的相关性。

例:乔丹在NBA打球《===》科比在NBA打球

prediction based:

如下图,输入为Wi-1这个单词,通过神经网络,输出为不同的词汇中下个单词为Wi的概率。
取第一个隐藏层 Z作为word的编码

由于只依靠前一个单词预测后面的单词,这很困难,因此可以选择前面的多个单词来预测后面的单词。

我们将输入的单词Xi-2和Xi-1

相关推荐
水木流年追梦19 小时前
agent面试必备31- AI Agent 核心进阶:工具路由(Tool Routing)
数据库·人工智能·oracle·面试·职场和发展·embedding
许彰午21 小时前
75_Python自动化办公之Word与PDF
python·自动化·word
What'swow1 天前
01 双编码器与交叉编码器
embedding·encoder
Am-Chestnuts1 天前
DeepSeek 表格如何导出 Word/Excel:Markdown 表格、CSV 与 DS随心转方案对比
word·excel
Am-Chestnuts1 天前
AI 公式复制到 Word 乱码怎么办:LaTeX 转 Word 与 DS随心转方案对比
人工智能·word
阿拉斯攀登2 天前
AI数据助手:从文档问答到智能数据分析
人工智能·数据分析·embedding·知识库·rag·企业知识库·增强检索
Eiceblue2 天前
使用 JavaScript 在 React 中实现 Word 转 PDF
javascript·react.js·word
AlfredZhao2 天前
一篇搞定:用 curl 测试私有部署模型联通性
llm·embedding·model·curl
qq_5469372719 天前
Excel批量转PDF_Word_图片,支持自动合并报表,效率翻倍。
pdf·word·excel
闵孚龙19 天前
常用网络层:Linear、Conv、RNN、Embedding、Transformer
rnn·transformer·embedding