词嵌入中语料库矩阵和句子矩阵是怎样的?

词语是不能进行计算的,要理解词语,就必须转化成数字,向量可以表示多个词语之间的关系,离得近就是相似等不同的关系。

1 语料库矩阵

假设语料库是N段语句组成的,最后算下来有5000个字组成的语料库,然后我们将这个语料库训练成每个字都由128维向量表示的,向量集合。这就是语料库矩阵。该矩阵记为E

2 句子矩阵(One-Hot编码)

句子矩阵就是,句子分词后,这个词或者字,在语料库中的位置(5000个字词中的位置),如:『我』在这5000个字词库中的第2位,『喜欢』在这5000个字词库中的第1位,『学习』是第3位,以此类推。我们将该矩阵记为V

3 E x V 即为句子的嵌入向量

最终会得到4 * 128的句子向量

4 实际上

下图中还是语料矩阵,只是写出了例句中各个元素的位置。V * E就是将例句中的向量,从语料矩阵中取出。

5 词嵌入的优势

5.1 表达效率的提升

5.2 理解词语的语义

5.3 嵌入矩阵的通用性

视频参考:https://www.bilibili.com/video/BV1sw411S7i1?spm_id_from=333.788.recommend_more_video.-1\&trackid=web_related_0.router-related-2206419-zjg6v.1764578610538.562\&vd_source=e10f137a63ff65947d019d16bb78ea8d

相关推荐
云燕实验室CloudLab2 分钟前
《AI开始"抱团"思考了!多智能体 + 思维图到底有多强?》
ai·学习工具·智慧学伴
小七-七牛开发者23 分钟前
论文解读:DeepSeek DSpark 在真实高并发推理服务中,如何保证 Token 生成又好又快?
ai·大模型·编程·ai coding
得物技术27 分钟前
从狂野代码到按目标生产:得物推荐 AI Harness 的工程化实践|AICon 演讲整理
人工智能·算法·架构
HokKeung32 分钟前
飞书 lark-cli 如何存储 tenant_access_token 和 user_access_token
人工智能·go
Ralph_Salar33 分钟前
从0到1搭建AI智能支付风控助手Stage3-Function Calling — 让AI能动起来
人工智能
Ralph_Salar38 分钟前
从0到1搭建AI智能支付风控助手Stage4-Agent编排 — 让AI自己思考、决策、行动
人工智能
smallyoung39 分钟前
Spring AI 2.0 VectorStore实战:从原理到RAG落地
人工智能·后端
火山引擎开发者社区1 小时前
被 Vibe Coding 用户频点名的火山 Supabase 到底是个啥?一图来看懂
人工智能
火山引擎开发者社区2 小时前
动手做 AI 实验赢好礼!产品 + 大模型免费额度限时供应!
人工智能
字节跳动视频云技术团队2 小时前
从 VCloud 到 Agentic VCloud:Agent 时代的范式重构
人工智能·音视频开发