词嵌入中语料库矩阵和句子矩阵是怎样的?

词语是不能进行计算的,要理解词语,就必须转化成数字,向量可以表示多个词语之间的关系,离得近就是相似等不同的关系。

1 语料库矩阵

假设语料库是N段语句组成的,最后算下来有5000个字组成的语料库,然后我们将这个语料库训练成每个字都由128维向量表示的,向量集合。这就是语料库矩阵。该矩阵记为E

2 句子矩阵(One-Hot编码)

句子矩阵就是,句子分词后,这个词或者字,在语料库中的位置(5000个字词中的位置),如:『我』在这5000个字词库中的第2位,『喜欢』在这5000个字词库中的第1位,『学习』是第3位,以此类推。我们将该矩阵记为V

3 E x V 即为句子的嵌入向量

最终会得到4 * 128的句子向量

4 实际上

下图中还是语料矩阵,只是写出了例句中各个元素的位置。V * E就是将例句中的向量,从语料矩阵中取出。

5 词嵌入的优势

5.1 表达效率的提升

5.2 理解词语的语义

5.3 嵌入矩阵的通用性

视频参考:https://www.bilibili.com/video/BV1sw411S7i1?spm_id_from=333.788.recommend_more_video.-1\&trackid=web_related_0.router-related-2206419-zjg6v.1764578610538.562\&vd_source=e10f137a63ff65947d019d16bb78ea8d

相关推荐
骥龙10 分钟前
第六篇:AI平台篇 - 从Jupyter Notebook到生产级模型服务
ide·人工智能·jupyter
TOPGUS11 分钟前
谷歌SEO第三季度点击率趋势:榜首统治力的衰退与流量的去中心化趋势
大数据·人工智能·搜索引擎·去中心化·区块链·seo·数字营销
松☆23 分钟前
CANN深度解析:构建高效AI推理引擎的软件基
人工智能
ujainu26 分钟前
CANN仓库中的AIGC可持续演进工程:昇腾AI软件栈如何构建“活”的开源生态
人工智能·开源·aigc
光锥智能38 分钟前
从连接机器到激活知识:探寻工业互联网深水区的山钢范式
人工智能
GHL28427109040 分钟前
分析式AI学习
人工智能·学习·ai编程
ujainu1 小时前
CANN仓库中的AIGC性能极限挑战:昇腾软件栈如何榨干每一瓦算力
人工智能·开源
wenzhangli71 小时前
ooderA2UI BridgeCode 深度解析:从设计原理到 Trae Solo Skill 实践
java·开发语言·人工智能·开源
brave and determined1 小时前
CANN ops-nn算子库使用教程:实现神经网络在NPU上的加速计算
人工智能·深度学习·神经网络
brave and determined1 小时前
CANN算子开发基础框架opbase完全解析
人工智能