词嵌入中语料库矩阵和句子矩阵是怎样的?

词语是不能进行计算的,要理解词语,就必须转化成数字,向量可以表示多个词语之间的关系,离得近就是相似等不同的关系。

1 语料库矩阵

假设语料库是N段语句组成的,最后算下来有5000个字组成的语料库,然后我们将这个语料库训练成每个字都由128维向量表示的,向量集合。这就是语料库矩阵。该矩阵记为E

2 句子矩阵(One-Hot编码)

句子矩阵就是,句子分词后,这个词或者字,在语料库中的位置(5000个字词中的位置),如:『我』在这5000个字词库中的第2位,『喜欢』在这5000个字词库中的第1位,『学习』是第3位,以此类推。我们将该矩阵记为V

3 E x V 即为句子的嵌入向量

最终会得到4 * 128的句子向量

4 实际上

下图中还是语料矩阵,只是写出了例句中各个元素的位置。V * E就是将例句中的向量,从语料矩阵中取出。

5 词嵌入的优势

5.1 表达效率的提升

5.2 理解词语的语义

5.3 嵌入矩阵的通用性

视频参考:https://www.bilibili.com/video/BV1sw411S7i1?spm_id_from=333.788.recommend_more_video.-1\&trackid=web_related_0.router-related-2206419-zjg6v.1764578610538.562\&vd_source=e10f137a63ff65947d019d16bb78ea8d

相关推荐
人工智能训练2 小时前
【极速部署】Ubuntu24.04+CUDA13.0 玩转 VLLM 0.15.0:预编译 Wheel 包 GPU 版安装全攻略
运维·前端·人工智能·python·ai编程·cuda·vllm
源于花海3 小时前
迁移学习相关的期刊和会议
人工智能·机器学习·迁移学习·期刊会议
DisonTangor4 小时前
DeepSeek-OCR 2: 视觉因果流
人工智能·开源·aigc·ocr·deepseek
薛定谔的猫19824 小时前
二十一、基于 Hugging Face Transformers 实现中文情感分析情感分析
人工智能·自然语言处理·大模型 训练 调优
发哥来了5 小时前
《AI视频生成技术原理剖析及金管道·图生视频的应用实践》
人工智能
数智联AI团队5 小时前
AI搜索引领开源大模型新浪潮,技术创新重塑信息检索未来格局
人工智能·开源
不懒不懒5 小时前
【线性 VS 逻辑回归:一篇讲透两种核心回归模型】
人工智能·机器学习
冰西瓜6005 小时前
从项目入手机器学习——(四)特征工程(简单特征探索)
人工智能·机器学习
Ryan老房5 小时前
未来已来-AI标注工具的下一个10年
人工智能·yolo·目标检测·ai
丝斯20116 小时前
AI学习笔记整理(66)——多模态大模型MOE-LLAVA
人工智能·笔记·学习