AI大模型 之 词向量(Word to Vector)

词向量 ≈ 词嵌入

词向量词嵌入 都是指,将单词转换成向量,然后再使用余弦相似度计算单词相似度。一个指向量,一个指转换成向量的过程。

稀疏向量 与 稠密向量

  • 稀疏向量,大部分元素都是 <math xmlns="http://www.w3.org/1998/Math/MathML"> 0 0 </math>0,只有少数非 <math xmlns="http://www.w3.org/1998/Math/MathML"> 0 0 </math>0。稀疏向量通常用于表示高维数据,其中许多维度值为 <math xmlns="http://www.w3.org/1998/Math/MathML"> 0 0 </math>0。上一篇笔记中介绍的词袋模型就是一种稀疏向量表示。在词袋模型中,每个文档用一个向量表示,向量的长度等于词汇表中的词数量,向量的每个元素表示相应词在文档中出现的次数。由于大部分单词可能不会出现在给定的文档中,因此词袋模型中的向量通常是稀疏的。
  • 稠密向量,大部分元素非 <math xmlns="http://www.w3.org/1998/Math/MathML"> 0 0 </math>0,稠密向量通常具有较低的维度。能够捕捉到更丰富的信息。 <math xmlns="http://www.w3.org/1998/Math/MathML"> W o r d 2 V e c Word2Vec </math>Word2Vec 就是一种典型的稠密向量表示。稠密向量能够捕捉词与词之间的语义和语法关系,使得具有相似含义和相关性的词在向量空间距离较近。

Word2Vec的实现方式

  1. <math xmlns="http://www.w3.org/1998/Math/MathML"> C B O W CBOW </math>CBOW (Continuous Bag of Words) 连续词袋模型,通过给定上下文(也叫周围词)来预测目标词(也叫中心词)
  2. <math xmlns="http://www.w3.org/1998/Math/MathML"> S k i p − G r a m Skip-Gram </math>Skip−Gram 跳字模型,通过给定目标词来预测上下文词。

这两种模型都是通过训练神经网络来学习词向量的。在训练过程中,通过最小化预测词和实际词之间的损失来学习词向量。当训练完成后,词向量可以从神经网络的权重中提取出来。

CBOW示意:

graph TD A[孙悟空] --> D B[打] --> D C[白骨精] --> D D{{sum}} --CBOW--> E[三: 目标词]

Skip-Gram示意:

graph TD A[三] --> B(Skip-Gram) B --上下文--> C[孙悟空] B --上下文--> D[打] B --上下文--> 白骨精

In

python 复制代码
# 定义一个句子列表,后面会用这些句子来训练CBOW和Skip-Gram模型
sentences = ["Kage is Teacher", "Mazong is Boss", "Niuzong is Boss",
             "Xiaobing is Student", "Xiaoxue is Student",]
# 将所有句子连接在一起,然后用空格分隔成多个单词
words = '  '.join(sentences).split()
# 构建词汇表,去除重复的词
word_list = list(set(words))
# 创建一个字典,将每个词映射到一个唯一的索引
word_to_idx = {word: idx for idx, word in enumerate(word_list)}
# 创建一个字典,将每个索引映射到对应的词
idx_to_word = {idx: word for idx, word in enumerate(word_list)}
vec_size = len(word_list) # 计算词汇表的大小
print("词汇表:", word_list) # 输出词汇表
print("词汇到索引的字典:", word_to_idx) # 输出词汇到索引的字典
print("索引到词汇的字典:", idx_to_word) # 输出索引到词汇的字典
print("词汇表大小:", vec_size) # 输出词汇表大小

Out

css 复制代码
词汇表: ['Xiaoxue', 'Mazong', 'Kage', 'Xiaobing', 'Student', 'Teacher', 'Niuzong', 'Boss', 'is']
词汇到索引的字典: {'Xiaoxue': 0, 'Mazong': 1, 'Kage': 2, 'Xiaobing': 3, 'Student': 4, 'Teacher': 5, 'Niuzong': 6, 'Boss': 7, 'is': 8}
索引到词汇的字典: {0: 'Xiaoxue', 1: 'Mazong', 2: 'Kage', 3: 'Xiaobing', 4: 'Student', 5: 'Teacher', 6: 'Niuzong', 7: 'Boss', 8: 'is'}
词汇表大小: 9
相关推荐
十里清风17 小时前
LLM量化方法:ZeroQuant、LLM.int8()、SmoothQuant、GPTQ、AWQ
llm
知来者逆1 天前
在与大语言模型交互中的礼貌现象:技术影响、社会行为与文化意义的多维度探讨
人工智能·深度学习·语言模型·自然语言处理·llm
SHIPKING3932 天前
【Prompt工程—文生图】案例大全
llm·prompt·文生图
水煮蛋不加蛋2 天前
AutoGen 框架解析:微软开源的多人 Agent 协作新范式
人工智能·microsoft·ai·开源·大模型·llm·agent
Two summers ago2 天前
arXiv2025 | TTRL: Test-Time Reinforcement Learning
论文阅读·人工智能·机器学习·llm·强化学习
AI大模型顾潇3 天前
[特殊字符] Milvus + LLM大模型:打造智能电影知识库系统
数据库·人工智能·机器学习·大模型·llm·llama·milvus
Alfred king5 天前
华为昇腾910B通过vllm部署InternVL3-8B教程
llm·nlp·vllm部署
CoderJia程序员甲5 天前
AI驱动的Kubernetes管理:kubectl-ai 如何简化你的云原生运维
运维·人工智能·云原生·kubernetes·llm
董厂长5 天前
LLM :Function Call、MCP协议与A2A协议
网络·人工智能·深度学习·llm
tangjunjun-owen6 天前
第三章:langchain加载word文档构建RAG检索教程(基于FAISS库为例)
langchain·llm·word·faiss·rag