自然语言处理-词向量模型-Word2Vec

通常数据的维度越高,能提供的信息也就越多,从而计算结果的可靠性就更值得信赖

如何来描述语言的特征呢,通常都在词的层面上构建特征,Word2Vec就是要把词转换成向量

假设现在已经拿到一份训练好的词向量,其中每一个词都表示为50维的向量

如果在热度图中显示,结果如下

在结果中可以发现,相似的词在特征表达中比较相似,也就是说词的特征是有意义的!

在词向量模型中,输入和输出分别是什么?

数据从哪来?

构建训练数据

不同模型对比

CBOW模型

Skip-gram模型

Skip-gram模型所需训练数据集

如何进行训练?

如果一个语料库稍微大一些,可能的结果简直太多了,最后一层相当于softmax,计算起来十分耗时,有什么别的方法吗?

初始方案:输入两个单词,看他们是不是前后对应的输入输出,也就相当于一个二分类任务

出发点非常好,但是此时训练集构建出来的标签全为1,无法进行较好的训练

改进方案。加入一些负样本(负采样模型)

词向量训练过程

初始化词向量矩阵

通过神经网络反向传播来计算更新,此时不光更新权重参数,还更新输入数据

相关推荐
Humbunklung14 小时前
files-to-prompt 简介
人工智能·prompt
老蒋新思维14 小时前
借刘润之智,在 IP+AI 时代构筑战略 “增长方舟”|创客匠人
大数据·网络·人工智能·网络协议·tcp/ip·创客匠人·知识变现
Juchecar14 小时前
翻译:与语言无关的编程:为什么你可能仍然需要代码
人工智能
云心雨禅14 小时前
AI训练成本优化,腾讯云GPU实例选型
人工智能·云计算·腾讯云
聚梦小课堂14 小时前
2025年11月11日 AI快讯
人工智能·新闻资讯·ai大事件
taxunjishu14 小时前
Modbus RTU 转 Modbus TCP:借助数据采集提升罗克韦尔PLC工艺参数反馈实时性案例
人工智能·物联网·tcp/ip·工业物联网·工业自动化·总线协议
IT考试认证14 小时前
微软AI-900考试认证题库
人工智能·microsoft
Mintopia14 小时前
🧠 可定制化 AIGC:Web 用户个性化模型训练的技术门槛正在塌缩!
前端·人工智能·trae
打码人的日常分享14 小时前
智慧楼宇资料合集,智慧城市智慧社区智慧园区
大数据·网络·人工智能
月下倩影时14 小时前
视觉进阶篇—— PyTorch 安装
人工智能·pytorch·python