word2vec

翱翔的苍鹰4 天前
人工智能·pytorch·rnn·深度学习·神经网络·transformer·word2vec
循环神经网络-RNN和简单的例子现在我来用 最通俗易懂的方式,帮你彻底搞懂: 🔹 RNN 是什么? 🔹 词嵌入(Embedding)是怎么回事? 🔹 它们怎么一起工作? 🔹 如何快速记住这些知识点? 我们不讲公式,只讲“人话”和“比喻”,保证你听完就能理解、能复述、能动手写代码! 🌟 一、什么是 RNN?——“会记忆的神经网络” 💡 比喻:RNN 就像一个有“短期记忆”的机器人 想象你在教一个机器人读一句话:“今天天气真好。” 它看到“今”字 → 不知道意思 看到“天”字 → 哦,可能是“今天” 看到“气”字 → 哦,是“天
Java后端的Ai之路8 天前
人工智能·embedding·向量·word2vec·ai大模型开发
【AI大模型开发】-基于 Word2Vec 的中文古典小说词向量分析实战本项目基于 Gensim 库实现了中文古典小说的 Word Embedding 分析,通过 Word2Vec 算法将文本中的词语转换为向量表示,进而实现词语相似度计算和类比推理等功能。项目包含了《西游记》和《三国演义》两个经典中文文本的分析案例,适合自然语言处理初学者学习和实践。
JeffDingAI9 天前
笔记·学习·word2vec
【Datawhale学习笔记】Word2Vec理解Word2Vec的关键在于区分其最终目标与实现手段。神经网络结构本身只是获取词向量的一种方式,并非模型的最终目的。
nju_spy10 天前
深度学习·自然语言处理·预训练模型·word2vec·glove·词嵌入·文本表示学习
动手学深度学习 - NLP 词嵌入全解析:从 Word2Vec/GloVe 到 FastText/BPE 与 BERT本文系统梳理 NLP 核心的词嵌入技术全体系,从基础静态词嵌入到进阶动态上下文嵌入完整讲解。首先详解 Word2Vec 的 Skip-Gram 与 CBOW 模型原理、近似训练策略及三国演义中文实战;
拌面jiang14 天前
人工智能·自然语言处理·word2vec
Word2Vec词嵌入模型1.什么是词嵌入? 词嵌入是将文本中的词语,映射为计算机能够理解的,固定长度的实数向量的过程。为什么要这么做?
谢的2元王国16 天前
人工智能·自然语言处理·word2vec
小数据量样本 2500条之下 且每条文本长度不超过35个字的时候 多词汇平均向量外加word2vec的语义模型处理后再到特征向量中检索即可"E:\python project 1\.venv1\Scripts\python.exe" "E:\python project 1\多词汇相似语义学习\销售技巧提问.py" Building prefix dict from E:\python project 1\.venv1\Lib\site-packages\jieba\dict.txt ... Loading model from cache C:\Users\Lenovo\AppData\Local\Temp\jieba.cache Loa
智算菩萨17 天前
bert·easyui·word2vec
【Python自然语言处理】词向量表示理论基础:从Word2Vec到BERT目录1. 引言与基础概念1.1 自然语言处理中的表示问题1.2 分布假说与向量化表示的理论基础1.3 词向量的基本性质与应用价值
Hcoco_me19 天前
开发语言·人工智能·深度学习·transformer·word2vec
大模型面试题46:在训练7B LLM时,如果使用AdamW优化器,那么它需要的峰值显存是多少?对小白来说,先不用记公式,核心先理解:训练7B模型+AdamW时,显存不是只存“模型参数”,而是要存4类东西,其中AdamW的优化器状态是最大头:
Hcoco_me19 天前
人工智能·深度学习·神经网络·算法·机器学习·transformer·word2vec
大模型面试题49:从白话到进阶详解SFT 微调的 Loss 计算SFT 的全称是 Supervised Fine-Tuning(监督微调),它的核心目标是:让预训练好的大模型,在人工标注的「指令-回答」数据上学习,精准匹配人类的指令意图。
Hcoco_me19 天前
开发语言·人工智能·深度学习·算法·transformer·word2vec
大模型面试题48:从白话到进阶详解LoRA 中 r 和 alpha 参数这两个参数是 LoRA 最核心的超参数,r 决定了 LoRA 的「信息容量上限」,alpha 决定了 LoRA 的「更新强度」,两者配合才能让 LoRA 既轻量化又有好效果。
Hcoco_me20 天前
人工智能·深度学习·lstm·transformer·word2vec
大模型面试题45:从小白视角递进讲解DeepSeek V3的MLA机制在MLA出现前,我们学过的MHA(多头)、GQA(分组)已经解决了注意力的「效果-效率」平衡问题,但面对DeepSeek V3要支持的256k超长序列和「千亿参数大模型」,仍有两个小白能懂的核心痛点:
Hcoco_me20 天前
人工智能·深度学习·自然语言处理·transformer·word2vec
大模型面试题44:注意力机制的三代进化MHA/MQA/GQAMHA/MQA/GQA这三者是Transformer架构注意力机制的三代形态,核心逻辑是 「效果与效率的权衡」 ——从「追求最好效果」的MHA,到「追求极致速度」的MQA,再到「平衡效果与速度」的GQA。
Hcoco_me22 天前
人工智能·深度学习·lstm·transformer·word2vec
大模型面试题40:结合RoPE位置编码、优秀位置编码的核心特性想象你在看一本没有标点、没有段落的书:AI的“大脑”(Transformer模型)天生没有“顺序感”——它处理文字时,每个字都是一个向量,默认不知道谁在前、谁在后。
Hcoco_me22 天前
开发语言·人工智能·深度学习·自然语言处理·transformer·word2vec
大模型面试题41:RoPE改进的核心目标与常见方法RoPE虽然解决了传统位置编码的很多问题,但仍有两个核心痛点:RoPE的改进方向可以比喻为:给AI的“座位号系统”升级——让座位号能无限扩展,同时让远处的座位号也能清晰区分。
Hcoco_me22 天前
人工智能·深度学习·自然语言处理·transformer·word2vec
大模型面试题39:KV Cache 完全指南想象你在和朋友聊天:KV Cache 就是大模型的“短期记忆缓存”,专门存储对话历史/文本序列中已经计算过的关键信息,避免重复计算,让模型“说话更快”。
Hcoco_me23 天前
人工智能·rnn·深度学习·自然语言处理·lstm·transformer·word2vec
大模型面试题36:Transformer中的残差连接处理方式与作用我们用 “抄近路保留原始信息” 的生活化比喻讲透核心逻辑,再逐步拆解它在Transformer中的具体处理流程、数学原理和关键作用。
Hcoco_me23 天前
人工智能·rnn·深度学习·自然语言处理·word2vec
大模型面试题29:稀疏注意力是什么?想象你在一个有10000人的大派对上,你需要和每个人握手、聊天,才能了解整个派对的情况。 这就像 Transformer 的原始注意力机制:
Hcoco_me23 天前
人工智能·rnn·深度学习·lstm·word2vec
大模型面试题30:Padding 的 mask 操作想象你在学校交作业,老师要求每个人都交 5 页纸。在深度学习里:回到交作业的例子:在模型里:mask 操作就像给老师一个**“忽略清单”**:
Hcoco_me23 天前
人工智能·rnn·深度学习·自然语言处理·transformer·word2vec
大模型面试题33:Transformer为什么用LayerNorm,而非BatchNorm?我们先从 “归一化的目标”和“数据的特点” 两个生活化角度讲透核心区别,再逐步深入技术细节,结合Transformer的场景分析原因。