word2vec

Hcoco_me2 天前
人工智能·深度学习·lstm·transformer·word2vec
大模型面试题40:结合RoPE位置编码、优秀位置编码的核心特性想象你在看一本没有标点、没有段落的书:AI的“大脑”(Transformer模型)天生没有“顺序感”——它处理文字时,每个字都是一个向量,默认不知道谁在前、谁在后。
Hcoco_me2 天前
开发语言·人工智能·深度学习·自然语言处理·transformer·word2vec
大模型面试题41:RoPE改进的核心目标与常见方法RoPE虽然解决了传统位置编码的很多问题,但仍有两个核心痛点:RoPE的改进方向可以比喻为:给AI的“座位号系统”升级——让座位号能无限扩展,同时让远处的座位号也能清晰区分。
Hcoco_me2 天前
人工智能·深度学习·自然语言处理·transformer·word2vec
大模型面试题39:KV Cache 完全指南想象你在和朋友聊天:KV Cache 就是大模型的“短期记忆缓存”,专门存储对话历史/文本序列中已经计算过的关键信息,避免重复计算,让模型“说话更快”。
Hcoco_me3 天前
人工智能·rnn·深度学习·自然语言处理·lstm·transformer·word2vec
大模型面试题36:Transformer中的残差连接处理方式与作用我们用 “抄近路保留原始信息” 的生活化比喻讲透核心逻辑,再逐步拆解它在Transformer中的具体处理流程、数学原理和关键作用。
Hcoco_me3 天前
人工智能·rnn·深度学习·自然语言处理·word2vec
大模型面试题29:稀疏注意力是什么?想象你在一个有10000人的大派对上,你需要和每个人握手、聊天,才能了解整个派对的情况。 这就像 Transformer 的原始注意力机制:
Hcoco_me3 天前
人工智能·rnn·深度学习·lstm·word2vec
大模型面试题30:Padding 的 mask 操作想象你在学校交作业,老师要求每个人都交 5 页纸。在深度学习里:回到交作业的例子:在模型里:mask 操作就像给老师一个**“忽略清单”**:
Hcoco_me3 天前
人工智能·rnn·深度学习·自然语言处理·transformer·word2vec
大模型面试题33:Transformer为什么用LayerNorm,而非BatchNorm?我们先从 “归一化的目标”和“数据的特点” 两个生活化角度讲透核心区别,再逐步深入技术细节,结合Transformer的场景分析原因。
Hcoco_me3 天前
人工智能·rnn·深度学习·自然语言处理·lstm·transformer·word2vec
大模型面试题35:Pre-LayerNorm vs Post-LayerNorm对深层Transformer训练稳定性我们先从 “做饭步骤” 的生活化比喻讲清两种归一化的核心区别,再一步步拆解实验的设计思路、关键步骤和评估指标,最后深入到实验的细节和结果分析。
Hcoco_me3 天前
人工智能·rnn·深度学习·lstm·transformer·word2vec
大模型面试题34:Transformer的Encoder和Decoder区别与协作我们用 “翻译工作” 这个生活化场景,先讲明白两者的核心角色差异,再逐步拆解结构、机制和功能的不同,最后看它们如何配合完成任务。
Hcoco_me3 天前
人工智能·深度学习·学习·自然语言处理·transformer·word2vec
大模型面试题28:推导transformer layer的计算复杂度Transformer Layer的计算复杂度,本质由两个核心模块决定:当序列变长(L增大)时,“平方级”的注意力计算会快速主导复杂度,这也是Transformer处理长序列效率低的核心原因(比如L=1000时平方项是1e6,L=10000时就变成1e8,直接扩大100倍)。
Hcoco_me4 天前
人工智能·rnn·深度学习·lstm·word2vec
大模型面试题25:Softmax函数把“得分”变成“概率”的归一化工具Softmax函数(也叫归一化指数函数)是深度学习里核心的归一化函数,专门用于把一组任意实数(常称“logits/对数几率/得分”)映射成0到1之间、总和为1的概率分布,常作为分类模型的输出层激活函数。
Hcoco_me4 天前
人工智能·rnn·自然语言处理·lstm·word2vec
大模型面试题26:Adam优化器小白版速懂Adam 是深度学习里超常用的 智能调参工具,它会自动给每个参数定制合适的学习率,比固定学习率训练更快、更稳,结合了 Momentum(动量)和 RMSProp(自适应学习率)的优点。
Hcoco_me4 天前
人工智能·rnn·自然语言处理·lstm·word2vec
大模型面试题27:Muon优化器小白版速懂Muon是Kimi K2大模型训练的核心“智能调参工具”,比常用的AdamW更省算力、学更快;K2里实际用的是它的增强版MuonClip,解决了大模型训练的“飙车失控”问题。
Hcoco_me4 天前
人工智能·rnn·深度学习·自然语言处理·word2vec
大模型面试题24:小白版InfoNCE原理InfoNCE 是 对比学习 里常用的损失函数(全称:Information Noise Contrastive Estimation),核心是让模型学会区分“对的配对”和“错的干扰项”,从而学到有用的特征,不用依赖人工标注。
Hcoco_me7 天前
人工智能·rnn·深度学习·学习·自然语言处理·word2vec
大模型面试题23:对比学习原理-从通俗理解到核心逻辑(通用AI视角)对比学习(Contrastive Learning, CL)是一种无监督/半监督学习方法,核心思想极其简单:让“相似的样本”在特征空间里靠得更近,让“不相似的样本”离得更远——通过这种“对比”来让模型自动学习到数据的本质特征,无需人工标注的标签。
Hcoco_me7 天前
人工智能·rnn·自然语言处理·lstm·word2vec
大模型面试题22:从通俗理解交叉熵公式到通用工程实现交叉熵(Cross Entropy)的核心作用是 衡量“模型预测结果”与“真实情况”的差距,是深度学习分类任务中最常用的损失函数——预测越接近真实,交叉熵越小;预测越偏离真实,交叉熵越大,模型训练的核心就是最小化这个“差距”。
Hcoco_me8 天前
人工智能·自然语言处理·word2vec
Word2Vec:核心思想要理解这个假设,得先搞懂它解决了什么问题——在 Word2Vec 出现前,NLP 里词的表示是 One-Hot Encoding(独热编码),这个方法有两个致命缺陷:
Hcoco_me8 天前
人工智能·自然语言处理·word2vec
Word2Vec 核心知识点速记版适用场景:快速复习、考点记忆、巩固训练 核心覆盖:分布式表示假设、CBOW/Skip-gram 区别、静态词向量缺陷、超参数影响
Hcoco_me10 天前
人工智能·rnn·深度学习·自然语言处理·word2vec
大模型面试题19:梯度消失&梯度爆炸 纯白话文版你可以把 梯度 理解成:模型训练时的「学习信号/调整指令」。 神经网络训练的过程,就是模型根据这个「指令」,一点点修改自己的参数,让自己的预测越来越准。 这个「指令」的传递规则是:从最后一层(输出层)往第一层(输入层)反向传,一层一层告诉前面的层:你的参数该往哪个方向改、改多少。