rnn

sensen_kiss3 小时前
人工智能·rnn·机器学习
INT305 Machine Learning 机器学习 Pt.11 循环神经网络(RNN,Recurrent Neural Network)我们之前提到过神经网络,而且别的课程中也对神经网络进行了系统的学习。 我们再回顾一下一些著名的神经网络模型。
果粒蹬i6 小时前
rnn·matlab·lstm
MATLAB全流程对比RNN/LSTM/GRU时间序列预测性能在大数据与人工智能时代,时间序列预测已成为金融风控、能源调度、气象预报等领域的核心技术支撑。从股票价格波动到电力负荷峰值预测,从气温变化趋势到设备故障预警,精准的时间序列预测能为决策提供关键依据。而在众多预测模型中,循环神经网络(RNN)及其改进模型长短期记忆网络(LSTM)、门控循环单元(GRU)凭借对时序依赖关系的捕捉能力,成为该领域的主流选择。 但问题来了:同样是处理时间序列数据,RNN、LSTM、GRU到底该怎么选?它们的预测精度、训练效率、适用场景有何差异?不少开发者和研究者在实际项目中都会陷入
Hcoco_me1 天前
人工智能·rnn·深度学习·自然语言处理·lstm·transformer·word2vec
大模型面试题36:Transformer中的残差连接处理方式与作用我们用 “抄近路保留原始信息” 的生活化比喻讲透核心逻辑,再逐步拆解它在Transformer中的具体处理流程、数学原理和关键作用。
Hcoco_me1 天前
人工智能·rnn·深度学习·自然语言处理·word2vec
大模型面试题29:稀疏注意力是什么?想象你在一个有10000人的大派对上,你需要和每个人握手、聊天,才能了解整个派对的情况。 这就像 Transformer 的原始注意力机制:
Hcoco_me1 天前
人工智能·rnn·深度学习·lstm·word2vec
大模型面试题30:Padding 的 mask 操作想象你在学校交作业,老师要求每个人都交 5 页纸。在深度学习里:回到交作业的例子:在模型里:mask 操作就像给老师一个**“忽略清单”**:
Hcoco_me1 天前
人工智能·rnn·深度学习·自然语言处理·transformer·word2vec
大模型面试题33:Transformer为什么用LayerNorm,而非BatchNorm?我们先从 “归一化的目标”和“数据的特点” 两个生活化角度讲透核心区别,再逐步深入技术细节,结合Transformer的场景分析原因。
Hcoco_me1 天前
人工智能·rnn·深度学习·自然语言处理·lstm·transformer·word2vec
大模型面试题35:Pre-LayerNorm vs Post-LayerNorm对深层Transformer训练稳定性我们先从 “做饭步骤” 的生活化比喻讲清两种归一化的核心区别,再一步步拆解实验的设计思路、关键步骤和评估指标,最后深入到实验的细节和结果分析。
Hcoco_me1 天前
人工智能·rnn·深度学习·lstm·transformer·word2vec
大模型面试题34:Transformer的Encoder和Decoder区别与协作我们用 “翻译工作” 这个生活化场景,先讲明白两者的核心角色差异,再逐步拆解结构、机制和功能的不同,最后看它们如何配合完成任务。
最晚的py1 天前
rnn·词嵌入层
rnn词嵌入层词嵌入层(Embedding Layer)在RNN中负责将离散的单词符号映射为连续的向量表示,将高维稀疏的one-hot编码转换为低维稠密的向量。这种表示能捕捉单词的语义和语法特征,提升模型对文本的理解能力。
TonyLee0171 天前
人工智能·rnn·神经网络
RNN类神经网络整理RNN循环神经网络,这是一类专门处理序列数据的神经网络模型。在transormer出现之前,LSTM(作为RNN的变体)很受欢迎,曾经是一代霸榜的模型。虽然现在热度明显不如以前了,但里面的一些工程思想仍值得我们学习。主流 LLM(如 GPT、Llama、Claude)的核心主干不用 RNN 类模型,但 RNN 类组件仍出现在辅助模块、特定场景模型及研究型混合架构中。例如阿里2025年NeurIPS最佳论文:Attention Gating Makes Better Foundation Models,其中
Hcoco_me2 天前
人工智能·rnn·深度学习·lstm·word2vec
大模型面试题25:Softmax函数把“得分”变成“概率”的归一化工具Softmax函数(也叫归一化指数函数)是深度学习里核心的归一化函数,专门用于把一组任意实数(常称“logits/对数几率/得分”)映射成0到1之间、总和为1的概率分布,常作为分类模型的输出层激活函数。
Hcoco_me2 天前
人工智能·rnn·自然语言处理·lstm·word2vec
大模型面试题26:Adam优化器小白版速懂Adam 是深度学习里超常用的 智能调参工具,它会自动给每个参数定制合适的学习率,比固定学习率训练更快、更稳,结合了 Momentum(动量)和 RMSProp(自适应学习率)的优点。
Hcoco_me2 天前
人工智能·rnn·自然语言处理·lstm·word2vec
大模型面试题27:Muon优化器小白版速懂Muon是Kimi K2大模型训练的核心“智能调参工具”,比常用的AdamW更省算力、学更快;K2里实际用的是它的增强版MuonClip,解决了大模型训练的“飙车失控”问题。
Hcoco_me2 天前
人工智能·rnn·深度学习·自然语言处理·word2vec
大模型面试题24:小白版InfoNCE原理InfoNCE 是 对比学习 里常用的损失函数(全称:Information Noise Contrastive Estimation),核心是让模型学会区分“对的配对”和“错的干扰项”,从而学到有用的特征,不用依赖人工标注。
最晚的py3 天前
人工智能·rnn·深度学习·神经网络
rnn循环神经网络RNN(Recurrent Neural Network)是一种处理序列数据的神经网络结构,其核心特点是具有循环连接,允许信息在网络中持久化。这种特性使其适合处理时间序列、自然语言等具有时序关系的数据。
水月wwww3 天前
人工智能·rnn·深度学习·gru·lstm·循环神经网络·文本续写
【深度学习】循环神经网络实现文本预测生成二者都是循环神经网络(RNN)的改进版本,核心解决传统RNN无法捕捉长序列依赖、易出现梯度消失/爆炸的问题,是处理文本、语音等序列数据的核心模型:
Hcoco_me5 天前
人工智能·rnn·深度学习·学习·自然语言处理·word2vec
大模型面试题23:对比学习原理-从通俗理解到核心逻辑(通用AI视角)对比学习(Contrastive Learning, CL)是一种无监督/半监督学习方法,核心思想极其简单:让“相似的样本”在特征空间里靠得更近,让“不相似的样本”离得更远——通过这种“对比”来让模型自动学习到数据的本质特征,无需人工标注的标签。
Hcoco_me5 天前
人工智能·rnn·自然语言处理·lstm·word2vec
大模型面试题22:从通俗理解交叉熵公式到通用工程实现交叉熵(Cross Entropy)的核心作用是 衡量“模型预测结果”与“真实情况”的差距,是深度学习分类任务中最常用的损失函数——预测越接近真实,交叉熵越小;预测越偏离真实,交叉熵越大,模型训练的核心就是最小化这个“差距”。
声声codeGrandMaster5 天前
人工智能·rnn·深度学习
RNN基本概念和模型构建RNN(循环神经网络)*是一种专门设计用于处理* 序列数据的深度学习模型,其核心特点是通过循环连接在时间维度上传递信息,从而能够 “记住” 之前的输入内容。
悟道心7 天前
人工智能·rnn·自然语言处理
3.自然语言处理NLP - RNN及其变体✅ RNN(循环神经网络)🧠 类比:像一个边读书边记笔记的学生,每读一句就更新自己的理解。✅ LSTM(长短期记忆网络)