刘知远LLM——神经网络基础

文章目录

神经网络基础

基本构成

全称:人工神经网络。启发于生物神经细胞

单个神经元

单层神经网络

前向计算

激活函数的作用:没有激活函数的话,多层神经网络就会退化为单层

输出层

线性输出:回归问题

sigmoid:二分类

softmax:多分类

如何训练?

  • 训练目标:
    对回归问题:计算最小均方差

    对分类问题:计算交叉熵
  • 最小化损失函数:梯度下降法

    求导梯度从而进行梯度下降

    求微分的链式法则

    计算图

Word2Vec例子

  • word2Vec可以学到词与词之间的关系
    例如:king-Queen 与 man-woman 近似于平行,这两对词的差异也类似
  • 实现:两类模型

滑动窗口构造训练数据:目标词target ;其他词context

CBOW根据context预测target,skip-Gram相反

输出词表的概率分布,最大的概率应该对应target

skip-Gram:预测context

  • 问题:词表非常大,计算量大。
  • 解决方法:负采样、分层softmax

负采样:

只采样一小部分作为负例子,词频越高采样概率越大。3/4可以保证低频词也有一定的采样概率

只采样四个词,其他词不参与计算

循环神经网络 RNN

处理序列数据时会进行顺序记忆

  • 网络结构

    注意 h i h_i hi会有 h i − 1 h_{i-1} hi−1部分的输入


选取概率最大的词作为下一个词

应用场景:序列标注、序列预测、图片描述、文本分类

优点:处理变长数据、模型大小不会随输入增大而增大、参数共享、利用历史信息

缺点:顺序计算时间慢、后面的单元很难获得较早、时间的信息、太多链式的梯度计算--梯度爆炸/消失

变体:GRU/LTSM

核心:计算时保留周围的记忆单元进行数据处理,以捕捉到长距离的依赖性

门控计算单元 GRU

门控机制:对当前信息进行筛选 ,决定哪些信息会传到下一层。

更新门:当前信息 x i x_i xi和过去隐藏状态 h i − 1 h_{i-1} hi−1的比重问题

重置门:上一层的隐藏状态对当前状态的激活

重置门接近零时, h i h_i hi就和 h i − 1 h_{i-1} hi−1没什么关系了

更新门 z i z_i zi接近零时, h i h_i hi直接由当前输入得到

长短时记忆网络 LSTM

网络结构

关键改变:增加cell state 学习长期的依赖关系

通过门控添加cell的信息

遗忘门

来决定上一个状态有哪些信息可以从cell中移除

输入门

决定当前信息有哪些可以存到cell中

输出门

总结:做堆叠或者网络很深时,性能很好。缓解梯度的问题

双向RNN

不仅仅取决于过去,还会取决于未来的数据

总结RNN类算法:顺序记忆,但存在梯度问题

卷积神经网络 CNN

图像领域,考虑结构特殊性,也可以用于NLP,如情感分类和关系分类

网络结构:

输入层:

滑动卷积核

CNN擅长提取局部特征;RNN适用于变长文本

pytorch实战

相关推荐
救救孩子把11 分钟前
3-机器学习与大模型开发数学教程-第0章 预备知识-0-3 函数初步(多项式、指数、对数、三角函数、反函数)
人工智能·数学·机器学习
CareyWYR11 分钟前
每周AI论文速递(250908-250912)
人工智能
张晓~1833994812112 分钟前
短视频矩阵源码-视频剪辑+AI智能体开发接入技术分享
c语言·c++·人工智能·矩阵·c#·php·音视频
deephub40 分钟前
量子机器学习入门:三种数据编码方法对比与应用
人工智能·机器学习·量子计算·数据编码·量子机器学习
AI 嗯啦43 分钟前
计算机视觉----opencv实战----指纹识别的案例
人工智能·opencv·计算机视觉
max5006001 小时前
基于多元线性回归、随机森林与神经网络的农作物元素含量预测及SHAP贡献量分析
人工智能·python·深度学习·神经网络·随机森林·线性回归·transformer
trsoliu1 小时前
前端基于 TypeScript 使用 Mastra 来开发一个 AI 应用 / AI 代理(Agent)
前端·人工智能
白掰虾1 小时前
STM32N6&AI资料汇总
人工智能·stm32·嵌入式硬件·stm32n6·stm32ai
爱思德学术2 小时前
中国计算机学会(CCF)推荐学术会议-C(软件工程/系统软件/程序设计语言):MSR 2026
人工智能·机器学习·软件工程·数据科学
小李独爱秋2 小时前
特征值优化:机器学习中的数学基石
人工智能·python·线性代数·机器学习·数学建模