深度学习碎碎念——碎片知识1

1、什么叫模型收敛?什么叫模型欠拟合和过拟合?

什么叫模型收敛?------模型收敛是指在训练过程中,模型的损失函数逐渐减小并且趋于稳定的状态。简而言之,当模型的训练过程达到一个稳定的点,使得进一步的训练不会显著改变模型的参数或性能时,我们就说模型已经收敛。

模型要避免过拟合------过拟合是指机器学习模型在新的、以前未曾见过的输入上的表现不如在训练数据上的表现。过拟合的模型会"记住"训练数据集中的噪声和细节,从而对模型在新数据上的表现产生负面影响;欠拟合------在训练集和测试集效果都不佳------模型训练还不足。

2、TensorFlow和PyTorch中的张量tensor是什么?干什么用的?

Tensor 是最基本的数据结构之一------多维矩阵。

张量可以有不同的维度(也称为秩或轴的数量),例如:

  1. 标量(Scalar):零维张量,只有一个数值。
  2. 向量(Vector):一维张量,可以看作是一列或一行数值。
  3. 矩阵(Matrix):二维张量,可以看作是由行和列组成的表格。
  4. 更高维的张量:具有三个或更多维度的张量,可以用来表示更复杂的数据结构,例如图像或视频帧。

张量的形状(Shape)定义了每个维度的大小,而张量的大小(Size)则是张量中元素的总数。

Tensor 的用处

  1. 数据表示:Tensor 用于表示输入数据、权重、偏置等,可以是一维向量、二维矩阵或更高维度的数据结构。
  2. 数学运算:Tensor 支持各种数学运算,如加法、减法、乘法、点积等。
  3. 自动求导:Tensor 支持自动求导,这对于训练神经网络至关重要,因为它可以自动计算梯度用于反向传播。
  4. GPU 加速:如果系统配置了 NVIDIA GPU 并且 PyTorch 被正确配置为使用 CUDA,那么 Tensor 可以在 GPU 上进行计算,显著加快训练过程。

3、神经网络能够更好的拟合数据的原因是?感觉隐藏层中通过权重和偏置不应该都属于线性变换吗?怎么实现的非线性变换?为什么多层感知机MLP就可以实现捕捉非线性变换?不理解怎么实现的呢?

因为神经网络的工作原理就是通过权重和偏置计算数据,所以不断训练每一层神经网络连接层上的权重和偏置直到找到最合适的可以更好拟合训练数据的参数们,该神经网络就可以将没识别过的数据计算后较为准确判断。

在神经网络中,每一层的输出通常是由线性变换(权重乘以输入加上偏置)和非线性激活函数组成的。线性变换本身确实是线性的,但通过添加非线性激活函数,整个模型就能够捕获非线性关系。这些激活函数引入了非线性,使得神经网络能够学习复杂的函数映射。如果没有非线性激活函数,无论神经网络有多少层,其输出都是输入的线性组合,因此无法捕获非线性关系。这种非线性激活函数有助于打破线性关系,使得神经网络能够学习和逼近复杂的非线性函数。

4、激活函数是什么?交叉熵是什么?

2.1、sigmoid------二分类问题中的输出层或作为隐藏层的激活函数------将连续实数映射到(0,1)------也可以和交叉熵损失函数一起使用,以评估模型预测的概率分布与真实标签之间的差异

2.2、relu------ReLU(x)=max(0,x)

2.3、softmax------多分类问题的输出层------输出一个概率分布------通常与交叉熵损失函数一起使用,以评估模型预测的概率分布与真实标签之间的差异

2.4、交叉熵(Cross-Entropy)是一种常用的损失函数,尤其适用于分类问题,包括二分类和多分类任务,用来衡量两个概率(真实数据概率分布和预测概率分布)分布之间的差异,差距越小则交叉熵越小,用来指导梯度下降优化模型。

5、常见模型评估指标

  • 较低的损失值表明模型在数据集上的预测效果较好------损失值衡量了模型预测值与真实值之间的差距------Logloss
  • 精确率衡量了被模型标记为正类的样本中真正为正类的比例;召回率衡量了所有实际为正类的样本中有多少被模型正确识别为正类------PR AUC 是 Precision-Recall 曲线下面积的缩写,衡量了模型在不同阈值下的精确率和召回率的表现。
  • ROC AUC 是 ROC 曲线下面积的缩写,衡量了模型区分正类和负类的能力。
相关推荐
成富25 分钟前
文本转SQL(Text-to-SQL),场景介绍与 Spring AI 实现
数据库·人工智能·sql·spring·oracle
CSDN云计算38 分钟前
如何以开源加速AI企业落地,红帽带来新解法
人工智能·开源·openshift·红帽·instructlab
艾派森1 小时前
大数据分析案例-基于随机森林算法的智能手机价格预测模型
人工智能·python·随机森林·机器学习·数据挖掘
hairenjing11231 小时前
在 Android 手机上从SD 卡恢复数据的 6 个有效应用程序
android·人工智能·windows·macos·智能手机
小蜗子1 小时前
Multi‐modal knowledge graph inference via media convergenceand logic rule
人工智能·知识图谱
SpikeKing1 小时前
LLM - 使用 LLaMA-Factory 微调大模型 环境配置与训练推理 教程 (1)
人工智能·llm·大语言模型·llama·环境配置·llamafactory·训练框架
黄焖鸡能干四碗2 小时前
信息化运维方案,实施方案,开发方案,信息中心安全运维资料(软件资料word)
大数据·人工智能·软件需求·设计规范·规格说明书
2 小时前
开源竞争-数据驱动成长-11/05-大专生的思考
人工智能·笔记·学习·算法·机器学习
ctrey_2 小时前
2024-11-4 学习人工智能的Day21 openCV(3)
人工智能·opencv·学习
攻城狮_Dream2 小时前
“探索未来医疗:生成式人工智能在医疗领域的革命性应用“
人工智能·设计·医疗·毕业