深度学习5(深层神经网络 + 参数和超参数)

深层神经网络简介

深层神经网络是机器学习中一种重要的模型,它通过增加网络的"深度"(即隐藏层的数量)来提升模型对复杂数据的表示和学习能力。同浅层类似,也分为三个部分:

输入层:接收原始数据(如图像像素、文本向量等)。

隐藏层:由多层组成,每一层包含若干神经元(节点),通过权重和激活函数处理数据。

输出层:生成最终预测结果(如分类概率、回归值等)。

深层神经网络正向传播

深层神经网络反向传播

原理比较容易理解,与浅层神经网络类似,可以分为多个逻辑回归,进行反向传播


参数和超参数

参数(Parameters)

定义

模型内部学习得到的变量,通过训练数据自动优化,无需人工设定。

示例

神经网络中的权重(Weights)偏置(Bias)

线性回归中的系数(θ0,θ1θ0​,θ1​)。

特点

数据驱动:通过反向传播(如梯度下降)从数据中学习。

数量庞大:深层网络的参数量可达数百万甚至数十亿(如GPT-3有1750亿参数)。

存储于模型中:训练完成后,参数被保存用于预测。

优化目标

最小化损失函数(如交叉熵、均方误差)。


2. 超参数(Hyperparameters)

定义

训练前人为设定的配置,控制模型的学习过程或结构。

示例

学习率(Learning Rate):梯度下降的步长。

批量大小(Batch Size):每次迭代使用的样本数。

网络结构:层数、每层神经元数量。

正则化参数:L2惩罚系数(λλ)、Dropout率。

优化器选择:Adam、SGD等。

特点

人工依赖:无法直接从数据中学习,需通过经验或调优确定。

影响全局:超参数的选择直接影响模型收敛速度、泛化能力和最终性能。

需实验验证:通常通过网格搜索、随机搜索或贝叶斯优化确定。

相关推荐
刘一说3 分钟前
AI 热点资讯日报-2026-05-01
人工智能
threelab5 分钟前
Three.js 代码云效果 | 三维可视化 / AI 提示词
开发语言·javascript·人工智能
Java小生不才5 分钟前
Spring AI文生音
java·人工智能·spring
jinanwuhuaguo8 分钟前
(第二十八篇)OpenClaw成本与感知的奇点——从“Token封建制”到“全民养虾”的本体论地基
android·人工智能·kotlin·拓扑学·openclaw
byte轻骑兵11 分钟前
【HID】规范精讲[8]: 蓝牙HID核心之L2CAP层——无线人机交互的通信桥梁设计解析
人工智能·人机交互·蓝牙·键盘·hid
Peter·Pan爱编程12 分钟前
第一篇:什么是 Vibe Coding?核心素养与范式转移
人工智能·ai编程
V搜xhliang024614 分钟前
OpenClaw科研全场景用法:从文献到实验室的完整自动化方案
运维·开发语言·人工智能·python·算法·microsoft·自动化
05候补工程师15 分钟前
【ROS 2 具身智能】Gazebo 仿真避坑指南:从“幽灵机器人”到传感器数据流打通
人工智能·经验分享·笔记·ubuntu·机器人
kaikaile199520 分钟前
风、浪、流环境模型的船舶三自由度(纵荡、横荡、艏摇)运动仿真MATLAB
开发语言·人工智能·matlab
HERR_QQ21 分钟前
端到端课程自用 4 规划 基于自规划AR的端到端规划 AI 笔记
人工智能·笔记·自动驾驶·transformer