卷积神经网络

一、基础认知

定义:专为处理网格结构数据(如图像、视频)设计的深度学习模型,模拟人类视觉系统的局部感知与层级整合机制,实现特征自动提取与任务预测。

核心思想:以 "局部特征提取→层级特征整合" 为核心,浅层捕捉边缘、纹理等低级特征,深层聚合为形状、对象等高级语义特征。

与全连接网络的区别:通过 "局部连接"(仅关注输入局部区域)和 "参数共享"(同一卷积核复用权重),解决全连接网络参数爆炸、丢失空间关联性的缺陷。
二、核心组件与原理

  1. 卷积层(特征提取核心)

核心工具:卷积核(Filter),多为 3×3 或 5×5 小矩阵,每个对应一种特征(如边缘、角点)。

关键参数:步幅(卷积核滑动间隔,步幅 = 2 可减半特征图维度);填充(边缘补零避免特征丢失,"Same 填充" 保尺寸,"Valid 填充" 无补零)。

  1. 激活函数(引入非线性)

主流选择:ReLU 函数(f(x)=max(0,x)),解决 Sigmoid 函数梯度消失问题,计算效率更高。

作用:使网络学习复杂非线性特征(如物体轮廓、语义关联)。

  1. 池化层(降维与抗干扰)

常见类型:最大池化(取局部最大值,保留关键特征);平均池化(取局部平均值,平滑特征、减噪声)。

核心作用:降低特征图维度、减少计算量,增强模型对输入微小位移的鲁棒性。

  1. 全连接层(特征整合与预测)

将高维特征图展平为一维向量,通过加权连接整合特征,输出至分类 / 回归模块。
三、经典模型演进

LeNet-5(1989 年):奠定 CNN 基础架构,由 2 个卷积层 + 3 个全连接层构成,采用 Sigmoid 激活函数。

AlexNet(2012 年):推动 CNN 工业化应用,共 8 层深度,引入 ReLU 激活、重叠最大池化与丢弃法。

VGG:深化网络层级设计,通过多个 3×3 卷积核堆叠构建统一结构,增强特征提取能力。

ResNet:突破深度网络梯度消失瓶颈,借助残差连接(Shortcut)支持 152 层网络训练。
四、典型工作流程

输入预处理:将图像转换为三维张量(高 × 宽 × 通道,如 RGB 图像为 3 通道)。

特征提取:通过 "卷积层 + ReLU + 池化层" 堆叠,逐步生成高级特征图。

分类预测:全连接层整合特征,输出层经 Softmax 生成类别概率分布。
五、关键优势与应用

核心优势:参数共享减少计算量,平移不变性提升泛化能力,层级特征适配复杂视觉任务。

典型应用:图像分类(如 ImageNet 识别)、目标检测(如 YOLO)、图像分割(如 UNet)、人脸识别等。

相关推荐
人工智能训练3 小时前
【极速部署】Ubuntu24.04+CUDA13.0 玩转 VLLM 0.15.0:预编译 Wheel 包 GPU 版安装全攻略
运维·前端·人工智能·python·ai编程·cuda·vllm
源于花海3 小时前
迁移学习相关的期刊和会议
人工智能·机器学习·迁移学习·期刊会议
DisonTangor5 小时前
DeepSeek-OCR 2: 视觉因果流
人工智能·开源·aigc·ocr·deepseek
薛定谔的猫19825 小时前
二十一、基于 Hugging Face Transformers 实现中文情感分析情感分析
人工智能·自然语言处理·大模型 训练 调优
发哥来了5 小时前
《AI视频生成技术原理剖析及金管道·图生视频的应用实践》
人工智能
数智联AI团队5 小时前
AI搜索引领开源大模型新浪潮,技术创新重塑信息检索未来格局
人工智能·开源
不懒不懒5 小时前
【线性 VS 逻辑回归:一篇讲透两种核心回归模型】
人工智能·机器学习
冰西瓜6006 小时前
从项目入手机器学习——(四)特征工程(简单特征探索)
人工智能·机器学习
Ryan老房6 小时前
未来已来-AI标注工具的下一个10年
人工智能·yolo·目标检测·ai
丝斯20116 小时前
AI学习笔记整理(66)——多模态大模型MOE-LLAVA
人工智能·笔记·学习