【深度学习基础】用深度学习做数据预测的大体流程

1. 数据准备

1.1 目标：收集、清洗和处理数据，为深度学习模型提供合适的输入。

1.2 步骤：

数据收集：
- 获取数据：通过数据库、API、文件等方式收集原始数据。
- 示例：房价预测任务中，收集房屋面积、卧室数量等信息。
- 常见的数据收集方法：在网上找数据集并下载，实地考察测量得到数据，从一些前辈那里问到实验数据，花钱买数据，使用爬虫爬取数据（要在合法的前提下爬取）
- 常见的收集数据集的网站：国家生态数据中心资源共享服务平台、国家基础学科公共科学数据中心、联合国粮农组织、联合国商品贸易数据库、世界银行数据库、东盟统计局、国际商品贸易统计、百度--飞桨开放数据集、Kaggle数据集、美国政府开放的数据网站、加州大学欧文分校维护的知名机器学习数据集资源库、谷歌数据集、全球机器学习实验室、一些政府相关的数据、MNIST 官方网站--有图像识别的数据集、MNIST 数据库--图像识别相关数据集、github、和鲸数据库等。（注：如果正常网络点不开的话挂梯子试一下）
数据清洗：
- 去除缺失值、重复值和异常值。
- 填补缺失值：均值、中位数或插值。
- 示例：删除价格为负的房屋记录。
特征工程：
- 编码：将分类变量转为数值（如One-Hot编码）。
- 归一化/标准化：将数值特征调整到相似的范围。
- 特征选择：移除无关或高度相关的特征。
- 示例：对房屋面积、价格等特征进行标准化。
数据分割：
- 将数据分为训练集、验证集和测试集。
- 示例：按8:1:1比例分割数据。

2. 模型设计

2.1 目标：构建一个适合任务的深度学习模型架构。

2.2 步骤：

选择模型架构：
- 根据任务选择模型类型：
  - 全连接神经网络（DNN）适用于结构化数据。
  - 卷积神经网络（CNN）适用于图像处理。
  - 循环神经网络（RNN）适用于序列数据。
- 示例：用全连接神经网络预测房价。
确定模型参数：
- 定义层数、每层神经元数量、激活函数。
- 示例：输入层接收特征，隐藏层使用ReLU，输出层为单一值。
初始化模型：
- 使用深度学习框架（如PyTorch、TensorFlow）实现模型结构。

3. 模型训练

3.1 目标：让模型从数据中学习特征与目标之间的映射关系。

3.2 步骤：

定义损失函数：
- 衡量预测值与真实值之间的差异。
- 示例：回归任务使用均方误差（MSE）。
选择优化器：
- 定义参数更新的算法。
- 示例：使用Adam优化器。
训练过程：
- 前向传播：将训练数据通过模型计算预测值。
- 损失计算：计算预测值与真实值之间的误差。
- 反向传播：根据损失计算梯度并更新参数。
调整超参数：
- 如学习率、批量大小、训练轮数等。
- 示例：学习率从0.01调整为0.001。

4. 模型评估

4.1 目标：评估模型的性能，验证其泛化能力。

4.2 步骤：

验证集评估：
- 在验证集上计算损失和性能指标。
- 示例：计算均方误差（MSE）或准确率。
过拟合检测：
- 如果验证损失显著高于训练损失，说明模型过拟合。
- 示例：训练损失低但验证损失不断增加。
调参：
- 调整模型架构、正则化方法或超参数。
- 示例：增加Dropout防止过拟合。

5. 模型测试

5.1 目标：在测试集上验证模型性能，确保其真实预测能力。

5.2 步骤：

测试数据评估：
- 将测试数据输入模型，计算误差或性能指标。
- 示例：测试集上的MSE是10,000。
性能对比：
- 比较模型的预测性能与基线模型（如线性回归）。
- 示例：深度学习模型比基线模型表现更优。

6. 模型部署

6.1 目标：将训练好的模型应用到实际场景，进行实时预测。

6.2 步骤：

保存模型：
- 将训练好的模型参数和架构保存为文件。
- 示例：保存为model.pth（PyTorch）或model.h5（TensorFlow）。
加载模型：
- 在生产环境中加载模型进行预测。
- 示例：使用模型预测新房屋的价格。
模型集成：
- 将模型集成到Web服务、移动应用或IoT设备中。
- 示例：开发一个API，用户输入房屋特征，返回预测价格。
在线监控：
- 监控模型在生产环境中的表现。
- 示例：记录预测结果与实际结果的误差，定期更新模型。

7. 模型迭代优化

7.1 目标：通过改进模型和数据，持续提升预测性能。

7.2 步骤：

收集新数据：
- 从实际场景中获取更多数据，扩展训练集。
- 示例：加入新的房屋交易记录。
改进模型：
- 增加模型复杂度（如更多层、更大网络）。
- 使用预训练模型或迁移学习。
- 示例：用更复杂的网络代替原模型。
重新训练和验证：
- 训练新模型，重新评估其性能。

8.总结

阶段	任务
数据准备	收集、清洗、处理数据，分割训练集、验证集和测试集。
模型设计	构建适合任务的深度学习模型，定义输入、隐藏层和输出结构。
模型训练	使用训练集让模型学习特征与目标之间的关系，调整参数。
模型评估	在验证集和测试集上评估模型性能，防止过拟合。
模型测试	在测试集上评估最终性能，确保模型的泛化能力。
模型部署	将模型集成到实际场景中进行实时预测，并监控模型表现。
迭代优化	持续优化模型，更新数据或使用新技术提升性能。

后续会持续更新每一部分详细的笔记