基于逻辑回归、随机森林、梯度提升树、XGBoost的广告点击预测模型的研究实现

文章目录

- ==有需要本项目的代码或文档以及全部资源，或者部署调试可以私信博主==
- 一、项目背景与目标
- 二、数据概览与预处理
- - [2.1 数据导入与初步分析](#2.1 数据导入与初步分析)
  - [2.2 缺失值与重复值处理](#2.2 缺失值与重复值处理)
  - [2.3 目标变量分布](#2.3 目标变量分布)
- 三、探索性数据分析（EDA）
- - [3.1 数值变量分布](#3.1 数值变量分布)
  - [3.2 类别变量分布](#3.2 类别变量分布)
  - [3.3 特征关系分析](#3.3 特征关系分析)
  - [3.4 高级可视化分析](#3.4 高级可视化分析)
- 四、特征工程与数据准备
- - [4.1 特征提取与转换](#4.1 特征提取与转换)
  - [4.2 数据集拆分与标准化](#4.2 数据集拆分与标准化)
- 五、模型训练与评估
- - [5.1 模型训练与预测流程](#5.1 模型训练与预测流程)
  - [5.2 评估指标与可视化](#5.2 评估指标与可视化)
  - [5.3 模型保存](#5.3 模型保存)
- 六、模型推理与实战应用
- 七、总结与展望
- - [7.1 项目成果总结](#7.1 项目成果总结)
  - [7.2 项目亮点](#7.2 项目亮点)
  - [7.3 后续优化方向](#7.3 后续优化方向)
  - 每文一语

有需要本项目的代码或文档以及全部资源，或者部署调试可以私信博主

一、项目背景与目标

随着在线广告的普及，如何精准地判断用户是否可能点击广告成为数字营销中的关键问题。通过分析用户的日常行为、人口属性和上网习惯，我们可以利用机器学习模型预测广告的点击率，进而优化广告投放策略，提高转化率和广告效益。

本项目旨在基于一份包含10000条用户行为记录的数据集，构建多个分类模型，预测用户是否会点击广告。通过数据探索、特征工程、模型训练和评估，我们希望选出性能最佳的模型并用于后续实际推理。

二、数据概览与预处理

2.1 数据导入与初步分析

原始数据位于 CSV 文件中，共包含以下特征字段：

Daily Time Spent on Site：每日在网站上停留时间
Age：用户年龄
Area Income：所在地区收入水平
Daily Internet Usage：每日互联网使用时间
Ad Topic Line、City、Country：文本类信息
Timestamp：用户活动的时间戳
Gender：性别
Clicked on Ad：目标变量（是否点击广告）

通过 df.info() 和 df.describe() 等函数，我们对数据结构和变量范围有了初步了解。

2.2 缺失值与重复值处理

为保证数据质量，我们进行了以下清洗步骤：

使用 dropna() 删除所有缺失值记录；
使用 drop_duplicates() 去除重复记录。

2.3 目标变量分布

通过柱状图和饼状图分析发现，点击广告（1）和未点击广告（0）的数量基本持平，表明数据集是平衡数据集，无需进一步处理不均衡问题。

三、探索性数据分析（EDA）

我们对多个特征进行了单变量和多变量分析，以更好地理解它们与广告点击行为的关系。

3.1 数值变量分布

通过直方图观察可知：

大多数用户在网站停留时间在32到55分钟之间；
年龄主要集中在27到40岁之间；
日常互联网使用时间多为180~240分钟；
地区收入大致分布在30000~80000之间。

3.2 类别变量分布

性别分布：男女用户数量大致相等；
国家分布：国家类别众多，但前几个国家的数据量明显较高；
性别与点击的关系：男性点击广告的比例略高于女性。

3.3 特征关系分析

使用散点图和相关性热力图分析变量间的相关性：

Age 和 Daily Time Spent on Site 与是否点击广告存在显著模式；
Daily Internet Usage 与广告点击呈负相关；
特征之间的线性相关性总体不高，适合用于机器学习模型。

3.4 高级可视化分析

我们还使用 Plotly 绘制了多个交互式箱型图，进一步观察数值型特征和目标变量之间的关系：

花更多时间在网站上的用户更可能点击广告；
年龄在40岁上下的用户点击广告的概率高于年轻用户；
高收入用户点击广告的倾向略低。

四、特征工程与数据准备

4.1 特征提取与转换

从 Timestamp 中提取 Hour、DayOfWeek 和 Month；
将 Gender 映射为 0（Male）和 1（Female）；
删除冗余或无关列如 Ad Topic Line、City、Country 和原始 Timestamp。

4.2 数据集拆分与标准化

使用 train_test_split() 将数据按7:3拆分为训练集和测试集。由于逻辑回归模型对特征尺度敏感，我们使用 StandardScaler 对数值特征进行标准化处理并保存了标准化器以供后续使用。

五、模型训练与评估

本项目采用以下四种主流分类模型进行建模：

逻辑回归（Logistic Regression）
随机森林（Random Forest）
梯度提升树（Gradient Boosting）
XGBoost 分类器

5.1 模型训练与预测流程

对于逻辑回归，我们使用标准化后的数据，其余模型使用原始特征值。训练完成后，每个模型都输出了预测类别和预测概率。

5.2 评估指标与可视化

我们采用多种评价指标进行模型评估：

Accuracy（准确率）
Precision（精确率）
Recall（召回率）
F1 Score
AUC（ROC曲线下面积）

此外，我们还绘制了：

ROC曲线用于比较分类性能；
混淆矩阵直观展示各类预测的准确性；
柱状图对比各模型在5项指标上的得分。

5.3 模型保存

使用 joblib 将每个模型保存为 .pkl 文件，便于后续推理使用。

六、模型推理与实战应用

我们通过以下步骤完成模型预测流程：

加载指定的模型（如 Logistic Regression）和标准化器；

构建输入样本，例如：

python 复制代码

{
    'Daily Time Spent on Site': [60.0],
    'Age': [35],
    'Area Income': [60000],
    'Daily Internet Usage': [200.0],
    'Gender': [1],
    'Hour': [14],
    'DayOfWeek': [2],
    'Month': [4]
}