AI应用实战2：使用scikit-learn进行回归任务实战

代码仓库在gitlab，本博客对应于02文件夹。

1.问题分析

在此篇博客中我们来对回归任务进行实战演练，背景是直播带货平台的业绩预测。第一步，就是分析问题。

问题痛点： 在直播带货平台上，由于市场环境多变、用户行为复杂以及各种营销策略的影响，预测单次直播活动的实际成交量对于商家和平台来说是一项具有挑战性的任务。痛点在于无法准确预估每次直播带货活动将会产生的销售业绩，这直接影响到库存管理、供应链协调、促销策略制定以及主播资源调配等多个环节的效率和效果。
现状： 当前，在没有有效预测模型的情况下，平台主要依赖过往经验或者简单的趋势分析来进行粗略的销量估算，而这些方法往往忽视了诸多影响因素（例如转发量、流量指数、商品类型热度等）对成交量的潜在贡献，导致预测准确性不高，可能会造成库存积压或供不应求的问题，增加经营风险。
目标： 目标是建立一个基于机器学习的回归预测模型，该模型能够根据给定的直播前关键指标（如转发量、流量指数和商品类型热度等），准确预测即将进行的直播带货活动可能达成的成交量。通过精确预测，可以指导商家合理安排库存，优化资源配置，并提高整体运营效率与效益。
解决问题的方法： 针对这一需求，可使用监督学习中的回归分析技术来解决。首先，收集大量历史直播活动的数据，包括但不限于转发量、流量指数、商品类型热度以及对应的实际成交量。然后，利用这些数据训练一个回归模型，如线性回归、决策树回归、随机森林回归、支持向量机回归或神经网络回归等。模型会学习不同变量之间的关系并据此对未来直播的成交量做出预测。
可能使用的AI技术：

回归分析：这是最适合本场景的技术，因为我们需要的是一个连续数值（即成交量）作为输出而非离散类别标签。
具体步骤：

数据准备：收集历史直播带货数据集，包括自变量（转发量、流量指数、商品类型编码等）、因变量（成交量）。

特征工程：处理商品类型，将其转换为有意义的数值特征（如one-hot编码、嵌入式表示等）。

模型训练：选择合适的回归算法训练模型，调整模型参数以优化性能。

验证与评估：通过交叉验证等方式评估模型的预测性能，如均方误差（MSE）、R²分数等。

预测应用：将训练好的模型应用于新直播活动的各项指标，得出预测成交量。

2.数据准备

由于没有数据来源，所以我是利用AI生成的数据，用来演示回归任务实战。数据集划分为80%训练集，20%测试集。

数据集：
为代码仓库（地址在博客顶部）文件夹中的dataset.csv文件。

3.代码实现

python 复制代码

# coding:gbk
####  数据集划分
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# 加载CSV数据集
data = pd.read_csv('dataset.csv',encoding='gbk')

# 假设'转发量'、'流量指数'、'品类热度'是特征列，'成交量'是目标列
features = data[['转发量', '流量指数', '品类热度']]
target = data['成交量']

# 将数据集按比例划分为训练集和测试集，比如80%的数据用于训练，20%用于测试
# 这里random_state参数是为了保证每次划分结果的一致性，不设置的话每次运行会产生不同的划分结果
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

# 训练模型（这里以线性回归为例）
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_pred_train = model.predict(X_train)  # 对训练集进行预测
y_pred_test = model.predict(X_test)  # 对测试集进行预测

# 评估模型
mse_train = mean_squared_error(y_train, y_pred_train)  # 计算训练集上的均方误差
r2_train = r2_score(y_train, y_pred_train)  # 计算训练集上的决定系数R²

mse_test = mean_squared_error(y_test, y_pred_test)  # 计算测试集上的均方误差
r2_test = r2_score(y_test, y_pred_test)  # 计算测试集上的决定系数R²

print(f"训练集均方误差 (MSE): {mse_train}")
print(f"训练集决定系数 R2: {r2_train}")
print("\n")
print(f"测试集均方误差 (MSE): {mse_test}")
print(f"测试集决定系数 R2: {r2_test}")