本次数据------直播带货。我这里的 "直播带货.csv"文件 数据量有点大,大家可以使用Python进行模拟数据,建立cvs文件,用于数据分析来源
本次数据分析目的------使用魔搭社区在线集成环境(IDE)进行分析"直播带货",影响因数
引入
在开始深入探讨之前,让我们先了解一下基本概念。
模型训练
指通过一个已有的机器学习模型,经过一系列的调整和优化,使之能够更好地解决特定的问题。这个过程通常包括数据准备、模型选择、模型训练、模型评估等几个关键步骤。
我们将使用魔搭社区提供的免费通译模型,并针对直播带货的数据进行微调。将根据特定的数据集(本例中是直播带货的数据)对模型进行调整,以提高其对于该类型数据的预测准确性。完成微调后,我们将自主分析模型的表现,并对其进行自我评测,最终得出一个评分来衡量模型的性能。
关于如何在魔搭社区搭建模型这里就不再赘述,感兴趣可以看看欢迎来到"魔搭社区"体验LLM模型大开发
开始起舞
1.数据导入与初步查看
首先需要将直播带货的数据导入到我们的环境中。这里我们将使用pandas
库。pandas
提供了强大的数据结构和数据分析工具,可以方便地读取、操作和转换数据。
与JavaScript不同,Python中的文件读取操作是同步的,这意味着如果文件较大,可能会导致程序暂时停止响应(即阻塞)。(在处理大型数据集时需要注意这一点)
python
import pandas as pd # 导入pandas库用于数据处理
# 读取直播带货数据文件
df_ads = pd.read_csv("直播带货.csv")
# 打印数据集大小
print(df_ads.size)
# 显示数据集的前5行,以便初步了解数据内容
df_ads.head(5)
2.数据可视化
接下来,我们利用Python的绘图功能,通过matplotlib库绘制图表,直观地观察转发量和成交额之间的关系。这一步有助于我们理解数据的分布情况以及可能存在的模式或趋势。
python
import matplotlib.pyplot as plt # 导入matplotlib库用于绘图
# 绘制散点图,展示转发量与成交额的关系
plt.plot(df_ads['转发量'], df_ads['成交额'], 'r.', label='data point') # 'r.'表示红色点标记
plt.xlabel('Shares (转发量)') # x轴标签
plt.ylabel('Sales (成交额)') # y轴标签
plt.legend() # 显示图例
plt.show() # 显示图表
3.准备训练数据
下一步是准备用于训练的数据。我们需要确定哪些因素可能影响成交额,并将这些因素作为特征(X)来训练模型。同时,成交额本身将是我们的目标变量(y),也就是我们要预测的内容。
python
# 移除目标变量'成交额',将其余所有列作为特征
X = df_ads.drop(["成交额"], axis=1)
# 将'成交额'设为目标变量
y = df_ads['成交额']
# 查看特征和目标变量的前几行
X.head()
y.head()
注意到Python的灵活性,我们可以直接用df_ads.成交额
访问DataFrame中的列,不过更推荐使用方括号的方式,如df_ads['成交额']
,因为它更加通用,特别是当列名包含空格或其他特殊字符时。
4.模型训练
我们假设成交额与影响它的因子之间存在线性关系,即y = ax + b
。基于这一假设,我们将使用线性回归模型来进行数据分析。线性回归是一种常用的统计方法,用于建立两个或多个变量之间的线性关系。
python
from sklearn.linear_model import LinearRegression # 导入线性回归模型
# 创建线性回归模型实例
model = LinearRegression()
为了评估模型的性能,我们将数据分为训练集和测试集,其中80%的数据用于训练模型,剩下的20%用于测试模型的效果。这种做法可以帮助我们更好地估计模型在新数据上的表现。
python
from sklearn.model_selection import train_test_split # 导入数据分割工具
# 将数据分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
# 输出训练集和测试集的大小
print(f"训练集大小: {X_train.size}")
print(f"测试集大小: {X_test.size}")
5.模型评估
最后,我们使用训练好的模型对测试集进行预测,并计算模型的得分。得分越高,说明模型的预测效果越好。
python
# 使用训练集训练模型
model.fit(X_train, y_train)
# 对测试集进行预测
y_pred = model.predict(X_test)
# 打印模型在测试集和训练集上的得分
print(f"线性回归预测评分(测试集): {model.score(X_test, y_test)}")
print(f"线性回归预测评分(训练集): {model.score(X_train, y_train)}")
看看这次选择模型得分:
6.结果比较
为了更直观地对比真实值和预测值,我们可以创建一个新的DataFrame,将它们并排显示出来。
python
# 复制测试集数据
df_ads_pred = X_test.copy()
# 添加成交额的真实值和预测值
df_ads_pred['成交额真值'] = y_test
df_ads_pred['成交额预测值'] = y_pred
# 显示结果
df_ads_pred
这样一个简单数据分析就做好了。不过实践才能发现问题,快去试一下吧
我相信看到这里的小伙伴中肯定会出现绝世高手~
希望这篇文章对大家有帮助,欢迎评论区探讨学习,学会的话也还请给本文一个点赞支持哦~