模型训练与数据分析

本次数据------直播带货。我这里的 "直播带货.csv"文件 数据量有点大,大家可以使用Python进行模拟数据,建立cvs文件,用于数据分析来源

本次数据分析目的------使用魔搭社区在线集成环境(IDE)进行分析"直播带货",影响因数

引入

在开始深入探讨之前,让我们先了解一下基本概念。

模型训练

指通过一个已有的机器学习模型,经过一系列的调整和优化,使之能够更好地解决特定的问题。这个过程通常包括数据准备、模型选择、模型训练、模型评估等几个关键步骤。

我们将使用魔搭社区提供的免费通译模型,并针对直播带货的数据进行微调。将根据特定的数据集(本例中是直播带货的数据)对模型进行调整,以提高其对于该类型数据的预测准确性。完成微调后,我们将自主分析模型的表现,并对其进行自我评测,最终得出一个评分来衡量模型的性能。

关于如何在魔搭社区搭建模型这里就不再赘述,感兴趣可以看看欢迎来到"魔搭社区"体验LLM模型大开发

开始起舞

1.数据导入与初步查看

首先需要将直播带货的数据导入到我们的环境中。这里我们将使用pandas库。pandas提供了强大的数据结构和数据分析工具,可以方便地读取、操作和转换数据。

与JavaScript不同,Python中的文件读取操作是同步的,这意味着如果文件较大,可能会导致程序暂时停止响应(即阻塞)。(在处理大型数据集时需要注意这一点)

python 复制代码
import pandas as pd  # 导入pandas库用于数据处理

# 读取直播带货数据文件
df_ads = pd.read_csv("直播带货.csv")

# 打印数据集大小
print(df_ads.size)

# 显示数据集的前5行,以便初步了解数据内容
df_ads.head(5)

2.数据可视化

接下来,我们利用Python的绘图功能,通过matplotlib库绘制图表,直观地观察转发量和成交额之间的关系。这一步有助于我们理解数据的分布情况以及可能存在的模式或趋势。

python 复制代码
import matplotlib.pyplot as plt  # 导入matplotlib库用于绘图

# 绘制散点图,展示转发量与成交额的关系
plt.plot(df_ads['转发量'], df_ads['成交额'], 'r.', label='data point')  # 'r.'表示红色点标记
plt.xlabel('Shares (转发量)')  # x轴标签
plt.ylabel('Sales (成交额)')  # y轴标签
plt.legend()  # 显示图例
plt.show()  # 显示图表

3.准备训练数据

下一步是准备用于训练的数据。我们需要确定哪些因素可能影响成交额,并将这些因素作为特征(X)来训练模型。同时,成交额本身将是我们的目标变量(y),也就是我们要预测的内容。

python 复制代码
# 移除目标变量'成交额',将其余所有列作为特征
X = df_ads.drop(["成交额"], axis=1)

# 将'成交额'设为目标变量
y = df_ads['成交额']

# 查看特征和目标变量的前几行
X.head()
y.head()

注意到Python的灵活性,我们可以直接用df_ads.成交额访问DataFrame中的列,不过更推荐使用方括号的方式,如df_ads['成交额'],因为它更加通用,特别是当列名包含空格或其他特殊字符时。

4.模型训练

我们假设成交额与影响它的因子之间存在线性关系,即y = ax + b。基于这一假设,我们将使用线性回归模型来进行数据分析。线性回归是一种常用的统计方法,用于建立两个或多个变量之间的线性关系。

python 复制代码
from sklearn.linear_model import LinearRegression  # 导入线性回归模型

# 创建线性回归模型实例
model = LinearRegression()

为了评估模型的性能,我们将数据分为训练集和测试集,其中80%的数据用于训练模型,剩下的20%用于测试模型的效果。这种做法可以帮助我们更好地估计模型在新数据上的表现。

python 复制代码
from sklearn.model_selection import train_test_split  # 导入数据分割工具

# 将数据分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 输出训练集和测试集的大小
print(f"训练集大小: {X_train.size}")
print(f"测试集大小: {X_test.size}")

5.模型评估

最后,我们使用训练好的模型对测试集进行预测,并计算模型的得分。得分越高,说明模型的预测效果越好。

python 复制代码
# 使用训练集训练模型
model.fit(X_train, y_train)

# 对测试集进行预测
y_pred = model.predict(X_test)

# 打印模型在测试集和训练集上的得分
print(f"线性回归预测评分(测试集): {model.score(X_test, y_test)}")
print(f"线性回归预测评分(训练集): {model.score(X_train, y_train)}")

看看这次选择模型得分:

6.结果比较

为了更直观地对比真实值和预测值,我们可以创建一个新的DataFrame,将它们并排显示出来。

python 复制代码
# 复制测试集数据
df_ads_pred = X_test.copy()

# 添加成交额的真实值和预测值
df_ads_pred['成交额真值'] = y_test
df_ads_pred['成交额预测值'] = y_pred

# 显示结果
df_ads_pred

这样一个简单数据分析就做好了。不过实践才能发现问题,快去试一下吧


我相信看到这里的小伙伴中肯定会出现绝世高手~

希望这篇文章对大家有帮助,欢迎评论区探讨学习,学会的话也还请给本文一个点赞支持哦~

相关推荐
ai产品老杨32 分钟前
报警推送消息升级的名厨亮灶开源了。
vue.js·人工智能·安全·开源·音视频
智源研究院官方账号33 分钟前
智源研究院与安谋科技达成战略合作,共建开源AI“芯”生态
人工智能·开源
积兆科技39 分钟前
从汽车企业案例看仓网规划的关键步骤(视频版)
人工智能·算法·汽车·制造
Robot25140 分钟前
「地平线」副总裁余轶南与「理想汽车」智驾产品总监赵哲伦联手创业,入局具身智能赛道!
大数据·人工智能·机器人·汽车
智能汽车人41 分钟前
行业分析---造车新势力之零跑汽车
人工智能·自动驾驶·汽车
山顶夕景1 小时前
【ML】机器学习中常见的25个数学公式
人工智能·数学·机器学习
Crossoads1 小时前
【汇编语言】外中断(一)—— 外中断的魔法:PC机键盘如何触发计算机响应
android·开发语言·数据库·深度学习·机器学习·计算机外设·汇编语言
Zik----1 小时前
Anaconda搭建Python虚拟环境并在Pycharm中配置(小白也能懂)
开发语言·人工智能·python·机器学习·pycharm
凡人的AI工具箱1 小时前
每天40分玩转Django:Django缓存
数据库·人工智能·后端·python·缓存·django
Hoper.J1 小时前
微调 BERT:实现抽取式问答
人工智能·深度学习·自然语言处理·llm·bert