机器学习-案例:流行电影统计

机器学习--案例:流行电影统计

现在我们有一组从2006年到2016年1000部最流行的电影数据

数据来源:https://www.kaggle.com/damianpanek/sunday-eda/data

  • 问题1:我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?
  • 问题2:对于这一组电影数据,如果我们想rating,runtime的分布情况,应该如何呈现数据?
  • 问题3:对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据?

实现

首先获取导入包,获取数据

python 复制代码
%matplotlib inline
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
python 复制代码
#文件的路径
path = "./IMDB-Movie-Data.csv"
#读取文件
df = pd.read_csv(path)

问题一:

我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?

  • 得出评分的平均分

使用mean函数

python 复制代码
df["Rating"].mean()
  • 得出导演人数信息

求出唯一值,然后进行形状获取

python 复制代码
## 导演的人数
# df["Director"].unique().shape[0]
np.unique(df["Director"]).shape[0]

问题二:

对于这一组电影数据,如果我们想Rating,**Runtime (Minutes)**的分布情况,应该如何呈现数据?

  • 直接呈现,以直方图的形式

选择分数列数据,进行plot

python 复制代码
df["Rating"].plot(kind='hist',figsize=(20,8))
  • Rating进行分布展示

进行绘制直方图

python 复制代码
plt.figure(figsize=(20,8),dpi=80)
plt.hist(df["Rating"].values,bins=20)
plt.show()

修改刻度的间隔

python 复制代码
# 求出最大最小值
max_ = df["Rating"].max()
min_ = df["Rating"].min()
# 生成刻度列表
t1 = np.linspace(min_,max_,num=21)
# [ 1.9 2.255 2.61 2.965 3.32 3.675 4.03 4.385 4.74 5.095 5.45 5.805 6.16 6.515 6.87 7.225 7.58 7.935 8.29 8.645 9.]
# 修改刻度
plt.xticks(t1)
# 添加网格
plt.grid()
  • Runtime (Minutes)进行分布展示

进行绘制直方图

python 复制代码
plt.figure(figsize=(20,8),dpi=80)
plt.hist(df["Runtime (Minutes)"].values,bins=20)
plt.show()
  • 修改间隔
python 复制代码
# 求出最大最小值
max_ = df["Runtime (Minutes)"].max()
min_ = df["Runtime (Minutes)"].min()
# # 生成刻度列表
t1 = np.linspace(min_,max_,num=21)
# 修改刻度
plt.xticks(np.linspace(min_,max_,num=21))
# 添加网格
plt.grid()

问题三:对于这一组电影数据,如果我们希望统计电影分类**(genre)**的情况,应该如何处理数据?

  • 思路
    • 1、创建一个全为0的dataframe,列索引置为电影的分类,temp_df
    • 2、遍历每一部电影,temp_df中把分类出现的列的值置为1
    • 3、求和
  • 1、创建一个全为0的dataframe,列索引置为电影的分类,temp_df
python 复制代码
# 进行字符串分割
temp_list = [i.split(",") for i in df["Genre"]]
# 获取电影的分类

genre_list = np.unique([i for j in temp_list for i in j])
# 增加新的列
temp_df = pd.DataFrame(np.zeros([df.shape[0],genre_list.shape[0]]),columns=genre_list)

2、遍历每一部电影,temp_df中把分类出现的列的值置为1

python 复制代码
for i in range(1000):
    temp_df.loc[i,temp_list[i]]=1
print(temp_df.sum().sort_values())

3、求和,绘图

python 复制代码
temp_df.sum().sort_values(ascending=False).plot(kind="bar",figsize=(20,8),fontsize=20,colormap="cool")
相关推荐
leafff12313 分钟前
一文了解LLM应用架构:从Prompt到Multi-Agent
人工智能·架构·prompt
无风听海40 分钟前
神经网络之特征值与特征向量
人工智能·深度学习·神经网络
艾莉丝努力练剑1 小时前
【C++:红黑树】深入理解红黑树的平衡之道:从原理、变色、旋转到完整实现代码
大数据·开发语言·c++·人工智能·红黑树
九章云极AladdinEdu1 小时前
论文分享 | BARD-GS:基于高斯泼溅的模糊感知动态场景重建
人工智能·新视角合成·动态场景重建·运动模糊处理·3d高斯泼溅·模糊感知建模·真实世界数据集
希露菲叶特格雷拉特1 小时前
PyTorch深度学习笔记(二十)(模型验证测试)
人工智能·pytorch·笔记
NewsMash1 小时前
PyTorch之父发离职长文,告别Meta
人工智能·pytorch·python
IT_陈寒1 小时前
Python 3.12新特性实测:10个让你的代码提速30%的隐藏技巧 🚀
前端·人工智能·后端
Ztop1 小时前
GPT-5.1 已确认!OpenAI下一步推理升级?对决 Gemini 3 在即
人工智能·gpt·chatgpt
qq_436962181 小时前
奥威BI:打破数据分析的桎梏,让决策更自由
人工智能·数据挖掘·数据分析
金融Tech趋势派1 小时前
金融机构如何用企业微信实现客户服务优化?
大数据·人工智能·金融·企业微信·企业微信scrm