R语言数据分析案例:电影评分数据的探索性分析
在本案例中,我们将使用R语言对一份电影评分数据集进行探索性分析,主要包括数据清洗、可视化、描述性统计等环节,以了解数据的基本特征和趋势。假设我们使用的是一个电影评分数据集,包含以下字段:
-
`movieId`:电影ID
-
`title`:电影名称
-
`genre`:电影类型
-
`userId`:用户ID
-
`rating`:用户对电影的评分(1-5星)
-
`timestamp`:评分时间戳
我们将通过以下步骤进行数据分析:
-
导入数据并进行基本的清洗
-
描述性统计分析
-
评分分布可视化
-
不同类型电影的评分分析
-
高分电影的用户偏好分析
一、数据导入与清洗
首先,我们需要将数据导入到R环境中,并进行初步的清洗。假设我们已经有一个名为`movies.csv`的数据文件,存储在本地。
```R
加载必要的库
library(dplyr)
library(ggplot2)
导入数据
movies <- read.csv("movies.csv")
查看数据前几行
head(movies)
```
数据清洗
接下来,我们检查数据是否有缺失值,并删除不需要的字段。
```R
检查数据是否有缺失值
sum(is.na(movies))
删除不必要的列(例如时间戳)
movies_clean <- movies %>% select(-timestamp)
确认数据清洗结果
str(movies_clean)
```
二、描述性统计分析
1. 数据集概览
我们首先了解数据集的基本统计信息,如数据集的大小、评分的分布情况等。
```R
数据集大小
nrow(movies_clean)
ncol(movies_clean)
评分的基本统计信息
summary(movies_clean$rating)
```
2. 评分的总体分布
我们可以生成评分的分布图,来查看用户给电影的评分情况。常用的方法是绘制评分的频率分布图(直方图)。
```R
评分分布的直方图
ggplot(movies_clean, aes(x = rating)) +
geom_histogram(binwidth = 0.5, fill = "blue", color = "black", alpha = 0.7) +
labs(title = "电影评分分布", x = "评分", y = "频率") +
theme_minimal()
```
通过这个图,我们可以直观地看到大部分用户的评分分布,是否有倾向于中间分数或高分段。
三、按电影类型分析评分分布
不同类型的电影可能会有不同的评分分布。我们可以按`genre`对评分进行分组,并计算每个电影类型的平均评分。
```R
按电影类型计算平均评分
genre_rating <- movies_clean %>%
group_by(genre) %>%
summarise(avg_rating = mean(rating), count = n()) %>%
arrange(desc(avg_rating))
查看按类型的平均评分
head(genre_rating)
可视化不同电影类型的评分分布
ggplot(genre_rating, aes(x = reorder(genre, avg_rating), y = avg_rating)) +
geom_bar(stat = "identity", fill = "skyblue") +
coord_flip() +
labs(title = "按电影类型的平均评分", x = "电影类型", y = "平均评分") +
theme_minimal()
```
该图表清楚地展示了不同类型的电影的平均评分情况,可以帮助我们了解哪些类型的电影更受欢迎。
四、高评分电影的用户偏好分析
接下来,我们可以筛选出高评分的电影(比如评分大于4.5分的电影),并查看哪些电影是评分较高的热门电影。
```R
筛选评分大于4.5的电影
high_rating_movies <- movies_clean %>%
filter(rating > 4.5) %>%
group_by(title) %>%
summarise(avg_rating = mean(rating), rating_count = n()) %>%
arrange(desc(avg_rating))
查看前10名高评分电影
head(high_rating_movies, 10)
可视化高评分电影的分布
ggplot(high_rating_movies[1:10, ], aes(x = reorder(title, avg_rating), y = avg_rating)) +
geom_bar(stat = "identity", fill = "lightgreen") +
coord_flip() +
labs(title = "评分最高的前10部电影", x = "电影名称", y = "平均评分") +
theme_minimal()
```
五、用户评分行为分析
除了电影本身的评分分布外,我们还可以进一步分析用户的评分行为。例如,分析用户的评分活跃度,或者不同用户对同一类型电影的评分差异。
1. 用户评分活跃度
```R
计算每个用户的评分次数
user_activity <- movies_clean %>%
group_by(userId) %>%
summarise(rating_count = n()) %>%
arrange(desc(rating_count))
可视化用户评分活跃度
ggplot(user_activity, aes(x = rating_count)) +
geom_histogram(binwidth = 5, fill = "orange", color = "black", alpha = 0.7) +
labs(title = "用户评分活跃度分布", x = "评分次数", y = "用户数") +
theme_minimal()
```
2. 不同用户对同类电影的评分差异
我们可以进一步分析,不同用户在同类型电影中的评分是否存在较大的差异。这可以帮助我们识别用户的评分习惯或偏好。
```R
按用户和类型计算平均评分
user_genre_rating <- movies_clean %>%
group_by(userId, genre) %>%
summarise(avg_rating = mean(rating)) %>%
arrange(desc(avg_rating))
查看前几行数据
head(user_genre_rating)
```
六、总结
通过以上分析,我们使用R语言对电影评分数据进行了深入的探索性分析。从数据清洗、描述性统计到可视化分析,不仅揭示了电影评分的分布情况,还分析了不同电影类型的评分趋势以及用户的评分偏好。R语言强大的数据处理能力和丰富的可视化工具使得数据分析更加高效和直观。
通过此案例,您可以扩展到其他数据集的分析,例如电商数据、用户行为数据等,探索更多的商业价值与洞察。