【数据可视化-33】病毒式社交媒体潮流与用户参与度可视化分析

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907
💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的CSDN昵称,拉你进群,互相学习共同进步。

【数据可视化-33】病毒式社交媒体潮流与用户参与度可视化分析

    • 一、引言
    • 二、数据探索
      • [2.1 数据集介绍](#2.1 数据集介绍)
      • [2.2 数据清洗与探索](#2.2 数据清洗与探索)
    • 三、单维度特征可视化
      • [3.1 平台分布](#3.1 平台分布)
      • [3.2 内容类型分布](#3.2 内容类型分布)
      • [3.3 互动水平分布](#3.3 互动水平分布)
      • [3.4 浏览量分布](#3.4 浏览量分布)
      • [3.5 点赞量分布](#3.5 点赞量分布)
    • 四、多维度关系可视化
      • [4.1 平台与互动水平的关系](#4.1 平台与互动水平的关系)
      • [4.2 内容类型与互动水平的关系](#4.2 内容类型与互动水平的关系)
      • [4.3 平台与内容类型的关系](#4.3 平台与内容类型的关系)
      • [4.4 不同平台的浏览量与点赞量的关系](#4.4 不同平台的浏览量与点赞量的关系)
      • [4.5 平台与互动指标的关系(以点赞和分享为例)](#4.5 平台与互动指标的关系(以点赞和分享为例))
      • [4.6 地区与互动水平的关系](#4.6 地区与互动水平的关系)
      • [4.7 标签与互动水平的关系](#4.7 标签与互动水平的关系)
    • 五、总结与洞察

一、引言

数据可视化是探索和理解复杂数据集的强大工具。通过可视化分析,我们可以揭示社交媒体内容的传播趋势、用户互动特征以及各平台之间的差异。本文将基于包含丰富信息的社交媒体趋势数据集,从多个维度进行可视化探索,帮助大家更直观地把握社交媒体的动态变化。

二、数据探索

2.1 数据集介绍

本数据集包含以下变量:

  • Post_ID:每条社交媒体帖子的唯一标识符
  • Platform:社交媒体平台(TikTok, Instagram, Twitter, YouTube)
  • Hashtag:与帖子相关的热门标签
  • Content_Type:内容类型(Reel, Video, Post, Shorts, Tweet 等)
  • Region:帖子获得 traction 的国家
  • Views:帖子获得的总浏览量
  • Likes:帖子获得的点赞数
  • Shares:帖子被分享的次数
  • Comments:帖子获得的评论数
  • Engagement_Level:互动水平分类:低、中、高

2.2 数据清洗与探索

python 复制代码
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 加载数据
df = pd.read_csv('social_media_trends.csv')  # 请替换为实际文件路径

# 查看数据基本信息
print(df.info())
print(df.describe())

# 查看各列唯一值数量
print(df.nunique())

从数据的基本信息中,我们可以发现:

  • 数据集包含多种类型变量,包括类别型(如Platform、Content_Type)和数值型(如Views、Likes等)
  • 数据中一共包含5000条数据,无缺失值存在

三、单维度特征可视化

3.1 平台分布

python 复制代码
plt.figure(figsize=(10, 6))
sns.countplot(x='Platform', data=df)
plt.title('Platform Distribution')
plt.xlabel('Platform')
plt.ylabel('Count')
plt.tight_layout()
plt.show()

观察结果:不同平台的帖子数量差异并不显著,YouTube和TikTok的帖子数量较多。

3.2 内容类型分布

python 复制代码
plt.figure(figsize=(10, 6))
sns.countplot(x='Content_Type', data=df)
plt.title('Content Type Distribution')
plt.xlabel('Content Type')
plt.ylabel('Count')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

观察结果:短视频类内容(如 Reel、Post和Live Stream)占比较大,反映了当前社交媒体的趋势。

3.3 互动水平分布

python 复制代码
plt.figure(figsize=(10, 6))
sns.countplot(x='Engagement_Level', data=df)
plt.title('Engagement Level Distribution')
plt.xlabel('Engagement Level')
plt.ylabel('Count')
plt.tight_layout()
plt.show()

观察结果:大部分帖子的互动水平集中在高等和低水平,中等互动水平的帖子占比较小。

3.4 浏览量分布

python 复制代码
plt.figure(figsize=(12, 6))
sns.histplot(df['Views'], kde=True, color='teal', bins=100)
plt.title('Views Distribution')
plt.xlabel('Views')
plt.tight_layout()
plt.show()

观察结果:浏览量呈现右偏分布,大部分帖子的浏览量集中在较低水平,少数帖子获得极高浏览量。

3.5 点赞量分布

python 复制代码
plt.figure(figsize=(12, 6))
sns.histplot(df['Likes'], kde=True, color='coral', bins=100)
plt.title('Likes Distribution')
plt.xlabel('Likes')
plt.tight_layout()
plt.show()

观察结果:点赞量同样呈现右偏分布,与浏览量的趋势类似。

四、多维度关系可视化

4.1 平台与互动水平的关系

python 复制代码
plt.figure(figsize=(12, 8))
sns.countplot(x='Platform', hue='Engagement_Level', data=df, palette='Set2')
plt.title('Engagement Level Distribution by Platform')
plt.xlabel('Platform')
plt.ylabel('Count')
plt.legend(title='Engagement Level')
plt.tight_layout()
plt.show()

观察结果:不同平台的互动水平分布差异显著, YouTube和TikTok 高互动水平帖子占比较高,而 Twitter 低互动水平帖子较多。

4.2 内容类型与互动水平的关系

python 复制代码
plt.figure(figsize=(12, 8))
sns.countplot(x='Content_Type', hue='Engagement_Level', data=df, palette='husl')
plt.title('Engagement Level Distribution by Content Type')
plt.xlabel('Content Type')
plt.ylabel('Count')
plt.xticks(rotation=45)
plt.legend(title='Engagement Level')
plt.tight_layout()
plt.show()

观察结果:短视频类内容(如 Reel、Live Strame)在高互动水平帖子中占比较高,而传统帖子类型(如 Post)低互动水平帖子较多。

4.3 平台与内容类型的关系

python 复制代码
plt.figure(figsize=(12, 8))
sns.countplot(x='Platform', hue='Content_Type', data=df, palette='viridis')
plt.title('Content Type Distribution by Platform')
plt.xlabel('Platform')
plt.ylabel('Count')
plt.xticks(rotation=45)
plt.legend(title='Content Type', bbox_to_anchor=(1, 1), loc='upper left')
plt.tight_layout()
plt.show()

观察结果:不同平台的内容类型分布差异明显,Instagram 和 TikTok 以视频类内容为主,而 Twitter和YouTube 以 Post 为主。

4.4 不同平台的浏览量与点赞量的关系

python 复制代码
plt.figure(figsize=(12, 8))
sns.scatterplot(x='Views', y='Likes', hue='Platform', data=df, palette='coolwarm', alpha=0.6)
plt.title('Views vs Likes Relationship')
plt.xlabel('Views')
plt.ylabel('Likes')
plt.legend(title='Platform', bbox_to_anchor=(1, 1), loc='upper left')
plt.tight_layout()
plt.show()

观察结果:浏览量与点赞量存在显著的正相关关系,浏览量越高的帖子通常获得更多的点赞。

4.5 平台与互动指标的关系(以点赞和分享为例)

python 复制代码
plt.figure(figsize=(15, 6))

plt.subplot(1, 2, 1)
sns.boxplot(x='Platform', y='Likes', data=df)
plt.title('Likes Distribution by Platform')
plt.xlabel('Platform')
plt.ylabel('Likes')

plt.subplot(1, 2, 2)
sns.boxplot(x='Platform', y='Shares', data=df)
plt.title('Shares Distribution by Platform')
plt.xlabel('Platform')
plt.ylabel('Shares')

plt.tight_layout()
plt.show()

观察结果:不同平台的互动指标差异显著,TikTok 和 Instagram 的点赞和分享量普遍高于其他平台。

4.6 地区与互动水平的关系

python 复制代码
# 提取前10个地区的数据进行展示
top_regions = df['Region'].value_counts().head(10).index
region_df = df[df['Region'].isin(top_regions)]

plt.figure(figsize=(15, 8))
sns.countplot(x='Region', hue='Engagement_Level', data=region_df, palette='pastel')
plt.title('Engagement Level Distribution by Region')
plt.xlabel('Region')
plt.ylabel('Count')
plt.xticks(rotation=45)
plt.legend(title='Engagement Level')
plt.tight_layout()
plt.show()

观察结果:不同地区的互动水平分布存在差异,部分地区的高互动水平帖子比例较高。

4.7 标签与互动水平的关系

python 复制代码
# 提取前20个热门标签进行展示
hashtag_counts = df['Hashtag'].value_counts().head(20).index
hashtag_df = df[df['Hashtag'].isin(hashtag_counts)]

plt.figure(figsize=(15, 8))
sns.countplot(x='Hashtag', hue='Engagement_Level', data=hashtag_df, palette='muted')
plt.title('Engagement Level Distribution by Hashtag')
plt.xlabel('Hashtag')
plt.ylabel('Count')
plt.xticks(rotation=45)
plt.legend(title='Engagement Level')
plt.tight_layout()
plt.show()

观察结果:不同标签的互动水平分布差异显著,部分标签的高互动水平帖子比例较高,反映出特定话题的吸引力。

五、总结与洞察

通过以上多维度的可视化分析,我们得出以下关键洞察:

  1. 平台差异显著:不同平台的内容类型和互动水平分布差异明显,TikTok 和 Instagram 以短视频类内容为主,且高互动水平帖子占比较高。

  2. 内容类型影响互动:短视频类内容(如 Reel、Shorts)在高互动水平帖子中占比较高,反映了用户对这一内容形式的偏好。

  3. 浏览量与互动量正相关:浏览量与点赞量、分享量等互动指标存在显著的正相关关系,高浏览量帖子通常获得更多的互动。

  4. 地区与标签的影响力:不同地区的互动水平分布存在差异,部分地区的高互动水平帖子比例较高。特定标签的高互动水平帖子比例也较高,反映出地域文化和热门话题对互动的影响。

以上分析为理解社交媒体趋势和用户互动模式提供了多维度视角,揭示了各变量之间的潜在关系,为进一步的社交媒体策略制定和内容优化提供了数据支持。

相关推荐
小墙程序员24 分钟前
机器学习入门(四)决策树
机器学习
用户Taobaoapi20141 小时前
淘宝拍立淘图片搜索 API 接口:引领电商图片搜索技术发展新潮流
大数据·数据挖掘·数据分析
神经星星1 小时前
【TVM教程】在 Arduino 上为 microTVM 训练视觉模型
人工智能·机器学习·编程语言
灏瀚星空2 小时前
从基础到实战的量化交易全流程学习:1.1 量化交易本质与行业生态
人工智能·笔记·学习·数学建模·信息可视化
xiaohanbao092 小时前
day6 python数据可视化
python·学习·信息可视化·pandas
像素之间2 小时前
在线地图工具geojson.io
信息可视化
蒋点数分3 小时前
【SQL周周练】给你无酸纸、变色油墨,你能伪造多少美金?
数据分析
lilye663 小时前
精益数据分析(25/126):关键指标驱动业务发展
数据挖掘·数据分析
归去_来兮3 小时前
Bagging、Boosting、Stacking的原理
机器学习·数据分析·集成学习
pljnb4 小时前
SVM(支持向量机)
人工智能·机器学习·支持向量机