kaggle分析项目:steam付费游戏数据分析

Steam付费游戏数据分析报告

1. 数据概览(字段解释与清洗过程)

数据来源于 kaggle 的Steam平台畅销游戏数据集(bestSelling_games.csv),共2380条记录。以下是字段解释:

  • game_name: 游戏名称。
  • reviews_like_rate: 好评率,用于计算玩家满意度。
  • all_reviews_number: 总评价数量,反映游戏热度。
  • release_date: 发行日期,清洗后转换为datetime格式。
  • developer: 开发商名称。
  • user_defined_tags: 用户定义标签,如"Action, RPG",用于分析玩家偏好。
  • supported_os: 支持的操作系统,如"win, linux"。
  • supported_languages: 支持的语言,如"English, Simplified Chinese"。
  • price: 价格,免费游戏为0。
  • other_features: 其他特性,如"Online PvP"。
  • age_restriction: 年龄限制,0-17表示最低年龄。
  • rating: 游戏评分,基于玩家反馈。
  • difficulty: 难度,1=简单,5=硬核。
  • length: 游戏时长,估计通关时间。
  • estimated_downloads: 预估下载量,代表销量。

数据清洗过程

  • 日期处理 :将release_date转换为datetime格式,并添加release_year列(发行年份),便于时间趋势分析。例如:

    python 复制代码
    df['release_date'] = pd.to_datetime(df['release_date'])
    df['release_year'] = df['release_date'].dt.year
  • 好评率标准化 :添加positive_ratio列,将reviews_like_rate除以100转换为比率(0-1)。

  • 数据分割 :基于价格分为免费游戏(df_free,169条)和付费游戏(df_paid,2211条),并重置索引。

  • 缺失值检查 :使用df.info()确认无缺失值(所有字段2380非空)。

  • 数值描述df.describe()显示关键统计量(如价格均值$10.51,难度均值2.86)。清洗后数据聚焦付费游戏分析。

清洗后,付费游戏数据分布更清晰,为后续分析奠定基础。

2. 市场概况

付费游戏市场呈现以下特征:

  • 发行年份趋势 :付费游戏年发布量从早期(约2012年)稳步增长,2017年后显著增加,2020-2025年达高峰(年均200+款),反映Steam平台扩张和开发者投入增加。文档中折线图显示峰值在2024年(25年数据不全)。

  • 价格分布:付费游戏价格集中于0-20区间(占比约75%),均值10.51,中位数7.99,高价位游戏(>$50)较少。直方图显示右偏分布,表明低价策略主流。

  • 评分分布:质量中位化趋势,70%游戏评分落在2.5-4.5分区间,4分附近出现明显峰值,超高分与超低分游戏占比都很低,但整体评分偏高。

  • 难度设计:迎合大众偏好,中等难度占主流,高难度硬核游戏占比很低。

  • 游戏时长:碎片化特征显著,70%游戏时长<20小时,符合游戏"碎片化娱乐"趋势。

  • 开发商格局 :市场高度分散,头部开发商占主导。前20大开发商包括Valve、CAPCOM和Square Enix,其中Valve发行游戏最多(13款)。WordCloud可视化突出开发商影响力。

  • 重点游戏 :基于评价数量,热门付费游戏包括《ELDEN RING》、《The Witcher 3: Wild Hunt》和《Stardew Valley》等等。这些游戏评价数超10万,下载量高,反映高人气和商业成功。

市场显示Steam付费游戏生态以低价、高频发布为主,头部开发商和IP驱动增长。

3. 玩家偏好(评价数量与预估销量、标签聚类)

玩家行为分析揭示核心偏好:

  • 评价与下载量关系 :评价数量与预估下载量强相关(Pearson r=0.79, p<0.001)。对数变换后散点图显示线性趋势,表明评价数可作为销量代理指标。高评价游戏(如《ELDEN RING》)下载量常超百万。

  • 标签聚类分析:用户标签共现网络识别玩家偏好社群:

    • 社群1:策略类标签(如"Strategy, Simulation, Building"),代表管理建造游戏。
    • 社群2:故事驱动类(如"Story Rich, Adventure, RPG"),吸引叙事爱好者。
    • 社群3:动作类(如"Action, FPS, Souls-like"),硬核玩家偏好。
    • 社群4 :生存类(如"Survival, Open World"),流行于沙盒游戏。
      网络图显示标签关联度(边权重>3),节点大小表示频次,颜色反映PageRank中心性(如"Action"和"RPG"为核心标签)。
python 复制代码
聚类 1: ['', 'Tactical', 'Card Game', 'Simulation', 'War', 'Management', 'Driving', 'Turn-Based', 'Sports', 'Strategy', 'Sandbox', 'Automation', 'Building', 'Realistic', 'Early Access']
聚类 2: ['Pixel Graphics', 'JRPG', '2D', 'Adventure', 'Anime', 'Puzzle', 'Cute', 'Visual Novel', 'Platformer', 'Sexual Content', 'Fighting', 'Story Rich']
聚类 3: ['2.5D', 'Action', 'Combat', 'Souls-like', 'Shooter', 'Roguelike', 'CRPG', 'Fantasy', 'RPG', 'Stealth', 'FPS']
聚类 4: ['Crafting', 'Horror', 'MMORPG', 'Open World', 'Survival']

玩家偏好集中于高互动性类型(动作、RPG),评价数据驱动购买决策。

4. 商业洞察(知名开发商、简中游戏变化、付费免费对比、硬核游戏画像)

关键商业发现:

  • 知名开发商表现 :Top 20开发商(游戏数≥3)中,Rockstar Games和FromSoftware评分最高(平均4.12和3.94),但高价开发商(如Visual Concepts,均价63.32)下载量较低。性价比高的开发商(如Valve,均价6.77)更易获高下载量(中位数2145万)。这表明高质量内容需平衡定价。

  • 简中游戏支持趋势 :支持简体中文的游戏数量逐年上升,从2012年不足50款增至2025年超200款。英语支持率近100%,日语支持稳定。折线图显示简中游戏增长快于日语,瞄准亚洲市场扩张。

  • 付费与免费游戏对比 :付费游戏好评率更高(平均82.41% vs 72.46%),但免费游戏下载量更高(平均1069万 vs 189万)。免费游戏时长更长(平均40.1小时 vs 21.6小时),反映"免费+内购"模式黏性强。条形图对比关键指标。

  • 硬核游戏画像 :定义硬核游戏(难度>3、时长>30小时、评分≥3.5),共识别出高潜力群体。常见标签包括"Action"(57次)、"RPG"(32次)和"Open World"(22次)。价格集中于20-40(直方图),开发商如FromSoftware主导。

商业上,本地化(尤其简体中文)和硬核游戏是增长点,免费模式在下载量占优但付费游戏用户满意度更高。

5. 结论与建议

结论总结

  • 付费游戏主导Steam市场(92.9%),好评率高(平均82.41%),但下载量低于免费游戏。
  • 玩家偏好动作、RPG和开放世界标签,评价数量强预测销量(r=0.79)。
  • 市场趋势:发行量增长、简中支持上升、硬核游戏需求强(均价20-40)。
  • 开发商方面,高评分者(如Rockstar Games)溢价能力强,但性价比开发商更易获高下载量。

建议

  • 给开发者
    • 定价策略:主推10-20区间(覆盖75%游戏),硬核游戏可溢价至30-40(基于画像数据)。避免> $50的高风险定价。
    • 内容开发:强化标签聚类(如整合"Action+RPG"),并增加简体中文支持以捕捉亚洲市场增长。
    • 发行时机:利用年发布趋势,瞄准高峰年份(如2023-2025)上线。
  • 给类平台
    • 运营活动:推广高相关性标签游戏(如网络图中的核心社群),举办"硬核游戏周"或"简中支持专题"。
    • 数据驱动:利用评价-下载量相关性,优化推荐算法(高评价游戏优先曝光)。
    • 免费与付费平衡:鼓励开发者采用混合模式(如免费试玩+付费DLC),参考免费游戏的下载量优势。
相关推荐
Blossom.11813 分钟前
基于深度学习的图像分类:使用Capsule Networks实现高效分类
人工智能·python·深度学习·神经网络·机器学习·分类·数据挖掘
CodeCraft Studio21 分钟前
借助Aspose.HTML控件,在 Python 中将 HTML 转换为 Markdown
开发语言·python·html·markdown·aspose·html转markdown·asposel.html
悠哉悠哉愿意40 分钟前
【电赛学习笔记】MaxiCAM 项目实践——与单片机的串口通信
笔记·python·单片机·嵌入式硬件·学习·视觉检测
封奚泽优1 小时前
使用Python实现单词记忆软件
开发语言·python·random·qpushbutton·qtwidgets·qtcore·qtgui
Goona_1 小时前
拒绝SQL恐惧:用Python+pyqt打造任意Excel数据库查询系统
数据库·python·sql·excel·pyqt
★YUI★2 小时前
学习游戏制作记录(剑投掷技能)7.26
学习·游戏·unity·c#
xw33734095642 小时前
彩色转灰度的核心逻辑:三种经典方法及原理对比
人工智能·python·深度学习·opencv·计算机视觉
倔强青铜三2 小时前
为什么 self 与 super() 成了 Python 的永恒痛点?
人工智能·python·面试
墨尘游子2 小时前
目标导向的强化学习:问题定义与 HER 算法详解—强化学习(19)
人工智能·python·算法
小白学大数据3 小时前
基于Python的新闻爬虫:实时追踪行业动态
开发语言·爬虫·python