2025电脑价格数据集/构建电脑价格预测模型/数据量为 10 万行

源地址:https://www.kaggle.com/datasets/paperxd/all-computer-prices

我用夸克网盘给你分享了「电脑价格数据集」链接:https://pan.quark.cn/s/01432247d14d

基础属性:数据量为 10 万行,是多源电脑价格数据的合并版本,已完成清洗,列含义直观易懂。

核心用途:用于构建电脑价格预测模型,通过电脑的各项硬件、配置等特征,预测其对应的价格。

使用权限:遵循 CC BY 4.0 国际许可协议。

更新频率:每年更新一次,保证数据在长期使用中的时效性。

一、数据概述

py 复制代码
import pandas as pd

# 加载数据集
df = pd.read_csv('/computer_prices_all.csv')

print('数据基本信息:')
df.info()

# 查看数据集行数和列数
rows, columns = df.shape

if rows < 100 and columns < 20:
    # 短表数据(行数少于100且列数少于20)查看全量数据信息
    print('数据全部内容信息:')
    print(df.to_csv(sep='\t', na_rep='nan'))
else:
    # 长表数据查看数据前几行信息
    print('数据前几行内容信息:')
    print(df.head().to_csv(sep='\t', na_rep='nan'))
  • 文件名为 computer_prices_all.csv,包含了电脑的相关信息。
  • 该数据集共有 100000 行,包含了 device_typebrandmodel 等 33 列相关信息。

二、价格分布

1. 价格的描述性统计分析

py 复制代码
# 二、价格分布
import matplotlib.pyplot as plt
import seaborn as sns

# 获取价格的描述性统计信息,并保留两位小数
price_stats = df['price'].describe().round(2).reset_index()
print(price_stats)
index price
count 100000.00
mean 1928.76
std 580.49
min 372.99
25% 1503.99
50% 1863.99
75% 2287.99
max 10984.99

从这些统计数据中我们可以推测到以下信息:

  • 数据规模count 值为 100000.00,说明样本数量较大,这使得基于此数据的分析结果具有较高的可靠性和代表性。
  • 平均价格mean(均值)为 1928.76,这是所有价格数据的平均值,可作为整体价格水平的一个参考。
  • 价格离散程度std(标准差)为 580.49,表明价格数据相对较为分散,不同产品之间的价格差异较大。
  • 价格范围min(最小值)为 372.99,max(最大值)为 10984.99,价格跨度非常大,从几百到一万多,这可能意味着数据涵盖了不同档次、不同类型的产品。25%、50% 和 75% 分位数则进一步展示了价格数据的分布情况,例如 50% 分位数(中位数)为 1863.99,说明一半的产品价格低于这个数值。

三、品牌与设备类型

python 复制代码
# 三、品牌与设备类型
# 查看品牌分布
brand_distribution = df['brand'].value_counts()

# 查看设备类型分布
device_distribution = df['device_type'].value_counts()

print('品牌分布:')
print(brand_distribution)
print('设备类型分布:')
print(device_distribution)

1. 品牌分布

品牌 数量
Lenovo 15992
HP 14114
Dell 14005
Apple 11915
ASUS 10159
Acer 9925
Samsung 8066
MSI 7891
Gigabyte 4900
Razer 3033

从品牌分布的数据来看,联想(Lenovo)的数量最多,达到 15992,这可能表明联想在该数据所涉及的市场中市场占有率较高,具有较强的品牌竞争力。惠普(HP)和戴尔(Dell)的数量也较多,与联想处于同一梯队,说明这几个品牌在市场上较为常见,可能是消费者比较青睐的品牌。而像雷蛇(Razer)数量相对较少,可能其定位是较为小众的市场,比如游戏高端设备等特定领域。

2. 设备类型分布

设备类型 数量
Laptop 59844
Desktop 40156

在设备类型方面,笔记本电脑(Laptop)的数量远多于台式电脑(Desktop),这可能反映出在当前市场环境下,消费者对于笔记本电脑的需求更高。笔记本电脑具有便携性的特点,更符合现代人移动办公、学习和娱乐的需求。而台式电脑可能由于其体积大、不便移动等因素,受众相对较少。

四、关键硬件参数与价格的相关性

python 复制代码
# 四、关键硬件参数与价格的相关性
# 选择关键硬件参数列
hardware_columns = ['release_year', 'cpu_tier', 'cpu_cores', 'cpu_threads', 'cpu_base_ghz', 'cpu_boost_ghz',
                    'gpu_tier', 'vram_gb', 'ram_gb','storage_gb', 'display_size_in','refresh_hz', 'battery_wh',
                    'charger_watts', 'psu_watts', 'warranty_months']

# 计算与价格的相关性,并保留两位小数
correlation = df[hardware_columns + ['price']].corr()['price'].round(2).reset_index(name='相关系数').sort_values(
    by='相关系数', ascending=False)

print(correlation)

1. 关键硬件参数与价格的相关系数分析

index 相关系数
price 1.00
ram_gb 0.76
cpu_tier 0.76
gpu_tier 0.76
cpu_cores 0.72
cpu_threads 0.58
cpu_base_ghz 0.53
cpu_boost_ghz 0.51
vram_gb 0.31
battery_wh 0.15
charger_watts 0.13
release_year 0.09
storage_gb 0.09
refresh_hz 0.08
warranty_months -0.00
display_size_in -0.14
psu_watts -0.14
  • 强正相关参数ram_gb(内存容量)、cpu_tier(CPU 层级)和 gpu_tier(GPU 层级)与价格的相关系数均为 0.76,呈现强正相关。这表明在该数据集中,内存容量越大、CPU 和 GPU 层级越高,电脑价格往往越高。可以推测,对于消费者而言,这些硬件参数是影响他们对电脑价格预期的重要因素,同时也是厂商定价的关键依据。
  • 中等正相关参数cpu_cores(CPU 核心数)、cpu_threads(CPU 线程数)、cpu_base_ghz(CPU 基础主频)和 cpu_boost_ghz(CPU 睿频主频)与价格的相关系数在 0.51 - 0.72 之间,呈中等程度的正相关。这说明 CPU 的性能参数也是影响电脑价格的重要因素,性能越强价格越高。
  • 弱正相关参数vram_gb(显存容量)、battery_wh(电池容量)、charger_watts(充电器功率)、release_year(发布年份)、storage_gb(存储容量)和 refresh_hz(屏幕刷新率)与价格的相关系数较低,在 0.08 - 0.31 之间,呈现弱正相关。这些参数虽然对价格有一定影响,但相比前面的参数影响程度较小。
  • 弱负相关参数display_size_in(屏幕尺寸)和 psu_watts(电源功率)与价格呈现弱负相关,相关系数为 -0.14。这可能暗示在该数据集中,屏幕尺寸和电源功率并非是提升价格的主要因素,甚至可能存在一些特殊情况,例如某些小屏幕但高性能配置的电脑价格较高,或者电源功率的提升并没有带来明显的价格上涨。而 warranty_months(保修时长)与价格几乎无相关性。
相关推荐
AORO20256 小时前
智能三防手机哪款好?22000mAh+夜视+露营灯打造专业户外装备
服务器·网络·智能手机·电脑·1024程序员节
一晌小贪欢8 小时前
【Html模板】电商运营可视化大屏模板 Excel存储 + 一键导出(已上线-可预览)
前端·数据分析·html·excel·数据看板·电商大屏·大屏看板
ken223210 小时前
在被窝里使用笔记本电脑,容易损坏键盘?
计算机外设·电脑
毕设源码-朱学姐11 小时前
【开题答辩全过程】以 海水水质监测大数据分析为例,包含答辩的问题和答案
数据挖掘·数据分析
syt_biancheng13 小时前
操作系统整体理解(进程,冯诺依曼系统,PCB)
电脑
码界筑梦坊19 小时前
240-基于Python的医疗疾病数据可视化分析系统
开发语言·python·信息可视化·数据分析·毕业设计·echarts
Altair澳汰尔20 小时前
新闻速递丨Altair RapidMiner 数据分析和 AI 平台助力企业加速智能升级:扩展智能体 AI 及分析生态系统
人工智能·ai·数据分析·仿真·cae·rapidminer·数据自动化
图灵信徒21 小时前
R语言绘图与可视化第六章总结
python·数据挖掘·数据分析·r语言
码界筑梦坊21 小时前
243-基于Django与VUE的笔记本电脑数据可视化分析系统
vue.js·python·信息可视化·数据分析·django·毕业设计·echarts
B站_计算机毕业设计之家1 天前
大数据YOLOv8无人机目标检测跟踪识别系统 深度学习 PySide界面设计 大数据 ✅
大数据·python·深度学习·信息可视化·数据挖掘·数据分析·flask