源地址:https://www.kaggle.com/datasets/paperxd/all-computer-prices
我用夸克网盘给你分享了「电脑价格数据集」链接:https://pan.quark.cn/s/01432247d14d
基础属性:数据量为 10 万行,是多源电脑价格数据的合并版本,已完成清洗,列含义直观易懂。
核心用途:用于构建电脑价格预测模型,通过电脑的各项硬件、配置等特征,预测其对应的价格。
使用权限:遵循 CC BY 4.0 国际许可协议。
更新频率:每年更新一次,保证数据在长期使用中的时效性。
一、数据概述
py
import pandas as pd
# 加载数据集
df = pd.read_csv('/computer_prices_all.csv')
print('数据基本信息:')
df.info()
# 查看数据集行数和列数
rows, columns = df.shape
if rows < 100 and columns < 20:
# 短表数据(行数少于100且列数少于20)查看全量数据信息
print('数据全部内容信息:')
print(df.to_csv(sep='\t', na_rep='nan'))
else:
# 长表数据查看数据前几行信息
print('数据前几行内容信息:')
print(df.head().to_csv(sep='\t', na_rep='nan'))
- 文件名为 computer_prices_all.csv,包含了电脑的相关信息。
- 该数据集共有 100000 行,包含了
device_type、brand、model等 33 列相关信息。
二、价格分布
1. 价格的描述性统计分析
py
# 二、价格分布
import matplotlib.pyplot as plt
import seaborn as sns
# 获取价格的描述性统计信息,并保留两位小数
price_stats = df['price'].describe().round(2).reset_index()
print(price_stats)
| index | price |
|---|---|
| count | 100000.00 |
| mean | 1928.76 |
| std | 580.49 |
| min | 372.99 |
| 25% | 1503.99 |
| 50% | 1863.99 |
| 75% | 2287.99 |
| max | 10984.99 |
从这些统计数据中我们可以推测到以下信息:
- 数据规模 :
count值为 100000.00,说明样本数量较大,这使得基于此数据的分析结果具有较高的可靠性和代表性。 - 平均价格 :
mean(均值)为 1928.76,这是所有价格数据的平均值,可作为整体价格水平的一个参考。 - 价格离散程度 :
std(标准差)为 580.49,表明价格数据相对较为分散,不同产品之间的价格差异较大。 - 价格范围 :
min(最小值)为 372.99,max(最大值)为 10984.99,价格跨度非常大,从几百到一万多,这可能意味着数据涵盖了不同档次、不同类型的产品。25%、50% 和 75% 分位数则进一步展示了价格数据的分布情况,例如 50% 分位数(中位数)为 1863.99,说明一半的产品价格低于这个数值。
三、品牌与设备类型
python
# 三、品牌与设备类型
# 查看品牌分布
brand_distribution = df['brand'].value_counts()
# 查看设备类型分布
device_distribution = df['device_type'].value_counts()
print('品牌分布:')
print(brand_distribution)
print('设备类型分布:')
print(device_distribution)
1. 品牌分布
| 品牌 | 数量 |
|---|---|
| Lenovo | 15992 |
| HP | 14114 |
| Dell | 14005 |
| Apple | 11915 |
| ASUS | 10159 |
| Acer | 9925 |
| Samsung | 8066 |
| MSI | 7891 |
| Gigabyte | 4900 |
| Razer | 3033 |
从品牌分布的数据来看,联想(Lenovo)的数量最多,达到 15992,这可能表明联想在该数据所涉及的市场中市场占有率较高,具有较强的品牌竞争力。惠普(HP)和戴尔(Dell)的数量也较多,与联想处于同一梯队,说明这几个品牌在市场上较为常见,可能是消费者比较青睐的品牌。而像雷蛇(Razer)数量相对较少,可能其定位是较为小众的市场,比如游戏高端设备等特定领域。
2. 设备类型分布
| 设备类型 | 数量 |
|---|---|
| Laptop | 59844 |
| Desktop | 40156 |
在设备类型方面,笔记本电脑(Laptop)的数量远多于台式电脑(Desktop),这可能反映出在当前市场环境下,消费者对于笔记本电脑的需求更高。笔记本电脑具有便携性的特点,更符合现代人移动办公、学习和娱乐的需求。而台式电脑可能由于其体积大、不便移动等因素,受众相对较少。
四、关键硬件参数与价格的相关性
python
# 四、关键硬件参数与价格的相关性
# 选择关键硬件参数列
hardware_columns = ['release_year', 'cpu_tier', 'cpu_cores', 'cpu_threads', 'cpu_base_ghz', 'cpu_boost_ghz',
'gpu_tier', 'vram_gb', 'ram_gb','storage_gb', 'display_size_in','refresh_hz', 'battery_wh',
'charger_watts', 'psu_watts', 'warranty_months']
# 计算与价格的相关性,并保留两位小数
correlation = df[hardware_columns + ['price']].corr()['price'].round(2).reset_index(name='相关系数').sort_values(
by='相关系数', ascending=False)
print(correlation)
1. 关键硬件参数与价格的相关系数分析
| index | 相关系数 |
|---|---|
| price | 1.00 |
| ram_gb | 0.76 |
| cpu_tier | 0.76 |
| gpu_tier | 0.76 |
| cpu_cores | 0.72 |
| cpu_threads | 0.58 |
| cpu_base_ghz | 0.53 |
| cpu_boost_ghz | 0.51 |
| vram_gb | 0.31 |
| battery_wh | 0.15 |
| charger_watts | 0.13 |
| release_year | 0.09 |
| storage_gb | 0.09 |
| refresh_hz | 0.08 |
| warranty_months | -0.00 |
| display_size_in | -0.14 |
| psu_watts | -0.14 |
- 强正相关参数 :
ram_gb(内存容量)、cpu_tier(CPU 层级)和gpu_tier(GPU 层级)与价格的相关系数均为 0.76,呈现强正相关。这表明在该数据集中,内存容量越大、CPU 和 GPU 层级越高,电脑价格往往越高。可以推测,对于消费者而言,这些硬件参数是影响他们对电脑价格预期的重要因素,同时也是厂商定价的关键依据。 - 中等正相关参数 :
cpu_cores(CPU 核心数)、cpu_threads(CPU 线程数)、cpu_base_ghz(CPU 基础主频)和cpu_boost_ghz(CPU 睿频主频)与价格的相关系数在 0.51 - 0.72 之间,呈中等程度的正相关。这说明 CPU 的性能参数也是影响电脑价格的重要因素,性能越强价格越高。 - 弱正相关参数 :
vram_gb(显存容量)、battery_wh(电池容量)、charger_watts(充电器功率)、release_year(发布年份)、storage_gb(存储容量)和refresh_hz(屏幕刷新率)与价格的相关系数较低,在 0.08 - 0.31 之间,呈现弱正相关。这些参数虽然对价格有一定影响,但相比前面的参数影响程度较小。 - 弱负相关参数 :
display_size_in(屏幕尺寸)和psu_watts(电源功率)与价格呈现弱负相关,相关系数为 -0.14。这可能暗示在该数据集中,屏幕尺寸和电源功率并非是提升价格的主要因素,甚至可能存在一些特殊情况,例如某些小屏幕但高性能配置的电脑价格较高,或者电源功率的提升并没有带来明显的价格上涨。而warranty_months(保修时长)与价格几乎无相关性。