第五篇: 使用Python和BigQuery进行电商数据分析与可视化

使用Python和BigQuery进行电商数据分析与可视化

大数据分析对于电商业务的洞察至关重要。在这篇文章中,我们将使用Python结合Google BigQuery来分析电商数据集,以最畅销商品平均订单价格最高的前10位客户为主题,展示如何通过数据可视化提供有价值的业务见解。我们将重点介绍数据提取和可视化,帮助读者掌握在实际场景中如何直观展示数据分析结果。

1. 数据集与分析目标

本文使用Google BigQuery提供的公共电商数据集bigquery-public-data:thelook_ecommerce,其中包含用户的购买行为和商品信息等数据。本文的主要分析目标有两个:

  • 最畅销商品:分析销售量排名最高的商品。
  • 平均订单价格最高的前10位客户:识别在平均订单价格上消费较高的客户,以支持客户关系管理。

2. 设置环境并连接BigQuery

首先,确保安装了BigQuery的Python客户端库以及Matplotlib和Seaborn数据可视化库:

bash 复制代码
pip install google-cloud-bigquery matplotlib seaborn

初始化BigQuery客户端并进行身份验证:

python 复制代码
from google.cloud import bigquery

# 初始化BigQuery客户端
client = bigquery.Client()

3. 查询并获取数据

接下来,我们使用SQL查询BigQuery中的数据,提取最畅销商品和平均订单价格最高的前10位客户的数据。

查询1:最畅销商品

计算订单中每个商品的销量,并按销量从高到低排序:

sql 复制代码
SELECT 
    oi.product_id AS product_id, 
    p.name AS product_name, 
    p.category AS product_category, 
    COUNT(*) AS num_of_orders 
FROM 
    `bigquery-public-data.thelook_ecommerce.products` AS p 
JOIN 
    `bigquery-public-data.thelook_ecommerce.order_items` AS oi 
ON 
    p.id = oi.product_id 
GROUP BY 
    1, 2, 3 
ORDER BY 
    num_of_orders DESC;

在Python中执行该查询:

python 复制代码
# 查询最畅销商品
best_selling_query = """
SELECT 
    oi.product_id AS product_id, 
    p.name AS product_name, 
    p.category AS product_category, 
    COUNT(*) AS num_of_orders 
FROM 
    `bigquery-public-data.thelook_ecommerce.products` AS p 
JOIN 
    `bigquery-public-data.thelook_ecommerce.order_items` AS oi 
ON 
    p.id = oi.product_id 
GROUP BY 
    1, 2, 3 
ORDER BY 
    num_of_orders DESC;
"""
best_selling_items = client.query(best_selling_query).to_dataframe()
查询2:平均订单价格最高的前10位客户

获取每个客户的平均订单价格,并按降序排列以显示消费水平最高的10位客户:

sql 复制代码
SELECT 
    u.id AS user_id, 
    u.first_name, 
    u.last_name, 
    AVG(oi.sale_price) AS avg_sale_price 
FROM 
    `bigquery-public-data.thelook_ecommerce.users` AS u 
JOIN 
    `bigquery-public-data.thelook_ecommerce.order_items` AS oi 
ON 
    u.id = oi.user_id 
GROUP BY 
    1, 2, 3 
ORDER BY 
    avg_sale_price DESC 
LIMIT 10;

在Python中执行查询:

python 复制代码
# 查询平均订单价格最高的前10位客户
top_customers_query = """
SELECT 
    u.id AS user_id, 
    u.first_name, 
    u.last_name, 
    AVG(oi.sale_price) AS avg_sale_price 
FROM 
    `bigquery-public-data.thelook_ecommerce.users` AS u 
JOIN 
    `bigquery-public-data.thelook_ecommerce.order_items` AS oi 
ON 
    u.id = oi.user_id 
GROUP BY 
    1, 2, 3 
ORDER BY 
    avg_sale_price DESC 
LIMIT 10;
"""
top_customers = client.query(top_customers_query).to_dataframe()

4. 数据可视化

获取数据后,接下来用Matplotlib和Seaborn将结果进行可视化。

4.1 最畅销商品柱状图

将最畅销商品按销量绘制成柱状图:

python 复制代码
import matplotlib.pyplot as plt
import seaborn as sns

# 绘制最畅销商品的柱状图
plt.figure(figsize=(10, 6))
sns.barplot(x='num_of_orders', y='product_name', data=best_selling_items.head(10), palette='viridis')
plt.title('Top 10 Best Selling Products')
plt.xlabel('Number of Orders')
plt.ylabel('Product Name')
plt.yticks(rotation=45, fontsize=8)  # 旋转45度并缩小字体
plt.show()

代码绘制图表示例:

4.2 平均订单价格最高的前10位客户饼图

将前10位客户的平均订单价格按比例绘制成饼图,展示客户消费贡献情况。

python 复制代码
# 绘制平均订单价格最高的前10位客户饼图
labels = top_customers['first_name'] + ' ' + top_customers['last_name']
sizes = top_customers['avg_sale_price']

plt.figure(figsize=(8, 8))
plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=140)
plt.title('Top 10 Customers by Average Order Price')
plt.show()

代码绘制图表示例:

5. 分析结果

  • 最畅销商品:通过柱状图展示商品销量,便于识别出在市场中更受欢迎的产品,有助于制定营销策略。
  • 前10位客户的平均订单价格:饼图显示这些高消费客户的相对贡献,可以为建立客户关系和激励措施提供支持。

总结

本文介绍了如何使用Python和Google BigQuery进行电商数据分析,展示了从数据提取到结果可视化的完整流程。在电商数据分析中,数据的可视化帮助我们更快识别业务趋势,未来还可以拓展至更复杂的分析需求,例如客户分层、产品推荐等。

相关推荐
PersistJiao8 分钟前
在 Spark RDD 中,sortBy 和 top 算子的各自适用场景
大数据·spark·top·sortby
进击的六角龙13 分钟前
深入浅出:使用Python调用API实现智能天气预报
开发语言·python
檀越剑指大厂13 分钟前
【Python系列】浅析 Python 中的字典更新与应用场景
开发语言·python
2301_8112743120 分钟前
大数据基于Spring Boot的化妆品推荐系统的设计与实现
大数据·spring boot·后端
湫ccc21 分钟前
Python简介以及解释器安装(保姆级教学)
开发语言·python
孤独且没人爱的纸鹤24 分钟前
【深度学习】:从人工神经网络的基础原理到循环神经网络的先进技术,跨越智能算法的关键发展阶段及其未来趋势,探索技术进步与应用挑战
人工智能·python·深度学习·机器学习·ai
羊小猪~~28 分钟前
tensorflow案例7--数据增强与测试集, 训练集, 验证集的构建
人工智能·python·深度学习·机器学习·cnn·tensorflow·neo4j
Yz987628 分钟前
hive的存储格式
大数据·数据库·数据仓库·hive·hadoop·数据库开发
青云交28 分钟前
大数据新视界 -- 大数据大厂之 Hive 数据导入:多源数据集成的策略与实战(上)(3/ 30)
大数据·数据清洗·电商数据·数据整合·hive 数据导入·多源数据·影视娱乐数据
lzhlizihang30 分钟前
python如何使用spark操作hive
hive·python·spark