第四篇: 用Python和SQL在BigQuery中进行基础数据查询

用Python和SQL在BigQuery中进行基础数据查询

在大数据分析领域,Google BigQuery 提供了一种快速且经济高效的数据处理方式。对于想要使用SQL查询大规模数据的读者来说,BigQuery的公共数据集资源丰富、操作简便,是学习和实践SQL基础操作的理想平台。

以下是一个通过Python和BigQuery进行基础SQL查询的实际案例,我们将使用Google的一个公共数据集,并以一个简单的查询示例来演示SQL在BigQuery中的应用,涵盖查询、过滤、排序和聚合操作。

1. 准备工作:选择数据集

在BigQuery中,有多个免费的公共数据集可供选择。这里我们选择了一个大家容易理解的公共数据集------Google Analytics的ecommerce数据集。该数据集包含电商网站的访问记录,包括访问者的地理位置、设备类型、访问时间以及产品销售情况等信息,非常适合用来进行电商数据分析。

示例:电商产品销售分析

假设我们是一家在线零售商,我们想要了解不同国家的销售情况,并分析销售额较高的市场。这个分析有助于公司决定将更多营销资源投入到哪些国家市场中。

2. 使用SQL进行基础查询

我们将从数据集中选择所需的字段并进行简单查询。以下是一个基本SQL查询:

sql 复制代码
SELECT 
    geoNetwork.country AS country,
    SUM(totals.transactionRevenue) AS total_revenue
FROM 
    `bigquery-public-data.google_analytics_sample.ga_sessions_20170801`
WHERE 
    totals.transactionRevenue IS NOT NULL
GROUP BY 
    country
ORDER BY 
    total_revenue DESC
LIMIT 
    10;
查询解释
  • geoNetwork.country: 查询国家字段,以便知道每个交易来自哪个国家。
  • totals.transactionRevenue: 使用总收入字段来计算每个国家的总销售额。
  • WHERE totals.transactionRevenue IS NOT NULL: 排除没有销售额的记录,使得查询只关注实际交易。
  • GROUP BY country: 按国家分组,统计每个国家的总销售额。
  • ORDER BY total_revenue DESC: 按总销售额从高到低排序,以便查看销售额最高的国家。

3. 在Python中执行查询

接下来,我们将通过Python代码在BigQuery中执行此查询,并提取结果以进行进一步分析。我们将使用Google的BigQuery Python客户端库来实现这一目标。以下是Python代码示例:

python 复制代码
from google.cloud import bigquery

# 创建BigQuery客户端
client = bigquery.Client()

# 定义查询
query = """
    SELECT 
        geoNetwork.country AS country,
        SUM(totals.transactionRevenue) AS total_revenue
    FROM 
        `bigquery-public-data.google_analytics_sample.ga_sessions_20170801`
    WHERE 
        totals.transactionRevenue IS NOT NULL
    GROUP BY 
        country
    ORDER BY 
        total_revenue DESC
    LIMIT 
        10;
"""

# 执行查询
query_job = client.query(query)
results = query_job.result()

# 输出结果
for row in results:
    print(f"{row.country}: {row.total_revenue}")

代码运行结果示例:

html 复制代码
United States: 8301950000
Finland: 2990000

Process finished with exit code 0

4. 分析和解释结果

运行查询后,我们可以看到每个国家的总销售额。通过这些数据,我们可以得出一些商业见解:

  • 识别高价值市场:在销售额最高的几个国家中,可以发现潜在的高收益市场,并优先考虑投入资源。
  • 优化广告投放:基于这些数据,公司可以在销售额较高的国家增加广告预算,从而提升整体收益。
  • 区域趋势分析:分析不同国家的消费模式,帮助制定个性化的市场策略。

5. 小结

本文介绍了如何使用BigQuery和SQL进行电商数据分析,展示了通过简单的SQL查询、数据过滤、排序和聚合来获取商业洞见的基本方法。这种分析可以应用于更多实际场景,例如用户行为分析、广告投放效果评估等。对于数据科学家和数据工程师来说,BigQuery是一种非常实用的工具,它让处理大规模数据变得更为简便和高效。

相关推荐
王小王-1232 分钟前
基于Python的车联网数据聚合与可视化分析平台设计与实现
python·车联网·新能源汽车·车联网聚合分析
Java 码思客7 分钟前
【ElasticSearch从入门到架构师】第5章:ES DSL 检索语法精讲(核心重点)
大数据·elasticsearch
lauo19 分钟前
ibbot青春版:当腾讯AI“换船”,一部手机如何成为你的Token“私矿”?
大数据·人工智能·chatgpt·智能手机·ai-native
老虾头27 分钟前
合规化背景下,本地私有 AI 成为行业主流发展方向
大数据·人工智能
行业研究员28 分钟前
腾讯会议同传功能实测与选型建议
大数据·人工智能·腾讯会议·腾讯会议会议同传
叫我:松哥29 分钟前
基于Flask框架的校园二手书籍交易平台,注重校园场景的特殊需求,通过学号认证保障用户真实性
后端·python·sqlite·flask·bootstrap
namexingyun41 分钟前
开源前端生态如何成为 AI UI 生成的“燃料“:shadcn/ui、Tailwind CSS、Storybook 技术价值全解剖
java·前端·人工智能·python·ui·开源·ai编程
Sharewinfo_BJ43 分钟前
当 BI 遇上 AI:到底是谁在帮谁?
大数据·人工智能·ai·数据分析·微软·powerbi
通信仿真爱好者44 分钟前
第【17】期--考虑硬件损伤和不完美CSI的RIS-MISO系统的深度强化学习联合优化-python完整代码+参考文献
python·深度强化学习·ris
装不满的克莱因瓶1 小时前
自然语言处理常见任务——从文本理解到生成式AI的完整任务体系
人工智能·pytorch·python·深度学习·ai·自然语言处理