【愚公系列】《数据可视化分析与实践》021-数据集(数据集管理)

💎【行业认证·权威头衔】

✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家

✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主

✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者

🏆【荣誉殿堂】

🎖 连续三年蝉联"华为云十佳博主"(2022-2024)

🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)

🎖 十余个技术社区年度杰出贡献奖得主

📚【知识宝库】

覆盖全栈技术矩阵:

◾ 编程语言:.NET/Java/Python/Go/Node...

◾ 移动生态:HarmonyOS/iOS/Android/小程序

◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙

◾ 游戏开发:Unity3D引擎深度解析

文章目录


🚀前言

前面对数据分析过程中数据来源的问题进行了详尽的探讨。本文将深入分析数据集的功能,介绍单表数据集、多表关联数据集和自定义SQL数据集的构建方法,并阐述数据集管理和定时同步数据的策略,为后续的数据分析或报表制作进行必要的数据准备。读者能够通过关联和处理表格中的数据,自由地组合并形成个性化的数据集合,以满足后续业务分析和图表制作的需求。

在DataEase中,数据集是核心的功能模块,为接下来的数据分析或报表制作进行必要的数据准备。DataEase中有3种数据集:单表数据集、自定义SQL数据集和多表关联数据集。这3种数据集各自适用于不同的使用场景。

在讲解3种数据集之前,先对DataEase中多元化的数据源进行概括性的分类,主要包括:数据库(涵盖OLTP、OLAP型数据库及数据湖)、API数据和本地文件。数据库中的数据是以表的形式存储的;API数据源通过接口获取数据后,数据在DataEase中也会被转化为数据表的形式并存储;同理,本地文件(如Excel文件)的每一个sheet页也会被转换成一张数据表。尽管这些表的命名规则可能略有不同,例如,API数据表以"api_"为前缀,Excel文件则以"excel"为前缀,数据库数据表则维持表原来的名字,但DataEase中最终的存储单位都是数据表。

因此,无论数据源的类型如何,一旦与DataEase连接,其数据最终都将以表的形式进行存储和展示。

🚀一、数据集管理

在DataEase中成功创建数据集后,为了使其更贴合实际分析需求,通常需要进行一系列的调整和优化。数据集管理功能提供了对数据集进行精细化编辑和增强的能力,涵盖从字段基础调整到创建衍生指标的全方位操作。熟练运用这些功能,能显著提升数据准备的效率与分析结果的准确性。

🔎1.基础管理

在数据集详情页的字段列表中,除了查看字段,还可以对每个字段执行多种基础管理操作。如图7-20所示,点击字段右侧的 【:】 操作菜单,即可看到以下功能:

图7-20 数据集字段操作菜单

  1. 转换为指标 / 转换为维度

    • 维度:通常是分类、文本或日期字段,用于对数据进行分组、筛选和分类(如"地区"、"产品类别"、"年月")。
    • 指标:通常是数值字段,用于进行度量、计算和聚合(如"销售额"、"数量"、"利润")。
    • 操作 :DataEase会根据字段的数据类型自动判断其初始角色,但您可以根据分析需求手动切换。例如,将数值型的"客户ID"从指标 转换为维度,以便按客户进行计数分析;或将文本型的"年份"(如"2023")从维度转换为指标以进行某些特定计算。这决定了该字段在后续图表制作中默认的使用方式。
  2. 更换字段类型

    • 如果系统自动识别的字段类型不正确(例如将日期识别为文本,或将数字识别为文本),必须在此进行更正。
    • 支持的类型包括:文本整型浮点型日期日期时间等。
    • 正确性至关重要:错误的字段类型会导致无法正确进行日期计算、数值汇总或排序。
  3. 重命名

    • 将技术性的字段名(如 product_id, amt)改为更易理解的业务名称(如 产品编号, 销售金额)。这能大幅提升后续制作图表和阅读报告时的体验。
  4. 复制

    • 快速复制一个现有字段,作为创建新计算字段或进行不同转换的起点。
  5. 删除

    • 移除数据集中不需要的字段,使数据集更加简洁,专注于核心分析指标。

批量管理操作:对于关联数据集等复杂情况,DataEase还提供了更高级的批量管理界面。如图7-21所示,您可以在此界面集中查看和修改所有来源表的字段及其属性,管理效率更高。

图7-21 数据集批量管理/字段编辑界面

🔎2.新建计算字段

计算字段 是数据集管理中最强大的功能之一。它允许您基于现有字段,通过公式或函数创建出新的衍生字段,而无需修改原始数据源。这极大地扩展了数据分析的深度和灵活性。

🦋2.1 新建计算字段注意事项

在创建计算字段前,请理解以下关键点:

  1. 表达式能力强大
    • 不仅支持基础的算术运算(+, -, *, /)和逻辑运算(AND, OR, >)。
    • 更重要的是,它支持底层数据源所对应数据库的绝大多数内置函数 。例如:
      • 如果数据源是 MySQL ,您可以使用MySQL的函数,如字符串函数 CONCAT(), SUBSTRING(),日期函数 DATE_FORMAT(), YEAR(),条件函数 IF(), CASE WHEN 等。
      • 如果数据源是 PostgreSQLClickHouse,则可以使用对应数据库的函数集。
      • 这相当于在DataEase界面中直接编写数据库SQL表达式片段,功能非常强大。
  2. 支持嵌套计算
    • 已经创建好的计算字段,可以被其他的计算字段引用,进行二次计算。这使得可以构建复杂的、多层的业务指标。

🦋2.2 新建计算字段案例讲解

下面通过两个典型案例,演示如何创建计算字段。

☀️案例一:截取商品名称的前两个字

此操作常用于从较长的名称中提取关键分类信息。

操作步骤

  1. 在数据集字段管理区域,点击 【新建计算字段】 按钮(见图7-22)。

    图7-22 数据集页面上的"新建计算字段"按钮

  2. 系统弹出"新建计算字段"对话框(见图7-23)。进行如下配置:

    • 字段名称 :输入 商品名称前两个字

    • 数据类型 :选择 文本

    • 字段类型 :通常选择 维度

    • 字段表达式 :这是核心。我们需要使用字符串截取函数。假设数据库是MySQL,函数为 SUBSTRING()。表达式应写为:

      复制代码
      SUBSTRING([商品名称], 1, 2)

      其中 [商品名称] 表示引用原"商品名称"字段,1 表示起始位置,2 表示截取长度。

    • 您可以通过点击"引用函数"链接查看可用函数列表,或直接输入。

    图7-23 新建计算字段对话框(案例一配置)

  3. 点击 【确认】 保存。新的计算字段 商品名称前两个字 会出现在字段列表中(见图7-24)。

    图7-24 计算字段"商品名称前两个字"添加成功

  4. 切换到 【数据预览】 标签页,点击 【刷新数据】 按钮。在预览表格中,您可以看到新增加的列,其值为每个商品名称的前两个字(见图7-25)。

    图7-25 预览包含新计算字段的数据

☀️案例二:计算商品销售额

这是最经典的计算字段应用,通过单价和数量计算交易金额。

操作步骤

  1. 再次点击 【新建计算字段】 按钮。

  2. 在配置对话框中(见图7-26):

    • 字段名称 :输入 销售额

    • 数据类型 :选择 浮点型(因为金额通常带小数)。

    • 字段类型 :选择 指标(因为它是可度量的数值)。

    • 字段表达式 :输入乘法公式:

      复制代码
      [商品单价] * [销售数量]

      确保字段名与数据集中的实际字段名一致。

    图7-26 新建计算字段对话框(案例二配置)

  3. 点击 【确认】 保存。字段列表中出现 销售额 字段(见图7-27)。

    图7-27 计算字段"销售额"添加成功

  4. 切换到 【数据预览】 页并刷新,即可看到每一行数据都计算出了对应的销售额(见图7-28)。

    图7-28 预览包含"销售额"计算字段的数据

总结与高级应用思路

通过数据集的基础管理和计算字段功能,您可以将原始数据"加工"成真正适合分析的模样:

  • 基础管理 确保数据干净、结构清晰(正确的类型、有意义的名称、适当的角色)。
  • 计算字段 则实现了数据增强,创造出原本不存在但极具业务价值的指标(如利润率、同比环比增长率、客户年龄段、产品等级等)。

进阶提示

  • 您可以结合 IFCASE WHEN 语句创建分类标签(例如:IF([销售额] > 1000, '高价值订单', '普通订单'))。
  • 可以利用日期函数创建"年月"、"季度"、"星期几"等时间维度。
  • 复杂的计算字段是构建企业统一指标口径、实现"一次定义,处处使用"的关键,能有效避免下游图表中的重复计算和口径不一致问题。

掌握好数据集管理,您就握有了将原始数据转化为深刻业务洞察的"炼金术"。

相关推荐
Highcharts.js3 小时前
图表学习|基于highcharts创建子弹图表,以及子弹图的应用与扩展设计
javascript·信息可视化·highcharts·图表开发·子弹图表·kpi图
愚公搬代码17 小时前
【愚公系列】《数据可视化分析与实践》018-数据集(单表数据集)
信息可视化
2501_921930831 天前
进阶实战 Flutter for OpenHarmony:自定义仪表盘系统 - 高级数据可视化实现
flutter·信息可视化
愚公搬代码1 天前
【愚公系列】《数据可视化分析与实践》019-数据集(自定义SQL数据集)
数据库·sql·信息可视化
babe小鑫1 天前
大专数据可视化技术专业学习数据分析的价值
学习·信息可视化·数据分析
YangYang9YangYan2 天前
2026高职计算机专业学数据分析的实用性分析
信息可视化
Highcharts.js2 天前
Highcharts旭日图(Sunburst)完全指南:从树形数据结构到多层圆环可视化
信息可视化·数据挖掘·数据分析
开发者导航2 天前
【开发者导航】多功能生成模型开发工具:Diffusers 详细介绍
人工智能·python·学习·macos·信息可视化
愚公搬代码3 天前
【愚公系列】《数据可视化分析与实践》014-数据源(数据源介绍)
信息可视化