
💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者
🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主
📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node...
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析
文章目录
- 🚀前言
- 🚀一、数据集管理
🚀前言
前面对数据分析过程中数据来源的问题进行了详尽的探讨。本文将深入分析数据集的功能,介绍单表数据集、多表关联数据集和自定义SQL数据集的构建方法,并阐述数据集管理和定时同步数据的策略,为后续的数据分析或报表制作进行必要的数据准备。读者能够通过关联和处理表格中的数据,自由地组合并形成个性化的数据集合,以满足后续业务分析和图表制作的需求。
在DataEase中,数据集是核心的功能模块,为接下来的数据分析或报表制作进行必要的数据准备。DataEase中有3种数据集:单表数据集、自定义SQL数据集和多表关联数据集。这3种数据集各自适用于不同的使用场景。
在讲解3种数据集之前,先对DataEase中多元化的数据源进行概括性的分类,主要包括:数据库(涵盖OLTP、OLAP型数据库及数据湖)、API数据和本地文件。数据库中的数据是以表的形式存储的;API数据源通过接口获取数据后,数据在DataEase中也会被转化为数据表的形式并存储;同理,本地文件(如Excel文件)的每一个sheet页也会被转换成一张数据表。尽管这些表的命名规则可能略有不同,例如,API数据表以"api_"为前缀,Excel文件则以"excel"为前缀,数据库数据表则维持表原来的名字,但DataEase中最终的存储单位都是数据表。
因此,无论数据源的类型如何,一旦与DataEase连接,其数据最终都将以表的形式进行存储和展示。
🚀一、数据集管理
在DataEase中成功创建数据集后,为了使其更贴合实际分析需求,通常需要进行一系列的调整和优化。数据集管理功能提供了对数据集进行精细化编辑和增强的能力,涵盖从字段基础调整到创建衍生指标的全方位操作。熟练运用这些功能,能显著提升数据准备的效率与分析结果的准确性。
🔎1.基础管理
在数据集详情页的字段列表中,除了查看字段,还可以对每个字段执行多种基础管理操作。如图7-20所示,点击字段右侧的 【:】 操作菜单,即可看到以下功能:
图7-20 数据集字段操作菜单
-
转换为指标 / 转换为维度:
- 维度:通常是分类、文本或日期字段,用于对数据进行分组、筛选和分类(如"地区"、"产品类别"、"年月")。
- 指标:通常是数值字段,用于进行度量、计算和聚合(如"销售额"、"数量"、"利润")。
- 操作 :DataEase会根据字段的数据类型自动判断其初始角色,但您可以根据分析需求手动切换。例如,将数值型的"客户ID"从指标 转换为维度,以便按客户进行计数分析;或将文本型的"年份"(如"2023")从维度转换为指标以进行某些特定计算。这决定了该字段在后续图表制作中默认的使用方式。
-
更换字段类型:
- 如果系统自动识别的字段类型不正确(例如将日期识别为文本,或将数字识别为文本),必须在此进行更正。
- 支持的类型包括:文本 、整型 、浮点型 、日期 、日期时间等。
- 正确性至关重要:错误的字段类型会导致无法正确进行日期计算、数值汇总或排序。
-
重命名:
- 将技术性的字段名(如
product_id,amt)改为更易理解的业务名称(如产品编号,销售金额)。这能大幅提升后续制作图表和阅读报告时的体验。
- 将技术性的字段名(如
-
复制:
- 快速复制一个现有字段,作为创建新计算字段或进行不同转换的起点。
-
删除:
- 移除数据集中不需要的字段,使数据集更加简洁,专注于核心分析指标。
批量管理操作:对于关联数据集等复杂情况,DataEase还提供了更高级的批量管理界面。如图7-21所示,您可以在此界面集中查看和修改所有来源表的字段及其属性,管理效率更高。
图7-21 数据集批量管理/字段编辑界面
🔎2.新建计算字段
计算字段 是数据集管理中最强大的功能之一。它允许您基于现有字段,通过公式或函数创建出新的衍生字段,而无需修改原始数据源。这极大地扩展了数据分析的深度和灵活性。
🦋2.1 新建计算字段注意事项
在创建计算字段前,请理解以下关键点:
- 表达式能力强大 :
- 不仅支持基础的算术运算(
+,-,*,/)和逻辑运算(AND,OR,>)。 - 更重要的是,它支持底层数据源所对应数据库的绝大多数内置函数 。例如:
- 如果数据源是 MySQL ,您可以使用MySQL的函数,如字符串函数
CONCAT(),SUBSTRING(),日期函数DATE_FORMAT(),YEAR(),条件函数IF(),CASE WHEN等。 - 如果数据源是 PostgreSQL 或 ClickHouse,则可以使用对应数据库的函数集。
- 这相当于在DataEase界面中直接编写数据库SQL表达式片段,功能非常强大。
- 如果数据源是 MySQL ,您可以使用MySQL的函数,如字符串函数
- 不仅支持基础的算术运算(
- 支持嵌套计算 :
- 已经创建好的计算字段,可以被其他的计算字段引用,进行二次计算。这使得可以构建复杂的、多层的业务指标。
🦋2.2 新建计算字段案例讲解
下面通过两个典型案例,演示如何创建计算字段。
☀️案例一:截取商品名称的前两个字
此操作常用于从较长的名称中提取关键分类信息。
操作步骤:
-
在数据集字段管理区域,点击 【新建计算字段】 按钮(见图7-22)。
图7-22 数据集页面上的"新建计算字段"按钮

-
系统弹出"新建计算字段"对话框(见图7-23)。进行如下配置:
-
字段名称 :输入
商品名称前两个字。 -
数据类型 :选择
文本。 -
字段类型 :通常选择
维度。 -
字段表达式 :这是核心。我们需要使用字符串截取函数。假设数据库是MySQL,函数为
SUBSTRING()。表达式应写为:SUBSTRING([商品名称], 1, 2)其中
[商品名称]表示引用原"商品名称"字段,1表示起始位置,2表示截取长度。 -
您可以通过点击"引用函数"链接查看可用函数列表,或直接输入。
图7-23 新建计算字段对话框(案例一配置)

-
-
点击 【确认】 保存。新的计算字段
商品名称前两个字会出现在字段列表中(见图7-24)。图7-24 计算字段"商品名称前两个字"添加成功

-
切换到 【数据预览】 标签页,点击 【刷新数据】 按钮。在预览表格中,您可以看到新增加的列,其值为每个商品名称的前两个字(见图7-25)。
图7-25 预览包含新计算字段的数据

☀️案例二:计算商品销售额
这是最经典的计算字段应用,通过单价和数量计算交易金额。
操作步骤:
-
再次点击 【新建计算字段】 按钮。
-
在配置对话框中(见图7-26):
-
字段名称 :输入
销售额。 -
数据类型 :选择
浮点型(因为金额通常带小数)。 -
字段类型 :选择
指标(因为它是可度量的数值)。 -
字段表达式 :输入乘法公式:
[商品单价] * [销售数量]确保字段名与数据集中的实际字段名一致。
图7-26 新建计算字段对话框(案例二配置)

-
-
点击 【确认】 保存。字段列表中出现
销售额字段(见图7-27)。图7-27 计算字段"销售额"添加成功

-
切换到 【数据预览】 页并刷新,即可看到每一行数据都计算出了对应的销售额(见图7-28)。
图7-28 预览包含"销售额"计算字段的数据

总结与高级应用思路
通过数据集的基础管理和计算字段功能,您可以将原始数据"加工"成真正适合分析的模样:
- 基础管理 确保数据干净、结构清晰(正确的类型、有意义的名称、适当的角色)。
- 计算字段 则实现了数据增强,创造出原本不存在但极具业务价值的指标(如利润率、同比环比增长率、客户年龄段、产品等级等)。
进阶提示:
- 您可以结合
IF或CASE WHEN语句创建分类标签(例如:IF([销售额] > 1000, '高价值订单', '普通订单'))。 - 可以利用日期函数创建"年月"、"季度"、"星期几"等时间维度。
- 复杂的计算字段是构建企业统一指标口径、实现"一次定义,处处使用"的关键,能有效避免下游图表中的重复计算和口径不一致问题。
掌握好数据集管理,您就握有了将原始数据转化为深刻业务洞察的"炼金术"。

