1. 前言
在上一篇《基于 Selenium 实现的必应企业信息抓取工具》中,成功实现了对企业信息的批量抓取与导出。接下来,将对这些数据进行深入分析,包括地区分布、所属行业、规模大小等维度。其中,最直接的需求是统计每个省份的企业数量,并通过地图可视化直观展示。经过对 Tableau、FineReport 等数据分析工具的调研,发现 DataEase 不仅功能强大,而且开源免费,非常适合需求。虽然 DataEase 有详细的帮助文档,但在实际使用过程中记录一些细节仍然非常有帮助。以下将通过示例数据来验证各个流程。

2. 下载
DataEase 的下载与安装非常便捷,通过DataEase 官方网站直接下载安装包。官网上提供了桌面版和服务器版的安装包,可以根据自身需求选择合适的版本进行安装。
3. 数据源
在开始数据分析之前,首先需要创建数据源。数据源是连接 DataEase 与数据存储的桥梁,通过配置数据源,可以将各类数据引入到 DataEase 中进行分析。DataEase 支持多种数据源类型,包括 OLTP、OLAP、数据仓库、数据湖、数据文件和 API 接口等,能够满足不同场景下的数据接入需求。

4. 数据集
完成数据源配置后,接下来需要创建数据集。数据集是对数据源中的数据进行组织和管理的逻辑单元。在创建数据集时,DataEase 会根据表格中的数据类型自动对字段进行分类。如果表格中的值是数值类型,则默认归类到指标处,方便后续的分析与计算。
此外,DataEase 还支持新建计算字段,用于对表格中的数据进行进一步处理。例如,在示例数据中,如果需要计算一个名为"年龄收入效率"的指标,其公式为:年龄收入效率 = 工资 / 年龄。可以在字段表达式中写入以下 SQL 表达式,并进行校验:
mysql
CASE
WHEN [年龄] = 0 THEN NULL
ELSE ([工资] / [年龄])
END
通过新建计算字段,可以灵活地对数据进行加工和转换,满足各种复杂的分析需求。

5. 仪表板
DataEase 的仪表板功能非常强大,支持多种图表类型和查询功能。在应用场景中,主要利用仪表板对表格数据进行可视化展示。
5.1 地区分布
首先创建了一个仪表板来展示用户的地区分布情况。通过拖动地图组件到仪表板中,并选择省份作为维度,记录数作为指标,即可直观地展示每个省份的用户数量。在地图的标签设置中,可以根据需求选择是否显示省份名称、统计字数等信息,以便更好地呈现数据。

在标签处可以对地图显示进行设置,比如是否显示省份名称,是否显示统计字数等等。

5.2 城市数排名
接下来,通过创建一个新的仪表板来展示城市的排名情况。在维度处选择城市,指标处选择记录数,并在记录数处设置排序,即可生成城市用户数量的排名图表。通过这种方式,可以清晰地了解哪些城市的用户数量较多,为后续的分析提供依据。

5.3 年龄收入效率
最后,利用仪表板展示"年龄收入效率"的分析结果。在维度处选择姓名,指标处选择"年龄收入效率",并设置排序,即可生成相应的图表。通过该图表,可以直观地比较不同用户的年龄收入效率。

6. 最后
经过实际使用,DataEase 的操作非常简单,交互体验良好。对于当前的工作需求,DataEase 提供的功能已经足够强大。未来,计划进一步接入数据库,并尝试利用 AI 技术生成更复杂的数据分析结果,以提升数据分析的效率和深度。
DataEase 作为一款开源的数据可视化分析工具,不仅功能丰富,而且易于上手,非常适合广大用户进行数据可视化分析。希望本文的实践分享能够为大家提供一些参考和帮助。