
💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者
🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主
📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node...
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析
文章目录
- 🚀前言
- 🚀一、数据源介绍
-
- [🔎1.DataEase 支持的数据源类型](#🔎1.DataEase 支持的数据源类型)
- 🔎2.重点聚焦的数据源
🚀前言
在大数据时代背景下,随着数据量的迅猛增长和数据来源的多样化,管理混乱和数据孤岛已成为数据管理领域亟待解决的难题。DataEase 从统一数据源和跨源关联数据两方面提供了有效的解决方案,其方案主要包括数据源管理和数据集管理两大方面。本章将深入解析数据源功能,致力于打破数据管理的混乱状态,消除数据孤岛,为企业和组织提供更加高效、精准的数据支持,实现数据价值的最大化,提升业务决策的准确性和效率。
🚀一、数据源介绍
在DataEase中,数据源 是一个核心功能模块,用于集中管理和配置各类外部数据的连接信息。简单来说,数据源就是数据的"源头"或"仓库"在DataEase系统中的连接代表。用户在此模块中配置数据库地址、端口、用户名、密码等关键信息,并测试连接是否成功。成功配置数据源后,用户便可在后续的数据集 创建和可视化分析 中,直接使用该数据源中存储的数据,无需重复输入连接信息。因此,数据源配置是连接用户与原始数据、开启所有数据分析工作的第一步和基础桥梁。
DataEase 支持丰富多样的数据源连接,这使得用户能够整合来自不同系统、不同格式的数据,并利用其强大的数据处理和可视化引擎,通过简单的拖拽操作快速制作图表,并将分析成果便捷地与他人分享。
🔎1.DataEase 支持的数据源类型
根据数据处理的不同模式和数据存储的不同架构,DataEase 目前主要支持以下几大类数据源:
-
OLTP 型数据库
- 定义 :OLTP(在线事务处理)数据库,也称为事务型数据库 ,是支撑企业日常业务运营的核心系统(如订单处理、用户注册、库存更新)。它们强调数据的强一致性(ACID特性)、高并发的事务处理能力和实时性。
- 在DataEase中的角色:作为最传统和常见的数据来源,用于连接企业现有的业务系统数据库,分析最新的交易记录、用户行为等明细数据。
- DataEase V2.4.1 支持的举例:MySQL, PostgreSQL, Oracle, SQL Server, MariaDB, Db2, TiDB, MongoDB (通过BI连接器)等。
-
OLAP 型数据库
- 定义 :OLAP(在线分析处理)数据库,也称为分析型数据库,专为复杂的、面向主题的查询和大规模数据分析而设计。它们通常对海量历史数据进行聚合、多维度计算,以支持商业智能和决策分析。
- 在DataEase中的角色:连接数据仓库或专门的分析数据库,执行快速的、复杂的查询,以生成汇总报表、进行趋势分析和数据挖掘。
- DataEase V2.4.1 支持的举例:ClickHouse, Apache Doris, StarRocks, Apache Impala等。
-
数据湖
- 定义 :数据湖是一个集中式的存储库,允许以原始格式(结构化、半结构化、非结构化)存储海量数据。它为企业提供了一个存储所有数据并进行各种类型分析(如机器学习、实时分析)的基础。
- 在DataEase中的角色:作为整合了企业最原始、最全面数据的存储层,DataEase可以从中抽取数据进行分析,发掘更深层次的洞察。
- DataEase V2.4.1 支持的举例:AWS Redshift(云数据仓库服务,具备数据湖特性)。
-
API 数据
- 定义:API(应用程序编程接口)是软件系统间相互通信和交换数据的标准化方式。通过调用API,可以实时获取外部平台或服务的数据,如天气信息、股票行情、社交媒体数据等。
- 在DataEase中的角色:将动态的、实时的外部数据引入分析流程,丰富分析维度,实现内外部数据的融合分析。
- DataEase V2.4.1 支持的举例:支持通用API连接,用户可配置API地址、请求方法和参数以获取JSON/XML格式的数据。
-
本地文件
- 定义:存储在用户本地计算机或可访问网络位置的结构化数据文件。
- 在DataEase中的角色:最快捷、最灵活的数据接入方式。适合分析一次性数据、外部接收的报表或尚未纳入数据库系统的数据。
- DataEase V2.4.1 支持的举例 :Microsoft Excel文件(
.xlsx,.xls)、CSV文件。
图6-1 DataEase V2.4.1 支持的数据源类型分类图
重要说明 :以上列出的数据源列表基于 DataEase V2.4.1 版本。DataEase作为一个持续快速迭代的开源项目,其开发团队会不断适配和引入更多类型的数据源(如更多云数据仓库、NoSQL数据库、消息队列等),以满足用户日益增长和变化的异构数据整合需求。因此,建议用户在使用时参考所使用版本的最新官方文档,以获取最准确的支持列表。
🔎2.重点聚焦的数据源
为了更好地掌握DataEase的核心数据连接功能,并考虑到其普遍性和学习曲线,将重点深入讲解以下三种最常用、最具代表性的数据源:
-
本地文件(Excel)
- 特点:无需依赖数据库环境,个人用户和小团队上手最快的数据来源。
- 应用场景:个人数据备份分析、市场调研数据整理、从其他系统导出的临时报表分析、快速制作演示原型。
- 学习价值:掌握最基础的数据上传、字段识别和类型设置。
-
MySQL 数据库
- 特点:世界上最流行的开源关系型数据库(OLTP),是众多Web应用和业务系统的标准配置。
- 应用场景:连接公司网站的用户数据库、电商平台的订单数据库、内部管理系统的业务数据库,进行直接的运营数据分析。
- 学习价值:掌握如何连接标准的关系型数据库,理解JDBC连接配置,为连接其他类似数据库(如PostgreSQL, SQL Server)奠定基础。
-
API
- 特点:获取动态和外部数据的关键通道,代表了现代数据集成的重要方向。
- 应用场景:将实时天气数据加入物流分析仪表板、接入公开的经济指标数据丰富市场报告、获取公司内部另一个微服务系统的实时状态数据。
- 学习价值:掌握如何配置HTTP请求,解析返回的JSON/XML数据,将非结构化的API响应转化为结构化的分析用表。
后续章节将逐一深入介绍这三种数据源在DataEase中的具体配置方法、使用技巧以及典型应用场景。通过掌握这三种数据源的连接与使用,读者不仅能够应对大多数日常数据分析需求,更能建立起连接更复杂数据源的信心和能力,为充分利用DataEase挖掘数据价值打下坚实基础。
