【愚公系列】《数据可视化分析与实践》015-数据源(本地文件Excel)

💎【行业认证·权威头衔】

✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家

✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主

✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者

🏆【荣誉殿堂】

🎖 连续三年蝉联"华为云十佳博主"(2022-2024)

🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)

🎖 十余个技术社区年度杰出贡献奖得主

📚【知识宝库】

覆盖全栈技术矩阵:

◾ 编程语言:.NET/Java/Python/Go/Node...

◾ 移动生态:HarmonyOS/iOS/Android/小程序

◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙

◾ 游戏开发:Unity3D引擎深度解析

文章目录


🚀前言

在大数据时代背景下,随着数据量的迅猛增长和数据来源的多样化,管理混乱和数据孤岛已成为数据管理领域亟待解决的难题。DataEase 从统一数据源和跨源关联数据两方面提供了有效的解决方案,其方案主要包括数据源管理和数据集管理两大方面。本章将深入解析数据源功能,致力于打破数据管理的混乱状态,消除数据孤岛,为企业和组织提供更加高效、精准的数据支持,实现数据价值的最大化,提升业务决策的准确性和效率。

🚀一、本地文件(Excel)数据源

在DataEase中,本地文件 作为数据源提供了一种最直接、最便捷的数据接入方式。本书中提到的本地文件,主要特指 Excel类别的文件。目前DataEase支持的Excel文件格式包括:

  • .xlsx:Microsoft Excel 2007及以后版本的默认工作簿格式。
  • .xls:Microsoft Excel 97-2003版本的工作簿格式。
  • .csv:逗号分隔值文件,一种通用的纯文本表格数据格式。

通过上传Excel文件,用户可以在数秒内将本地数据转化为可供分析和可视化的数据源,无需依赖任何数据库环境。

上传前的数据准备工作(至关重要)

为确保数据能顺利、准确地被DataEase识别和处理,在上传Excel数据表之前,请务必进行以下检查和准备工作,这将直接决定后续数据分析的效率和结果的可靠性。

  1. 数据质量检查

    • 清理合并单元格 :Excel中用于排版美观的合并单元格,在数据分析中会导致数据结构混乱和数据丢失。务必取消所有合并单元格,并填充完整的数据。
    • 处理缺失值与异常值:检查并处理空值、明显错误或不合逻辑的数值(如年龄为负数)。
    • 确保数据纯净:避免在数据区域内存在图表、图形、注释框等非数据对象。数据表应是一个干净的、由行列组成的网格。
  2. 格式标准化

    • 统一数据格式:确保同一列中的数据格式一致。例如,"日期"列应全部设置为日期格式,"金额"列应统一为数字格式。混合的格式(如部分日期是文本,部分是日期值)会导致DataEase识别错误或数据丢失。
    • 规范标题行 :文件的第一行必须作为列标题(字段名),且不能为空。标题应简洁明了,避免使用特殊字符和空格(可用下划线替代),这将作为后续图表中字段的名称。
    • 避免多级表头:简单的单行表头是最理想的。复杂的多行表头(如合并单元格作为大分类,其下方才是具体字段名)需要提前整理为单行。
  3. 控制文件大小与结构

    • 大小限制 :确保单个Excel文件大小在 500MB 以内。过大的文件可能导致上传超时、处理缓慢甚至失败。对于超大数据,建议先进行拆分或汇总。
    • 单一数据表:建议一个Excel文件只包含一个需要分析的数据工作表(Sheet)。如果存在多个Sheet,DataEase在上传时需要选择具体的工作表,多个无关工作表可能会造成混淆。

本地文件(Excel)数据源的核心操作

对已创建的Excel数据源,DataEase提供了灵活的数据管理功能,主要包括:

  • 新建数据源:首次上传Excel文件,创建新的数据源。
  • 替换数据:用新的Excel文件完全覆盖当前数据源中的所有数据。
  • 追加数据:将新Excel文件中的数据,追加到当前数据源的现有数据之后。
  • 新建数据集(本节略):基于该数据源,进行进一步的关联、过滤、计算等操作,创建出可直接用于图表制作的数据集合。

本节将详细讲解前三个核心操作:新建、替换和追加

🔎1.新建数据源

这是将本地Excel数据引入DataEase分析平台的第一步。

操作步骤详解:

  1. 进入数据源管理模块

    • 登录DataEase系统后,您将看到主控制台界面(见图6-2)。
    • 在左侧导航栏中,找到并单击【数据准备】模块。
    • 在弹出的子菜单中,单击【数据源】(见图6-3),系统将跳转至数据源管理界面。这里集中了所有已创建的数据源(见图6-4)。

    图6-2 DataEase 主控制台界面

    图6-3 从"数据准备"进入"数据源"

    图6-4 数据源管理列表界面

  2. 开始创建并选择类型

    • 在数据源列表页面,点击右上角的 【新建数据源】 按钮(或页面的"+"图标)。
    • 进入创建数据源页面后,会看到一个数据源类型选择面板(见图6-5)。点击【全部】可浏览所有支持的类型。
    • 找到 【本地文件】 分类,点击其下的 【Excel】 图标,然后点击右下角的 【下一步】

    图6-5 选择数据源类型(选择Excel)

  3. 上传文件并配置

    • 在配置页面(见图6-6),点击 【上传Excel文件】 按钮,从本地电脑中选择要上传的Excel文件(本书示例使用 零食数据.xlsx)。
    • 数据源名称:系统会自动用文件名填充,建议修改为一个更有业务意义的名称(如"2023年零食销售数据"),便于后续管理。
    • 数据预览 :文件上传后,DataEase会自动解析并在下方区域显示数据预览。请务必仔细核对:
      • 字段名是否正确识别。
      • 数据类型(文本、数字、日期)是否识别正确(如有误,可在后续创建数据集时调整)。
      • 数据内容是否完整显示。
    • 确认无误后,点击 【保存】 按钮。

    图6-6 上传Excel文件及配置页面

  4. 完成创建

    • 点击保存后,会弹出一个确认窗口(见图6-7),可以再次调整数据源名称,并选择将其归类到某个文件夹中以便管理。点击 【确认】
    • 创建成功后,会跳转到成功页面(见图6-8)。您可以选择:
      • 【继续创建】:基于此数据源立即开始创建数据集。
      • 【返回数据源列表】:回到数据源管理主页。
      • 【去创建】:也是前往创建数据集。

    图6-7 确认新建数据源窗口

    图6-8 Excel数据源创建成功页面

  5. 查看与管理

    • 返回数据源列表后,可以看到新创建的Excel数据源卡片(见图6-9)。点击该数据源,可以查看其基础信息 (名称、类型、文件大小)和数据预览
    • 在数据源详情页,切换到 【数据源表】 标签页(见图6-10),可以查看该Excel文件具体包含了哪些数据表(通常一个文件对应一个表,表名可能与Sheet名一致)。

    图6-9 数据源详情与基础信息

    图6-10 数据源表信息页面

🔎2.替换数据

当您发现已上传的Excel文件数据有误,或者获得了更新版本的同一份数据文件时,可以使用 "替换数据" 功能。此操作会用新文件中的数据完全替换掉原有数据源中的所有数据

应用场景 :月度销售报告文件每月更新,新文件生成后,直接替换旧数据源。
操作步骤(见图6-11):

  1. 在数据源列表或详情页,找到需要更新的Excel数据源。
  2. 点击操作栏或页面中的 【替换数据】 按钮。
  3. 在弹出的"替换数据"页面中,点击上传按钮,选择新的、正确的Excel文件。
  4. 系统会展示新文件的预览。确认无误后,点击 【保存】 按钮。
  5. 替换完成后,所有基于该数据源创建的数据集和图表将自动读取新的数据。

图6-11 替换数据操作界面

重要提示:替换操作不可逆,原有数据将被永久覆盖。执行前请确保新文件格式与结构(特别是列名)与旧文件基本一致,否则可能导致依赖此数据源的图表出错。

🔎3.追加数据

当您需要将新的数据记录(如新一周的销售数据)添加到现有数据源中,而不是覆盖它时,应使用 "追加数据" 功能。此操作会将新文件中的数据添加(APPEND)到现有数据的末尾

应用场景 :每周收集的客户反馈表,需要不断累积到一个总表中进行分析。
操作步骤(见图6-12):

  1. 在目标Excel数据源的操作界面,点击 【追加数据】 按钮。
  2. 在"追加数据"页面,上传包含新增数据的Excel文件。
  3. 关键检查点 :确保新文件的数据结构(列的顺序、列名和数据类型)必须与原有数据源完全一致。如果新增了列或列名不同,追加将会失败或产生混乱。
  4. 预览确认后,点击 【保存】 按钮。
  5. 追加成功后,数据源的总数据量将增加,所有相关的分析视图会自动包含新增的记录。

图6-12 追加数据操作界面

追加与替换的选择

  • 需要整体更新 数据时(如用V2.0版替换V1.0版)→ 选择 【替换数据】
  • 需要累积新增 数据时(如每日新增订单)→ 选择 【追加数据】

通过掌握本地文件(Excel)数据源的新建、替换和追加 操作,您已经能够灵活地将静态的Excel数据纳入DataEase的动态分析流程中。这是实现快速、轻量级数据分析的起点。完成数据源创建后,下一步就可以进入更强大的 【数据集】 模块,对数据进行关联、整合与计算,为最终的可视化图表制作做好充分准备。请始终记住,清晰、规范的原数据是获得准确、有效分析结果的基石。

相关推荐
励ℳ3 小时前
【生信绘图】基因组大小与CDS数量关系的可视化
python·信息可视化
派可数据BI可视化19 小时前
一文读懂系列:数据仓库为什么分层,分几层?数仓建模方法有哪些
大数据·数据仓库·信息可视化·spark·商业智能bi
开开心心就好1 天前
轻松鼠标连, 自定义区域模仿人手点击
人工智能·windows·物联网·计算机视觉·计算机外设·ocr·excel
岱宗夫up1 天前
FastAPI进阶:从入门到生产级别的深度实践
python·信息可视化·fastapi
愚公搬代码1 天前
【愚公系列】《数据可视化分析与实践》013-DataEase实操(安装部署)
信息可视化
AI_56781 天前
ableau可视化进阶:颜色与交互设计让数据会说话
数据库·云原生·excel
城数派1 天前
2001-2024年我国乡镇级的逐年植被净初级生产力(NPP)数据(Shp/Excel格式)
大数据·数据分析·excel
开开心心_Every2 天前
局域网大文件传输,设密码双向共享易用工具
运维·服务器·网络·游戏·pdf·电脑·excel
Jia ming2 天前
《智能法官软件项目》—数据可视化模块
python·信息可视化·教学·案例·智能法官软件