助睿 ETL 零基础|CSV/TXT/Excel 三种文件数据抽取全流程

目录

[1 案例说明](#1 案例说明)

[1.1 业务背景](#1.1 业务背景)

[1.2 实验目标](#1.2 实验目标)

[1.3 实验核心任务](#1.3 实验核心任务)

[2 实验环境](#2 实验环境)

[3 数据准备](#3 数据准备)

[3.1 实验文件清单](#3.1 实验文件清单)

[3.2 文件导出标准操作步骤](#3.2 文件导出标准操作步骤)

[4 实验一:从 CSV 文件中读取数据](#4 实验一:从 CSV 文件中读取数据)

[4.1 实验目的](#4.1 实验目的)

[4.2 整体处理逻辑](#4.2 整体处理逻辑)

[4.3 分步操作流程](#4.3 分步操作流程)

[步骤 1:新建转换流,配置 CSV 文件输入组件](#步骤 1:新建转换流,配置 CSV 文件输入组件)

[步骤 2:配置字段选择组件](#步骤 2:配置字段选择组件)

[步骤 3:计算器组件计算项目间隔天数](#步骤 3:计算器组件计算项目间隔天数)

[步骤 4:数值范围组件划分绩效等级](#步骤 4:数值范围组件划分绩效等级)

[步骤 5:文本文件输出,导出结果 CSV](#步骤 5:文本文件输出,导出结果 CSV)

[步骤 6:运行转换并校验结果](#步骤 6:运行转换并校验结果)

[5 实验二:从文本文件中读取数据](#5 实验二:从文本文件中读取数据)

[5.1 实验目的](#5.1 实验目的)

[5.2 整体处理逻辑](#5.2 整体处理逻辑)

[5.3 分步操作流程](#5.3 分步操作流程)

[步骤 1:新建转换,读取 txt 文本文件](#步骤 1:新建转换,读取 txt 文本文件)

[步骤 2:字段筛选,移除无用场地字段](#步骤 2:字段筛选,移除无用场地字段)

[步骤 3:运行流程,预览校验数据](#步骤 3:运行流程,预览校验数据)

[6 实验三:从 Excel 文件中读取数据](#6 实验三:从 Excel 文件中读取数据)

[6.1 实验目的](#6.1 实验目的)

[6.2 整体处理逻辑](#6.2 整体处理逻辑)

[6.3 分步操作流程](#6.3 分步操作流程)

[步骤 1:新建转换,配置 Excel 输入组件](#步骤 1:新建转换,配置 Excel 输入组件)

[步骤 2:字段筛选,保留分析字段](#步骤 2:字段筛选,保留分析字段)

[步骤 3:运行流程,预览输出数据](#步骤 3:运行流程,预览输出数据)

[7 核心知识点总结](#7 核心知识点总结)

[8 评价](#8 评价)


1 案例说明

1.1 业务背景

ETL 流程首要环节为数据抽取,现实业务中数据源分为两类:

  1. 数据库数据源:ERP、财务系统等结构化业务库,可通过 JDBC 直连抽取;
  2. 文件数据源:外部供应商、线下收集数据多以 CSV、TXT、Excel 文件交付,无法直连数据库,只能通过文件方式导入处理。

1.2 实验目标

掌握助睿 ETL 内置文件抽取组件,完成三类主流文件数据读取、字段筛选、简单计算、结果输出全流程操作;理解文件分隔符、表头、编码、工作表等文件读取关键配置项,具备多格式文件数据抽取落地能力。

1.3 实验核心任务

  1. 使用 CSV 文件输入组件读取项目数据,通过日期计算、数值区间判定自动生成项目绩效等级;
  2. 使用 CSV 输入组件兼容读取带分隔符的 TXT 比赛数据,完成字段精简过滤;
  3. 使用 Excel 输入组件读取购房信息表格,筛选业务分析所需关键字段并校验数据输出。

2 实验环境

  1. 在线实训平台:助睿在线实验平台 https://lab.guilian.cn/
  2. 工具产品:Uniplore 助睿数智一站式大数据平台,UDI-Studio 可视化 ETL 工具
  3. 平台能力:全链路零代码数据处理,覆盖数据抽取、清洗、计算、输出全流程,适配高校教学与企业数据加工场景

3 数据准备

本次实验全部文件资源存放于平台公共空间,需提前导出至个人项目文件库方可使用。

3.1 实验文件清单

实验小节 文件名称 文件用途
CSV 读取 project.csv 项目开工、结束日期信息,用于工期计算与绩效分级
TXT 文本读取 usa_201209.txt 足球赛事原始文本数据,带分号分隔符
Excel 读取 custinfo.xlsx 购房者基础信息表,包含年龄、学历、薪资等字段

3.2 文件导出标准操作步骤

  1. 登录助睿平台,进入【数据集成】→【我的项目】,打开目标实训项目;
  2. 右侧面板切换【公共空间】-【数据资源】,搜索对应文件名;
  3. 点击文件右侧「更多」→【导出】,选择项目根目录,确认导出;
  4. 左侧切换至【文件库】,右键刷新,查看已导入文件,确认文件存在。

4 实验一:从 CSV 文件中读取数据

4.1 实验目的

读取 CSV 项目数据,基于开工、结束日期计算项目执行天数,根据工期区间自动划分绩效等级,掌握 CSV 文件读取、日期计算、区间分类、文件输出完整流程。

4.2 整体处理逻辑

CSV 文件输入 → 字段选择(精简字段) → 计算器(计算日期差值) → 数值范围(绩效分级) → 文本文件输出(导出新 CSV)

4.3 分步操作流程

步骤 1:新建转换流,配置 CSV 文件输入组件

  1. 新建空白转换,拖拽【CSV 文件输入】至画布;
  2. 双击组件,点击浏览文件,选中已导出的 project.csv;
  3. 在组件数据预览区域右键,选择【获取字段】,自动识别文件全部字段;
  4. 使用预览功能校验数据读取正常、字段无缺失。

步骤 2:配置字段选择组件

  1. 连线 CSV 输入→字段选择,选择【主输出步骤】;
  2. 双击组件,右键【获取字段】,保留计算所需日期、项目字段,无需删减字段直接确认。

步骤 3:计算器组件计算项目间隔天数

  1. 连线字段选择→计算器,选择主输出步骤;
  2. 新增计算字段:diff_date
    • 计算公式:Date A - Date B (in days)
    • 字段 A:end_date;字段 B:start_date;类型:Integer
  1. 保存配置,自动计算两个日期相差天数。

步骤 4:数值范围组件划分绩效等级

  1. 连线计算器→数值范围组件;
  2. 输入字段:diff_date;输出字段:performance;
  3. 区间配置规则:
    • 0 ≤ x < 30 → excellent
    • 30 ≤ x < 180 → very good
    • 180 ≤ x < 360 → good
    • x ≥ 360 → poor

步骤 5:文本文件输出,导出结果 CSV

  1. 连线数值范围→文本文件输出;
  2. 基础配置:文件名 project_output,扩展名 csv;
  3. 内容标签页:分隔符设置英文逗号 ,
  4. 字段标签页右键【获取字段】,同步全部上游字段;
  5. 确认保存组件配置。

步骤 6:运行转换并校验结果

  1. 点击画布【运行】- 启动,等待流程执行完成;
  2. 进入文件库查看生成的 project_output.csv;
  3. 打开预览,核对 diff_date、performance 字段计算结果是否符合区间规则。

5 实验二:从文本文件中读取数据

5.1 实验目的

利用 CSV 输入组件兼容读取带自定义分隔符的 TXT 文本,完成无用字段剔除,校验文本数据完整传输。

5.2 整体处理逻辑

CSV 文件输入(读取 TXT) → 字段选择(剔除多余字段) → 空操作(数据预览校验)

5.3 分步操作流程

步骤 1:新建转换,读取 txt 文本文件

  1. 拖拽【CSV 文件输入】组件,浏览选中 usa_201209.txt;
  2. 关键配置:列分隔符设置英文分号 ;,勾选【包含列头行】;
  3. 右键【获取字段】,自动解析比赛日期、主队、客队、场地等字段;
  4. 预览输出,确认文本数据正常解析。

步骤 2:字段筛选,移除无用场地字段

  1. 依次拖拽【字段选择】、【空操作(什么也不做)】,按顺序连线;
  2. 双击字段选择,切换至【移除】标签页,获取全部字段,选中 Venue 字段删除;
  3. 确认后仅保留比赛日期、主客队、比分核心字段。

步骤 3:运行流程,预览校验数据

  1. 启动转换流程;
  2. 右键空操作组件,选择预览输出,确认 Venue 字段已移除,数据无丢失。

6 实验三:从 Excel 文件中读取数据

6.1 实验目的

读取 Excel 购房者信息表,掌握 Excel 文件、工作表、编码、表头配置方法,筛选业务分析所需关键字段。

6.2 整体处理逻辑

Excel 输入组件 → 字段选择(保留指定字段) → 空操作(结果校验)

6.3 分步操作流程

步骤 1:新建转换,配置 Excel 输入组件

  1. 拖拽【Excel 输入】组件,浏览选中 custinfo.xlsx 并添加至选中文件;
  1. 内容标签配置:勾选头部、非空记录,编码选择 UTF-8;
  1. 工作表标签:点击【获取工作表名称】,勾选 Sheet1 添加至读取列表;

4. 字段标签:右键【获取来自头部的字段】,自动识别表头生成字段。

步骤 2:字段筛选,保留分析字段

  1. 连线 Excel 输入→字段选择→空操作组件,均选择主输出步骤;
  2. 打开字段选择,获取上游全部字段,仅保留 education、employment 两个字段,其余删除。

步骤 3:运行流程,预览输出数据

  1. 启动转换流程;
  2. 预览空操作输出结果,确认仅保留学历、就业信息字段,数据读取完整无乱码。

7 核心知识点总结

  1. 文件抽取通用逻辑:文件导入公共空间→导出个人文件库→文件输入组件读取→配置分隔符 / 表头 / 编码→获取字段→数据加工 / 筛选→输出 / 预览校验;
  2. CSV 输入组件通用性:不仅读取 csv 文件,支持自定义分隔符读取 TXT 文本文件;
  3. Excel 读取关键配置:必须指定工作表、识别表头、统一 UTF-8 编码防止中文乱码;
  4. 辅助组件作用:
    • 字段选择:精简无用字段,减少下游计算开销;
    • 计算器:实现日期、数值自定义运算;
    • 数值范围:基于数值区间自动分类打标签;
    • 空操作:仅用于数据预览校验,无业务计算逻辑;
  5. 实操避坑要点:
    • 分隔符区分中英文符号,配置错误会导致字段全部合并为一列;
    • 新增文件后必须刷新文件库,组件才能识别文件;
    • 每次修改上游组件结构,下游组件需重新执行【获取字段】,否则会出现字段缺失报错。

8 评价

Uniplore 助睿数智是一站式零代码大数据平台,依托 UDI-Studio 可视化 ETL 工具,无需编程即可完成 CSV、TXT、Excel 多类文件抽取、数据清洗、指标计算与可视化分析,组件丰富、操作直观,适配高校数据分析实训,能快速搭建完整数据处理流程,降低大数据实操学习门槛。