目录
[1 案例说明](#1 案例说明)
[1.1 业务背景](#1.1 业务背景)
[1.2 实验目标](#1.2 实验目标)
[1.3 实验核心任务](#1.3 实验核心任务)
[2 实验环境](#2 实验环境)
[3 数据准备](#3 数据准备)
[3.1 实验文件清单](#3.1 实验文件清单)
[3.2 文件导出标准操作步骤](#3.2 文件导出标准操作步骤)
[4 实验一:从 CSV 文件中读取数据](#4 实验一:从 CSV 文件中读取数据)
[4.1 实验目的](#4.1 实验目的)
[4.2 整体处理逻辑](#4.2 整体处理逻辑)
[4.3 分步操作流程](#4.3 分步操作流程)
[步骤 1:新建转换流,配置 CSV 文件输入组件](#步骤 1:新建转换流,配置 CSV 文件输入组件)
[步骤 2:配置字段选择组件](#步骤 2:配置字段选择组件)
[步骤 3:计算器组件计算项目间隔天数](#步骤 3:计算器组件计算项目间隔天数)
[步骤 4:数值范围组件划分绩效等级](#步骤 4:数值范围组件划分绩效等级)
[步骤 5:文本文件输出,导出结果 CSV](#步骤 5:文本文件输出,导出结果 CSV)
[步骤 6:运行转换并校验结果](#步骤 6:运行转换并校验结果)
[5 实验二:从文本文件中读取数据](#5 实验二:从文本文件中读取数据)
[5.1 实验目的](#5.1 实验目的)
[5.2 整体处理逻辑](#5.2 整体处理逻辑)
[5.3 分步操作流程](#5.3 分步操作流程)
[步骤 1:新建转换,读取 txt 文本文件](#步骤 1:新建转换,读取 txt 文本文件)
[步骤 2:字段筛选,移除无用场地字段](#步骤 2:字段筛选,移除无用场地字段)
[步骤 3:运行流程,预览校验数据](#步骤 3:运行流程,预览校验数据)
[6 实验三:从 Excel 文件中读取数据](#6 实验三:从 Excel 文件中读取数据)
[6.1 实验目的](#6.1 实验目的)
[6.2 整体处理逻辑](#6.2 整体处理逻辑)
[6.3 分步操作流程](#6.3 分步操作流程)
[步骤 1:新建转换,配置 Excel 输入组件](#步骤 1:新建转换,配置 Excel 输入组件)
[步骤 2:字段筛选,保留分析字段](#步骤 2:字段筛选,保留分析字段)
[步骤 3:运行流程,预览输出数据](#步骤 3:运行流程,预览输出数据)
[7 核心知识点总结](#7 核心知识点总结)
[8 评价](#8 评价)
1 案例说明
1.1 业务背景
ETL 流程首要环节为数据抽取,现实业务中数据源分为两类:
- 数据库数据源:ERP、财务系统等结构化业务库,可通过 JDBC 直连抽取;
- 文件数据源:外部供应商、线下收集数据多以 CSV、TXT、Excel 文件交付,无法直连数据库,只能通过文件方式导入处理。
1.2 实验目标
掌握助睿 ETL 内置文件抽取组件,完成三类主流文件数据读取、字段筛选、简单计算、结果输出全流程操作;理解文件分隔符、表头、编码、工作表等文件读取关键配置项,具备多格式文件数据抽取落地能力。
1.3 实验核心任务
- 使用 CSV 文件输入组件读取项目数据,通过日期计算、数值区间判定自动生成项目绩效等级;
- 使用 CSV 输入组件兼容读取带分隔符的 TXT 比赛数据,完成字段精简过滤;
- 使用 Excel 输入组件读取购房信息表格,筛选业务分析所需关键字段并校验数据输出。
2 实验环境
- 在线实训平台:助睿在线实验平台 https://lab.guilian.cn/
- 工具产品:Uniplore 助睿数智一站式大数据平台,UDI-Studio 可视化 ETL 工具
- 平台能力:全链路零代码数据处理,覆盖数据抽取、清洗、计算、输出全流程,适配高校教学与企业数据加工场景
3 数据准备
本次实验全部文件资源存放于平台公共空间,需提前导出至个人项目文件库方可使用。
3.1 实验文件清单
| 实验小节 | 文件名称 | 文件用途 |
|---|---|---|
| CSV 读取 | project.csv | 项目开工、结束日期信息,用于工期计算与绩效分级 |
| TXT 文本读取 | usa_201209.txt | 足球赛事原始文本数据,带分号分隔符 |
| Excel 读取 | custinfo.xlsx | 购房者基础信息表,包含年龄、学历、薪资等字段 |
3.2 文件导出标准操作步骤
- 登录助睿平台,进入【数据集成】→【我的项目】,打开目标实训项目;
- 右侧面板切换【公共空间】-【数据资源】,搜索对应文件名;
- 点击文件右侧「更多」→【导出】,选择项目根目录,确认导出;
- 左侧切换至【文件库】,右键刷新,查看已导入文件,确认文件存在。


4 实验一:从 CSV 文件中读取数据
4.1 实验目的
读取 CSV 项目数据,基于开工、结束日期计算项目执行天数,根据工期区间自动划分绩效等级,掌握 CSV 文件读取、日期计算、区间分类、文件输出完整流程。
4.2 整体处理逻辑

CSV 文件输入 → 字段选择(精简字段) → 计算器(计算日期差值) → 数值范围(绩效分级) → 文本文件输出(导出新 CSV)
4.3 分步操作流程
步骤 1:新建转换流,配置 CSV 文件输入组件
- 新建空白转换,拖拽【CSV 文件输入】至画布;
- 双击组件,点击浏览文件,选中已导出的 project.csv;
- 在组件数据预览区域右键,选择【获取字段】,自动识别文件全部字段;
- 使用预览功能校验数据读取正常、字段无缺失。


步骤 2:配置字段选择组件
- 连线 CSV 输入→字段选择,选择【主输出步骤】;
- 双击组件,右键【获取字段】,保留计算所需日期、项目字段,无需删减字段直接确认。

步骤 3:计算器组件计算项目间隔天数
- 连线字段选择→计算器,选择主输出步骤;
- 新增计算字段:diff_date
- 计算公式:Date A - Date B (in days)
- 字段 A:end_date;字段 B:start_date;类型:Integer

- 保存配置,自动计算两个日期相差天数。
步骤 4:数值范围组件划分绩效等级
- 连线计算器→数值范围组件;
- 输入字段:diff_date;输出字段:performance;
- 区间配置规则:
- 0 ≤ x < 30 → excellent
- 30 ≤ x < 180 → very good
- 180 ≤ x < 360 → good
- x ≥ 360 → poor

步骤 5:文本文件输出,导出结果 CSV
- 连线数值范围→文本文件输出;
- 基础配置:文件名 project_output,扩展名 csv;
- 内容标签页:分隔符设置英文逗号
,; - 字段标签页右键【获取字段】,同步全部上游字段;
- 确认保存组件配置。



步骤 6:运行转换并校验结果
- 点击画布【运行】- 启动,等待流程执行完成;
- 进入文件库查看生成的 project_output.csv;
- 打开预览,核对 diff_date、performance 字段计算结果是否符合区间规则。

5 实验二:从文本文件中读取数据
5.1 实验目的
利用 CSV 输入组件兼容读取带自定义分隔符的 TXT 文本,完成无用字段剔除,校验文本数据完整传输。
5.2 整体处理逻辑

CSV 文件输入(读取 TXT) → 字段选择(剔除多余字段) → 空操作(数据预览校验)
5.3 分步操作流程
步骤 1:新建转换,读取 txt 文本文件
- 拖拽【CSV 文件输入】组件,浏览选中 usa_201209.txt;
- 关键配置:列分隔符设置英文分号
;,勾选【包含列头行】; - 右键【获取字段】,自动解析比赛日期、主队、客队、场地等字段;
- 预览输出,确认文本数据正常解析。


步骤 2:字段筛选,移除无用场地字段
- 依次拖拽【字段选择】、【空操作(什么也不做)】,按顺序连线;
- 双击字段选择,切换至【移除】标签页,获取全部字段,选中 Venue 字段删除;
- 确认后仅保留比赛日期、主客队、比分核心字段。

步骤 3:运行流程,预览校验数据
- 启动转换流程;
- 右键空操作组件,选择预览输出,确认 Venue 字段已移除,数据无丢失。


6 实验三:从 Excel 文件中读取数据
6.1 实验目的
读取 Excel 购房者信息表,掌握 Excel 文件、工作表、编码、表头配置方法,筛选业务分析所需关键字段。
6.2 整体处理逻辑

Excel 输入组件 → 字段选择(保留指定字段) → 空操作(结果校验)
6.3 分步操作流程
步骤 1:新建转换,配置 Excel 输入组件
- 拖拽【Excel 输入】组件,浏览选中 custinfo.xlsx 并添加至选中文件;

- 内容标签配置:勾选头部、非空记录,编码选择 UTF-8;

- 工作表标签:点击【获取工作表名称】,勾选 Sheet1 添加至读取列表;
4. 字段标签:右键【获取来自头部的字段】,自动识别表头生成字段。


步骤 2:字段筛选,保留分析字段
- 连线 Excel 输入→字段选择→空操作组件,均选择主输出步骤;
- 打开字段选择,获取上游全部字段,仅保留 education、employment 两个字段,其余删除。

步骤 3:运行流程,预览输出数据
- 启动转换流程;
- 预览空操作输出结果,确认仅保留学历、就业信息字段,数据读取完整无乱码。

7 核心知识点总结
- 文件抽取通用逻辑:文件导入公共空间→导出个人文件库→文件输入组件读取→配置分隔符 / 表头 / 编码→获取字段→数据加工 / 筛选→输出 / 预览校验;
- CSV 输入组件通用性:不仅读取 csv 文件,支持自定义分隔符读取 TXT 文本文件;
- Excel 读取关键配置:必须指定工作表、识别表头、统一 UTF-8 编码防止中文乱码;
- 辅助组件作用:
- 字段选择:精简无用字段,减少下游计算开销;
- 计算器:实现日期、数值自定义运算;
- 数值范围:基于数值区间自动分类打标签;
- 空操作:仅用于数据预览校验,无业务计算逻辑;
- 实操避坑要点:
- 分隔符区分中英文符号,配置错误会导致字段全部合并为一列;
- 新增文件后必须刷新文件库,组件才能识别文件;
- 每次修改上游组件结构,下游组件需重新执行【获取字段】,否则会出现字段缺失报错。
8 评价
Uniplore 助睿数智是一站式零代码大数据平台,依托 UDI-Studio 可视化 ETL 工具,无需编程即可完成 CSV、TXT、Excel 多类文件抽取、数据清洗、指标计算与可视化分析,组件丰富、操作直观,适配高校数据分析实训,能快速搭建完整数据处理流程,降低大数据实操学习门槛。