OpenRefine:一款免费开源、功能强大的数据清洗工具

OpenRefine 是一款免费开源、功能强大的数据清洗工具,可以让用户通过图形界面和简单的表达式语言轻松完成数据集清洗、转换、扩展以及探索,而不需要编写复杂的程序。

OpenRefine 主要采用 Java、JavaScript 语言开发,遵循 BSD 3-Clause 开源协议,代码托管在 GitHub:

https://github.com/OpenRefine/OpenRefine

功能特性

  • 跨平台:OpenRefine 支持 Windows、macOS 以及 Linux 操作系统部署,用户通过浏览器进行访问。
  • 数据源:支持各种数据格式,包括 CSV、TSV、JSON、XML、ODS、Excel、数据库(MySQL、MariaDB、PostgreSQL、SQLite 等)、URL、RDF、Google Sheets、Wikibase 等;也可以通过扩展插件支持更多数据格式。
  • 数据转换:提供各种数据清洗与标准化功能,例如大小写转换、移除空白字符、字符串处理(替换、截取、拼接)、拆分列、合并列等。OpenRefine 内置了功能强大且易于学习的表达式语言(GREL),可以通过它实现非常复杂的数据逻辑。
  • 数据筛选:通过数据分面和筛选器,根据某一列的值来快速查看、筛选数据子集。例如,可以筛选出所有"状态"为"未知"或"空值"的记录。
  • 数据分组:通过聚类自动识别出在拼写上相似但略有不同的值,例如"Microsoft"和"Microsft",同时提供一键合并的选项。
  • 数据校正:将数据集与外部源的数据集进行匹配和链接,为数据添加上下文和唯一标识符。
  • 版本历史:OpenRefine 可以记录用户每一步操作,支持随时查看完整的操作历史,并且可以撤消或重做任何操作;同时还可以导出整个处理过程,以便在其他项目上重复使用。
  • 导出数据:可以将处理之后的数据集导出为文件,包括 CSV、TSV、HTML、ODS、Excel、SQL 语句、Wikibase 等。
  • 扩展插件:通过安装扩展插件支持更多功能,例如 AI 大语言模型、Javascript 表达式等。

下载安装

OpenRefine 官方下载网址如下:

https://openrefine.org/download

选择对应操作系统的安装文件进行下载,安装完成之后运行 openrefine.exe(Windows),然后在浏览器中输入以下地址进行访问:

http://127.0.0.1:3333/

点击"Language settings"可以设置中文界面:

点击"新建项目"导入数据。

官方文档:https://openrefine.org/docs

总结

OpenRefine 为数据清理和预处理提供了一个功能强大、灵活且免费的解决方案。

相关推荐
Serendipity_Carl7 天前
数据可视化实战之链家
python·数据可视化·数据清洗
阿杰学AI12 天前
AI核心知识47——大语言模型之Data Cleaning(简洁且通俗易懂版)
人工智能·ai·语言模型·aigc·数据清洗·模型训练·data cleaning
青云交15 天前
Java 大视界 -- Java 大数据在智能医疗电子病历数据分析与临床决策支持中的应用
java·flink·数据清洗·电子病历·智能医疗·医疗信息化·临床决策
黑客思维者15 天前
Python数据清洗实战:去重/标准化
开发语言·python·数据清洗·数据标准化
一晌小贪欢1 个月前
【Python数据分析】数据分析与可视化
开发语言·python·数据分析·数据可视化·数据清洗
深蓝电商API2 个月前
数据清洗标准化:构建可复用的爬虫数据清洗管道(Pipeline)
爬虫·数据清洗
Serendipity_Carl2 个月前
爬虫数据清洗可视化案例之全球灾害数据
爬虫·python·pycharm·数据可视化·数据清洗
青云交2 个月前
Java 大视界 -- Java 大数据在智慧交通停车场智能管理与车位预测中的应用实践
java·数据采集·数据清洗·智慧交通·停车场智能管理·智能收费系统·车位预测