OpenRefine 是一款免费开源、功能强大的数据清洗工具,可以让用户通过图形界面和简单的表达式语言轻松完成数据集清洗、转换、扩展以及探索,而不需要编写复杂的程序。

OpenRefine 主要采用 Java、JavaScript 语言开发,遵循 BSD 3-Clause 开源协议,代码托管在 GitHub:
https://github.com/OpenRefine/OpenRefine
功能特性
- 跨平台:OpenRefine 支持 Windows、macOS 以及 Linux 操作系统部署,用户通过浏览器进行访问。
- 数据源:支持各种数据格式,包括 CSV、TSV、JSON、XML、ODS、Excel、数据库(MySQL、MariaDB、PostgreSQL、SQLite 等)、URL、RDF、Google Sheets、Wikibase 等;也可以通过扩展插件支持更多数据格式。

- 数据转换:提供各种数据清洗与标准化功能,例如大小写转换、移除空白字符、字符串处理(替换、截取、拼接)、拆分列、合并列等。OpenRefine 内置了功能强大且易于学习的表达式语言(GREL),可以通过它实现非常复杂的数据逻辑。

- 数据筛选:通过数据分面和筛选器,根据某一列的值来快速查看、筛选数据子集。例如,可以筛选出所有"状态"为"未知"或"空值"的记录。
- 数据分组:通过聚类自动识别出在拼写上相似但略有不同的值,例如"Microsoft"和"Microsft",同时提供一键合并的选项。
- 数据校正:将数据集与外部源的数据集进行匹配和链接,为数据添加上下文和唯一标识符。
- 版本历史:OpenRefine 可以记录用户每一步操作,支持随时查看完整的操作历史,并且可以撤消或重做任何操作;同时还可以导出整个处理过程,以便在其他项目上重复使用。
- 导出数据:可以将处理之后的数据集导出为文件,包括 CSV、TSV、HTML、ODS、Excel、SQL 语句、Wikibase 等。
- 扩展插件:通过安装扩展插件支持更多功能,例如 AI 大语言模型、Javascript 表达式等。
下载安装
OpenRefine 官方下载网址如下:
https://openrefine.org/download

选择对应操作系统的安装文件进行下载,安装完成之后运行 openrefine.exe(Windows),然后在浏览器中输入以下地址进行访问:

点击"Language settings"可以设置中文界面:

点击"新建项目"导入数据。
官方文档:https://openrefine.org/docs
总结
OpenRefine 为数据清理和预处理提供了一个功能强大、灵活且免费的解决方案。