OpenRefine:一款免费开源、功能强大的数据清洗工具

OpenRefine 是一款免费开源、功能强大的数据清洗工具,可以让用户通过图形界面和简单的表达式语言轻松完成数据集清洗、转换、扩展以及探索,而不需要编写复杂的程序。

OpenRefine 主要采用 Java、JavaScript 语言开发,遵循 BSD 3-Clause 开源协议,代码托管在 GitHub:

https://github.com/OpenRefine/OpenRefine

功能特性

  • 跨平台:OpenRefine 支持 Windows、macOS 以及 Linux 操作系统部署,用户通过浏览器进行访问。
  • 数据源:支持各种数据格式,包括 CSV、TSV、JSON、XML、ODS、Excel、数据库(MySQL、MariaDB、PostgreSQL、SQLite 等)、URL、RDF、Google Sheets、Wikibase 等;也可以通过扩展插件支持更多数据格式。
  • 数据转换:提供各种数据清洗与标准化功能,例如大小写转换、移除空白字符、字符串处理(替换、截取、拼接)、拆分列、合并列等。OpenRefine 内置了功能强大且易于学习的表达式语言(GREL),可以通过它实现非常复杂的数据逻辑。
  • 数据筛选:通过数据分面和筛选器,根据某一列的值来快速查看、筛选数据子集。例如,可以筛选出所有"状态"为"未知"或"空值"的记录。
  • 数据分组:通过聚类自动识别出在拼写上相似但略有不同的值,例如"Microsoft"和"Microsft",同时提供一键合并的选项。
  • 数据校正:将数据集与外部源的数据集进行匹配和链接,为数据添加上下文和唯一标识符。
  • 版本历史:OpenRefine 可以记录用户每一步操作,支持随时查看完整的操作历史,并且可以撤消或重做任何操作;同时还可以导出整个处理过程,以便在其他项目上重复使用。
  • 导出数据:可以将处理之后的数据集导出为文件,包括 CSV、TSV、HTML、ODS、Excel、SQL 语句、Wikibase 等。
  • 扩展插件:通过安装扩展插件支持更多功能,例如 AI 大语言模型、Javascript 表达式等。

下载安装

OpenRefine 官方下载网址如下:

https://openrefine.org/download

选择对应操作系统的安装文件进行下载,安装完成之后运行 openrefine.exe(Windows),然后在浏览器中输入以下地址进行访问:

http://127.0.0.1:3333/

点击"Language settings"可以设置中文界面:

点击"新建项目"导入数据。

官方文档:https://openrefine.org/docs

总结

OpenRefine 为数据清理和预处理提供了一个功能强大、灵活且免费的解决方案。

相关推荐
深蓝电商API5 天前
数据清洗标准化:构建可复用的爬虫数据清洗管道(Pipeline)
爬虫·数据清洗
Serendipity_Carl17 天前
爬虫数据清洗可视化案例之全球灾害数据
爬虫·python·pycharm·数据可视化·数据清洗
青云交22 天前
Java 大视界 -- Java 大数据在智慧交通停车场智能管理与车位预测中的应用实践
java·数据采集·数据清洗·智慧交通·停车场智能管理·智能收费系统·车位预测
taller_20001 个月前
VBA之正则表达式(45)-- 拆分材料和规格
正则表达式·正则·数据清洗·提取数据·材料规格
nju_spy2 个月前
南京大学 - 复杂结构数据挖掘(一)
大数据·人工智能·机器学习·数据挖掘·数据清洗·南京大学·相似性分析
智数研析社2 个月前
9120 部 TMDb 高分电影数据集 | 7 列全维度指标 (评分 / 热度 / 剧情)+API 权威源 | 电影趋势分析 / 推荐系统 / NLP 建模用
大数据·人工智能·python·深度学习·数据分析·数据集·数据清洗
nju_spy3 个月前
机器学习 - Kaggle项目实践(1)Titanic
人工智能·机器学习·数据分析·kaggle·数据清洗·南京大学·titanic
qq_214225875 个月前
基于kettle实现数据清洗及数据同步
kettle·数据清洗