通用数据处理框架和引擎
- Apache Spark :一个快速通用的大规模数据处理引擎 。
- 支持批处理、流处理、机器学习、图计算等多种数据处理范式。
- 具有高容错性和可扩展性。
- Apache Flink :有状态的计算框架。
- 擅长流处理,也支持批处理。
- 提供了精确的时间控制和状态管理等功能。
- Presto :分布式 SQL 查询引擎。
- 可以对从GB到PB的数据源运行交互式分析查询。
- ClickHouse :列数据库管理系统。
- 用于在线分析处理任务(OLAP),具有很高的数据压缩比和查询性能。
数据存储相关
- HBase :基于 Hadoop 的分布式、面向列的开源数据库。
- 适合海量数据的实时读写场景。
- Apache Cassandra :高可扩展性的分布式数据库。
- 能在多个节点上处理大量数据。
数据清洗和ETL(抽取、转换、加载)
- Apache Airflow :用于编排和调度数据处理工作流。
- 可以定义复杂的任务依赖关系和定时调度。
- Kettle(现在叫Pentaho Data Integration) :提供图形化界面来设计ETL流程。
数据可视化
- Superset :开源的现代化数据探索和可视化平台。
- 可以连接多种数据源并生成丰富的可视化图表。
- Metabase:简单易用的开源数据分析和可视化工具。
机器学习和深度学习数据处理
- TensorFlow Extended(TFX) :是 TensorFlow 用于端到端机器学习的工具。
- 包含数据验证、预处理等功能模块。
- RapidMiner(部分开源):用于数据挖掘和机器学习流程设计。
分布式文件系统
- HDFS(Hadoop Distributed File System):Hadoop 生态的核心存储系统。
- Ceph:统一的分布式存储系统,支持对象存储、块存储和文件存储。
数据处理特定领域
- TDengine :用于物联网、联网汽车和工业物联网的开源大数据平台。
- 集成了缓存、流计算、消息队列等功能。
- Blazegraph :大规模图数据处理的开源项目。
- 用于知识图谱等场景。