推荐一些数据处理有关的开源工具及项目

通用数据处理框架和引擎

  1. Apache Spark :一个快速通用的大规模数据处理引擎 。
    • 支持批处理、流处理、机器学习、图计算等多种数据处理范式。
    • 具有高容错性和可扩展性。
  2. Apache Flink :有状态的计算框架。
    • 擅长流处理,也支持批处理。
    • 提供了精确的时间控制和状态管理等功能。
  3. Presto :分布式 SQL 查询引擎。
    • 可以对从GB到PB的数据源运行交互式分析查询。
  4. ClickHouse :列数据库管理系统。
    • 用于在线分析处理任务(OLAP),具有很高的数据压缩比和查询性能。

数据存储相关

  1. HBase :基于 Hadoop 的分布式、面向列的开源数据库。
    • 适合海量数据的实时读写场景。
  2. Apache Cassandra :高可扩展性的分布式数据库。
    • 能在多个节点上处理大量数据。

数据清洗和ETL(抽取、转换、加载)

  1. Apache Airflow :用于编排和调度数据处理工作流。
    • 可以定义复杂的任务依赖关系和定时调度。
  2. Kettle(现在叫Pentaho Data Integration) :提供图形化界面来设计ETL流程。

数据可视化

  1. Superset :开源的现代化数据探索和可视化平台。
    • 可以连接多种数据源并生成丰富的可视化图表。
  2. Metabase:简单易用的开源数据分析和可视化工具。

机器学习和深度学习数据处理

  1. TensorFlow Extended(TFX) :是 TensorFlow 用于端到端机器学习的工具。
    • 包含数据验证、预处理等功能模块。
  2. RapidMiner(部分开源):用于数据挖掘和机器学习流程设计。

分布式文件系统

  1. HDFS(Hadoop Distributed File System):Hadoop 生态的核心存储系统。
  2. Ceph:统一的分布式存储系统,支持对象存储、块存储和文件存储。

数据处理特定领域

  1. TDengine :用于物联网、联网汽车和工业物联网的开源大数据平台。
    • 集成了缓存、流计算、消息队列等功能。
  2. Blazegraph :大规模图数据处理的开源项目。
    • 用于知识图谱等场景。
相关推荐
铁匠匠匠1 小时前
从零开始学数据结构系列之第六章《排序简介》
c语言·数据结构·经验分享·笔记·学习·开源·课程设计
sqll5677 小时前
最新简洁大方的自动发卡网站源码/鲸发卡v11.61系统源码/修复版
前端·开源·html
小强在此9 小时前
【基于开源鸿蒙(OpenHarmony)的智慧农业综合应用系统】
华为·开源·团队开发·智慧农业·harmonyos·开源鸿蒙
customer0811 小时前
【开源免费】基于SpringBoot+Vue.JS在线文档管理系统(JAVA毕业设计)
java·vue.js·spring boot·后端·开源
檀越剑指大厂15 小时前
开源多场景问答社区论坛Apache Answer本地部署并发布至公网使用
开源·apache
DisonTangor18 小时前
Mistral AI 又又又开源了闭源企业级模型——Mistral-Small-Instruct-2409
人工智能·开源
customer0818 小时前
【开源免费】基于SpringBoot+Vue.JS网上超市系统(JAVA毕业设计)
java·vue.js·spring boot·后端·开源
hellojackjiang201118 小时前
开源即时通讯IM框架MobileIMSDK的H5端技术概览
网络·开源·即时通讯·im开发
思通数科x18 小时前
思通数科开源产品:免费的AI视频监控卫士安装指南
图像处理·人工智能·目标检测·机器学习·计算机视觉·目标跟踪·开源
小强在此19 小时前
基于OpenHarmony(开源鸿蒙)的智慧医疗综合应用系统
华为·开源·团队开发·健康医疗·harmonyos·开源鸿蒙