经验篇:大数据常用工具集合

数据存储工具

rds、mysql、postgresql、presto;star rocks/Doris;oss、es、hdfs、binlog、nosql、redis、neo4j;Kafka

复制代码
oss:文件、图片,阿里云提供的云存储服务,适用于存储各种类型的文件和图片
rds:mysql,结构化数据库,阿里云提供的关系型数据库服务,用于创建和管理MySQL等结构化数据库
es:搜索词库,Elasticsearch的缩写,是一个开源的搜索和分析引擎,可以用于构建搜索词库和进行全文搜索等操作
Hadoop:hdfs/Hbase/hive,Hadoop的核心组件包括HDFS(分布式文件系统Hadoop Distributed File System的缩写)、MapReduce(分布式计算框架)和YARN(资源调度平台),它是一种分布式文件系统,可以存储和处理大规模的数据集。通常与Spark、Impala等大数据引擎一起使用
binlog:日志文件,MySQL的二进制日志文件,用于记录数据库的所有更新操作。通过分析binlog文件,可以实现数据同步、备份恢复等操作
NoSQL:非关系型数据库(mongodb、cassandra、couchdb),适用于存储非结构化和半结构化的数据。
Redis:key-value数据存储,是一个高性能的键值对(key-value)数据存储系统,适用于缓存、消息队列等应用场景
Neo4j:高性能的图形数据库,适用于处理高度连接的数据和应用程序
star rocks/Doris:MPP数据库,极速全场景MPP数据库,采用新一代的弹性MPP架构,可以高效支持大数据量级的多维分析、实时分析、高并发分析等多种数据分析场景
Kafka:高吞吐量的分布式发布订阅消息系统,其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现。
传统关系型数据库:Oracle、SQL Server、MySQL、PostgreSQL

大数据调度平台

Azkaban、airflow、DolphinScheduler;MaxCompute

复制代码
Azkaban:由linked开源的一个批量工作流任务调度器,它是由三个部分组成:Azkaban Web Server(管理服务器)、Azkaban Executor Server(执行管理器)和MySQL(关系数据库),可用于在一个工作流内以一个特定的顺序运行一组工作和流程,可以利用Azkaban来完成大数据的任务调度,大数据开发需掌握Azkaban的相关配置及语法规则
airflow:开源的调度和监控系统,用于管理和调度数据工作流。它提供了一个易于使用的界面和API,使用户能够方便地创建、管理和监控工作流。Airflow支持多种任务类型,例如Python、Bash、SQL等,并提供了丰富的操作符和传感器来支持复杂的依赖关系和错误处理。
DS:Apache DolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统。它致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。它支持传统的shell任务,同时支持大数据平台任务调度,如MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process。所有流、定时操作都是可视化的,通过拖拽来绘制DAG,配置数据源及资源,同时对于第三方系统,提供api方式的操作。
Oozie:工作流任务调度系统,用于管理和调度Hadoop作业。它提供了一个Web界面,使用户能够方便地提交和管理作业。Oozie可以与Hadoop生态系统中的其他工具集成,例如Hive、HBase、Sqoop等
集成系统平台,类似于阿里云的dataworks(MaxCompute)、袋鼠云

数仓ETL工具

Sqoop、Kettle、DataX、Flink

复制代码
Sqoop:用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库(如MySQL,Oracle)导入数据到Hadoop HDFS,并从Hadoop文件系统导出到关系数据库,学习使用Sqoop对关系型数据库数据和Hadoop之间的导入有很大的帮助。
Kettle:管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。作为Pentaho的一个重要组成部分,现在在国内项目应用上逐渐增多,其数据抽取高效稳定。
DataX:是异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。DataX本身作为离线数据同步框架,采用Framework+plugin架构构建。将数据源读取和写入抽象成为Reader+Writer插件,纳入到整个同步框架中。
Flink:高性能、高吞吐量的数据流处理框架,它提供了基于Java和Scala的API,用于开发和执行分布式流式应用程序。Flink支持事件时间处理和状态计算,并具有自动容错和恢复的功能。

数据查询工具

Kylin、Hue

复制代码
Kylin:eBay中国团队开发的Apache顶级项目,它是首个完全由中国团队设计开发的Apache顶级项目。Kylin提供了一个开源的分布式分析引擎,能够在亚秒级查询PB级数据,主要用于超大规模数据的分析查询,可以在Hadoop/Spark之上的一个扩展,提供SQL接口以及多维度的OLAP分布式联机分析
Hue:是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区。它提供了一个Web控制台,用户可以在浏览器端通过Hue与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据、运行MapReduce Job等等。Hue还提供了类似的数据处理和可视化功能,但更加强调了交互式的定义和Oozie工作流管理等功能。

数据分析工具

Python、Spark、Scala、Pentaho、Zeppelin、R、SAS、Tableau、Excel

复制代码
Python:面向对象的编程语言,拥有丰富的库,使用简单,应用广泛,在大数据领域也有所应用,主要可用于数据采集、数据分析以及数据可视化等
Spark:专为大规模数据处理而设计的快速通用的计算引擎,其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求,大数据开发需掌握Spark基础、SparkJob、Spark RDD部署与资源分配、Spark Shuffle、Spark内存管理、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等相关知识
Scala:多范式的编程语言,一方面继承了多种语言中的优秀特性,一方面又没有抛弃 Java 这个强大的平台。大数据开发重要框架Spark就是采用Scala语言设计的
Pentaho:开源商务智能软件,以工作流为核心的、强调面向解决方案而非工具组件的、基于Java平台的BI套件。包括一个Web Server平台和几个工具软件:报表、分析、图表、数据集成、数据挖掘等
Zeppelin:开源的数据分析和可视化工具,类似于ipython notebook和jupyter,提供交互数据分析且基于Web的笔记本,支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等
R:是一种用于统计分析、数据可视化和机器学习的语言和软件包。R具有广泛的应用领域,包括生物医学、金融、社会科学等
SAS:是一种用于统计分析、数据可视化和数据管理的软件系统。SAS提供了广泛的功能和工具,包括数据清洗、数据挖掘、统计分析等。
Excel:是一种广泛使用的电子表格软件,也具有强大的数据分析功能,包括数据清洗、数据透视表、模拟运算表等。

商业智能工具

Tableau、QuickBI、PowerBI、FineBI、观远BI、GBI、网易有数、QlikView、Oracle Analytics Cloud、SAP Analytics Cloud、Cognos、Google Analytics、Adobe Analytics

复制代码
Tableau:是一种用于数据可视化的工具,可以帮助用户快速创建交互式的数据可视化报告和仪表板。Tableau提供了丰富的可视化选项,包括图表、地图、热图等。
Power BI:是一种商业智能工具,可以帮助用户快速创建交互式的数据可视化报告和仪表板。Power BI提供了广泛的功能和工具,包括数据清洗、数据挖掘、数据分析等。
QuickBI:具有强大的数据处理和数据可视化功能。QuickBI支持多种数据源连接,可以快速整合和分析大量数据,并提供了丰富的图表类型和灵活的数据可视化配置,可以满足各种数据分析需求。
FineBI:基于数据驱动的商业智能工具,可以帮助企业快速实现数据分析和决策支持。FineBI具有强大的数据处理能力,可以快速整合和分析大量数据。它还提供了丰富的图表类型和灵活的数据可视化配置,可以满足各种数据分析需求。FineBI还具有强大的数据挖掘功能,可以帮助企业发现数据中的隐藏信息和模式。
观远BI:智能化的商业智能工具,可以帮助企业快速构建自己的数据分析平台。观远BI提供了丰富的数据源连接、数据处理、数据挖掘和数据可视化功能,可以帮助企业实现业务数据的快速整合和分析
GBI:是一款针对全球市场开发的商业智能工具,提供了多语言、多币种、多税率的支持。GBI可以帮助企业快速实现全球化业务的数据整合和分析,支持多种数据源连接和数据处理方式。
网易有数:是网易公司推出的商业智能工具,可以帮助企业快速实现业务数据的分析和可视化。网易有数提供了丰富的数据源连接、数据处理、数据挖掘和数据可视化功能,支持多种数据分析和决策场景
QlikView:是一款强大的数据可视化工具,提供了灵活的数据连接、数据处理和数据可视化功能。QlikView支持多种数据源连接,可以快速创建交互式的数据可视化报告和仪表板。
Oracle Analytics Cloud:是Oracle公司推出的商业智能工具,提供了强大的数据可视化、数据挖掘和数据分析功能。Oracle Analytics Cloud支持多种数据源连接和数据处理方式,可以帮助企业快速实现业务数据的整合和分析
SAP Analytics Cloud:是SAP公司推出的商业智能工具,提供了强大的数据可视化、数据挖掘和数据分析功能。SAP Analytics Cloud支持多种数据源连接和数据处理方式,可以帮助企业快速实现业务数据的整合和分析。
Cognos:是IBM公司推出的一款商业智能工具,提供了强大的数据可视化、数据挖掘和数据分析功能。Cognos支持多种数据源连接和数据处理方式,可以帮助企业快速实现业务数据的整合和分析。
Google Analytics:Google推出的网站分析解决方案,它不仅可以帮助用户进一步了解网站流量和营销效果,还提供了富有灵活性又易于使用的强大功能,让用户可以通过全新的方式查看并分析流量数据。有了Google Analytics,用户可以更胸有成竹地撰写定位准确的广告、强化营销计划并提高网站的转化率。此外,Google Analytics还提供了详细的网页打开速度测试统计功能
Adobe Analytics:为数字营销人员和企业设计的衡量工具,支持中文界面。它为各类企业和在线营销人员提供创建业务视图所需的数据,可用于推动做出广告、在线产品投放、市场营销、产品开发以及其他关键性尝试的有关决策。该应用程序包括内置和自定义报告功能、日历功能和以多种格式(包括 Word、Excel、PDF 以及 HTML)下载信息的功能。Adobe Analytics 还整合了其他 Adobe 工具或兼容的第三方工具,以将相关数据馈送至这类工具。
相关推荐
TDengine (老段)21 小时前
TDengine 数学函数 DEGRESS 用户手册
大数据·数据库·sql·物联网·时序数据库·iot·tdengine
TDengine (老段)21 小时前
TDengine 数学函数 GREATEST 用户手册
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
字节数据平台1 天前
火山引擎Data Agent再拓新场景,重磅推出用户研究Agent
大数据·人工智能·火山引擎
铭毅天下1 天前
Elasticsearch 到 Easysearch 数据迁移 5 种方案选型实战总结
大数据·elasticsearch·搜索引擎·全文检索
跨境小新1 天前
Facebook广告投放:地域定向流量不精准?x个优化指南
大数据·facebook
ZKNOW甄知科技1 天前
客户案例 | 派克新材x甄知科技,构建全场景智能IT运维体系
大数据·运维·人工智能·科技·低代码·微服务·制造
币须赢1 天前
688758赛分科技 阴上阴形态 洗盘上涨?
大数据
学掌门1 天前
大数据知识合集之预处理方法
大数据
Elastic 中国社区官方博客1 天前
Elasticsearch 推理 API 增加了开放的可定制服务
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
蒙特卡洛的随机游走1 天前
Spark核心数据(RDD、DataFrame 和 Dataset)
大数据·分布式·spark