Hadoop3:大数据生态体系

一、技术层面

通过下面这张图,我们可以大概确定,在大数据行业里,自己的学习路线。

个人认为,Hadoop集群一旦搭建完工,基本就是个把人运维的事情

主要岗位应该是集中在数据计算层,尤其是实时计算!

实时计算框架比较实用的是Spark StreamingFlink

数据传输层,又叫数据采集层,将不同的数据源中的各种类型数据,采集到Hadoop中进行存储

Flume组件,个人觉得与Logstash组件等效。

这里的定时任务,任务之间是可以相互依赖的

二、业务层面

个人偏好推荐功能

相关推荐
矶鹬笛手1 小时前
(2.2) 新一代信息技术及应用
大数据·云计算·区块链·时序数据库
汤姆yu3 小时前
基于python大数据的小说数据可视化及预测系统
大数据·python·信息可视化
立控信息LKONE3 小时前
库室采购安全设施设备——自主研发、国产化监管一体机
大数据·安全
顧棟3 小时前
HDFS元数据与auditlog结合Hive元数据统计分析
hive·hadoop·hdfs
20岁30年经验的码农4 小时前
Kafka 消息中间件实战指南
分布式·kafka·linq
无心水4 小时前
【分布式利器:限流】4、异步场景限流:消息队列削峰填谷+动态限流实现
分布式·mq·分布式限流·动态限流·分布式利器·异步场景限流·消息队列削峰填谷
z***89715 小时前
【分布式】Hadoop完全分布式的搭建(零基础)
大数据·hadoop·分布式
Kevinyu_6 小时前
责任链模式
java·hadoop·责任链模式
TDengine (老段)6 小时前
TDengine 转换函数 TO_JSON 用户手册
android·大数据·数据库·json·时序数据库·tdengine·涛思数据
隐语SecretFlow6 小时前
【隐语Serectflow】基于隐私保护的分布式数字身份认证技术研究及实践探索
分布式