Hadoop3:大数据生态体系

一、技术层面

通过下面这张图,我们可以大概确定,在大数据行业里,自己的学习路线。

个人认为,Hadoop集群一旦搭建完工,基本就是个把人运维的事情

主要岗位应该是集中在数据计算层,尤其是实时计算!

实时计算框架比较实用的是Spark StreamingFlink

数据传输层,又叫数据采集层,将不同的数据源中的各种类型数据,采集到Hadoop中进行存储

Flume组件,个人觉得与Logstash组件等效。

这里的定时任务,任务之间是可以相互依赖的

二、业务层面

个人偏好推荐功能

相关推荐
面向Google编程9 小时前
Flink源码阅读:Watermark机制
大数据·flink
Elastic 中国社区官方博客11 小时前
让我们把这个 expense 工具从 n8n 迁移到 Elastic One Workflow
大数据·运维·elasticsearch·搜索引擎·ai·信息可视化·全文检索
邮一朵向日葵14 小时前
企查查开放平台MCP:为AI智能体注入精准商业数据,驱动智能决策新时代
大数据·人工智能
沃达德软件14 小时前
智能警务视频侦查系统
大数据·人工智能·数据挖掘·数据分析·实时音视频·视频编解码
湘-枫叶情缘15 小时前
“智律提效”AI数字化运营落地项目可行性方案
大数据·人工智能·产品运营
Blossom.11816 小时前
大模型推理优化实战:连续批处理与PagedAttention性能提升300%
大数据·人工智能·python·神经网络·算法·机器学习·php
F36_9_17 小时前
数字化项目管理系统分享:7款助力企业实现项目智能化协同的工具精选
大数据
qq_124987075317 小时前
基于协同过滤算法的在线教育资源推荐平台的设计与实现(源码+论文+部署+安装)
java·大数据·人工智能·spring boot·spring·毕业设计
程途拾光15818 小时前
发展中国家的AI弯道超车:医疗AI的低成本本土化之路
大数据·人工智能
Mr-Apple18 小时前
记录一次git commit --amend的误操作
大数据·git·elasticsearch