关于大数据技术栈的一些总结

什么是大数据平台?

基本都是基于hadoop生态圈的一个成熟的产品,像CDH、CDP、阿里云Dataworks等等,这种成熟的厂商把hadoop包装起来,然后提供卖给我们。包括厦航、兴业、国网电力等等都是买的这类的大数据平台

这种买来的大数据平台,自己不用去维护,出问题了就让厂商处理,提供的功能就是:把数据从原系统抽取到这个大数据平台,然后它的加工效率会比较高、抽取效率会比较高、计算能力会比较强、也不用我们去维护搭建hadoop集群等等

就比如兴业自己的业务数据,就通过阿里云的抽数工具,能很快的抽取到阿里云的云平台上。然后在他们的云平台上写sparkSQL或者别的分布式计算SQL,计算效率也高一些。最后再把SQL计算出来的结果,回写到兴业自己的业务系统这边来

其实整个逻辑就是这样,就蛮简单的,其实本质就是写SQL,然后数据建模,我觉得最核心的就是数据建模。一个表的表结构建的比较好的话,它用起来效率就很高,最核心的就是数据建模,然后SQL性能优化(我这五年的工作经验就总结这几句话了,已经被老铁学走了,你已经可以去改行做大数据了,到时候面试的时候就跟别人吹一下,就是这样,大家就觉得你很懂,然后就给你街薪了)

其他的都是搬砖,其他那些底层的东西,本质上没什么价值啦,就是说你自己搭一套,还不如说直接去Oracle买一个,或者是阿里云平台、CDH、CDP买一个。这个其实很简单嘛,没有什么,就是说没必要自己去种一个田,然后收割那些米,然后回家煮,现在都是市场上都都把菜把米都做好了,然后我们去把它买回来,最后做出我们自己想要的菜。阿里云平台、CDH、CDP,他们做的就是种田、种米等来提供原材料,提供厨房的启动环境

市场上都是把菜把米都做好了,就我们买回来,然后去炒菜就可以了,这种都是他们都是高效低成本,然后专业化的,那我们再自己去搞一套就。没有什么意义,那本质就是这样,阿里云它就是这样,就是一个这种东西

其实本质上你就可以理解为是一个Oracle数据库,因为Oracle也是买来的,它也可以提供数据存储、计算的服务,Oracle本身出了问题,就找Oracle厂商,业务计算SQL出了问题,当然就我们自己处理

它就是hadoop,因为hadoop它是开源的,然后阿里、CDH、CDP等等大数据平台厂商,他们就是再去把它封装,封装的更好用一点,那我们就省的去去安装hadoop、安装Spark,安装hive、然后还要考虑他们的兼容性啊,系统的兼容性啊,还要提升他的计算效率呀,这些都厂商来处理,因为这些他们很专业,就是相当于他是专门就是做大餐的,然后我们自己做一顿就没那么好吃

相关推荐
天冬忘忧23 分钟前
Kafka 生产者全面解析:从基础原理到高级实践
大数据·分布式·kafka
青云交1 小时前
大数据新视界 -- Hive 数据仓库:构建高效数据存储的基石(下)(2/ 30)
大数据·数据仓库·hive·数据安全·数据分区·数据桶·大数据存储
zmd-zk1 小时前
flink学习(2)——wordcount案例
大数据·开发语言·学习·flink
电子手信1 小时前
知识中台在多语言客户中的应用
大数据·人工智能·自然语言处理·数据挖掘·知识图谱
隔着天花板看星星1 小时前
Kafka-Consumer理论知识
大数据·分布式·中间件·kafka
holywangle1 小时前
解决Flink读取kafka主题数据无报错无数据打印的重大发现(问题已解决)
大数据·flink·kafka
隔着天花板看星星1 小时前
Kafka-副本分配策略
大数据·分布式·中间件·kafka
Lorin 洛林2 小时前
Hadoop 系列 MapReduce:Map、Shuffle、Reduce
大数据·hadoop·mapreduce
DolphinScheduler社区2 小时前
大数据调度组件之Apache DolphinScheduler
大数据
SelectDB技术团队2 小时前
兼顾高性能与低成本,浅析 Apache Doris 异步物化视图原理及典型场景
大数据·数据库·数据仓库·数据分析·doris