关于大数据技术栈的一些总结

什么是大数据平台?

基本都是基于hadoop生态圈的一个成熟的产品,像CDH、CDP、阿里云Dataworks等等,这种成熟的厂商把hadoop包装起来,然后提供卖给我们。包括厦航、兴业、国网电力等等都是买的这类的大数据平台

这种买来的大数据平台,自己不用去维护,出问题了就让厂商处理,提供的功能就是:把数据从原系统抽取到这个大数据平台,然后它的加工效率会比较高、抽取效率会比较高、计算能力会比较强、也不用我们去维护搭建hadoop集群等等

就比如兴业自己的业务数据,就通过阿里云的抽数工具,能很快的抽取到阿里云的云平台上。然后在他们的云平台上写sparkSQL或者别的分布式计算SQL,计算效率也高一些。最后再把SQL计算出来的结果,回写到兴业自己的业务系统这边来

其实整个逻辑就是这样,就蛮简单的,其实本质就是写SQL,然后数据建模,我觉得最核心的就是数据建模。一个表的表结构建的比较好的话,它用起来效率就很高,最核心的就是数据建模,然后SQL性能优化(我这五年的工作经验就总结这几句话了,已经被老铁学走了,你已经可以去改行做大数据了,到时候面试的时候就跟别人吹一下,就是这样,大家就觉得你很懂,然后就给你街薪了)

其他的都是搬砖,其他那些底层的东西,本质上没什么价值啦,就是说你自己搭一套,还不如说直接去Oracle买一个,或者是阿里云平台、CDH、CDP买一个。这个其实很简单嘛,没有什么,就是说没必要自己去种一个田,然后收割那些米,然后回家煮,现在都是市场上都都把菜把米都做好了,然后我们去把它买回来,最后做出我们自己想要的菜。阿里云平台、CDH、CDP,他们做的就是种田、种米等来提供原材料,提供厨房的启动环境

市场上都是把菜把米都做好了,就我们买回来,然后去炒菜就可以了,这种都是他们都是高效低成本,然后专业化的,那我们再自己去搞一套就。没有什么意义,那本质就是这样,阿里云它就是这样,就是一个这种东西

其实本质上你就可以理解为是一个Oracle数据库,因为Oracle也是买来的,它也可以提供数据存储、计算的服务,Oracle本身出了问题,就找Oracle厂商,业务计算SQL出了问题,当然就我们自己处理

它就是hadoop,因为hadoop它是开源的,然后阿里、CDH、CDP等等大数据平台厂商,他们就是再去把它封装,封装的更好用一点,那我们就省的去去安装hadoop、安装Spark,安装hive、然后还要考虑他们的兼容性啊,系统的兼容性啊,还要提升他的计算效率呀,这些都厂商来处理,因为这些他们很专业,就是相当于他是专门就是做大餐的,然后我们自己做一顿就没那么好吃

相关推荐
GZ_TOGOGO22 分钟前
【2024最新】华为HCIE认证考试流程
大数据·人工智能·网络协议·网络安全·华为
狼头长啸李树身2 小时前
眼儿媚·秋雨绵绵窗暗暗
大数据·网络·服务发现·媒体
Json_181790144803 小时前
商品详情接口使用方法和对接流程如下
大数据·json
Data 3173 小时前
Hive数仓操作(十七)
大数据·数据库·数据仓库·hive·hadoop
bubble小拾7 小时前
ElasticSearch高级功能详解与读写性能调优
大数据·elasticsearch·搜索引擎
ZOHO项目管理软件7 小时前
EDM平台大比拼 用户体验与营销效果双重测评
大数据
HyperAI超神经8 小时前
Meta 首个多模态大模型一键启动!首个多针刺绣数据集上线,含超 30k 张图片
大数据·人工智能·深度学习·机器学习·语言模型·大模型·数据集
Hello.Reader10 小时前
TopK算法在大数据重复数据分析中的应用与挑战
大数据·算法·数据分析
数据龙傲天10 小时前
1688商品API接口:电商数据自动化的新引擎
java·大数据·sql·mysql
Elastic 中国社区官方博客10 小时前
Elasticsearch:使用 LLM 实现传统搜索自动化
大数据·人工智能·elasticsearch·搜索引擎·ai·自动化·全文检索