关于大数据技术栈的一些总结

什么是大数据平台?

基本都是基于hadoop生态圈的一个成熟的产品,像CDH、CDP、阿里云Dataworks等等,这种成熟的厂商把hadoop包装起来,然后提供卖给我们。包括厦航、兴业、国网电力等等都是买的这类的大数据平台

这种买来的大数据平台,自己不用去维护,出问题了就让厂商处理,提供的功能就是:把数据从原系统抽取到这个大数据平台,然后它的加工效率会比较高、抽取效率会比较高、计算能力会比较强、也不用我们去维护搭建hadoop集群等等

就比如兴业自己的业务数据,就通过阿里云的抽数工具,能很快的抽取到阿里云的云平台上。然后在他们的云平台上写sparkSQL或者别的分布式计算SQL,计算效率也高一些。最后再把SQL计算出来的结果,回写到兴业自己的业务系统这边来

其实整个逻辑就是这样,就蛮简单的,其实本质就是写SQL,然后数据建模,我觉得最核心的就是数据建模。一个表的表结构建的比较好的话,它用起来效率就很高,最核心的就是数据建模,然后SQL性能优化(我这五年的工作经验就总结这几句话了,已经被老铁学走了,你已经可以去改行做大数据了,到时候面试的时候就跟别人吹一下,就是这样,大家就觉得你很懂,然后就给你街薪了)

其他的都是搬砖,其他那些底层的东西,本质上没什么价值啦,就是说你自己搭一套,还不如说直接去Oracle买一个,或者是阿里云平台、CDH、CDP买一个。这个其实很简单嘛,没有什么,就是说没必要自己去种一个田,然后收割那些米,然后回家煮,现在都是市场上都都把菜把米都做好了,然后我们去把它买回来,最后做出我们自己想要的菜。阿里云平台、CDH、CDP,他们做的就是种田、种米等来提供原材料,提供厨房的启动环境

市场上都是把菜把米都做好了,就我们买回来,然后去炒菜就可以了,这种都是他们都是高效低成本,然后专业化的,那我们再自己去搞一套就。没有什么意义,那本质就是这样,阿里云它就是这样,就是一个这种东西

其实本质上你就可以理解为是一个Oracle数据库,因为Oracle也是买来的,它也可以提供数据存储、计算的服务,Oracle本身出了问题,就找Oracle厂商,业务计算SQL出了问题,当然就我们自己处理

它就是hadoop,因为hadoop它是开源的,然后阿里、CDH、CDP等等大数据平台厂商,他们就是再去把它封装,封装的更好用一点,那我们就省的去去安装hadoop、安装Spark,安装hive、然后还要考虑他们的兼容性啊,系统的兼容性啊,还要提升他的计算效率呀,这些都厂商来处理,因为这些他们很专业,就是相当于他是专门就是做大餐的,然后我们自己做一顿就没那么好吃

相关推荐
物联网软硬件开发-轨物科技1 小时前
【轨物方案】新能源的下半场:构筑光伏场站全生命周期智慧运维新范式
大数据·人工智能·物联网
汇智信科9 小时前
智慧矿山和工业大数据解决方案“智能设备管理系统”
大数据·人工智能·工业大数据·智能矿山·汇智信科·智能设备管理系统
阿里云大数据AI技术9 小时前
Hologres Dynamic Table 在淘天价格力的业务实践
大数据·人工智能·阿里云·hologres·增量刷新
OpenCSG12 小时前
新能源汽车行业经典案例 — 某新能源汽车 × OpenCSG
大数据·人工智能·汽车·客户案例·opencsg
外参财观13 小时前
流量变现的边界:携程金融按下暂停键后的冷思考
大数据·人工智能·金融
CCPC不拿奖不改名14 小时前
两种完整的 Git 分支协作流程
大数据·人工智能·git·python·elasticsearch·搜索引擎·自然语言处理
智在碧得14 小时前
碧服打造DataOps全链路闭环,定义大数据工程化发布新标杆
大数据·网络·数据库
亿信华辰软件14 小时前
构建智慧数据中台,赋能饮料集团全链路数字化转型新引擎
大数据·人工智能·云计算
Elastic 中国社区官方博客15 小时前
使用瑞士风格哈希表实现更快的 ES|QL 统计
大数据·数据结构·sql·elasticsearch·搜索引擎·全文检索·散列表
isNotNullX15 小时前
什么是数字脱敏?一文讲透数字脱敏概念
大数据·数据安全·数据可视化·数字脱敏