关于大数据技术栈的一些总结

什么是大数据平台？

基本都是基于hadoop生态圈的一个成熟的产品，像CDH、CDP、阿里云Dataworks等等，这种成熟的厂商把hadoop包装起来，然后提供卖给我们。包括厦航、兴业、国网电力等等都是买的这类的大数据平台

这种买来的大数据平台，自己不用去维护，出问题了就让厂商处理，提供的功能就是：把数据从原系统抽取到这个大数据平台，然后它的加工效率会比较高、抽取效率会比较高、计算能力会比较强、也不用我们去维护搭建hadoop集群等等

就比如兴业自己的业务数据，就通过阿里云的抽数工具，能很快的抽取到阿里云的云平台上。然后在他们的云平台上写sparkSQL或者别的分布式计算SQL，计算效率也高一些。最后再把SQL计算出来的结果，回写到兴业自己的业务系统这边来

其实整个逻辑就是这样，就蛮简单的，其实本质就是写SQL，然后数据建模，我觉得最核心的就是数据建模。一个表的表结构建的比较好的话，它用起来效率就很高，最核心的就是数据建模，然后SQL性能优化（我这五年的工作经验就总结这几句话了，已经被老铁学走了，你已经可以去改行做大数据了，到时候面试的时候就跟别人吹一下，就是这样，大家就觉得你很懂，然后就给你街薪了）

其他的都是搬砖，其他那些底层的东西，本质上没什么价值啦，就是说你自己搭一套，还不如说直接去Oracle买一个，或者是阿里云平台、CDH、CDP买一个。这个其实很简单嘛，没有什么，就是说没必要自己去种一个田，然后收割那些米，然后回家煮，现在都是市场上都都把菜把米都做好了，然后我们去把它买回来，最后做出我们自己想要的菜。阿里云平台、CDH、CDP，他们做的就是种田、种米等来提供原材料，提供厨房的启动环境

市场上都是把菜把米都做好了，就我们买回来，然后去炒菜就可以了，这种都是他们都是高效低成本，然后专业化的，那我们再自己去搞一套就。没有什么意义，那本质就是这样，阿里云它就是这样，就是一个这种东西

其实本质上你就可以理解为是一个Oracle数据库，因为Oracle也是买来的，它也可以提供数据存储、计算的服务，Oracle本身出了问题，就找Oracle厂商，业务计算SQL出了问题，当然就我们自己处理

它就是hadoop，因为hadoop它是开源的，然后阿里、CDH、CDP等等大数据平台厂商，他们就是再去把它封装，封装的更好用一点，那我们就省的去去安装hadoop、安装Spark，安装hive、然后还要考虑他们的兼容性啊，系统的兼容性啊，还要提升他的计算效率呀，这些都厂商来处理，因为这些他们很专业，就是相当于他是专门就是做大餐的，然后我们自己做一顿就没那么好吃