关于大数据技术栈的一些总结

什么是大数据平台?

基本都是基于hadoop生态圈的一个成熟的产品,像CDH、CDP、阿里云Dataworks等等,这种成熟的厂商把hadoop包装起来,然后提供卖给我们。包括厦航、兴业、国网电力等等都是买的这类的大数据平台

这种买来的大数据平台,自己不用去维护,出问题了就让厂商处理,提供的功能就是:把数据从原系统抽取到这个大数据平台,然后它的加工效率会比较高、抽取效率会比较高、计算能力会比较强、也不用我们去维护搭建hadoop集群等等

就比如兴业自己的业务数据,就通过阿里云的抽数工具,能很快的抽取到阿里云的云平台上。然后在他们的云平台上写sparkSQL或者别的分布式计算SQL,计算效率也高一些。最后再把SQL计算出来的结果,回写到兴业自己的业务系统这边来

其实整个逻辑就是这样,就蛮简单的,其实本质就是写SQL,然后数据建模,我觉得最核心的就是数据建模。一个表的表结构建的比较好的话,它用起来效率就很高,最核心的就是数据建模,然后SQL性能优化(我这五年的工作经验就总结这几句话了,已经被老铁学走了,你已经可以去改行做大数据了,到时候面试的时候就跟别人吹一下,就是这样,大家就觉得你很懂,然后就给你街薪了)

其他的都是搬砖,其他那些底层的东西,本质上没什么价值啦,就是说你自己搭一套,还不如说直接去Oracle买一个,或者是阿里云平台、CDH、CDP买一个。这个其实很简单嘛,没有什么,就是说没必要自己去种一个田,然后收割那些米,然后回家煮,现在都是市场上都都把菜把米都做好了,然后我们去把它买回来,最后做出我们自己想要的菜。阿里云平台、CDH、CDP,他们做的就是种田、种米等来提供原材料,提供厨房的启动环境

市场上都是把菜把米都做好了,就我们买回来,然后去炒菜就可以了,这种都是他们都是高效低成本,然后专业化的,那我们再自己去搞一套就。没有什么意义,那本质就是这样,阿里云它就是这样,就是一个这种东西

其实本质上你就可以理解为是一个Oracle数据库,因为Oracle也是买来的,它也可以提供数据存储、计算的服务,Oracle本身出了问题,就找Oracle厂商,业务计算SQL出了问题,当然就我们自己处理

它就是hadoop,因为hadoop它是开源的,然后阿里、CDH、CDP等等大数据平台厂商,他们就是再去把它封装,封装的更好用一点,那我们就省的去去安装hadoop、安装Spark,安装hive、然后还要考虑他们的兼容性啊,系统的兼容性啊,还要提升他的计算效率呀,这些都厂商来处理,因为这些他们很专业,就是相当于他是专门就是做大餐的,然后我们自己做一顿就没那么好吃

相关推荐
我爱学习好爱好爱7 分钟前
Elasticsearch 7.17.10 双节点集群部署实战(基于 Rocky Linux 9.6)
大数据·linux·elasticsearch
AC赳赳老秦15 分钟前
2026 AI原生工具链升级:DeepSeek与AI原生IDE深度联动,重塑开发效率新高度
大数据·ide·人工智能·web3·去中心化·ai-native·deepseek
TYFHVB1237 分钟前
2026六大主流CRM横评,五大核心维度深度解析
大数据·前端·数据结构·人工智能
武子康41 分钟前
大数据-245 离线数仓 - 电商分析 Hive 拉链表入门实战:缓慢变化维 SCD 类型、建表加载与常见错误速查
大数据·后端·apache hive
芝士爱知识a1 小时前
2026年 AI 期权工具全维度测评与推荐榜单:AlphaGBM 领跑,量化交易新范式
大数据·人工智能·python·ai量化·alphagbm·ai期权工具·ai期权工具推荐
天远Date Lab1 小时前
天远入职背调报告API对接实战:Python构建自动化背景调查中台
大数据·网络·python·自动化
Data_Journal1 小时前
如何将网站数据抓取到 Excel:一步步指南
大数据·开发语言·数据库·人工智能·php
小树苗m1 小时前
win11系统中安装openclaw、配置飞书及彻底卸载openclaw
大数据·飞书·openclaw·openclaw配置飞书·卸载openclaw·安装openclaw
赵谨言1 小时前
基于YOLOv5的火灾检测研究是当前计算机视觉和消防安全领域的重要研究方向
大数据·开发语言·经验分享·python
AC赳赳老秦1 小时前
2026国产大模型协同趋势:以DeepSeek为枢纽,构建高效智能协作网络
大数据·网络·人工智能·搜索引擎·交互·ai-native·deepseek