00Hadoop数据仓库平台

在这里是学习大数据的第一站

什么是数据仓库

在计算领域,数据仓库(DW 或 DWH)也称为企业数据仓库(EDW),是一种用于报告和数据分析的系统,被认为是商业智能的核心组件。 数据仓库是来自一个或多个不同来源的集成数据的中央存储库。 它们将当前和历史数据存储在一个位置,用于为整个企业的员工创建分析报告。这对公司来说是有益的,因为它使他们能够询问数据并从数据中汲取见解并做出决策。

Extract, transform, load (ETL)是用于构建数据仓库系统的两种主要方法。

数据仓库的输入通常包括:业务数据、用户行为数据和爬虫数据等。

业务数据: 各行业在处理事务过程中产生的数据。比如用户在电商网站的登录、下单、支付等过程,和业务数据库进行的增删改查交互数据,这些产生的数据就是业务数据。业务数据通常存储在MySQL和Oracle中。

用户行为数据: 用户在使用产品的过程中,通过客户端交互的数据和业务埋点数据将发往服务器保存,例如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据往往存储在日志文件中。

常见大数据平台组件及介绍

技术选型主要考虑因素:数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算,常见的数据仓库平台选型如下:

  • 数据采集传输:Flume、Kafka、DataX、Maxwell,Sqoop,Logstash
  • 数据存储:MySQL,HDFS\ Hadoop,HBase,Redis,MongoDB
  • 数据计算:Hive,Spark,Flink,Storm,Tez
  • 即席查询:Presto,Kylin,Impala,Druid,ClickHouse,Doris
  • 数据可视化:Superset,Echarts,Sugar,QuickBI,DataV
  • 任务调度:DolphinScheduler,Azkaban,NIFI,Airflow
  • 集群监控:Zabbix,Prometheus
  • 元数据管理:Atlas
  • 权限管理:Ranger,Sentry

具体组件的介绍与安装,请点击各个组件名称进行跳转。

相关推荐
老蒋新思维33 分钟前
创客匠人 2025 万人峰会核心:AI 驱动知识产品变现革新
大数据·人工智能·网络协议·tcp/ip·创始人ip·创客匠人·知识变现
expect7g34 分钟前
Paimon源码解读 -- FULL_COMPACTION_DELTA_COMMITS
大数据·后端·flink
老蒋新思维2 小时前
创客匠人峰会新视角:AI 时代知识变现的 “组织化转型”—— 从个人 IP 到 “AI+IP” 组织的增长革命
大数据·人工智能·网络协议·tcp/ip·创始人ip·创客匠人·知识变现
TMO Group 探谋网络科技2 小时前
AI Agent工作原理:如何连接数据、决策与行动,助力企业数字化转型?
大数据·人工智能·ai
Chasing Aurora3 小时前
Git 工程指引(命令+问题)
大数据·git·elasticsearch·团队开发·互联网大厂
TG:@yunlaoda360 云老大4 小时前
阿里云国际站代理商RPA跨境服务的适用场景有哪些?
大数据·阿里云·rpa
微盛企微增长小知识4 小时前
2025企业微信服务商测评:头部服务商微盛AI·企微管家技术实力与落地效果解析
大数据·人工智能·企业微信
TMO Group 探谋网络科技5 小时前
AI电商的应用:Magento 使用 Adobe 生成式 AI改造7大业务场景
大数据·人工智能·adobe·ai
UI设计兰亭妙微5 小时前
理性数据,温柔体验:北京兰亭妙微解码 Hydra Corps. 企业管理界面的 “松弛感设计”
大数据·人工智能·用户体验设计
慎独4135 小时前
家家有:从单向支出到价值循环,绿色积分如何 重构商业逻辑?
大数据·人工智能