数据仓库

小刘鸭!10 小时前
数据仓库·hive·hadoop
Hive解决数据倾斜数据倾斜(Data Skew)问题是指在分布式计算系统中,由于某些数据分布不均匀,导致某些节点处理的数据量远远大于其他节点,从而引起性能瓶颈、计算延迟甚至计算失败的现象。
武子康15 小时前
大数据·数据仓库·hive·hadoop·spring
大数据-255 离线数仓 - Atlas 数据仓库元数据管理 数据血缘关系 元数据目前开始更新 MyBatis,一起深入浅出!上节我们完成了:元数据(MetaData)狭义的解释是用来描述数据的数据。广义来看,除了业务逻辑直接读写处理的那些业务数据,所有其他用来维持整个系统运转所需的信息、数据都可以叫做元数据,如数据库中表的Schema信息,任务的血缘关系,用户和脚本、任务的权限映射关系信息等。
故苏呦17 小时前
数据仓库·etl
全域数据集成平台ETLRestCloud数据集成平台采用SpringCloud微服务架构技术开发,底层基于纯Java语言采用前后端分离架构,前端采用React技术进行开发。 RestCloud数据集成平台是基于数据流+工作流引擎的架构进行研发的,底层设计了一个专门为数据处理任务流而研发的工作流引擎用以支撑任意复杂的数据流处理包括:串行、同步并行、异步并行、同步子流程、异步子流程、事务控制、循环任务执行、多流合并、数据折分、数据流复制等,而不是基于DAG这种简单的有向无环图的数据流程处理逻辑,得益于我们在工作流上面积累的优势我们
武子康3 天前
java·大数据·数据仓库·hive·hadoop·springboot
大数据-253 离线数仓 - Airflow 任务调度 核心概念与实际案例测试 Py脚本编写目前开始更新 MyBatis,一起深入浅出!Apache Airflow 是一个开源的任务调度和工作流管理工具,用于编排复杂的数据处理任务。最初由 Airbnb 开发,于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式定义任务及其依赖关系,支持任务的调度和监控,适合处理复杂的大数据任务。
黑色叉腰丶大魔王3 天前
数据仓库·hive·hadoop
《Hive 存储格式详解》一、引言在大数据处理中,Hive 是一个广泛使用的数据仓库工具,它提供了一种类似于 SQL 的查询语言,使得用户可以方便地对大规模数据集进行分析和处理。Hive 的存储格式对于数据的存储效率、查询性能和数据压缩等方面都有着重要的影响。本文将详细介绍 Hive 的存储格式,包括常见的存储格式类型、特点和适用场景。
ahhhhaaaa-4 天前
数据仓库·git·开发组件
【工具】Git 操作大全在一个空目录中初始化一个新的 Git 仓库:复制一个已经存在的远程仓库在本地使用 Git 前,需要配置用户名和邮箱,这将与提交记录关联:
Oceanside_yh4 天前
数据仓库·hive·hadoop
MacbookPro M1 安装Hive前提注意⚠️⚠️⚠️1)在安装Hive前确实需要安装MySQL,因为Hive可以使用MySQL作为元数据存储
靠谱杨5 天前
大数据·数据仓库·面试·职场和发展·跳槽·etl·etl工程师
CDA LEVEL 1新大纲2023添加的内容时间序列预测分为下面几种: 长期趋势变动 季节变动:月或季度 循环变动:一般一年以上周期 不规则变动趋势分析的步骤: 1、明确分析目的 2、根据业务理解作出假设 3、作出指标预测 4、根据后期的实际数据作出调整
liuwufei6 天前
数据仓库
为什么要使用数据仓库?大量的企业经营性数据(订单,库存,原料,付款等)在企业的业务运营系统以及其后台的(事务型)数据库中产生的。
叫我DPT6 天前
数据仓库·hive·hadoop
Hive高级查询对于UDTF表生成函数,很多人难以理解什么叫做输入一行,输出多行。为什么叫做表生成?能够产生表吗?下面我们就来学习Hive当做内置的一个非常著名的UDTF函数,名字叫做explode函数,中文戏称之为“爆炸函数”,可以炸开数据。
喻师傅7 天前
数据仓库·bi商业智能·数据仓库工具箱
数据仓库工具箱—读书笔记01(数据仓库、商业智能及维度建模初步)记录一下读《数据仓库工具箱》时的思考,摘录一些书中关于维度建模比较重要的思想与大家分享🤣🤣🤣博主在这里先把这本书"变薄"~有时间的小伙伴可以亲自再读一读,感受一下"变厚"再"变薄"的过程。欢迎交流讨论哈🤣🤣🤣
上辈子杀猪这辈子学IT7 天前
大数据·数据库·数据仓库·hive·hadoop
【Hive数据仓库】Hive部署、Hive数据库操作(增删改查)、表操作(内部表、外部表、分区表、桶表)目录一、本地模式1、安装MySQL2、登录MySQL3、修改密码4、安装Hive5、配置Hive系统环境变量
靠谱杨7 天前
大数据·数据仓库·etl工程师·数据中台
数据仓库、大数据平台和数据中台都是指什么数据:对某一类实体信息的描述仓库:对所有实体的集中化管理这是物流仓库下面是数据仓库ODS层:采集各个业务系统的数据,是数据的统一入口,在这里进行分析并不影响业务系统(起到保存历史数据的作用)。
sunxunyong7 天前
数据仓库·hive·hadoop
hive 小文件分析1、获取fsimage文件: hdfs dfsadmin -fetchImage /data/xy/ 2、从二进制文件解析: hdfs oiv -i /data/xy/fsimage_0000000019891608958 -t /data/xy/tmpdir -o /data/xy/out -p Delimited -delimiter “,” 3、创建hive表 create database if not exists hdfsinfo; use hdfsinfo; CREATE TABLE fsi
键道码屋7 天前
数据仓库·hive·hadoop
【Hive 如何进行update更新?】Hive 是一个基于 Hadoop 的数据分析工具,可以使用类 SQL 语法进行离线数据分析,节省学习成本和扩展功能。
liuwufei7 天前
数据库·数据仓库·oracle
数据仓库-基于角色的权限管理(RBAC)基于角色的用户管理(Role-Based Access Control,简称RBAC)是通过为角色赋予权限,用户通过成为适当的角色而得到这些角色的权限。
风子~7 天前
数据仓库·hive·hadoop
hive—炸裂函数explode/posexplode将hive某列一行中复杂的 array 或 map 结构拆分成多行(只能输入array或map)语法:
liuwufei7 天前
数据库·数据仓库·oracle
数据仓库-用户管理实践DWS集群中,常用的用户分别是系统管理员和普通用户。本节简述了系统管理员和普通用户的权限,如何创建以及如何查询用户相关信息。
liuwufei7 天前
数据仓库
数据仓库-集群管理主要介绍操作类问题中的集群管理问题。请检查用户账户余额是否少于100元,是否已经没有配额创建新的数据仓库集群,以及是否存在网络问题。
PersistJiao8 天前
数据仓库·apache·etl
调度系统:分析 Apache Airflow 和 Prefect 在 基于Couchbase构建数据仓库 和 ETL任务调度 的场景下,哪一个更合适根据你的需求,分析 Apache Airflow 和 Prefect 在 基于Couchbase构建数据仓库 和 ETL任务调度 的场景下,哪一个更合适,主要从以下几个角度进行对比: #1. 任务依赖管理 ● Apache Airflow: ○ 强大的任务依赖管理:Airflow 提供了复杂的 DAG(有向无环图)机制,能够非常清晰地管理任务之间的依赖关系,任务按顺序执行并且支持并行执行。 ○ 适合复杂工作流:在数据仓库的构建和 ETL 任务调度中,通常会涉及多个步骤(数据抽取、清洗、加载、分析汇总等),