python大数据项目中的 DIM层数据处理

一、处理维度表数据

hive的配置

-- 开启动态分区方案

-- 开启非严格模式

set hive.exec.dynamic.partition.mode=nonstrict;

-- 开启动态分区支持(默认true)

set hive.exec.dynamic.partition=true;

-- 设置各个节点生成动态分区的最大数量: 默认为100个 (一般在生产环境中, 都需要调整更大)

set hive.exec.max.dynamic.partitions.pernode=10000;

-- 设置最大生成动态分区的数量: 默认为1000 (一般在生产环境中, 都需要调整更大)

set hive.exec.max.dynamic.partitions=100000;

-- hive一次性最大能够创建多少个文件: 默认为10w

set hive.exec.max.created.files=150000;

-- hive压缩

-- 开启中间结果压缩

set hive.exec.compress.intermediate=true;

-- 开启最终结果压缩

set hive.exec.compress.output=true;

-- 写入时压缩生效

set hive.exec.orc.compression.strategy=COMPRESSION;

当设置完成后 首先需要了解自己项目的表格内容

接下来需要对原始数据进行进一步的处理

如分区处理 和进行宽表连接处理

各类维度表的构建

二 当整个数据仓数据完成后需要进行导出 (PostGreSQL)

1-需要再postGreSQL中创建对应表保存数据

启动datax-web服务 /export/server/datax-web-2.1.2/bin/start-all.sh (需要根据自己在linux中保存datax 的路径)

首先选择任务构建

需要输入指定一个分区目录的参数

逐步完成后在之前的文章中有教学

三 zookeeper介绍

ZooKeeper是一个具有高可用性的高性能分布式协调服务。

数据模型

zk可存储小文件数据,用来保存其他服务的信息,比如保存hdfs的namenode信息,ds的运行信息
ZooKeeper 维护着一个树形层次结构,树中的节点被称为 znode。znode 可以用于存储数据,并且有一个与之相关联的 ACL。ZooKeeper 被设计用来实现协调服务(这类服务通常使用小数据文件),而不是用于大容量数据存储,因此一个 znode 能存储的数据被限制在1MB以内

操作使用

1-登录客户端

/opt/cloudera/parcels/CDH-6.2.1-1.cdh6.2.1.p0.1425774/lib/zookeeper/bin/zkCli.sh

创建新的节点并指定数据

create 节点名(从根节点开始) 数据

get 节点名 进行查看

运行机制

第一阶段 启动服务,进行领导者选举

所有机器通过一个选择过程来选出一台被称为领导者(leader)的机器,其他的机器被称为跟随者(follower)。一旦半数以上(或指定数量)的跟随者已经将其状态与领导者同步,则表明这个阶段已经完成

第二阶段 原子广播进行数据读写

所有的写请求都会被转发给领导者,再由领导者将更新广播给跟随者。当半数以上的跟随者已经将修改持久化之后,领导者才会提交这个更新,然后客户端才会收到一个更新成功的响应。这个用来达成共识的协议被设计成具有原子性,因此每个修改要么成功要么失败。
如果领导者出现故障,其余的机器会选出另外一个领导者,并和新的领导者一起继续提供服务。随后,如果之前的领导者恢复正常,会成为一个跟随者。领导者选举的过程是非常快的,

一致性

一个跟随者可能滞后于领导者几个更新。这也表明在一个修改被提交之前,只需要集合中半数以上机器已经将该修改持久化则认为更新完成

对 ZooKeeper 来说,理想的情况就是将客户端都连接到与领导者状态一致的服务器上

相关推荐
STLearner1 小时前
WSDM 2026 | 时间序列(Time Series)论文总结【预测,表示学习,因果】
大数据·论文阅读·人工智能·深度学习·学习·机器学习·数据挖掘
亚马逊云开发者3 小时前
【Bedrock AgentCore】AI Agent 回答不一致怎么办?双 Memory 架构实现服务标准化(附完整代码)
大数据·人工智能·架构
℡終嚸♂6803 小时前
FlowiseAI 任意文件上传 CTF Writeup
sql·web安全
与衫4 小时前
[特殊字符] 解决 DataHub 无法解析复杂 SQL 血缘的问题(gsp-datahub-sidecar 实测)
数据库·sql
大嘴皮猴儿5 小时前
从零开始学商品图翻译:小白也能快速掌握的多语言文字处理与上架技巧
大数据·ide·人工智能·macos·新媒体运营·xcode·自动翻译
雷工笔记5 小时前
《为什么 10 倍增长比 2 倍更容易》读书笔记:反内卷的指数级增长破局法
大数据
captain_AIouo5 小时前
OZON航海引领者Captain AI指引运营新航向
大数据·人工智能·经验分享·aigc
K3v6 小时前
【git】删除本地以及远端已经合并到master的分支
大数据·git·elasticsearch
53AI7 小时前
智能调度赋能交通行业:从经验驱动到数据智能的跨越
大数据·人工智能·知识库·智能调度·53ai
黎阳之光8 小时前
黎阳之光核工厂202应急管控平台|全域实景孪生,筑牢核安全最后一道防线
大数据·人工智能·算法·安全·数字孪生