技术栈
数据仓库
Yz9876
1 小时前
大数据
·
数据仓库
·
hive
·
hadoop
·
hdfs
·
数据库开发
·
big data
Hive分桶超详细!!!
数据分区可能导致有些分区,数据过多,有些分区,数据极少。分桶是将数据集分解为若干部分(数据文件)的另一种技术。
Francek Chen
1 小时前
大数据
·
数据仓库
·
hive
·
hadoop
·
分布式
【大数据技术基础 | 实验十一】Hive实验:新建Hive表
Hive没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织Hive中的表,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。
Dreams°123
6 小时前
大数据
·
数据仓库
·
python
·
单元测试
·
etl
【大数据测试ETL:从0-1实战详细教程】
在这个场景中,我们的目标是从不同数据源(例如销售数据库、库存数据库等)提取商品销量数据,经过转换处理后加载到数据仓库或 BI 工具中,以生成商品销量 BI 报表。同时,可能还需要进行数据的反向验证,确保 BI 报表中的数据与数据库中的数据一致。
liuweni
1 天前
数据仓库
·
etl
PuppyGraph:实时图查询引擎,无需ETL
目录概述核心优势无需ETLPB级可扩展性复杂查询秒级响应10分钟快速部署部署与使用双模式查询行业应用试用与合作
锵锵锵锵~蒋
1 天前
大数据
·
数据仓库
·
flink
·
数据研发
实时数据研发 | Flink技术栈
下周要开始接触一些实时的内容了,想来是很幸运的,这是我在新人培训上提问过技术前辈的问题:“想学习实时相关技术,但是部门没有类似的需求,应该如何提升?”当时师姐说先用心去学,然后向主管证明你可以承担相关的任务,再去争取负责相关的项目。
isNotNullX
2 天前
大数据
·
数据库
·
数据仓库
·
架构
·
etl
·
数据同步
浅谈数据仓库的架构及其演变
数据仓库分层一般分为三层,分别为数据仓库ODS层(数据进出口贴源层)、CDM层(数据公共层)和ADS层(数据应用层)。
武子康
2 天前
java
·
大数据
·
数据仓库
·
hive
·
hadoop
·
架构
·
flume
大数据-227 离线数仓 - Flume 自定义拦截器(续接上节) 采集启动日志和事件日志
目前开始更新 MyBatis,一起深入浅出!上节我们完成了如下的内容:(续接上节,上节已经到了打包的部分)
武子康
2 天前
java
·
大数据
·
数据仓库
·
hadoop
·
hdfs
·
数据挖掘
·
flume
大数据-225 离线数仓 - 目前需求分析 指标口径 日志数据采集 taildir source HDFS Sink Agent Flume 优化配置
上节我们完成了如下的内容:会员数据是后期营销的很重要的数据,网店会专门针对会员进行一系列营销活动,电商会员一般门槛较低,注册网站即可加入,有些电商平台的高级会员具有时效性,需要购买的VIP会员卡或一年内消费达到多少才能成为高级会员。 计算指标 新增会员:每次新增会员数 活跃会员:每日、每周、每月的活跃会员数 会员留存:1、2、3日会员的留存数,1、2、3日的会员留存率
Data-Miner
2 天前
数据库
·
数据仓库
数据仓库数据湖湖仓一体解决方案
一、资料介绍数据仓库与数据湖是现代数据管理的两大核心概念。数据仓库是结构化的数据存储仓库,用于支持企业的决策分析,其数据经过清洗、整合,以固定的模式存储,适合复杂查询。数据湖则是一个集中存储大量原始数据的存储库,不强调数据结构,更注重数据的原始性和可扩展性。湖仓一体化是近年来兴起的理念,旨在将数据湖的灵活性与数据仓库的分析能力结合,实现数据的统一管理和高效分析。它融合了数据湖的原始数据存储能力和数据仓库的数据处理、分析优势,为企业提供了更全面的数据管理解决方案。
锵锵锵锵~蒋
3 天前
数据库
·
数据仓库
·
主键
数据研发基础 | 数仓中需要主键吗
俗话说,周一周一奄奄一息。昨天去演唱会嗨过头了,今天上班脑袋里还在:你不是真正的快乐。废话,谁上班会快乐!但是时间紧任务重,这周有个项目ddl,不得不专注下来开始建模。一思考,脑袋就打结了,在第一步确定数据粒度就出了点小问题。又要能下钻到提交每个报告的状态、类型,又要能在看板侧计算未提交报告的人数。为了保证所有指标都能计算出来,粒度必须保证最小,人月粒度过于粗糙,无法保留报告状态。报告粒度粒度最小,但是无法计算某些人数指标。如果将两者杂糅,模型的粒度太模糊,并且用什么做唯一标识主键呢?
isNotNullX
3 天前
大数据
·
数据仓库
·
flink
·
spark
Flink和Spark的区别是什么?各自的应用场景是什么?
Flink:Flink 是一个分布式流处理框架,其架构基于流计算,将一切都看作是流。它采用了一种基于事件驱动的架构,数据以流的形式源源不断地进入系统,并且能够实时处理这些数据。例如,在实时监控网络流量的场景中,网络流量数据作为一个持续的数据流进入 Flink 系统,Flink 可以对每一个数据包(事件)进行实时分析,如检测异常流量。
Yz9876
3 天前
大数据
·
数据仓库
·
hive
·
hadoop
·
数据库开发
·
big data
hive-内部表&外部表-详细介绍
内部表:表面来看,我们建的所有的表,默认都是内部表,内部表又叫做管理表,它的位置也很固定/user/hive/warehouse下面。
Yz9876
3 天前
大数据
·
数据仓库
·
hive
·
hadoop
·
bigdata
Hive的数据导出
数据导出的分类:1. 从hive表中导出本地文件系统中(目录、文件)2. 从hive表中导出hdfs文件系统中
宅博士小陈
3 天前
数据仓库
·
hive
·
hadoop
Servlet入门 Servlet生命周期 Servlet体系结构
Servlet (server applet) 是运行在服务端(tomcat)的Java小程序,是sun公司提供一套定义动态资源规范; 从代码层面上来讲Servlet就是一个接口 狭义的Servlet是指Java语言编写的一个接口。 广义的Servlet是指任何实现了这个Servlet接口的类,一般情况下,人们将Servlet理解为后者。 Servlet作用:用来接收和处理客户端请求、响应给浏览器的动态资源。
Dann Hiroaki
4 天前
数据仓库
·
笔记
·
数据挖掘
笔记分享: 西安交通大学COMP551705数据仓库与数据挖掘——02. 关联规则挖掘
1️⃣关联规则挖掘2️⃣规则度量3️⃣关联规则/相关性/因果关系1️⃣频繁项集2️⃣闭合集 & \& &最大集:为解决组合爆炸( 规则数目 ∝ 2 数据集规模 规则数目\text{ ∝ }2^{数据集规模} 规则数目 ∝ 2数据集规模)问题
花菜回锅肉
4 天前
大数据
·
数据仓库
·
hive
·
hadoop
基于Hadoop、hive的数仓搭建实践
基于HDFS + Hive+mysql搭建离线数仓,最终效果能够通过可视化界面访问数仓数据其中,1 hive 服务包括 metastore元数据 服务和 hiveserver2服务
小C哈哈哈
4 天前
大数据
·
数据仓库
·
hadoop
·
hdfs
·
hbase
·
mapreduce
·
database
大数据技术之HBase中的HRegion
如果你正在学习大数据,你应该知道HBase是一个列式存储的NoSQL分布式数据库,可以配合Hadoop来使用。今天自己简单做了几页PPT,解释了一下HBase当中HRegion的基本概念,很多初学者在学习的时候对HRegion这个概念一直懵懵懂懂,今天一键搞定~
Java资深爱好者
4 天前
数据仓库
数据仓库在大数据处理中的作用
数据仓库(Data Warehouse,简称DW或DWH)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。以下是对数据仓库及其在大数据处理中作用的详细解释:
武子康
5 天前
java
·
大数据
·
数据仓库
·
hive
·
hadoop
·
数据挖掘
·
flume
大数据-226 离线数仓 - Flume 优化配置 自定义拦截器 拦截原理 了 拦截器实现 Java
目前开始更新 MyBatis,一起深入浅出!上节我们完成了如下的内容:Flume 是一种分布式、可靠且高效的数据收集、聚合和传输系统,广泛应用于大数据生态系统中。为了提升 Flume 的性能和稳定性,优化配置至关重要。
Francek Chen
5 天前
大数据
·
数据仓库
·
hive
·
hadoop
·
分布式
【大数据技术基础 | 实验十】Hive实验:部署Hive
Hive是Hadoop 大数据生态圈中的数据仓库,其提供以表格的方式来组织与管理HDFS上的数据、以类SQL的方式来操作表格里的数据,Hive的设计目的是能够以类SQL的方式查询存放在HDFS上的大规模数据集,不必开发专门的MapReduce应用。