技术栈
hdfs
Yz9876
10 小时前
大数据
·
数据仓库
·
hive
·
hadoop
·
hdfs
·
数据库开发
·
big data
Hive分桶超详细!!!
数据分区可能导致有些分区,数据过多,有些分区,数据极少。分桶是将数据集分解为若干部分(数据文件)的另一种技术。
武子康
3 天前
java
·
大数据
·
数据仓库
·
hadoop
·
hdfs
·
数据挖掘
·
flume
大数据-225 离线数仓 - 目前需求分析 指标口径 日志数据采集 taildir source HDFS Sink Agent Flume 优化配置
上节我们完成了如下的内容:会员数据是后期营销的很重要的数据,网店会专门针对会员进行一系列营销活动,电商会员一般门槛较低,注册网站即可加入,有些电商平台的高级会员具有时效性,需要购买的VIP会员卡或一年内消费达到多少才能成为高级会员。 计算指标 新增会员:每次新增会员数 活跃会员:每日、每周、每月的活跃会员数 会员留存:1、2、3日会员的留存数,1、2、3日的会员留存率
PersistJiao
3 天前
mysql
·
hdfs
·
spark
Spark读MySQL数据rdd分区数受什么影响,读parquet、hdfs、hive、Doris、Kafka呢?
在Spark中,RDD(弹性分布式数据集)的分区数影响了数据的并行处理能力,不同的数据源由于数据存储方式和访问模式的不同,RDD的分区数会有所不同。以下是不同数据源(如 MySQL、Parquet、HDFS、Hive、Doris、Kafka)读取时,RDD分区数的影响因素以及如何配置:
Dreams°123
4 天前
大数据
·
功能测试
·
hdfs
·
单元测试
·
flask
【大数据测试HDFS + Flask详细教程与实例】
HDFS(Hadoop分布式文件系统)和Flask是两个非常常见的技术栈。在大数据领域,HDFS是用于存储海量数据的分布式文件系统,而Flask是一个轻量级的Python Web框架。结合HDFS和Flask,通常用于构建大数据应用,尤其是在数据处理和可视化过程中,提供一种接口来访问和展示存储在HDFS上的数据。
小C哈哈哈
4 天前
大数据
·
数据仓库
·
hadoop
·
hdfs
·
hbase
·
mapreduce
·
database
大数据技术之HBase中的HRegion
如果你正在学习大数据,你应该知道HBase是一个列式存储的NoSQL分布式数据库,可以配合Hadoop来使用。今天自己简单做了几页PPT,解释了一下HBase当中HRegion的基本概念,很多初学者在学习的时候对HRegion这个概念一直懵懵懂懂,今天一键搞定~
PersistJiao
5 天前
hdfs
·
spark
·
rdd分区
Spark 读取 HDFS 文件时 RDD 分区数的确定原理与源码分析
在 Spark 中,RDD 的分区数对于并行计算的效率非常重要,SparkCore 读取 HDFS 文件时 RDD 分区数的确定受多方面因素的影响。本文将从源码的角度分析 Spark 如何确定 RDD 分区数,并通过代码示例和案例帮助理解分区策略。
scc2140
6 天前
hdfs
·
kafka
·
flume
kafka:使用flume自定义拦截器,将json文件抽取到kafka的消息队列(topic)中,再从topic中将数据抽取到hdfs上
抽取trans_info.json的数据到kafka上,对其中的tr_flag=0的数据进行过滤抛弃,只保留正常的状态数据: 将此json文件放在集群中的 /home/zidingyi/trans_info.json 目录下
scc2140
6 天前
分布式
·
hdfs
·
kafka
kafka中topic的数据抽取不到hdfs上问题解决
在上一个博客中有一个案例:将json文件抽取到kafka的消息队列(topic)中,再从topic中将数据抽取到hdfs
Kika写代码
8 天前
大数据
·
hadoop
·
hdfs
【Hadoop】【hdfs】【大数据技术基础】实验三 HDFS 基础编程实验
HDFS Java API编程实践熟悉HDFS操作常用的Java API。操作系统:LinuxHadoop版本:2.6.0或以上版本
不太灵光的程序员
10 天前
大数据
·
hdfs
·
flume
【Flume实操】实时监听 NetCat 端口和本地文件数据到 HDFS 案例分析
案例需求:假设有一个生产场景,Flume1 在实时产生日志数据,日志类型为 flume.log。Flume2 在持续监控一个 netcat 端口的数据流。先需要将 Flume1、Flume2产生的数据采集汇总到 Flume3 上,并统一收集上传到 HDFS 上保存。
Francek Chen
10 天前
大数据
·
hadoop
·
分布式
·
hdfs
·
flume
【大数据技术基础 | 实验九】Flume实验:文件数据Flume至HDFS
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
Kika写代码
11 天前
大数据
·
hadoop
·
hdfs
【Hadoop】【hdfs】【大数据技术基础】实验二 熟悉常用的HDFS操作
熟悉常用的HDFS操作。(1) 理解HDFS在Hadoop体系结构中的角色;(2) 熟练使用HDFS操作常用的Shell命令;
reduceanxiety
11 天前
hadoop
·
学习
·
hdfs
Hadoop学习 第二章 HDFS
数据量太大,单机存储能力有上限,需要靠数量来解决问题数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。
Kika写代码
11 天前
大数据
·
hadoop
·
hdfs
【hdfs】【hbase】【大数据技术基础】实践二 HBase Java API编程
为什么可以写命令还要编写程序?自动化批量处理?尽管我们可以通过HBase的shell命令行工具进行数据操作,但在实际的生产环境中,为了提高效率和实现自动化处理,我们通常需要编写程序来与HBase进行交互。
一个散步者的梦
12 天前
hive
·
hadoop
·
hdfs
shell中执行hive指令以及hive中执行shell和hdfs指令语法
主要介绍了三种环境命令执行语法:语法:hive [-hiveconf x=y]* [<-i filename>]* [<-f filename> | <-e query-string>] [-S] 说明:
Yz9876
12 天前
java
·
大数据
·
hive
·
hadoop
·
hdfs
·
zookeeper
·
big data
Hadoop集群的高可用(HA)- (1、搭建namenode的高可用)
HA: High Availability,高可用集群,指的是集群7*24小时不间断服务Hadoop中存在单点故障问题:NameNode ResourceManager
Yz9876
12 天前
大数据
·
linux
·
数据仓库
·
hive
·
hadoop
·
hdfs
·
bigdata
Hive安装-内嵌模式
Hive会自动检测Hadoop的环境变量,如有就必须启动Hadoop打开该文件,进行替换:一个替换了4处
vibag
13 天前
java
·
大数据
·
hadoop
·
hdfs
Hadoop(HDFS)
Hadoop是一个开源的分布式系统架构,旨在解决海量数据的存储和计算问题,Hadoop的核心组件包括Hadoop分布式文件系统(HDFS)、MapReduce编程模型和YARN资源管理器,最近需求需要用到HDFS和YARN。
油头少年_w
14 天前
大数据
·
hadoop
·
hdfs
大数据导论及分布式存储HadoopHDFS入门
数据是什么?进入21世纪,我们的生活就迈入了"数据时代" 作为21世纪的新青年,"数据"一词经常出现。
bigdata-余建新
15 天前
hadoop
·
hdfs
·
hbase
HDFS和HBase跨集群数据迁移 源码