技术栈
hadoop
vibag
10 分钟前
java
·
大数据
·
hadoop
·
hdfs
Hadoop(HDFS)
Hadoop是一个开源的分布式系统架构,旨在解决海量数据的存储和计算问题,Hadoop的核心组件包括Hadoop分布式文件系统(HDFS)、MapReduce编程模型和YARN资源管理器,最近需求需要用到HDFS和YARN。
Java资深爱好者
1 小时前
hadoop
Hadoop生态系统主要包括哪些组件以及它们的作用
Hadoop生态系统是一个开源的大数据处理框架,它主要由一系列组件构成,每个组件都承担着不同的功能和作用。以下是Hadoop生态系统的主要组件及其作用的详细解释:
苍老流年
1 天前
数据仓库
·
hive
·
hadoop
Hive中各种Join的实现
tablea.txt文件数据如下:tableb.txt 文件数据如下:inner join 就是取两表的交集
EDG Zmjjkk
1 天前
数据仓库
·
hive
·
hadoop
Hive 查询(详细实操版)
TABLESAMPLE抽样好处: 尽可能实现随机抽样,并且不走MR,查询效率相对较快。基于随机分桶抽样格式: SELECT 字段名 FROM tbl TABLESAMPLE(BUCKET x OUT OF y ON(字段名 | rand()))
Hsu_kk
1 天前
数据仓库
·
hive
·
hadoop
Hive 查询各类型专利 Top 10 申请人及对应的专利申请数
目录一、需求背景二、实现思路三、Hive SQL 实现语句解析注意事项四、结果展示五、总结在实际的数仓项目中,经常需要对数据进行统计分析,比如在专利管理系统中,需要对不同类型的专利进行申请人排名分析。本文将介绍如何在 Hive 中通过 SQL 查询实现各类型专利的 Top 10 申请人统计。
大数据编程之光
1 天前
大数据
·
数据仓库
·
hive
·
hadoop
Hive 查询各类型专利 top10 申请人及专利申请数
在专利数据处理中,我们常常需要分析不同类型专利下申请人的活跃度。例如,给定一个专利明细表 t_patent_detail,其中包含专利号、专利名称、专利类型、申请时间、授权时间和申请人等信息,且一个专利可能有多个申请人(以分号隔开)。我们的目标是找出各类型专利 top10 申请人以及他们对应的专利申请数。
杰克逊的日记
1 天前
数据仓库
·
hive
·
hadoop
Hive详解
Hive是一个构建在Hadoop上的数据仓库框架。最初,Hive是由Facebook开发,后来移交由Apache软件基金会开发,并作为一个Apache开源项目。
上辈子杀猪这辈子学IT
1 天前
linux
·
hadoop
·
zookeeper
·
centos
·
debian
【Zookeeper集群搭建】安装zookeeper、zookeeper集群配置、zookeeper启动与关闭、zookeeper的shell命令操作
目录一、安装Zookeeper二、配置Zookeeper集群三、Zookeeper服务的启动与关闭四、Zookeeper的shell操作
Hsu_kk
1 天前
数据仓库
·
hive
·
hadoop
Hive 查询用户连续三天登录的所有记录
目录一、需求背景二、建表与数据准备三、实现步骤1. 获取每条记录后的第三天日期2. 判断是否连续三天登录
kakwooi
1 天前
大数据
·
hadoop
·
mapreduce
Hadoop---MapReduce(3)
(1)Read阶段:MapTask通过InputFormat获得的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。 (3)Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并
windy1a
1 天前
hadoop
【c知道】Hadoop工作原理。
请解释一下Hadoop中MapReduce的工作原理,并说明如何进行MapReduce程序的编写和调试。
油头少年_w
2 天前
大数据
·
hadoop
·
hdfs
大数据导论及分布式存储HadoopHDFS入门
数据是什么?进入21世纪,我们的生活就迈入了"数据时代" 作为21世纪的新青年,"数据"一词经常出现。
工业互联网专业
2 天前
vue.js
·
hadoop
·
python
·
flask
·
毕业设计
·
源码
·
课程设计
Python毕业设计选题:基于Hadoop的租房数据分析系统的设计与实现
系统展示系统首页房屋信息详情个人中心管理员登录界面管理员功能界面用户管理界面房屋信息管理租房数据管理看板详细页面
bigdata-余建新
2 天前
hadoop
·
hdfs
·
hbase
HDFS和HBase跨集群数据迁移 源码
Mephisto.java
2 天前
大数据
·
hadoop
·
zookeeper
·
spark
·
kafka
·
hbase
·
flume
【大数据学习 | kafka高级部分】文件清除原理
kafka数据并不是为了做大量存储使用的,主要的功能是在流式计算中进行数据的流转,所以kafka中的数据并不做长期存储,默认存储时间为7天
m0_37559973
2 天前
hadoop
·
yarn
Hadoop:单节点配置YARN
目录一、Hadoop YARN介绍二、单节点配置YARN2.1 配置yarn-site.xml 文件2.2 配置 mapred-site.xml 文件
大数据魔法师
2 天前
hadoop
·
分布式
·
zookeeper
Hadoop生态圈框架部署(五)- Zookeeper完全分布式部署
点击下载zookeeper3.7.0安装包:https://archive.apache.org/dist/zookeeper/zookeeper-3.7.0/apache-zookeeper-3.7.0-bin.tar.gz
数据要素X
3 天前
大数据
·
数据库
·
数据仓库
·
人工智能
·
hive
·
hadoop
·
安全
【数据仓库】Hive 拉链表实践
拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的;顾名思义,所谓拉链表,就是记录历史。记录一个事务从开始一直到当前状态的所有变化的信息。
Francek Chen
3 天前
大数据
·
数据库
·
hadoop
·
分布式
·
zookeeper
·
hbase
【大数据技术基础 | 实验八】HBase实验:新建HBase表
通过Java代码实现与HBase数据库连接,然后用Java API创建HBase表,向创建的表中写数据,最后将表中数据读取出来并展示。
B站计算机毕业设计超人
3 天前
大数据
·
hadoop
·
爬虫
·
深度学习
·
机器学习
·
数据分析
·
课程设计
计算机毕业设计Hadoop+大模型地震预测系统 地震数据分析可视化 地震爬虫 大数据毕业设计 Spark 机器学习 深度学习 Flink 大数据
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!