hadoop

tumeng07115 小时前
hadoop·hdfs·架构
HDFS的架构优势与基本操作如今,数据正以指数级增长,各行各业都在追求更多的数据存储、高效的数据处理和可靠的数据基础来驱动业务的发展。Hadoop Distributed File System(HDFS)作为Hadoop生态系统的核心组件之一,成为构建可靠的大数据基础的不二选择之一。本文将深入剖析HDFS的架构与优势。
蓝眸少年CY6 小时前
数据仓库·hive·hadoop
Hive - 函数、压缩与优化目录一、函数1、常用函数(1)系统内置函数(2)常用内置函数1)nvl()函数2)case使用3)concat()函数
仗剑_走天涯7 小时前
大数据·hadoop·分布式
Hadoop 安装pdsh 是一个 “基于 SSH 的批量远程执行工具”,专门用来同时在多台机器上运行 shell 命令。
sunxunyong9 小时前
大数据·hadoop·hdfs
HDFS nnsdy重新配置启动1、hdfs进入safemode安全模式 在active nn节点执行:hdfs dfsadmin -safemode enter 2、全量生产fsiamge文件 在active节点执行:hdfs dfsadmin -saveNamespace 3、在active节点执行hdfs dfsadmin -safemode leave 4、处理standby nn 先清空standby nn节点/data1/hadoop/hdfs/namenode/current/目录和/data2/hadoop/hdfs/n
bukeyiwanshui9 小时前
大数据·hadoop·分布式
Hadoop环境搭建hadoop基础理论知识单机(伪分布式)完全分布式高可靠环境集群:具有相同功能的计算机构成的一个更加庞大的计算机单元
Jianghong Jian10 小时前
大数据·hadoop·hdfs
HDFS常用的JAVA API全国新冠肺炎疫情数据上传到Hadoop里面的HDFS。数据集来源:https://github.com/eAzure/Code-For-COVID-19-Data
迈巴赫车主13 小时前
大数据·hadoop·mapreduce
大数据:Hadoop(MapReduce)MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。
jasnet_u14 小时前
hadoop·centos
CentOS上搭建hadoop-3.3.6集群(3节点)resourcemananger、nodemananger三台虚拟机分别配置主机名为node01 、node02、node03,关闭防火墙、配置三者相互ssh免密登录,三台主机上分别安装JDK8 。注: hadoop3.x 版本在JDK11、17存在不兼容的问题,最好安装JDK8
hashiqimiya1 天前
大数据·hadoop·分布式
windows的hadoop集群环境直接配已经配好资源如下:https://download.csdn.net/download/hashiqimiya/92754521https://download.csdn.net/download/hashiqimiya/92754521
迈巴赫车主1 天前
大数据·hadoop·hdfs
大数据:Hadoop(HDFS)HDFS(Hadoop Distributed File System),它是一个文件系统HDFS的使用场景:适合一次写入,多次读出的场景
zhojiew2 天前
hive·hadoop·spark·aws·bigdata
[INFRA] EMR集群中Hive和Spark集成Glue Data Catalog过程的深入分析本文基于 EMR 7.12.0 集群实际反编译分析。集群配置如下EMR 通过 AWS Glue Data Catalog 替代传统 Hive Metastore(MySQL/Derby)后端。其核心机制是利用 Hive 的 HiveMetaStoreClientFactory SPI 扩展点,用 AWS SDK v2 的 Glue API 调用替换 Thrift RPC + MySQL 后端,同时通过双向 Converter 在 Hive/Glue 数据模型之间无缝转换。
bukeyiwanshui2 天前
数据仓库·hive·hadoop
Hive的使用本地上传hive可以新增数据,但是不可以删除和修改,部分sql语句和复杂的子查询同样不支持。注意:insert语句,每执行一次相当于增加一个文件
添柴少年yyds3 天前
数据仓库·hive·hadoop
hive锁机制Hive的锁机制主要包括共享锁(Shared, S)和互斥锁(Exclusive, X),用于管理并发读写操作,确保数据的一致性和完整性。以下是关于Hive锁机制的详细信息:
蓝眸少年CY4 天前
数据仓库·hive·hadoop
Hive - 安装与使用目录一、基本概念1、什么是 Hive2、优缺点3、架构原理4、Hive 和数据库比较二、Hive 安装
旺仔小拳头..4 天前
数据仓库·hive·hadoop
Servlet概念与创建创建 Java 类实现 javax.servlet.Servlet 接口,并重写接口中的所有方法,包结构与类名需明确,如 cn.tx.servlet.Servlet1。
旺仔小拳头..4 天前
数据仓库·hive·hadoop
Filter 过滤器 与Listener 监听器Filter 是 JavaWeb 三大组件之一,核心作用是拦截请求,而非处理请求,与 Servlet 配合实现请求的预处理、权限校验等功能。
晨晖24 天前
hive·hadoop·servlet
Servlet的快速入门,请求和响应Servlet 核心笔记整理 一、Servlet 是什么 全称:Servlet = Server Applet(运行在服务器端的小程序) 本质:是一个接口,定义了 Java 类被浏览器访问(Tomcat 识别)的规则 核心特征: 运行在服务器端,依赖于服务器(如 Tomcat)才能运行 属于动态资源,由 Java 代码实现,无主方法 需遵循特定规则,才能被 Tomcat 识别并处理 二、快速入门步骤 1. 创建 Java EE 项目 2. 定义一个类,实现 Servlet 接口 java public c
yumgpkpm5 天前
人工智能·hadoop·华为
AI算力纳管工具GPUStack Server+华为鲲鹏+麒麟操作系统 保姆级安装过程AI算力纳管工具GPUStack Server+华为鲲鹏+麒麟操作系统 保姆级安装过程在 华为鲲鹏服务器 + 麒麟操作系统 (Kylin OS) 环境下安装 GPUStack,核心难点在于昇腾 (Ascend) 驱动与 Docker 环境的适配。GPUStack 本身是轻量级 Python 应用,但它依赖底层的 ascend-docker-runtime 来调度 NPU 资源。
hellolianhua5 天前
大数据·hadoop·hdfs
测试集群hdfs和mapreduce1.创建一个data.txt文件2.创建一个hdfs的文件夹3.将本地文件上传到hdfs系统4.查看文件上传
smchaopiao5 天前
数据仓库·hive·hadoop
Hive中的排序与分桶技术详解Hive排序与分桶技术综述ORDER BY 用于对 SQL 查询的最终输出结果进行全局排序。它通过一个 Reducer 任务完成排序,确保全局有序性。然而,当输入数据规模较大时,单一的 Reducer 任务可能导致计算时间较长。默认情况下,ORDER BY 按照递增顺序(ascending)进行排序。例如,以下 SQL 语句使用 ORDER BY 对 cust_id 进行排序:select distinct cust_id,id_no,part_date from ads_api_cda_basic_in