hadoop

曹宇飞丶13 小时前
hadoop·ambari
ambari server及元数据库(postgreSQL)迁移1.1停止Hive1.2停止ranger备份配置文件目录备份密钥目录记录当前数据库连接信息全局角色信息
隐于花海,等待花开21 小时前
数据仓库·hive·hadoop
Hive 正则函数详解与示例目录Hive 提供了基于 Java 正则表达式 的内置函数,用于处理字符串的匹配、提取、替换和计数。这些函数在数据清洗、日志解析、格式校验、敏感信息脱敏等场景中非常实用。
隐于花海,等待花开21 小时前
hive·hadoop·面试
Hive专题:数据开发面试高频题(TopN、留存、连续登录等)本文精选 Hive SQL 面试中最高频的 8 类题型,每道题提供 业务场景、核心思路、完整 SQL 示例 及 关键点解析。所有代码均基于 Hive 窗口函数、日期函数、条件聚合等特性编写,可直接运行。
木心术11 天前
大数据·hadoop·分布式·spark
大数据处理技术:Hadoop与Spark核心原理解析在数据量以ZB为单位激增的2024-2025年,企业对数据处理的需求从"能处理"升级为"高效、实时、灵活"。Hadoop与Spark作为大数据领域的两大支柱技术,各自承载着不同的技术使命。本文将深入剖析两者的核心原理、架构设计、性能特征及演进趋势,帮助技术决策者掌握选型方法论。
极光代码工作室2 天前
大数据·hadoop·python·数据分析·数据可视化
基于数据挖掘的高校图书借阅分析系统随着高等教育信息化建设的深入推进,高校图书馆积累了海量、高维度、时序性强的图书借阅行为数据。然而,当前多数高校图书馆仍停留在基础借还管理阶段,缺乏对借阅数据的深度挖掘与智能分析能力,导致资源采购盲目、读者服务粗放、阅读推广低效等问题日益凸显。本研究以某省属重点高校2019–2023年真实借阅日志(含1,247,863条借阅记录、28,541种馆藏图书、42,319名注册读者)为数据基础,构建一套面向高校场景的图书借阅分析系统。系统融合关联规则挖掘(Apriori算法)、协同过滤推荐(基于物品的Item-C
zhixingheyi_tian2 天前
大数据·linux·hadoop·分布式
Hadoop 之 native 库https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/NativeLibraries.html
Hadoop_Liang2 天前
数据仓库·hive·hadoop
Hive的ORDER BY、SORT BY、DISTRIBUTE BY、CLUSTER BY对比及案例实践目录1. 概述2. 详细说明2.1 ORDER BY(全局排序)2.2 SORT BY(局部排序)2.3 DISTRIBUTE BY(数据分发)
Vin0sen4 天前
大数据·hadoop·分布式
Hadoop安装草稿https://help.aliyun.com/zh/ecs/user-guide/build-a-hadoop-environment
隐于花海,等待花开4 天前
数据仓库·hive·hadoop
HIVE日期函数大全Hive 日期函数详解目录及详细说明,按功能分类并编号,方便查阅。
夕除5 天前
数据仓库·hive·hadoop
javaweb--04xmlscope=provided 表示该依赖由 Tomcat 容器提供,打包时不打入 war 包。java
武子康6 天前
大数据·hadoop·后端
大数据-264 实时数仓-MySQL Binlog配置详解:从原理到实践|数据恢复与主从复制实战MySQL 的二进制日志(Binary Log,简称 binlog)是 MySQL 数据库中的一种日志文件类型,它记录了对数据库执行的所有更改操作(不包括 SELECT 和 SHOW 等查询操作)。它主要用于数据恢复、复制和审计等场景。
武子康6 天前
大数据·hadoop·后端
大数据-265 实时数仓-Canal MySQL Binlog配置详解:从原理到实践|数据恢复与主从复制实战MySQL 的二进制日志(Binary Log,简称 binlog)是 MySQL 数据库中的一种日志文件类型,它记录了对数据库执行的所有更改操作(不包括 SELECT 和 SHOW 等查询操作)。它主要用于数据恢复、复制和审计等场景。
晓纪同学6 天前
大数据·hadoop·wpf
WPF-03 第一个WPF程序本汇总基于官方教程“在 Visual Studio 2019 中创建第一个 WPF 应用程序”,提炼出构建一个完整 WPF 桌面应用(ExpenseIt)的项目结构、关键代码、核心概念与实现步骤。通过这个示例,您可以掌握 WPF 开发的典型流程:从项目创建、界面布局、控件使用、事件处理、样式化、数据绑定到页面导航。
xiaoyaohou117 天前
大数据·hadoop·spark
024、大数据技术栈概览:Hadoop、Spark与Flink排查一个线上问题,集群凌晨ETL任务突然卡住,日志里反复报“No space left on device”。查了半天发现不是磁盘满,而是HDFS的DataNode线程池耗尽——某个MapReduce任务开了上千个Mapper,把节点拖垮了。这事儿让我重新审视团队的技术栈选型:我们是否还在用“大炮打蚊子”?今天聊聊Hadoop、Spark、Flink这三个老伙计,它们不只是技术选项,更是不同数据处理哲学的体现。
虚幻如影7 天前
数据仓库·hive·hadoop
Hive 中“STRING类型无需显式指定长度在 Hive 中,“字段没有长度”通常指的是部分数据类型(尤其是字符串类型)在定义时无需显式指定长度限制,这与传统关系型数据库(如 MySQL、Oracle)的行为不同。以下是具体解释:
仗剑_走天涯7 天前
大数据·hadoop·分布式
hadoop reduce阶段 对象重用问题Hadoop 为了优化性能,在 reduce 方法中会重用 key 和 value 对象。这意味着,在 for(Person p : values) 循环中,变量 p 始终指向同一个 Person 对象实例。
仗剑_走天涯8 天前
大数据·hadoop·分布式
hadoop 中 yarn node -list 显示0 问题解决jps 查看时一切正常,但是 yarn node -list 显示0页面上查看,发现有一个不健康节点查看日志,找到问题了
武子康9 天前
大数据·hadoop·后端
大数据-263 实时数仓-Canal 增量订阅与消费原理:MySQL Binlog 数据同步实践Canal 是一款用于 MySQL 数据库 binlog 增量订阅和消费的开源工具。它主要用于解决数据同步和分布式事务问题,支持将数据库变更同步到其他系统中,比如消息队列、大数据平台等。
仗剑_走天涯9 天前
hadoop·zookeeper
zookeeper 安装与配置准备好三台机器(hadoop101, hadoop102, hadoop103)并配置好静态IP和hosts映射,那么搭建Zookeeper集群的准备工作已经完成了一大半。
zhixingheyi_tian9 天前
c语言·hadoop·hdfs
hdfs.c 之解析hadoop-common-project/hadoop-common/src/main/java/org/apache/hadoop/fs/FSDataInputStream.java