hadoop

小王不会写code12 小时前
java·hadoop·分布式
Hadoop 2.7.7 单机伪分布式安装与配置教程(JDK 8)https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
zh_1999513 小时前
大数据·hive·hadoop·架构·面试题
Hive面试题汇总遇到这类问题,可以灵活的去回答,比如可以结合平时使用hive的经验作答,也可以结合下图从数据的读入、解析、元数据的管理,数据的存储等角度回答:
Kookoos20 小时前
hadoop·微服务·spark·.net·abp vnext
ABP vNext + Spark on Hadoop:实时流处理与微服务融合在开始前,请确认以下环境与依赖已安装与配置:环境校验示例:安全提示:生产环境中的连接串、用户名和密码请通过环境变量或 Vault 管理,不要硬编码。
是梦终空20 小时前
hadoop·spring boot·spark·vue·毕业设计·源代码·大数据房屋维修系统
JAVA毕业设计227—基于SpringBoot+hadoop+spark+Vue的大数据房屋维修系统(源代码+数据库)毕设所有选题: https://blog.csdn.net/2303_76227485/article/details/131104075
£菜鸟也有梦1 天前
大数据·hive·hadoop·flume
Flume进阶之路:从基础到高阶的飞跃目录一、Flume 高阶特性揭秘二、拦截器:数据的精细雕琢师2.1 拦截器的概念与作用2.2 常见拦截器类型及案例分析
社恐码农3 天前
hive·hadoop·sql
Hive开窗函数的进阶SQL案例开窗函数(Window Functions)在保留原始行数据的同时,对分组内的行进行聚合或排序分析,常用于累计计算、排名、移动平均等场景。与普通聚合函数(如SUM、AVG)的区别在于:
IvanCodes4 天前
大数据·数据库·hadoop·sqoop
七、Sqoop Job:简化与自动化数据迁移任务及免密执行作者:IvanCodes 日期:2025年6月7日 专栏:Sqoop教程Apache Sqoop 提供了作业 (Job) 的概念,它允许用户保存和重用复杂的 Sqoop 命令(包括导入或导出的所有参数)。这对于定期执行的、参数固定的数据迁移任务非常有用。此外,在自动化脚本中执行 Sqoop 作业时,处理密码是一个关键的安全问题,我们将探讨免密执行的几种方法。
冬至喵喵4 天前
大数据·数据仓库·hive·hadoop
【hive】函数集锦:窗口函数、列转行、日期函数https://www.cnblogs.com/Uni-Hoang/p/17411313.html如果不指定 PARTITION BY,则不对数据进行分区,换句话说,所有数据看作同一个分区;
Theodore_10224 天前
大数据·服务器·hadoop·分布式·ubuntu·架构
大数据(2) 大数据处理架构HadoopHadoop 是一个开源的分布式计算框架,由 Apache 基金会开发,用于处理海量数据,具备高可靠性、高扩展性和高容错性。它主要由两个核心模块组成:
簌簌曌4 天前
大数据·hadoop·spark
CentOS7 + JDK8 虚拟机安装与 Hadoop + Spark 集群搭建实践在大数据时代,Hadoop 和 Spark 是两种非常重要的分布式计算框架。本文将详细介绍如何在 CentOS7 + JDK8 的虚拟机环境中搭建 Hadoop + Spark 分布式集群,包括 Spark Standalone 和 Hadoop + Spark on YARN 两种模式,并提供具体的代码示例。
Theodore_10224 天前
大数据·hadoop·数据分析·spark·hbase
大数据(1) 大数据概述4V:数据量(Volume)大、数据类型(Variety)繁多、处理速度(Velocity)快、价值密度(Value)低
IvanCodes4 天前
大数据·hadoop·sqoop
六、Sqoop 导出作者:IvanCodes 日期:2025年6月7日 专栏:Sqoop教程Apache Sqoop 不仅擅长从关系型数据库 (RDBMS) 向 Hadoop (HDFS, Hive, HBase) 导入数据,同样也强大地支持反向操作——将存储在 Hadoop 中的数据导出 (Export) 回关系型数据库。这在数据分析结果回写、数据仓库ETL、业务系统数据填充等场景中非常有用。
weixin_472339465 天前
数据仓库·hive·hadoop
Doris查询Hive数据:实现高效跨数据源分析的实践指南#### 1. Doris与Hive的集成背景在大数据生态中,Hive作为基于Hadoop的数据仓库工具,广泛用于海量数据的批处理分析。而Apache Doris(原百度 Palo)是一种高性能、实时分析的MPP(大规模并行处理)数据库,擅长高并发、低延迟的查询场景。两者的结合能够实现以下目标:
火龙谷5 天前
大数据·hadoop·分布式
【hadoop】相关集群开启命令NameNode:元数据 DataNode:数据块ResourceManager:集群资源 NodeManager:节点资源
神奇侠20245 天前
hive·hadoop·sql
Hive SQL常见操作Hive SQL 是基于 Hadoop 的数据仓库基础设施,用于提供数据查询和分析。下面介绍常用的 Hive SQL 语句,进行数据处理和分析。
TDengine (老段)6 天前
大数据·数据库·hadoop·物联网·时序数据库·tdengine·涛思数据
TDengine 替换 Hadoop,彻底解决数据丢失问题 !小T导读:在内蒙古某新能源集控项目中,三区需接入并分析大量风电、光伏逆变器及储能设备的监测数据。随着数据规模不断扩大,原有的 Hadoop 系统逐渐难以支撑,查询缓慢、存储低效、数据丢失等问题频频出现。
火龙谷7 天前
大数据·hadoop·分布式
【hadoop】Davinci数据可视化工具的安装部署Davinci作为数据可视化工具,只需要安装到一个节点上即可1.使用XFTP将Phantomjs和Davinci的安装包phantomjs-2.1.1-linux-x86_64.tar.bz2以及davinci-assembly_3.0.1-0.3.1-SNAPSHOT-dist-beta.9.zip发送到master机器的主目录。
£菜鸟也有梦7 天前
大数据·hadoop·flink·spark
从0到1,带你走进Flink的世界目录一、Flink 是什么?二、Flink 能做什么?三、Flink 架构全景概览3.1 分层架构剖析
隰有游龙7 天前
大数据·hadoop·分布式
hadoop集群启动没有datanode解决多次初始化会出现此问题,根本原因是ClusterID不一样首先停止集群然后到/hadoop/logs中找到hadoop-root-datanode-hadoopxxx.log文件 cat一下这个文件,找到ClusterID 复制 然后到 可能文件会不太一样,可能直接是data或者dfs目录 这些不重要,重要的是在子目录里找到VERSION这个文件(注意有多个) 比如我这个两个目录下都有current,里面都有
伍六星7 天前
大数据·hive·hadoop
图片上传问题解决方案与实践在校园二手交易平台中,上传商品图片后出现以下异常情况:注:实际部署时建议配合 Nginx 等反向代理服务器处理静态资源请求,提升系统性能与安全性。可参考以下 Nginx 配置示例: