hadoop

小欣加油17 小时前
大数据·数据库·hadoop
Hadoop开发环境搭建按顺序输入运行即可注意:#后的为注释,请不要复制到命令行,按顺序输入代码部分即可。
段一凡-华北理工大学18 小时前
大数据·hadoop·学习·架构·知识图谱·高炉炼铁·工业智能体
工业领域的Hadoop架构学习~系列文章01:Hadoop与工业4.0深度融合导言:任何脱离工业场景需求的Hadoop架构设计都是纸上谈兵。本期我们将从工业大数据的第一性原理出发,深入剖析Hadoop生态系统在工业场景中必须解决的四大核心问题——海量异构数据的统一存储、强一致性保证下的高可用写入、实时与批处理的有机融合、以及端到端数据质量的追溯管控。只有理解这些问题背后的物理本质,才能设计出真正经得起生产验证的工业大数据架构。
小欣加油2 天前
数据仓库·hive·hadoop
Hive综合应用案例——用户学历查询
至此流年莫相忘2 天前
linux·hadoop·centos
CentOS 部署 Hadoop 环境指导文档使用 sudo 权限在 /usr/local/ 下创建专用的 java 目录:进入存放安装包的 env 目录,将 jdk-8u202-linux-x64.tar.gz 解压至指定路径:
yumgpkpm2 天前
大数据·hive·hadoop·分布式·zookeeper·spark·kafka
Hadoop(CDH6、CDP7)在Qwen3.7大模型训练中的作用,(含部署、运行操作步骤)Hadoop(CDH6、CDP7)在Qwen3.7大模型训练中的作用,(含部署、运行操作步骤)在 Qwen3.7 这类大模型的训练流水线中,Hadoop 主要承担“数据底座”的职责。为了让你更直观地理解,我们可以将整个过程分为Hadoop 集群基础部署、数据预处理与存储实战、以及对接 Qwen3.7 训练三个阶段。
Irene19912 天前
hadoop·sqoop
正确停止 Sqoop 任务:yarn application -kill(直接 kill 进程会触发重启,且可能导致状态不一致)使用kill-9终止Sqoop进程时出现进程自动重启现象,这是因为Yarn的资源管理器会监控并自动重启失败的任务。
南屹川3 天前
大数据·人工智能·hadoop·flink·spark·数据处理
【大数据】大数据处理技术栈:从采集到分析的完整链路大数据具有以下特征(5V):参考资料:
Irene19914 天前
hadoop·ubuntu·sqoop
Sqoop 安装完整教程(基于 WSL2 + Ubuntu 24.04)本教程详细介绍了在WSL2+Ubuntu24.04环境下安装配置Sqoop1.4.7的完整流程:安装完成后,用户已具备在Hadoop和关系型数据库间迁移数据的能力。
m0_639310795 天前
java·大数据·jvm·hadoop·spring·hdfs·eclipse
大数据技术原理-HDFS的安装与应用本实验报告详细记录了“大数据技术原理”课程中的HDFS(Hadoop分布式文件系统)实验。实验环境基于Ubuntu操作系统,Hadoop框架,以及开发工具JDK和Eclipse。实验内容涵盖了Hadoop的启动、HDFS命令的操作,包括目录的创建、文件的查看、复制、移动和删除,以及通过Java应用程序与HDFS的交互。实验中,解决了运行HDFS时的启动顺序问题,以及如何验证Java应用程序与HDFS交互后文件的生成情况。通过本次实验,深入了解了HDFS的基本命令及其作用,掌握了在Hadoop平台上进行文件
188105069635 天前
大数据·hadoop·分布式
摸鱼事务所——团队作业——大模型评测作业本次作业通过构建自动化购车决策评测系统,对两个大语言模型在真实购车场景中的表现进行量化评估。这不仅是对模型能力的测试,更是对软件工程实践中自动化测试、需求分析和系统设计能力的综合锻炼。
我思故我在78965 天前
大数据·hadoop·hdfs
hdfs文件系统HDFS在Hadoop中的作用是为海量的数据提供了存储,能提供高吞吐量的数据访问,HDFS有高容错性的 特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着 超大数据集的应用程序。 对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。 但是HDFS的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括 NameNode(仅一个,HA两个),它在HDFS内部提供元数据服务;DataNode,它为HDFS提供存储
大连赵哥5 天前
hadoop·分布式·hdfs
分布式文件存储系统:Hadoop HDFSHadoop分布式文件系统(Hadoop Distributed File System,简称HDFS)是一个分布式文件系统,它被设计用来在普通硬件上运行,提供高吞吐量来访问应用程序数据,非常适合大规模数据集的存储。HDFS 是 Apache Hadoop 项目的一部分,通常与 Hadoop MapReduce 计算模型一起使用,以支持大数据处理任务。
王小王-1235 天前
hive·hadoop·hdfs·服装电商分析·服装大数据
基于Hadoop的服装电商数据分析系统【Hdfs、flume、HIve、sqoop、MySQL、echarts】本研究基于服装电商用户行为的开源数据展开大数据分析研究,通过Hadoop大数据分析平台对某大型服装电商平台公开的开源数据集进行多维度的用户行为分析,为服装电商销售提供可行性决策。
阿坤带你走近大数据7 天前
大数据·hadoop·mapreduce
Hadoop中的MapReduce介绍MapReduce 是 Hadoop 的核心分布式计算框架,用于在大规模集群上并行处理海量数据(TB/PB 级)。它将复杂的分布式计算抽象为两个简单阶段:Map(映射) 和 Reduce(归约),极大简化了大数据编程模型。
It's Q8 天前
数据仓库·hive·hadoop
Hive序列函数&&排名函数1、row_numer() 没有并列 2、rank() 存在并列,存在空位 3、dense_rank() 存在并列,不存在空位
WL_Aurora9 天前
大数据·hadoop·架构
Hadoop HA高可用架构深度解析在前面的实验中,我们搭建的Hadoop集群都是单NameNode架构。但在生产环境中,NameNode作为HDFS的核心元数据管理节点,一旦发生故障,整个集群将陷入瘫痪。据统计,NameNode单点故障是Hadoop集群最常见的生产事故之一。
Irene19919 天前
linux·hadoop·ubuntu
Windows 11 WSL Ubuntu 环境:实际安装 Hadoop 踩坑实录重要声明或更新!!!如果后面还要使用Hive,Java版本需要选Java8。Windows 11 WSL Ubuntu 环境:实际安装 Hive 踩坑实录
Irene19919 天前
hive·hadoop
(课堂笔记)Hive 分区、分桶与数据倾斜本文系统介绍了Hive的核心技术与优化策略。主要内容包括:1)分区与分桶技术,详细讲解静态/动态分区实现方法和分桶原理;
二宝哥10 天前
大数据·hadoop
大数据之安装Hadoop3.1.4下载地址:https://hadoop.apache.org/releases.html上传下载好的Hadoop安装包到node1节点上,并解压:tar -zxvf ./hadoop-3.1.4.tar.gz
Irene199110 天前
hadoop·ubuntu
Windows 11 WSL Ubuntu 环境:安装 Hadoop 完整指南本文详细介绍了在WSL Ubuntu环境下安装Hadoop的完整流程。主要内容包括:1) 环境准备(安装WSL、Ubuntu及必要工具);