hadoop

顧棟5 小时前
大数据·hadoop·hdfs
HDFS2.X升级3.X案例与相关Issue
小跘an吻纸13 小时前
linux·运维·hadoop
linux系统搭建hadoop环境Linux系统搭建Hadoop环境+HBase+Sqoop常用命令(新手实操版)前言:本文针对新手,整理了Linux(Ubuntu 16 Server)系统下Hadoop环境搭建的核心操作,以及HBase、Sqoop的常用命令,包含SSH免密、Java环境、网络配置等基础操作,还有实操中常见问题解决,全程命令可直接复制使用,避开新手踩坑点~
源码之家15 小时前
人工智能·hadoop·python·算法·数据分析·flask·课程设计
计算机毕业设计:Python汽车销量智能分析与预测系统 Flask框架 scikit-learn 可视化 requests爬虫 AI 大模型(建议收藏)✅博主介绍:✌全网粉丝50W+,前互联网大厂软件研发、集结硕博英豪成立软件开发工作室,专注于计算机相关专业项目实战6年之久,累计开发项目作品上万套。凭借丰富的经验与专业实力,已帮助成千上万的学生顺利毕业,选择我们,就是选择放心、选择安心毕业✌ > 🍅想要获取完整文章或者源码,或者代做,拉到文章底部即可与我联系了。🍅
极光代码工作室16 小时前
大数据·hadoop·python·数据分析·数据可视化
基于Spark的用户行为分析系统设计随着电子商务、在线教育、短视频平台等互联网应用的爆发式增长,用户在平台上的点击、浏览、搜索、加购、下单、评价等行为数据呈指数级增长。传统基于关系型数据库与单机计算框架(如Python Pandas、MySQL)的分析方式,在面对日均TB级用户行为日志时,面临吞吐量低、延迟高、扩展性差、容错能力弱等瓶颈。本课题设计并实现了一套基于Apache Spark的分布式用户行为分析系统,聚焦于“会话识别—路径分析—漏斗转化—用户分群—行为预测”五大核心分析场景。系统采用Lambda架构融合批处理与实时流处理能力,以
chunyublog17 小时前
hadoop·分布式·hbase
HBase 2.4.18 分布式集群搭建教程(适配 Hadoop 3.3.4 + ZooKeeper 3.5.6)本教程基于以下稳定版本组合,严格遵循 Apache 官方兼容性要求,避免版本不兼容导致的启动失败:Hadoop 3.3.4 集群正常运行:start-dfs.sh、start-yarn.sh 启动成功,jps 可看到 NameNode、DataNode 等进程
ClouderaHadoop1 天前
hadoop·solr·lucene·cdh
漏洞扫描发现 Solr CVE-2017-12629 对 CDH 集群影响分析在企业大数据平台安全巡检过程中,漏洞扫描工具(如 Nessus、Qualys、OpenVAS、绿盟、启明星辰等)经常会对 Hadoop 集群中的 Solr 服务进行安全扫描,并识别出 CVE-2017-12629 高危漏洞。
Joy T2 天前
大数据·数据仓库·hive·hadoop·架构
【大数据】离线数仓核心组件:Hive 架构解析与进阶操作指南Hive 是基于 Hadoop 的数据仓库工具,主要用于解决海量结构化日志的数据统计问题。它提供了一套类 SQL 的查询语言 HiveQL,通过将 SQL 语句转换为运行在 Hadoop 集群上的 MapReduce 或 Spark 任务,大幅降低了大数据分析的工程门槛。
jasnet_u2 天前
hive·hadoop
在Hadoop3.3.6上搭建Hive3.1.2Apache Hive是一款建立在Hadoop上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似于SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop上大型数据集。 Hive的核心是将HQL转换为MapReduct程序,然后将程序提交到Hadoop集群执行。 Hive是有Fackbook实现并开源
Francek Chen3 天前
大数据·数据库·hadoop·分布式·hbase
【大数据存储与管理】分布式数据库HBase:06 HBase编程实践【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化,以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。 【GitCode
源码之家3 天前
大数据·hadoop·python·算法·数据分析·flask·课程设计
计算机毕业设计:基于Python的二手车数据分析可视化系统 Flask框架 可视化 时间序列预测算法 逻辑回归 requests 爬虫 大数据(建议收藏)✅博主介绍:✌全网粉丝50W+,前互联网大厂软件研发、集结硕博英豪成立软件开发工作室,专注于计算机相关专业项目实战6年之久,累计开发项目作品上万套。凭借丰富的经验与专业实力,已帮助成千上万的学生顺利毕业,选择我们,就是选择放心、选择安心毕业✌ > 🍅想要获取完整文章或者源码,或者代做,拉到文章底部即可与我联系了。🍅
被摘下的星星3 天前
大数据·hadoop·分布式
Hadoop伪分布式集群搭建实验原理概要一、核心逻辑伪分布式模式是Hadoop在单台物理机上模拟多节点(NameNode, DataNode, ResourceManager, NodeManager等)运行的一种部署方式。虽然所有守护进程都在同一台机器上运行,但它们在逻辑上是独立的进程,相互之间通过配置的网络地址(如localhost)进行通信,模拟了一个完整分布式集群的架构和工作流程。此模式是学习Hadoop运行机制、进行应用开发和功能测试的理想环境,其核心逻辑在于通过修改配置文件,将Hadoop从单机“本地模式”切换为多守护进程协同工作的
武子康3 天前
大数据·hadoop·后端
大数据-258 离线数仓 - Livy与Griffin编译安装指南:大数据环境配置实战续接上节,上节到了 ElasticsearchLivy 是一个用于 Apache Spark 的 REST 接口,旨在简化 Spark 作业的提交和管理,特别是在大数据处理场景中。它的主要功能是通过 REST API 与 Spark 集群进行交互,允许用户提交作业、执行代码片段并查询作业的状态和结果,而不需要直接与 Spark 的底层架构交互。 Livy 的一些关键功能包括:
源码之家4 天前
大数据·hadoop·爬虫·python·数据分析·flask·课程设计
计算机毕业设计:Python智慧交通大数据分析平台 Flask框架 requests爬虫 出行速度预测 拥堵预测(建议收藏)✅博主介绍:✌全网粉丝50W+,前互联网大厂软件研发、集结硕博英豪成立软件开发工作室,专注于计算机相关专业项目实战6年之久,累计开发项目作品上万套。凭借丰富的经验与专业实力,已帮助成千上万的学生顺利毕业,选择我们,就是选择放心、选择安心毕业✌ > 🍅想要获取完整文章或者源码,或者代做,拉到文章底部即可与我联系了。🍅
武子康5 天前
大数据·hadoop·后端
大数据-257 离线数仓 - 数据质量监控详解:从理论到Apache Griffin实践数据质量监控是一个持续的过程,旨在确保数据在整个生命周期中保持高质量。它包括多方面的监控措施,通常包括以下几个主要内容:
孤影过客6 天前
大数据·hadoop·分布式
驯服数据巨兽:Hadoop如何重塑大数据的黄金时代数据的爆炸与传统计算的黄昏当人类社会的数字化进程按下加速键,数据量开始以一种令人窒息的速度膨胀。在过去,企业面临的数据问题无非是如何将几个GB的客户资料妥善存放在关系型数据库中,并能在几秒钟内查询出结果。那时候的服务器就像是精密的瑞士手表,昂贵、精巧且脆弱。一旦业务增长,传统的解决思路是“向上扩展”,也就是购买更强大的CPU、增加更多的内存、换上更昂贵的磁盘。
极光代码工作室6 天前
大数据·hadoop·python·数据分析·数据可视化
基于Hadoop的日志数据分析系统设计随着互联网应用规模持续扩张与微服务架构普及,服务器、中间件、应用层产生的日志数据呈爆炸式增长。传统单机ELK(Elasticsearch+Logstash+Kibana)栈在PB级日志场景下面临吞吐瓶颈、存储成本高、实时性不足及横向扩展受限等挑战。本文针对大规模分布式日志分析需求,设计并实现了一套基于Hadoop生态的离线+近实时混合日志数据分析系统。系统以HDFS为统一存储底座,采用Flume+Kafka构建高吞吐日志采集管道,利用MapReduce与Spark SQL双引擎协同处理:MapReduce
tumeng07117 天前
hadoop·hdfs·架构
HDFS的架构优势与基本操作如今,数据正以指数级增长,各行各业都在追求更多的数据存储、高效的数据处理和可靠的数据基础来驱动业务的发展。Hadoop Distributed File System(HDFS)作为Hadoop生态系统的核心组件之一,成为构建可靠的大数据基础的不二选择之一。本文将深入剖析HDFS的架构与优势。
蓝眸少年CY7 天前
数据仓库·hive·hadoop
Hive - 函数、压缩与优化目录一、函数1、常用函数(1)系统内置函数(2)常用内置函数1)nvl()函数2)case使用3)concat()函数
仗剑_走天涯7 天前
大数据·hadoop·分布式
Hadoop 安装pdsh 是一个 “基于 SSH 的批量远程执行工具”,专门用来同时在多台机器上运行 shell 命令。
sunxunyong8 天前
大数据·hadoop·hdfs
HDFS nnsdy重新配置启动1、hdfs进入safemode安全模式 在active nn节点执行:hdfs dfsadmin -safemode enter 2、全量生产fsiamge文件 在active节点执行:hdfs dfsadmin -saveNamespace 3、在active节点执行hdfs dfsadmin -safemode leave 4、处理standby nn 先清空standby nn节点/data1/hadoop/hdfs/namenode/current/目录和/data2/hadoop/hdfs/n