hadoop

Eileen Seligman14 小时前
大数据·hadoop·hdfs·ctf·rce
0CTF/TCTF 2023 OLAPInfra Nashorn RCE + HDFS UDF RCEClickHouse:是一个开源的列式数据库管理系统clickhouse-jdbc-bridge:clickhouse数据库和jdbc交互的工具
Sonnie0000001(马库斯)14 小时前
大数据·hadoop·hdfs
【Hadoop之HDFS替换方案】【Haoop远程挂载Cubefs】Cubefs对接Hadoop生态为了解决Hadoop存算一体带来的问题,我对Hadoop的存算分离做了方案尝试,使用Cubefs替换现有的HDFS,相当于Hadoop的存储远程挂载,下面是踩坑记录。 官方参考链接
好问者14 小时前
大数据·hadoop·hdfs
【大数据】:hdfs相关进程启停管理命令HADOOP_HOME/sbin/start-dfs.sh,一键启动HDFS集群执行原理:在执行此脚本的机器上,启动SecondaryNameNode
段一凡-华北理工大学19 小时前
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
工业领域的Hadoop架构学习~系列文章18:制造业Hadoop应用实践 - 从数据到智能的完整闭环导言:制造业是Hadoop大数据技术最重要的应用领域之一。本期结合真实的智能制造场景,深入讲解生产质量分析、设备预测性维护、工艺参数优化、能源管理等典型应用,从业务需求到技术实现,完整呈现Hadoop在制造业的落地实践。
属鼠哥19 小时前
大数据·hadoop
HDFS 短路本地读取系列(二):你以为的「本地读」和真正的「本地读」—getLegacy vs getBlockReaderLocal 的本质差异导语:在 HDFS 的读取路径中,BlockReaderFactory.build() 是客户端选择读取策略的总入口。在这个四级降级链路中,第二级和第三级分别由 getLegacyBlockReaderLocal() 和 getBlockReaderLocal() 接管。一个基于文件路径直接打开(HDFS-2246),一个基于 Unix Domain Socket 文件描述符传递(HDFS-347)。本文将深入 Hadoop 3.x源码,彻底解读这两个方法的内部机制、调用链路与设计哲学。
段一凡-华北理工大学20 小时前
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
工业领域的Hadoop架构学习~系列文章17:Hadoop性能调优- 调度集群每一分性能导言:Hadoop集群的性能优化是一项系统工程,需要从JVM参数、内存管理、网络配置、磁盘IO等多个维度综合调优。本期深入剖析Hadoop各组件的性能瓶颈,详细讲解HDFS读写优化、YARN资源调度优化、MapReduce/Spark作业调优,并给出实战案例和监控方法。
段一凡-华北理工大学2 天前
大数据·人工智能·hadoop·机器学习·架构·工业智能体·高炉炼铁智能化
工业领域的Hadoop架构学习~系列文章15:机器学习与大数据融合 - 工业智能的算法引擎导言:机器学习与大数据平台的融合是工业智能化的核心驱动力。本期深入探讨Spark MLlib、FlinkML、TensorFlow on Spark等主流机器学习框架,详细讲解特征工程、模型训练、在线推理的全流程实战,并结合工业场景的异常检测、预测性维护、质量预测等典型应用。
Nefu_lyh2 天前
数据仓库·hive·hadoop
【Hive】三、Hive 抽样:讲解 Hive 三大抽样方式:分桶抽样、块抽样、随机抽样的原理、语法、性能对比与实战案例我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!
05候补工程师2 天前
大数据·hadoop·经验分享·笔记·软件工程
【期末/408冲刺】软件工程核心考点与大题通关秘籍(附图解与解题套路)📝 导读: 无论是应对期末考试,还是为了后续 408 计算机统考打基础,软件工程的知识点都显得尤为繁杂。本文是我在近期专业课复习时整理的核心笔记,剥离了长篇大论,直接直击名词解释、简答题以及最关键的图表大题的解题命门。希望这些“套路”和“模板”能帮你节省复习时间。
段一凡-华北理工大学2 天前
大数据·数据仓库·hadoop·分布式·学习·架构·高炉炼铁
工业领域的Hadoop架构学习~系列文章16:实时流处理架构 - 工业数据的实时动脉导言:实时流处理是工业4.0的核心能力之一,从设备传感器数据到业务告警,每毫秒的延迟都可能影响生产效率和质量。本期深入讲解Kafka+Flink+Kafka Connect构建的端到端实时数据管道,剖析Exactly-Once语义、时间窗口、乱序处理等核心机制,并给出工业场景的实战代码。
迈巴赫车主3 天前
数据仓库·hive·hadoop
Hive中分组聚合导致的数据倾斜优化数据倾斜问题,通常是指参与计算的数据分布不均,即某个key或者某些key的数据量远超其他key,导致在shuffle阶段,大量相同key的数据被发往同一个Reduce,进而导致该Reduce所需的时间远超其他Reduce,成为整个任务的瓶颈。Hive中的数据倾斜常出现在分组聚合和join操作的场景中,下面介绍在分组聚合场景下的优化思路。
段一凡-华北理工大学3 天前
大数据·人工智能·hadoop·分布式·架构·高炉炼铁·高炉智能化
工业领域的Hadoop架构学习~系列文章13:数据湖架构 - 工业大数据的统一存储底座导言:数据湖是工业大数据平台的核心基础设施,它解决了多源异构数据的统一存储与分析难题。本期深入对比Delta Lake、Apache Iceberg、Apache Hudi三大开源数据湖方案,从架构原理出发,详细讲解表格式事务、时间旅行、增量处理等核心能力,并给出工业场景的选型建议与实战代码。
段一凡-华北理工大学3 天前
大数据·数据库·人工智能·hadoop·学习·架构·高炉炼铁
工业领域的Hadoop架构学习~系列文章14:Hadoop集群部署 - 从规划到上线的全流程实践导言:工业大数据平台的集群部署是一项系统工程,需要综合考虑硬件选型、网络规划、软件架构、容灾备份等多方面因素。本期从企业级Hadoop集群规划出发,详细讲解物理机部署、容器化部署(Kubernetes)以及自动化运维工具的使用,助您构建生产级Hadoop集群。
暴躁小师兄数据学院3 天前
大数据·hadoop·笔记·flink·spark·database
【AI大数据工程师特训笔记】第16讲:大数据环境安装目录第一章:WSL与Java环境安装第二章:Hadoop安装与配置第三章:Hive安装与配置第四章:Spark安装与配置
段一凡-华北理工大学4 天前
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉炼铁智能化
工业领域的Hadoop架构学习~系列文章12:Hadoop集群监控与运维导言:工业大数据平台的稳定运行是智能制造的生命线。本期从监控体系架构设计出发,深入剖析Ganglia、Prometheus、Grafana等主流监控工具的集成方案,详细讲解JMX、Metrics接口的暴露与采集,构建完整的告警体系和自动化运维流程。
Nefu_lyh4 天前
数据仓库·hive·hadoop
【Hive】02 Hive 分区与分桶:深入理解 Hive 分区与分桶的原理、执行过程、Bucket Map Join、SMB Join 以及最佳实践我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!
段一凡-华北理工大学4 天前
数据仓库·hadoop·学习·架构·高炉炼铁·工业智能体·高炉炼铁智能化
工业领域的Hadoop架构学习~系列文章11:Kerberos安全认证导言:在工业4.0时代,数据安全已成为智能制造的生命线。本期深入剖析Kerberos认证协议的对称加密数学原理,详细解析Ticket Granting Ticket的信任链传递机制,以及Hadoop各核心组件的Kerberos集成方案,为工业大数据平台提供企业级的安全保障。
muddjsv4 天前
数据库·hadoop·hbase
HBase与Hadoop:基于什么开发?深度剖析与架构图在大数据技术栈中,HBase 和 Hadoop 是两个紧密相关且至关重要的组件。许多开发者常常困惑于它们之间的关系:HBase 是基于什么开发的?它与 Hadoop 的核心组件有何联系?本文将深入剖析 HBase 的底层架构,揭示其与 Hadoop 生态系统的依赖关系,并通过清晰的 Mermaid 架构图,帮助您从本质上理解这套分布式存储与计算体系。
muddjsv4 天前
数据库·hadoop·hbase
HBase 与 Hadoop 安装与上手使用全指导在大数据领域,HBase 作为一款高可靠性、高性能、面向列、可伸缩的分布式 NoSQL 数据库,是 Hadoop 生态系统中的重要一员。它构建在 HDFS(Hadoop Distributed File System)之上,为海量结构化数据的实时读写提供了强大支持。对于初学者而言,如何从零开始搭建 HBase 和 Hadoop 环境并快速上手使用,是进入大数据世界的关键一步。本文将提供一份从环境准备、安装配置到基础操作的全流程指导,帮助你快速搭建并运行起自己的 HBase 集群。
Nefu_lyh4 天前
数据仓库·hive·hadoop
【Hive】一、Hive数据类型:基本数据类型、复杂数据类型我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!