hadoop

yumgpkpm2 小时前
人工智能·hadoop·华为·zookeeper·spark·kafka
在AI语言大模型时代 Cloudera CDP(华为CMP 鲲鹏版)对自有知识的保护在AI语言大模型时代 Cloudera CDP(华为CMP 鲲鹏版)对自有知识的保护博文末尾处有下载方式:
zhangxl-jc2 小时前
数据仓库·hive·hadoop
Hive基本操作日记以前自建部署的hive on hdfs数据仓库21年早已下线,本文档为当时简单做的日记,偶然整理文档发现,弃之可惜, 本文章留作未来可能参考使用。
计算机毕业编程指导师2 小时前
大数据·hadoop·python·计算机·spark·毕业设计·奥运会金牌
【Python大数据选题】基于Hadoop+Spark奥运会金牌榜可视化分析系统源码 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡有什么问题可以在主页上或文末下联系咨询博客~~ ⚡⚡Java、Python、小程序、大数据实战项目集](https://blog.csdn.net/2301_80395604/category_12487856.html)
TTBIGDATA2 小时前
大数据·hadoop·分布式·ambari·hdp·hue·bigtop
【Hue】Hue 访问 Hadoop 权限问题出现 403 的解决办法我们的大数据平台代码已经开源 >>>>> TTbigdata在 Ambari + Bigtop 环境中完成 Hue 安装后,访问 Hue 的 HDFS 文件浏览器,页面直接报错。
叮铃铃上课了15 小时前
数据仓库·hive·hadoop
Hive实战:精准拆分中英文混合字符串(含重音/空格场景)在数据处理场景中,经常会遇到中英文混合的字符串,比如品牌名(Céline思琳、Sergio Rossi塞乔罗西)、商品名(iPhone苹果手机)等。需要将英文部分和中文部分拆分成独立字段,用于后续的品牌分析、分类统计等需求。
走遍西兰花.jpg20 小时前
数据仓库·hive·hadoop
hive怎么实现连续登录在本地写一个txt
【赫兹威客】浩哥1 天前
大数据·hadoop·分布式
【赫兹威客】伪分布式Hadoop测试教程本文档为伪分布式大数据环境(1台虚拟机:hadoop)中Hadoop组件的功能测试教程,涵盖Hadoop服务启停、HDFS文件操作、MapReduce任务运行等核心测试场景。严格遵循视频操作流程,详细说明每个步骤的操作要点、执行命令及预期结果,助力高效完成Hadoop组件可用性及核心功能验证。
Hello.Reader1 天前
大数据·hadoop·flink
Flink on Hadoop YARN 从 0 到可上线的 Session / Application 部署指南Flink 提交到 YARN 后,会发生这些事:理解这点很关键:你调的不是“Flink 集群机器”,而是 YARN 的“容器资源配额”。
yumgpkpm1 天前
人工智能·hive·hadoop·elasticsearch·zookeeper·kafka·cloudera
Cloudera CDP/CDH/Hadoop 信创大模型AI时代何去何从?Cloudera CDP/CDH 信创大模型AI时代何去何从?下载地址:https://pan.baidu.com/s/1PDj6dySUNHotNABp7d1a0w?pwd=57is 提取码: 57is
weixin_462446232 天前
linux·hive·hadoop
Hive 4.0.1 自动安装脚本详解:一键部署 + 环境变量配置(适用于 Linux)适用系统:CentOS / Ubuntu / 其他主流 Linux 发行版 前提条件:已安装完整 JDK(非 JRE),并正确设置 JAVA_HOME 目标版本:Apache Hive 4.0.1 安装路径:/opt/hive
無森~2 天前
hive·hadoop·sql
Hive SQL(进阶)Hive 本身不直接解析数据文件(如 TextFile、JSON、Parquet),而是通过 SerDe 完成:
【赫兹威客】浩哥2 天前
大数据·hadoop·分布式
【赫兹威客】完全分布式Hadoop测试教程本文档为完全分布式大数据环境(3台虚拟机:hadoop01~hadoop03)中Hadoop组件(含HDFS、YARN、历史服务器)的独立测试教程,基于视频操作流程,结合完全分布式测试文档的规范要求,详细说明从环境准备、远程连接到服务启停、功能验证(文件操作、Web页面验证、任务提交)的全流程,适用于验证Hadoop集群的独立可用性。
weixin_462446232 天前
java·hadoop·自动化
一键安装 Hadoop 3.3.6 自动化脚本详解 |(含 JAVA_HOME 自动配置)适用系统:CentOS / Ubuntu / 其他主流 Linux 发行版 目标版本:Apache Hadoop 3.3.6(稳定 LTS 版本) 安装路径:/opt/hadoop 前提条件:已安装完整 JDK(非 JRE),并正确设置 JAVA_HOME 环境变量
蓝眸少年CY3 天前
大数据·hadoop·分布式
什么是HadoopHadoop 是 Apache 基金会开发的开源分布式系统基础架构,专为PB 级乃至 EB 级海量数据的存储与处理设计,通过集群化普通硬件实现高可靠、高扩展、低成本的大数据解决方案,是大数据技术领域的基石。
zhixingheyi_tian3 天前
hadoop
Yarn 之 numa-awarenesssrc/main/java/org/apache/hadoop/yarn/server/nodemanager/containermanager/linux/resources/numa/NumaResourceAllocator.java
白日与明月3 天前
数据仓库·hive·hadoop
Hive 大表 Join 优化:从策略选择到倾斜处理在处理 Hive 中两个大表的关联(Join/Left Join)时,单纯的 SQL 书写已经无法满足性能需求。作为有经验的开发者,我们的优化思路必须从“语法层”下沉到“执行计划层”和“数据存储层”。核心目标很明确:减少 Shuffle 数据量、避免数据倾斜、尽可能消除 Reduce 阶段。
Java程序员威哥3 天前
java·大数据·开发语言·hive·hadoop·spring boot·后端
SpringBoot2.x与3.x自动配置注册差异深度解析:从原理到迁移实战自动配置是SpringBoot的核心特性,它通过“约定优于配置”的思想,大幅简化了Spring应用的搭建与开发流程。从SpringBoot2.x升级到3.x,不仅是依赖版本的迭代,更涉及底层架构的重构——自动配置注册机制作为核心模块,在加载方式、核心组件、条件判断等方面均发生了突破性变化。
【赫兹威客】浩哥3 天前
大数据·hadoop·分布式
【赫兹威客】Hadoop完全分布式克隆文件部署教程本文档为Hadoop完全分布式部署教程,基于最新部署流程整理,核心涵盖克隆文件确认、VMware服务与网络配置、虚拟机导入与设置、IP与域名映射配置等全流程。教程结合具体操作步骤与命令说明,可完成Hadoop完全分布式环境的基础部署,确保三个虚拟机节点间互通、虚拟与本机互联及外网访问正常。所需Hadoop虚拟机克隆文件需提前下载并解压完成。
王九思3 天前
数据仓库·hive·hadoop·sql·spark
SQL网关 Kyuubi 系列——基本介绍Kyuubi 是一个开源的分布式 SQL 引擎,基于 Apache Spark 构建,提供高性能的多租户 JDBC 服务。其核心目标是简化大数据场景下的 SQL 查询与分析,支持企业级的多用户并发访问、资源隔离和安全管控。
白日与明月3 天前
数据仓库·hive·hadoop
Hive中的大批量关键词匹配场景优化在 Hive 中对大表的文本字段进行大量关键词匹配,是我过去在做日志分析、内容风控和用户行为挖掘时经常遇到的典型场景。关键词少的时候,LIKE 或 RLIKE 凑合能用;但一旦关键词量上到几千甚至几万条,直接硬怼就会踩进性能深坑——不仅跑不动,还可能把整个集群资源吃干抹净。