hadoop

李兆龙的博客6 小时前
数据仓库·hive·hadoop
从一到无穷大 #61 Hive史诗本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。本作品 (李兆龙 博文, 由 李兆龙 创作),由 李兆龙 确认,转载请注明版权。
心止水j1 天前
数据仓库·hive·hadoop
hive分区plaintext关键语法:partitioned by (column_name data_type)
心止水j1 天前
数据仓库·hive·hadoop
Hive 桶表的创建、数据导入、查询与导出核心原则:不能使用 LOAD DATA 命令直接向桶表加载数据,因为 LOAD DATA 只是移动文件,不会执行分桶逻辑。必须使用 INSERT ... SELECT 语句。
顧棟4 天前
hive·hadoop·hdfs
HDFS元数据与auditlog结合Hive元数据统计分析主要统计HDFS Path的子文件夹,子文件数量、子文件大小、最近的修改时间、最近的操作时间、以及是属于hive的某库某表某分区的location。
z***89714 天前
大数据·hadoop·分布式
【分布式】Hadoop完全分布式的搭建(零基础)Hadoop完全分布式的搭建环境准备:(1)VMware Workstation Pro17(其他也可)
Kevinyu_4 天前
java·hadoop·责任链模式
责任链模式责任链模式是一种行为型设计模式。它的核心思想是:通俗理解:想象一个审批流程,员工提交请假申请,首先交给直属主管审批,如果主管不处理或条件不满足,就自动传递到部门经理,再传递到人力资源审批,直到处理完成。
yumgpkpm4 天前
hive·hadoop·zookeeper·flink·spark·kafka·hbase
腾讯云TBDS与CDH迁移常见问题有哪些?建议由CDH迁移到CMP 7.13 平台(类Cloudera CDP,如华为鲲鹏 ARM 版)腾讯云TBDS与CDH迁移常见问题有哪些?建议由CDH迁移到CMP 7.13 平台(如华为鲲鹏 ARM 版)
yumgpkpm5 天前
人工智能·hive·hadoop·信息可视化·kafka·开源·hbase
数据可视化AI、BI工具,开源适配 Cloudera CMP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)值得推荐?开源适配 Cloudera CDP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)值得推荐的数据可视化BI工具?
干就完事了5 天前
数据仓库·hive·hadoop
Hive视图目录Hive动态分区中的视图和map类型相关知识Hive 分区Hive 中的表分区比较简单,就是将同一组数据放到同一个 HDFS 目录下,当查询中过滤条件指定了某一个分区值时候,只将该分区对应的目录作为 Input,从而减少 MapReduce 的输入数据,提高查询效率。
Linux Huang5 天前
java·hadoop·flink·intellij idea
【Dinky】IDEA运行出现HistoryServer异常背景,windows环境的IDEA运行Dinky代码报错 [dinky] 2025-11-24 10:13:47.695 ERROR 21908 --- [etcher-thread-1] org.apache.flink.util.FatalExitExceptionHandler: FATAL: Thread 'Flink-HistoryServer-ArchiveFetcher-thread-1' produced an uncaught exception. Stopping the proces
A尘埃5 天前
数据仓库·hive·hadoop
Hive基于Hadoop的数据仓库工具可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,将 SQL 语句转换为 MapReduce/Tez/Spark 任务运行。
Macbethad6 天前
大数据·hadoop·wpf
使用WPF编写一个多维度伺服系统的程序采用分层架构设计:此方案已在实际伺服监控系统中验证,可支撑200+设备并发接入,采样周期最低可达10ms。完整源码需结合具体设备协议扩展实现。
杂家6 天前
大数据·数据仓库·hive·hadoop·spark
Hive on Spark && Spark on Hive配置☞官网下载链接由于默认的引擎是MapRduce,在任务执行过程中由Hive解析元数据,然后把sql翻译成MapReduce任务,此时这个运行效率是非常慢的,因为要落盘,有大量的IO操作,但是好处就是不会出现OOM问题,处理非常大的数据是可以用它的。Hive中集成Spark,Hive既作为元数据存储,又负责解析HQL语句,只是将Hive的引擎改为Spark,由Spark负责运算工作,Spak计算是基于内存的效率较高,但要注意内存配置,数据量的时候容器出现OOM问题。
沧海寄馀生7 天前
大数据·hadoop·分布式·apache
Apache Hadoop生态组件部署分享-Hadoop节点信息请参考:zookeeper: Apache Hadoop生态组件部署分享-zookeeper在 apache230.hadoop.com节点执行命令
毕设源码-朱学姐7 天前
大数据·hadoop·分布式
【开题答辩全过程】以 基于Hadoop的豆瓣电影数据分析系统设计与实现为例,包含答辩的问题和答案个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等
@小红花7 天前
大数据·hadoop·学习
从零到精通 Hadoop 的系统学习文档目录1) 学习路径总览(0→1→精通)2) 核心概念速读阿里云配置云服务器3) 快速上手实验(本机伪分布式)
BD_Marathon7 天前
大数据·hadoop·hdfs
java.io.FileNotFoundException: File does not exist: hdfs://master:9000/sparklogspark提交任务报错解决方案:问题解决
Q26433650237 天前
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计
【有源码】spark与hadoop-情感挖掘+画像建模的携程酒店评价数据分析可视化系统-基于机器学习的携程酒店评价情感分析与竞争态势可视化注意:该项目只展示部分功能,如需了解,文末咨询即可。发语言:python 采用技术:Spark、Hadoop、Django、Vue、Echarts等技术框架 数据库:MySQL 开发环境:PyCharm
智海观潮8 天前
数据仓库·hive·hadoop
Hive经典面试题之连续登录、行转列和列转行更多干货抢先看:大数据干货合集在日常工作进行数据的ETL或者面试时,经常遇到类似的问题,比如"统计连续N天交易额超过100万的店铺"、"统计连续登录天数超过3天的用户"等。对于这类问题,思路基本都是一样的。本文将介绍常用的两种解决方案。
一只小青团8 天前
大数据·hadoop·分布式
Hadoop之javaAPI写HDFS的shell命令很多时候,我们都是在IDE开发⼯具中,通过Java、Python等代码来对Hadoop进⾏操作。接下来,我们来学习如何通过IDE⼯具,实现对HDFS的操作。