hadoop

Lorin 洛林1 小时前
大数据·hadoop·mapreduce
Hadoop 系列 MapReduce:Map、Shuffle、Reduce在 Reducer 端,具有相同键的所有值被合并为一个列表。可选地使用 Combiner 函数在 Mapper 端预聚合中间结果,以减少网络传输量。
B站计算机毕业设计超人4 小时前
大数据·数据仓库·hadoop·python·kafka·课程设计·数据可视化
计算机毕业设计SparkStreaming+Kafka旅游推荐系统 旅游景点客流量预测 旅游可视化 旅游大数据 Hive数据仓库 机器学习 深度学习温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!
Yz98767 小时前
大数据·数据库·数据仓库·hive·hadoop·数据库开发
hive的存储格式1) 四种存储格式hive的存储格式分为两大类:一类纯文本文件,一类是二进制文件存储。Hive支持的存储数据的格式主要有:TEXTFILE、SEQUENCEFILE、ORC、PARQUET
武子康7 小时前
java·大数据·数据仓库·hive·hadoop·sql·hdfs
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结目前开始更新 MyBatis,一起深入浅出!上节我们完成了如下的内容:续接上节,上节到了内建函数。自定义UDF处理JSON串中的数组,自定义UDF函数:
武子康7 小时前
java·大数据·数据仓库·hive·hadoop·mysql
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本目前开始更新 MyBatis,一起深入浅出!上节我们完成了如下的内容:DWD:会员的每日启动信息明细(会员都是活跃会员,某个会员可能会出现多次) DWS:每日活跃会员信息(关键)、每周活跃会员信息、每月活跃会员信息 每日活跃会员信息 => 每周活跃会员信息 每日活跃会员信息 => 每月活跃会员信息 ADS:每日、每周、每月活跃会员数(输出)
JessieZeng aaa19 小时前
数据仓库·hive·hadoop
CSV文件数据导入hive1、Hive上建表,通常会指定字段分隔符为逗号(row format delimited fields terminated by ‘,’ ) 2、导入CSV文件
Yz98761 天前
大数据·数据库·数据仓库·hive·hadoop·数据库开发·big data
hive复杂数据类型Array & Map & Struct & 炸裂函数explode说明:下标从0开始,越界不报错,以null代替新建表:加载数据:需求:为什么学这个,因为我们想把数据,变为如下格式
EDG Zmjjkk1 天前
数据仓库·hive·hadoop
Hive 函数(实例操作版2)把一个容器的多个数据炸裂出单独展示: explode(容器)炸裂函数配合侧视图使用格式:select 原表别名.字段名,侧视图名.字段名 from 原表 原表别名 lateral view explode(要炸开的字段) 侧视图名 as 字段名 ;
那一抹阳光多灿烂2 天前
hadoop·spark
Spark核心组件解析:Executor、RDD与缓存优化Executor 是 Spark 中用于执行任务(task)的执行单元,运行在 worker 上,但并不等同于 worker。实际上,Executor 是一组计算资源(如 CPU 核心和内存)的集合,多个 executor 共享 worker 上的 CPU 和内存资源。
Yz98762 天前
大数据·数据仓库·hive·hadoop·hdfs·数据库开发·big data
Hive分桶超详细!!!数据分区可能导致有些分区,数据过多,有些分区,数据极少。分桶是将数据集分解为若干部分(数据文件)的另一种技术。
Francek Chen2 天前
大数据·数据仓库·hive·hadoop·分布式
【大数据技术基础 | 实验十一】Hive实验:新建Hive表Hive没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织Hive中的表,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。
出发行进2 天前
大数据·linux·hadoop·flink·虚拟机
Flink错误:一historyserver无法启动,二存在的文件会报错没有那个文件或目录historyserver执行了启动命令后却没有启动,而且也没有报错,如果日志无法启动的话网页8082是无法访问的
闲人编程2 天前
大数据·hadoop·eclipse·解决方案·yarn·配置文件
Hadoop 使用过程中 15 个常见问题的详细描述、解决方案以下是针对 Hadoop 使用过程中 15 个常见问题的详细描述、解决方案,以及所有问题的完整 Python 面向对象代码实现。
橘子海全栈攻城狮2 天前
大数据·数据库·hadoop·spring boot·分布式·后端
【源码+文档+调试讲解】基于Hadoop实现的豆瓣电子图书推荐系统的设计与实现摘 要随着开数字化阅读的普及,豆瓣电子图书推荐系统应运而生,旨在为用户提供个性化的阅读体验。基于Hadoop的强大数据处理能力,该系统能够有效处理海量用户数据和书籍信息,通过复杂的算法模型为用户推荐高质量的内容。管理员功能涵盖用户管理、豆瓣高分管理等,确保了平台的高效运营。用户个人中心则提供修改密码、我的发布等服务,增强了用户体验。整体上,该推荐系统不仅提升了用户的阅读便利性,也促进了知识分享与文化交流。
二进制_博客2 天前
java·大数据·hadoop
hadoop集群搭建确保已经按照以下文档安装完毕: 虚拟机和远程工具的安装(hadoop集群安装01)-CSDN博客Linux设置以及软件的安装(hadoop集群安装02)-CSDN博客
qq_q9922502772 天前
hadoop·数据分析·django
django基于Hadoop 的国产电影数据分析与可视化国产电影数据分析与可视化是对我国电影产业进行深入研究的过程。通过收集和分析电影的票房、评分、观众评价等数据,可以揭示电影市场的发展趋势、观众喜好以及影响电影成功的关键因素。利用数据可视化技术,将这些复杂数字信息转化为直观的图表和图形,有助于电影制作方、发行方和政策制定者更好地理解市场动态,优化决策,推动我国电影产业的繁荣发展。本文介绍了一个基于Django框架和Spark技术的国产电影数据分析与可视化。该系统使用Spark进行大数据处理和分析,实现了个性化推荐功能;使用Django框架进行后端开发,实现了
哇咔咔哇咔2 天前
hive·hadoop·笔记
Hive基础笔记ubuntukylin-22.04.1安装Hive、MySQL、配置Hive及Hive连接MySQL操作
Kika写代码3 天前
大数据·hadoop·nosql
【Hadoop】【大数据技术基础】实践三 NoSQL数据库 大数据基础编程、实验和案例教程(第2版)Redis是一个键值(key-value)存储系统,即键值对非关系型数据库,和Memcached类似,目前正在被越来越多的互联网公司采用。Redis作为一个高性能的键值数据库,不仅在很大程度上弥补了memcached这类键值存储的不足,而且在部分场合下可以对关系数据库起到很好的补充作用。Redis提供了Python、Ruby、Erlang、PHP客户端,使用很方便。
武子康4 天前
java·大数据·数据仓库·hive·hadoop·架构·flume
大数据-227 离线数仓 - Flume 自定义拦截器(续接上节) 采集启动日志和事件日志目前开始更新 MyBatis,一起深入浅出!上节我们完成了如下的内容:(续接上节,上节已经到了打包的部分)
掉头发的王富贵5 天前
java·大数据·hadoop
使用 Hadoop + MapReduce + Elasticsearch 实现高效的日志处理与分析ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。