技术栈
hadoop
Vin0sen
18 小时前
大数据
·
hadoop
·
分布式
Hadoop安装
草稿https://help.aliyun.com/zh/ecs/user-guide/build-a-hadoop-environment
隐于花海,等待花开
20 小时前
数据仓库
·
hive
·
hadoop
HIVE日期函数大全
Hive 日期函数详解目录及详细说明,按功能分类并编号,方便查阅。
夕除
2 天前
数据仓库
·
hive
·
hadoop
javaweb--04
xmlscope=provided 表示该依赖由 Tomcat 容器提供,打包时不打入 war 包。java
武子康
3 天前
大数据
·
hadoop
·
后端
大数据-264 实时数仓-MySQL Binlog配置详解:从原理到实践|数据恢复与主从复制实战
MySQL 的二进制日志(Binary Log,简称 binlog)是 MySQL 数据库中的一种日志文件类型,它记录了对数据库执行的所有更改操作(不包括 SELECT 和 SHOW 等查询操作)。它主要用于数据恢复、复制和审计等场景。
武子康
3 天前
大数据
·
hadoop
·
后端
大数据-265 实时数仓-Canal MySQL Binlog配置详解:从原理到实践|数据恢复与主从复制实战
MySQL 的二进制日志(Binary Log,简称 binlog)是 MySQL 数据库中的一种日志文件类型,它记录了对数据库执行的所有更改操作(不包括 SELECT 和 SHOW 等查询操作)。它主要用于数据恢复、复制和审计等场景。
晓纪同学
3 天前
大数据
·
hadoop
·
wpf
WPF-03 第一个WPF程序
本汇总基于官方教程“在 Visual Studio 2019 中创建第一个 WPF 应用程序”,提炼出构建一个完整 WPF 桌面应用(ExpenseIt)的项目结构、关键代码、核心概念与实现步骤。通过这个示例,您可以掌握 WPF 开发的典型流程:从项目创建、界面布局、控件使用、事件处理、样式化、数据绑定到页面导航。
xiaoyaohou11
4 天前
大数据
·
hadoop
·
spark
024、大数据技术栈概览:Hadoop、Spark与Flink
排查一个线上问题,集群凌晨ETL任务突然卡住,日志里反复报“No space left on device”。查了半天发现不是磁盘满,而是HDFS的DataNode线程池耗尽——某个MapReduce任务开了上千个Mapper,把节点拖垮了。这事儿让我重新审视团队的技术栈选型:我们是否还在用“大炮打蚊子”?今天聊聊Hadoop、Spark、Flink这三个老伙计,它们不只是技术选项,更是不同数据处理哲学的体现。
虚幻如影
4 天前
数据仓库
·
hive
·
hadoop
Hive 中“STRING类型无需显式指定长度
在 Hive 中,“字段没有长度”通常指的是部分数据类型(尤其是字符串类型)在定义时无需显式指定长度限制,这与传统关系型数据库(如 MySQL、Oracle)的行为不同。以下是具体解释:
仗剑_走天涯
4 天前
大数据
·
hadoop
·
分布式
hadoop reduce阶段 对象重用问题
Hadoop 为了优化性能,在 reduce 方法中会重用 key 和 value 对象。这意味着,在 for(Person p : values) 循环中,变量 p 始终指向同一个 Person 对象实例。
仗剑_走天涯
5 天前
大数据
·
hadoop
·
分布式
hadoop 中 yarn node -list 显示0 问题解决
jps 查看时一切正常,但是 yarn node -list 显示0页面上查看,发现有一个不健康节点查看日志,找到问题了
武子康
6 天前
大数据
·
hadoop
·
后端
大数据-263 实时数仓-Canal 增量订阅与消费原理:MySQL Binlog 数据同步实践
Canal 是一款用于 MySQL 数据库 binlog 增量订阅和消费的开源工具。它主要用于解决数据同步和分布式事务问题,支持将数据库变更同步到其他系统中,比如消息队列、大数据平台等。
仗剑_走天涯
6 天前
hadoop
·
zookeeper
zookeeper 安装与配置
准备好三台机器(hadoop101, hadoop102, hadoop103)并配置好静态IP和hosts映射,那么搭建Zookeeper集群的准备工作已经完成了一大半。
zhixingheyi_tian
6 天前
c语言
·
hadoop
·
hdfs
hdfs.c 之解析
hadoop-common-project/hadoop-common/src/main/java/org/apache/hadoop/fs/FSDataInputStream.java
武子康
7 天前
大数据
·
hadoop
·
后端
大数据-262 实时数仓 - Canal 同步数据实战指南 实时统计
阿里巴巴 B2B 公司,由于业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,从 2010 年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅、消费的业务。 Canal是用 Java 开发的基于数据库增量日志解析,提供增量数据订阅、消费的中间件。目前,Canal主要支持了 MySQL 的 Binlog 解析,解析完成后才利用 Canal Client 用来处理获得相关数据。(数据库同步需要案例的 otter 中间件,基于
武子康
8 天前
大数据
·
hadoop
·
后端
大数据-261 实时数仓-建设指南:从架构设计到业务落地 交易订单、订单产品、产品分类、商家店铺、地域组织表
实时数仓是一种数据仓库系统,区别于传统批处理数仓,它强调低延迟、高吞吐和高可用性。实时数仓能够处理流式数据或近实时的数据流,使企业能够及时监控关键指标并做出决策。
J2虾虾
9 天前
大数据
·
hadoop
·
分布式
Hadoop入门
橘子编程
10 天前
大数据
·
hive
·
hadoop
Hive大数据实战指南:从入门到精通
版本参考:Apache Hive 4.x / 3.1.x(当前主流生产版本) 官方网站:https://hive.apache.org/ 官方文档:https://cwiki.apache.org/confluence/display/Hive/Home
仗剑_走天涯
10 天前
hadoop
·
mr
hadoop 执行mr任务出现找不到主类或无法加载主类解决方案
修改这个配置文件 mapred-site.xmlok,搞定!
橘子编程
10 天前
大数据
·
hive
·
hadoop
·
apache
Apache Hadoop知识全解析
版本参考:Apache Hadoop 3.4.x(当前最新稳定版) 官方网站:https://hadoop.apache.org/ 文档整理时间:2026 年 4 月
顧棟
10 天前
大数据
·
hadoop
·
hdfs
HDFS2.X升级3.X案例与相关Issue