技术栈
hadoop
武子康
7 小时前
大数据
·
hadoop
·
后端
大数据-264 实时数仓-MySQL Binlog配置详解:从原理到实践|数据恢复与主从复制实战
MySQL 的二进制日志(Binary Log,简称 binlog)是 MySQL 数据库中的一种日志文件类型,它记录了对数据库执行的所有更改操作(不包括 SELECT 和 SHOW 等查询操作)。它主要用于数据恢复、复制和审计等场景。
武子康
7 小时前
大数据
·
hadoop
·
后端
大数据-265 实时数仓-Canal MySQL Binlog配置详解:从原理到实践|数据恢复与主从复制实战
MySQL 的二进制日志(Binary Log,简称 binlog)是 MySQL 数据库中的一种日志文件类型,它记录了对数据库执行的所有更改操作(不包括 SELECT 和 SHOW 等查询操作)。它主要用于数据恢复、复制和审计等场景。
晓纪同学
7 小时前
大数据
·
hadoop
·
wpf
WPF-03 第一个WPF程序
本汇总基于官方教程“在 Visual Studio 2019 中创建第一个 WPF 应用程序”,提炼出构建一个完整 WPF 桌面应用(ExpenseIt)的项目结构、关键代码、核心概念与实现步骤。通过这个示例,您可以掌握 WPF 开发的典型流程:从项目创建、界面布局、控件使用、事件处理、样式化、数据绑定到页面导航。
xiaoyaohou11
15 小时前
大数据
·
hadoop
·
spark
024、大数据技术栈概览:Hadoop、Spark与Flink
排查一个线上问题,集群凌晨ETL任务突然卡住,日志里反复报“No space left on device”。查了半天发现不是磁盘满,而是HDFS的DataNode线程池耗尽——某个MapReduce任务开了上千个Mapper,把节点拖垮了。这事儿让我重新审视团队的技术栈选型:我们是否还在用“大炮打蚊子”?今天聊聊Hadoop、Spark、Flink这三个老伙计,它们不只是技术选项,更是不同数据处理哲学的体现。
虚幻如影
17 小时前
数据仓库
·
hive
·
hadoop
Hive 中“STRING类型无需显式指定长度
在 Hive 中,“字段没有长度”通常指的是部分数据类型(尤其是字符串类型)在定义时无需显式指定长度限制,这与传统关系型数据库(如 MySQL、Oracle)的行为不同。以下是具体解释:
仗剑_走天涯
1 天前
大数据
·
hadoop
·
分布式
hadoop reduce阶段 对象重用问题
Hadoop 为了优化性能,在 reduce 方法中会重用 key 和 value 对象。这意味着,在 for(Person p : values) 循环中,变量 p 始终指向同一个 Person 对象实例。
仗剑_走天涯
1 天前
大数据
·
hadoop
·
分布式
hadoop 中 yarn node -list 显示0 问题解决
jps 查看时一切正常,但是 yarn node -list 显示0页面上查看,发现有一个不健康节点查看日志,找到问题了
武子康
2 天前
大数据
·
hadoop
·
后端
大数据-263 实时数仓-Canal 增量订阅与消费原理:MySQL Binlog 数据同步实践
Canal 是一款用于 MySQL 数据库 binlog 增量订阅和消费的开源工具。它主要用于解决数据同步和分布式事务问题,支持将数据库变更同步到其他系统中,比如消息队列、大数据平台等。
仗剑_走天涯
3 天前
hadoop
·
zookeeper
zookeeper 安装与配置
准备好三台机器(hadoop101, hadoop102, hadoop103)并配置好静态IP和hosts映射,那么搭建Zookeeper集群的准备工作已经完成了一大半。
zhixingheyi_tian
3 天前
c语言
·
hadoop
·
hdfs
hdfs.c 之解析
hadoop-common-project/hadoop-common/src/main/java/org/apache/hadoop/fs/FSDataInputStream.java
武子康
4 天前
大数据
·
hadoop
·
后端
大数据-262 实时数仓 - Canal 同步数据实战指南 实时统计
阿里巴巴 B2B 公司,由于业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,从 2010 年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅、消费的业务。 Canal是用 Java 开发的基于数据库增量日志解析,提供增量数据订阅、消费的中间件。目前,Canal主要支持了 MySQL 的 Binlog 解析,解析完成后才利用 Canal Client 用来处理获得相关数据。(数据库同步需要案例的 otter 中间件,基于
武子康
5 天前
大数据
·
hadoop
·
后端
大数据-261 实时数仓-建设指南:从架构设计到业务落地 交易订单、订单产品、产品分类、商家店铺、地域组织表
实时数仓是一种数据仓库系统,区别于传统批处理数仓,它强调低延迟、高吞吐和高可用性。实时数仓能够处理流式数据或近实时的数据流,使企业能够及时监控关键指标并做出决策。
J2虾虾
6 天前
大数据
·
hadoop
·
分布式
Hadoop入门
橘子编程
6 天前
大数据
·
hive
·
hadoop
Hive大数据实战指南:从入门到精通
版本参考:Apache Hive 4.x / 3.1.x(当前主流生产版本) 官方网站:https://hive.apache.org/ 官方文档:https://cwiki.apache.org/confluence/display/Hive/Home
仗剑_走天涯
7 天前
hadoop
·
mr
hadoop 执行mr任务出现找不到主类或无法加载主类解决方案
修改这个配置文件 mapred-site.xmlok,搞定!
橘子编程
7 天前
大数据
·
hive
·
hadoop
·
apache
Apache Hadoop知识全解析
版本参考:Apache Hadoop 3.4.x(当前最新稳定版) 官方网站:https://hadoop.apache.org/ 文档整理时间:2026 年 4 月
顧棟
7 天前
大数据
·
hadoop
·
hdfs
HDFS2.X升级3.X案例与相关Issue
小跘an吻纸
8 天前
linux
·
运维
·
hadoop
linux系统搭建hadoop环境
Linux系统搭建Hadoop环境+HBase+Sqoop常用命令(新手实操版)前言:本文针对新手,整理了Linux(Ubuntu 16 Server)系统下Hadoop环境搭建的核心操作,以及HBase、Sqoop的常用命令,包含SSH免密、Java环境、网络配置等基础操作,还有实操中常见问题解决,全程命令可直接复制使用,避开新手踩坑点~
源码之家
8 天前
人工智能
·
hadoop
·
python
·
算法
·
数据分析
·
flask
·
课程设计
计算机毕业设计:Python汽车销量智能分析与预测系统 Flask框架 scikit-learn 可视化 requests爬虫 AI 大模型(建议收藏)✅
博主介绍:✌全网粉丝50W+,前互联网大厂软件研发、集结硕博英豪成立软件开发工作室,专注于计算机相关专业项目实战6年之久,累计开发项目作品上万套。凭借丰富的经验与专业实力,已帮助成千上万的学生顺利毕业,选择我们,就是选择放心、选择安心毕业✌ > 🍅想要获取完整文章或者源码,或者代做,拉到文章底部即可与我联系了。🍅
极光代码工作室
8 天前
大数据
·
hadoop
·
python
·
数据分析
·
数据可视化
基于Spark的用户行为分析系统设计
随着电子商务、在线教育、短视频平台等互联网应用的爆发式增长,用户在平台上的点击、浏览、搜索、加购、下单、评价等行为数据呈指数级增长。传统基于关系型数据库与单机计算框架(如Python Pandas、MySQL)的分析方式,在面对日均TB级用户行为日志时,面临吞吐量低、延迟高、扩展性差、容错能力弱等瓶颈。本课题设计并实现了一套基于Apache Spark的分布式用户行为分析系统,聚焦于“会话识别—路径分析—漏斗转化—用户分群—行为预测”五大核心分析场景。系统采用Lambda架构融合批处理与实时流处理能力,以