【Hadoop|MapReduce篇】Hadoop序列化概述

1. 什么是序列化

序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。

反序列化就是将收到的字节序列(或其他数据传输协议)或者磁盘的持久化数据,转换成内存中的对象。

2. 为什么要序列化

一般来说,"活的"对象只生存在内存中,关机断电就没有了。而且活的对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然后序列化可以存储"活的"对象,可以将"活的"对象发送到远程计算机。

3. 为什么不用java序列化

java序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,Header,继承体系等),不便于在网络中高效传输。而hadoop的序列化只是会附带简单的校验,紧凑存储空间少,快速传输速度块。互操作性好。

相关推荐
鸿乃江边鸟1 小时前
Flink中的 BinaryRowData 以及大小端
大数据·sql·flink
MicroTech20252 小时前
微算法科技(NASDAQ: MLGO)采用量子相位估计(QPE)方法,增强量子神经网络训练
大数据·算法·量子计算
b***25112 小时前
深圳比斯特|多维度分选:圆柱电池品质管控的自动化解决方案
大数据·人工智能
Agatha方艺璇2 小时前
Hive基础简介
数据仓库·hive·hadoop
Flink_China2 小时前
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
大数据·flink
jiedaodezhuti4 小时前
Flink Checkpoint失败问题分析与解决方案
大数据·flink
海豚调度4 小时前
(二)一文读懂数仓设计的核心规范:从层次、类型到生命周期
大数据·数仓·技术规范
在未来等你4 小时前
Elasticsearch面试精讲 Day 15:索引别名与零停机更新
大数据·分布式·elasticsearch·搜索引擎·面试
IT研究室5 小时前
大数据毕业设计选题推荐-基于大数据的国内旅游景点游客数据分析系统-Spark-Hadoop-Bigdata
大数据·hadoop·spark·毕业设计·源码·数据可视化·bigdata
Lx3525 小时前
YARN资源调度优化:最大化集群利用率
大数据·hadoop