【Hadoop|MapReduce篇】Hadoop序列化概述

1. 什么是序列化

序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。

反序列化就是将收到的字节序列(或其他数据传输协议)或者磁盘的持久化数据,转换成内存中的对象。

2. 为什么要序列化

一般来说,"活的"对象只生存在内存中,关机断电就没有了。而且活的对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然后序列化可以存储"活的"对象,可以将"活的"对象发送到远程计算机。

3. 为什么不用java序列化

java序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,Header,继承体系等),不便于在网络中高效传输。而hadoop的序列化只是会附带简单的校验,紧凑存储空间少,快速传输速度块。互操作性好。

相关推荐
今天我又学废了41 分钟前
Spark,SparkSQL操作Mysql, 创建数据库和表
大数据·mysql·spark
yyywoaini~1 小时前
序列化和反序列化hadoop实现
hadoop·eclipse·php
薇晶晶2 小时前
hadoop中spark基本介绍
hadoop
杰克逊的日记2 小时前
Flink运维要点
大数据·运维·flink
hnlucky4 小时前
Windows 上安装下载并配置 Apache Maven
java·hadoop·windows·学习·maven·apache
markuszhang6 小时前
Elasticsearch 官网阅读之 Term-level Queries
大数据·elasticsearch·搜索引擎
Hello World......7 小时前
Java求职面试:从核心技术到大数据与AI的场景应用
大数据·java面试·技术栈·互联网大厂·ai服务
python算法(魔法师版)9 小时前
.NET NativeAOT 指南
java·大数据·linux·jvm·.net
星川皆无恙9 小时前
大模型学习:Deepseek+dify零成本部署本地运行实用教程(超级详细!建议收藏)
大数据·人工智能·学习·语言模型·架构
L耀早睡10 小时前
mapreduce打包运行
大数据·前端·spark·mapreduce