【Hadoop|MapReduce篇】Hadoop序列化概述

1. 什么是序列化

序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。

反序列化就是将收到的字节序列(或其他数据传输协议)或者磁盘的持久化数据,转换成内存中的对象。

2. 为什么要序列化

一般来说,"活的"对象只生存在内存中,关机断电就没有了。而且活的对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然后序列化可以存储"活的"对象,可以将"活的"对象发送到远程计算机。

3. 为什么不用java序列化

java序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,Header,继承体系等),不便于在网络中高效传输。而hadoop的序列化只是会附带简单的校验,紧凑存储空间少,快速传输速度块。互操作性好。

相关推荐
SelectDB15 小时前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生
WhoAmI15 小时前
MapReduce框架原理解析一:InputFormat
大数据·hadoop
WhoAmI15 小时前
MapReduce框架原理解析三:OutputFormat
大数据·hadoop
WhoAmI15 小时前
MapReduce框架原理解析二:Shuffle
大数据·hadoop
大大大大晴天2 天前
Hudi技术内幕:Key Generation原理与实践
大数据
得物技术5 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子5 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
大树886 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
大志哥1236 天前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch
果丁智能6 天前
物联网智能锁赋能集中式住宿:身份核验与远程权限管控的全链路技术实践
大数据·人工智能·物联网·智能家居