【Hadoop|MapReduce篇】Hadoop序列化概述

1. 什么是序列化

序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。

反序列化就是将收到的字节序列(或其他数据传输协议)或者磁盘的持久化数据,转换成内存中的对象。

2. 为什么要序列化

一般来说,"活的"对象只生存在内存中,关机断电就没有了。而且活的对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然后序列化可以存储"活的"对象,可以将"活的"对象发送到远程计算机。

3. 为什么不用java序列化

java序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,Header,继承体系等),不便于在网络中高效传输。而hadoop的序列化只是会附带简单的校验,紧凑存储空间少,快速传输速度块。互操作性好。

相关推荐
Kookoos12 分钟前
ABP vNext + Spark on Hadoop:实时流处理与微服务融合
hadoop·微服务·spark·.net·abp vnext
是梦终空18 分钟前
JAVA毕业设计227—基于SpringBoot+hadoop+spark+Vue的大数据房屋维修系统(源代码+数据库)
hadoop·spring boot·spark·vue·毕业设计·源代码·大数据房屋维修系统
顽强卖力2 小时前
数据分析六部曲?
大数据·数据挖掘·数据分析
AWS官方合作商7 小时前
亚马逊云科技 Amazon Pinpoint 解决方案:构建智能全渠道互动平台,重塑用户增长体验
大数据·科技·aws
无人赴约的cat9 小时前
【20250607接单】Spark + Scala + IntelliJ 项目的开发环境配置从零教学
大数据·spark·scala
£菜鸟也有梦9 小时前
Flume进阶之路:从基础到高阶的飞跃
大数据·hive·hadoop·flume
lcw_lance10 小时前
智慧园区综合运营管理平台(SmartPark)和安全EHS平台的分工与协作
大数据·人工智能
阿里云大数据AI技术13 小时前
从MaxCompute到Milvus:通过DataWorks进行数据同步,实现海量数据高效相似性检索
大数据·数据库·数据分析
嫄码13 小时前
kafka快速入门与知识汇总
java·大数据·分布式·中间件·kafka·linq
白鲸开源13 小时前
如何将SeaTunnel MySQL-CDC与Databend 高效整合?格式与方案全解析
大数据