【Hadoop|MapReduce篇】Hadoop序列化概述

1. 什么是序列化

序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。

反序列化就是将收到的字节序列(或其他数据传输协议)或者磁盘的持久化数据,转换成内存中的对象。

2. 为什么要序列化

一般来说,"活的"对象只生存在内存中,关机断电就没有了。而且活的对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然后序列化可以存储"活的"对象,可以将"活的"对象发送到远程计算机。

3. 为什么不用java序列化

java序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,Header,继承体系等),不便于在网络中高效传输。而hadoop的序列化只是会附带简单的校验,紧凑存储空间少,快速传输速度块。互操作性好。

相关推荐
AWS官方合作商4 小时前
亚马逊云科技 Amazon Pinpoint 解决方案:构建智能全渠道互动平台,重塑用户增长体验
大数据·科技·aws
无人赴约的cat5 小时前
【20250607接单】Spark + Scala + IntelliJ 项目的开发环境配置从零教学
大数据·spark·scala
£菜鸟也有梦6 小时前
Flume进阶之路:从基础到高阶的飞跃
大数据·hive·hadoop·flume
lcw_lance7 小时前
智慧园区综合运营管理平台(SmartPark)和安全EHS平台的分工与协作
大数据·人工智能
阿里云大数据AI技术9 小时前
从MaxCompute到Milvus:通过DataWorks进行数据同步,实现海量数据高效相似性检索
大数据·数据库·数据分析
嫄码9 小时前
kafka快速入门与知识汇总
java·大数据·分布式·中间件·kafka·linq
白鲸开源10 小时前
如何将SeaTunnel MySQL-CDC与Databend 高效整合?格式与方案全解析
大数据
深兰科技10 小时前
南昌市新建区委书记陈奕蒙会见深兰科技集团董事长陈海波一行
大数据·人工智能·ai应用·深兰科技·陈奕蒙
Detachym10 小时前
CentOS7下的大数据NoSQL数据库HBase集群部署
大数据·nosql·hbase
zh_1999510 小时前
Spark 之 入门讲解详细版(1)
大数据·spark·mapreduce·数据库架构·etl·涛思数据·odps