hadoop权威指南第四版

第一部分 HaDOOP基础知识

1.1 面临的问题

存储越来越大,读写跟不上。

并行读多个磁盘。

问题1 磁盘损坏 -- 备份数据HDFS

问题2 读取多个磁盘用于分析,数据容易出错 --MR 编程模型

1.2 衍生品

1 在线访问的组件是hbase 。一种使用hdfs底层存储的模型。支持单行的读写,对数据块读写也是不错的。

2 yarn 资源管理系统。允许其他分布式系统对hadoop集群数据运行。

迭代处理(iterative processing) spark.例如机器学习算法,需要很多迭代。mr不支持。sparK 可基于内存计算。

3 流处理 sTORM SPARKSTEMING

4 SEARCH 搜索 solr (Solr它是一种开放源码的、基于Lucene Java 的搜索服务器) 。

1.3 为什么不能用配有大量硬盘的数据库进行大规模分析?为什么需要Hadoop?

因为计算机硬盘的发展趋势是:寻址时间的提升远远不如传输速率的提升,如果访问包含大量地址的数据,读取就会消耗很多时间,

RDBMS B树是传统的数据库 ,适合更新一小部分数据。

相关推荐
程序猿追28 分钟前
在 HarmonyOS 模拟器上种出斐波那契螺旋线
大数据·人工智能·microsoft·华为·harmonyos
霸道流氓气质2 小时前
Redisson 看门狗机制详解:分布式锁如何自动续期防止提前过期
分布式·redisson·看门狗
玄米乌龙茶1232 小时前
LLM成长笔记(十二):质量评估与可观测性
大数据·人工智能·笔记
oo哦哦3 小时前
星链引擎矩阵系统深度解析:AI驱动下的全域智能营销SaaS新范式
大数据·人工智能·矩阵
oo哦哦3 小时前
轻量化内容中台如何破解企业矩阵运营困局?以星链引擎为例的技术解析
大数据·人工智能·矩阵
weixin_408318045 小时前
教育行业直播系统搭建指南
java·大数据·数据库
呆码科技5 小时前
适配多业态需求:零售、批发、跨境商贸的物流软件
大数据
东北甜妹5 小时前
Prometheus
大数据
小宋10215 小时前
Tycoon AI 新手快速上手指南
java·大数据·人工智能
lizhihai_996 小时前
股市学习心得-PCB材料、制造、设备与耗材
大数据·人工智能·制造