hadoop权威指南第四版

第一部分 HaDOOP基础知识

1.1 面临的问题

存储越来越大,读写跟不上。

并行读多个磁盘。

问题1 磁盘损坏 -- 备份数据HDFS

问题2 读取多个磁盘用于分析,数据容易出错 --MR 编程模型

1.2 衍生品

1 在线访问的组件是hbase 。一种使用hdfs底层存储的模型。支持单行的读写,对数据块读写也是不错的。

2 yarn 资源管理系统。允许其他分布式系统对hadoop集群数据运行。

迭代处理(iterative processing) spark.例如机器学习算法,需要很多迭代。mr不支持。sparK 可基于内存计算。

3 流处理 sTORM SPARKSTEMING

4 SEARCH 搜索 solr (Solr它是一种开放源码的、基于Lucene Java 的搜索服务器) 。

1.3 为什么不能用配有大量硬盘的数据库进行大规模分析?为什么需要Hadoop?

因为计算机硬盘的发展趋势是:寻址时间的提升远远不如传输速率的提升,如果访问包含大量地址的数据,读取就会消耗很多时间,

RDBMS B树是传统的数据库 ,适合更新一小部分数据。

相关推荐
Archy_Wang_14 分钟前
ASP.NET CORE 实现微服务 - 分布式事务 - 2PC、3PC、TCC
分布式·微服务·架构
圣圣不爱学习26 分钟前
K8s Pod OOMKilled,监控却显示内存资源并未打满
大数据·容器·kubernetes
牛牛木有坏心眼(大数据进阶)1 小时前
MapReduce完整工作流程
大数据·mapreduce
踏歌的Java Daily2 小时前
Windows安装ES单机版设置密码
大数据·windows·elasticsearch
抓哇小菜鸡2 小时前
Elasticsearch(四)
大数据·elasticsearch·搜索引擎
FF在路上2 小时前
RabbitMQ-SpringAMQP使用介绍
分布式·rabbitmq
DolphinScheduler社区3 小时前
DolphinScheduler自身容错导致的服务器持续崩溃重大问题的排查与解决
大数据
锋火连天3 小时前
Flink提交任务通过Kerberos认证
大数据·flink
明达技术3 小时前
MR30分布式 IO 在物流分拣线的卓越应用
分布式