hadoop权威指南第四版

第一部分 HaDOOP基础知识

1.1 面临的问题

存储越来越大,读写跟不上。

并行读多个磁盘。

问题1 磁盘损坏 -- 备份数据HDFS

问题2 读取多个磁盘用于分析,数据容易出错 --MR 编程模型

1.2 衍生品

1 在线访问的组件是hbase 。一种使用hdfs底层存储的模型。支持单行的读写,对数据块读写也是不错的。

2 yarn 资源管理系统。允许其他分布式系统对hadoop集群数据运行。

迭代处理(iterative processing) spark.例如机器学习算法,需要很多迭代。mr不支持。sparK 可基于内存计算。

3 流处理 sTORM SPARKSTEMING

4 SEARCH 搜索 solr (Solr它是一种开放源码的、基于Lucene Java 的搜索服务器) 。

1.3 为什么不能用配有大量硬盘的数据库进行大规模分析?为什么需要Hadoop?

因为计算机硬盘的发展趋势是:寻址时间的提升远远不如传输速率的提升,如果访问包含大量地址的数据,读取就会消耗很多时间,

RDBMS B树是传统的数据库 ,适合更新一小部分数据。

相关推荐
优秀的颜24 分钟前
计算机基础知识(第五篇)
java·开发语言·分布式
mazhafener1236 小时前
智慧照明:集中控制器、单双灯控制器与智慧灯杆网关的高效协同
大数据
打码人的日常分享6 小时前
物联网智慧医院建设方案(PPT)
大数据·物联网·架构·流程图·智慧城市·制造
棠十一7 小时前
Rabbitmq
分布式·docker·rabbitmq
Lansonli8 小时前
大数据Spark(六十一):Spark基于Standalone提交任务流程
大数据·分布式·spark
Rverdoser9 小时前
电脑硬盘分几个区好
大数据
傻啦嘿哟9 小时前
Python 数据分析与可视化实战:从数据清洗到图表呈现
大数据·数据库·人工智能
Theodore_102210 小时前
大数据(2) 大数据处理架构Hadoop
大数据·服务器·hadoop·分布式·ubuntu·架构
簌簌曌10 小时前
CentOS7 + JDK8 虚拟机安装与 Hadoop + Spark 集群搭建实践
大数据·hadoop·spark
Theodore_102212 小时前
大数据(1) 大数据概述
大数据·hadoop·数据分析·spark·hbase