hadoop权威指南第四版

第一部分 HaDOOP基础知识

1.1 面临的问题

存储越来越大,读写跟不上。

并行读多个磁盘。

问题1 磁盘损坏 -- 备份数据HDFS

问题2 读取多个磁盘用于分析,数据容易出错 --MR 编程模型

1.2 衍生品

1 在线访问的组件是hbase 。一种使用hdfs底层存储的模型。支持单行的读写,对数据块读写也是不错的。

2 yarn 资源管理系统。允许其他分布式系统对hadoop集群数据运行。

迭代处理(iterative processing) spark.例如机器学习算法,需要很多迭代。mr不支持。sparK 可基于内存计算。

3 流处理 sTORM SPARKSTEMING

4 SEARCH 搜索 solr (Solr它是一种开放源码的、基于Lucene Java 的搜索服务器) 。

1.3 为什么不能用配有大量硬盘的数据库进行大规模分析?为什么需要Hadoop?

因为计算机硬盘的发展趋势是:寻址时间的提升远远不如传输速率的提升,如果访问包含大量地址的数据,读取就会消耗很多时间,

RDBMS B树是传统的数据库 ,适合更新一小部分数据。

相关推荐
七夜zippoe21 分钟前
OpenClaw 子代理(Subagent)机制详解
大数据·人工智能·subagent·openclaw·子代理
财经三剑客30 分钟前
长安汽车3月销量超27万辆 海外及新能源环比大幅增长
大数据·人工智能·汽车
ClouGence1 小时前
不用搭复杂系统,也能做跨地域数据迁移?
大数据·数据库·saas
xixixi777771 小时前
Token 经济引爆 AI 产业加速:从百模大战到百虾大战,谁在定义 2026 的中国 AI?
大数据·人工智能·机器学习·ai·大模型·算力·通信
嵌入式老牛1 小时前
SST专题3-1 基于光分路器的MMC分布式控制系统架构(二)
分布式·电力电子·mmc·固态变压器
Gent_倪1 小时前
数据建模概念解析
大数据·数据建模
永霖光电_UVLED1 小时前
Polar Light 获得了欧盟Eurostars计划的110万欧元(€1.1m)资助
大数据·人工智能·物联网·汽车·娱乐
琪伦的工具库1 小时前
批量excel文件删除列工具使用说明:按列号或列名批量删除/保留,支持预览与大文件优化
大数据·excel
刘~浪地球2 小时前
消息队列--RabbitMQ 高可用集群部署
分布式·rabbitmq·ruby
武子康2 小时前
大数据-266 实时数仓-Canal + Kafka 实现 MySQL 数据库变更实时捕获
大数据·后端·kafka