hadoop权威指南第四版

第一部分 HaDOOP基础知识

1.1 面临的问题

存储越来越大,读写跟不上。

并行读多个磁盘。

问题1 磁盘损坏 -- 备份数据HDFS

问题2 读取多个磁盘用于分析,数据容易出错 --MR 编程模型

1.2 衍生品

1 在线访问的组件是hbase 。一种使用hdfs底层存储的模型。支持单行的读写,对数据块读写也是不错的。

2 yarn 资源管理系统。允许其他分布式系统对hadoop集群数据运行。

迭代处理(iterative processing) spark.例如机器学习算法,需要很多迭代。mr不支持。sparK 可基于内存计算。

3 流处理 sTORM SPARKSTEMING

4 SEARCH 搜索 solr (Solr它是一种开放源码的、基于Lucene Java 的搜索服务器) 。

1.3 为什么不能用配有大量硬盘的数据库进行大规模分析?为什么需要Hadoop?

因为计算机硬盘的发展趋势是:寻址时间的提升远远不如传输速率的提升,如果访问包含大量地址的数据,读取就会消耗很多时间,

RDBMS B树是传统的数据库 ,适合更新一小部分数据。

相关推荐
TPBoreas9 小时前
springboot3.5比2.x做了哪儿些提升
数据仓库·hive·hadoop
workflower14 小时前
使用大语言模型处理用户需求
大数据·人工智能·设计模式·重构·动态规划
AC赳赳老秦18 小时前
OpenClaw+Power Apps 实战:自动生成 Power Apps 应用、连接 Excel 数据源
大数据·开发语言·python·serverless·excel·deepseek·openclaw
JiaHao汤18 小时前
分布式事务方案全景:从理论到 Seata 落地
java·分布式·spring·spring cloud
keke.shengfengpolang18 小时前
数据科学与大数据技术和大数据管理与应用怎么抉择?
大数据
产业家19 小时前
AI长跑,来到了腾讯的主场
大数据·人工智能
小赖同学啊19 小时前
可信数据空间中异构数据处理与安全保障方案
大数据
HavenlonLabs19 小时前
重塑链上未来的隐形基石:长期主义下的生态演进
大数据·人工智能·安全·区块链
南部余额20 小时前
RabbitMQ 进阶:延迟队列完全指南
java·分布式·spring·rabbitmq
huangdong_20 小时前
京东商品图片视频批量下载与m3u8视频合并技术完整实现方案
大数据·前端·数据库