2024.11.12_大数据的诞生以及解决的问题

视频一：大数据诞生的背景

大数据的4v特性：数据量、速度、多样性、价值

区别：主要看处理的数据是有界还是无界，离线场景的数据，不会增加和减少

大数据典型应用以及架构改进：

其他离线的应用场景，比如大数据的搜索与检索，图计算，数据挖掘和实时流处理等应用场景，以及相关技术细节。

基于大数据的实时流处理：

分布式消息队列，抗压性能很好，能够承担很多压力，如果压力过大，可以拓展新增的节点。

HDFS核心子项目有三个：

优点	缺点
高容错、高可用、高拓展	不适合低延迟数据访问
海量的数据存储	不支持并发写入
构建成本低安全可靠（构建在廉价的商用服务器上、提供了容错和恢复机制------数据备份三份）	不适合大量小文件存储
适合大规模离线批处理	不支持文件随机修改

系统架构

存储机制

--block块存储；--元数据存储；

读写操作

安全模式

高可用

HDFS高可用：

HDFS文件命令：

hadoop fs

hdfs dfs

大部分用法和linux shell 类似，可通过help 查看帮助。

HDFS运维管理