2024.11.12_大数据的诞生以及解决的问题

大数据的诞生以及解决的问题

视频一:大数据诞生的背景

原因:传统的数据处理架构无法满足海量的数据存储和计算需求

大数据的4v特性:数据量、速度、多样性、价值

视频三:区分离线处理场景和实时处理场景

区别:主要看处理的数据是有界还是无界,离线场景的数据,不会增加和减少


视频五:传统的大数据与现代的大数据区别(离线场景)

大数据典型应用以及架构改进:

  • 传统的数据仓库只能解决中小规模的数据存储与分析问题
  • 大数据的存储与计算:大数据的架构基本是天然分布式的 ,可扩展能力很强。(数据达到一定量级,大数据才能发挥实力)

大数据的两个典型的特点:

  • 分而治之,将数据打成小块,分散在各个节点中进行存储
  • 移动计算而非移动数据,数据不动,计算任务(代码文件)分发到每个节点,进行运算,然后汇总结果。

其他离线的应用场景,比如大数据的搜索与检索,图计算,数据挖掘和实时流处理等应用场景,以及相关技术细节。

基于大数据的实时流处理:

分布式消息队列,抗压性能很好,能够承担很多压力,如果压力过大,可以拓展新增的节点。

视频六:大数据生态全览

视频七:HDFS概述

1、HDFS简介(概念和优缺点)

HDFS核心子项目有三个:

  • hadoop 、yum、mapreduce
优点 缺点
高容错、高可用、高拓展 不适合低延迟数据访问
海量的数据存储 不支持并发写入
构建成本低安全可靠(构建在廉价的商用服务器上、提供了容错和恢复机制------数据备份三份) 不适合大量小文件存储
适合大规模离线批处理 不支持文件随机修改

2、HDFS原理

系统架构

存储机制

--block块存储;--元数据存储;

读写操作

安全模式

高可用

HDFS高可用:

HDFS文件命令:

hadoop fs

hdfs dfs

大部分用法和linux shell 类似,可通过help 查看帮助。

HDFS运维管理

相关推荐
Matrix701 小时前
HBase理论_背景特点及数据单元及与Hive对比
大数据·数据库·hbase
B站计算机毕业设计超人2 小时前
计算机毕业设计Python+大模型农产品价格预测 ARIMA自回归模型 农产品可视化 农产品爬虫 机器学习 深度学习 大数据毕业设计 Django Flask
大数据·爬虫·python·深度学习·机器学习·课程设计·数据可视化
Carl_奕然3 小时前
【大数据算法】MapReduce算法概述之:MapReduce基础模型
大数据·算法·mapreduce
Elastic 中国社区官方博客3 小时前
Elasticsearch 8.16:适用于生产的混合对话搜索和创新的向量数据量化,其性能优于乘积量化 (PQ)
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
飞翔的佩奇3 小时前
ElasticSearch:使用dsl语句同时查询出最近2小时、最近1天、最近7天、最近30天的数量
大数据·elasticsearch·搜索引擎·dsl
2301_769006784 小时前
19名专家被通报批评!国家科技重大专项评审违规!
大数据·人工智能·科技·sci·期刊·ssci
Yz98765 小时前
Kafka面试题
大数据·分布式·zookeeper·kafka·big data
爱搞技术的猫猫8 小时前
实现API接口的自动化
大数据·运维·数据库·性能优化·自动化·产品经理·1024程序员节
路由侠内网穿透8 小时前
飞牛私有云访问外网
大数据·服务器·开源软件
追光天使9 小时前
大数据相关技术的基本概念?
大数据