Hadoop学习--第一章 Hello大数据分布式

第一章 Hello大数据分布式

数据导论

什么是数据?

数据:一种可以被鉴别的对客观事件进行记录的符号。

简单来说就是:对人类的行为及产生的事件的一种记录

数据的价值

对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律

比如,购物的订单记录(数据)可以帮助平台更好的了解消费者,从而促进交易。

大数据技术栈

当下时代已经是数据的时代,数据非常重要并且蕴含巨大的价值。

大数据诞生

大数据的诞生是跟随着互联网的发展的

当全球互联网逐步建成(2000年左右),各大企业或政府单位拥有了海量的数据亟待处理。

基于这个前提逐步诞生了以分布式(以数量战胜数量,多台服务器处理海量数据) 的形式(即多台服务器集群)完成海量数据处理的处理方式,并逐步发展成现代大数据体系。

分布式处理技术

Apache Hadoop

Apache Hadoop对大数据体系的意义

第一款获得业界普遍认可的开源分布式解决方案

让各类企业都有可用的企业级开源分布式解决方案

一定程度上催生出了众多的大数据体系技术栈

从Hadoop开始(2008年左右)大数据开始蓬勃发展

大数据概述

什么是大数据?

大数据特征

从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果

大数据核心工作

大数据软件生态

数据存储

数据计算

数据传输

Apache是什么?

Apache(Apache软件基金会)是一个专门为支持开源软件项目而办的非营利性组织,在它所支持的Apache项目与子项目中,所发行的软件产品都遵循Apache许可证(Apache License)。

Apache Hadoop概述

什么是Hadoop?

可以实现大数据核心工作的存储和计算(另一个是传输)

为什么学习Hadoop?

Hadoop的功能

Hadoop发展

Hadoop发行版本

相关推荐
霖霖总总19 分钟前
[Redis小技巧29]从 Setnx 到 Redlock:Redis 分布式锁的演进之路与生产级实践
数据库·redis·分布式
七夜zippoe21 分钟前
联邦学习实战:隐私保护的分布式机器学习——联邦平均与差分隐私
分布式·python·机器学习·差分隐私·联邦平均
传感器与混合集成电路23 分钟前
从拉曼散射到相位解调:分布式光纤测井技术解析
分布式·架构
2601_9553631526 分钟前
B端企业拓客:如何在精准度与成本之间找到真正平衡?氪迹科技法人股东号码核验系统,阶梯式价格
大数据·人工智能
小荟荟26 分钟前
数据资产估值技术探秘:荟宸多源异构数据融合引擎介绍
大数据
chatexcel32 分钟前
ChatExcel AIPPT新功能:自定义模板上传,动画完整导出,单页可编辑
大数据·人工智能
Hello.Reader44 分钟前
Pandas API on Spark 配置选项系统、默认索引与性能调优
大数据·spark·pandas
腾讯云大数据1 小时前
存算分离,性能跃升:盖雅工场TCHouse-D 3.0升级实现查询效率再提升60%
大数据·腾讯云
武子康1 小时前
大数据-257 离线数仓 - 数据质量监控详解:从理论到Apache Griffin实践
大数据·hadoop·后端
源码之家1 小时前
计算机毕业设计:Python二手车交易价格预测分析平台 Django框架 随机森林 可视化 数据分析 汽车 车辆 大数据 hadoop(建议收藏)✅
大数据·爬虫·python·机器学习·django·汽车·课程设计