新书速览|Hadoop与Spark大数据全景解析(视频教学版)

《Hadoop与Spark大数据全景解析:视频教学版》

01

本书内容

《Hadoop与Spark大数据全景解析:视频教学版》结合作者多年在大数据领域的开发实践经验 ,采用"理论+实战"的形式,以大量实例全面介绍Hadoop和Spark 的基础知识及其高级应用。作者将丰富的教学经验,融入为读者精心录制的配套教学视频中,并提供了书中所有实例的源码,方便读者学习和实践。

《Hadoop与Spark大数据全景解析:视频教学版》分为4篇,共12章。第1篇(第1、2章)准备篇,主要介绍Hadoop和Spark的基本概念,以及如何快速搭建Hadoop和Spark的学习环境。第2篇(第3~6章)入门篇,涵盖Hadoop的高级特性、Spark的基础知识与高级特性,以及大数据安全。第3篇(第7~10章)进阶篇,深入讲解数据采集与清洗、数据存储与管理、数据分析与挖掘以及实时数据处理。第4篇(第11、12章)项目实战篇,通过Hadoop和Spark实现一站式数据分析系统设计,以及ChatGPT赋能Hadoop与Spark大数据分析的项目实战。

02

本书作者

邓 杰

计算机科学与技术专业学士,目前就职于vivo移动互联网公司,负责平台方向及A1大模型应用方向的开发。对Hadoop、Spark、Hive、Flink、Kafka等大数据生态组件有着深入的研究。AI大模型技术的实践者和研究者,撰写过多篇高质量Al和Hadoop与Spark相关技术的文章,著有《深入理解Hive:从基础到高阶》《Kafka并不难学》和《Hadoop大数据挖掘从入门到进阶实战》等书籍。

03

本书读者

《Hadoop与Spark大数据全景解析:视频教学版》内容全面、结构清晰、案例丰富,既适合初学者自学 ,也适合开发者阅读,还可作为培训机构和高校相关课程的教学参考书

04

本书目录

第1篇 准 备

第1章 了解Hadoop和Spark2

1.1 什么是大数据处理2

1.1.1 大数据概述2

1.1.2 数据处理的挑战4

1.2 为什么选择Hadoop和Spark5

1.2.1 Hadoop的优势5

1.2.2 Spark的优势6

1.3 典型的大数据应用案例8

1.3.1 行业应用案例8

1.3.2 成功案例分析10

1.4 Hadoop和Spark的设计理念12

1.4.1 设计初衷12

1.4.2 解读Hadoop和Spark的特性13

1.5 本章小结15

第2章 快速搭建Hadoop和Spark学习环境16

2.1 Hadoop简介16

2.1.1 起源与发展16

2.1.2 核心组件介绍17

2.2 基础环境的安装与配置19

2.2.1 基础软件下载19

2.2.2 实例:Linux操作系统的安装与配置20

2.2.3 实例:SSH的安装与配置22

2.2.4 实例:Java运行环境的安装与配置24

2.2.5 实例:安装与配置Zookeeper26

2.3 Hadoop和Spark环境搭建30

2.3.1 实例:Hadoop环境搭建31

2.3.2 实例:Spark环境搭建46

2.4 Hadoop MapReduce基础48

2.4.1 MapReduce编程模型之Map阶段48

2.4.2 MapReduce编程模型之Reduce阶段49

2.5 本章小结51

2.6 习题51

第2篇 入 门

第3章 Hadoop高级特性54

3.1 HDFS架构深度解析54

3.1.1 HDFS架构54

3.1.2 数据块管理56

3.1.3 命名空间57

3.1.4 数据一致性58

3.2 YARN调度器与资源管理60

3.2.1 YARN基本原理60

3.2.2 资源分配策略62

3.3 Hadoop数据安全性63

3.3.1 安全策略概述64

3.3.2 Kerberos认证65

3.4 Hadoop性能调优68

3.4.1 集群性能监控68

3.4.2 参数调优指南69

3.5 Hadoop实战案例71

3.5.1 实际问题解决71

3.5.2 最佳实践分享73

3.6 本章小结77

3.7 习题77

第4章 Spark基础特性78

4.1 Spark简介78

4.1.1 Spark发展历程78

4.1.2 Spark核心思想79

4.2 Spark核心组件80

4.2.1 Spark Core81

4.2.2 Spark SQL83

4.3 Spark基本数据结构85

4.3.1 RDD概述85

4.3.2 DataFrame和DataSet介绍88

4.4 内存管理96

4.4.1 内存分配策略96

4.4.2 内存回收机制101

4.5 本章小结104

4.6 习题104

第5章 Spark高级特性105

5.1 Spark SQL与结构化数据处理105

5.1.1 使用Spark SQL进行数据查询和分析105

5.1.2 Spark SQL数据类型与函数使用109

5.2 Spark Streaming与实时数据处理117

5.2.1 Spark Streaming的基本概念与架构117

5.2.2 Spark Streaming与Kafka的集成与应用122

5.3 Spark MLlib与机器学习124

5.3.1 Spark MLlib的常用算法与应用场景125

5.3.2 Spark MLlib与TensorFlow的比较与集成132

5.4 Spark GraphX与图计算134

5.4.1 图计算的基本概念与Spark GraphX的架构134

5.4.2 Spark GraphX的常用算法与图数据处理140

5.5 本章小结147

5.6 习题147

第6章 大数据安全148

6.1 大数据安全性挑战148

6.1.1 大数据安全的重要性148

6.1.2 Hadoop与Spark安全特性149

6.2 Hadoop安全架构151

6.2.1 Hadoop安全模型152

6.2.2 HDFS与YARN的安全机制153

6.3 Spark安全实践155

6.3.1 Spark的安全配置155

6.3.2 Spark应用程序的访问控制158

6.4 数据加密与隐私保护164

6.5 身份认证与授权174

6.6 本章小结176

6.7 习题176

第3篇 进 阶

第7章 数据采集与清洗178

7.1 Hadoop数据采集178

7.1.1 数据源与采集工具178

7.1.2 Hadoop数据采集流程与案例181

7.2 Spark数据采集185

7.2.1 Spark数据源接入方式185

7.2.2 Spark数据采集的实践与优化193

7.3 Hadoop数据清洗197

7.3.1 数据清洗的基本概念与策略197

7.3.2 使用MapReduce进行数据清洗198

7.4 Hadoop与Spark数据处理对比202

7.5 本章小结204

7.6 习题204

第8章 数据存储与管理205

8.1 大数据存储架构205

8.1.1 存储架构的演变205

8.1.2 存储架构选择指南207

8.2 存储格式与压缩214

8.2.1 数据格式比较214

8.2.2 压缩算法分析216

8.3 数据分区与分桶217

8.3.1 数据分区218

8.3.2 数据分桶226

8.4 数据仓库设计229

8.5 本章小结231

8.6 习题232

第9章 数据分析与挖掘233

9.1 大数据分析233

9.2 数据挖掘算法237

9.2.1 数据挖掘算法的分类与应用场景237

9.2.2 常见的大数据挖掘算法及其实现原理239

9.3 特征工程250

9.3.1 特征提取与构建251

9.3.2 特征类型与数据分析方法252

9.4 本章小结256

9.5 习题257

第10章 实时数据处理258

10.1 实时处理概念258

10.1.1 实时数据处理的定义258

10.1.2 实时数据处理与批处理对比260

10.2 Spark Streaming262

10.2.1 DStream概述263

10.2.2 实时数据处理模型266

10.3 实时数据处理工具比较271

10.3.1 Spark与Flink对比分析271

10.3.2 Kafka实时计算引擎选型实践275

10.4 本章小结284

10.5 习题284

第4篇 项 目 实 战

第11章 一站式数据分析系统设计与实现286

11.1 大数据分析系统286

11.1.1 大数据分析系统的价值286

11.1.2 大数据分析系统的目的287

11.1.3 大数据分析系统的应用场景288

11.2 大数据分析系统架构289

11.2.1 大数据分析系统的体系架构289

11.2.2 设计大数据分析系统的核心模块291

11.3 实现大数据分析系统292

11.3.1 数据采集292

11.3.2 数据存储295

11.3.3 数据分析302

11.3.4 数据服务304

11.4 本章小结306

11.5 习题306

第12章 ChatGPT赋能Hadoop与Spark大数据分析307

12.1 ChatGPT与大数据的智能融合探索307

12.1.1 ChatGPT全面解析307

12.1.2 ChatGPT在大数据分析中的角色313

12.2 构建智能化的大数据处理引擎316

12.2.1 ChatGPT与Spark的集成实现316

12.2.2 ChatGPT与Spark应用案例分析320

12.3 ChatGPT与Spark数据分析与挖掘实践324

12.3.1 ChatGPT与Spark技术整合324

12.3.2 ChatGPT在Spark数据分析中的应用326

12.4 本章小结328

12.5 习题328

05

本书特色

《Hadoop与Spark大数据全景解析:视频教学版》是一部深入探讨大数据、分布式计算和人工智能领域关键技术的书。通过专业的教学视频 一线开发经验 ,《Hadoop与Spark大数据全景解析:视频教学版》带领读者深入了解Hadoop、Spark和ChatGPT,帮助他们掌握实践技巧,提升数据处理能力,实现数据智能化应用。无论您是初学者还是资深专家,《Hadoop与Spark大数据全景解析:视频教学版》都将为您打开大数据与人工智能的新视野,助您把握未来发展趋势。精心编排的内容结构,浅显易懂的讲解方式,将使您获得丰富的学习收获。这本书将成为您学习与实践的得力伙伴,助您在技术领域腾飞。

本文摘自《Hadoop与Spark大数据全景解析:视频教学版》,获出版社和作者授权发布。

Hadoop与Spark大数据全景解析(视频教学版)------jdhttps://item.jd.com/14421833.html

相关推荐
mozun20201 分钟前
产业观察:哈工大机器人公司2025.4.22
大数据·人工智能·机器人·创业创新·哈尔滨·名校
Apache Flink40 分钟前
京东物流基于Flink & StarRocks的湖仓建设实践
java·大数据·flink
董可伦42 分钟前
Flink 源码编译
大数据·flink·源码
努力犯错1 小时前
昆仑万维开源SkyReels-V2,解锁无限时长电影级创作,总分83.9%登顶V-Bench榜单
大数据·人工智能·语言模型·开源
IT成长日记2 小时前
【Hive入门】Hive分区与分桶深度解析:优化查询性能的关键技术
数据仓库·hive·hadoop·分区·分桶
Leo.yuan3 小时前
数据仓库是什么?数据仓库架构有哪些?
大数据·数据库·数据仓库·架构·数据分析
Faith_xzc3 小时前
Hive 数据同步到 Doris 最佳实践方案:从场景适配到性能调优全解析
大数据·数据仓库·hive·hadoop·doris
酷爱码3 小时前
hive默认的建表格式
数据仓库·hive·hadoop
MonkeyKing_sunyuhua3 小时前
4.4 记忆机制与上下文管理:短期与长期记忆的设计与应用
大数据·人工智能·agent
Hadoop_Liang3 小时前
Hive 多表查询案例
数据仓库·hive·hadoop