Spark大数据开发与应用案例(视频教学版)(一)

作者:余辉

  • 简介:余辉,硕士毕业于中科院,从事IT行业12年。专注于大数据和机器学习。在数据团队担任过的角色:研发、架构师、负责人、讲师。数据知识产权:出版大数据书籍【1】本,论文【2】篇,软著【6】篇,专利【65】篇。

内容简介

本书是一本Spark的入门书籍,以通俗易懂的方式介绍了Spark原生态组件的基础、实战操作以及集群搭建方面的知识。本书配套示例源码、PPT课件、教学视频与作者答疑服务。

本书共分15章,内容包括Spark 简介、Spark集群环境部署、Spark 编程体验、RDD深度解读、RDD的Shuffle详解、Spark 共享变量、Spark 序列化和线程安全、Spark内存管理机制、SparkSQL简介、SparkSQL 抽象编程详解、SparkSQL自定义函数、SparkSQL 源码解读、Spark性能调优、Spark 实战案例、Spark面试题。

本书适合Spark初学者、大数据分析人员、大数据应用开发人员或一定经验的大数据架构师,本书也适合高等院校或高职高专院校学习Spark大数据技术课程的学生。

前 言

数据是国家基础性战略资源,是21世纪的"钻石矿"。党中央、国务院高度重视大数据在经济社会发展中的作用,党的十八届五中全会提出"实施国家大数据战略",国务院印发《促进大数据发展行动纲要》,全面推进大数据发展,加快建设数据强国。大数据产业指以数据生产、采集、存储、加工、分析、服务为主的相关经济活动,包括数据资源建设、大数据软硬件产品的开发、销售和租赁活动,以及相关信息技术服务。"十二五"期间,我国信息产业迅速壮大,信息技术快速发展,互联网经济日益繁荣,积累了丰富的数据资源,技术创新取得了明显突破,应用势头良好,为"十三五"时期我国大数据产业加快发展奠定了坚实基础。

内容速浏

本书用于Spark3.x快速上手和参考手册,由于在大数据开发工作中,SparkCore和SparkSQL使用频率最高,所以本书只讲述SparkCore和SparkSQL。全书一共分为十五章,主要的章节内容如下:

第1章Spark 简介:本章全面介绍了Spark,包括其定义、特点、技术生态系统、运行模式、执行流程和专有名词。读者可以初步了解Spark作为大数据处理框架的优势和应用场景,为后续深入学习打下基础。

第2章Spark集群环境部署:本章详细指导了如何在集群环境中部署Spark,包括虚拟机安装、网络配置和Spark集群安装等步骤。读者可以掌握Spark集群的搭建方法,为后续的实验和项目开发做好准备。

第3章Spark 编程体验:本章通过Scala、Java和Python三种语言编写了WordCount程序,并介绍了本地运行和Debug方法。读者可以体验Spark编程的便捷性和灵活性,为后续深入学习Spark编程打下基础。

第4章RDD深度解读:本章深入解读了RDD的概念、血缘、依赖和各类算子,以及Spark任务执行原理。读者可以深入理解RDD作为Spark核心数据结构的特性和作用。

第5章RDD的Shuffle详解:本章详细讲解了Shuffle的概念、演进历史、触发条件和实现方式。读者可以了解Shuffle在Spark中的重要作用和性能优化方法。

第6章Spark 共享变量:本章介绍了广播变量和累加器两种Spark共享变量,以及它们的使用方法和应用场景。读者可以掌握如何在Spark任务中共享数据,提高任务执行效率。

第7章 Spark 序列化和线程安全:本章讲解了Spark序列化和Task线程安全的概念和重要性,以及如何在Spark编程中避免序列化问题和线程安全问题。读者可以了解Spark编程中的常见陷阱和解决方法。

第8章 Spark内存管理机制:本章介绍了Spark内存管理机制,包括堆内内存和堆外内存的区别、分配和使用方法。读者可以了解如何优化Spark内存使用,提高任务执行性能。

第9章 SparkSQL简介:本章介绍了SparkSQL的定义、特性和编程抽象,以及快速体验方法。读者可以初步了解SparkSQL作为Spark数据查询和处理工具的优势和应用场景。

第10章 SparkSQL 抽象编程详解:本章详细讲解了DataFrame的创建、输出和运算方法,以及RDD、DS和DF之间的互转方法。读者可以掌握SparkSQL抽象编程的常用方法和技巧。

第11章 SparkSQL自定义函数:本章介绍了用户自定义函数UDF和UDAF的定义和使用方法。读者可以了解如何在SparkSQL中扩展自定义函数,实现更复杂的查询和处理逻辑。

第12章 SparkSQL 源码解读:本章深入解读了SparkSQL的源码,包括元数据管理、SQL解析、逻辑计划绑定、优化和物理计划生成等过程。读者可以了解SparkSQL的内部实现原理和优化方法。

第13章 Spark性能调优:本章介绍了Spark性能调优的常规方法、开发原则优化、调优方法和数据倾斜调优方法。读者可以掌握如何优化Spark任务性能,提高任务执行效率。

第14章 Spark 实战案例:本章通过多个实战案例展示了Spark在统计、电商、日志分析和数据分析等领域的应用。读者可以了解Spark在实际项目中的应用场景和解决方法,为未来的项目开发提供参考。

第15章Spark面试题:本章汇总了Spark的50道常见面试题,涵盖了Spark的核心概念、架构原理、编程实战、性能调优、实战应用5个方面。这些面试题有助于读者检验自己的学习成果,并为求职面试做好准备。

本书特色

本书是一本Spark的入门书籍,以通俗易懂的方式介绍了Spark原生态组件的基础、实战操作以及集群搭建方面的知识。本书的特点是:注重"实战"训练,强调知识系统性,关注内容实用性。

(1)本书从培训角度对读者简述 Spark中常用组件的原理和实战操作,让读者快速了解组件原理和功能使用。

(2)每一个操作都配有实例代码或者是图片来帮助理解,每一章的最后还有小节,来归纳总结本章的内容,帮助读者对Spark有一个大的全局观。

(3)目前市面上关于Spark的书也很多,但是都没有对 Spark 进行实战案例以及图文并茂结合进行讲解,本书在讲解完Spark原理之后,又加入了 Spark的案例实战,最后加入了Spark的面试资料,使得读者能够应对Spark工作做的常见使用方法以及能够让读者得知互联网如何面试Spark的基础知识。

本书适合读者

本书适合Spark初学者、大数据分析人员、大数据应用开发人员或一定经验的大数据架构师,本书也适合高等院校或高职高专院校学习Spark大数据技术课程的学生。

目录

第1章Spark简介...7

1.1. Spark是什么... 7

1.2. Spark特点... 8

1.3. Spark技术生态系统...10

1.4. Spark运行模式...11

1.5. Spark执行流程...14

1.6. Spark专有名词...18

1.7.本章小结...21

第2章Spark集群环境部署...21

1.1. VM虚拟机安装...21

1.2. Ubuntu 22.04系统安装...26

1.3. Ubuntu 22.04网络配置...33

1.4. Ubuntu 22.04环境配置...35

1.5. zookeeper安装...39

1.6. Hadoop安装...41

1.7. Spark安装...49

1.8.集群下载...53

1.9.本章小结...54

第3章Spark编程体验...55

1.1. Scala基础编程...55

1.2. Spark创建项目...68

1.3. Spark程序编写...75

1.4.本章小结... 78

第4章RDD深度解读...78

1.1. RDD是什么...78

1.2. RDD的血缘和依赖...81

1.3. RDD的Transformation算子...87

1.4. RDD的Action算子...106

1.5. RDD的特殊算子...112

1.6. RDD转换算子的惰性...113

1.7.模拟spark自定义RDD...115

1.8. Spark任务执行原理图解分析...118

1.9. Spark算子练习...121

1.10.本章小结...125

第5章RDD的Shuffle详解...125

1.1. Shuffle的概念...125

1.2. Shuffle演进的历史...126

1.3. reduceByKey一定会Shuffle吗...126

1.4. join一定会Shuffle吗...127

1.5. Shuffle数据的复用实验...129

1.6. HashShuffleManager... 132

1.7. SortShuffleManager... 134

1.8. SortShuffleWriter...137

1.11.本章小结... 139

第6章Spark共享变量...139

1.1.广播变量...139

1.2.累加器...142

1.12.本章小结...148

第7章Spark序列化和线程安全...149

1.1. Spark序列化... 149

1.2. Task线程安全...163

1.3.本章小结...165

第8章Spark内存管理机制...166

1.1.概述... 166

1.2.堆内内存和堆外内存区别... 166

1.3.堆内内存(On-heap Memory)...168

1.4.堆外内存(Off-heap Memory)... 171

1.4.本章小结... 174

第9章SparkSQL简介... 175

1.1. Spark SQL定义...175

1.2. Spark SQL特性...175

1.3. SparkSQL编程抽象...178

1.4. SparkSQL快速体验...179

1.5.本章小结... 183

第10章SparkSQL抽象编程详解...184

1.1. DataFrame创建...184

1.2. DataFrame输出...202

1.3. DataFrame运算...205

1.4. RDD代码和SQL代码混合编程...212

1.5. RDD/DS/DF互转...235

1.6.本章小结...236

第11章SparkSQL自定义函数...237

1.1.用户自定义函数UDF ... 237

1.2.用户自定义聚合函数UDAF ...245

1.3.本章小结...253

第12章SparkSQL源码解读...253

1.1.元数据管理SessionCatalog ...254

1.2. SQL解析成逻辑执行计划...254

1.3. Analyzer绑定逻辑计划... 257

1.4. Optimizer优化逻辑计划...259

1.5.使用SparkPlanner生成物理计划... 266

1.6.从物理执行计划获取inputRdd执行...269

1.7.本章小结... 269

第13章Spark性能调优... 270

1.1. Spark常规性能调优... 270

1.2. Spark开发原则优化... 277

1.3. Spark调优方法... 284

1.4. Spark数据倾斜调优... 293

1.5.本章小结... 302

第14章Spark实战案例... 302

1.1. Spark Core日志统计实战...302

1.2. Spark Core日志分析可视化案例...311

1.3. Spark SQL电商实战...324

1.4. Spark SQL数据分析...333

1.5.本章小结...341

第15章Spark的50道面试题...342

1.1.核心概念...342

1.2.架构原理...353

1.3.编程实践...362

1.4.性能调优...373

1.5.实战应用...395

1.6.本书小结...405

相关推荐
打码人的日常分享2 小时前
大数据治理,数字化转型运营平台建设方案(PPT完整版)
大数据·运维·系统安全·需求分析·设计规范·规格说明书
刘大猫265 小时前
《docker基础篇:8.Docker常规安装简介》包括:docker常规安装总体步骤、安装tomcat、安装mysql、安装redis
大数据·人工智能·docker
RPAdaren7 小时前
ChatGPT 与 AGI:人工智能的当下与未来走向全解析
大数据·人工智能·ai·chatgpt·机器人·agi·rpa
Apache Flink8 小时前
您有一份 Apache Flink 社区年度报告请查收~
大数据·flink·apache
JermeryBesian8 小时前
Flink源码解析之:如何根据StreamGraph生成JobGraph
大数据·flink
15年网络推广青哥8 小时前
TikTok矩阵运营:如何提高账号粉丝量?
大数据·人工智能·矩阵
jonyleek11 小时前
JVS低代码快速开发中“实体之间的关系”配置,表单引擎子表构建全攻略
java·大数据·低代码·开源·软件需求
Loving_enjoy11 小时前
计算机专业硕士有哪些研究方向
大数据·人工智能·计算机网络·机器学习·自然语言处理
2403_8751809512 小时前
抖音短视频矩阵系统源码开发技术解析
大数据·人工智能·线性代数·算法·矩阵