spark复习

第一章

1.​大数据特点:4V

2.​大数据计算模式

3.​hadoop生态系统

4.​spark提供了内存计算和基于DAG的任务调度机制,遵循一个软件栈满足不同应用场景的理念。

5.​hadoop中MapReduce计算框架的缺点,对应的spark的优点

第二章

1.​spark生态系统

2.​spark的应用场景

3.​RDD,DAG,Executor,应用,阶段的概念

4.​spark架构设计

5.​spark运行基本流程

6.​RDD是一个分布式对象集合,本质上是一个只读的分区记录集合。提供了一种高度受限的共享内存模型,不能直接修改。RDD提供一组丰富的操作分为行动和转换两种类型,前者用于执行计算并指定输出的形式,后者指定RDD之间的依赖关系。

7.​RDD采用惰性调用,真正的计算发生在行动操作,通过血缘关系连接起来的一系列RDD操作可以实现管道化Pipeline

8.​RDD特性(*)

9.​宽依赖与窄依赖的区别:是否包含shuffle操作

10.​窄依赖:map,filter,union

11.​宽依赖:groupByKey

12.​spark中,对窄依赖合并过程被称为流水线优化

13.​RDD阶段的划分(简答)

14.​spark部署方式:Spark on Mesos(URL是Mesos://ip:port),Spark on YARN ,Standalone

第四章

第五章

1.Spark SQL架构

第六章

1.流计算和批量计算过一遍(有印象就行)

2.​Spark Streaming的基本原理

3.​Spark Streaming最主要的抽象是Dstream

4.​Spark Streaming中有一个组件Receiver,作为长期运行的任务在一个Executor上执行,每个Receiver负责一个DStream输入流

5.​编写Spark Streaming基本步骤

6.​RDD编程中需要生成一个SparkContext对象,在Spark SQL编程中需要生成一个SparkSession对象,在Spark Streaming中需要生成一个StreamingContext对象

7.​Socket工作原理(填空accept)

8.​Kafka分布式发布订阅消息系统,相关概念:Broker,Topic,Producer,Consumer,Partition

9.​DStream无状态转换操作和有状态转换操作区别

第七章

1.Structured Streaming关键思想

2.​Structured Streaming的两种处理模型区别

3.​Structured Streaming,Spark SQL,Spark Streaming区别

第八章

1.机器学习三个关键词:算法,经验,性能

2.​模型是用数据对算法进行训练得到的

3.​常用学习算法:分类,回归,聚类,协同过滤

4.​流水线包括一些概念:DataFrame,转换器实现了transform()方法,评估器,流水线,参数

5.​构建一个机器学习流水线,首先要定义流水线中各个PipelineStage,称为工作流阶段,包括转换器和评估器,之后就可以按照具体的处理逻辑,有序组织PipelineStage并创建一个流水线。构建好后,就可以把训练数据集作为输入参数,调用流水线实例的fit()方法,以流的方式来处理原训练数据。该调用返回一个PipelineModel类的实例,用来预测测试数据的标签。

6.​TF-IDF的含义

相关推荐
一个无名的炼丹师8 分钟前
多模态RAG系统进阶:从零掌握olmOCR与MinerU的部署与应用
python·大模型·ocr·多模态·rag
u01092727123 分钟前
使用XGBoost赢得Kaggle比赛
jvm·数据库·python
MediaTea30 分钟前
<span class=“js_title_inner“>Python:实例对象</span>
开发语言·前端·javascript·python·ecmascript
feasibility.1 小时前
多模态模型Qwen3-VL在Llama-Factory中断LoRA微调训练+测试+导出+部署全流程--以具身智能数据集open-eqa为例
人工智能·python·大模型·nlp·llama·多模态·具身智能
我需要一个支点1 小时前
douyin无水印视频下载
爬虫·python
喵手1 小时前
Python爬虫实战:采集各大会展平台的展会名称、举办时间、展馆地点、主办方、行业分类等结构化数据(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集大会展平台信息·展会名称举办时间展馆地址·采集数据csv/json导出
编码者卢布1 小时前
【Azure APIM】如何实现对经过APIM并到达后端服务请求的全链路追踪呢?
python·flask·azure
0思必得01 小时前
[Web自动化] Selenium执行JavaScript语句
前端·javascript·爬虫·python·selenium·自动化
焱童鞋1 小时前
解决 MeteoInfoLab 3.9.11 中 contourfm 导致的 ArrayIndexOutOfBoundsException
开发语言·python
封奚泽优1 小时前
化学配对记忆游戏:用Python和Pygame打造趣味化学学习工具
python·pygame