技术栈
spark
itachi-uchiha
6 小时前
spark
Docker部署Spark大数据组件:配置log4j日志
上一篇《Docker部署Spark大数据组件》中,日志是输出到console的,如果有将日志输出到文件的需要,需要进一步配置。
伟笑
7 小时前
大数据
·
前端
·
spark
前端使用 spark-md5 实现大文件切片上传
封装公共方法代码如下:
linweidong
21 小时前
大数据
·
flink
·
spark
·
实时数仓
·
调度器
·
离线数仓
·
数据面试
《Spark/Flink/Doris离线&实时数仓开发》目录
欢迎加入《Spark/Flink/Doris离线&实时数仓开发》付费专栏!本专栏专为大数据工程师、数据分析师及准备大数据面试的求职者量身打造,聚焦Spark、Flink、Doris等核心技术,覆盖离线与实时数仓开发的全流程。无论你是想快速上手项目、提升技术能力,还是在面试中脱颖而出,这里都能为你提供系统化、实战化、可落地的内容。
itachi-uchiha
1 天前
大数据
·
docker
·
spark
Docker部署Spark大数据组件
Apache Spark 是一个专为大规模数据处理而设计的快速、通用的计算引擎。它最初由加州大学伯克利分校的 AMP 实验室开发,后成为 Apache 顶级项目。Spark 采用内存计算,可将作业中间结果缓存于内存中,减少磁盘读写操作,在数据挖掘和机器学习等需要迭代计算的场景中表现出色。
黑客笔记
2 天前
大数据
·
分布式
·
spark
「读书报告」Spark实时大数据分析
这本书是清华大学出版社2018年出版的,我是2020年读的,说真的的,不怎么喜欢这本书,所以作者我都不想提。有的人可能会奇怪,ailx10,你一个搞网络安全的,怎么会去读大数据相关的书,哎,说来也巧,我是安全研发出身的,2018年我在做基于modsecurity的waf,2019年我在做基于Kafka/ES的异常流量检测,妥妥的c/c++程序员一枚,直到2020年我才彻底转向安全研究。
火龙谷
2 天前
大数据
·
hadoop
·
spark
【hadoop】Spark的安装部署
步骤:1、使用XFTP将Spark安装包spark-2.4.8-bin-hadoop2.7.tgz发送到master机器的主目录。
雾迟sec
2 天前
大数据
·
分布式
·
数据分析
·
spark
·
apache
Apache Spark 的基本概念和在大数据分析中的应用
Apache Spark 是一款基于内存计算的大数据处理框架,具有高速、容错、易用、可扩展等特点。Spark 在大数据分析、机器学习、实时处理等领域应用广泛,能够帮助用户加快数据处理速度、提高数据处理效率,并且具备良好的可扩展性和灵活性,是当前大数据领域中非常重要和流行的工具之一。
MZWeiei
3 天前
大数据
·
分布式
·
spark
·
scala
Spark 中,map和foreach的区别
在 Spark 中,map和foreach是两种不同用途的转换操作,主要区别在于:
Lansonli
3 天前
大数据
·
spark
大数据Spark(六十):Spark On Yarn 配置
文章目录Spark On Yarn 配置一、配置1、将Spark安装包解压放在node5节点2、配置spark-env.sh
若兰幽竹
3 天前
大数据
·
spark
·
hbase
【Spark集成HBase】Spark读写HBase表
本文介绍如何使用 Spark 2.3.2 实现对 HBase 1.4.8 表的读写操作,通过 Scala 语言将 CSV 数据写入 HBase,并利用 Spark SQL 分析数据。代码示例涵盖数据批量写入、全表扫描、数据类型转换及结构化查询,适合大数据开发人员快速掌握 Spark 与 HBase 的集成方法。
MZWeiei
4 天前
大数据
·
分布式
·
spark
·
scala
区分:union(),coalesce () 和 repartition ()
Spark 中需要区分两个概念:这三个算子的 “合并” 对象不同:假设有两个 RDD:scala执行 union ():
北漂老男孩
4 天前
大数据
·
开发语言
·
spark
·
scala
·
学习方法
Scala与Spark:原理、实践与技术全景详解
在大数据与分布式计算领域,Apache Spark 已成为事实标准的计算引擎,而 Scala 作为其主要开发语言,也逐渐成为数据工程师和后端开发者的必备技能。本文将系统梳理 Scala 语言基础、Spark 的核心原理、生态选型,并通过经典案例串联理论与实践,助力学习、面试及实际项目开发。
MZWeiei
4 天前
大数据
·
架构
·
spark
Spark on YARN 的运行架构总览
YARN(Yet Another Resource Negotiator ,另一种资源协调者 )的基本架构,基于此来讲讲 Spark on YARN 的运行架构:
MZWeiei
4 天前
大数据
·
分布式
·
spark
·
scala
Spark 中,创建 DataFrame 的方式(Scala语言)
在 Spark 中,创建 DataFrame 的方式多种多样,可根据数据来源、结构特性及性能需求灵活选择。
夜影风
6 天前
大数据
·
数据仓库
·
spark
关于数据仓库、数据湖、数据平台、数据中台和湖仓一体的概念和区别
我们谈论数据中台之前, 我们也听到过数据平台、数据仓库、数据湖、湖仓一体的相关概念,它们都与数据有关系,但他们和数据中台有什么样的区别, 下面我们将围绕数据平台、数据仓库、数据湖和数据中台的区别进行介绍。
£菜鸟也有梦
6 天前
大数据
·
分布式
·
spark
Spark入门秘籍
目录一、Spark 是什么?1.1 内存计算:速度的飞跃1.2 多语言支持:开发者的福音1.3 丰富组件:一站式大数据处理平台
北漂老男孩
6 天前
大数据
·
分布式
·
spark
Spark Streaming原理与应用
下面我将从Spark Streaming的原理、应用到源码进行详细剖析,并给出关键源码方法、内部逻辑、行级注释和记忆口诀,帮助你高效掌握Spark Streaming流式计算。
wuli玉shell
7 天前
hadoop
·
spark
·
sparkcontext
SparkContext介绍
北随琛烬入
7 天前
大数据
·
mysql
·
spark
Spark(32)SparkSQL操作Mysql
我们计划在hadoop001这台设备上安装mysql服务器,(当然也可以重新使用一台全新的虚拟机)。以下是具体步骤:
wuli玉shell
8 天前
大数据
·
分布式
·
spark
spark-shuffle 类型及其对比
以上几种Shuffle类型的主要区别在于数据分布方式、排序过程和Reduce端合并过程。在实际应用中,需要根据数据分布情况、数据量大小和性能要求等因素选择合适的Shuffle类型。