spark

NiNg_1_23417 小时前
大数据·ajax·spark
Spark常用的转化操作和动作操作详解Apache Spark是一个强大的大数据处理框架,它提供了丰富的转换(Transformation)和动作(Action)操作来处理分布式数据集。这些操作是构建Spark应用程序的基础,理解它们对于高效使用Spark至关重要。
岑梓铭1 天前
linux·python·spark·centos
(CentOs系统虚拟机)Standalone模式下安装部署“基于Python编写”的Spark框架1)Local模式(开发环境)用于开发和测试阶段,在单机节点上,一个Spark程序就只是一个进程,通过在一个进程里用多个线程的方式,模拟整个Saprk集群模式
Data跳动1 天前
大数据·分布式·spark
Spark内存都消耗在哪里了?在 MapReduce 运行过程中,map task 或 reduce task 都是以JVM进程方式运行的,所以对于 MapReduce,内存消耗指的就是这些 task 进程的内存消耗。
lucky_syq1 天前
大数据·flink·spark
流式处理,为什么Flink比Spark Streaming好?
goTsHgo2 天前
大数据·spark·embedding
在 Spark 上实现 Graph Embedding在 Spark 上实现 Graph Embedding 主要涉及利用大规模图数据来训练模型,以学习节点的低维表示(嵌入)。这些嵌入能够捕捉和反映图中的节点间关系,如社交网络的朋友关系或者物品之间的相似性。在 Spark 上进行这一任务,可以使用 Spark 的图计算库 GraphX 或者利用外部库如 GraphFrames。
程序猿小柒2 天前
大数据·sql·spark
【Spark】Spark SQL执行计划-精简版Catalyst (sql/catalyst):Execution (sql/core):Hive支持 (sql/ Hive):
隔着天花板看星星2 天前
大数据·分布式·中间件·spark·kafka
Spark-Streaming集成KafkaSpark Streaming集成Kafka是生产上最多的方式,其中集成Kafka 0.10是较为简单的,即:Kafka分区和Spark分区之间是1:1的对应关系,以及对偏移量和元数据的访问。与高版本的Kafka Consumer API 集成时做了一些调整,下面我们一起来看看吧。
lucky_syq3 天前
大数据·hive·spark
Spark和Hive的区别
隔着天花板看星星4 天前
大数据·分布式·spark
Spark-Streaming receiver模式源码解析《Spark-Streaming初识》博客中我们用NetworkWordCount例子大致了解了Spark-Streaming receiver模式的运行。下面我们就通过该代码进行源码分析,深入了解其原理。
Data跳动4 天前
java·缓存·spark
Spark 运行时对哪些数据会做缓存?在Spark应用执行过程中,某些需要多次使用或者重新计算的数据会进行缓存,为后续更多的计算操作复用,避免了再次计算,从而减少应用的执行时间,加速整体计算进度。
隔着天花板看星星5 天前
大数据·分布式·spark
Spark-Streaming性能调优从集群上的Spark Streaming应用程序中获得最佳性能需要一些调整。一般会考虑2个因素:在Spark中可以进行许多优化,以最小化每个批次的流转时长,这里列举下重要的点:
吴法刚5 天前
大数据·hive·spark
案例:Spark/Hive中‘String=数值类型’丢失精度问题a.id e.clue_id dt timestamp1734933297158217731 1734933297158217731 2023-12-14 2023-12-14 16:51:32 1734933297158217731 1734933297158217729 2023-12-14 2023-12-14 16:53:06 1734933297158217731 1734933297158217730 2023-12-14 2023-12-14 16:51:32
B站计算机毕业设计超人5 天前
大数据·hive·python·深度学习·机器学习·spark·课程设计
计算机毕业设计python+spark+hive动漫推荐系统 漫画推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 知识图谱 大数据毕设温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!
zmd-zk7 天前
大数据·数据库·hive·分布式·python·mysql·spark
spark将数据输出到hive或mysql中
东方佑7 天前
大数据·分布式·spark
spark 分布式 原理Apache Spark 是一个快速且通用的大数据处理引擎,它支持分布式计算。Spark 的设计旨在通过高效的内存内计算和对多种数据源的支持来简化大规模数据集的处理。以下是关于 Spark 分布式原理的详细介绍:
xiaoping.huang7 天前
大数据·spark·rdd
Spark执行计划解析后是如何触发执行的?在前一篇Spark SQL 执行计划解析源码分析中,笔者分析了Spark SQL 执行计划的解析,很多文章甚至Spark相关的书籍在讲完执行计划解析之后就开始进入讲解Stage切分和调度Task执行,每个概念之间没有强烈的关联,因此这中间总感觉少了点什么,执行计划是如何触发执行的?是Spark自动触发的?还是由客户端的代码触发的?本文笔者为了解答这几个疑问,尝试进行了相关代码的分析。
天冬忘忧7 天前
大数据·servlet·spark
Spark优化----Spark 性能调优目录常规性能调优常规性能调优一:最优资源配置常规性能调优二:RDD 优化RDD 复用RDD 持久化RDD 尽可能早的 filter 操作
zmd-zk7 天前
大数据·hive·python·学习·mysql·spark
spark读取hive和mysql的数据修改配置文件