技术栈
spark
sunxunyong
3 小时前
hive
·
hadoop
·
spark
hive on spark配置方案详解
一、安装hive-on-spark客户端 1、下载已编译好的spark安装包:sparkengine-2.3.4.tgz。 2、将该spark客户端,放到/usr/hdp/3.1.0.0-78/hive目录下,命名为sparkengine。只需要部署在hiveserver2节点即可。 3、配置conf/spark-default.conf和spark-env.sh
小的~~
19 小时前
大数据
·
分布式
·
spark
大数据面试题之Spark(7)
Spark实现wordcountSpark Streaming怎么实现数据持久化保存?Spark SQL读取文件,内存不够使用,如何处理?
小的~~
21 小时前
大数据
·
分布式
·
spark
大数据面试题之Spark(4)
目录RDD的容错Executor内存分配?Spark的batchsize,怎么解决小文件合并问题?Spark参数(性能)调优
Flying_Fish_roe
1 天前
大数据
·
分布式
·
spark
Apache Spark
Spark是一个快速、通用、可扩展的大数据处理框架,由Apache软件基金会开发和维护。它提供了一个分布式计算引擎,可以处理大规模数据,支持多种数据处理任务,如批处理、交互式查询、实时流式处理和机器学习。
小的~~
1 天前
大数据
·
分布式
·
spark
大数据面试题之Spark(5)
Spark SQL与DataFrame的使用?Sparksql自定义函数?怎么创建DataFrame?
水木流年追梦
2 天前
大数据
·
深度学习
·
神经网络
·
学习
·
spark
【Python实战因果推断】8_元学习器3
目录Metalearners for Continuous TreatmentsS-Learner一如既往,当干预是连续性的,事情就会变得有点复杂。元学习器也不例外。作为一个运行示例,让我们使用上一章中的数据。回想一下,它包含了一家连锁餐厅三年的数据。该连锁店对旗下六家餐厅随机打折,现在它想知道哪天是给予更多折扣的最佳时机。要回答这个问题,就需要了解顾客在哪天对折扣更敏感(对价格更敏感)。如果连锁餐厅能够了解这一点,他们就能更好地决定何时给予更多或更少的折扣。
小的~~
2 天前
大数据
·
分布式
·
spark
大数据面试题之Spark(1)
目录Spark的任务执行流程Spark的运行流程Spark的作业运行流程是怎么样的?Spark的特点Spark源码中的任务调度
zhixingheyi_tian
2 天前
spark
pyspark
PySpark SQL provides several built-in standard functions pyspark.sql.functions to work with DataFrame and SQL queries. All these PySpark Functions return pyspark.sql.Column type.
灰太狼!!
3 天前
大数据
·
数据仓库
·
spark
数据仓库面试题
大树叶
3 天前
大数据
·
hadoop
·
spark
spark和hadoop的区别
Apache Spark和Apache Hadoop是两个开源框架,它们都被用来处理大规模数据集,但它们设计的哲学、架构和性能有很多不同之处。
B站计算机毕业设计超人
3 天前
大数据
·
hive
·
hadoop
·
爬虫
·
spark
·
课程设计
·
推荐算法
计算机毕业设计hadoop+spark+hive知识图谱酒店推荐系统 酒店数据分析可视化大屏 酒店爬虫 高德地图API 酒店预测系统 大数据毕业设计
酒店推荐系统开题报告一、研究背景与意义随着旅游业的蓬勃发展和人们生活水平的提高,酒店行业迎来了前所未有的发展机遇。然而,面对众多的酒店选择,消费者往往难以在短时间内找到最适合自己需求和预算的酒店。因此,开发一款高效、智能的酒店推荐系统,对于提升消费者体验、促进酒店业发展具有重要意义。
东少子鹏
3 天前
大数据
·
spark
Spark2.0
目录10.3 Spark运行架构10.3.1 基本概念10.3.2 架构设计编辑10.3.3 Spark运行基本流程
百度Geek说
3 天前
大数据
·
spark
基于 Native 技术加速 Spark 计算引擎
本文整理自 2024 年 6 月 DataFunSummit 2024 OLAP 架构峰会 Lakehouse 湖仓一体化架构论坛的同名主题分享。
水牛爱喝水
3 天前
大数据
·
分布式
·
spark
MapReduce和YARN
MapReduce是hadoop三大组件之一,是分布式计算组件Map阶段 : 将数据拆分到不同的服务器后执行Maptask任务,得到一个中间结果
yusur
3 天前
spark
·
dpu
Spark基于DPU的Native引擎算子卸载方案
Apache Spark(以下简称Spark)是一个开源的分布式计算框架,由UC Berkeley AMP Lab开发,可用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。Spark 使用内存加载保存数据并进行迭代计算,减少磁盘溢写,同时支持 Java、Scala、Python 和 R 等多种高级编程语言,这使得Spark可以应对各种复杂的大数据应用场景,例如金融、电商、社交媒体等。
sssugarr
3 天前
大数据
·
python
·
学习
·
spark
从0开始学习pyspark--pyspark的启动模式[第1节]
PySpark是Apache Spark的Python API,它能够在分布式计算环境中处理大规模数据。PySpark可以在几种不同的模式下运行,主要包括以下三种:
逆风就重开
4 天前
大数据
·
数据仓库
·
分布式
·
数据分析
·
spark
数仓中数据分层的标准流向解读
在大数据开发中,数据分层是一个至关重要的概念。合理的数据分层可以有效地提升数据处理的效率和质量。本文将详细介绍数据分层的标准流向和相关注意事项,并结合实际应用进行说明。
sssugarr
5 天前
大数据
·
python
·
spark
·
pyspark
pyspark从0开始的入门教程
Apache Spark 是一种分布式处理系统,用于在大型数据集上执行大数据和机器学习任务。作为数据科学爱好者,您可能熟悉在本地设备上存储文件并使用 R 和 Python 等语言进行处理。但是,本地工作站有其局限性,无法处理非常大的数据集。
尺小闹
5 天前
面试
·
职场和发展
·
spark
面试专区|【100道Spark高频题整理(附答案背诵版)】
Spark 是一个开源的大数据处理框架,它被设计来进行高速度、通用性和易用性的大规模数据处理。Spark 最初由加州大学伯克利分校的AMPLab 开发,后来成为Apache软件基金会的顶级项目。