spark读取csv文件

测试spark读取本地和hdfs文件

python 复制代码
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Example PySpark Script") \
    .getOrCreate()

# 读取本地csv文件
df = spark.read.csv("/Users/xiaokkk/Desktop/local_projects/spark/intents.csv", header=True, inferSchema=True)
# 显示前几行数据
df.show(5)
# 读取HDFS的csv文件
df = spark.read.csv("hdfs://127.0.0.1:9001/data/intents.csv", header=True, inferSchema=True)
df.show(5)
相关推荐
m0_748254661 天前
Perl 变量类型
spark·scala·perl
鸿乃江边鸟1 天前
Spark Datafusion Comet 向量化Rule--CometScanRule分析
大数据·spark·native
浊酒南街1 天前
spark sql 中LENGTH 和 SIZE 函数介绍
sql·spark
青云交1 天前
Java 大视界 -- Java+Spark 构建离线数据仓库:分层设计与 ETL 开发实战(445)
java·数据仓库·spark·分层设计·java+spark·离线数据仓库·etl 开发
yumgpkpm2 天前
基于GPU的Spark应用加速 Cloudera CDP/华为CMP鲲鹏版+Nvidia英伟达联合解决方案
大数据·数据库·人工智能·hadoop·elasticsearch·spark·cloudera
鸿乃江边鸟2 天前
Spark Datafusion Comet 向量化--ApplyColumnarRulesAndInsertTransitions规则
大数据·spark·native
飞Link3 天前
【大数据】SparkSQL常用操作
大数据·数据挖掘·spark
浊酒南街3 天前
SUBSTRING_INDEX 函数介绍
sql·spark
鸿乃江边鸟3 天前
Spark datafusion comet向量化插件CometPlugin
大数据·spark·native
oMcLin3 天前
如何在 Debian 11 上通过构建大数据湖,使用 Apache Spark 加速电商平台的数据分析与实时推荐引擎
spark·debian·apache