spark读取csv文件

测试spark读取本地和hdfs文件

python 复制代码
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Example PySpark Script") \
    .getOrCreate()

# 读取本地csv文件
df = spark.read.csv("/Users/xiaokkk/Desktop/local_projects/spark/intents.csv", header=True, inferSchema=True)
# 显示前几行数据
df.show(5)
# 读取HDFS的csv文件
df = spark.read.csv("hdfs://127.0.0.1:9001/data/intents.csv", header=True, inferSchema=True)
df.show(5)
相关推荐
whuang0941 天前
腾讯云 emr 无法以cosn 写入云存储
spark
howard20053 天前
2.4.3 集群模式运行Spark项目
spark·项目打包·提交运行
孤雪心殇3 天前
快速上手数仓基础知识
数据仓库·hive·spark
渣渣盟3 天前
Spark 性能调优实战:从开发到生产落地
javascript·ajax·spark
渣渣盟4 天前
大数据技术栈全景图:从零到一的入门路线(深度实战版)
大数据·hadoop·python·flink·spark
DolphinScheduler社区5 天前
DolphinScheduler 3.3.2 如何调用 DataX 3.0 + SeaTunnel 2.3.12?附 Demo演示!
java·spark·apache·海豚调度·大数据工作流调度
Leo.yuan5 天前
数据仓库是什么?数据仓库和大数据平台、数据湖、数据中台、湖仓一体有什么区别?
大数据·数据仓库·spark
heiqizero5 天前
Spark RDD动作算子
spark
heiqizero5 天前
Spark RDD转换算子02
spark
heiqizero6 天前
Spark RDD转换算子01
spark