spark读取csv文件

测试spark读取本地和hdfs文件

python 复制代码
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Example PySpark Script") \
    .getOrCreate()

# 读取本地csv文件
df = spark.read.csv("/Users/xiaokkk/Desktop/local_projects/spark/intents.csv", header=True, inferSchema=True)
# 显示前几行数据
df.show(5)
# 读取HDFS的csv文件
df = spark.read.csv("hdfs://127.0.0.1:9001/data/intents.csv", header=True, inferSchema=True)
df.show(5)
相关推荐
淦暴尼13 小时前
基于spark的二手房数据分析可视化系统
大数据·分布式·数据分析·spark
云淡风轻~~2 天前
从 CSV文件的加载、分区和处理 来理解 Spark RDD
大数据·分布式·spark
万能小锦鲤2 天前
《大数据技术原理与应用》实验报告七 熟悉 Spark 初级编程实践
hive·hadoop·ubuntu·flink·spark·vmware·实验报告
搞数据的小杰3 天前
spark广播表大小超过Spark默认的8GB限制
大数据·数据库·分布式·spark
isNotNullX3 天前
数据怎么分层?从ODS、DW、ADS三大层一一拆解!
大数据·开发语言·数据仓库·分布式·spark
一切顺势而行3 天前
flink 和 spark 架构的对比
架构·flink·spark
线条14 天前
Spark 单机模式安装与测试全攻略
大数据·分布式·spark
贝塔西塔6 天前
PySpark中python环境打包和JAR包依赖
大数据·开发语言·python·spark·jar·pyspark
抛砖者7 天前
hive/spark sql中unix_timestamp 函数的坑以及时间戳相关的转换
hive·sql·spark