spark读取csv文件

测试spark读取本地和hdfs文件

python 复制代码
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Example PySpark Script") \
    .getOrCreate()

# 读取本地csv文件
df = spark.read.csv("/Users/xiaokkk/Desktop/local_projects/spark/intents.csv", header=True, inferSchema=True)
# 显示前几行数据
df.show(5)
# 读取HDFS的csv文件
df = spark.read.csv("hdfs://127.0.0.1:9001/data/intents.csv", header=True, inferSchema=True)
df.show(5)
相关推荐
有数的编程笔记1 小时前
Hive/Spark窗口函数
spark·apache hive
NPE~1 天前
[docker/大数据]Spark快速入门
大数据·分布式·docker·spark·教程
派可数据BI可视化1 天前
解读商业智能BI,数据仓库中的元数据
大数据·数据仓库·数据分析·spark·商业智能bi
源图客2 天前
Spark读取MySQL数据库表
数据库·mysql·spark
A 计算机毕业设计-小途3 天前
大四零基础用Vue+ElementUI一周做完化妆品推荐系统?
java·大数据·hadoop·python·spark·毕业设计·毕设
青云交3 天前
Java 大视界 -- Java 大数据分布式计算在基因测序数据分析与精准医疗中的应用(400)
java·hadoop·spark·分布式计算·基因测序·java 大数据·精准医疗
晴天彩虹雨4 天前
存算分离与云原生:数据平台的新基石
大数据·hadoop·云原生·spark
更深兼春远4 天前
spark+scala安装部署
大数据·spark·scala
哈哈很哈哈4 天前
Spark 运行流程核心组件(三)任务执行
大数据·分布式·spark
BYSJMG4 天前
计算机大数据毕业设计推荐:基于Spark的气候疾病传播可视化分析系统【Hadoop、python、spark】
大数据·hadoop·python·信息可视化·spark·django·课程设计