spark读取csv文件

测试spark读取本地和hdfs文件

python 复制代码
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Example PySpark Script") \
    .getOrCreate()

# 读取本地csv文件
df = spark.read.csv("/Users/xiaokkk/Desktop/local_projects/spark/intents.csv", header=True, inferSchema=True)
# 显示前几行数据
df.show(5)
# 读取HDFS的csv文件
df = spark.read.csv("hdfs://127.0.0.1:9001/data/intents.csv", header=True, inferSchema=True)
df.show(5)
相关推荐
天天向上杰7 小时前
spark、mapreduce、flink核心区别及浅意理解
flink·spark·mapreduce
路边草随风9 小时前
java实现发布spark yarn作业
java·spark·yarn
Light601 天前
Spark OA 系统深度分析与改造报告(整合版 + 领码 SPARK 改造计划 + 功能缺口)
大数据·分布式·spark
B站计算机毕业设计之家2 天前
大数据:基于python唯品会商品数据可视化分析系统 Flask框架 requests爬虫 Echarts可视化 数据清洗 大数据技术(源码+文档)✅
大数据·爬虫·python·信息可视化·spark·flask·唯品会
沧海寄馀生2 天前
Apache Hadoop生态组件部署分享-Spark
大数据·hadoop·分布式·spark·apache
yumgpkpm2 天前
接入Impala、Hive 的AI平台、开源大模型的国内厂商(星环、Doris、智谱AI、Qwen、DeepSeek、 腾讯混元、百川智能)
人工智能·hive·hadoop·zookeeper·spark·开源·hbase
鹿衔`3 天前
CDH 6.3.2 集群外挂部署 Spark 3.5.7 连接 Paimon 1.1.1 (二)
大数据·分布式·spark
嘉禾望岗5033 天前
spark计算框架与RDD特性介绍
大数据·分布式·spark
智海观潮4 天前
SparkSQL真的不支持存储NullType类型数据到Parquet吗?
大数据·spark
灯下夜无眠4 天前
spark集群文件分发问题
大数据·分布式·spark