spark读取csv文件

测试spark读取本地和hdfs文件

python 复制代码
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Example PySpark Script") \
    .getOrCreate()

# 读取本地csv文件
df = spark.read.csv("/Users/xiaokkk/Desktop/local_projects/spark/intents.csv", header=True, inferSchema=True)
# 显示前几行数据
df.show(5)
# 读取HDFS的csv文件
df = spark.read.csv("hdfs://127.0.0.1:9001/data/intents.csv", header=True, inferSchema=True)
df.show(5)
相关推荐
zandy10111 天前
2026 BI平台与数据中台融合架构实践:从数据烟囱到统一智能数据层
大数据·架构·spark
zhojiew1 天前
使用AWS中国区Lambda集成Glue Schema Registry消费Kafka消息的实践
大数据·spark·etl
r-t-H2 天前
从零开始搭建CDH-第十二章
linux·hive·spark·centos·hbase
zhojiew2 天前
部署DataHub并导入Glue元数据以集成DBT和Spark ETL任务中数据血缘的实践
大数据·spark·etl
WL_Aurora3 天前
大数据技术之SparkCore
大数据·前端·spark·rdd
WL_Aurora3 天前
Scala核心编程(一):Scala语言概述与快速入门
spark·scala
曾阿伦3 天前
Spark2 序列化解析:JavaSerializer vs KryoSerializer
spark
KaMeidebaby3 天前
卡梅德生物技术快报|适配体筛选技术架构演进:SPARK-seq 高通量平台原理与技术流程解析
大数据·前端·其他·百度·架构·spark·新浪微博
元拓数智4 天前
智能分析落地卡壳?先补好「数据关系+语义治理」这层技术基建
大数据·分布式·ai·spark·数据关系·语义治理
QQ12958455044 天前
FERP50 - Excel以存储过程方式访问数据仓库
数据仓库·spark·excel