spark读取csv文件

测试spark读取本地和hdfs文件

python 复制代码
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Example PySpark Script") \
    .getOrCreate()

# 读取本地csv文件
df = spark.read.csv("/Users/xiaokkk/Desktop/local_projects/spark/intents.csv", header=True, inferSchema=True)
# 显示前几行数据
df.show(5)
# 读取HDFS的csv文件
df = spark.read.csv("hdfs://127.0.0.1:9001/data/intents.csv", header=True, inferSchema=True)
df.show(5)
相关推荐
编程彩机8 小时前
互联网大厂Java面试:从分布式架构到大数据场景解析
java·大数据·微服务·spark·kafka·分布式事务·分布式架构
Moshow郑锴16 小时前
Spark在银行系统ETL中的实战应用:TXT文件到PostgreSQL的余额处理全流程
postgresql·spark·etl
petrel201518 小时前
【Spark 核心内参】2026.1:JIRA vs GitHub Issues 治理模式大讨论与 4.2.0 预览版首发
大数据·spark
petrel201518 小时前
【Spark 核心内参】2025.9:预览版常态化与数据类型的重构
大数据·spark
bigdata-rookie18 小时前
Spark shuffle 和 MapReduce shuffle 的区别
大数据·spark·mapreduce
B站计算机毕业设计超人19 小时前
计算机毕业设计hadoop+spark+hive在线教育可视化 课程推荐系统 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·人工智能·hive·hadoop·scrapy·spark·课程设计
B站计算机毕业设计超人19 小时前
计算机毕业设计PySpark+Hive+Django小红书评论情感分析 小红书笔记可视化 小红书舆情分析预测系统 大数据毕业设计(源码+LW+PPT+讲解)
大数据·人工智能·hive·爬虫·python·spark·课程设计
uesowys19 小时前
Apache Spark算法开发指导-Random forest classifier
算法·随机森林·spark
张小凡vip2 天前
数据挖掘(十)---python操作Spark常用命令
python·数据挖掘·spark
uesowys2 天前
Apache Spark算法开发指导-Decision tree classifier
算法·决策树·spark