spark读取csv文件

测试spark读取本地和hdfs文件

python 复制代码
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Example PySpark Script") \
    .getOrCreate()

# 读取本地csv文件
df = spark.read.csv("/Users/xiaokkk/Desktop/local_projects/spark/intents.csv", header=True, inferSchema=True)
# 显示前几行数据
df.show(5)
# 读取HDFS的csv文件
df = spark.read.csv("hdfs://127.0.0.1:9001/data/intents.csv", header=True, inferSchema=True)
df.show(5)
相关推荐
beijingliushao9 小时前
103-Spark之Standalone环境测试
大数据·ajax·spark
beijingliushao10 小时前
102-Spark之Standalone环境安装步骤-2
大数据·分布式·spark
青云交13 小时前
Java 大视界 -- Java 大数据机器学习模型在金融风险管理体系构建与风险防范能力提升中的应用(435)
java·大数据·机器学习·spark·模型可解释性·金融风控·实时风控
小辉懂编程17 小时前
Spark sql 常用时间函数 to_date ,datediff
大数据·sql·spark
计算机毕业编程指导师1 天前
【Python大数据选题】基于Spark+Django的电影评分人气数据可视化分析系统源码 毕业设计 选题推荐 毕设选题 数据分析 机器学习
大数据·hadoop·python·计算机·spark·django·电影评分人气
AI_56782 天前
从“内存溢出”到“稳定运行”——Spark OOM的终极解决方案
人工智能·spark
B站计算机毕业设计之家2 天前
基于大数据热门旅游景点数据分析可视化平台 数据大屏 Flask框架 Echarts可视化大屏
大数据·爬虫·python·机器学习·数据分析·spark·旅游
ha_lydms2 天前
Spark函数
大数据·分布式·spark
淡定一生23333 天前
数据仓库基本概念
大数据·数据仓库·spark
Lansonli3 天前
大数据Spark(七十五):Action行动算子foreachpartition和count使用案例
大数据·分布式·spark