spark读取csv文件

测试spark读取本地和hdfs文件

python 复制代码
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Example PySpark Script") \
    .getOrCreate()

# 读取本地csv文件
df = spark.read.csv("/Users/xiaokkk/Desktop/local_projects/spark/intents.csv", header=True, inferSchema=True)
# 显示前几行数据
df.show(5)
# 读取HDFS的csv文件
df = spark.read.csv("hdfs://127.0.0.1:9001/data/intents.csv", header=True, inferSchema=True)
df.show(5)
相关推荐
潘达斯奈基~3 小时前
spark性能优化2:Window操作和groupBy操作的区别
大数据·性能优化·spark
yumgpkpm7 小时前
CMP(类Cloudera CDP 7.3 404版华为泰山Kunpeng)和Apache Doris的对比
大数据·hive·hadoop·spark·apache·hbase·cloudera
乌恩大侠18 小时前
DGX Spark 恢复系统
大数据·分布式·spark
梦里不知身是客111 天前
spark读取table中的数据【hive】
大数据·hive·spark
赞奇科技Xsuperzone2 天前
DGX Spark 实战解析:模型选择与效率优化全指南
大数据·人工智能·gpt·spark·nvidia
更深兼春远2 天前
Spark on Yarn安装部署
大数据·分布式·spark
涤生大数据2 天前
日均亿级数据的实时分析:Doris如何接过Spark的接力棒?
大数据·spark·doris·实时计算·大数据开发·实时分析·实时技术
Hello.Reader3 天前
Spark RDD 编程从驱动程序到共享变量、Shuffle 与持久化
大数据·分布式·spark
梦里不知身是客114 天前
sparkSQL读取数据的方式
spark
少废话h4 天前
Spark 中数据读取方式详解:SparkSQL(DataFrame)与 SparkCore(RDD)方法对比及实践
大数据·sql·spark