spark读取csv文件

测试spark读取本地和hdfs文件

python 复制代码
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Example PySpark Script") \
    .getOrCreate()

# 读取本地csv文件
df = spark.read.csv("/Users/xiaokkk/Desktop/local_projects/spark/intents.csv", header=True, inferSchema=True)
# 显示前几行数据
df.show(5)
# 读取HDFS的csv文件
df = spark.read.csv("hdfs://127.0.0.1:9001/data/intents.csv", header=True, inferSchema=True)
df.show(5)
相关推荐
!chen1 小时前
大数据技术领域发展与Spark的性能优化
大数据·性能优化·spark
大鳥3 小时前
Hive on Spark SQL 性能优化权威指南
hive·sql·spark
Lansonli4 小时前
大数据Spark(七十七):Action行动算子first、collect和collectAsMap使用案例
大数据·分布式·spark
计算机毕业编程指导师4 小时前
【计算机毕设选题】基于Spark的拉勾网招聘数据分析系统源码,Python+Django全流程
大数据·hadoop·python·spark·django·招聘·拉勾网
m0_748254662 天前
Perl 变量类型
spark·scala·perl
鸿乃江边鸟2 天前
Spark Datafusion Comet 向量化Rule--CometScanRule分析
大数据·spark·native
浊酒南街2 天前
spark sql 中LENGTH 和 SIZE 函数介绍
sql·spark
青云交2 天前
Java 大视界 -- Java+Spark 构建离线数据仓库:分层设计与 ETL 开发实战(445)
java·数据仓库·spark·分层设计·java+spark·离线数据仓库·etl 开发
yumgpkpm3 天前
基于GPU的Spark应用加速 Cloudera CDP/华为CMP鲲鹏版+Nvidia英伟达联合解决方案
大数据·数据库·人工智能·hadoop·elasticsearch·spark·cloudera
鸿乃江边鸟3 天前
Spark Datafusion Comet 向量化--ApplyColumnarRulesAndInsertTransitions规则
大数据·spark·native