进入目录

cd /opt/installs/anaconda3/lib/python3.8/site-packages/pyspark/jars

上传jar包：mysql-connector-java-5.1.32.jar

例：

1. 从文件读取

(1) CSV 文件

复制代码

df = spark.read \
    .format("csv") \
    .option("header", "true") \  # 包含标题行
    .option("inferSchema", "true") \  # 自动推断数据类型
    .load("/path/to/file.csv")

(2) JSON 文件

复制代码

df = spark.read \
    .format("json") \
    .load("/path/to/file.json")

(3) Parquet 文件 (列式存储)

复制代码

df = spark.read \
    .format("parquet") \
    .load("/path/to/file.parquet")

(4) ORC 文件

复制代码

df = spark.read \
    .format("orc") \
    .load("/path/to/file.orc")

2. 从 JDBC 数据库读取

复制代码

df = spark.read \
    .format("jdbc") \
    .option("url", "jdbc:mysql://host:port/db") \
    .option("dbtable", "table_name") \
    .option("user", "username") \
    .option("password", "password") \
    .load()

3. 从 Hive 表读取

复制代码

df = spark.sql("SELECT * FROM hive_database.table_name")

4. 通用读取方法

支持通过格式名直接调用：

复制代码

# 等效方法
df = spark.read.csv("/path/to/file.csv", header=True)
df = spark.read.json("/path/to/file.json")
df = spark.read.parquet("/path/to/file.parquet")

5. 高级配置选项

参数	说明	示例值
`sep`	分隔符 (CSV)	`";"`
`encoding`	文件编码	`"UTF-8"`
`mergeSchema`	合并多个 Parquet 文件的 Schema	`"true"`
`query`	JDBC 自定义查询语句	`"(SELECT col1 FROM t)"`

6. 示例：读取带特殊配置的 CSV

复制代码

df = spark.read \
    .option("sep", "|") \  # 管道分隔符
    .option("nullValue", "N/A") \  # 自定义空值标识
    .option("dateFormat", "yyyy-MM-dd") \  # 日期格式
    .csv("/data/sales_records.csv")

最佳实践

优先使用 Parquet/ORC 等列式格式提升性能

大数据集避免 inferSchema，显式定义 Schema

JDBC 连接添加 fetchsize 优化吞吐量

sparkSQL读取数据的方式

进入目录

上传jar包：mysql-connector-java-5.1.32.jar

1. 从文件读取

(1) CSV 文件

(2) JSON 文件

(3) Parquet 文件 (列式存储)

(4) ORC 文件

2. 从 JDBC 数据库读取

3. 从 Hive 表读取

4. 通用读取方法

5. 高级配置选项

6. 示例：读取带特殊配置的 CSV