Spark读写Hive

Spark读写Hive

文章目录

(一)配置本地域名映射

1.查看集群配置

在Linux查看hosts文件

bash 复制代码
vi /etc/hosts

2.将Linux中查看到的域名配置到Windows本地的hosts文件中

path 复制代码
C:\Windows\System32\drivers\etc\hosts

注意:此文件有权限限制,不能直接修改,修改的办法:搜索记事本,使用管理员身份打开记事本,然后从记事本打开hosts文件,然后再修改

(二)创建Hive表

1.要保证Hadoop集群是正常启动的

master和slave1节点上要能看到namenode守护进程

2.本地编辑一个t_student.txt文件

bash 复制代码
vi ~/t_student.txt

写入数据

txt 复制代码
1,zhangsan,male,18
2,lisi,female,20

保存并退出

3.上传文件到HDFS根目录

bash 复制代码
hdfs dfs -put ~/.t_student.txt /

4.进入hive

bash 复制代码
hive

5.创建数据库

sql 复制代码
--创建数据库
create database sparktest;

--使用数据库
use spark test;

--创建表
create table student(id int, name string, gender string, age int) row format delimited fields terminated by "," stored as textfile ;
--row format delimited fields terminated by "," 指定列分隔符为英文的逗号
--stored as textfile 存储为文本文件

--加载数据
load data inpath "/t_student.txt" overwrite into table student;
--load data加载数据
--inpath 指定路径
--"/t_student.txt" 具体的HDFS的路径
--overwrite into 覆盖写入
--table 指定表
--student 具体的表名

当执行完load data操作后,hdfs根目录下的t_student.txt文件会被移动到hive的数据目录下

6.查看数据

sql 复制代码
select * from student;

(三)IDEA中编写Spark代码读取Hive数据

1.环境配置

将hive-site.xml(路径: H I V E H O M E / c o n f )、 c o r e − s i t e . x m l 、 h d f s − s i t e . x m l (路径: HIVE_HOME/conf)、core-site.xml、hdfs-site.xml(路径: HIVEHOME/conf)、core−site.xml、hdfs−site.xml(路径:HADOOP_HOME/etc/hadoop)复制到IDEA项目的resource目录下

2.编写代码

scala 复制代码
import org.apache.spark.sql.SparkSession

/**
 * 使用DataFrame读取Hive表
 */
object spark_read_hive {
  def main(args: Array[String]): Unit = {

    //指定本地用户为root
    System.setProperty("HADOOP_USER_NAME","root")

    //创建SparkSession,作用:连接Spark
    val spark = SparkSession
      .builder()
      .master("local[*]") //指定运行的方式哦
      .appName("spark_read_hive") //程序的名字
      .enableHiveSupport() //开启Hive支持
      .getOrCreate()

    //查询Hive表
    //sparktest.student 数据库名.表名
    val df = spark.sql("select * from student");
    df.show()
  }
}

(四)IDEA中编写Spark代码写入数据到Hive

scala 复制代码
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}

/**
 * 使用DataFrame写入数据到Hive
 */
object spark_write_hive {
  def main(args: Array[String]): Unit = {

    //指定本地用户为root
    System.setProperty("HADOOP_USER_NAME", "root")

    //创建SparkSession,作用:连接Spark
    val spark = SparkSession
      .builder()
      .master("local[*]") //指定运行的方式哦
      .appName("spark_write_hive") //程序的名字
      .enableHiveSupport() //开启Hive支持
      .getOrCreate()

    //创建DataFrame
    //1. 创建schema
    val schema = StructType(List(
      StructField("id", IntegerType, true),
      StructField("name", StringType, true),
      StructField("gender", StringType, true),
      StructField("age", IntegerType, true)
    ))

    //2. 创建rows
    //2.1 创建RDD
    val dataRDD = spark.sparkContext.parallelize(Array(
      Array(3, "张三", "男", 18),
      Array(4, "李四", "女", 20)
    ))
    //2.2 创建rows
    val rows = dataRDD.map(x => Row(x(0), x(1), x(2), x(3)))
    //3. 合并
    val df = spark.createDataFrame(rows,schema)

    //在控制台显示DataFrame的内容
    //df.show()

    //写入Hive
    //方法一:通过临时表使用SQL语句添加数据
    df.createOrReplaceTempView("tmpTable")
    spark.sql("insert into student select * from tmpTable")
  }
}
相关推荐
大树8811 小时前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
大志哥12311 小时前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch
摇滚侠12 小时前
IDEA 创建 Java 项目 手动整合 SSM 框架
java·ide·intellij-idea
果丁智能13 小时前
物联网智能锁赋能集中式住宿:身份核验与远程权限管控的全链路技术实践
大数据·人工智能·物联网·智能家居
王小王-12313 小时前
基于 Hive 的网易云音乐数据分析及可视化系统
hive·hadoop·数据分析·音乐数据分析·网易云音乐分析·hive音乐分析·hadoop网易云
ApacheSeaTunnel13 小时前
实战演示 | 基于 Apache SeaTunnel 与 Apache DolphinScheduler 实现 MySQL 到 Doris 离线定时增量同步
大数据·mysql·开源·doris·数据集成·seatunnel·数据同步
weixin_3975740913 小时前
PDF复杂表格的1:1还原引擎:跨页表格自动拼接技术实战
大数据·人工智能·pdf
极光代码工作室14 小时前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
秋名山码民14 小时前
Graph RAG 深度解析:从向量检索到知识推理的技术演进
大数据·人工智能·rag
JLWcai2025100914 小时前
铸造领域树脂砂轮|金利威多场景解决方案,20 + 配方覆盖全需求
mongodb·zookeeper·eureka·spark·rabbitmq·memcached·storm