Spark-SQL核心编程

  1. Spark-SQL连接Hive概述:Spark SQL编译时可选择包含Hive支持,包含后能支持Hive表访问、UDF、HQL等功能,且无需事先安装Hive,编译时引入Hive支持为佳。

  2. 连接方式

内嵌Hive:使用简单,直接可用,但实际生产中很少使用。

外部Hive:在spark-shell中连接外部Hive,需拷贝hive-site.xml到conf/目录并修改其中的url、将MySQL驱动拷贝到jars/目录、把core-site.xml和hdfs-site.xml拷贝到conf/目录,最后重启spark-shell。

代码操作Hive:先导入spark-hive_2.12和hive-exec依赖;接着把hive-site.xml拷贝到项目resources目录;然后编写代码设置Spark配置、启用Hive支持。若报错,可设置HADOOP_USER_NAME解决;还可通过配置修改数据库仓库地址,解决数据库位置异常问题。

相关推荐
刘天远36 分钟前
深度解析企业风控API技术实践:构建全方位企业风险画像系统
大数据·数据库·数据分析
后院那片海40 分钟前
GFS分布式文件系统
大数据·服务器·数据库
IT_10242 小时前
Spring Boot的Security安全控制——应用SpringSecurity!
大数据·spring boot·后端
盟接之桥2 小时前
国产替代新标杆|盟接之桥EDI软件让中国制造连接世界更安全、更简单、更有底气
大数据
RestCloud4 小时前
ETLCloud中数据生成规则使用技巧
大数据·服务器·数据库·etl·数字化转型·数据处理·集成平台
Jack_hrx9 小时前
从0到1构建高并发秒杀系统:实战 RocketMQ 异步削峰与Redis预减库存
大数据·rocketmq·高并发·秒杀系统实战·异步削峰
Double@加贝10 小时前
MaxCompute的Logview分析详解
大数据·阿里云·dataworks·maxcompute
Mikhail_G12 小时前
Python应用八股文
大数据·运维·开发语言·python·数据分析
Elastic 中国社区官方博客16 小时前
JavaScript 中的 ES|QL:利用 Apache Arrow 工具
大数据·开发语言·javascript·elasticsearch·搜索引擎·全文检索·apache
lifallen18 小时前
Flink task、Operator 和 UDF 之间的关系
java·大数据·flink