在开发过程中遇到问题如何解决,以及两个经典问题

问题:思路

现象:异常

python:error:错误信息

java:throw exception:错误信息

进程没有明显报错,比如你启动一个进程,看不到这个进程:找日志文件

日志文件:logs目录下面

查看日志:tail -100f logs/xxxxxx.log

分析错误

ArrayoutofIndex:数组越界,数组有五个数,下标从0开始最多只能取到4,多了就会报错

NullException:空指针异常,用到了一个值但是没有定义

classNotFound:类找不到

DG连接问题:

原理:jdbc:用java代码连接数据库

hive/sparksql:端口有区别

可以为同一个端口,只要不在同一台机器

一台机器的话,分开,hiveserver:10000 sparksql:10001,用什么端口都可以,自己配置

hiveserver.port = 100001

start-thriftserver.sh --hiveserver.port = 10001

mysql:hostname、prot、username、password

Oracle:hostname、prot、username、password、sid

驱动导入:自动导入:mysql、oracle

手动导入:hive、sparksql

step1:清空所有自带的包

step2:导入所有的包

cs模式设计问题

cs模式:客户端服务端模式,先启动客户端在启动服务端

client:客户端

hive:beeline、hue

server:服务端

hive:hiveserver2【负责解析sql语句】

hiveserver作为metastore的客户端

metastore作为hiveserver的服务端

先启动metastore,在启动hive

sparksql:thriftserver【负责解析sql语句转换为sparkcore程序】

放入hive-site.xml文件到spark的conf目录的目的?

让sparksql能够访问hive的元数据服务的地址:metastore,spark连metastore,metastore连hive

为了访问hive

不放也可以就是访问不了hive的元数据

docker环境启动thrifserver或者hiveserver的启动顺序

docker start hadoop

docker start hive

docker start spark

相关推荐
迈巴赫车主6 小时前
大数据:Hadoop(HDFS)
大数据·hadoop·hdfs
hf2000126 小时前
零成本迁移,原地加速,成本降低60%:火花思维基于云器Lakehouse升级实践
大数据·分布式·spark·lakehouse
talen_hx2968 小时前
《零基础入门Spark》学习笔记 Day 04
大数据·笔记·学习·spark
D愿你归来仍是少年8 小时前
Apache Spark 详细讲解第 7 章:Shuffle 机制深度解析
大数据·spark·apache
Code知行合壹1 天前
Spark使用总结
大数据·分布式·spark
zhojiew1 天前
[INFRA] EMR集群中Hive和Spark集成Glue Data Catalog过程的深入分析
hive·hadoop·spark·aws·bigdata
bukeyiwanshui1 天前
Hive的使用
数据仓库·hive·hadoop
添柴少年yyds2 天前
hive锁机制
数据仓库·hive·hadoop
蓝眸少年CY2 天前
Hive - 安装与使用
数据仓库·hive·hadoop
鸿乃江边鸟2 天前
Spark DynamicJoinSelection 规则根据AQE统计信息动态调整Join策略
大数据·spark