问题:思路
现象:异常
python:error:错误信息
java:throw exception:错误信息
进程没有明显报错,比如你启动一个进程,看不到这个进程:找日志文件
日志文件:logs目录下面
查看日志:tail -100f logs/xxxxxx.log
分析错误
ArrayoutofIndex:数组越界,数组有五个数,下标从0开始最多只能取到4,多了就会报错
NullException:空指针异常,用到了一个值但是没有定义
classNotFound:类找不到
DG连接问题:
原理:jdbc:用java代码连接数据库
hive/sparksql:端口有区别
可以为同一个端口,只要不在同一台机器
一台机器的话,分开,hiveserver:10000 sparksql:10001,用什么端口都可以,自己配置
hiveserver.port = 100001
start-thriftserver.sh --hiveserver.port = 10001
mysql:hostname、prot、username、password
Oracle:hostname、prot、username、password、sid
驱动导入:自动导入:mysql、oracle
手动导入:hive、sparksql
step1:清空所有自带的包
step2:导入所有的包
cs模式设计问题
cs模式:客户端服务端模式,先启动客户端在启动服务端
client:客户端
hive:beeline、hue
server:服务端
hive:hiveserver2【负责解析sql语句】
hiveserver作为metastore的客户端
metastore作为hiveserver的服务端
先启动metastore,在启动hive
sparksql:thriftserver【负责解析sql语句转换为sparkcore程序】
放入hive-site.xml文件到spark的conf目录的目的?
让sparksql能够访问hive的元数据服务的地址:metastore,spark连metastore,metastore连hive
为了访问hive
不放也可以就是访问不了hive的元数据
docker环境启动thrifserver或者hiveserver的启动顺序
docker start hadoop
docker start hive
docker start spark