在开发过程中遇到问题如何解决,以及两个经典问题

问题:思路

现象:异常

python:error:错误信息

java:throw exception:错误信息

进程没有明显报错,比如你启动一个进程,看不到这个进程:找日志文件

日志文件:logs目录下面

查看日志:tail -100f logs/xxxxxx.log

分析错误

ArrayoutofIndex:数组越界,数组有五个数,下标从0开始最多只能取到4,多了就会报错

NullException:空指针异常,用到了一个值但是没有定义

classNotFound:类找不到

DG连接问题:

原理:jdbc:用java代码连接数据库

hive/sparksql:端口有区别

可以为同一个端口,只要不在同一台机器

一台机器的话,分开,hiveserver:10000 sparksql:10001,用什么端口都可以,自己配置

hiveserver.port = 100001

start-thriftserver.sh --hiveserver.port = 10001

mysql:hostname、prot、username、password

Oracle:hostname、prot、username、password、sid

驱动导入:自动导入:mysql、oracle

手动导入:hive、sparksql

step1:清空所有自带的包

step2:导入所有的包

cs模式设计问题

cs模式:客户端服务端模式,先启动客户端在启动服务端

client:客户端

hive:beeline、hue

server:服务端

hive:hiveserver2【负责解析sql语句】

hiveserver作为metastore的客户端

metastore作为hiveserver的服务端

先启动metastore,在启动hive

sparksql:thriftserver【负责解析sql语句转换为sparkcore程序】

放入hive-site.xml文件到spark的conf目录的目的?

让sparksql能够访问hive的元数据服务的地址:metastore,spark连metastore,metastore连hive

为了访问hive

不放也可以就是访问不了hive的元数据

docker环境启动thrifserver或者hiveserver的启动顺序

docker start hadoop

docker start hive

docker start spark

相关推荐
r-t-H2 小时前
从零开始搭建CDH-第十四章
spark·kafka·centos·cloudera
juniperhan3 小时前
Flink 系列第25篇:Flink SQL 集成 Hive 实践:流批一体下的实时数仓利器
大数据·数据仓库·hive·分布式·sql·flink
Irene19914 小时前
Sqoop 安装完整教程(基于 WSL2 + Ubuntu 24.04)
hadoop·ubuntu·sqoop
zandy101120 小时前
2026 BI平台与数据中台融合架构实践:从数据烟囱到统一智能数据层
大数据·架构·spark
zhojiew1 天前
使用AWS中国区Lambda集成Glue Schema Registry消费Kafka消息的实践
大数据·spark·etl
r-t-H2 天前
从零开始搭建CDH-第十二章
linux·hive·spark·centos·hbase
m0_639310792 天前
大数据技术原理-HDFS的安装与应用
java·大数据·jvm·hadoop·spring·hdfs·eclipse
188105069632 天前
摸鱼事务所——团队作业——大模型评测作业
大数据·hadoop·分布式
我思故我在78962 天前
hdfs文件系统
大数据·hadoop·hdfs
大连赵哥2 天前
分布式文件存储系统:Hadoop HDFS
hadoop·分布式·hdfs