在开发过程中遇到问题如何解决,以及两个经典问题

问题:思路

现象:异常

python:error:错误信息

java:throw exception:错误信息

进程没有明显报错,比如你启动一个进程,看不到这个进程:找日志文件

日志文件:logs目录下面

查看日志:tail -100f logs/xxxxxx.log

分析错误

ArrayoutofIndex:数组越界,数组有五个数,下标从0开始最多只能取到4,多了就会报错

NullException:空指针异常,用到了一个值但是没有定义

classNotFound:类找不到

DG连接问题:

原理:jdbc:用java代码连接数据库

hive/sparksql:端口有区别

可以为同一个端口,只要不在同一台机器

一台机器的话,分开,hiveserver:10000 sparksql:10001,用什么端口都可以,自己配置

hiveserver.port = 100001

start-thriftserver.sh --hiveserver.port = 10001

mysql:hostname、prot、username、password

Oracle:hostname、prot、username、password、sid

驱动导入:自动导入:mysql、oracle

手动导入:hive、sparksql

step1:清空所有自带的包

step2:导入所有的包

cs模式设计问题

cs模式:客户端服务端模式,先启动客户端在启动服务端

client:客户端

hive:beeline、hue

server:服务端

hive:hiveserver2【负责解析sql语句】

hiveserver作为metastore的客户端

metastore作为hiveserver的服务端

先启动metastore,在启动hive

sparksql:thriftserver【负责解析sql语句转换为sparkcore程序】

放入hive-site.xml文件到spark的conf目录的目的?

让sparksql能够访问hive的元数据服务的地址:metastore,spark连metastore,metastore连hive

为了访问hive

不放也可以就是访问不了hive的元数据

docker环境启动thrifserver或者hiveserver的启动顺序

docker start hadoop

docker start hive

docker start spark

相关推荐
yumgpkpm13 小时前
CMP (类ClouderaCDP7.3(404次编译) )华为鲲鹏Aarch64(ARM)信创环境 查询2100w行 hive 查询策略
数据库·数据仓库·hive·hadoop·flink·mapreduce·big data
K_i1341 天前
Hadoop 集群自动化运维实战
运维·hadoop·自动化
Q26433650232 天前
【有源码】基于Python与Spark的火锅店数据可视化分析系统-基于机器学习的火锅店综合竞争力评估与可视化分析-基于用户画像聚类的火锅店市场细分与可视化研究
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计
潘达斯奈基~2 天前
spark性能优化1:通过依赖关系重组优化Spark性能:宽窄依赖集中处理实践
大数据·性能优化·spark
starfalling10242 天前
【hive】一种高效增量表的实现
hive
顧棟2 天前
【Yarn实战】Yarn 2.9.1滚动升级到3.4.1调研与实践验证
hadoop·yarn
D明明就是我2 天前
Hive 拉链表
数据仓库·hive·hadoop
蒙特卡洛的随机游走2 天前
Spark核心数据(RDD、DataFrame 和 Dataset)
大数据·分布式·spark
蒙特卡洛的随机游走2 天前
Spark的宽依赖与窄依赖
大数据·前端·spark