在开发过程中遇到问题如何解决,以及两个经典问题

问题:思路

现象:异常

python:error:错误信息

java:throw exception:错误信息

进程没有明显报错,比如你启动一个进程,看不到这个进程:找日志文件

日志文件:logs目录下面

查看日志:tail -100f logs/xxxxxx.log

分析错误

ArrayoutofIndex:数组越界,数组有五个数,下标从0开始最多只能取到4,多了就会报错

NullException:空指针异常,用到了一个值但是没有定义

classNotFound:类找不到

DG连接问题:

原理:jdbc:用java代码连接数据库

hive/sparksql:端口有区别

可以为同一个端口,只要不在同一台机器

一台机器的话,分开,hiveserver:10000 sparksql:10001,用什么端口都可以,自己配置

hiveserver.port = 100001

start-thriftserver.sh --hiveserver.port = 10001

mysql:hostname、prot、username、password

Oracle:hostname、prot、username、password、sid

驱动导入:自动导入:mysql、oracle

手动导入:hive、sparksql

step1:清空所有自带的包

step2:导入所有的包

cs模式设计问题

cs模式:客户端服务端模式,先启动客户端在启动服务端

client:客户端

hive:beeline、hue

server:服务端

hive:hiveserver2【负责解析sql语句】

hiveserver作为metastore的客户端

metastore作为hiveserver的服务端

先启动metastore,在启动hive

sparksql:thriftserver【负责解析sql语句转换为sparkcore程序】

放入hive-site.xml文件到spark的conf目录的目的?

让sparksql能够访问hive的元数据服务的地址:metastore,spark连metastore,metastore连hive

为了访问hive

不放也可以就是访问不了hive的元数据

docker环境启动thrifserver或者hiveserver的启动顺序

docker start hadoop

docker start hive

docker start spark

相关推荐
鸿乃江边鸟15 分钟前
Spark Datafusion Comet 向量化Rust Native--执行Datafusion计划
大数据·rust·spark·native
小邓睡不饱耶19 分钟前
Spark Streaming实时微博热文分析系统:架构设计与深度实现
大数据·分布式·spark
Zilliz Planet25 分钟前
<span class=“js_title_inner“>Spark做ETL,与Ray/Daft做特征工程的区别在哪里,如何选型?</span>
大数据·数据仓库·分布式·spark·etl
TTBIGDATA35 分钟前
【Ranger】Ambari开启Kerberos 后 ,Ranger 中 Hive 策略里,Resource lookup fail 线程池超时优化
大数据·数据仓库·hive·hadoop·ambari·hdp·ranger
uesowys44 分钟前
Apache Spark算法开发指导-Gradient-boosted tree classifier
人工智能·算法·spark
那就学有所成吧(˵¯͒¯͒˵)13 小时前
大数据项目(一):Hadoop 云网盘管理系统开发实践
大数据·hadoop·分布式
徐先生 @_@|||18 小时前
Spark DataFrame常见的Transformation和Actions详解
大数据·分布式·spark
走遍西兰花.jpg20 小时前
spark配置
大数据·分布式·spark
BYSJMG21 小时前
计算机毕业设计选题推荐:基于Hadoop的城市交通数据可视化系统
大数据·vue.js·hadoop·分布式·后端·信息可视化·课程设计
亚林瓜子1 天前
pyspark分组计数
python·spark·pyspark·分组统计