Atlas 2.2.0 安装部署

Apache Atlas 是一套可扩展、可延伸的核心基础治理服务,使企业能够切实有效地满足 Hadoop 中的合规性要求,并允许与整个企业数据生态系统集成。

Apache Atlas 提供开放的元数据管理和治理功能,使企业能够建立数据资产目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作功能。

在实际应用中,Atlas 主要用于查看数据血缘,下面我们来看一下 Atlas-2.2.0 的安装部署步骤。

前提

使用 Atlas 的前提是你已经安装好了 Hadoop、Zookeeper、HBase、Hive、Kafka(不是说只能同步 Hive 元数据,是我个人目前只考虑同步 Hive 元数据)

编译 Atlas

Atlas 只提供了源码包,需要自己进行编译,首先点击这里下载源码包apache-atlas-2.2.0-sources下载地址

下载之后,将源码包上传至服务器某个路径下,进行解压,并切换至解压后的目录

复制代码
tar -zxvf apache-atlas-2.2.0-sources
cd apache-atlas-sources-2.2.0

执行如下命令进行编译

复制代码
mvn clean -DskipTests install

编译过程中如果出现了类似与下面的报错

ERROR\] Failed to execute goal on project atlas-testtools: Could not resolve dependencies for project org.apache.atlas:atlas-testtools:jar:2.3.0: Failed to collect dependencies at org.apache.solr:solr-test-framework:jar:8.6.3 -\> org.restlet.jee:org.restlet:jar:2.4.3: Failed to read artifact descriptor for org.restlet.jee:org.restlet:jar:2.4.3: Could not transfer artifact org.restlet.jee:org.restlet:pom:2.4.3 from/to maven-restlet (https://maven.restlet.com): Transfer failed for https://maven.restlet.com/org/restlet/jee/org.restlet/2.4.3/org.restlet-2.4.3.pom: PKIX path validation failed: ...

可以尝试一下这个命令:

复制代码
mvn -DskipTests -Dmaven.wagon.http.ssl.ignore.validity.dates=true -Dmaven.wagon.http.ssl.allowall=true -Dmaven.wagon.http.ssl.insecure=true  clean install

看到 BUILD SUCCESS 证明编译成功。

INFO\] ------------------------------------------------------------------------ \[INFO\] BUILD SUCCESS \[INFO\] ------------------------------------------------------------------------

打包 Atlas

编译完成后还需要进行打包,Atlas 提供了如下三种打包方式:(在 apache-atlas-sources-2.2.0 目录执行以下命令)

  1. mvn clean -DskipTests package -Pdist
  2. mvn clean -DskipTests package -Pdist,embedded-hbase-solr
  3. mvn clean package -Pdist,embedded-cassandra-solr

其中:

  • 方式 1 表示使用外部组件;
  • 方式 2 表示使用内置的 HBase 和 Solr;
  • 方式 3 表示使用内置的 cassandra 和 Solr

由于我没有安装过 Solr,我选择的是第二种,但是,使用内置 HBase 时各种报错,后面通过修改配置文件改用了外部 HBase(非 Atlas 内置 HBase)

打包过程中出现的报错一般是缺少某个包,在 maven下载后上传至指定目录即可(参考报错日志)

安装 Atlas

打包完成后就可以安装了,进入 /opt/module/apache-atlas-sources-2.2.0/distro/target

解压 apache-atlas-2.2.0-server.tar.gz

复制代码
tar -zxvf apache-atlas-2.2.0-server.tar.gz

移动目录

复制代码
mv apache-atlas-2.2.0 /opt/module

进入 /opt/module/apache-atlas-2.2.0/conf 修改 atlas-application.properties 关键信息如下:

复制代码
atlas.graph.storage.hostname=hadoop102:2181,hadoop103:2181,hadoop104:2181

atlas.kafka.data=/opt/module/kafka_2.12-3.0.0/atlaslogs
atlas.kafka.zookeeper.connect=hadoop102:2181,hadoop103:2181,hadoop104:2181/kafka
atlas.kafka.bootstrap.servers=hadoop102:9092,hadoop103:9092,hadoop104:9092

atlas.kafka.enable.auto.commit=true

atlas.rest.address=http://hadoop102:21000

atlas.audit.hbase.zookeeper.quorum=hadoop102:2181,hadoop103:2181,hadoop104:2181

修改 atlas-env.sh 关键信息如下:

复制代码
export JAVA_HOME=/opt/module/jdk1.8.0_212

export MANAGE_LOCAL_HBASE=false

export HBASE_CONF_DIR=/opt/module/hbase/conf

atlas-application.properties 复制到 Hive 配置文件目录

复制代码
cp atlas-application.properties /opt/module/hive/conf

启动 Atlas

依次启动 Hadoop、Zookeeper、HBase、Kafka、Hive

将 Atlas 主目录添加到 profile 文件

复制代码
sudo vim /etc/profile.d/my_env.sh

#添加如下内容
#ATLAS_HOME
export ATLAS_HOME=/opt/module/apache-atlas-2.2.0
export PATH=$PATH:$ATLAS_HOME/bin
#保存退出

source /etc/profile.d/my_env.sh

切换至 Atlas 主目录 /opt/module/apache-atlas-2.2.0

初次启动时,执行如下三条命令

复制代码
bin/atlas_start.py

bin/atlas_stop.py

bin/atlas_start.py

如果正常启动可以看到如下日志:

复制代码
[omc@hadoop102 apache-atlas-2.2.0]$ bin/atlas_start.py
/opt/module/hbase/conf

Configured for local Solr.
Starting local Solr...
Local Solr started!

Creating Solr collections for Atlas using config: /opt/module/apache-atlas-2.2.0/conf/solr

Starting Atlas server on host: localhost
Starting Atlas server on port: 21000
........................
Apache Atlas Server started!!!

[omc@hadoop102 apache-atlas-2.2.0]$

浏览器登陆 http://hadoop102:21000/login.jsp

用户名密码都是 admin

登录之后可以看到如下页面

到这里,安装部署就介绍完了,大家有问题可以私信我或者留言,码字不易,一键三连啊,朋友们~~

相关推荐
私域实战笔记11 分钟前
SCRM平台对比推荐:以企业微信私域运营需求为核心的参考
大数据·人工智能·企业微信·scrm·企业微信scrm
艾莉丝努力练剑1 小时前
【Git:基本操作】深度解析Git:从初始Git到熟悉基本操作
大数据·linux·c++·人工智能·git·gitee·指令
猫猫姐姐1 小时前
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
大数据·人工智能·sql·flink
武子康1 小时前
大数据-142 ClickHouse分片×副本×Distributed 实战 ReplicatedMergeTree、Keeper、insert_quorum
大数据·后端·nosql
月屯3 小时前
es大页读取
大数据·elasticsearch·搜索引擎
hexionly4 小时前
数据仓库·简介(一)
大数据·数据仓库
TDengine (老段)4 小时前
TDengine 数学函数 TRUNCATE 用户手册
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
TDengine (老段)4 小时前
TDengine 数据函数 CORR 用户手册
大数据·数据库·物联网·时序数据库·tdengine·1024程序员节
隐语SecretFlow11 小时前
【隐语SecretFlow】由蚂蚁集团牵头制定的“隐私保护计算安全分级”IEEE国际标准已正式发布!
大数据·网络·安全
微三云、小叶14 小时前
裂变速度提升300%!279模式如何盘活一个私域商城
大数据·软件开发·商业模式·小程序商城·本地生活·商业思维