【大数据】Apache Superset:可视化开源架构

Apache Superset是什么

Apache Superset 是一个开源的现代化数据可视化和数据探索平台,主要用于帮助用户以交互式的方式分析和展示数据。有不少丰富的可视化组件,可以将数据从多种数据源(如 SQL 数据库、数据仓库、NoSQL 数据库等)中提取并以图表、表格、仪表盘等形式进行展示。

支持连接多种数据源,如 MySQL、PostgreSQL、SQLite、Apache Druid、Presto、Google BigQuery 等。

官方网站:https://superset.apache.org/


Ubuntu18.04裸机部署Superset 4.0

1.更新系统

powershell 复制代码
sudo apt update && sudo apt upgrade -y

2.安装python3.9(apache superset4.0依赖3.9及以上版本python)

注意:不能使用3.9以下版本,不然会有很多问题!

安装python3.9:

powershell 复制代码
wget https://www.python.org/ftp/python/3.9.18/Python-3.9.18.tgz
sudo apt install build-essential zlib1g-dev libncurses5-dev libgdbm-dev libnss3-dev libssl-dev libreadline-dev libffi-dev libsqlite3-dev libbz2-dev
tar xf Python-3.9.18.tgz
cd Python-3.9.18/
./configure --enable-optimizations
sudo make altinstall
python3.9 --version

3.安装数据库并配置(PostgreSQL)

powershell 复制代码
sudo apt install -y postgresql postgresql-contrib
sudo -u postgres psql
CREATE USER superset_user WITH ENCRYPTED PASSWORD 'Superset123!';#your_password
CREATE DATABASE superset OWNER superset_user;
GRANT ALL PRIVILEGES ON DATABASE superset TO superset_user;
\q

4.创建superset文件:/opt/superset/superset_config.py

powershell 复制代码
sudo mkdir -p /opt/superset/
sudo nano /opt/superset/superset_config.py

写入:

powershell 复制代码
#SQLALCHEMY_DATABASE_URI = 'sqlite:path/to/superset.db'
## 格式为 "协议://用户:密码@数据库地址/数据库名",注意数据库密码中不要包含 @ 字符,如存在记得改掉
## 下面分别为 MySQL 和 PostgreSQL 配置,按需使用
#SQLALCHEMY_DATABASE_URI = 'mysql://superset_user:Superset123!@localhost/superset'
SQLALCHEMY_DATABASE_URI = 'postgresql://superset_user:Superset123!@localhost/superset'

# Flask-WTF flag for CSRF
WTF_CSRF_ENABLED = True
# Add endpoints that need to be exempt from CSRF protection
WTF_CSRF_EXEMPT_LIST = []
# A CSRF token that expires in 1 year
WTF_CSRF_TIME_LIMIT = 60 * 60 * 24 * 365

# Set this API key to enable Mapbox visualizations
MAPBOX_API_KEY = ''

## 下面为缓存配置,先注释,存在兼容性问题尚未解决
#CACHE_CONFIG = {
#    "CACHE_TYPE": "RedisCache",
#    "CACHE_DEFAULT_TIMEOUT": 300,
#    "CACHE_KEY_PREFIX": "superset_",
#    'CACHE_REDIS_URL': 'redis://0.0.0.0:6379/0'
#}
#DATA_CACHE_CONFIG = CACHE_CONFIG

5.进入python虚拟环境并做配置

powershell 复制代码
python3.9 -m venv superset-venv
source superset-venv/bin/activate

提示:如果要退出虚拟环境,使用deactivate命令。

安装数据库引擎:

powershell 复制代码
pip3 install wheel
#PostgreSQL (需要安装依赖 libpq-dev)
sudo apt update
sudo apt install libpq-dev
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple psycopg2

安装PIL依赖:

powershell 复制代码
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pillow

6.安装apache superset4.0并做配置

powershell 复制代码
pip install --upgrade pip setuptools
pip install apache-superset

环境变量手动指定配置文件地址:

powershell 复制代码
export SUPERSET_CONFIG_PATH=/opt/superset/superset_config.py
export FLASK_APP=superset

7.初始化apache superset

powershell 复制代码
#初始化数据库
superset db upgrade
#创建管理员账户
superset fab create-admin
#初始化默认角色和权限
superset init
#可选,数据量较大,需要等待较长时间
superset load_examples
#启动Superset
superset run -h 0.0.0.0 -p 8088 --with-threads --reload --debugger

初始化成功后,Superset在http://localhost:8088上运行。

8.系统启动后手动启动方式

powershell 复制代码
source superset-venv/bin/activate
export SUPERSET_CONFIG_PATH=/opt/superset/superset_config.py
export FLASK_APP=superset
export SUPERSET_SECRET_KEY="oh-so-secret"
#启动Superset
superset run -h 0.0.0.0 -p 8088 --with-threads --reload --debugger

常见问题

问题1:如果执行superset db upgrade报错:Error: Could not locate a Flask application. Use the 'flask --app' option, 'FLASK_APP' environment variable, or a 'wsgi.py' or 'app.py' file in the current directory.

执行以下:

powershell 复制代码
export FLASK_APP=superset
superset db upgrade

问题2:如果执行命令提示:

(superset-venv) sds@sds:~$ superset db upgrade: Refusing to start due to insecure SECRET_KEY

执行:export SUPERSET_SECRET_KEY="oh-so-secret" 忽略安全性验证。

问题3:如果提示"No PIL installation found"。

执行:

powershell 复制代码
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pillow

问题4:如果提示:sqlalchemy.exc.OperationalError: (sqlite3.OperationalError) near "extra": syntax error

是由于superset默认使用sqlite数据库,其版本本身存在问题,解决方法要么重新安装sqlite,要么使用其他数据库即可。

推荐使用PostgreSQL。

问题5:如果执行"superset load_examples"下载示例数据报错:ConnectionRefusedError: [Errno 111] Connection refused。

是由于无法访问外网导致,执行以下命令使用代理联系外网:

powershell 复制代码
export http_proxy="http://192.168.31.13:7890"
export https_proxy="http://192.168.31.13:7890"
export socks_proxy="socks5://192.168.31.13:7891"
相关推荐
一个数据大开发10 分钟前
数据资产价值及其实现路径-简答题回顾
大数据·数据仓库·数据
南棱笑笑生2 小时前
20250426在ubuntu20.04.2系统上打包NanoPi NEO开发板的FriendlyCore系统刷机eMMC的固件
大数据·elasticsearch·搜索引擎
九河云2 小时前
中药企业数字化转型:从传统制造到智能制药的跨越
大数据·人工智能·科技·重构·制造
L_pyu2 小时前
flume整合kafka
大数据·spark
塔能物联运维3 小时前
解析塔能科技:绿色低碳智慧节能一站式破局之匙
大数据·人工智能·物联网
南客先生3 小时前
Java在云计算、大数据、云原生下的应用和优势 - 面试实战
java·大数据·微服务·云原生·云计算·容器化·分布式计算
瞎胡侃14 小时前
Spark读取Apollo配置
大数据·spark·apollo
悻运14 小时前
如何配置Spark
大数据·分布式·spark
懒惰的橘猫14 小时前
Spark集群搭建之Yarn模式
大数据·分布式·spark
2401_8242568614 小时前
Spark-Streaming
大数据·分布式·spark