DolphinDB集群部署：从单机到分布式

- 摘要
- 一、为什么需要分布式集群
- - [1.1 单机瓶颈](#1.1 单机瓶颈)
  - [1.2 集群优势](#1.2 集群优势)
  - [1.3 适用场景](#1.3 适用场景)
- 二、DolphinDB集群架构
- - [2.1 架构总览](#2.1 架构总览)
  - [2.2 节点角色详解](#2.2 节点角色详解)
  - - [2.2.1 控制节点（Controller）](#2.2.1 控制节点（Controller）)
    - [2.2.2 数据节点（Data Node）](#2.2.2 数据节点（Data Node）)
    - [2.2.3 代理节点（Agent）](#2.2.3 代理节点（Agent）)
  - [2.3 数据分布策略](#2.3 数据分布策略)
- 三、集群部署实践
- - [3.1 环境准备](#3.1 环境准备)
  - - [3.1.1 硬件规划](#3.1.1 硬件规划)
    - [3.1.2 系统配置](#3.1.2 系统配置)
  - [3.2 安装DolphinDB](#3.2 安装DolphinDB)
  - [3.3 配置控制节点](#3.3 配置控制节点)
  - [3.4 配置代理节点](#3.4 配置代理节点)
  - [3.5 配置数据节点](#3.5 配置数据节点)
  - [3.6 启动集群](#3.6 启动集群)
  - - [3.6.1 启动控制节点](#3.6.1 启动控制节点)
    - [3.6.2 启动代理节点](#3.6.2 启动代理节点)
    - [3.6.3 启动数据节点](#3.6.3 启动数据节点)
  - [3.7 验证集群](#3.7 验证集群)
- 四、高可用架构设计
- - [4.1 控制节点高可用](#4.1 控制节点高可用)
  - [4.2 数据副本策略](#4.2 数据副本策略)
  - [4.3 故障自动转移](#4.3 故障自动转移)
- 五、集群运维管理
- - [5.1 节点管理](#5.1 节点管理)
  - [5.2 数据平衡](#5.2 数据平衡)
  - [5.3 监控告警](#5.3 监控告警)
  - - Prometheus监控
    - Grafana仪表盘
  - [5.4 日志管理](#5.4 日志管理)
- 六、性能优化
- - [6.1 内存优化](#6.1 内存优化)
  - [6.2 网络优化](#6.2 网络优化)
  - [6.3 磁盘优化](#6.3 磁盘优化)
  - [6.4 查询优化](#6.4 查询优化)
- 七、备份与恢复
- - [7.1 数据备份](#7.1 数据备份)
  - [7.2 数据恢复](#7.2 数据恢复)
  - [7.3 灾备方案](#7.3 灾备方案)
- 八、常见问题排查
- - [8.1 节点无法启动](#8.1 节点无法启动)
  - [8.2 数据分布不均](#8.2 数据分布不均)
  - [8.3 查询性能下降](#8.3 查询性能下降)
- 九、总结
- 参考资料

摘要

本文深入讲解DolphinDB分布式集群的架构设计与部署实践。从单机到集群的演进思路出发，详细介绍控制节点、数据节点、代理节点的角色分工，提供完整的集群配置文件示例和部署步骤。同时涵盖高可用架构设计、负载均衡配置、数据副本策略等进阶内容，帮助读者构建生产级的DolphinDB分布式集群。本文适合有一定DolphinDB基础、需要进行大规模数据处理的开发者阅读。

一、为什么需要分布式集群

1.1 单机瓶颈

随着业务规模增长，单机部署面临诸多挑战：
单机瓶颈
存储瓶颈
计算瓶颈
可用性瓶颈
磁盘容量有限
IO吞吐受限
CPU资源不足
内存容量受限
并发处理能力低
单点故障风险
无法在线扩容

1.2 集群优势

DolphinDB分布式集群的核心优势：

优势	说明	效果
水平扩展	增加节点即可扩展存储和计算能力	支持PB级数据
高可用	多副本数据冗余，自动故障转移	99.9%可用性
负载均衡	自动分配查询任务到多个节点	提升并发能力
弹性伸缩	动态增减节点，无需停机	灵活应对业务变化

1.3 适用场景

场景	数据规模	推荐架构
开发测试	<100GB	单机版
小型生产	100GB-1TB	3节点集群
中型生产	1TB-10TB	5-10节点集群
大型生产	>10TB	10+节点集群 + 高可用

二、DolphinDB集群架构

2.1 架构总览

数据层
代理层
控制层
客户端层
Web GUI
Python API
Java API
REST API
Controller

控制节点
元数据管理
任务调度
集群管理
Agent

代理节点1
Agent

代理节点2
Agent

代理节点3
DataNode1

数据节点1
DataNode2

数据节点2
DataNode3

数据节点3

2.2 节点角色详解

2.2.1 控制节点（Controller）

控制节点是集群的核心，负责：

职责	说明	重要性
元数据管理	存储数据库、表、分区等元信息	⭐⭐⭐⭐⭐
任务调度	分配查询任务到数据节点	⭐⭐⭐⭐
集群管理	监控节点状态、故障恢复	⭐⭐⭐⭐⭐
权限控制	用户认证与授权	⭐⭐⭐

2.2.2 数据节点（Data Node）

数据节点负责实际的数据存储和计算：

职责	说明	重要性
数据存储	存储分区数据	⭐⭐⭐⭐⭐
查询执行	执行SQL查询和计算	⭐⭐⭐⭐⭐
数据复制	多副本数据同步	⭐⭐⭐⭐
流计算	实时数据处理	⭐⭐⭐

2.2.3 代理节点（Agent）

代理节点部署在每个物理服务器上：

职责	说明	重要性
节点启停	启动和停止数据节点	⭐⭐⭐⭐
资源监控	监控CPU、内存、磁盘	⭐⭐⭐
日志收集	收集节点运行日志	⭐⭐⭐

2.3 数据分布策略

分区1
分区2
分区3
写入请求
Controller
分区路由
DataNode1
DataNode2
DataNode3
副本1
副本2

三、集群部署实践

3.1 环境准备

3.1.1 硬件规划

以3节点集群为例：

节点	IP地址	角色	配置
node1	192.168.1.101	Controller + Agent + DataNode	8核16G
node2	192.168.1.102	Agent + DataNode	8核16G
node3	192.168.1.103	Agent + DataNode	8核16G

3.1.2 系统配置

所有节点执行：

bash 复制代码

# 关闭防火墙（或开放端口）
sudo systemctl stop firewalld
sudo systemctl disable firewalld

# 或开放端口
sudo firewall-cmd --permanent --add-port=8848-8900/tcp
sudo firewall-cmd --reload

# 设置文件描述符限制
echo "* soft nofile 65536" | sudo tee -a /etc/security/limits.conf
echo "* hard nofile 65536" | sudo tee -a /etc/security/limits.conf

# 关闭SELinux
sudo setenforce 0
sudo sed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config

# 时间同步
sudo yum install -y ntpdate
sudo ntpdate ntp.aliyun.com

3.2 安装DolphinDB

在所有节点执行：

bash 复制代码

# 创建目录
sudo mkdir -p /opt/dolphindb
cd /opt/dolphindb

# 下载
sudo wget https://www.dolphindb.com/downloads/DolphinDB_Linux64_V2.00.11.1.zip

# 解压
sudo unzip DolphinDB_Linux64_V2.00.11.1.zip
sudo mv DolphinDB_Linux64_V2.00.11.1 server

# 设置权限
sudo chown -R $USER:$USER /opt/dolphindb

3.3 配置控制节点

在node1上配置：

bash 复制代码

cd /opt/dolphindb/server
vim config/controller.cfg

控制节点配置：

ini 复制代码

# controller.cfg - 控制节点配置

# 基本配置
mode=controller
localSite=192.168.1.101:8900:controller
controllerSite=192.168.1.101:8900:controller

# 集群配置
dfsReplicationFactor=2              # 数据副本数
dfsReplicaReliabilityLevel=1        # 副本可靠性级别
dfsChunkNodeNum=3                   # 分区节点数

# 元数据存储
dfsMetaDir=data/dfsMeta             # 元数据目录
chunkMetadir=data/chunkMeta         # 分区元数据目录

# 内存配置
maxMemSize=4                        # 最大内存(GB)

# 日志配置
logLevel=INFO
logFile=log/controller.log

创建集群成员配置：

bash 复制代码

vim config/cluster.nodes

集群节点配置：

复制代码

# cluster.nodes - 集群节点列表
# 格式: host:port:alias

# 代理节点
192.168.1.101:8849:agent1
192.168.1.102:8849:agent2
192.168.1.103:8849:agent3

# 数据节点
192.168.1.101:8848:datanode1
192.168.1.102:8848:datanode2
192.168.1.103:8848:datanode3

3.4 配置代理节点

每个节点都需要配置代理节点：

bash 复制代码

vim config/agent.cfg

node1的代理配置：

ini 复制代码

# agent.cfg - 代理节点配置 (node1)

mode=agent
workerNum=2
localSite=192.168.1.101:8849:agent1
controllerSite=192.168.1.101:8900:controller

# 存储配置
volume=data
redoLogDir=log

node2的代理配置：

ini 复制代码

# agent.cfg - 代理节点配置 (node2)

mode=agent
workerNum=2
localSite=192.168.1.102:8849:agent2
controllerSite=192.168.1.101:8900:controller

volume=data
redoLogDir=log

node3的代理配置：

ini 复制代码

# agent.cfg - 代理节点配置 (node3)

mode=agent
workerNum=2
localSite=192.168.1.103:8849:agent3
controllerSite=192.168.1.101:8900:controller

volume=data
redoLogDir=log

3.5 配置数据节点

创建数据节点配置文件：

bash 复制代码

vim config/cluster.cfg

数据节点集群配置：

ini 复制代码

# cluster.cfg - 数据节点集群配置

# 通用配置
workerNum=8
webWorkerNum=4
maxMemSize=12
regularMemSize=4
chunkCacheDirMemLimit=2GB

# 网络配置
tcpNodelay=true
tcpKeepAlive=true

# 存储配置
volume=data
redoLogDir=log
chunkMetadir=data/chunkMeta

# 日志配置
logLevel=INFO
perfLevel=0

3.6 启动集群

3.6.1 启动控制节点

在node1上：

bash 复制代码

cd /opt/dolphindb/server

# 启动控制节点
nohup ./dolphindb -console 0 -mode controller -home . \
    -config config/controller.cfg \
    -logFile log/controller.log &

# 检查状态
ps aux | grep dolphindb
tail -f log/controller.log

3.6.2 启动代理节点

在所有节点上：

bash 复制代码

cd /opt/dolphindb/server

# 启动代理节点
nohup ./dolphindb -console 0 -mode agent -home . \
    -config config/agent.cfg \
    -logFile log/agent.log &

# 检查状态
ps aux | grep dolphindb

3.6.3 启动数据节点

通过Web GUI启动数据节点：

访问 http://192.168.1.101:8900
登录（admin/123456）
进入"集群管理"页面
点击每个数据节点的"启动"按钮

或使用脚本启动：

python 复制代码

// 在DolphinDB中执行
login("admin", "123456")

// 启动所有数据节点
startDataNode("datanode1")
startDataNode("datanode2")
startDataNode("datanode3")

// 查看节点状态
getClusterPerf()

3.7 验证集群

python 复制代码

// 连接到任意数据节点
// 查看集群状态
getClusterPerf()

// 创建测试数据库
db = database("dfs://test_cluster", VALUE, 1..10)
t = table(1..1000 as id, rand(100.0, 1000) as value)
db.createPartitionedTable(t, `test_table, `id).append!(t)

// 查看数据分布
select count(*) from loadTable("dfs://test_cluster", "test_table")

// 查看分区分布
getClusterChunksStatus()

四、高可用架构设计

4.1 控制节点高可用

控制节点是单点，需要配置高可用：
高可用Controller
心跳检测
心跳检测
Controller1

主节点
Controller2

备节点
Controller3

备节点
客户端
负载均衡

配置多控制节点：

ini 复制代码

# controller.cfg - 高可用配置

mode=controller
localSite=192.168.1.101:8900:controller1

# 多控制节点配置
controllerSite=192.168.1.101:8900:controller1
dfsHAMode=raft                       # 使用Raft协议
dfsRaftGroup=controller1,controller2,controller3

4.2 数据副本策略

写入数据
分区1
分区2
分区3
副本1: DataNode1
副本2: DataNode2
副本1: DataNode2
副本2: DataNode3
副本1: DataNode3
副本2: DataNode1

副本配置：

ini 复制代码

# 副本配置
dfsReplicationFactor=2              # 副本数量
dfsReplicaReliabilityLevel=1        # 可靠性级别(0-2)
dfsWriteSafeLevel=0                 # 写入安全级别(0-2)

4.3 故障自动转移

当数据节点故障时：
DataNode3 DataNode2 DataNode1 Controller DataNode3 DataNode2 DataNode1 Controller 节点故障故障转移完成检测到D1离线提升副本为主副本复制数据到新副本更新元数据

五、集群运维管理

5.1 节点管理

python 复制代码

// 查看集群状态
getClusterPerf()

// 查看节点详情
getNodePerf()

// 在线添加节点
addNode("192.168.1.104", 8848, "datanode4")

// 在线移除节点
removeNode("192.168.1.104", 8848, "datanode4")

// 重启节点
stopDataNode("datanode1")
startDataNode("datanode1")

5.2 数据平衡

python 复制代码

// 查看数据分布
getClusterChunksStatus()

// 数据重平衡
rebalanceChunksAmongNodes()

// 指定节点重平衡
rebalanceChunksOnNode("datanode1")

5.3 监控告警

Prometheus监控

配置DolphinDB导出指标：

python 复制代码

// 启用Prometheus导出
enablePrometheus(8000)

// 访问指标
// http://localhost:8000/metrics

Grafana仪表盘

导入DolphinDB监控模板：

bash 复制代码

# 模板ID: 12345（示例）
# 在Grafana中导入模板即可

关键监控指标：

指标	说明	告警阈值
`dolphindb_connections`	连接数	>1000
`dolphindb_memory_usage`	内存使用率	>80%
`dolphindb_disk_usage`	磁盘使用率	>85%
`dolphindb_query_latency`	查询延迟	>1s
`dolphindb_write_qps`	写入QPS	监控趋势

5.4 日志管理

bash 复制代码

# 日志位置
/opt/dolphindb/server/log/

# 日志文件
├── controller.log      # 控制节点日志
├── agent.log           # 代理节点日志
├── datanode.log        # 数据节点日志
└── dolphindb.log       # 主日志

# 日志轮转配置
# 在配置文件中添加
logRetentionDays=7      # 日志保留天数
logFileSizeLimitMB=100  # 单个日志文件大小限制

六、性能优化

6.1 内存优化

ini 复制代码

# 内存配置优化
maxMemSize=物理内存 * 0.6
regularMemSize=物理内存 * 0.2
chunkCacheDirMemLimit=4GB
reservedMemSize=1GB

6.2 网络优化

ini 复制代码

# 网络配置
tcpNodelay=true
tcpKeepAlive=true
tcpSendBufferSize=4MB
tcpRecvBufferSize=4MB
tcpKeepAliveIdle=60
tcpKeepAliveInterval=10
tcpKeepAliveCount=10

6.3 磁盘优化

ini 复制代码

# 磁盘配置
diskIOConcurrency=8          # 磁盘IO并发数
useHardLink=true            # 使用硬链接
diskReadRetryCount=3        # 读取重试次数
diskWriteRetryCount=3       # 写入重试次数

6.4 查询优化

python 复制代码

// 开启查询缓存
setCacheEngineCapacity(1024)  // 1GB缓存

// 并行查询
setParallelDegree(4)          // 并行度

// 查询超时
setQueryTimeLimit(60000)      // 60秒超时

七、备份与恢复

7.1 数据备份

python 复制代码

// 全量备份
backup("/backup/full", <select * from loadTable("dfs://db", "table")>, true)

// 增量备份
backup("/backup/incr", <select * from loadTable("dfs://db", "table") where timestamp > lastBackupTime>, true)

// 定时备份（每天凌晨2点）
scheduleJob("dailyBackup", "Daily Backup", backup, 02:00, 2024.01.01, 2030.12.31, 'D')

7.2 数据恢复

python 复制代码

// 恢复数据
restore("/backup/full", "dfs://db", "table", , true)

// 恢复到新表
restore("/backup/full", "dfs://db_restored", "table_restored", , true)

7.3 灾备方案

实时同步
异步复制
主集群
备集群
写入数据
写入WAL
应用日志
数据同步

八、常见问题排查

8.1 节点无法启动

端口占用
权限问题
配置错误
内存不足
节点无法启动
检查日志
修改端口配置
检查文件权限
验证配置文件
调整内存配置
lsof -i:8848
ls -la /opt/dolphindb
检查语法错误
降低maxMemSize

8.2 数据分布不均

python 复制代码

// 查看数据分布
select count(*) from getClusterChunksStatus() group by nodeId

// 重平衡数据
rebalanceChunksAmongNodes()

8.3 查询性能下降

原因	排查方法	解决方案
内存不足	`getMemoryStatus()`	增加内存或优化查询
磁盘IO高	`iostat -x 1`	使用SSD或增加节点
网络延迟	`ping` 测试	优化网络配置
数据倾斜	查看分区分布	重新分区

九、总结

本文详细介绍了DolphinDB分布式集群的架构设计与部署实践。核心要点如下：

集群架构：控制节点、数据节点、代理节点的角色分工
部署流程：环境准备、配置文件、启动验证的完整步骤
高可用设计：多副本、故障转移、负载均衡
运维管理：节点管理、数据平衡、监控告警
性能优化：内存、网络、磁盘、查询优化
备份恢复：全量备份、增量备份、灾备方案

思考题：

你的业务场景需要多大的集群规模？如何规划节点数量？
如何设计高可用架构以应对单点故障？
在数据量持续增长的情况下，如何实现平滑扩容？

DolphinDB集群部署：从单机到分布式

目录

摘要

一、为什么需要分布式集群

1.1 单机瓶颈

1.2 集群优势

1.3 适用场景

二、DolphinDB集群架构

2.1 架构总览

2.2 节点角色详解

2.2.1 控制节点（Controller）

2.2.2 数据节点（Data Node）

2.2.3 代理节点（Agent）

2.3 数据分布策略

三、集群部署实践

3.1 环境准备

3.1.1 硬件规划

3.1.2 系统配置

3.2 安装DolphinDB

3.3 配置控制节点

3.4 配置代理节点

3.5 配置数据节点

3.6 启动集群

3.6.1 启动控制节点

3.6.2 启动代理节点

3.6.3 启动数据节点

3.7 验证集群

四、高可用架构设计

4.1 控制节点高可用

4.2 数据副本策略

4.3 故障自动转移

五、集群运维管理

5.1 节点管理

5.2 数据平衡

5.3 监控告警

Prometheus监控

Grafana仪表盘

5.4 日志管理

六、性能优化

6.1 内存优化

6.2 网络优化

6.3 磁盘优化

6.4 查询优化

七、备份与恢复

7.1 数据备份

7.2 数据恢复

7.3 灾备方案

八、常见问题排查

8.1 节点无法启动

8.2 数据分布不均

8.3 查询性能下降

九、总结

参考资料