Apache Doris 高频问题排查指南:从报错到性能优化

一、部署与配置问题

1. FE启动失败:Address already in use

复制代码
ERROR: fe.journal.Catalog constructor exception. port=9010 is already used.

原因 :端口被占用或残留进程未释放
解决

复制代码
# 查找占用进程
lsof -i :9010  
# 终止残留进程
kill -9 <PID>
# 清理元数据(谨慎操作)
rm -rf doris-meta/image/*

2. BE节点无法加入集群

现象 :BE注册后状态异常(Alive = false)
排查步骤

  1. 检查BE日志(be.INFO)是否存在硬件不匹配告警

  2. 确认FE的priority_networks配置与BE节点IP匹配

  3. 验证网络连通性 telnet FE_IP 9030 telnet FE_IP 9020

二、数据操作问题

3. 数据导入失败:-235错误

报错信息
Message: Delta label's state=LABEL_ALREADY_USED

原因 :重复提交相同Label的导入任务
解决方案

复制代码
-- 查询最近10个导入任务
SHOW LOAD WHERE LABEL LIKE "mylabel%" LIMIT 10;
-- 清理已完成任务
CANCEL LOAD FROM db WHERE LABEL = "mylabel";

4. 内存不足导致导入中断

现象Memory limit exceeded
优化方案

  1. 调整BE内存参数(be.conf):

    mem_limit=80% # 物理内存的百分比
    load_process_max_memory_limit_bytes=107374182400 # 单节点最大100G

三、查询性能问题

5. 查询响应慢:未命中分区/分桶

排查工具

复制代码
EXPLAIN SELECT * FROM tbl WHERE dt='2024-01';

优化建议

  • 确认WHERE条件包含分区键(PARTITION BY RANGE)

  • 分桶数推荐:BE节点数 * 磁盘数 * 10(如3节点*2磁盘→60 buckets)

6. 高并发查询触发流控

现象Reach limit of connections
调优方法

  1. FE配置(fe.conf):

    qps_max_limit=5000

2.启用资源隔离:

复制代码
CREATE RESOURCE_GROUP query_group 
TO (user='analyst') 
WITH ("cpu_share"="50","mem_limit"="30%");

四、元数据与运维问题

7. 磁盘空间不足报警

处理流程

1.检查数据分布:

复制代码
SHOW PARTITIONS FROM tbl; 
  1. 清理过期分区:

ALTER TABLE tbl DROP PARTITION p202312;

  1. 开启冷热分离(需2.0+版本):

ALTER TABLE tbl SET ("storage_policy"="cold_hdd");

8. 副本不一致导致查询错误

检测命令:

curl http://BE_IP:8040/api/check

修复步骤:

  1. 手动触发副本修复:

ADMIN REPAIR TABLE tbl PARTITION(p1);

  1. 检查BE日志确认同步进度

五、典型错误代码速查

| 错误码 | 含义 | 处理建议 |

|--------|---------------------|--------------------------|

| -200 | 元数据写入失败 | 检查FE磁盘空间,重启FE |

| -400 | 查询超时 | 增大`query_timeout`参数 |

| -903 | 权限不足 | GRANT SELECT ON db.tbl TO user |

| -1010 | 函数参数不匹配 | 检查函数签名,如`date_format`格式 |

六、调试工具链

  1. 日志定位技巧
  • **FE关键日志**:fe/log/fe.warn.log(搜索`WARN`/`ERROR`)

  • **BE性能分析**:

perf record -p $(pidof doris_be) -g -- sleep 30

  1. 系统视图查询

-- 查看慢查询

SELECT * FROM information_schema.slow_queries

WHERE query_time > 10;

七、社区资源推荐

  1. 官方诊断工具:

Doris Debug Toolkit(https://github.com/apache/doris/tree/master/tools/debug-tool)

  1. 错误码大全:

官方文档-错误码章节(https://doris.apache.org/zh-CN/docs/dev/admin-manual/error-code/)

  1. 知识库检索:

使用`github.com/apache/doris/issues <关键词>`进行Google搜索

重要提示:遇到问题时建议先执行`SHOW PROC "/current_queries"`查看当前系统状态,70%的问题可通过日志和现有监控指标快速定位。如遇复杂问题,建议携带`fe.log`和`be.INFO`日志提交社区工单。

相关推荐
小小龙学IT3 天前
Apache Airflow 2.x 深度指南:用 Python 编排一切的现代化工作流引擎
开发语言·python·apache
Shepherd06193 天前
【IT 运维】Apache 使用 mod_remoteip 恢复 Cloudflare 后的真实访客 IP
运维·tcp/ip·apache
isyangli_blog3 天前
SDN 基本应用实践 —— 使用命令行实现简易防火墙功能实验报告
服务器·php·apache
小小龙学IT4 天前
Apache Pulsar 深度解析:从架构设计到生产落地
apache
Full Stack Developme5 天前
Apache Tika 教程
java·开发语言·python·apache
laplaya5 天前
C++大型项目组件通信与依赖管理实践
c++·log4j·apache
万岳科技6 天前
教育培训小程序如何构建线上线下一体化教学体系
小程序·apache
yyuuuzz6 天前
云服务器软件部署的几个常见问题
运维·服务器·开发语言·网络·云计算·php·apache
分布式存储与RustFS6 天前
Apache Iceberg数据湖轻量化搭建:基于Rust开源存储方案
开源·apache·iceberg·rustfs·ai存储·ai memory·s3 table
睡不醒男孩0308236 天前
中启乘数 CLup 6.x Apache Doris 存算一体集群管理技术文档
apache·doris·clup