datasophon1.2.1 二开

datasophon1.2.1 二开

背景

前几个月,觉得安装大数据环境真是麻烦,所以想找找是否有一键安装的工具,别人给我推荐国产的Datasophon ,这个工具听说过,但是印象不是很好。去年我同事打算使用它配置大数据组件,结果碰到各种各样问题,最后不了了之。当时我也是有其他事情,没有时间研究。今天有时间研究为何这么难用。我就计划安装在麒麟V10 操作系统

问题

我先列一下目前安装遇到的问题,其他的问题,继续往下安装再看

麒麟V10权限问题

麒麟安全性挺高的,默认是不能执行脚本,所以设置软件模式:

powershell 复制代码
sudo setstatus Softmode

命令适配问题

有些命令在麒麟系统无法执行,需要修改。至于修改了那些命令我就不列,有兴趣的可以参考git源码

AKKA不稳定问题

当Agent分发时,进度达到75%,有些环境稍微等会就过去了;但是有些环境就卡住,最后超时报错。我就纳闷它干嘛呢?后来,研究源码发现,master在等worker返回,worker所在机器信息:CPU,内存,硬盘等信息,然后变成100%。如果一直收不到应答,它就超时报错。它的通讯组件用什么呢?就是用akka。看来不咋地,稳定性不好。

优化

我在三台虚拟机上安装datasophon,网络可能没有云机器网络好,总是卡在75%。后来网上找看是否有替换组件,还找到一个叫Pekko,但是这个工具也庞大,复杂。我心想不就是弄一个网络通讯吗,有必要这么复杂吗!可能它支持协议比较多。所以有DIY想法,支持TCP/IP协议即可。后来亲手打造一个,兼容akka调用。但是简单多了

git 地址:https://gitee.com/longsebo/stable-actor-framework.git

当然datasophon 调用及配置也需要调整,git 地址:

https://gitee.com/longsebo/datasophon.git

效果

我连续测三遍,都能顺利到达100%。

不过操作步骤按如下:

每次都先删除上一个集群,然后重启datasophon-manager:

powershell 复制代码
root@ddp1:/opt/datasophon-manager-1.2.1/bin# ./stop.sh

所有worker节点都停止worker:

powershell 复制代码
service datasophon-worker stop

最后

当然这只是,万里长征第一步,后面估计还有好多坑及挑战。毕竟我把它通讯组件,釜底抽薪,彻底换掉。可能有些重构错漏地方。在所难免。如需沟通:lita2lz

相关推荐
WJX_KOI3 天前
保姆级教程:Apache Seatunnel CDC(standalone 模式)部署 MySQL CDC、PostgreSQL CDC 及使用方法
java·大数据·mysql·postgresql·big data·etl
AC赳赳老秦6 天前
科研数据叙事:DeepSeek将实验数据转化为故事化分析框架
开发语言·人工智能·数据分析·r语言·时序数据库·big data·deepseek
帅次11 天前
系统分析师-大数据处理系统分析与设计
数据仓库·elasticsearch·kafka·hbase·数据库开发·数据库架构·big data
喂完待续1 个月前
【Big Data】2025年大数据技术演进与产业变革
大数据·ai·数据安全·big data·年度总结·微博之星
7***53342 个月前
后端在消息队列中的选型
big data·sqoop·rxjava
2501_941146323 个月前
智能化浪潮:5G与人工智能推动全球工业互联网变革
big data
2501_941147113 个月前
5G与AI的融合:打造未来智能制造的核心竞争力
big data
yumgpkpm3 个月前
CMP(类ClouderaCDP7.3(404次编译) )完全支持华为鲲鹏Aarch64(ARM),粉丝数超过200就开源下载
hive·hadoop·redis·mongodb·elasticsearch·hbase·big data
yumgpkpm4 个月前
CMP (类ClouderaCDP7.3(404次编译) )华为鲲鹏Aarch64(ARM)信创环境 查询2100w行 hive 查询策略
数据库·数据仓库·hive·hadoop·flink·mapreduce·big data