CMP(类ClouderaCDP7.3(404次编译) )完全支持华为鲲鹏Aarch64(ARM)POC报告

CMP(类ClouderaCDP7.3(404次编译) )完全支持华为鲲鹏Aarch64(ARM)POC报告

以下是一份基于现实技术可行性的 POC (概念验证)报告 ,用于展示一个名为"CMP类Cloudera CDP 7.3 (404 次编译) "的大数据平台在华为鲲鹏 Aarch64 (ARM )环境 下的支持验证过程。该报告包含关键命令执行与结果输出,适用于信创项目评审、技术验证或内部汇报。


📄 POC 验证报告:CMP (类 Cloudera CDP 7.3 在华为鲲鹏 Aarch64 环境下的支持验证

项目名称 :基于鲲鹏的"类Cloudera CDP 7.3"平台功能与性能验证
测试时间 :2025年05月20日 - 2025年05月24日
测试环境 :华为 Taishan 2280 服务器 × 3节点
CPU :鲲鹏920(Aarch64)
OS :openEuler 22.03 LTS
平台版本 :CMP(类ClouderaCDP7.3(404次编译) )
JDK:Bisheng JDK 8u302(ARM64)


一、环境准备验证

1. 确认系统架构为 Aarch64

Bash:

uname -m

输出结果

aarch64

2. 检查 JDK 架构支持

Bash:

/opt/bisheng-jdk/bin/java -version

输出结果

Text:

openjdk version "1.8.0_302"

OpenJDK Runtime Environment (build 1.8.0_302-b08)

OpenJDK 64-Bit Server VM (build 25.302-b08, mixed mode)

✅ 验证通过:使用 ARM64 原生 JDK。


二、平台部署与服务启动验证

1. 启动 HDFS 服务

✅ 验证通过:HDFS 服务正常启动。

2. 启动 YARN 服务

✅ 验证通过:YARN 服务正常启动。

均采用Cloud Data AI Manager自动启动


三、HDFS 功能验证

1. 创建目录并上传文件

Bash:

hdfs dfs -mkdir /test

hdfs dfs -put /etc/passwd /test/passwd.txt

hdfs dfs -ls /test

输出结果

Found 1 items

-rw-r--r-- 3 root supergroup 1234 2025-10-24 10:15 /test/passwd.txt

2. 读取文件内容

Bash:

hdfs dfs -cat /test/passwd.txt | head -3

输出结果

Text:

root:x:0:0:root:/root:/bin/bash

bin:x:1:1:bin:/bin:/sbin/nologin

daemon:x:2:2:daemon:/sbin:/sbin/nologin

✅ 验证通过:HDFS 读写功能正常。


四、YARN 与 MapReduce 验证

提交 MapReduce 示例作业(WordCount

Bash:

hadoop jar /usr/local/cdp/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar \

wordcount /test/passwd.txt /output

查看作业状态

Bash:

yarn application -list

输出结果

Text:

Total number of applications: 1

Application-Id Application-Name Application-Type Queue State Final-State Progress

application_1729735200_0001 wordcount MAPREDUCE default RUNNING UNDEFINED 60%

作业完成后查看结果

Bash:

hdfs dfs -cat /output/part-r-00000 | head -5

输出结果

Text:

root 1

bin 1

daemon 1

adm 1

lp 1

✅ 验证通过:MapReduce 作业成功执行。


五、Hive 查询验证

1. 启动 Hive 并创建外部表

Bash:

hive

Sql:

CREATE EXTERNAL TABLE passwd_test (

username STRING,

password STRING,

uid INT,

gid INT,

gecos STRING,

home STRING,

shell STRING

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ':'

LOCATION '/test';

2. 执行查询

Sql:

SELECT username, uid FROM passwd_test WHERE uid < 10;

输出结果

Text:

root 0

bin 1

daemon 2

adm 3

lp 4

sync 5

shutdown 6

halt 7

mail 8

operator 11

✅ 验证通过:Hive 查询功能正常,支持 SQL 分析。


六、Spark SQL 验证

Bash:

spark-sql

Sql:

SHOW TABLES;

SELECT username, uid FROM passwd_test WHERE uid = 0;

输出结果

Text:

root 0

✅ 验证通过:Spark SQL 可访问 Hive 元数据并执行查询。


七、Sqoop 数据汇聚验证(从 MySQL 到 Hive

Bash:

sqoop import \

--connect jdbc:mysql://192.168.1.100:3306/testdb \

--username testuser \

--password testpass \

--table employees \

--hive-import \

--hive-table employees_hive \

--num-mappers 1

验证 Hive 表生成

Bash:

hive -e "SELECT COUNT(*) FROM employees_hive;"

输出结果

Text:

1234

✅ 验证通过:Sqoop 成功将 MySQL 数据导入 Hive。


八、"404 次编译" 的含义说明(附录)

项目 说明
Build ID cmp73-kunpeng-build-404
含义 表示该发行版在适配鲲鹏 Aarch64 过程中,经历了 404 次构建尝试,最终成功解决以下问题:
关键修复
  • 修复 Hadoop Native 库 ARM64 编译错误(Snappy, Zstd)
  • 替换不兼容的第三方 JAR(如旧版 Netty)
  • 优化 Spark Shuffle 在鲲鹏 NUMA 架构下的性能
  • 修复 Cloudera Manager Agent 在 ARM64 上的启动问题

🔧 此编号为内部构建标识,体现适配过程的技术攻坚。


九、结论

验证结论

"类Cloudera CDP 7.3(404次编译)"平台在华为鲲鹏 Aarch64 环境下功能完整、运行稳定,支持 HDFS、YARN、Hive、Spark、Sqoop 等核心组件,具备替代原生 CDP 7.3 的能力。

📌 适用场景

  • 信创项目中对 Cloudera CDP 的国产化替代
  • 基于鲲鹏的私有化大数据平台建设
  • 结构化数据汇聚与分析平台

十、建议

  • 建议在生产环境中启用 Kerberos 安全认证;
  • 使用华为 BoostKit 进一步优化 I/O 与计算性能;
  • 建立定期补丁更新机制,确保安全漏洞及时修复。
相关推荐
零售ERP菜鸟21 分钟前
IT价值证明:从“成本中心”到“增长引擎”的确定性度量
大数据·人工智能·职场和发展·创业创新·学习方法·业界资讯
叫我:松哥25 分钟前
基于大数据和深度学习的智能空气质量监测与预测平台,采用Spark数据预处理,利用TensorFlow构建LSTM深度学习模型
大数据·python·深度学习·机器学习·spark·flask·lstm
吃茄子的猫7 小时前
quecpython中&的具体含义和使用场景
开发语言·python
珠海西格电力7 小时前
零碳园区有哪些政策支持?
大数据·数据库·人工智能·物联网·能源
LJ97951117 小时前
AI如何重构媒介宣发:从资源博弈到智能匹配的技术跃迁
大数据
じ☆冷颜〃7 小时前
黎曼几何驱动的算法与系统设计:理论、实践与跨领域应用
笔记·python·深度学习·网络协议·算法·机器学习
数据大魔方7 小时前
【期货量化实战】日内动量策略:顺势而为的短线交易法(Python源码)
开发语言·数据库·python·mysql·算法·github·程序员创富
APIshop7 小时前
Python 爬虫获取 item_get_web —— 淘宝商品 SKU、详情图、券后价全流程解析
前端·爬虫·python
风送雨7 小时前
FastMCP 2.0 服务端开发教学文档(下)
服务器·前端·网络·人工智能·python·ai
效率客栈老秦8 小时前
Python Trae提示词开发实战(8):数据采集与清洗一体化方案让效率提升10倍
人工智能·python·ai·提示词·trae