下载地址：

https://pan.baidu.com/s/1PDj6dySUNHotNABp7d1a0w?pwd=57is 提取码: 57is

查找"Hadoop信创"，输入"CMP"恢复最新下载地址

博文末尾处有下载方式：

银行智能数据平台在 Cloudera CDP 7.3 （或国产 CMP 鲲鹏版） 平台下的具体使用配置流程，是一个涵盖 安全认证、数据接入、计算调度、AI 建模、治理监控 的全链路工程。以下是基于银行实际生产环境的 分步配置操作指南，结合了金融行业合规要求与 Cloudera CDP 的企业级能力。

一、前置条件确认

在开始配置前，需确保以下条件已满足：

项目	要求
CDP 版本	CDP Private Cloud Base/Plus 7.3.x（非 Public Cloud）
部署模式	On-premises（物理机/VM），支持 Kerberos + TLS
网络	与银行智能平台同内网，防火墙开放 Knox、HiveServer2、Livy 等端口
身份源	已部署 Active Directory 或 LDAP
证书	银行内部 CA 可签发 TLS 证书

二、分步配置流程

▶ 步骤 1 ：启用安全认证（Kerberos + LDAP ）

目标：实现统一身份认证，满足等保三级要求。

在 Cloudera Manager 中操作：
- 进入 Administration → Settings → Security
- 启用 Kerberos 认证，选择 KDC 类型（如 Microsoft AD）
配置 LDAP 同步：

Yaml

External Authentication → LDAP

Server URL: ldaps://ad.bank.local:636

Bind DN: svc_CMP@bank.local

User Search Base: OU=Users,DC=bank,DC=local

Group Search Base: OU=Groups,DC=bank,DC=local

测试登录：通过 Hue 或 CML 使用域账号登录验证。

▶ 步骤 2 ：配置 Knox 作为统一入口（关键！）

目标：隐藏内部组件 IP，集中 TLS 加密与认证。

启用 Knox 服务；
编辑 Topology 文件 CMP-gateway.xml：

xml

<role>authentication</role>

<name>ShiroProvider</name>

<param><name>sessionTimeout</name><value>30</value></param>

</provider>

</gateway>

<url>http://hive-server2:10001/cliservice\</url>

</service>

<role>SPARKLIVY</role>

<url>http://livy-server:8998</url>

</service>

<url>https://cml-master:443</url>

</service>

</topology>

所有外部访问必须通过：

text

https://knox-host:8443/gateway/CMP-gateway/...

✅ 优势：统一入口、TLS 加密、集中审计。

▶ 步骤 3 ：对接银行五大核心平台（数据接入）

目标：将核心系统、渠道、风控等数据安全入湖。

数据源	接入方案	技术组件
核心银行系统（交易流水）	CDC + 脱敏	Debezium → Kafka → NiFi → HDFS/Iceberg
渠道平台（APP/网银日志）	实时流接入	埋点日志 → Kafka → CSA (Flink) → Iceberg
风控平台（特征请求）	实时特征服务	CML Feature Store + Redis
开放银行（API 输出）	受控数据服务	NiFi InvokeHTTP / CML Flask API

示例：NiFi Flow 配置（T+1 交易数据入湖）：

Input：JDBC 连接 Oracle 核心库（Kerberos 认证）
Process：Validate → Convert to Parquet → PII 字段动态脱敏
Output：PutHDFS → /data/ods/txn_daily/yyyyMMdd/

▶ 步骤 4 ：配置计算与 AI 建模环境

目标：支持批处理、流计算、机器学习。

批处理（ETL/标签生成）：
- 使用 Cloud Data Engineering (CDE) 调度 Spark 作业
- 示例：每日跑批生成"客户风险评分"
实时计算（交易监控）：
- 使用 Cloud Streaming Analytics (CSA) 运行 Flink 作业
- 实时检测异常交易，写入 Kafka 供风控消费
AI 模型训练：
- 在 Cloudera Machine Learning (CML) 中创建 Project
- 使用 PySpark/TensorFlow 训练模型
- 特征来自 CML Feature Store（支持在线/离线）

Python 示例：通过 Livy 提交 Spark 作业

python

import requests

livy_url = "https://knox.bank.local:8443/gateway/CMP-gateway/livy/v1/batches"

headers = {"Content-Type": "application/json", "Authorization": "Basic base64(user:pass)"}

payload = {

"file": "hdfs:///apps/risk_score.py",

"className": "com.bank.RiskScoring",

"args": ["--date", "2026-01-20"]

}

response = requests.post(livy_url, json=payload, headers=headers)

▶ 步骤 5 ：数据治理与安全合规

目标：满足《个人金融信息保护法》、等保三级。

字段级权限控制：
- 在 Ranger 中配置策略：
  - "仅风控团队可查身份证号"
  - "普通分析师只能访问脱敏手机号"
数据血缘追踪：
- Atlas 自动记录：核心系统表 → Iceberg 表 → 风控模型
动态脱敏：
- 对 PII 字段（身份证、银行卡号）在读取时自动掩码
审计日志：
- 所有数据访问记录同步至银行 SIEM 系统。

▶ 步骤 6 ：BI 与数据服务发布

目标：为业务部门提供自助分析能力。

BI 查询：
- 通过 Cloud Data Warehouse (CDW) 提供亚秒级 SQL 响应
- 对接 Tableau/PowerBI，构建监管报表
API 服务：
- 使用 CML 发布 Flask API，例如：

python

@app.route('/api/customer/summary')

def get_summary():

从 Iceberg 表查询近30天交易汇总

return jsonify(data)

- 通过 Knox 网关暴露，支持 Token 认证。

三、运维与监控

资源管理：通过 YARN 队列隔离开发、测试、生产任务；
SLA 监控：集成 Prometheus + Grafana，监控 Spark 作业延迟；
灾备：Iceberg 表启用跨区域快照复制（Snapshot Replication）；
版本管理：CML 支持模型版本回滚，NiFi Flow 支持导入导出。

四、实施路线图建议

阶段	目标
阶段 1	接入渠道日志 + 核心交易数据，构建基础数据湖
阶段2	上线客户标签体系 + 风控特征工程，对接风控平台
阶段3	开放数据服务 API，支持开放银行场景
阶段4	全面启用 SDX 治理，实现自动化合规审计

总结

银行智能数据平台在 CDP 7 下的配置，不是简单的软件安装，而是一套融合安全、数据、 AI 、治理的体系化工程。其核心在于：

以 Knox 为统一入口，保障访问安全；
以 Iceberg 为湖仓格式，支持 ACID 与 Time Travel；
以 Ranger+Atlas 为治理底座，实现合规可控；
以 CML+CDE 为智能引擎，驱动业务创新。

最终目标：构建一个 "数据不出域、过程可审计、模型可迭代、服务可计量" 的银行级智能数据平台。

银行智能数据平台在Cloudera CDH6\CDP 7\CMP 7平台下的具体使用配置流程

从 Iceberg 表查询近30天交易汇总