下载地址:
https://pan.baidu.com/s/1PDj6dySUNHotNABp7d1a0w?pwd=57is 提取码: 57is
查找"Hadoop信创",输入"CMP"恢复最新下载地址
博文末尾处有下载方式:
银行智能数据平台在 Cloudera CDP 7.3 (或国产 CMP 鲲鹏版) 平台下的具体使用配置流程,是一个涵盖 安全认证、数据接入、计算调度、AI 建模、治理监控 的全链路工程。以下是基于银行实际生产环境的 分步配置操作指南,结合了金融行业合规要求与 Cloudera CDP 的企业级能力。
一、前置条件确认
在开始配置前,需确保以下条件已满足 :
| 项目 | 要求 |
|---|---|
| CDP 版本 | CDP Private Cloud Base/Plus 7.3.x(非 Public Cloud) |
| 部署模式 | On-premises(物理机/VM),支持 Kerberos + TLS |
| 网络 | 与银行智能平台同内网,防火墙开放 Knox、HiveServer2、Livy 等端口 |
| 身份源 | 已部署 Active Directory 或 LDAP |
| 证书 | 银行内部 CA 可签发 TLS 证书 |
二、分步配置流程
▶ 步骤 1 :启用安全认证(Kerberos + LDAP )
目标:实现统一身份认证,满足等保三级要求。
- 在 Cloudera Manager 中操作:
- 进入 Administration → Settings → Security
- 启用 Kerberos 认证,选择 KDC 类型(如 Microsoft AD)
- 配置 LDAP 同步:
Yaml
External Authentication → LDAP
Server URL: ldaps://ad.bank.local:636
Bind DN: svc_CMP@bank.local
User Search Base: OU=Users,DC=bank,DC=local
Group Search Base: OU=Groups,DC=bank,DC=local
- 测试登录:通过 Hue 或 CML 使用域账号登录验证 。
▶ 步骤 2 :配置 Knox 作为统一入口(关键!)
目标:隐藏内部组件 IP,集中 TLS 加密与认证。
- 启用 Knox 服务;
- 编辑 Topology 文件 CMP-gateway.xml:
xml
<topology>
<gateway>
<provider>
<role>authentication</role>
<name>ShiroProvider</name>
<enabled>true</enabled>
<param><name>sessionTimeout</name><value>30</value></param>
</provider>
</gateway>
<service>
<role>HIVE</role>
<url>http://hive-server2:10001/cliservice\</url>
</service>
<service>
<role>SPARKLIVY</role>
<url>http://livy-server:8998</url>
</service>
<service>
<role>CML</role>
<url>https://cml-master:443</url>
</service>
</topology>
- 所有外部访问必须通过:
text
https://knox-host:8443/gateway/CMP-gateway/...
✅ 优势:统一入口、TLS 加密、集中审计 。
▶ 步骤 3 :对接银行五大核心平台(数据接入)
目标:将核心系统、渠道、风控等数据安全入湖。
| 数据源 | 接入方案 | 技术组件 |
|---|---|---|
| 核心银行系统(交易流水) | CDC + 脱敏 | Debezium → Kafka → NiFi → HDFS/Iceberg |
| 渠道平台(APP/网银日志) | 实时流接入 | 埋点日志 → Kafka → CSA (Flink) → Iceberg |
| 风控平台(特征请求) | 实时特征服务 | CML Feature Store + Redis |
| 开放银行(API 输出) | 受控数据服务 | NiFi InvokeHTTP / CML Flask API |
示例:NiFi Flow 配置(T+1 交易数据入湖):
- Input:JDBC 连接 Oracle 核心库(Kerberos 认证)
- Process:Validate → Convert to Parquet → PII 字段动态脱敏
- Output:PutHDFS → /data/ods/txn_daily/yyyyMMdd/
▶ 步骤 4 :配置计算与 AI 建模环境
目标:支持批处理、流计算、机器学习。
- 批处理(ETL/标签生成):
- 使用 Cloud Data Engineering (CDE) 调度 Spark 作业
- 示例:每日跑批生成"客户风险评分"
- 实时计算(交易监控):
- 使用 Cloud Streaming Analytics (CSA) 运行 Flink 作业
- 实时检测异常交易,写入 Kafka 供风控消费
- AI 模型训练:
- 在 Cloudera Machine Learning (CML) 中创建 Project
- 使用 PySpark/TensorFlow 训练模型
- 特征来自 CML Feature Store(支持在线/离线)
Python 示例:通过 Livy 提交 Spark 作业
python
import requests
livy_url = "https://knox.bank.local:8443/gateway/CMP-gateway/livy/v1/batches"
headers = {"Content-Type": "application/json", "Authorization": "Basic base64(user:pass)"}
payload = {
"file": "hdfs:///apps/risk_score.py",
"className": "com.bank.RiskScoring",
"args": ["--date", "2026-01-20"]
}
response = requests.post(livy_url, json=payload, headers=headers)
▶ 步骤 5 :数据治理与安全合规
目标:满足《个人金融信息保护法》、等保三级。
- 字段级权限控制:
- 在 Ranger 中配置策略:
- "仅风控团队可查身份证号"
- "普通分析师只能访问脱敏手机号"
- 在 Ranger 中配置策略:
- 数据血缘追踪:
- Atlas 自动记录:核心系统表 → Iceberg 表 → 风控模型
- 动态脱敏:
- 对 PII 字段(身份证、银行卡号)在读取时自动掩码
- 审计日志:
- 所有数据访问记录同步至银行 SIEM 系统 。
▶ 步骤 6 :BI 与数据服务发布
目标:为业务部门提供自助分析能力。
- BI 查询:
- 通过 Cloud Data Warehouse (CDW) 提供亚秒级 SQL 响应
- 对接 Tableau/PowerBI,构建监管报表
- API 服务:
- 使用 CML 发布 Flask API,例如:
python
@app.route('/api/customer/summary')
def get_summary():
从 Iceberg 表查询近30天交易汇总
return jsonify(data)
-
- 通过 Knox 网关暴露,支持 Token 认证 。
三、运维与监控
- 资源管理:通过 YARN 队列隔离开发、测试、生产任务;
- SLA 监控:集成 Prometheus + Grafana,监控 Spark 作业延迟;
- 灾备:Iceberg 表启用跨区域快照复制(Snapshot Replication);
- 版本管理:CML 支持模型版本回滚,NiFi Flow 支持导入导出 。
四、实施路线图建议
| 阶段 | 目标 |
|---|---|
| 阶段 1 | 接入渠道日志 + 核心交易数据,构建基础数据湖 |
| 阶段2 | 上线客户标签体系 + 风控特征工程,对接风控平台 |
| 阶段3 | 开放数据服务 API,支持开放银行场景 |
| 阶段4 | 全面启用 SDX 治理,实现自动化合规审计 |
总结
银行智能数据平台在 CDP 7 下的配置,不是简单的软件安装,而是一套融合安全、数据、 AI 、治理的体系化工程。其核心在于:
- 以 Knox 为统一入口,保障访问安全;
- 以 Iceberg 为湖仓格式,支持 ACID 与 Time Travel;
- 以 Ranger+Atlas 为治理底座,实现合规可控;
- 以 CML+CDE 为智能引擎,驱动业务创新。
最终目标:构建一个 "数据不出域、过程可审计、模型可迭代、服务可计量" 的银行级智能数据平台。