基于物流客服场景需求,结合Flink+Kafka+HBase技术栈,设计实时数仓标签体系如下(所有标签均通过ETL侧加工生成):
一、总体架构设计
数据流 :业务系统日志 → Kafka → Flink ETL加工 → HBase标签存储 → 客服系统应用 核心组件:
- Kafka :3个Topic(
logistics_order_raw
原始订单数据、customer_service_log
客服交互日志、gps_tracking
位置轨迹) - Flink:完成数据清洗、维度关联、标签计算(非业务系统内计算)
用户行为日志(修改地址,配送时段偏好),用户登录日志(多设备切换),业务系统数据(评价,服务入口,对话时长),用户等级(月消费金额,7日活跃度)
二、HBase标签分类与ETL加工逻辑
(1)用户基础属性标签(5个)
标签名 | 数据来源 | ETL加工逻辑 | 更新频率 |
---|---|---|---|
login_channel | 用户登录日志 | 解析登录事件中的设备字段,计算1小时内超过3次不同设备登录的情况 | 实时 |
service_city | 订单配送地址 | 地址解析服务+城市编码表关联,取最近3个月高频值 | 小时级 |
avg_order_value | 订单金额字段 | 滑动窗口计算(30天窗口),排除异常值(金额>3σ) | 实时 |
preferred_payment | 支付流水日志 | 统计支付方式频次,加权计算(微信支付1.2,支付宝1.0) | 日 |
risk_city_flag | 高危区域列表(外部表) | 判断用户常用地址是否在黑名单区域,1/0标记 | 周 |
用户登录日志 | 7日活跃度,计算7天内有超过3天活跃的用户 | 日 |
(2)用户行为标签(7个)
标签名 | 数据来源 | ETL加工逻辑 | 更新频率 |
---|---|---|---|
modify_address | 修改地址日志 | 1小时内3次修改收货地址 | 实时 |
下单寄件日志 | 提取90天内常用配送时段,客服系统服务匹配 | 天 | |
客服进线日志 | 用户一天内所有渠道三次及以上进线投诉,分配优质客服人员处理 | 实时 | |
query_frequency | 物流查询日志 | 1小时滚动窗口统计API调用次数,分级(高频>20次/小时) | 实时 |
last_session_time | 客服对话日志 | 提取最新会话结束时间,UTC转本地时区 | 实时 |
ivr_abandon_rate | 电话系统CDR | 计算放弃率(未转人工量/总呼入量),7天移动平均 | 日 |
sensitive_word_count | 对话文本内容 | NLP分词识别敏感词(延误/赔偿等),月累计计数 | 日 |
service_time_avg | 会话时长字段 | 剔除异常值(<5s或>1h),计算7日平均处理时长 | 日 |
channel_preference | 渠道访问日志 | 统计各渠道(APP/Web/电话)服务使用占比 | 日 |
(3)物流轨迹特征标签(6个)
标签名 | 数据来源 | ETL加工逻辑 | 更新频率 |
---|---|---|---|
route_abnormality | GPS轨迹数据 | 对比标准路线偏差率(Haversine公式计算),标记>15%异常 | 实时 |
delivery_delay_level | 预计到达时间字段 | 实际到达时间差值分级(严重延迟>24h,一般延迟2-24h) | 实时 |
sign_failure_rate | 签收记录 | 计算签收失败次数占比(失败数/总配送次数) | 日 |
temperature_alert | 冷链传感器数据 | 判断温度超标持续时间(>8℃持续10分钟) | 实时 |
night_delivery_ratio | 配送时段字段 | 统计20:00-06:00时段配送订单占比 | 周 |
pickup_retry_count | 自提点操作日志 | 统计同一包裹重复取件次数 | 实时 |
(4)风险预测标签(5个)
标签名 | 数据来源 | ETL加工逻辑 | 更新频率 |
---|---|---|---|
fraud_probability | 多源日志关联 | 随机森林模型预测(地址变更频率+设备指纹+支付异常) | 实时 |
chargeback_risk | 拒收/退货记录 | 统计历史索赔次数,加权时间衰减因子(半衰期90天) | 日 |
account_abnormality | 登录设备日志 | 检测异地登录(城市变更)+设备型号变更组合事件 | 实时 |
express_abuse_flag | 快递员评价数据 | 聚合差评关键词(破损/丢失)出现频率 | 周 |
一、必须使用实时计算的场景
(需毫秒/秒级响应,依赖动态数据流处理)
-
风险实时拦截与欺诈检测
-
异常地址变更(如1小时内多次修改收货地址)需实时计算风险评分,触发拦截规则
-
设备异常登录(如多设备切换)需实时标记并限制敏感操作,1小时内切换超过 3次设备即标记风险
-
恶意评价检测,近1日交易次数>=3且差评次数>=3
-
-
投诉安抚:当日多次进线用户投诉率识别,分配优质客服小二进行安抚(耐心小二+红包短信安抚+专人跟进)(当日进线次数,对话时长,问题分类)
用户行为日志(修改地址,配送时段偏好),用户登录日志(多设备切换),业务系统数据(评价,服务入口,对话时长),用户等级(月消费金额,7日活跃度)
- 智能路由 :根据用户等级+
service_time_avg+服务入口(在线,热线)
分配最优客服资源 - 用户等级:月消费金额分档,
活跃度(7d_active_days)
标签,将用户引导至效率最高的服务入口(如App用户优先分配在线客服,电话偏好用户触发回拨) - 偏好驱动的服务匹配: 根据
配送时段偏好(delivery_time_pref)
等标签,智能客服自动推荐用户习惯的配送选项,提升一次问题解决率 - 话术模板改进:基于用户进线对客服小二的评价和问题的分类,持续改进客服小二回复模板内容
- 流程优化:根据客户维度、通话状态、通话内容等指标,利用机器学习算法计算客户可能投诉的概率,提取客户投诉原因,比如是物流时效问题,包裹质量问题,快递派送问题等,协助企业改进策略、优化流程