数据挖掘:基于电力知识图谱的客户画像构建实施方案

基于电力知识图谱的客户画像构建实施方案

本技术方案分为两大部分。第一部分为基于电力知识图谱的客户画像研究技术。第一部分主要介绍该项目将用到的技术,包括整体框架、知识图谱技术、客户画像技术。

第二部分为基于电力知识图谱的客户画像标签体系。第二部分将详细阐述电力客户画像的标签体系,包括客户基本属性标签、用电行为标签、缴费行为标签、诉求行为标签、客户细分标签、支撑能耗诊断及优化标签、环保企业管控标签、金融授信标签。

1. 基于电力知识图谱的客户画像研究技术

1.1 整体架构

本项目的技术架构可分成六层,分别是数据来源层、数据采集与存储、标签构建层、标签存储层、画像应用层。

1.2 知识图谱技术

知识图谱的概念最早由谷歌提出,是以结构化的形式去描述我们客观世界中所存在的概念、实体、联系。其中概念是指客观世界中对具有一样属性的事物的概括和抽象化。实体则是客观世界中实实在在存在的物体,比如电力系统中的客户。联系指概念、实体二者之间或概念与概念、实体与实体之间存在的关系,比如隶属关系。知识图谱主要由实体、概念、内容、属性、以及关系等部分组成。

  • 实体:表示在客观世界中可单独存在且与其他事物有不同之处的某种事物。本文中比如身份证号(代表特定的一个人)。实体作为构建知识图谱的本体,它是构建知识图谱的最为基本的元素。
  • 概念:表示具有相同的属性值的某一类实体的集合,比如企业法人等。
  • 内容:通常用于描述一个实体或者概念的名字、定义等知识信息。通常这类信息主要包括图片,音频,视频,文本等。例如本文中对人物的描述可有图片、监控视频等。
  • 属性:表示用来描述某个实体的具体属性值。比如一个"人"可以有"姓名""性别"、"年龄"等属性。
  • 关系:表示实体与实体之间的映射关系,这是将两个实体联系起来的重要步骤。

知识图谱技术分为两部分,第一是知识图谱的建立,第二是知识图谱的应用。知识图谱的建立核心在于自动更新知识图谱库,现在存在的数据信息绝大多数数据非结构化数据,例如视频、图片、音频等等,知识的检索与抽取、自然语言处理在知识图谱中显得尤为重要,但本项目中所涉及数据多为结构化数据,所以对知识的检索与抽取并不是重点,反而数据融合才是本项目知识图谱建立的重点,原因在于互联网数据爆发的大时代,企业都面临数据孤岛问题,很多数据都分布在企业不同的系统中,如营销系统、用电采集系统等,且所有数据被封存在各系统中,让完整的业务链上孤岛林立,信息的共享和反馈难。

本项目知识图谱构建的另一个重点是语义搜索和推荐。当客户输入搜索词时,知识图谱会将其映射为知识图谱中在客观时间存在的概念和实体,搜索结果更为准确。比如搜索"苹果",可能客户更想搜索的手机品牌而非水果,当"苹果"和"乔布斯"一起搜索时,极大可能为手机品牌,而"苹果"和"维生素"一起搜索时,大多数情况都是指水果。推荐功能应用为知识图谱链接其他概念或实体,这些内容跟客户搜索的关键词都有一定的联系,或多或少可以达到推荐的作用。

1.3 客户画像技术

1.3.1 客户画像

客户画像是指与该客户相关联的数据的可视化的展现,简单的总结就是客户信息标签化。从客户海量的信息里面去找到一些标签,为客户去贴上这些标签,当然这些标签的来源就是一些客户的基本属性、行为偏好等海量数据。而用户画像的丰满程度,是由标签体系决定,因此客户画像的核心便是客户标签体系的建设。

1.3.2 客户画像生成流程

客户画像的生成流程包括数据收集、数据清洗、知识图谱构建、特征工程、标签挖掘、标签体系搭建、形成客户画像。整个项目实现方案主要涉及Spark、Hive等框架,数据存储依据客户已有数据为准,建议使用Hive等大数据存储数据库。

  • 数据收集:电力用户画像数据主要来源于各基本的业务系统、95598系统、营销系统等,具体包括客户的基本信息、用电行为信息、缴费信息、投诉与建议信息等。
  • 数据清洗:数据清洗主要是对数据进行校正,提升数据质量。包括缺失值处理、异常值处理、数据转换等方法。
  • 知识图谱构建:知识图谱构建包括数据融合、知识抽取、知识的存储。即对不同业务系统的数据先进行数据融合,再对不同来源、不同结构的数据进行知识的提取,形成知识,最后将知识进行存储。知识的存储选取开源的Neo4J图数据库。
  • 标签挖掘 :标签挖掘主要采用四种方法:
    • 基于知识图谱的事实标签生成:客户的事实标签可以直接有知识图谱实体的属性生成,如性别、年龄、职业等标签。
    • 基于统计学建模:这类标签一般具有时间窗口的周期,根据一定的统计学原理对窗口周期内的数据进行建模,一般周期可以为一周,一月、三月、六月、一年,如比如近一年内客户缴费偏好、客户三个月内用量异常程度等。主要使用的统计学算法有:相关性分析、杰卡德相似系数、RFM模型、PCA降维等。
    • 基于机器学习算法建模:这类标签主要通过机器学习算法进行建模得来,如客户分群、客户风险等级、用电量预测等。模型构建使用机器学习内置算法平台完成,具体使用的算法主要有Kmeans++、随机森林、逻辑回归、GBDT基础算法、神经网络等。
    • 基于业务规则转写:这类标签属于深层次标签,需要结合具体的业务场景进行设定,不同的业务场景对同一个标签的定义可能会不同,比如客户欠费次数大于3次为高风险欠费用户。
  • 标签体系搭建:电力客户画像标签体系包括8大维度,分别为客户基本属性、用电行为、缴费行为、诉求行为、客户细分、支撑能耗诊断及优化、环保企业管控、金融授信等,具体各维度下的二级标签及子标签见第二章标签体系。
  • 形成客户画像:根据标签体系,进行客户画像展示。
1.3.3 构建标签体系

标签体系的构建需要基于业务需求驱动,通过业务应用的要素分析,去驱动标签维度的扩展,通过标签维度的扩展,又可以去驱动业务。本项目标签体系可分为8大维度,分别为:客户基本属性标签体系、用电行为标签体系、缴费行为标签体系、诉求行为标签体系、客户细分标签体系、支撑能耗诊断及优化标签体系、环保企业管控标签体系、金融授信标签体系。

标签体系从层级的角度出发,可以分为4层。首层标签主要为事实标签,主要通过知识图谱、统计算法获得,比如客户的性别、年龄、职业、收入水平等;第二层的标签主要为稍作处理的汇总层,比如客户的缴费渠道偏好、客户兴趣偏好等;第三层是基于前两层做的机器学习建模标签,比如客户的营销敏感度、客户用电量预测等;最后一层是更深层的,需要结合业务知识去做定制。比如高、中、低价值客户、欠费风险等级等。

2. 基于电力知识图谱的客户画像标签建设

2.1 客户基本属性标签

2.2 用电行为标签

2.3 缴费行为标签在这里插入图片描述

2.4 诉求行为标签

2.5 客户细分标签

2.6 支撑能耗诊断及优化标签

2.7 环保企业管控标签

2.8 金融授信标签

相关推荐
堇舟2 小时前
斯皮尔曼相关(Spearman correlation)系数
人工智能·算法·机器学习
yyfhq3 小时前
dcgan
深度学习·机器学习·生成对抗网络
放松吃羊肉4 小时前
【约束优化】一次搞定拉格朗日,对偶问题,弱对偶定理,Slater条件和KKT条件
人工智能·机器学习·支持向量机·对偶问题·约束优化·拉格朗日·kkt
yyfhq5 小时前
rescorediff
python·深度学习·机器学习
思通数据5 小时前
AI助力医疗数据自动化:诊断报告识别与管理
大数据·人工智能·目标检测·机器学习·计算机视觉·目标跟踪·自动化
(●'◡'●)知6 小时前
基于树莓派的安保巡逻机器人--(一、快速人脸录入与精准人脸识别)
人工智能·python·opencv·机器学习·计算机视觉
迷路爸爸1807 小时前
深入理解Allan方差:用体重数据分析误差的时间尺度与稳定性
机器学习·数据分析·概率论
T0uken8 小时前
【机器学习】过拟合与欠拟合
人工智能·机器学习
qiaoxinyu198910 小时前
线性代数(1)——线性方程组的几何意义
线性代数·算法·机器学习