一、赛题介绍
本次比赛期望参赛者基于给定的扬中市高新区的1000多家企业的历史用电量数据(表1)精准预测下一个月的每日总用电量。参赛者可以参考其他外部数据,比如天气、经济数据,但是使用外部数据的时间范围必须在预测时间之前获取的数据。
表1. 扬中市高新区的1000多家企业的用电量
二、分析思路
单个用户的用电特征几乎没有规律可言,但在研究大量用户的负荷时,其随机性相互抵消,则呈现出很强的规律性。不过,地区级电力系统具有容量小、波动性大的特点,一般存在若干负荷容量相对较大的用户,其用电行为极大影响了总负荷。因此,我们首先对用户的负荷进行K-Means聚类分析。当分类数K=4,分类结果为1416、175、174和其他;当分类数K=2,分类结果为1416和其他。这里我们分两类进行预测,1416的用户体量大,约占全负荷的1/4,且其发电规律与其他用户总和明显不同。
图1.各用户总负荷百分比饼图,时间为2015年1月1月至2016年1月8月31日
在业务中接触到数据的数据质量往往较差,本次大奖赛所涉及到的负荷数据亦是如此。负荷预测中的异常数据一般分为两类:1)显著异常数据:零值、空值、连续定值、显著异常阶跃等;2)非显著阶跃、转供等。这里我们主要通过水平标记和垂直标记来识别异常小值和异常大值,即比较某个用户某天的负荷与其前、后两日的平均值或者前、后两周同一星期类型的平均值进行比较,并进行水平或垂直处理,即用相应的平均值进行代替。图2为清洗后的结果对比图,可以看出效果是非常明显的。
图2. 数据清洗前后对比图
母线或地市电网的负荷预测,需要对大用户用电情况进行针对性措施:1)分析其用电特征;2)了解生产过程,收集用电计划;3)进行监视,分析异动;4)分析与统计其规律性。对于1416用户,其用电特征基本呈现稳步上升的特征,此外还存在较强的非计划性,尤其是2016年8月、9月和11月。其负荷与节假日以及星期类型的关系不大。
而其他用户负荷总和与节假日、星期类型、气象等相关性较强。1)节假日:节日期间,负荷明显较低,这与企业的停产或减产有直接关系。2)星期类型:负荷存在明显的周循环,周四的平均负荷最高,而周日的平均负荷最低。3)气象:气象要素中的温度和湿度对于负荷的影响最为显著,由于比赛中提供的气象数据的限制,我们利用的是日最低气温。需要注意的是,业务中一般用的是日平均气温。气温与负荷一般为二次曲线的关系,即高温时,温度越高,负荷越大;低温时,温度越低,负荷越大;适宜气温,负荷较小。此外,其他用户负荷总和呈现大体上升的趋势。
图3. 非节假日期间,温度与负荷之间的散点图,不同颜色代表不同的星期类型
三、算法模型
根据之前的分析结果,我们对1416和其他用户运用不同方法分别进行预测,最终预测结果为两者结果之和。对于1416用户,选取最近30-60日的数据进行线性趋势预测或ARIMA,训练时间段应选取平稳时段,剧烈波动、缺省时段应剔除。其他用户负荷分节假日和非节假日进行预测,节假日采用"倍比法",P1i/A1=P2i/A2,其中A1和A2,分别代表本年和前年预测日前一个月非节假日的平均负荷,P1i和P2i分别代表本年和前年同类型日的值,例如十一的第2天。非节假日采用GBDT进行预测,输入变量为星期类型、日最低气温、天数(2015年1月1日为第0天)。
图4. 1416用户的实际与预测负荷;其他用户的实际和预测负荷
由于预测模型包括GBDT、预测因子等存在很多参数,为了防止过拟合,我们采用交叉验证的方法。通过4轮的实验,即1416预测不变,调整其他用户总负荷,线下和线上的预测精度成正相关。
四、总结
-
在实际业务中,数据的质量往往存在大量的问题,因此数据的治理方案是十分必要的,而这往往也是业务开展的基础。结合负荷本身具有的特点,日历天的划分和数据特征的选取也对预测准确率和模型的稳定性有很大影响;
-
最终预测结果可以对多个单体算法的预测结果进行组合,可提高模型预测的准确率与稳定性;
-
数加平台中模块化的算法,使得很多没有接触过大数据的用户也可以很容易的对大数据进行分析、处理,但美中不足的是算法模型相对较少,希望可以添加更多的算法模块。
联系人:林建设 linjianshe@eeechina.cn;王彦文 wangyanwen@eeechina.cn;卢月亮 luyueliang@eeechina.cn
查看更多内容,欢迎访问天池技术圈官方地址: 大航杯智造扬中电力AI大赛RANK6思路总结_天池技术圈-阿里云天池