大航杯智造扬中电力AI大赛RANK6思路总结

关联比赛: [智造扬中]大航杯电力AI大赛

一、赛题介绍

本次比赛期望参赛者基于给定的扬中市高新区的1000多家企业的历史用电量数据(表1)精准预测下一个月的每日总用电量。参赛者可以参考其他外部数据,比如天气、经济数据,但是使用外部数据的时间范围必须在预测时间之前获取的数据。

表1. 扬中市高新区的1000多家企业的用电量

二、分析思路

单个用户的用电特征几乎没有规律可言,但在研究大量用户的负荷时,其随机性相互抵消,则呈现出很强的规律性。不过,地区级电力系统具有容量小、波动性大的特点,一般存在若干负荷容量相对较大的用户,其用电行为极大影响了总负荷。因此,我们首先对用户的负荷进行K-Means聚类分析。当分类数K=4,分类结果为1416、175、174和其他;当分类数K=2,分类结果为1416和其他。这里我们分两类进行预测,1416的用户体量大,约占全负荷的1/4,且其发电规律与其他用户总和明显不同。

图1.各用户总负荷百分比饼图,时间为2015年1月1月至2016年1月8月31日

在业务中接触到数据的数据质量往往较差,本次大奖赛所涉及到的负荷数据亦是如此。负荷预测中的异常数据一般分为两类:1)显著异常数据:零值、空值、连续定值、显著异常阶跃等;2)非显著阶跃、转供等。这里我们主要通过水平标记和垂直标记来识别异常小值和异常大值,即比较某个用户某天的负荷与其前、后两日的平均值或者前、后两周同一星期类型的平均值进行比较,并进行水平或垂直处理,即用相应的平均值进行代替。图2为清洗后的结果对比图,可以看出效果是非常明显的。

图2. 数据清洗前后对比图

母线或地市电网的负荷预测,需要对大用户用电情况进行针对性措施:1)分析其用电特征;2)了解生产过程,收集用电计划;3)进行监视,分析异动;4)分析与统计其规律性。对于1416用户,其用电特征基本呈现稳步上升的特征,此外还存在较强的非计划性,尤其是2016年8月、9月和11月。其负荷与节假日以及星期类型的关系不大。

而其他用户负荷总和与节假日、星期类型、气象等相关性较强。1)节假日:节日期间,负荷明显较低,这与企业的停产或减产有直接关系。2)星期类型:负荷存在明显的周循环,周四的平均负荷最高,而周日的平均负荷最低。3)气象:气象要素中的温度和湿度对于负荷的影响最为显著,由于比赛中提供的气象数据的限制,我们利用的是日最低气温。需要注意的是,业务中一般用的是日平均气温。气温与负荷一般为二次曲线的关系,即高温时,温度越高,负荷越大;低温时,温度越低,负荷越大;适宜气温,负荷较小。此外,其他用户负荷总和呈现大体上升的趋势。

图3. 非节假日期间,温度与负荷之间的散点图,不同颜色代表不同的星期类型

三、算法模型

根据之前的分析结果,我们对1416和其他用户运用不同方法分别进行预测,最终预测结果为两者结果之和。对于1416用户,选取最近30-60日的数据进行线性趋势预测或ARIMA,训练时间段应选取平稳时段,剧烈波动、缺省时段应剔除。其他用户负荷分节假日和非节假日进行预测,节假日采用"倍比法",P1i/A1=P2i/A2,其中A1和A2,分别代表本年和前年预测日前一个月非节假日的平均负荷,P1i和P2i分别代表本年和前年同类型日的值,例如十一的第2天。非节假日采用GBDT进行预测,输入变量为星期类型、日最低气温、天数(2015年1月1日为第0天)。

图4. 1416用户的实际与预测负荷;其他用户的实际和预测负荷

由于预测模型包括GBDT、预测因子等存在很多参数,为了防止过拟合,我们采用交叉验证的方法。通过4轮的实验,即1416预测不变,调整其他用户总负荷,线下和线上的预测精度成正相关。

四、总结

  1. 在实际业务中,数据的质量往往存在大量的问题,因此数据的治理方案是十分必要的,而这往往也是业务开展的基础。结合负荷本身具有的特点,日历天的划分和数据特征的选取也对预测准确率和模型的稳定性有很大影响;

  2. 最终预测结果可以对多个单体算法的预测结果进行组合,可提高模型预测的准确率与稳定性;

  3. 数加平台中模块化的算法,使得很多没有接触过大数据的用户也可以很容易的对大数据进行分析、处理,但美中不足的是算法模型相对较少,希望可以添加更多的算法模块。

联系人:林建设 linjianshe@eeechina.cn;王彦文 wangyanwen@eeechina.cn;卢月亮 luyueliang@eeechina.cn

查看更多内容,欢迎访问天池技术圈官方地址: 大航杯智造扬中电力AI大赛RANK6思路总结_天池技术圈-阿里云天池

相关推荐
测试员周周6 小时前
【Appium 系列】第16节-WebView-H5上下文切换 — 混合应用的自动化难点
运维·开发语言·人工智能·功能测试·appium·自动化·测试用例
K姐研究社8 小时前
怎么用AI制作电商口播视频,开拍APP一键生成
人工智能·音视频
LaughingZhu8 小时前
Product Hunt 每日热榜 | 2026-05-21
前端·人工智能·经验分享·chatgpt·html
商业模式源码开发8 小时前
实体门店低获客成本增长案例:3 人转介绍模型 + 消费返还机制落地分析
大数据·商业模式·私域流量
传说故事8 小时前
【论文阅读】MotuBrain: An Advanced World Action Model for Robot Control
论文阅读·人工智能·具身智能·wam
北京耐用通信9 小时前
全域适配工业场景耐达讯自动化Modbus TCP 转 PROFIBUS 网关轻松实现以太网与现场总线互通
网络·人工智能·网络协议·自动化·信息与通信
火山引擎开发者社区9 小时前
TRAE × 火山引擎 Supabase:为你的 AI 应用装上“数据引擎”
人工智能
小a彤9 小时前
GE 在 CANN 五层架构中的位置
人工智能·深度学习·transformer
前端若水10 小时前
会话管理:创建、切换、删除对话历史
前端·人工智能·python·react.js
元拓数智10 小时前
智能分析落地卡壳?先补好「数据关系+语义治理」这层技术基建
大数据·分布式·ai·spark·数据关系·语义治理