李浩然:从大数据能力提升项目出发,探索化工大数据之路 | 提升之路系列(一)...

导读

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的"π"型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的"清华大学大数据能力提升项目"开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。

我是来自化工系过程系统工程研究所和工业大数据系统与应用北京市重点实验室的四年级博士研究生李浩然,导师是邱彤教授。作为化工与大数据交叉方向的研究生,我在2020年秋季学期研究生入学时选修了大数据提升项目,而大数据项目也成为了我的研究生科研之路的起点。

李浩然个人生活照

在大数据项目中,我共选修了4门课程。《大数据分析(B)》是我选修的第一门课程,由计算机系朱文武老师授课。在这门课上我对数据统计分析的数学基础、大数据的分析方法以及大数据分析系统和平台等知识有了较为初步的认识,在课程最终的大作业中我们小组完成了一个企业非法集资风险预测的项目,通过集成学习模型LightGBM和CatBoost进行训练,最终的F1-score达到0.83,尽管这一成绩离最高成绩还有差距,但是通过这个项目我也逐渐感受到了大数据分析的魅力。在这门课程结束之后,我对于机器学习和深度学习产生了更加浓厚的兴趣,所以又分别选修了计算机系朱军老师授课的《统计学习理论与应用》和软件学院龙明盛老师授课的《深度学习》,这两门课程也让我更加深入的掌握了机器学习和深度学习的方法,特别是对于卷积神经网络、图神经网络、因果推断、强化学习等主题的学习直接推动了我自己此后的科研进展。完成了这三门之后,在《大数据实践》课程中,我们小组参与了网帅科技(北京)有限公司的课题"基于浮动车数据的城市交通运行特征分析",通过浮动车速度数据分析确定各等级道路阈值,对路网速度进行时空特征分析、城市交通运行状态分析、使用交通运行状态数据,挖掘城市道路交通状态的潜在规律。可以说,这四门课程为我打开了大数据和人工智能的大门,也指引着我结合自身的化工专业知识对于化工大数据进行更加深入的探索。

完成大数据能力提升项目的全部课程之后,我开始结合自己的科研方向进行思考。化工行业是一个拥有海量工业数据的行业,以石化行业为例,企业在生产过程中会在分布式控制系统(DCS)和制造执行系统(MES)中存储反映生产状态的数据,从这些数据中中开展数据挖掘、建模工作能够帮助我们监测系统运行状态、进行故障预警与诊断、对于关键指标进行优化。因此,我选定了流程制造行业的大数据建模作为我的科研初探方向。

我参与的第一个与大数据相关的工业项目是基于工业互联网平台的流程行业生产线数字孪生系统(科技创新2030---"新一代人工智能"重大项目)。这个项目旨在针对柳州钢铁集团的炼铁生产线开展数字孪生建模,建立从高炉、烧结机等物理实体到信息实体的映射,从而对炼铁设备进行全生命周期的健康监控。我所关注的生产单元是烧结,也是高炉炼铁系统中的重要生产单元,其生产水平高低直接关系炼铁企业的生产效益。烧结过程具有时滞性和非线性特征,为了实现对烧结生产状态的准确预测,我综合了自相关分析、收敛交叉映射和误差反向传播神经网络等方法,融合因果性机理和黑箱模型,建立了基于因果分析的烧结生产状态预测模型。该模型通过因果分析层选取解释变量集、自相关窗口和因果性窗口,并通过神经网络层实现对6个烧结生产状态关键变量的准确预测。经过工业数据测试,该模型预测平均误差控制在0.5%~3.1%之间,能够有效辅助工厂进行烧结状态调整。

柳州钢铁集团烧结厂中控室采集工业数据

柳州钢铁的项目让我真正体会到了大数据在工业实践中能够发挥的巨大作用,也坚定了我继续开展交叉研究的信心。此后,我的研究工作主要围绕石化行业中最重要的产品-乙烯的智能化生产展开,主要开展了基于大数据的乙烯生产建模与优化研究。

在目前和可预见的将来,蒸汽裂解是生产乙烯和其他烯烃产品的主要工艺。因此,蒸汽裂解的实时优化对提高原料利用率至关重要,其瓶颈在于预测精度和计算速度。近年来,深度学习以其强大的拟合能力和快速的计算速度应运而生。然而,目前还缺乏一种合理的神经网络,可以结合乙烯裂解反应(ECR)网络进行有效的特征提取。结合在深度学习课程中学习的图神经网络,我和课题组同学共同提出了一种创新的蒸汽裂解图网络(SCGN),该网络在ECR网络上应用图卷积网络来提取有效的特征用于产品预测。SCGN在模拟数据集(0.05wt%)和工业案例(0.13wt%)上实现了很小的平均绝对误差,以及较短的计算时间(~0.02s),显示了在线应用的巨大潜力。此外,SCGN可以精细地可视化原料组成和操作条件对产品的影响,从数据驱动的角度直观地了解蒸汽裂解过程。

由于供应链波动的存在,乙烯生产可能出现原料供应不足、产品分配不合理等问题,降低了生产的稳定性和经济效益。在这种情况下,乙烯裂解炉系统的动态调度对乙烯的安全高效生产至关重要。乙烯生产是由焦化引起的多裂化装置的半连续过程,因此乙烯裂解炉系统的调度问题本身就是一个复杂的混合整数非线性优化问题。如果进一步考虑原料(乙烷、石脑油、轻烃等)的供应和价格以及产品(乙烯、丙烯等)价格等供应链参数的波动,问题的复杂性将显著增加,使用常规优化方法难以解决。

为了解决这一问题,我将深度强化学习引入乙烯动态调度问题,提出了一个基于深度强化学习的动态乙烯调度框架,包括乙烯调度马尔可夫决策过程(MDP)环境和深度q-网络(DQN)决策网络。通过与文献案例的比较分析,该框架显示出每日收入显著提高5.7%,显示出对供应链波动的强大抵御能力。

大数据能力项目为我的科研之路奠定了良好的基础,未来我也将继续开展化工与大数据的交叉研究,为化工行业智能化转型升级贡献力量。

课题组师生共同参加第33届欧洲计算机辅助过程工程研讨会(ESCAPE33)

编辑:于腾凯

校对:梁锦程

相关推荐
ycsdn1018 分钟前
Caused by: org.apache.flink.api.common.io.ParseException: Row too short:
大数据·flink
DolphinScheduler社区2 小时前
Apache DolphinScheduler + OceanBase,搭建分布式大数据调度平台的实践
大数据
时差9533 小时前
MapReduce 的 Shuffle 过程
大数据·mapreduce
kakwooi4 小时前
Hadoop---MapReduce(3)
大数据·hadoop·mapreduce
数新网络4 小时前
《深入浅出Apache Spark》系列②:Spark SQL原理精髓全解析
大数据·sql·spark
昨天今天明天好多天9 小时前
【数据仓库】
大数据
油头少年_w9 小时前
大数据导论及分布式存储HadoopHDFS入门
大数据·hadoop·hdfs
Elastic 中国社区官方博客10 小时前
释放专利力量:Patently 如何利用向量搜索和 NLP 简化协作
大数据·数据库·人工智能·elasticsearch·搜索引擎·自然语言处理
力姆泰克10 小时前
看电动缸是如何提高农机的自动化水平
大数据·运维·服务器·数据库·人工智能·自动化·1024程序员节
力姆泰克10 小时前
力姆泰克电动缸助力农业机械装备,提高农机的自动化水平
大数据·服务器·数据库·人工智能·1024程序员节