工业大数据分析算法实战-day01

文章目录

前言

从毕业后从事的行业是机房动力环境运维行业,职责为动环设备的监控预警和故障诊断,核心主旨为动环设备的数智化,个人浅见从大类视角来看隶属于工业设备的数据挖掘。恰逢公司举办21天flag活动,本人参加该活动,并立flag为:在21天内读完1本与工作技能相关的书籍《工业大数据分析算法实战》,每天阅读60分钟,每周完成3-4个章节,21天后输出一篇不少于500字的心得总结。有幸选择田春华老师的这本书进行观摩学习,非常感谢作者的辛勤书写。

day01

第1章节:数据分析概览,建立数据分析算法的概念框架并给予学习路线

第2-5章节:侧重通用的分析算法,包含:数据预处理、机器学习、时序挖掘算法、最优化等其他算法

第6-8章节:讨论工业分析的算法思路,涵盖了:生产质量分析、生产效率优化等典型分析的算法套路

第9章节:侧重分析的工程方法,讨论了工业上专家知识沉淀的方法

第10章节:讨论数据分析的软件工程

工业上刻画物理世界模型

优点 前提/限制条件 适用的场景
机理模型 分析推演能力强 基于大量的简化或者强假设。模型参数的可测量性 理论基础、实验条件良好
统计模型 归纳能力强,具备自适应能力 对数据要求高,预测结果有一定的不确定性 大量类似的场景。概念逻辑清楚,但是缺乏具象的关系
专家规则 可解释性强 规则的模糊与不完备 逻辑简单明了,需要实时计算

统计模型可与机理模型想融合:

  • 统计模型可为机理模型做校准(点的估计、分布估计);
  • 统计模型可为机理模型结果进行修正,或者结合统计方法综合多个机理模型,提高预测稳定性
  • 机理模型结果可作为统计模型的特征
  • 做融合,机理全局推演,统计局部较高精度刻画

统计模型与专家经验规则融合:

  • 在设备异常预警等场景,大多存在异常样本较少的情况,此时除了无监督,可采取专家经验融合统计模型
  • 构建大数据平台,将大量比如故障态的历史数据研究分析,不断完善专家经验规则
  • 统计模型可给出一些容易混淆的样本,让领域专家进行标记

忽略业务的数据挖掘是本末倒置

CRISP-DM(一种数据挖掘分析方法框架)

  • 业务理解:从业务角度理解目的和需求,转换为数据挖掘问题,诸如:确定业务目标、评估形式、确定DM的目标、制定项目计划
  • 数据理解:始于原始数据的收集,熟悉数据,标明数据质量问题,发掘出值得关注的数据自己以形成对隐藏信息的假设。
  • 数据准备:选择数据、清洗数据、生成数据、融合数据、格式化数据、数据集描述
  • 模型建立:选择模型、产生检验设计、建立模型、评估模型
  • 模型评估:评估结果、回顾DM过程、确定下一步工作
  • 模型部署:计划发布、监测和维护、最终报告、回顾项目

在工业领域的细化如下图

数据分析算法的朴素思想

数据分析算法看问题的角度:

  • 优化角度:构建一定的模型约束,最大化某个性能指标或者极小化某个惩罚的函数
  • 概率角度:变量存在均值方差指标,通过参数的先验分布,求解目标极大化似然度、后验概率分布,获得参数的点/区间估计
角度 优化方法 概率方法
理论基础 数学优化(目标函数 + 约束条件) 概率统计(先验、似然、后验等概念)
目标 最大化性能指标或最小化代价函数 求解最优参数的概率分布或最大似然估计
适用场景 强调精确优化问题(如模型参数的直接优化) 需要处理不确定性或随机性的场景(如贝叶斯推断)
难度 通常在构建目标函数后计算较直接 需要假设分布和构建概率模型,推导复杂

问题定义方式:

方式 关注点 特点 例子
指令式 明确步骤和过程 规则清晰、逐步定义 自己写排序算法
声明式 描述问题和目标 自动化求解 机器学习中的模型训练过程
激励式 用奖励/惩罚调节行为 结果导向、灵活适配 GAN 的生成学习,强化学习的策略优化

模型的求解算法:

  • 解析表达式,对于一些简单的模型,能够直接通过数学解析法求解,即直接计算出明确的解,比如线性计算
  • 存在明确梯度,如果可以明确地计算目标函数的梯度(或使用数值方法近似梯度),可以采用梯度下降等方法求解,比如神经网络相关
  • 分而治之,将问题分解为更小的子问题分别求解,再组合成整体解的策略,比如决策树模型
  • 多个变量迭代求解,先固定一部分,利用局部优化算法求解剩余变量,然后再固定剩余变量,求解原来部分变量,比如kmeans
  • 转换为典型范式模型,比如在整数规划上,存在很多模型范式,可以增加参数,将非线性整数优化模型转换为整数规划模型,再通过高效的引擎求解
相关推荐
STY_fish_201224 分钟前
手拆STL
java·c++·算法
小纭在努力28 分钟前
【算法设计与分析】实验——改写二分搜索算法,众数问题(算法分析:主要算法思路),有重复元素的排列问题,整数因子分解问题(算法实现:过程,分析,小结)
数据结构·python·学习·算法·算法设计与分析·实验报告·实验
芜湖xin1 小时前
【题解-洛谷】B4278 [蓝桥杯青少年组国赛 2023] 简单算术题
算法·
理智的灰太狼1 小时前
题目 3298: 蓝桥杯2024年第十五届决赛真题-兔子集结
算法·职场和发展·蓝桥杯
kingmax542120084 小时前
【洛谷P9303题解】AC- [CCC 2023 J5] CCC Word Hunt
数据结构·c++·算法·广度优先
白熊1885 小时前
【机器学习基础】机器学习入门核心算法:XGBoost 和 LightGBM
人工智能·算法·机器学习
仟濹5 小时前
【HTML】基础学习【数据分析全栈攻略:爬虫+处理+可视化+报告】
大数据·前端·爬虫·数据挖掘·数据分析·html
bai_lan_ya5 小时前
数据结构-排序-排序的七种算法(2)
数据结构·算法·排序算法
全域智图7 小时前
元胞自动机(Cellular Automata, CA)
人工智能·算法·机器学习
珂朵莉MM7 小时前
2022 RoboCom 世界机器人开发者大赛-本科组(省赛)解题报告 | 珂学家
人工智能·算法·职场和发展·深度优先·图论