工业大数据分析算法实战-day01

文章目录

前言

从毕业后从事的行业是机房动力环境运维行业,职责为动环设备的监控预警和故障诊断,核心主旨为动环设备的数智化,个人浅见从大类视角来看隶属于工业设备的数据挖掘。恰逢公司举办21天flag活动,本人参加该活动,并立flag为:在21天内读完1本与工作技能相关的书籍《工业大数据分析算法实战》,每天阅读60分钟,每周完成3-4个章节,21天后输出一篇不少于500字的心得总结。有幸选择田春华老师的这本书进行观摩学习,非常感谢作者的辛勤书写。

day01

第1章节:数据分析概览,建立数据分析算法的概念框架并给予学习路线

第2-5章节:侧重通用的分析算法,包含:数据预处理、机器学习、时序挖掘算法、最优化等其他算法

第6-8章节:讨论工业分析的算法思路,涵盖了:生产质量分析、生产效率优化等典型分析的算法套路

第9章节:侧重分析的工程方法,讨论了工业上专家知识沉淀的方法

第10章节:讨论数据分析的软件工程

工业上刻画物理世界模型

优点 前提/限制条件 适用的场景
机理模型 分析推演能力强 基于大量的简化或者强假设。模型参数的可测量性 理论基础、实验条件良好
统计模型 归纳能力强,具备自适应能力 对数据要求高,预测结果有一定的不确定性 大量类似的场景。概念逻辑清楚,但是缺乏具象的关系
专家规则 可解释性强 规则的模糊与不完备 逻辑简单明了,需要实时计算

统计模型可与机理模型想融合:

  • 统计模型可为机理模型做校准(点的估计、分布估计);
  • 统计模型可为机理模型结果进行修正,或者结合统计方法综合多个机理模型,提高预测稳定性
  • 机理模型结果可作为统计模型的特征
  • 做融合,机理全局推演,统计局部较高精度刻画

统计模型与专家经验规则融合:

  • 在设备异常预警等场景,大多存在异常样本较少的情况,此时除了无监督,可采取专家经验融合统计模型
  • 构建大数据平台,将大量比如故障态的历史数据研究分析,不断完善专家经验规则
  • 统计模型可给出一些容易混淆的样本,让领域专家进行标记

忽略业务的数据挖掘是本末倒置

CRISP-DM(一种数据挖掘分析方法框架)

  • 业务理解:从业务角度理解目的和需求,转换为数据挖掘问题,诸如:确定业务目标、评估形式、确定DM的目标、制定项目计划
  • 数据理解:始于原始数据的收集,熟悉数据,标明数据质量问题,发掘出值得关注的数据自己以形成对隐藏信息的假设。
  • 数据准备:选择数据、清洗数据、生成数据、融合数据、格式化数据、数据集描述
  • 模型建立:选择模型、产生检验设计、建立模型、评估模型
  • 模型评估:评估结果、回顾DM过程、确定下一步工作
  • 模型部署:计划发布、监测和维护、最终报告、回顾项目

在工业领域的细化如下图

数据分析算法的朴素思想

数据分析算法看问题的角度:

  • 优化角度:构建一定的模型约束,最大化某个性能指标或者极小化某个惩罚的函数
  • 概率角度:变量存在均值方差指标,通过参数的先验分布,求解目标极大化似然度、后验概率分布,获得参数的点/区间估计
角度 优化方法 概率方法
理论基础 数学优化(目标函数 + 约束条件) 概率统计(先验、似然、后验等概念)
目标 最大化性能指标或最小化代价函数 求解最优参数的概率分布或最大似然估计
适用场景 强调精确优化问题(如模型参数的直接优化) 需要处理不确定性或随机性的场景(如贝叶斯推断)
难度 通常在构建目标函数后计算较直接 需要假设分布和构建概率模型,推导复杂

问题定义方式:

方式 关注点 特点 例子
指令式 明确步骤和过程 规则清晰、逐步定义 自己写排序算法
声明式 描述问题和目标 自动化求解 机器学习中的模型训练过程
激励式 用奖励/惩罚调节行为 结果导向、灵活适配 GAN 的生成学习,强化学习的策略优化

模型的求解算法:

  • 解析表达式,对于一些简单的模型,能够直接通过数学解析法求解,即直接计算出明确的解,比如线性计算
  • 存在明确梯度,如果可以明确地计算目标函数的梯度(或使用数值方法近似梯度),可以采用梯度下降等方法求解,比如神经网络相关
  • 分而治之,将问题分解为更小的子问题分别求解,再组合成整体解的策略,比如决策树模型
  • 多个变量迭代求解,先固定一部分,利用局部优化算法求解剩余变量,然后再固定剩余变量,求解原来部分变量,比如kmeans
  • 转换为典型范式模型,比如在整数规划上,存在很多模型范式,可以增加参数,将非线性整数优化模型转换为整数规划模型,再通过高效的引擎求解
相关推荐
学编程的小程4 小时前
LeetCode216
算法·深度优先
leeyayai_xixihah4 小时前
2.21力扣-回溯组合
算法·leetcode·职场和发展
01_4 小时前
力扣hot100——相交,回文链表
算法·leetcode·链表·双指针
萌の鱼4 小时前
leetcode 2826. 将三个组排序
数据结构·c++·算法·leetcode
Buling_04 小时前
算法-哈希表篇08-四数之和
数据结构·算法·散列表
AllowM4 小时前
【LeetCode Hot100】除自身以外数组的乘积|左右乘积列表,Java实现!图解+代码,小白也能秒懂!
java·算法·leetcode
RAN_PAND4 小时前
STL介绍1:vector、pair、string、queue、map
开发语言·c++·算法
fai厅的秃头姐!7 小时前
C语言03
c语言·数据结构·算法
lisanndesu7 小时前
动态规划
算法·动态规划
myprogramc7 小时前
十大排序算法
数据结构·算法·排序算法