工业大数据分析算法实战-day01

文章目录

前言

从毕业后从事的行业是机房动力环境运维行业,职责为动环设备的监控预警和故障诊断,核心主旨为动环设备的数智化,个人浅见从大类视角来看隶属于工业设备的数据挖掘。恰逢公司举办21天flag活动,本人参加该活动,并立flag为:在21天内读完1本与工作技能相关的书籍《工业大数据分析算法实战》,每天阅读60分钟,每周完成3-4个章节,21天后输出一篇不少于500字的心得总结。有幸选择田春华老师的这本书进行观摩学习,非常感谢作者的辛勤书写。

day01

第1章节:数据分析概览,建立数据分析算法的概念框架并给予学习路线

第2-5章节:侧重通用的分析算法,包含:数据预处理、机器学习、时序挖掘算法、最优化等其他算法

第6-8章节:讨论工业分析的算法思路,涵盖了:生产质量分析、生产效率优化等典型分析的算法套路

第9章节:侧重分析的工程方法,讨论了工业上专家知识沉淀的方法

第10章节:讨论数据分析的软件工程

工业上刻画物理世界模型

优点 前提/限制条件 适用的场景
机理模型 分析推演能力强 基于大量的简化或者强假设。模型参数的可测量性 理论基础、实验条件良好
统计模型 归纳能力强,具备自适应能力 对数据要求高,预测结果有一定的不确定性 大量类似的场景。概念逻辑清楚,但是缺乏具象的关系
专家规则 可解释性强 规则的模糊与不完备 逻辑简单明了,需要实时计算

统计模型可与机理模型想融合:

  • 统计模型可为机理模型做校准(点的估计、分布估计);
  • 统计模型可为机理模型结果进行修正,或者结合统计方法综合多个机理模型,提高预测稳定性
  • 机理模型结果可作为统计模型的特征
  • 做融合,机理全局推演,统计局部较高精度刻画

统计模型与专家经验规则融合:

  • 在设备异常预警等场景,大多存在异常样本较少的情况,此时除了无监督,可采取专家经验融合统计模型
  • 构建大数据平台,将大量比如故障态的历史数据研究分析,不断完善专家经验规则
  • 统计模型可给出一些容易混淆的样本,让领域专家进行标记

忽略业务的数据挖掘是本末倒置

CRISP-DM(一种数据挖掘分析方法框架)

  • 业务理解:从业务角度理解目的和需求,转换为数据挖掘问题,诸如:确定业务目标、评估形式、确定DM的目标、制定项目计划
  • 数据理解:始于原始数据的收集,熟悉数据,标明数据质量问题,发掘出值得关注的数据自己以形成对隐藏信息的假设。
  • 数据准备:选择数据、清洗数据、生成数据、融合数据、格式化数据、数据集描述
  • 模型建立:选择模型、产生检验设计、建立模型、评估模型
  • 模型评估:评估结果、回顾DM过程、确定下一步工作
  • 模型部署:计划发布、监测和维护、最终报告、回顾项目

在工业领域的细化如下图

数据分析算法的朴素思想

数据分析算法看问题的角度:

  • 优化角度:构建一定的模型约束,最大化某个性能指标或者极小化某个惩罚的函数
  • 概率角度:变量存在均值方差指标,通过参数的先验分布,求解目标极大化似然度、后验概率分布,获得参数的点/区间估计
角度 优化方法 概率方法
理论基础 数学优化(目标函数 + 约束条件) 概率统计(先验、似然、后验等概念)
目标 最大化性能指标或最小化代价函数 求解最优参数的概率分布或最大似然估计
适用场景 强调精确优化问题(如模型参数的直接优化) 需要处理不确定性或随机性的场景(如贝叶斯推断)
难度 通常在构建目标函数后计算较直接 需要假设分布和构建概率模型,推导复杂

问题定义方式:

方式 关注点 特点 例子
指令式 明确步骤和过程 规则清晰、逐步定义 自己写排序算法
声明式 描述问题和目标 自动化求解 机器学习中的模型训练过程
激励式 用奖励/惩罚调节行为 结果导向、灵活适配 GAN 的生成学习,强化学习的策略优化

模型的求解算法:

  • 解析表达式,对于一些简单的模型,能够直接通过数学解析法求解,即直接计算出明确的解,比如线性计算
  • 存在明确梯度,如果可以明确地计算目标函数的梯度(或使用数值方法近似梯度),可以采用梯度下降等方法求解,比如神经网络相关
  • 分而治之,将问题分解为更小的子问题分别求解,再组合成整体解的策略,比如决策树模型
  • 多个变量迭代求解,先固定一部分,利用局部优化算法求解剩余变量,然后再固定剩余变量,求解原来部分变量,比如kmeans
  • 转换为典型范式模型,比如在整数规划上,存在很多模型范式,可以增加参数,将非线性整数优化模型转换为整数规划模型,再通过高效的引擎求解
相关推荐
阿里技术7 分钟前
HNSW 分布式构建实践
分布式·算法·方案·hnsw·向量检索
南宫生29 分钟前
力扣-图论-9【算法学习day.59】
java·学习·算法·leetcode·图论
CopyProfessor35 分钟前
Java版-图论-最短路-Floyd算法
java·算法·图论
aaal123441 分钟前
代码随想录算法训练营day39|动态规划part7
算法·动态规划
Coding~1 小时前
逆向攻防世界CTF系列56-easy_Maze
c语言·汇编·算法·安全·网络安全
千瓜1 小时前
2024年特别报告,「十大生活方式」研究数据报告
大数据·数据挖掘·数据分析·业界资讯·新媒体
Light602 小时前
从混沌到清晰:全面解析非结构化数据治理!
数据库·数据挖掘·数据安全·数据资产·非结构化数据
狄加山6752 小时前
C语言(函数)
java·c语言·算法
木向2 小时前
leetcode909:蛇梯棋
算法
imred2 小时前
python数据分析一例:使用SQL和pandas对数据进行聚合和diff
python·sql·数据分析·pandas