文章目录
前言
从毕业后从事的行业是机房动力环境运维行业,职责为动环设备的监控预警和故障诊断,核心主旨为动环设备的数智化,个人浅见从大类视角来看隶属于工业设备的数据挖掘。恰逢公司举办21天flag活动,本人参加该活动,并立flag为:在21天内读完1本与工作技能相关的书籍《工业大数据分析算法实战》,每天阅读60分钟,每周完成3-4个章节,21天后输出一篇不少于500字的心得总结。有幸选择田春华老师的这本书进行观摩学习,非常感谢作者的辛勤书写。
day01
第1章节:数据分析概览,建立数据分析算法的概念框架并给予学习路线
第2-5章节:侧重通用的分析算法,包含:数据预处理、机器学习、时序挖掘算法、最优化等其他算法
第6-8章节:讨论工业分析的算法思路,涵盖了:生产质量分析、生产效率优化等典型分析的算法套路
第9章节:侧重分析的工程方法,讨论了工业上专家知识沉淀的方法
第10章节:讨论数据分析的软件工程
工业上刻画物理世界模型
优点 | 前提/限制条件 | 适用的场景 | |
---|---|---|---|
机理模型 | 分析推演能力强 | 基于大量的简化或者强假设。模型参数的可测量性 | 理论基础、实验条件良好 |
统计模型 | 归纳能力强,具备自适应能力 | 对数据要求高,预测结果有一定的不确定性 | 大量类似的场景。概念逻辑清楚,但是缺乏具象的关系 |
专家规则 | 可解释性强 | 规则的模糊与不完备 | 逻辑简单明了,需要实时计算 |
统计模型可与机理模型想融合:
- 统计模型可为机理模型做校准(点的估计、分布估计);
- 统计模型可为机理模型结果进行修正,或者结合统计方法综合多个机理模型,提高预测稳定性
- 机理模型结果可作为统计模型的特征
- 做融合,机理全局推演,统计局部较高精度刻画
统计模型与专家经验规则融合:
- 在设备异常预警等场景,大多存在异常样本较少的情况,此时除了无监督,可采取专家经验融合统计模型
- 构建大数据平台,将大量比如故障态的历史数据研究分析,不断完善专家经验规则
- 统计模型可给出一些容易混淆的样本,让领域专家进行标记
忽略业务的数据挖掘是本末倒置
CRISP-DM(一种数据挖掘分析方法框架)
- 业务理解:从业务角度理解目的和需求,转换为数据挖掘问题,诸如:确定业务目标、评估形式、确定DM的目标、制定项目计划
- 数据理解:始于原始数据的收集,熟悉数据,标明数据质量问题,发掘出值得关注的数据自己以形成对隐藏信息的假设。
- 数据准备:选择数据、清洗数据、生成数据、融合数据、格式化数据、数据集描述
- 模型建立:选择模型、产生检验设计、建立模型、评估模型
- 模型评估:评估结果、回顾DM过程、确定下一步工作
- 模型部署:计划发布、监测和维护、最终报告、回顾项目
在工业领域的细化如下图
数据分析算法的朴素思想
数据分析算法看问题的角度:
- 优化角度:构建一定的模型约束,最大化某个性能指标或者极小化某个惩罚的函数
- 概率角度:变量存在均值方差指标,通过参数的先验分布,求解目标极大化似然度、后验概率分布,获得参数的点/区间估计
角度 | 优化方法 | 概率方法 |
---|---|---|
理论基础 | 数学优化(目标函数 + 约束条件) | 概率统计(先验、似然、后验等概念) |
目标 | 最大化性能指标或最小化代价函数 | 求解最优参数的概率分布或最大似然估计 |
适用场景 | 强调精确优化问题(如模型参数的直接优化) | 需要处理不确定性或随机性的场景(如贝叶斯推断) |
难度 | 通常在构建目标函数后计算较直接 | 需要假设分布和构建概率模型,推导复杂 |
问题定义方式:
方式 | 关注点 | 特点 | 例子 |
---|---|---|---|
指令式 | 明确步骤和过程 | 规则清晰、逐步定义 | 自己写排序算法 |
声明式 | 描述问题和目标 | 自动化求解 | 机器学习中的模型训练过程 |
激励式 | 用奖励/惩罚调节行为 | 结果导向、灵活适配 | GAN 的生成学习,强化学习的策略优化 |
模型的求解算法:
- 解析表达式,对于一些简单的模型,能够直接通过数学解析法求解,即直接计算出明确的解,比如线性计算
- 存在明确梯度,如果可以明确地计算目标函数的梯度(或使用数值方法近似梯度),可以采用梯度下降等方法求解,比如神经网络相关
- 分而治之,将问题分解为更小的子问题分别求解,再组合成整体解的策略,比如决策树模型
- 多个变量迭代求解,先固定一部分,利用局部优化算法求解剩余变量,然后再固定剩余变量,求解原来部分变量,比如kmeans
- 转换为典型范式模型,比如在整数规划上,存在很多模型范式,可以增加参数,将非线性整数优化模型转换为整数规划模型,再通过高效的引擎求解