【机器学习】【手工】Streaming Machine Learning 流数据学习 – 应对变化的机器学习方法(一)

为什么要流机器学习

在现实世界中的数据是随着时间演化(evolution)的 ,而不是同分布(同分布,identically distributed)的 ,即认为来自同一个分布的取样。

例如在covid的疫情期间,许多智能系统无法正常工作,这是因为其输入及人类的行为或人类行为的产出发生了变化,在不再属于原来的分布了,这导致了这些智能系统出现了问题。

对于不断演化的数据分布,SML(Streaming Machine Learning)方法是有效的解决方法。

SML的假设和基本思路

SML对于数据到假设

SML假设数据是在数据流中,按照顺序一条一条到来的,并且数据点有标签。

SML的处理方法

如果检测到了数据层面的漂移(Data Drift) 或者 结果层面的漂移(Concept Drift) ,那么就在后台开始训练新的模型,并使用新的模型来处理数据。

这一模式可以被简单的视为

处理数据 - (如果检测到漂移)检测漂移 - 后台训练新模型 - 使用新模型替换原有模型。

Data Drift数据漂移

输入数据分布P(X)P(X)P(X)发生变化,但是不影响输出的的结果的分布,即 P(y∣X)P(y|X)P(y∣X) 不变。

Concept drift概念漂移

原有的concept对应的输入数据发生了变化,即P(y∣X)P(y|X)P(y∣X)发生了改变。即相同的输入数据不再对应和原来一样的输出。

概念漂移和异常检测的区别

两者着重点有根本差别

概念漂移要解决的问题是 昨天的模型是否能处理今天的数据

异常检测要解决的问题是 收到的样本是否符合一致性的模式

相关推荐
landyjzlai20 分钟前
蓝迪哥玩转Ai(8)---端侧AI:RK3588 端侧大语言模型(LLM)开发实战指南
人工智能·python
ZhengEnCi2 小时前
05-自注意力机制详解 🧠
人工智能·pytorch·深度学习
前端程序媛-Tian3 小时前
前端 AI 提效实战:从 0 到 1 打造团队专属 AI 代码评审工具
前端·人工智能·ai
weixin_417197053 小时前
DeepSeek V4绑定华为:一场飞行中换引擎的国产算力革命
人工智能·华为
翼龙云_cloud3 小时前
阿里云代理商:阿里云深度适配DeepSeek V4让中小企业 AI零门槛上云
人工智能·阿里云·云计算·ai智能体·deepseek v4
MATLAB代码顾问3 小时前
DeepSeek R1:国产开源推理大模型的崛起与实践
人工智能
__Wedream__3 小时前
ICMR2024 | 当对比学习遇上知识蒸馏:轻量超分模型压缩新框架
人工智能·深度学习·计算机视觉·知识蒸馏·超分辨率重建·对比学习
aneasystone本尊3 小时前
OpenClaw 快速入门:从安装到第一次对话
人工智能