【机器学习】【手工】Streaming Machine Learning 流数据学习 – 应对变化的机器学习方法(一)

为什么要流机器学习

在现实世界中的数据是随着时间演化(evolution)的 ,而不是同分布(同分布,identically distributed)的 ,即认为来自同一个分布的取样。

例如在covid的疫情期间,许多智能系统无法正常工作,这是因为其输入及人类的行为或人类行为的产出发生了变化,在不再属于原来的分布了,这导致了这些智能系统出现了问题。

对于不断演化的数据分布,SML(Streaming Machine Learning)方法是有效的解决方法。

SML的假设和基本思路

SML对于数据到假设

SML假设数据是在数据流中,按照顺序一条一条到来的,并且数据点有标签。

SML的处理方法

如果检测到了数据层面的漂移(Data Drift) 或者 结果层面的漂移(Concept Drift) ,那么就在后台开始训练新的模型,并使用新的模型来处理数据。

这一模式可以被简单的视为

处理数据 - (如果检测到漂移)检测漂移 - 后台训练新模型 - 使用新模型替换原有模型。

Data Drift数据漂移

输入数据分布P(X)P(X)P(X)发生变化,但是不影响输出的的结果的分布,即 P(y∣X)P(y|X)P(y∣X) 不变。

Concept drift概念漂移

原有的concept对应的输入数据发生了变化,即P(y∣X)P(y|X)P(y∣X)发生了改变。即相同的输入数据不再对应和原来一样的输出。

概念漂移和异常检测的区别

两者着重点有根本差别

概念漂移要解决的问题是 昨天的模型是否能处理今天的数据

异常检测要解决的问题是 收到的样本是否符合一致性的模式

相关推荐
大模型真好玩3 小时前
GitHub 85K Star 新王挑战 357K Star 霸主:Hermes 还是 OpenClaw?最强Agent框架怎么选
人工智能·agent·deepseek
KD871490013 小时前
宁波ISO9001认证:立足宁波制造,对标世界标准
大数据·人工智能·制造
chh5634 小时前
C++--模版初阶
c语言·开发语言·c++·学习·算法
卷卷说风控5 小时前
重新认知AI Agent
人工智能
生命是有光的5 小时前
【深度学习】卷积神经网络CNN
人工智能·深度学习·cnn
后端小肥肠5 小时前
Hermes Agent喂饭级教程:安装、迁移 OpenClaw、接入飞书全流程
人工智能·agent
拥抱AI的猿5 小时前
AI提示词
人工智能
henrylin99995 小时前
Hermes Agent 核心运行系统调用流程--源码分析
开发语言·人工智能·python·机器学习·hermesagent
IT_陈寒5 小时前
Python多进程共享变量那个坑,我差点没爬出来
前端·人工智能·后端