机器学习(二)

线性模型:

离散转为连续的变换:

检查是否有"序"的变化,若有"序",则连续化;否则,转化为k维向量

最小二乘解:

多元线性回归:

广义线性模型:

线性判别分析:

由于将样例投影到一条直线(低维空间),因此也被视为一种"监督降维"技术。

多分类学习:

拆解法:将一个多分类任务拆分为若干个二分类任务求解

类别不平衡:

当要丢掉的小类的价值更好时我们才需要处理

常见的类别不平衡学习方法:

过采样:使小类增加,增加到与大类一样多

欠采样:使大类变小,使得与小类一样多

阙值移动:少数算法才能做到,比如支持向量机

决策树:

策略:"分而治之";自根至叶的递归过程;在每个中间结点寻找一个"划分"属性

三种停止条件:

1.当前结点包含的样本全属于同一类别,无需划分

2.当前属性集为空,或是所有样本在所有属性上取值相同,无法划分

3.当前结点包含的样本集合为空,不能划分

信息增益划分:

信息熵是度量样本集合"纯度"是常用的一种指标

其他属性划分准则:

信息增益:对可取值数目较多的属性有所偏好

增益率:

基尼指数:

决策树剪枝:

剪枝是决策树对付"过拟合"的主要手段。

预剪枝:提前终止某些分支的生长。

后剪枝:生成一颗完全树,再"回头"剪枝。

缺失值的处理:

使用带缺失值的样例,需处理:

Q1:如何进行划分属性选择

Q2:给定划分属性,若样本在该属性上的值缺失,如何进行划分

基本思路:样本赋权,权重划分

相关推荐
卷卷说风控6 分钟前
【卷卷观察】Redis 之父用 AI 写新数据类型:4个月,我干了以前一年才敢干的事
人工智能·redis·bootstrap
陈天伟教授9 分钟前
假期细节-丁达尔效应-光影的折射
人工智能·科技·开源
网络工程小王11 分钟前
[RAG 与文本向量化详解]RAG篇
数据库·人工智能·redis·机器学习
DogDaoDao11 分钟前
【GitHub】Warp 终端深度解析:Rust + GPU 加速的 AI 原生终端开源架构
人工智能·程序员·rust·开源·github·ai编程·warp
sunneo16 分钟前
专栏D-团队与组织-05-冲突与决策
前端·人工智能·产品运营·aigc·产品经理·ai-native
生成论实验室18 分钟前
《事件关系阴阳博弈动力学:识势应势之道》第十篇:识势应势——从认知到行动的完整闭环
人工智能·算法·架构·创业创新·安全架构
Aision_19 分钟前
为什么 CTI 场景需要知识图谱?
人工智能·python·安全·web安全·langchain·prompt·知识图谱
小何code19 分钟前
人工智能【第13篇】集成学习入门:Bagging与Boosting原理详解
随机森林·机器学习·集成学习·boosting
kalvin_y_liu20 分钟前
RHOS Lab提出 Robot-Human-Object-Scene 四元范式
人工智能·具身数据模型
BU摆烂会噶21 分钟前
【LangGraph】LangGraph 工具中访问运行时上下文——ToolRuntime
人工智能·python·langchain·人机交互