机器学习(二)

线性模型:

离散转为连续的变换:

检查是否有"序"的变化,若有"序",则连续化;否则,转化为k维向量

最小二乘解:

多元线性回归:

广义线性模型:

线性判别分析:

由于将样例投影到一条直线(低维空间),因此也被视为一种"监督降维"技术。

多分类学习:

拆解法:将一个多分类任务拆分为若干个二分类任务求解

类别不平衡:

当要丢掉的小类的价值更好时我们才需要处理

常见的类别不平衡学习方法:

过采样:使小类增加,增加到与大类一样多

欠采样:使大类变小,使得与小类一样多

阙值移动:少数算法才能做到,比如支持向量机

决策树:

策略:"分而治之";自根至叶的递归过程;在每个中间结点寻找一个"划分"属性

三种停止条件:

1.当前结点包含的样本全属于同一类别,无需划分

2.当前属性集为空,或是所有样本在所有属性上取值相同,无法划分

3.当前结点包含的样本集合为空,不能划分

信息增益划分:

信息熵是度量样本集合"纯度"是常用的一种指标

其他属性划分准则:

信息增益:对可取值数目较多的属性有所偏好

增益率:

基尼指数:

决策树剪枝:

剪枝是决策树对付"过拟合"的主要手段。

预剪枝:提前终止某些分支的生长。

后剪枝:生成一颗完全树,再"回头"剪枝。

缺失值的处理:

使用带缺失值的样例,需处理:

Q1:如何进行划分属性选择

Q2:给定划分属性,若样本在该属性上的值缺失,如何进行划分

基本思路:样本赋权,权重划分

相关推荐
千匠网络2 小时前
破局出海壁垒,千匠网络新能源汽车跨境出海解决方案
人工智能
马丁聊GEO3 小时前
解码AI用户心智,筑牢可信GEO根基——悠易科技深度参与《中国AI用户态度与行为研究报告(2026)》发布会
人工智能·科技
nap-joker4 小时前
Fusion - Mamba用于跨模态目标检测
人工智能·目标检测·计算机视觉·fusion-mamba·可见光-红外成像融合·远距离/伪目标问题
一只幸运猫.4 小时前
2026Java 后端面试完整版|八股简答 + AI 大模型集成技术(最新趋势)
人工智能·面试·职场和发展
Promise微笑4 小时前
2026年国产替代油介损测试仪:油介损全场景解决方案与技术演进
大数据·网络·人工智能
深海鱼在掘金4 小时前
深入浅出 LangChain —— 第三章:模型抽象层
人工智能·langchain·agent
生信碱移4 小时前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言
workflower4 小时前
具身智能行业应用-生活服务业
大数据·人工智能·机器人·动态规划·生活
GitCode官方4 小时前
基于昇腾 MindSpeed LLM 玩转 DeepSeekV4-Flash 模型的预训练复现部署
人工智能·开源·atomgit
大刘讲IT4 小时前
AI重塑企业信息价值标准:从“系统供给”到“用户定义”的企业数字化新范式
人工智能·经验分享·ai·制造