机器学习(二)

线性模型:

离散转为连续的变换:

检查是否有"序"的变化,若有"序",则连续化;否则,转化为k维向量

最小二乘解:

多元线性回归:

广义线性模型:

线性判别分析:

由于将样例投影到一条直线(低维空间),因此也被视为一种"监督降维"技术。

多分类学习:

拆解法:将一个多分类任务拆分为若干个二分类任务求解

类别不平衡:

当要丢掉的小类的价值更好时我们才需要处理

常见的类别不平衡学习方法:

过采样:使小类增加,增加到与大类一样多

欠采样:使大类变小,使得与小类一样多

阙值移动:少数算法才能做到,比如支持向量机

决策树:

策略:"分而治之";自根至叶的递归过程;在每个中间结点寻找一个"划分"属性

三种停止条件:

1.当前结点包含的样本全属于同一类别,无需划分

2.当前属性集为空,或是所有样本在所有属性上取值相同,无法划分

3.当前结点包含的样本集合为空,不能划分

信息增益划分:

信息熵是度量样本集合"纯度"是常用的一种指标

其他属性划分准则:

信息增益:对可取值数目较多的属性有所偏好

增益率:

基尼指数:

决策树剪枝:

剪枝是决策树对付"过拟合"的主要手段。

预剪枝:提前终止某些分支的生长。

后剪枝:生成一颗完全树,再"回头"剪枝。

缺失值的处理:

使用带缺失值的样例,需处理:

Q1:如何进行划分属性选择

Q2:给定划分属性,若样本在该属性上的值缺失,如何进行划分

基本思路:样本赋权,权重划分

相关推荐
老蒋新思维2 分钟前
创客匠人 2025 峰会启示:AI 重构企业管理领域知识变现的效率逻辑
人工智能·网络协议·tcp/ip·重构·知识付费·创始人ip·创客匠人
AI浩5 分钟前
LMM-Det:让大型多模态模型在目标检测中脱颖而出
人工智能·目标检测·目标跟踪
木头左6 分钟前
降维保真度权衡方差解释占比阈值对量化交易预测精度的影响分析
人工智能·机器学习·数学建模
ccLianLian6 分钟前
数据挖掘·IDC-Reduction
人工智能·数据挖掘
m0_650108248 分钟前
Molmo&PixMo:全开源视觉语言模型的突破之路
论文阅读·人工智能·语言模型·开源vlm·高质量多模态数据集·molmo·pixmo
唱响星河9 分钟前
2025 年 AI 漫剧工具测评:一站式服务超省事
人工智能
阿杰学AI10 分钟前
AI核心知识26——大语言模型之Embedding与Vector Database (简洁且通俗易懂版)
人工智能·语言模型·aigc·embedding·向量数据库·rag·vector database
openFuyao10 分钟前
openFuyao两大核心项目获得GitCode G-Star认证 社区生态迈向成熟
人工智能·云原生·开源软件
Ybaocheng13 分钟前
大模型第一章
人工智能·机器学习·语言模型
梵得儿SHI20 分钟前
(第一篇)Spring AI 核心技术攻坚:RAG 全流程落地指南|从理论到实战构建本地知识库问答系统
人工智能·spring·大模型落地·增强生成(rag)技术·大模型存在的知识滞后·大模型存在的知识幻觉·提升回答可信度