机器学习(二)

几两春秋梦_2024-03-27 12:04

线性模型:

离散转为连续的变换:

检查是否有"序"的变化，若有"序"，则连续化；否则，转化为k维向量

最小二乘解:

多元线性回归:

广义线性模型:

线性判别分析:

由于将样例投影到一条直线(低维空间)，因此也被视为一种"监督降维"技术。

多分类学习:

拆解法:将一个多分类任务拆分为若干个二分类任务求解

类别不平衡:

当要丢掉的小类的价值更好时我们才需要处理

常见的类别不平衡学习方法:

过采样:使小类增加，增加到与大类一样多

欠采样:使大类变小，使得与小类一样多

阙值移动:少数算法才能做到，比如支持向量机

决策树:

策略:"分而治之"；自根至叶的递归过程；在每个中间结点寻找一个"划分"属性

三种停止条件:

1.当前结点包含的样本全属于同一类别，无需划分

2.当前属性集为空，或是所有样本在所有属性上取值相同，无法划分

3.当前结点包含的样本集合为空，不能划分

信息增益划分:

信息熵是度量样本集合"纯度"是常用的一种指标

其他属性划分准则:

信息增益:对可取值数目较多的属性有所偏好

增益率:

基尼指数:

决策树剪枝:

剪枝是决策树对付"过拟合"的主要手段。

预剪枝:提前终止某些分支的生长。

后剪枝:生成一颗完全树，再"回头"剪枝。

缺失值的处理:

使用带缺失值的样例，需处理:

Q1：如何进行划分属性选择

Q2：给定划分属性，若样本在该属性上的值缺失，如何进行划分

基本思路:样本赋权，权重划分

上一篇：0101支付安全-支付模块-项目实战

下一篇：ChatTuGraph：通过大模型“与图对话”

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 0300 Debian字符界面如何支持中文 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？072026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结