机器学习(二)

线性模型:

离散转为连续的变换:

检查是否有"序"的变化,若有"序",则连续化;否则,转化为k维向量

最小二乘解:

多元线性回归:

广义线性模型:

线性判别分析:

由于将样例投影到一条直线(低维空间),因此也被视为一种"监督降维"技术。

多分类学习:

拆解法:将一个多分类任务拆分为若干个二分类任务求解

类别不平衡:

当要丢掉的小类的价值更好时我们才需要处理

常见的类别不平衡学习方法:

过采样:使小类增加,增加到与大类一样多

欠采样:使大类变小,使得与小类一样多

阙值移动:少数算法才能做到,比如支持向量机

决策树:

策略:"分而治之";自根至叶的递归过程;在每个中间结点寻找一个"划分"属性

三种停止条件:

1.当前结点包含的样本全属于同一类别,无需划分

2.当前属性集为空,或是所有样本在所有属性上取值相同,无法划分

3.当前结点包含的样本集合为空,不能划分

信息增益划分:

信息熵是度量样本集合"纯度"是常用的一种指标

其他属性划分准则:

信息增益:对可取值数目较多的属性有所偏好

增益率:

基尼指数:

决策树剪枝:

剪枝是决策树对付"过拟合"的主要手段。

预剪枝:提前终止某些分支的生长。

后剪枝:生成一颗完全树,再"回头"剪枝。

缺失值的处理:

使用带缺失值的样例,需处理:

Q1:如何进行划分属性选择

Q2:给定划分属性,若样本在该属性上的值缺失,如何进行划分

基本思路:样本赋权,权重划分

相关推荐
千桐科技4 小时前
qKnow 智能体构建平台开源版 2.1.0 正式发布:AI编排能力重磅升级,打造一站式私有化智能平台
人工智能·开源·大模型·ai应用·qknow·智能体构建平台·ai编排
黎阳之光4 小时前
全域实景立体管控:数字孪生与视频孪生技术体系白皮书
大数据·人工智能·算法·安全·数字孪生
AI浩4 小时前
基于双重提示驱动的特征编码用于夜间无人机跟踪
人工智能·机器学习·目标跟踪·无人机
亚鲁鲁4 小时前
04-网关系统
人工智能
Ares-Wang4 小时前
AI》》欧氏距离、曼哈顿距离 切比雪夫距离 等
人工智能·python
lilihuigz4 小时前
AI内容管理系统全面解析:核心功能、关键技术与架构应用指南 - WP站长
人工智能·搜索引擎·架构
上海云盾商务经理杨杨4 小时前
AI赋能DDoS防护:破解智能化攻击的终极方案
人工智能·ddos
阿里云大数据AI技术4 小时前
千亿级 AI 搜索的效能实战:从混合检索到 Agentic RAG 的三年实战
人工智能·elasticsearch·阿里云·agentic·ai 搜索
龙亘川4 小时前
城市更新×智慧治理:老旧小区改造中的数字化创新实践
java·大数据·人工智能·机器学习·智慧城市
甩手网软件4 小时前
跨境电商卖家:如何用AI实现图片“多语言、多平台”适配?
人工智能