【AI】大数据机器学习—统计学习及监督学习概论

统计学习包括监督学习、无监督学习、半监督学习和强化学习。

参考书是李航的《统计学习方法》,该书主要讨论监督学习。

统计学习作为一个研究领域,主要包括统计学习方法、统计学习理论和统计学习应用。统计学习方法主要关注的问题是设计新的学习方法。

一、统计学习方法的三要素

统计学习方法主要包括模型的假设空间、模型选择的准则和模型学习的算法,简称为模型、策略和算法

假设空间 是一个很重要的概念,监督学习是学习一个从输入到输出的映射,该映射由模型来表示,换言之,学习的目的是找到最好的一个模型 。模型属于从输入空间到输出空间的映射的集合,而该集合就是假设空间。假设空间的范围大于等于模型的空间。

实现一个统计学习方法的步骤如下:

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则,即学习的策略,如何衡量一个模型的好坏;
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通过学习方法选择最优模型;
  6. 利用最优模型对新数据做预测和分析。

二、监督学习的三要素分析

2.1 模型

在监督学习过程中,模型包括概率模型和非概率模型 ,前者所要学习的是条件概率分布,后者学习的是决策函数。监督学习模型的假设空间包含所有可能的条件概率分布或决策函数,假设空间中的模型一般有无穷多个

总之,由决策函数表示的模型是非概率模型,由条件概率分布表示的模型是概率模型。

2.2 策略

首先引入两个概念,损失函数和风险函数,损失函数(loss function)度量模型一次预测的好坏 ,风险函数(risk funciton)度量模型平均意义下预测的好坏

风险函数又称为期望损失(expected loss),因为它相当于是平均意义上的损失。

损失函数是度量预测错误的程度,不同的损失函数有不同的特性,统计学习中的损失函数有 0-1 损失函数,平方损失函数,绝对损失函数,对数损失函数等。损失值越小,模型就越好,而学习的目标是找出整体风险(平均损失)最小的模型。

使风险最小有两种策略,这也是监督学习的两个基本策略:经验风险最小化(empirical risk minimization, ERM)和结构风险最小化(structural risk minimization, SRM) 。风险最小就是使模型的平均损失最小,一个直观的想法是,随着训练样本数目的增加,经验风险会趋近于期望风险(即理想值),但这是不现实的,且若训练样本数较少 ,还存在过拟合问题。

经验风险最小化的例子:极大似然估计

因此为了避免在数据量较少时出现过拟合现象,又提出了结构风险最小化,它等价于正则化。结构风险在经验风险的基础上加入表示模型复杂度的正则化项或惩罚项,如加入模型复杂度的惩罚项,模型越复杂,其值越大,从而使结构风险也相应变大。

结构风险最小化的例子:贝叶斯估计

2.3 算法

算法就是指用何种计算方法求解最优模型,本质上就是求解使风险最小的最优化问题 。若该最优化问题有显式的解析解 ,那么比较简单,但通常解析解不存在,则需要数值解法求解。

相关推荐
麦麦麦造4 分钟前
有了 MCP,为什么Claude 还要推出 Skills?
人工智能·aigc·ai编程
jerryinwuhan7 分钟前
利用舵机实现机器人行走
人工智能·机器人
武子康9 分钟前
AI-调查研究-107-具身智能 强化学习与机器人训练数据格式解析:从状态-动作对到多模态轨迹标准
人工智能·深度学习·机器学习·ai·系统架构·机器人·具身智能
沫儿笙9 分钟前
KUKA库卡焊接机器人二氧化碳节气
人工智能·机器人
TDengine (老段)26 分钟前
连接 TDengine 遇到报错 “failed to connect to server, reason: Connection refused” 怎么办?
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
insight^tkk30 分钟前
【Docker】记录一次使用docker部署dify网段冲突的问题
运维·人工智能·docker·ai·容器
攻城狮7号32 分钟前
AI+大数据时代:如何从架构到生态重构时序数据库的价值?
大数据·人工智能·时序数据库·apache iotdb·sql大模型
智能化咨询39 分钟前
AI+大数据时代:时序数据库的生态重构与价值跃迁——从技术整合到行业落地
人工智能
paopaokaka_luck1 小时前
基于SpringBoot+Vue的社区诊所管理系统(AI问答、webSocket实时聊天、Echarts图形化分析)
vue.js·人工智能·spring boot·后端·websocket
工藤学编程1 小时前
零基础学AI大模型之RAG系统链路解析与Document Loaders多案例实战
人工智能