机器学习的一些基本知识

**经典定义:**利用经验改善系统自身的性能

构建一个可以从数据中学习的模型,并利用这个模型来进行预测或决策。最主要的应用在于研究只能数据分析的理论和方法,并成为智能数据分析技术的源泉之一。
机器学习的基础理论

概率近似正确学习:

给定随机抽取的训练数据后,PAC学习要求学习算法能以很高的概率从函数集中选出一个与最优函数误差很小的函数;算法学习理论即研究各种学习问题是否PAC可学习的

回答的问题是:一个学习算法能否在有限的数据和时间内,以极高的概率找到一个与最佳可能结果非常接近的解决方案?

基本假设:训练数据和未来的测试数据来自未知,但相同数据分布的独立样本。

NFL定理:一个算法A在某些问题上比另一个算法B号,必定存在另一些问题B比A好

过拟合 : 是机器学习和数据建模中最核心也最需要避免的问题之一。它描述的是模型过度迁就训练数据中的细节和噪声,导致它在训练集上表现极佳,但在新数据(测试集或真实场景)上表现糟糕的现象

简单比喻:

  • 良好拟合:像一个抓住核心要点的好学生,学懂原理后能举一反三,应对新考题。

  • 过拟合:像一个死记硬背所有习题和答案的学生,遇到原题能得满分,但题目稍作变化就不会做。

"欠拟合" 是机器学习的另一个核心问题,它是模型过于简单无法捕捉数据中的基本规律或模式,导致其在训练数据和未来新数据上都表现不佳的现象。

简单比喻:

  • 良好拟合:像一位掌握了数学公式的学生,能正确解答所有同类题目。

  • 欠拟合:像一位还没学会基本概念的学生,无论对练习题还是新考题,都答不对。

欠拟合和过拟合例子

欠拟合

例子:学习不够

树叶的学习 只学习到绿色

遇到树 也认为是树叶

过拟合

例子:

树叶的学习,学习的过多比如学习到了锯齿

某些没有锯齿 会认为不是树叶

神 经 网 络 灵 感 来 源 于 人 脑 的 神 经 元 网 络 。 它 通 过 模 拟 人 脑 的 处 理 方 式 来 解 决 各 种 分 类 、 预 测 和 决 策 问 题 。

· 神经网络实质上是多层函数嵌套形成的数学模型,但其工作机制与脑神经网络非常不同,至今最常用的BP算法完全是从数

学上推导出来的,迄今在人脑中找不到对应机制.

· 深度学习是指使用多层(深层)的神经网络来学习数据的复杂模式和特征的技术。这些多层网络能够从原始数据中自动学

习并识别多级次的特征。所谓的"深度",是指神经网络中"隐藏层"的层级更"深" -- 使用了更多的"隐藏层"来增

强模型的学习和表达能力,每个隐藏层负责抽取不同层次的数据特征,层次越深,提取的特征越抽象,能够捕捉更深层次

的数据特征,非常适合处理大规模和高维度的数据集,从而能够完成更复杂困难的工作。

· 深度学习强调通过学习数据来自动构建复杂模型的能力,这种方法在图像识别、语音识别和自然语言处理等领域表现尤为出色

深度学习

从浅层到深层的关键能力突破:缓解梯度消失

早期神经网络采取单隐层或双隐层结构

BP算法会遭梯度消失无法训练, 并非算力不足缺乏有效算法

所以需要激活函数

相关推荐
@小匠1 小时前
Read Frog:一款开源的 AI 驱动浏览器语言学习扩展
人工智能·学习
山间小僧3 小时前
「AI学习笔记」RNN
机器学习·aigc·ai编程
网教盟人才服务平台4 小时前
“方班预备班盾立方人才培养计划”正式启动!
大数据·人工智能
芯智工坊5 小时前
第15章 Mosquitto生产环境部署实践
人工智能·mqtt·开源
菜菜艾5 小时前
基于llama.cpp部署私有大模型
linux·运维·服务器·人工智能·ai·云计算·ai编程
TDengine (老段)5 小时前
TDengine IDMP 可视化 —— 分享
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据·时序数据
小真zzz5 小时前
搜极星:第三方多平台中立GEO洞察专家全面解析
人工智能·搜索引擎·seo·geo·中立·第三方平台
GreenTea6 小时前
从 Claw-Code 看 AI 驱动的大型项目开发:2 人 + 10 个自治 Agent 如何产出 48K 行 Rust 代码
前端·人工智能·后端
火山引擎开发者社区6 小时前
秒级创建实例,火山引擎 Milvus Serverless 让 AI Agent 开发更快更省
人工智能