机器学习课程day01 机器学习概述

一、机器学习简述

  1. AI人工智能的概念很宽广,简单的来说就是仿智,让机器像人一样具有综合与分析的能力

2.ML机器学习是AI的子集,与其他计算机科学的最大不同在于以往的程序员基于规则编程,但是自然界还有好多规则描述不清楚的,如猫狗图像的识别与分类,如自然语言处理,机器学习让机器自动学习,而不是基于规则的编程(不依赖特定规则编程)

3.DL深度学习是机器学习的子集 也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物。

二 、机器学习的应用与发展史

典型应用场景 CV即计算机视觉和NLP自然语言处理

发展史 三起两落,AI三要素 数据、算法、算力

  1. 第一起一落(1950s-1970s):以逻辑推理和符号主义为代表的早期AI蓬勃兴起,但因算力不足、问题复杂远超预期而陷入"第一次AI寒冬"。

  2. 第二起一落(1980s-1990s):专家系统商业化成功带动第二次繁荣,随后因系统维护难、成本高、局限大而遭遇"第二次AI寒冬"。

  3. 第三起(21世纪至今):依托大数据、强大算力与深度学习算法,AI在视觉、语音、自然语言处理等领域取得突破性进展,进入广泛落地和爆发式增长的新纪元。

三、基本术语

1、样本:一行数据就是一个样本

2、数据集:多个样本组成数据集

3、特征、一列数据就是一个特征,有时候也称属性

4、标签:模型要预测的那一列

5、 数据集可划分两部分:训练集、测试集 比例:8 : 2,7 : 3
训练集(training set) :用来训练模型(model)的数据集
测试集(testing set):用来测试模型的数据集

四 机器学习分类

有监督学习:输入数据有标签(又可根据输出值连续还是离散分为回归和分类)

无监督学习:输入数据无标签 一般为聚类

五、机器学习建模流程

1、获取数据 2、数据预处理(缺失值处理、异常值处理等)3、特征工程(特征提取,特征预处理、特征降维等)4、模型训练 5、模型评估 6、模型预测

一般数据预处理和特征工程最耗时

六、欠拟合与过拟合

欠拟合:模型在训练集上表现很差、在测试集表现也很差

原因:模型过于简单

过拟合:模型在训练集上表现很好、在测试集表现很差

原因:模型太过于复杂、数据不纯、训练数据太少

泛化:模型在新数据集(非训练数据)上的表现好坏的能力

相关推荐
Yao.Li1 小时前
PVN3D ORT CUDA Custom Ops 实现与联调记录
人工智能·3d·具身智能
诺伦1 小时前
LocalClaw 在智能制造的新机会:6部门AI+电商政策下的工厂AI升级方案
人工智能·制造
小陈工3 小时前
Python Web开发入门(十七):Vue.js与Python后端集成——让前后端真正“握手言和“
开发语言·前端·javascript·数据库·vue.js·人工智能·python
墨染天姬7 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志7 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114247 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠7 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光8 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好8 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
智星云算力8 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用