机器学习第一天(共12天)

人工智能三大概念:

知道AI,ML,DL是什么

AI:用计算机模拟人脑,让计算机能够像人类一样理性的思考和行动

ML:基于经验找规律;先训练(根据训练集找规律,找公式),再预测,最后评估

DL:基于自己构建出来的知识库

AI:给出一张图片,判断是否为西瓜

ML:结合大量有关西瓜的资料(图片,音频,文本等等),总结出规律,如何挑选一个好西瓜

DL:基于西瓜的各种资料(价格,产地,口感),搭建自己的知识库

了解AI,ML,DL之间关系

AI包含ML,ML包含DL(先辨别是不是西瓜,再判断是不是一个好西瓜,最后判断西瓜的品种)

算法的学习方式:

基于规则的学习,基于模型的学习

机器学习常用术语

知道样本是什么,知道特征是什么

样本:一行数据就是一个样本,多个样本组成数据集,有时一条样本被叫成一条记录

特征:一列数据一个特征,有时也被称为属性

知道标签/目标值是什么

标签/目标:要求和预测的结果那一列数据

理解数据集划分方法

数据集划为两部分:训练集和测试集,通常为8:2或者7:3

x_train y_train 训练集特征,训练集标签

x_test y_test 测试集特征,测试集标签

机器学习算法分类

知道有监督学习是什么

有特征有标签

有监督分类问题&回归问题

标签连续就是回归,标签不连续就是分类

分类种类:二分类,多分类

知道无监督学习是什么

有特征无标签,根据样本之间相似性对样本进行聚类,发现事务结构及相互关系(聚类)

知道半监督学习是什么

部分有标签部分无标签

1,让专家标注少量数据,利用已经标记的数据训练一个模型

2,利用该模型套用未标记的数据

3,询问领域专家分类结果和模型分类结果做对比,从而对模型进一步改善和提高

半监督学习可以大幅减低标记成本

了解强化学习是什么

强化学习=寻找最短路径(最优解),以便获取最多的奖励

就好比在OJ上(Environment)做题(Action),做对了给予AC(Reward),做错了给予WA(State)

机器学习建模流程

获取数据:搜集和完成机器学习任务相关的数据集

数据基本处理:数据集中异常值,异常值的处理等

特征工程:对数据集特征进行提取,转为向量,让模型达到最好的结果

机器学习(模型训练):选择合适的算法对模型进行训练,根据不同的任务来选中不同的算法

模型评估:评估效果好上线服务,评估效果不好则重复上述步骤

特征工程

知道特征工程是什么

理解特征提取的作用

理解特征预处理的作用

了解特征降维,特征选择,特征组合

利用专业背景知识和技巧处理数据,让机器学习算法效果最好

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

特征提取,从原始数据中提取与任务相关的特征,会改变原数据

特征预处理------>归一化,标准化

防止量纲导致某些特征对模型影响大,有些影响小

量纲:即单位(米,千克等)

打个比方:

|----------|----------|----------|
| 特征1(单位A) | 特征2(单位B) | 特征3(单位C) |
| 90 | 2 | 12 |
| 100 | 4 | 20 |
| 120 | 3 | 15 |

归一化过程:x' =(当前值 - 最小值)/(最大值 - 最小值)

|----------|----------|----------|
| 特征1(单位A) | 特征2(单位B) | 特征3(单位C) |
| 0 | 0 | 0 |
| 0.333 | 1 | 1 |
| 1 | 0.5 | 0.375 |

如果为最小值,那么归一化得到的为0,如果为最大值,那么归一化得到的为1

特征降维:将原始数据维度降低,叫做特征降维,一般对原始数据产生影响,保证数据的主要信息保留下来

特征选择:选择一个与任务相关的特征子集,不会改变原数据

(就好比体检不需要你的学历,薪资这种特征)

特征组合:多个特征合成一个特征,利用乘法或者加法完成(BMI)

相关推荐
GensAI1 天前
大模型语音机器人技术深析:从ASR/TTS到方言适配与业务闭环的架构实现
人工智能·语音识别
terry6001 天前
5G视频短信服务商选型全攻略:通道资源、架构能力与成本评估2026最新标准
大数据·人工智能·5g·json·asp.net·信息与通信·数据库架构
IT_陈寒1 天前
SpringBoot自动配置这么智能,为啥我写的Bean注入不了?
前端·人工智能·后端
青稞社区.1 天前
从 LLM 的局限到世界模型:LeWorldModel 为何更接近 AI 的第一性原理?
人工智能
致Great1 天前
开源 agentcanvas:读 Logfire 日志,一键可视化整个智能体工作流
人工智能·agent
hai3152475431 天前
基于池化隔离的Linux内核原生hrtimer子系统的补充说明
人工智能
大黄说说1 天前
码云数智门店系统赋能汽车服务门店全新发展
大数据·人工智能
lichong9511 天前
让AI自己用电脑!Cua:后台操作鼠标键盘,Mac/Windows/Linux全支持
人工智能·macos·ai·计算机外设·agent·提示词
꧁ᝰ苏苏ᝰ꧂1 天前
第一章 什么是量化金融
python·金融
CH_Vaniteux1 天前
自动驾驶调研-Day1
人工智能·机器学习·自动驾驶