【机器学习】简单认识监督学习

简单认识监督学习

Hi~大家好呀!经历了暑假期间短暂的接触机器学习的一些算法,之后又对深度学习、yolo系列有些了解,还尝试着去学习完成one-stage目标检测,但是由于基础知识的不扎实,很多时候都在补窟窿。
所以我打算从0开始学习机器学习算法,根据吴恩达老师的完整课程,将学习笔记上传于此。
"我认为今天机器学习创造的价值的99%是通过一种机器学习称为监督学习完成的。"

⭐️Supervised learning

监督机器学习是指学习x到y或者 输入到输出映射的算法。

监督学习的关键特征是,我们自己提供学习算法示例以供学习。

这其实就是,给定输入x的正确标签y,机器通过查看正确输入x所需的标签y,最终学会学习算法。即,当我们只是给出输入x,机器就能够给出合理准确的预测或者猜想

⭐️Examples

  • input 电子邮件
  • output 垃圾邮件/非垃圾邮件
    通过监督学习,将为我们提供垃圾邮件过滤器的功能。
  • input 音频
  • output 文本转录本
    这时,监督学习,就为我们提供语音识别的功能。
  • input English
  • output 其他语言
    这时,就实现了机器翻译

或者,我们可以将图片作为输入,比如说,刚下线的手机,将其图片作为输入,让学习算法根据输入的手机产品的 图片来判断是否存在划痕、凹痕或者其他缺陷。

这个称为目视检查,它可以帮助制造商减少或者防止其产品中的缺陷。

在上面的这些例子中,我们首先需要输入大量的示例,即输入x和与其相对应的正确答案即标签y来训练我们的模型

在模型从这些输入、输出(x和相对应的y)中学习之后,它们可以采用全新的输入x(它以前从未见过的东西),并尝试产生适当的对应输出y

⭐️Specific example

下面让我们更深入地研究一个具体的示例。

房价预测问题。

假如我们想根据房屋地大小来预测房价,并且我们已经收集到了一些过去的数据,并绘制了数据。

这里的横轴是以平方英尺为单位的房屋大小,纵轴是房子的价格。

有了这些数据,假如你的一位朋友想直到他们750平方英尺的房子的价格是多少。那通过学习算法如何帮助到你的朋友呢?

学习算法可能会通过指向拟合数据,通过直线上的数据以及直线以外的读数,可以大概预测到房子大概可以卖到150,000美元。

但拟合直线并不是我们可以使用的唯一学习算法。还有更好的可以应用于此。

比如,我们用下面的曲线进行拟合:

这样看起来,你的朋友的房子可以接近于200,000美元的价格。

给你的朋友选择最好的价格出售并不合适,我们应该关注的一件事是,如何选择最合适的直线或者曲线来适应这个数据,给出最合适的数据。

以这个例子简单说明,我们首先为算法提供了一个数据集,这个数据集中的每个x即房屋的面积,都对应着一个正确答案,即标签y。
学习算法的任务就是通过对此数据集的学习,有一些"经验",产生更多这样的正确答案,当我们利用这个算法时,为这个算法提供一个房屋的面积,它可以根据"以往经验"预测出可能的出售价格。

⭐️两种类型的监督学习算法

🌙回归算法

在上面我们看到的预测房价问题中,其就是和回归算法。它学习从无限多的数字中预测数字。它可能是150,000到300,000中的任意数字。

其实本质闪也就是说,我们需要预测的标签y是连续的。

🌙分类算法

下面我们以乳腺癌检测为例,来研究分类算法。 假设我们要构建一个机器学习系统,以便医生可以使用诊断工具来检测乳腺癌。

我们根据患者的医疗记录,根据患者的肿瘤/肿块来判断乳腺癌是恶性的还是非恶性的。

然后我们收集一些数据,这些数据根据肿瘤的大小,将数据分为良性或者恶性。

比如说,下面,为了方便研究,我们将良性标注为0,恶性标注为1。

然后,我们将数据绘制在图表中,横轴代表肿瘤块的大小,纵轴仅仅取两个值,0和1,这是因为我们仅仅需要预测少量可能的输出或者类别。在这个例子中,仅仅有两个可能的输出,良性或者恶性,即0或1

这就是分类与回归的区别,分类算法就是仅仅需要预测可数个类别,而回归算法的预测,所可能的数字无限多。
因此,只有两种可能的输出这一事实构成了这种分类

我们可以使用两个符号进行更形象化表示,比如良性我们使用圆圈表示,恶性我们使用十字表示。

在上面我们的数据集只有一个输入,即患者肿瘤块的大小。为了更精确的预测,我们将我们的数据集的输入新增至两个,即肿瘤块的大小和患者的年龄。

所以这时医生就可以根据患者的肿瘤块的大小以及患者年龄,进行预测。

也就是,学习算法可能会做的就是找到一些将恶性肿瘤与良性肿瘤分开的边界。

也就是说,学习算法必须决定如何根据现有的数据集来拟合边界线。

⭐️总结

监督学习算法其实就是x到y的一种映射,也可以说是输入到输出的一种映射。
监督学习算法主要分为两类,回归算法和分类算法。
回归算法其实就是预测坐标轴的可能区间的无限个数。而分类算法预测结果就是坐标轴上的点。

相关推荐
William_Edmund11 分钟前
Python 语言学习——应用1.2 数字图像处理(第二节,变换)
人工智能·学习·计算机视觉
罔闻_spider40 分钟前
爬虫prc技术----小红书爬取解决xs
爬虫·python·算法·机器学习·自然语言处理·中文分词
我爱学Python!40 分钟前
面试问我LLM中的RAG,秒过!!!
人工智能·面试·llm·prompt·ai大模型·rag·大模型应用
python机器学习ML44 分钟前
机器学习K近邻算法——python详细代码解析(sklearn)(1)
python·机器学习·近邻算法·knn
weixin_514548891 小时前
机器学习课程学习周报十五
人工智能·学习·机器学习
Themberfue1 小时前
基础算法之双指针--Java实现(下)--LeetCode题解:有效三角形的个数-查找总价格为目标值的两个商品-三数之和-四数之和
java·开发语言·学习·算法·leetcode·双指针
慢成长1 小时前
如何创建虚拟环境并实现目标检测及验证能否GPU加速
人工智能
AIGC破防黑吗喽1 小时前
Midjourney零基础学习
人工智能·gpt·学习·ai·stable diffusion·midjourney·ai绘画
AI大模型-王哥1 小时前
微软GraphRAG实战解析:全局理解力如何超越传统RAG
人工智能·microsoft·大模型·ai大模型·大模型学习·大模型入门·大模型教程
会飞的Anthony1 小时前
基于Python的人工智能应用案例系列(15):LSTM酒类销售预测
人工智能·酒类预测