机器学习(一):机器学习概述

个人主页-爱因斯晨

文章专栏-机器学习

文章目录

一、人工智能三大概念

Artificial Intelligence 人工智能:

研究智能行为的计算代理的合成和分析的领域。人工智能是用计算机来模拟人脑。

AI的期望:让计算机能模拟人脑,让计算机能理性的思考。让计算机能像人类一样行动,像计算机一样运作。

Machine Learning 机器学习:

赋予计算机学习能力而不需要明确编程的研究领域。

历史数据:经历过的事儿。

模型:找规律,经验

机器学习:先训练,再预测,然后评估

深度学习

也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物

三者区别

学习方式

基于规则学习:程序员根据经验利用手工的if-else方式进行预测。

有很多问题无法明确的写下规则,此时我们无法使用规则学习的方式来解决这一类问题,比如:图像和语音识别和自然语言处理。

基于模型的学习:从数据中自动学出规律

二、机器学习的应用领域和发展史

应用领域:

计算机视觉CV:对人看到的东西进行理解

自然语言处理:对人交流的东西进行理解

数据挖掘和数据分析:也属于人工智能的范畴

发展史

人工智能之父:约翰 麦卡锡

机器学习之父:亚瑟 赛缪尔

AI发展的三要素:数据、算法、算力

三、机器学习常用术语

(样本、特征、标签、训练集和测试集)

样本:一行数据就是一个样本,多个样本组成数据集,有时一条样本被叫成一条记录

特征:一列数据一个特征,有时也被称为属性。特征是从数据中抽取出来的,对结果预测有用的信息。

标签/目标:模型要预测的那一列数据。

数据集可划分为:训练集、测试集 比例:8:2,7:3

训练集(training set):用来训练模型(model)的数据集

测试集(testing set):用来测试模型的数据集

四、机器学习算法分类

(有监督学习、无监督学习、半监督学习、强化学习)

有监督学习:

输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的,数据集需要标注数据的标签/目标值.

有监督问题分为(分类问题与回归问题)

复制代码
分类问题:
目标值(标签值)是不连续的
分类种类:二分类、多分类
回归问题:
目标值(标签值)是连续的

无监督学习:

输入数据没有被标记,即样本数据类别未知,没有标签,根据样本间的相似性,对样本聚集类,以发现事情内部结构及相互关系。

学习特点:训练数据无标签,根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系

半监督学习:

工作原理:

  • 让专家标注少量数据,利用已经标记的数据(也就是带有类标签)训练出一个模型
  • 再利用该模型去套用未标记的数据
  • 通过询问领域专家分类结果与模型分类结果做对比,从而对模型做进一步改善和提高

优势?半监督学习方式可大幅降低标记成本

强化学习:

机器学习的一个重要分支

应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

基本原理:通过构建四个要素:agent,环境状态,行动,奖励,agent根据环境状态进行行动获得最多的累计奖励

强化学习=寻求最优解,以便获取最多奖励


五、机器学习建模流程

获取数据-数据基本处理-特征工程-机器学习(模拟训练)-模型评估

有监督学习模型训练和模型预测

六、特征工程概念入门

(特征工程、特征工程子领域)

特征工程:利用专业背景知识和技巧处理数据,让机器学习算法效果最好,这个过程就是特征工程。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

特征提取:从原始数据中提取与任务相关的特征

特征预处理: 特征对,模型产生影响:因量纲问题,有些特征对模型影响大、有些影响小

归一化:(当前值-最小值)/(最大值-最小值)

特征降维:将数据原始维度降低

特征选择:原始数据特征很多,与任务相关是其中一个特征集合子集,不会改变原数据

特征组合:把多个的特征合并成一个特征。利用乘法和加法来完成。

七、模型拟合问题

拟合:模型对样本点的拟合情况

欠拟合:模型在训练集上的表现很差,在测试集中的表现也很差

过拟合:模型在训练集中的表现很好,在测试集表现很差

欠拟合产生的原因:模型过于简单

过拟合产生的原因:模型过于复杂,数据不纯,训练数据太少

泛化:模型在新数据集(非训练数据)上的表现按好坏的能力

奥卡姆剃须刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取

八、机器学习开发环境

基于py的scikit-learn库

安装方法: pip install scikit-learn

相关推荐
Codebee7 小时前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能
聆风吟º8 小时前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys8 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_56788 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子8 小时前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
智驱力人工智能8 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算
qq_160144878 小时前
亲测!2026年零基础学AI的入门干货,新手照做就能上手
人工智能
Howie Zphile8 小时前
全面预算管理难以落地的核心真相:“完美模型幻觉”的认知误区
人工智能·全面预算
人工不智能5778 小时前
拆解 BERT:Output 中的 Hidden States 到底藏了什么秘密?
人工智能·深度学习·bert
盟接之桥8 小时前
盟接之桥说制造:引流品 × 利润品,全球电商平台高效产品组合策略(供讨论)
大数据·linux·服务器·网络·人工智能·制造