Python-机器学习概述

​一、人工智能三大概念​

  1. ​人工智能(AI)​

    • 定义:使用计算机模拟或代替人类智能的研究领域

    • 目标:像人类一样思考(理性推理)、行动(决策执行)

    • 别名:仿智

  2. ​机器学习(ML)​

    • 定义:从数据中​​自动学习规律​​(模型),并用模型预测新数据

    • 核心:基于模型自动学习(非人工规则编程)

    • 示例:房价预测模型 y = ax + b(a、b为模型参数)

  3. ​深度学习(DL)​

    • 定义:模拟人脑神经元的​​深度神经网络​​,通过多层结构学习复杂规律

    • 特点:从机器学习发展而来,适合图像、语音等复杂任务

  4. ​三者关系​

机器学习是实现人工智能的一种途径,深度学习是机器学习的一种方法


​二、机器学习的应用领域与发展史​

​应用领域​
  • ​计算机视觉(CV)​​:图像/视频理解(如人脸识别)

  • ​自然语言处理(NLP)​​:文本分析、机器翻译

  • ​数据挖掘​​:从大数据中发现隐藏规律

​发展史​
  • ​1956年​​:AI元年

  • ​2012年​​:AlexNet引爆深度学习(CV领域)

  • ​2017年​​:Transformer框架推动NLP发展

  • ​2022年​​:ChatGPT开启AIGC时代

​三要素​
  • ​数据​​:模型训练的基础

  • ​算法​​:解决问题的数学方法

  • ​算力​​:硬件支持(CPU/GPU/TPU)

    • CPU:适合I/O密集型任务

    • GPU:适合计算密集型任务(如神经网络训练)


​三、机器学习常用术语​

术语 说明 示例
​样本​ 数据集中的一行数据(一条记录) 西瓜数据集中的一条
​特征​ 描述样本的属性(一列数据) 西瓜的色泽、根蒂
​标签​ 待预测的目标值 西瓜是否是好瓜(0/1)
​训练集​ 用于训练模型的数据(70-80%) x_train, y_train
​测试集​ 用于评估模型的数据(20-30%) x_test, y_test

​四、机器学习算法分类​

1. ​​监督学习​​(数据含标签)
  • ​回归​​:预测连续值(如房价)

  • ​分类​​:预测离散类别(如是否垃圾邮件)

2. ​​无监督学习​​(数据无标签)
  • ​聚类​​:按样本相似性分组(如用户分群)
3. ​​半监督学习​
  • 少量标注数据 + 大量未标注数据,降低标注成本
4. ​​强化学习​
  • 智能体通过​​环境交互​​获取奖励(如AlphaGo、自动驾驶)

  • 四要素:Agent, Environment, Action, Reward


​五、机器学习建模流程​

  1. ​数据预处理​​:处理缺失值、异常值

  2. ​特征工程​​(核心耗时步骤):

    • 特征提取 → 特征预处理 → 特征降维 → 特征选择 → 特征组合
  3. ​模型训练​​:选择算法(如线性回归、决策树)

  4. ​模型评估​​:

    • 回归:均方误差(MSE)

    • 分类:准确率、召回率


​六、特征工程详解​

​目标​​:提升模型效果,是影响模型上限的关键

​原则​​:数据和特征 > 模型算法

步骤 作用
​特征提取​ 从原始数据构造特征向量(如文本转词向量)
​特征预处理​ 标准化/归一化,消除特征量纲影响(如MinMax缩放)
​特征降维​ 降低特征维度,保留主要信息(如PCA)
​特征选择​ 筛选与任务相关的特征子集(不修改原始数据)
​特征组合​ 合并特征(如乘法/加法),增强表达能力(如组合"面积×位置"预测房价)

​七、模型拟合问题​

问题 表现 原因 解决方案
​欠拟合​ 训练集和测试集效果均差 模型过于简单 增加特征、增强模型复杂度
​过拟合​ 训练集效果好,测试集效果差 模型复杂/数据噪声多 简化模型、正则化、增加数据量
​核心概念​
  • ​泛化能力​ ​:模型在​​新数据​​上的表现(最终目标)

  • ​奥卡姆剃刀原则​​:相同效果下,选择更简单的模型


​八、开发环境​

  • ​工具​ ​:scikit-learn(Python库)

    • 特点:

      • 基于NumPy/SciPy/matplotlib

      • 开源,支持分类/回归/聚类等算法

    • 安装:pip install scikit-learn

    • 官网:https://scikit-learn.org


​关键总结​

  1. ​学习方式​​:

    • 规则编程(人工定义逻辑) → 机器学习(自动学习模型)
  2. ​核心链路​​:

    数据 → 特征工程 → 模型训练 → 评估优化

  3. ​避坑指南​​:

    • 优先解决特征工程,再优化模型

    • 模型选择:简单模型优先,避免过拟合

相关推荐
xzkyd outpaper2 分钟前
为什么不能创建泛型数组?
java·开发语言
励志不掉头发的内向程序员10 分钟前
从零开始的python学习——常量与变量
开发语言·python·学习
西猫雷婶24 分钟前
神经网络|(十六)概率论基础知识-伽马函数·中
人工智能·深度学习·神经网络·学习·机器学习·概率论
Y|30 分钟前
XGBoost(eXtreme Gradient Boosting,优化分布式梯度提升库)总结梳理
人工智能·算法·机器学习
空白到白34 分钟前
机器学习-线性回归
人工智能·机器学习·线性回归
yiqieyouliyuwo39 分钟前
DAY49打卡
机器学习
海飘飘1 小时前
技术实现解析:用Trae打造Robocopy可视化界面(文末附带源码)
python
LTXb1 小时前
Python基础语法知识
python
csdn5659738501 小时前
MaxCompute MaxFrame | 分布式Python计算服务MaxFrame(完整操作版)
分布式·python·odps·maxframe
不过普通话一乙不改名1 小时前
第四章:并发编程的基石与高级模式之atomic包与无锁编程
开发语言·golang