Python-机器学习概述

​一、人工智能三大概念​

  1. ​人工智能(AI)​

    • 定义:使用计算机模拟或代替人类智能的研究领域

    • 目标:像人类一样思考(理性推理)、行动(决策执行)

    • 别名:仿智

  2. ​机器学习(ML)​

    • 定义:从数据中​​自动学习规律​​(模型),并用模型预测新数据

    • 核心:基于模型自动学习(非人工规则编程)

    • 示例:房价预测模型 y = ax + b(a、b为模型参数)

  3. ​深度学习(DL)​

    • 定义:模拟人脑神经元的​​深度神经网络​​,通过多层结构学习复杂规律

    • 特点:从机器学习发展而来,适合图像、语音等复杂任务

  4. ​三者关系​

机器学习是实现人工智能的一种途径,深度学习是机器学习的一种方法


​二、机器学习的应用领域与发展史​

​应用领域​
  • ​计算机视觉(CV)​​:图像/视频理解(如人脸识别)

  • ​自然语言处理(NLP)​​:文本分析、机器翻译

  • ​数据挖掘​​:从大数据中发现隐藏规律

​发展史​
  • ​1956年​​:AI元年

  • ​2012年​​:AlexNet引爆深度学习(CV领域)

  • ​2017年​​:Transformer框架推动NLP发展

  • ​2022年​​:ChatGPT开启AIGC时代

​三要素​
  • ​数据​​:模型训练的基础

  • ​算法​​:解决问题的数学方法

  • ​算力​​:硬件支持(CPU/GPU/TPU)

    • CPU:适合I/O密集型任务

    • GPU:适合计算密集型任务(如神经网络训练)


​三、机器学习常用术语​

术语 说明 示例
​样本​ 数据集中的一行数据(一条记录) 西瓜数据集中的一条
​特征​ 描述样本的属性(一列数据) 西瓜的色泽、根蒂
​标签​ 待预测的目标值 西瓜是否是好瓜(0/1)
​训练集​ 用于训练模型的数据(70-80%) x_train, y_train
​测试集​ 用于评估模型的数据(20-30%) x_test, y_test

​四、机器学习算法分类​

1. ​​监督学习​​(数据含标签)
  • ​回归​​:预测连续值(如房价)

  • ​分类​​:预测离散类别(如是否垃圾邮件)

2. ​​无监督学习​​(数据无标签)
  • ​聚类​​:按样本相似性分组(如用户分群)
3. ​​半监督学习​
  • 少量标注数据 + 大量未标注数据,降低标注成本
4. ​​强化学习​
  • 智能体通过​​环境交互​​获取奖励(如AlphaGo、自动驾驶)

  • 四要素:Agent, Environment, Action, Reward


​五、机器学习建模流程​

  1. ​数据预处理​​:处理缺失值、异常值

  2. ​特征工程​​(核心耗时步骤):

    • 特征提取 → 特征预处理 → 特征降维 → 特征选择 → 特征组合
  3. ​模型训练​​:选择算法(如线性回归、决策树)

  4. ​模型评估​​:

    • 回归:均方误差(MSE)

    • 分类:准确率、召回率


​六、特征工程详解​

​目标​​:提升模型效果,是影响模型上限的关键

​原则​​:数据和特征 > 模型算法

步骤 作用
​特征提取​ 从原始数据构造特征向量(如文本转词向量)
​特征预处理​ 标准化/归一化,消除特征量纲影响(如MinMax缩放)
​特征降维​ 降低特征维度,保留主要信息(如PCA)
​特征选择​ 筛选与任务相关的特征子集(不修改原始数据)
​特征组合​ 合并特征(如乘法/加法),增强表达能力(如组合"面积×位置"预测房价)

​七、模型拟合问题​

问题 表现 原因 解决方案
​欠拟合​ 训练集和测试集效果均差 模型过于简单 增加特征、增强模型复杂度
​过拟合​ 训练集效果好,测试集效果差 模型复杂/数据噪声多 简化模型、正则化、增加数据量
​核心概念​
  • ​泛化能力​ ​:模型在​​新数据​​上的表现(最终目标)

  • ​奥卡姆剃刀原则​​:相同效果下,选择更简单的模型


​八、开发环境​

  • ​工具​ ​:scikit-learn(Python库)

    • 特点:

      • 基于NumPy/SciPy/matplotlib

      • 开源,支持分类/回归/聚类等算法

    • 安装:pip install scikit-learn

    • 官网:https://scikit-learn.org


​关键总结​

  1. ​学习方式​​:

    • 规则编程(人工定义逻辑) → 机器学习(自动学习模型)
  2. ​核心链路​​:

    数据 → 特征工程 → 模型训练 → 评估优化

  3. ​避坑指南​​:

    • 优先解决特征工程,再优化模型

    • 模型选择:简单模型优先,避免过拟合

相关推荐
Q26433650231 分钟前
【有源码】基于Python与Spark的火锅店数据可视化分析系统-基于机器学习的火锅店综合竞争力评估与可视化分析-基于用户画像聚类的火锅店市场细分与可视化研究
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计
unicrom_深圳市由你创科技1 分钟前
工业上位机,用Python+Qt还是C#+WPF?
python·qt·c#
njsgcs8 分钟前
json转excel python pd
python·json·excel·pd
冷冷的菜哥19 分钟前
go邮件发送——附件与图片显示
开发语言·后端·golang·邮件发送·smtp发送邮件
lly20240621 分钟前
Linux 文件与目录管理
开发语言
计算机毕业设计木哥22 分钟前
计算机毕业设计选题推荐:基于SpringBoot和Vue的爱心公益网站
java·开发语言·vue.js·spring boot·后端·课程设计
一晌小贪欢34 分钟前
Python爬虫第7课:多线程与异步爬虫技术
开发语言·爬虫·python·网络爬虫·python爬虫·python3
W_chuanqi40 分钟前
RDEx:一种效果驱动的混合单目标优化器,自适应选择与融合多种算子与策略
人工智能·算法·机器学习·性能优化
ftpeak43 分钟前
《Cargo 参考手册》第二十二章:发布命令
开发语言·rust
luckyPian1 小时前
学习go语言
开发语言·学习·golang