Python-机器学习概述

空白到白2025-08-30 13:47

一、人工智能三大概念

人工智能（AI）
- 定义：使用计算机模拟或代替人类智能的研究领域
- 目标：像人类一样思考（理性推理）、行动（决策执行）
- 别名：仿智
机器学习（ML）
- 定义：从数据中自动学习规律（模型），并用模型预测新数据
- 核心：基于模型自动学习（非人工规则编程）
- 示例：房价预测模型 y = ax + b（a、b为模型参数）
深度学习（DL）
- 定义：模拟人脑神经元的深度神经网络，通过多层结构学习复杂规律
- 特点：从机器学习发展而来，适合图像、语音等复杂任务
三者关系

机器学习是实现人工智能的一种途径，深度学习是机器学习的一种方法

二、机器学习的应用领域与发展史

应用领域

计算机视觉（CV）：图像/视频理解（如人脸识别）
自然语言处理（NLP）：文本分析、机器翻译
数据挖掘：从大数据中发现隐藏规律

发展史

1956年：AI元年
2012年：AlexNet引爆深度学习（CV领域）
2017年：Transformer框架推动NLP发展
2022年：ChatGPT开启AIGC时代

三要素

数据：模型训练的基础
算法：解决问题的数学方法
算力：硬件支持（CPU/GPU/TPU）
- CPU：适合I/O密集型任务
- GPU：适合计算密集型任务（如神经网络训练）

三、机器学习常用术语

术语	说明	示例
样本	数据集中的一行数据（一条记录）	西瓜数据集中的一条
特征	描述样本的属性（一列数据）	西瓜的色泽、根蒂
标签	待预测的目标值	西瓜是否是好瓜（0/1）
训练集	用于训练模型的数据（70-80%）	`x_train`, `y_train`
测试集	用于评估模型的数据（20-30%）	`x_test`, `y_test`

四、机器学习算法分类

1. 监督学习（数据含标签）

回归：预测连续值（如房价）
分类：预测离散类别（如是否垃圾邮件）

2. 无监督学习（数据无标签）

聚类：按样本相似性分组（如用户分群）

3. 半监督学习

少量标注数据 + 大量未标注数据，降低标注成本

4. 强化学习

智能体通过环境交互获取奖励（如AlphaGo、自动驾驶）
四要素：Agent, Environment, Action, Reward

五、机器学习建模流程

数据预处理：处理缺失值、异常值
特征工程（核心耗时步骤）:
- 特征提取 → 特征预处理 → 特征降维 → 特征选择 → 特征组合
模型训练：选择算法（如线性回归、决策树）
模型评估：
- 回归：均方误差（MSE）
- 分类：准确率、召回率

六、特征工程详解

目标：提升模型效果，是影响模型上限的关键

原则：数据和特征 > 模型算法

步骤	作用
特征提取	从原始数据构造特征向量（如文本转词向量）
特征预处理	标准化/归一化，消除特征量纲影响（如MinMax缩放）
特征降维	降低特征维度，保留主要信息（如PCA）
特征选择	筛选与任务相关的特征子集（不修改原始数据）
特征组合	合并特征（如乘法/加法），增强表达能力（如组合"面积×位置"预测房价）

七、模型拟合问题

问题	表现	原因	解决方案
欠拟合	训练集和测试集效果均差	模型过于简单	增加特征、增强模型复杂度
过拟合	训练集效果好，测试集效果差	模型复杂/数据噪声多	简化模型、正则化、增加数据量

核心概念

泛化能力 ：模型在新数据上的表现（最终目标）
奥卡姆剃刀原则：相同效果下，选择更简单的模型

八、开发环境

工具 ：scikit-learn（Python库）
- 特点：
  - 基于NumPy/SciPy/matplotlib
  - 开源，支持分类/回归/聚类等算法
- 安装：pip install scikit-learn
- 官网：https://scikit-learn.org

关键总结

学习方式：
- 规则编程（人工定义逻辑） → 机器学习（自动学习模型）
核心链路：

数据 → 特征工程 → 模型训练 → 评估优化
避坑指南：
- 优先解决特征工程，再优化模型
- 模型选择：简单模型优先，避免过拟合

上一篇：Spring Boot 使用 RestTemplate 调用 HTTPS 接口时报错：PKIX path building failed 解决方案

下一篇：Lombok vs Java Record：谁才是未来？

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 10幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南