机器学习基本篇

胖胖的小肥猫2025-02-18 16:36

1 基本概念

机器学习，分为回归，分类，聚类，降维

有监督学习回归，分类，有特征，有标签，进行训练，然后对新数据进行预测

无监督学习聚类，降维。

题目越多，训练越好，

2 基本流程

数据预处理------ 模型训练与评估

可以优化为获取数据------数据预处理------EDA 分析------特征工程------模型训练------可解释性分析

2.0 数据获取

利用 kaggle, 天池等平台的开源数据，

2.1 预处理

目的：

让数据更符合逻辑
让数据更容易计算
借助函数实现变换 or 运算

认识数据

常用 pandas 包，是 python 中一个强大的数据分析和处理库。

其可以

数据处理，对数据进行清洗，转换，合并，分组等操作，处理缺失的和重复的数据。
数据读取和写入，如 CSV 格式，excel， JSON， SQL 等
对数据进行时间序列分析，移动窗口统计等操作

** 部分常用 API **

import pandas as pd

读取数据

df = pd.read_csv('data.csv')

查看数据

df.head()

显示数据集形状. (几行几列)

df.shape

查看数据集信息。（特征的种类和标签）

空值的数量

mean 均值

std 标准差

min 最小值

25% 第 25 百分位数

max 最大值

unique 唯一值数量

top 出现频率最高的值

freq 最高频率出现次数

显示数据集的统计特征，

df.decribe()

非

上一篇：在RK3568上C++编程，使用ISP进行图像处理

下一篇：个人搭建CDN加速服务特网科技

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 09【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？