机器学习基本篇

1 基本概念

机器学习,分为 回归,分类,聚类,降维

有监督学习 回归,分类, 有特征,有标签,进行训练,然后对新数据进行预测

无监督学习 聚类,降维。

题目越多,训练越好,

2 基本流程

数据预处理------ 模型训练与评估

可以优化为 获取数据------数据预处理------EDA 分析------特征工程------模型训练------可解释性分析

2.0 数据获取

利用 kaggle, 天池 等平台的 开源 数据,

2.1 预处理

目的:

  1. 让数据更符合逻辑
  2. 让数据更容易计算
    借助函数实现变换 or 运算
认识数据

常用 pandas 包,是 python 中一个强大的数据分析和处理库。

其可以

  1. 数据处理,对数据进行 清洗,转换,合并,分组等操作,处理缺失的和重复的数据。
  2. 数据读取和写入, 如 CSV 格式,excel, JSON, SQL 等
  3. 对数据进行时间序列分析,移动窗口统计等操作

** 部分常用 API **

import pandas as pd

读取数据

df = pd.read_csv('data.csv')

查看数据

df.head()

显示数据集形状. (几行几列)

df.shape

查看数据集信息。 (特征的种类和标签)

Data.info

空值的数量

mean 均值

std 标准差

min 最小值

25% 第 25 百分位数

max 最大值

unique 唯一值数量

top 出现频率最高的值

freq 最高频率出现次数

显示数据集的统计特征,

df.decribe()

相关推荐
martian6653 小时前
支持向量机(SVM)深度解析:从数学根基到工程实践
算法·机器学习·支持向量机
FF-Studio3 小时前
【硬核数学 · LLM篇】3.1 Transformer之心:自注意力机制的线性代数解构《从零构建机器学习、深度学习到LLM的数学认知》
人工智能·pytorch·深度学习·线性代数·机器学习·数学建模·transformer
贾全4 小时前
第十章:HIL-SERL 真实机器人训练实战
人工智能·深度学习·算法·机器学习·机器人
GIS小天4 小时前
AI+预测3D新模型百十个定位预测+胆码预测+去和尾2025年7月4日第128弹
人工智能·算法·机器学习·彩票
我是小哪吒2.04 小时前
书籍推荐-《对抗机器学习:攻击面、防御机制与人工智能中的学习理论》
人工智能·深度学习·学习·机器学习·ai·语言模型·大模型
慕婉03074 小时前
深度学习前置知识全面解析:从机器学习到深度学习的进阶之路
人工智能·深度学习·机器学习
蓝婷儿6 小时前
Python 机器学习核心入门与实战进阶 Day 2 - KNN(K-近邻算法)分类实战与调参
python·机器学习·近邻算法
IT古董7 小时前
【第二章:机器学习与神经网络概述】04.回归算法理论与实践 -(3)决策树回归模型(Decision Tree Regression)
神经网络·机器学习·回归
烟锁池塘柳09 小时前
【大模型】解码策略:Greedy Search、Beam Search、Top-k/Top-p、Temperature Sampling等
人工智能·深度学习·机器学习
Blossom.11811 小时前
机器学习在智能供应链中的应用:需求预测与物流优化
人工智能·深度学习·神经网络·机器学习·计算机视觉·机器人·语音识别