HCIA-AI人工智能笔记3:数据预处理

统讲解数据预处理的核心技术体系,通过Python/Pandas与华为MindSpore双视角代码演示,结合特征工程优化实验,深入解析数据清洗、标准化、增强等关键环节。

一、数据预处理技术全景图

复制代码
graph TD
A[原始数据] --> B{数据清洗}
B --> B1[缺失值处理]
B --> B2[异常值检测]
B --> B3[重复值删除]
A --> C{特征工程}
C --> C1[标准化/归一化]
C --> C2[离散化分箱]
C --> C3[特征交叉]
A --> D{数据增强}
D --> D1[图像变换]
D --> D2[文本增强]
D --> D3[SMOTE过采样]

二、结构化数据预处理实战

1. 数据清洗技术矩阵

问题类型 | 处理方法 | 华为ModelArts工具链

缺失值 | KNN插值/多重填充 | DSW数据清洗工作台

异常值 | 3σ原则/IQR检测 | ModelArts异常检测API

重复值 | 基于主键去重 | 分布式Deduplicate算子
Python代码示例:

复制代码
import pandas as pd
from sklearn.impute import KNNImputer

# 加载华为消费者数据集
data = pd.read_csv('huawei_sales.csv')

# KNN缺失值填充(k=3)
imputer = KNNImputer(n_neighbors=3)
data[['age', 'income']] = imputer.fit_transform(data[['age', 'income']])

# IQR异常值处理
Q1 = data['sales'].quantile(0.25)
Q3 = data['sales'].quantile(0.75)
data = data[~((data['sales'] < (Q1 - 1.5*IQR)) | (data['sales'] > (Q3 + 1.5*IQR)))]

三、分布式数据预处理优化

1. 昇腾平台加速方案

复制代码
# 启用硬件加速
from mindspore.dataset import config
config.set_enable_shared_mem(False)  # 关闭共享内存提升性能
config.set_numa_enable(True)         # 启用NUMA优化

# 分布式数据加载
dataset = ds.ImageFolderDataset(dataset_dir, num_parallel_workers=16, 
                               shuffle=True, num_shards=8, shard_id=rank)

2. 性能对比实验

四、预处理流水线构建

1. 端到端Pipeline示例

复制代码
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

num_pipe = Pipeline([
    ('imputer', KNNImputer()),
    ('scaler', StandardScaler())
])

cat_pipe = Pipeline([
    ('encoder', TargetEncoder())
])

preprocessor = ColumnTransformer([
    ('num', num_pipe, ['age', 'income']),
    ('cat', cat_pipe, ['city'])
])

# 华为ModelArts一键部署
from modelarts.pipeline import deploy_pipeline
deploy_pipeline(preprocessor, name='sales_preprocessor')

掌握数据预处理技术是构建高质量AI模型的基础,建议重点实践:

构建自动化特征工程流水线

实现TB级数据的分布式处理

优化端侧推理数据预处理耗时

欢迎在评论区提交您的数据预处理挑战案例或性能优化方案!

想要快人一步了解更详细的内容可以搜索"博睿谷"

相关推荐
william️_Aaron7 分钟前
语音识别核心模型的数学原理和公式
人工智能·语音识别
开开心心就好18 分钟前
AI抠图软件,本地运行超快速
网络·人工智能·网络协议·tcp/ip·docker·电脑·excel
SoaringPigeon21 分钟前
端到端自动驾驶:挑战与前沿
人工智能·机器学习·自动驾驶
小程序华东同舟求职26 分钟前
Ampace厦门新能安科技Verify 测评演绎数字推理及四色测评考点分析、SHL真题题库
人工智能·经验分享·科技·面试·职场和发展·求职招聘
andyguo26 分钟前
语音识别的速度革命:从 Whisper 到 Whisper-CTranslate2,我经历了什么?
人工智能·学习·ai·whisper·语音识别·xcode·ai测评
拓端研究室1 小时前
专题:2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
人工智能·pdf·云计算
罚时大师月色1 小时前
ssm学习笔记day05
笔记·学习
正在走向自律1 小时前
第三章-提示词-解锁Prompt提示词工程核销逻辑,开启高效AI交互(10/36)
人工智能·prompt·交互·上下文注入·lora 微调·多模态提示·ape(自动提示词工程)
Se7en2581 小时前
Chunked-Prefills 分块预填充机制详解
人工智能
不摸鱼1 小时前
别怕OpenAI进军应用层!下一个Snowflake仍能从巨头口中抢食 | 不摸鱼的独立开发者日报(第53期)
人工智能·开源·资讯