数据分析基础之《numpy(6)—IO操作与数据处理》

了解即可,用panads

一、numpy读取

1、问题

大多数数据并不是我们自己构造的,而是存在文件当中,需要我们用工具获取

但是numpy其实并不适合用来读取和处理数据,因此我们这里了解相关API,以及numpy不方便的地方即可

2、np.genfromtxt(fname, dtype, comments, delimiter, ...)

说明:

fname:文件名,也可以是字符串、列表、StringIO对象、迭代器等,如果是文件名是 '.gz' or '.bz2',还可以自动解压处理

dtype:指定数据类型(不同类型需要指定)

delimiter:分隔符(比如一般使用",")

3、例子

python 复制代码
id,value1,value2,value3
1,123,1.4,23
2,110,,10
3,,2.1,19
python 复制代码
# numpy读取
data = np.genfromtxt(fname="test.csv", delimiter=",")

data

但是有问题,第一行字符串没有读出来

numpy是运算工具,所以不支持读取字符串

二、如何处理缺失值

1、什么是缺失值

什么时候numpy中会出现nan:当我们读取本地的文件为float的时候,如果为空,就会出现nan。或者读取字符串也会出现nan

2、缺失值处理

那么,在一组数据中单纯的把nan替换为0,合适吗?会带来什么样的影响?

比如,全部替换为0后,替换之前的平均值如果大于0,替换之后的均值肯定会变小,所以更一般的方式是把缺失的数值替换为均值(或中值)或者直接删除有缺失值的一行

3、替换/插补法

求这一列的平均值或者中位数

也很麻烦,用pandas

4、如何删除有缺失值的那一行(列)

在pandas中介绍

相关推荐
Simon_lca4 小时前
突破合规瓶颈:ZDHC Supplier to Zero(工厂零排放 - 进阶型)体系全攻略
大数据·网络·人工智能·分类·数据挖掘·数据分析·零售
q_354888515312 小时前
计算机毕业设计:Python当当网图书大数据分析平台 Django框架 爬虫 Pandas 可视化 大数据 大模型 书籍(建议收藏)✅
大数据·爬虫·python·机器学习·数据分析·django·课程设计
V1ncent Chen13 小时前
SQL大师之路 12 函数基础
数据库·sql·mysql·数据分析
城数派13 小时前
中国地形地势分布+地貌矢量数据shp
信息可视化·数据分析
wyiyiyi14 小时前
【线性代数】对偶空间与矩阵转置及矩阵分解(Java讲解)
java·线性代数·支持向量机·矩阵·数据分析
GIS数据转换器15 小时前
洪水时空大数据分析与评估系统
大数据·人工智能·机器学习·数据挖掘·数据分析·无人机·宠物
q_354888515315 小时前
计算机毕业设计源码:Python动漫智能推荐与可视化分析系统 Django框架 协同过滤推荐算法 可视化 数据分析 大数据 大模型(建议收藏)✅
python·scrapy·数据分析·django·课程设计·旅游·推荐算法
B站计算机毕业设计之家16 小时前
Python 基于协同过滤的动漫推荐与数据分析平台 Django框架 协同过滤推荐算法 可视化 数据分析 大数据 大模型 计算机毕业设计(建议收藏)✅
大数据·python·scrapy·数据分析·django·课程设计·推荐算法
statistican_ABin18 小时前
Python数据分析-宝马全球汽车销售数据分析(可视化分析)
大数据·人工智能·数据分析·汽车·数据可视化
CDA数据分析师干货分享1 天前
汉江师范学院数据科学与大数据技术专业大二学生:CDA一级学习经验
大数据·经验分享·学习·数据分析·cda证书·cda数据分析师