数据分析基础之《numpy(6)—IO操作与数据处理》

了解即可,用panads

一、numpy读取

1、问题

大多数数据并不是我们自己构造的,而是存在文件当中,需要我们用工具获取

但是numpy其实并不适合用来读取和处理数据,因此我们这里了解相关API,以及numpy不方便的地方即可

2、np.genfromtxt(fname, dtype, comments, delimiter, ...)

说明:

fname:文件名,也可以是字符串、列表、StringIO对象、迭代器等,如果是文件名是 '.gz' or '.bz2',还可以自动解压处理

dtype:指定数据类型(不同类型需要指定)

delimiter:分隔符(比如一般使用",")

3、例子

python 复制代码
id,value1,value2,value3
1,123,1.4,23
2,110,,10
3,,2.1,19
python 复制代码
# numpy读取
data = np.genfromtxt(fname="test.csv", delimiter=",")

data

但是有问题,第一行字符串没有读出来

numpy是运算工具,所以不支持读取字符串

二、如何处理缺失值

1、什么是缺失值

什么时候numpy中会出现nan:当我们读取本地的文件为float的时候,如果为空,就会出现nan。或者读取字符串也会出现nan

2、缺失值处理

那么,在一组数据中单纯的把nan替换为0,合适吗?会带来什么样的影响?

比如,全部替换为0后,替换之前的平均值如果大于0,替换之后的均值肯定会变小,所以更一般的方式是把缺失的数值替换为均值(或中值)或者直接删除有缺失值的一行

3、替换/插补法

求这一列的平均值或者中位数

也很麻烦,用pandas

4、如何删除有缺失值的那一行(列)

在pandas中介绍

相关推荐
陈天伟教授14 小时前
人工智能训练师认证教程(3)Pandas数据世界的军刀
人工智能·数据分析·pandas
databook16 小时前
掌握相关性分析:读懂数据间的“悄悄话”
python·数据挖掘·数据分析
企业智能研究16 小时前
数据分析Agent白皮书:揭秘Data x AI的底层逻辑与未来关键
大数据·人工智能·数据分析
十六年开源服务商18 小时前
怎样做好WordPress网站数据分析与运维服务
运维·数据挖掘·数据分析
沃达德软件19 小时前
大数据治安防控中心
大数据·人工智能·信息可视化·数据挖掘·数据分析
李慕婉学姐1 天前
【开题答辩过程】以《基于python的气象灾害数据分析与可视化系统》为例,不知道这个选题怎么做的,不知道这个选题怎么开题答辩的可以进来看看
开发语言·python·数据分析
yousuotu2 天前
基于 Python 实现亚马逊销售数据分析
数据挖掘·数据分析
Tiger Z2 天前
《R for Data Science (2e)》免费中文翻译 (第15章) --- Regular expression(1)
数据分析·r语言·数据科学·免费书籍
镜舟科技2 天前
活动回顾 | 镜舟科技出席鲲鹏开发者创享日・北京站
starrocks·数据分析·开源·数字化转型·华为鲲鹏·lakehouse·镜舟科技
Aloudata2 天前
大火的 ChatBI,是如何实现灵活的自然语言数据分析?
数据挖掘·数据分析·chatbi·dataagent·自然语言问数