目录
[1 R中的缺失值](#1 R中的缺失值)
[3 去除缺失值](#3 去除缺失值)
1 R中的缺失值

在R中,NA代表缺失值,NA是不可用(可能是0,可能是其他值,NA是未知的),notavailable的简称,用来存储缺失信息。NA不等于0

用na.rm这个参数,可以跳过这个NA进行计算:

2查看缺失值is.na()
is.na(sleep)
查看数据集中的缺失值情况:

colSums(sleep)
rowSums(sleep)
可以看出每行每列的缺失值情况,只有全部没有 NA 才能进行求和:

3 去除缺失值
na.omit 函数可以去除向量中的缺失值:

而处理数据框中的缺失值,则是则是将包会缺失值的每行都删掉。
处理前:

处理后:


其他缺失值:
1、缺失数据NaN,代表不可能的值
2、Inf表示无穷,分为正无穷Inf和负无穷Inf,代表无穷大或者无穷小,
区别:
1、NA是存在的值,但是不知道是多少
2、NaN是不存在的
3、Inf存在,是无无穷大后者无穷小,但是表示不可能的值.
也有函数对应查看:
> is.nan(0/0)
> is.infinite(1/0)
