看书标记【数据科学：R语言实战 1】

看书标记------R语言

[Chapter 1 模式的数据挖掘](#Chapter 1 模式的数据挖掘)
- - [1.1 聚类分析](#1.1 聚类分析)
  - - [1.1.1 k-means聚类](#1.1.1 k-means聚类)
    - - 用法
      - 示例
    - [1.1.2 k-medoids聚类](#1.1.2 k-medoids聚类)
    - - 用法
      - 示例
      - [1.1.3 分层聚类](#1.1.3 分层聚类)
      - 用法
      - 示例
    - [1.1.4 期望最大化（EM）](#1.1.4 期望最大化（EM）)
    - - 用法
      - 示例
    - [1.1.5 密度估计](#1.1.5 密度估计)
    - - 用法
      - 示例
  - [1.2 异常检测](#1.2 异常检测)
  - - [1.2.1 显示异常值](#1.2.1 显示异常值)
    - - [示例 1](#示例 1)
      - [示例 2](#示例 2)
      - [示例 3](#示例 3)
    - [1.2.2 计算异常值](#1.2.2 计算异常值)
    - - [示例 1（用name函数创建异常）](#示例 1（用name函数创建异常）)
      - [示例 2（DMwR中的lofactor函数）](#示例 2（DMwR中的lofactor函数）)
  - [1.3 关联规则（购物篮分析）](#1.3 关联规则（购物篮分析）)
  - - - 用法
      - 示例

【数据科学：R语言实战 1】

Chapter 1 模式的数据挖掘

1.1 聚类分析

1.1.1 k-means聚类

步骤：

（1）从数据中选取k随机行（质心）

（2）使用Lloyd's算法确定集群

（3）与质心的距离对每个数据点进行分配

（4）将质心重新用与其相关的所有点的平均值代替

（5）对与质心距离最近的数据重新分配

（6）循坏3、4，直到数据不再分配

第三步表示k-means无法与相当稀疏的数据或者有较多异常值的数据一起工作，另外，集群最好有线性形状。

用法

kmeans()

参数
x 待分析的数据矩阵
centers 集群数量
iter.max 最大迭代次数
nstart 随机集的使用次数
algorithm 算法Hartigan-Wong、Lloyd、Forgy、MacQueen.
trace跟踪信息
属性
cluster 集群分配
centers 集群中心
totss 总平方和
withinss 每个聚类平方和的向量
tot.withinss 距离平方和总量
betweenss 聚类组间平方和
size 每个聚类的数据点数量
iter 执行迭代的次数
ault专家诊断

示例

r 复制代码

x <- rbind(matrix(rnorm(100, sd = 0.3), ncol = 2),matrix(rnorm(100, mean = 1, sd = 0.3), ncol = 2))
x
fit <- kmeans(x,10)
fit
#碎石图选集群数
results <-matrix(nrow=14,ncol=2,dimnames=list(2:15,c("clusters","sumsquares")))
for(1 in 2:15){
  fit<-kmeans(x,i)
  results[i-1,1]<-i
  results[i-1,2]<-fit$totss
  }
  plot(results)

cluster means 用于集群分配的平均值的分解
cluster vector 将100个数分配的集群
cluster sum of squares总平方和94.6%是拟合度的表现。

1.1.2 k-medoids聚类

用法

pam()

参数
x 待分析的数据矩阵（基于diss标记）
k 集群数量
diss FALSE（x是矩阵），TRUE（x是相异度矩阵）
metric euclidean（欧几里得）、manhattan（曼哈顿距离）
medoids 如果分配到了NULL，就需要开发一组medoids，否则，这是一组初步medoids.
stand 使用x的度量标准化
cluster.only TRUE返回聚类
do.swap 0、1是否进行交换
keep.diss 0、1是否保存相异点在结果中
keep.data 0、1是否保留数据在结果中
trace.lev 跟踪级别，0表示无跟踪信息

示例

medoids.csv数据

r 复制代码

library(cluster)
x <- read.table("medoids.csv", header=TRUE, sep=",")
result <- pam(x, 2, FALSE, "euclidean")  ##medoids函数
result

summary(result)
plot(result$data, col = result$clustering)

medoids指定使用第3行和第6行

clustering vector聚集群

objective function展示构建阶段和交换阶段的函数值

1.1.3 分层聚类

聚合法和分裂法

用法

hclust()

参数
d 矩阵
method 附聚法，"ward.D/ward.D2/single/complete/average/mcquitty/median/centroid"

示例

r 复制代码

dat <- matrix(rnorm(100), nrow=10, ncol=10)  #以正态数据为例
dat
hc <- hclust(dist(dat));hc
plot(hc)

1.1.4 期望最大化（EM）

mclust函数包里的Mclust函数（基于模型的聚类、分类、密度估计、贝叶斯正则化等，通过EM算法拟合正态混合模型）

用法

Mclust

参数
data 矩阵
G 使用的集群数量的向量，用于BIC，默认值为1：9
modelNames 使用的模型名称的向量。当Mclust函数试图决定哪个项目属于某一集群时，函数就会使用模。单变量混合、多变量混合、单一分量数据集有不同的模型名称。（E:等方差；V:变量方差.）
prior 平均值的可选共轭先验
control EM 的控制参数列表，默认为List

示例

r 复制代码

install.packages("mclust")
library(mclust)
data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data")  ##iris数据
fit <- Mclust(data)  ##用EM计算最优匹配
fit
summary(fit)
plot(fit)

log.likelihood：BIC数值的对数似然值

n：数据量

df：自由度

BIC：最优贝叶斯信息准则

ICL：集成完全数据似然值（ICL与BIC相同，即可对数据点进行分类）

plot中有四类图

用于选择集群数量的BIC数值：用不同的模型表现BIC的情况，多变量实例中，最不适合使用VEV模型。
有关聚类的图：选取提供数据最优聚类的分量（x5.1和x1.4会产生距离最近的集群）。
有关分类不确定性的图：不同选择对聚类迭代的影响。
有关集群的轨道图：每个集群的轨道图，突出显示中心点可能会出现在哪个地方。

1.1.5 密度估计

density（密度估计）、DBSCAN（确定固定点集群的聚类）、OPTICS（确定广泛分布集群的聚类）函数

用法

density()

参数
x 矩阵
bw 使用的平滑带宽
adjust 倍增器，用于调节带宽
kernel 平滑核心（gaussian、rectangle、trianglar、epanechnikov、biweight、cosine、optcosine）
weights 与x长度一致的权向量
give.Rkern TRUE表示未预估参数
N 预估的密度点数
from,to 最左边点和最右边点
na.rm TRUE 表示移除缺失值
bw.nrd0(x)/bw.nrd(x)/bw.ucv(x)/bw.bcv(x)/bw.SJ(x)

示例

r 复制代码

data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data")
#计算X5.1的密度
d <- density(data$X5.1)
d
plot(d)

1.2 异常检测

统计测试，基于深度、偏差、距离、密度的方法，高维方法。

1.2.1 显示异常值

示例 1

r 复制代码

identify(in boxplot)  #identify函数便于标记散点图的点，boxplot生成盒须图
---------------------------------------------------------------------
y <- rnorm(100)
boxplot(y)
identify(rep(1, length(y)), y, labels = seq_along(y))

示例 2

boxplot函数会自动计算数据集的异常值

r 复制代码

x <- rnorm(100)
summary(x)
boxplot.stats(x)$out  ##显示异常值
boxplot(x)
boxplot(mpg~cyl,data=mtcars, xlab="Cylinders", ylab="MPG") ##汽车的数据示例

示例 3

二维的箱线图异常检测（并集而非交集）

r 复制代码

x <- rnorm(1000);y <- rnorm(1000)
f <- data.frame(x,y)
a <- boxplot.stats(x)$out;b <- boxplot.stats(y)$out
list <- union(a,b)
plot(f)
px <- f[f$x %in% a,];py <- f[f$y %in% b,]
p <- rbind(px,py)
par(new=TRUE)
plot(p$x, p$y,cex=2,col=2)
#结果并不准确，需结合实际

1.2.2 计算异常值

示例 1（用name函数创建异常）

r 复制代码

data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data")
outliers <- function(data, low, high) {
outs <- subset(data, data$X5.1 < low | data$X5.1 > high)
return(outs)
}
outliers(data, 4.5, 7.5)  ## <4.5,>7.5为异常

示例 2（DMwR中的lofactor函数）

r 复制代码

install.packages("DMwR")
library(DMwR)
nospecies <- data[,1:4]  ##移除"种类"列
scores <- lofactor(nospecies, k=3)   #确定异常值
plot(density(scores)) #画出异常值分布

1.3 关联规则（购物篮分析）

apriori()

用法

参数
data 事务数据
parameter 默认支持度0.1、置信度0.8、最大长度10
appearance 用于限制规则中出现的项目
control 用于调整所用算法的性能

示例

r 复制代码

install.packages("arules")
library(arules)
data <- read.csv("http://www.salemmarafi.com/wp-ontent/uploads/2014/03/groceries.csv")
rules <- apriori(data) ;rules  #生成规则
##置信度默认为0.8，三个项目中有15295个事务，有五个规则
inspect(rules)
rules <- apriori(data, parameter = list(supp = 0.001, conf = 0.8))  #当参数修改后，生成500多个规则，但是置信度为0.001