泊松回归(Poisson regression)是以结局变量为计数结果时的一种回归分析。泊松回归在我们的生活中应用非常广泛,例如:1分钟内过马路人数,1天内火车站的旅客流动数,1天内的银行取钱人数,一周内的销售经营数据等等都可以使用泊松回归进行分析。
![](https://i-blog.csdnimg.cn/direct/5c5ebb465bfb4109be8903cf2eeb37bf.png)
既往已经有文章《R语言进行泊松回归》初步的介绍了泊松回归,本期介绍下如何使用tidygam包来优雅的进行泊松回归,tidygam包主要是通过mgcv包来进行分析,通过对tidygam包对mgcv包的数据转换后,上手难度大大降低,可以轻松优雅的进行泊松回归分析。
咱们先导入R包和数据,数据使用的是tidygam自带的gest数据
r
library(tidygam)
library(mgcv)
library(dplyr)
library(ggplot2)
data("gest")
theme_set(theme_light())
![](https://i-blog.csdnimg.cn/direct/d55d992d70574bf89c6a755b82b9b28b.png)
这个数据是一个10、11和12个月婴儿的手势数量的数据,这个数据表包含了来自孟加拉、中国和英国背景的60名婴儿所做的三种手势的计数。我解释一下变量名:dyad是ID标识的意思,background:表明来自哪个国家,months:月份,只有10,11,12共3个月,gesture手势的类型,count:手势的计数,这个是 结局变量
先生成gam模型
r
gs <- gam(
count ~ s(months, k = 3),
data = gest,
family = poisson
)
这个模型gam是mgcv包生成的,解析模型,表明月数和手势计数是相关的
![](https://i-blog.csdnimg.cn/direct/157de9a0521540c5960333b655398b40.png)
生成预测值
r
gs_pred <- predict_gam(gs)
绘图,一定要用series标明绘制哪个变量
r
gs_pred %>%
plot(series = "months")
![](https://i-blog.csdnimg.cn/direct/c63d0e9f14224001a768fcad5225e041.png)
R包介绍,这个时候生成的Y周是count的对数值,因此我们还需要转换一下
r
predict_gam(gs, tran_fun = exp) %>%
plot(series = "months")
![](https://i-blog.csdnimg.cn/direct/ee2b40a915e244cab7a618252770a8c4.png)
如果咱们想了解不同国家的分类,可以再gam函数中设定
r
gs_by <- gam(
count ~ s(months, by = background, k = 3),
data = gest,
family = poisson
)
解析模型,表明不同的国家婴儿,手势计数都是和月份相关
r
summary(gs_by)
![](https://i-blog.csdnimg.cn/direct/8c6a126dc57d431d8ad4b3117e558bde.png)
接下来咱们可以绘制分类图形,需要再comparison处指明根据哪个变量分类
r
gs_by %>%
predict_gam(length_out = 20, series = "months", tran_fun = exp) %>%
plot(comparison = "background")
![](https://i-blog.csdnimg.cn/direct/8b9998a68f5c406b975452761c94f17c.png)
R包指出,虽然使用plot函数绘图,但是它的本质上是一个ggplot2绘制的图片,所以咱们可以使用ggplot的方法修改它
r
gs_by %>%
predict_gam(length_out = 20, series = "months", tran_fun = exp) %>%
plot(comparison = "background") +
scale_color_brewer(type = "qual") + scale_fill_brewer(type = "qual")
![](https://i-blog.csdnimg.cn/direct/3fd90ff59c3e45c1ba7c7d37fb69eeff.png)
咱们如果考虑有2个非连续的变量,可以再模型里面定义
r
gs_by_2 <- gam(
count ~ s(months, by = background, k = 3) +
s(months, by = gesture, k = 3),
data = gest,
family = poisson
)
解析模型,这里虽然有变量交叉,但是这种做法并不是交互效应,应该理解为亚组更加准确
r
summary(gs_by_2)
![](https://i-blog.csdnimg.cn/direct/30a8986d1d554b2eba8d2029765d0070.png)
绘图
r
gs_by_2 %>%
predict_gam(length_out = 20, series = "months", tran_fun = exp) %>%
plot(comparison = "gesture") +
scale_color_brewer(type = "qual") + scale_fill_brewer(type = "qual") +
facet_grid(~ background)
![](https://i-blog.csdnimg.cn/direct/0ac36b00d31c4683b82b702b9c4684f7.png)
如果咱们想了解background和gesture的交互关系,要先生成一个交互变量
r
gest <- gest %>%
mutate(back_gest = interaction(background, gesture))
然后咱们使用这个交互变量进行模型分类
r
gs_i <- gam(
count ~ s(months, by = back_gest, k = 3),
data = gest,
family = poisson
)
summary(gs_i)
![](https://i-blog.csdnimg.cn/direct/5d1f97259db1410eada802e91455be64.png)
绘图,
r
predict_gam(
gs_i, tran_fun = exp,
separate = list(back_gest = c("background", "gesture"))
) %>%
plot(series = "months", comparison = "gesture") +
facet_grid(~ background)
![](https://i-blog.csdnimg.cn/direct/5a2e1603e66b409d8f2a73116cf6ecf1.png)
这样一个亚组交互图形就生成好啦。