R语言手动绘制NHANSE数据基线表并聊聊NHANSE数据制作亚组交互效应表的问题(P for interaction)

美国国家健康与营养调查( NHANES, National Health and Nutrition Examination Survey)是一项基于人群的横断面调查,旨在收集有关美国家庭人口健康和营养的信息。

地址为:https://wwwn.cdc.gov/nchs/nhanes/Default.aspx

在既往的文章《Nhanes临床数据库挖掘教程2---基线表绘制(table1)》中,咱们已经介绍了tableone包绘制NHANES数据的基线表,今天咱们来介绍一下如何手动绘制NHANES数据的基线表,手动的好处就是一来可以加深你对操作的理解,二是比较灵活,tableone包输出的格式比较固定,例如你想把人数改成不加权的就需要手工计算,而且可以通过两种方法相互印证。

咱们继续使用文章《Nhanes临床数据库挖掘教程2---基线表绘制(table1)》中的数据为例子,先导入R包和数据

r 复制代码
library(survey)
bc<-read.csv("E:/nhanes/nhanes.csv",sep=',',header=TRUE)

我介绍一下数据,SEQN:序列号,RIAGENDR, # 性别, RIDAGEYR, # 年龄,RIDRETH1, # 种族,DMDMARTL, # 婚姻状况,WTINT2YR,WTMEC2YR, # 权重,SDMVPSU, # psu,SDMVSTRA,# strata,LBDGLUSI, #血糖mmol表示,LBDINSI, #胰岛素( pmmol/L),PHAFSTHR #餐后血糖,LBXGH #糖化血红蛋白,SPXNFEV1, #FEV1:第一秒用力呼气量,SPXNFVC #FVC:用力肺活量,ml(估计肺容量),LBDGLTSI #餐后2小时血糖。

为了做出来后有对比,我按文章《Nhanes临床数据库挖掘教程2---基线表绘制(table1)》中对糖尿病进行了一个分段处理,OCTT小于7.8算是正常患者,7.8---11是糖尿病前期,大于11为糖尿病。

r 复制代码
bc$oGTT2<-ifelse(bc$LBDGLTSI<7.8,1,ifelse(bc$LBDGLTSI>=11,3,2))

上面代码的意思是把小于7.8的分类为1,大于11的分类为3,其余分类为2

因为tableone包可以自动把分类变量转成因子,我们这里手动制作的话需要自己把分类变量转成因子

r 复制代码
bc[,c("RIAGENDR", "RIDRETH1","DMDMARTL")] <- lapply(bc[,c("RIAGENDR", "RIDRETH1","DMDMARTL")], factor)

转成因子后,下面开始建立抽样调查函数svydesign,ids表示集群的意思,这里填入抽样单元SDMVPSU(PSU),如果没有的话填入1,strata = ~ SDMVSTRA,strata这里是分层的意思,这里填入SDMVSTRA,weights是权重的意思,参照别的大佬的意思,如WTINT2YR,WTMEC2YR,这两个权重就填入WTMEC2YR,data填入你的数据就可以了

r 复制代码
bcSvy2<- svydesign(ids = ~ SDMVPSU, strata = ~ SDMVSTRA, weights = ~ WTMEC2YR,
                   nest = TRUE, data = bc)

生成调查函数bcSvy2后咱们就可以进行计算了,这里我们生成一个按照oGTT2分类的基线表,就是不同血糖程度的基线值水平。

主要是使用survey包自带的函数来进行计算,计算连续的和分类的要分开计算,

咱们先来计算连续的主要是使用svyby这个函数来搭配计算,假设咱们想了解不同oGTT2的年龄分布基线

r 复制代码
svyby(~RIDAGEYR, ~oGTT2, bcSvy2, svymean)

这样结果就出来了,可以看到和tableone包算出来的一模一样。(下图是tableone包算出来的)

如果想求可信区间,

r 复制代码
svyby(~RIDAGEYR, ~ oGTT2, bcSvy2, svymean , vartype="ci")

如果咱们想按分位数来求

r 复制代码
svyby(~RIDAGEYR, ~oGTT2, bcSvy2, svyquantile, quantiles=0.5,ci=TRUE,vartype="ci")

如果想求每组为未加权加权的人数

r 复制代码
svyby(~RIDAGEYR, ~oGTT2, bcSvy2, unwtd.count, keep.var=FALSE)

接下来咱们看一下分类变量怎么计算,分类变量主要是使用svytable函数来计算,咱们这里以种族(RIDRETH1)为例子

svyby(~RIDRETH1, ~oGTT2, bcSvy2, svytotal,covmat=TRUE)

这里算出来的也和tableone包一模一样, 这样连续和分类变量的都算出来啦。间接印证了咱们使用tableone包计算是正确的,新手还是使用tableone包来计算容易点。

最后聊下近期,近期一直在写一键生成NHANSE数据亚组交互效应表的函数(P for interaction),但是出现一个小问题卡住了,就是就是在函数内部生成svyglm模型的时候,我们需要使用anova函数获取模型的P for interaction的值,但是这个时候R会提示design函数找不到,如下图所示。

这个问题卡了我好几天,实在没办法后面我写了封邮件问survey包的作者thomas教授这个问题怎么解决。thomas教授说这个survey包目前没法解决,他需要从新写anova.svyglm函数,有可能在新版本解决这个问题,但thomas教授给了我解决这个问题的方案。

为什么我要说这个东西,因为这个东西既然目前survey包目前没法解决,那么很多基于survey包anova.svyglm函数来实现算法的函数和R包就是错的。因为design函数只能在全局环境找到,在其他环境找不到。

这里我要提一下jstable包,很多粉丝和我提到了这个包,而且我看见有些博主也推荐了这个包,这个包在分析复查加权数据时就是用了anova.svyglm函数,因此你的数据一旦是多项交互它就会报错。而且这个包的逻辑和咱们平时就算交互效应的时候还是不一样的,咱们平时计算交互效应通常是:y=a+b+a*b

而jstable包的计算逻辑是y= a*b。这样计算出来的东西就完全不一样了。自己做的时候根据需求吧。

相关推荐
天冬忘忧4 分钟前
MongoDB在Linux系统中的安装与配置指南
数据库·mongodb·datax
睡不醒的小泽2 小时前
VSCode环境下连接 MySQL 8.0 数据库 (C++)
数据库·windows·vscode
藓类少女4 小时前
正则表达式
数据库·python·mysql·正则表达式
魏 无羡5 小时前
pgsql 分组查询方法
java·服务器·数据库
szcsd1234567895 小时前
简单有效关于msvcp140.dll丢失的解决方法,msvcp140.dll修复的方法原理及步骤
数据库·dll文件·dll修复工具·dll修复·dll丢失
江凡心5 小时前
Qt 每日面试题 -1
服务器·数据库·qt
好记忆不如烂笔头abc5 小时前
db2恢复数据库
数据库
Counter-Strike大牛6 小时前
MySQL迁移达梦报错,DMException: 第1 行附近出现错误: 无效的表或视图名[ACT_GE_PROPERTY]
java·数据库
小诸葛的博客7 小时前
pg入门18—如何使用pg gis
数据库
林太白8 小时前
❤Node09-用户信息token认证
数据库·后端·mysql·node.js