R实验 参数检验(一)

  • 实验目的:
  1. 学会利用R软件完成一个正态总体的均值和两个正态总体的均值(差)的检验;
  2. 学会利用R软件完成服从正态分布的成对数据的均值的检验;
  3. 学会利用R软件完成一个总体比例和两个总体比例差的检验。

实验内容:

(习题5.18)市场上出售的某品牌罐头,标称为每罐400g。现随机抽取36听罐头,称其重量,其样本均值为393g,样本标准差为24g。试分析,这批罐头的重量是否能达到它标称的重量?

提示:样本容量大于等于30,属于大样本数据,因此可以使用Z检验。对于大样本数据,也可以使用t.test()函数做T检验。因为当样本容量n 较大时,X ~t (n )与X ~N (0,1)非常接近。但这题没有给出具体样本值,因此不能直接使用t.test(),做法参考例5.22。

解:提出假设:

H0:μ≥400

H1:μ<400

源代码及运行结果:(复制到此处,不要截图)

> source("C:\\Users\\黄培滇\\Desktop\\R语言生物统计学\\chap05\\P_value.R")

> x_bar<-393;S<-24;n<-36;mu<-400

> Z<-(x_bar-mu)/(S/sqrt(n) )

> P_value(Z,side=-1)

[1] 0.04005916

结论:

P值<0.05,拒绝原假设,即这批罐头的重量没有达到它的标准重量

(习题5.19)正常男子血小板计数均值为225 × 109/L,今测得20名男性油漆作业工人的血小板计数值(单位:109/L)

220 188 162 230 145 160 238 188 247 113

126 245 164 231 256 183 190 158 224 175

问油漆工人的血小板计数与正常成年男子有无差异?

提示:样本容量小于等于30,属于小样本数据,因此可以直接使用t.test()函数。参考例5.24.

解:提出假设:

H0:μ≤225

H1:μ>225

源代码及运行结果:(复制到此处,不要截图)

>X<-c(220,188,162,230,145,160,238,188,247,113,126,245,164,231,256,183,190,158,224,175)

> t.test(X,alternative = "greater" , mu = 225)

One Sample t-test

data: X

t = -3.4783, df = 19, p-value = 0.9987

alternative hypothesis: true mean is greater than 225

95 percent confidence interval:

175.8194 Inf

sample estimates:

mean of x

192.15

结论:

P值大于0.05,接受原假设,即认为油漆工人的血小板小于低于正常成年男子

(习题5.20)---项调查显示某城市老年人口比重为14.7%。该市老年研究协会为了检验该项调查是否可靠,随机抽选了400名居民,发现其中有57人是老年人。问调查结果是否支持该市老年人口比重为14.7%的看法(a =0.05)。

提示:此题是总体比例的双侧检验,由于满足np≥5和nq≥5,因此可以使用针对大样本数据的prop.test()函数。当然,对于大样本数据,也可以用binorm()函数做精确检验。参考例5.26。

解:提出假设:

H0:p = 0.147

H1:p ≠ 0.147

源代码及运行结果:(复制到此处,不要截图)

> prop.test(57,400,p=0.147)

1-sample proportions test with continuity

correction

data: 57 out of 400, null probability 0.147

X-squared = 0.033695, df = 1, p-value =

0.8544

alternative hypothesis: true p is not equal to 0.147

95 percent confidence interval:

0.1105235 0.1815235

sample estimates:

p

0.1425

结论:

P值>0.05,接受原假设,即该市老年人比重等于14.7%

(习题5.21)作性别控制试验,经某种处理后,共有雏鸡328只,其中公雏150只,母雏178只,试问这种处理能否增加母雏的比例?(性别比应为1:1)。

提示:此题也是总体比例的右侧检验,即检验此次检验中母雏的总体比例是否大于0.5。由于满足np≥5和nq≥5,因此可以使用针对大样本数据的prop.test()函数。当然,对于大样本数据,也可以用binorm()函数做精确检验。参考例5.26。注意到这里的p=0.5。

解:提出假设:

H0:p≤0.5

H1:p>0.5

源代码及运行结果:(复制到此处,不要截图)

> binom.test(178,328,p=0.5)

Exact binomial test

data: 178 and 328

number of successes = 178, number of trials =

328, p-value = 0.1359

alternative hypothesis: true probability of success is not equal to 0.5

95 percent confidence interval:

0.4870679 0.5975204

sample estimates:

probability of success

0.5426829

结论:

P值>0.5,接受原假设,即该处理方法能增加母雏的比例

(习题5.23)为研究某铁剂治疗和饮食治疗營养性缺铁性贫血的效果,将16名患者按年龄、体重、病程和病情相近的原则配成8对,分别使用饮食疗法和补充铁剂治疗的方法,3个月后测得两种患者血红蛋白如下表所示,问两种方法治疗后的患者血红蛋白有无差异?

铁剂和饮食两种方法治疗后患者血红蛋白值 (g/L)

|-------|-----|-----|-----|-----|-----|-----|-----|-----|
| 铁剂治疗组 | 113 | 120 | 138 | 120 | 100 | 118 | 138 | 123 |
| 饮食治疗组 | 138 | 116 | 125 | 136 | 110 | 132 | 130 | 110 |

提示:此题为小样本的成对数据的均值检验。注意t.test()中参数paired的设置。参考例5.31。

解:提出假设:

H0:μ1 = μ2

H1:μ1 ≠ μ2

源代码及运行结果:(复制到此处,不要截图)

> 铁剂治疗组<-c(113,120,138,120,100,118,138,123)

> 饮食治疗组<-c(138,116,125,136,110,132,130,110)

> table<-data.frame(铁剂治疗组,饮食治疗组)

> with(table,t.test(铁剂治疗组,饮食治疗组,paired = T))

Paired t-test

data: 铁剂治疗组 and 饮食治疗组

t = -0.65127, df = 7, p-value = 0.5357

alternative hypothesis: true mean difference is not equal to 0

95 percent confidence interval:

-15.628891 8.878891

sample estimates:

mean difference

-3.375

结论:

在α=0.05的条件下,不存在显著性差异,即两种方法治疗后的患者血红蛋白没有显著性差异

(习题5.24)为研究国产四类新药阿卡波糖胶囊效果,某医院用40 名Ⅱ型糖尿病病人进行同期随机对照实验。试验者将这些病人随机等分到试验组(阿卡波糖胶囊组)和对照组(拜唐苹胶囊组),分别测得试验开始前和8周后空腹血糖,算得空腹血糖下降值,如下所示。假设数据服从正态分布,试用T检验(讨论方差相同和方差不同两种情况下)和成对T检验来判断:国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果是否相同?

试验组与对照组空腹腔血糖下降值(mmol/L)

|-------------|-------|-------|------|------|------|------|------|------|------|-------|
| 试验组 | -0.70 | -5.60 | 2.00 | 2.80 | 0.70 | 3.50 | 4.00 | 5.80 | 7.10 | -0.50 |
| (n1 = 20) | 2.50 | -1.60 | 1.70 | 3.00 | 0.40 | 4.50 | 4.60 | 2.50 | 6.00 | -1.40 |
| 对照组 | 3.70 | 6.50 | 5.00 | 5.20 | 0.80 | 0.20 | 0.60 | 3.40 | 6.60 | -1.10 |
| (n2 = 20) | 6.00 | 3.80 | 2.00 | 1.60 | 2.00 | 2.20 | 1.20 | 3.10 | 1.70 | -2.00 |

解:提出假设:

H0:国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果相同

H1:国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果有差异

①方差相同模型

源代码及运行结果:(复制到此处,不要截图)

> 实验组<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50)

> 对照组<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10)

> t.test(实验组,对照组,var.equal = T)

Two Sample t-test

data: 实验组 and 对照组

t = -0.81188, df = 18, p-value = 0.4275

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-4.233517 1.873517

sample estimates:

mean of x mean of y

1.91 3.09

结论:

P值>0.05,接受原假设,即国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果相同

②方差不同模型

源代码及运行结果:(复制到此处,不要截图)

R 复制代码
> t.test(实验组,对照组,var.equal = F)

Welch Two Sample t-test

data: 实验组 and 对照组

t = -0.81188, df = 16.819, p-value = 0.4282

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-4.248959 1.888959

sample estimates:

mean of x mean of y

1.91 3.09

结论:

P值>0.05,接受原假设,即国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果相同

③成对T检验模型

源代码及运行结果:(复制到此处,不要截图)

R 复制代码
> 实验组n1<-c(2.50,-1.60,1.70,3.00,0.40,4.50,4.60,2.50,6.00,-1.40)

> 对照组n2<-c(6.00,3.80,2.00,1.60,2.00,2.20,1.20,3.10,1.70,-2.00)

> t.test(实验组n1,对照组n2,paired = T)

Paired t-test

data: 实验组n1 and 对照组n2

t = 0.062842, df = 9, p-value = 0.9513

alternative hypothesis: true mean difference is not equal to 0

95 percent confidence interval:

-2.099857 2.219857

sample estimates:

mean difference

0.06

结论:

P值>0.05,接受原假设,即国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果相同

(习题5.25)为研究某种新药对抗凝血酶活力的影响,随机安排新药组病人12例,对照组病人10例,分别测定其抗凝血酶活力(单位:mm3),其结果如下:

新药组:126 125 136 128 123 138 142 116 110 108 115 140

对照组:162 1 72 1 77 1 70 1 75 152 157 159 160 162

假设数据服从正态分布,试用T检验(讨论方差相同和方差不同两种情况)来分析新药组和对照组病人的抗凝血酶活力有无显著差别(a = 0.05)。

解:提出假设:

H0:新药组和对照组病人的抗凝血酶活力无显著差别

H1:新药组和对照组病人的抗凝血酶活力有显著差别

①方差相同模型

源代码及运行结果:(复制到此处,不要截图)

R 复制代码
> 新药组<-c(126,125,136,128,123,138,142,116,110,108,115,140)

> 对照组<-c(162,172,177,170,175,152,157,159,160,162)

> t.test(新药组,对照组,var.equal = T)

Two Sample t-test

data: 新药组 and 对照组

t = -8.8148, df = 20, p-value = 2.524e-08

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-48.24975 -29.78358

sample estimates:

mean of x mean of y

125.5833 164.6000

结论:

P值<<0.05,拒绝原假设,即新药组与对照组病人的抗凝血酶有显著性差别

②方差不同模型

源代码及运行结果:(复制到此处,不要截图)

R 复制代码
> t.test(新药组,对照组,var.equal = F)

Welch Two Sample t-test

data: 新药组 and 对照组

t = -9.0925, df = 19.603, p-value = 1.818e-08

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-47.97935 -30.05398

sample estimates:

mean of x mean of y

125.5833 164.6000

结论:

P值<<0.05,拒绝原假设,即新药组与对照组病人的抗凝血酶有显著性差别

(习题5.26)科学家认为,太平洋树蛙能产生一种酶,以保护它的卵免受紫外线的伤害.现做两组试验,一组是有紫外线保护的,共 70 个蛙卵,有 34 个孵化。另一组没有紫外线保护,共 80 个蛙卵,有 31 个孵化。试分析,太平洋树蛙是否确实有保护它的卵免受紫外线伤害的能力?

提示:此题是两个总体比例的检验。参考例5.32。

解:提出假设:

H0:p1 = p2

H1:p1 ≠p2

源代码及运行结果:(复制到此处,不要截图)

R 复制代码
> n<-c(70,80);x<-c(34,31)> prop.test(x,n)

2-sample test for equality of proportions with

continuity correction

data: x out of n

X-squared = 1.0939, df = 1, p-value = 0.2956

alternative hypothesis: two.sided

95 percent confidence interval:

-0.07362454 0.27005311

sample estimates:

prop 1 prop 2

0.4857143 0.3875000

结论:

P值大于0.05,拒绝原假设,即太平树蛙具有保护其卵免受紫外线伤害的能力

(习题5.27)研究者发现,妇女患乳腺癌可能与初次分娩时的年龄有关。下表给出国际卫生组织在 1970 年的报告。试分析初次分娩各年龄段患乳腺癌的比例是否相同。如果不同,哪些年龄段之间不同?乳腺癌患病率是否呈现某种趋势?

初次分娩年龄与乳腺癌患病人数

|------|------|--------|--------|--------|-----|
| | 初次分娩年龄 |||||
| | <20 | 20~24 | 25~29 | 30~34 | ≥35 |
| 乳腺癌数 | 320 | 1206 | 1011 | 463 | 220 |
| 调查总数 | 1742 | 5638 | 3904 | 1555 | 626 |

提示:此题是多个总体比例的检验,并需要做比率的多重检验,以及比率趋势的检验。参考例5.33。

解:

(1)初次分娩各年龄段患乳腺癌的比例是否相同

提出假设:

H0:初次分娩各年龄段患乳腺癌的比例是相同

H1:初次分娩各年龄段患乳腺癌的比例不全相同

源代码及运行结果:(复制到此处,不要截图)

R 复制代码
> x<-matrix(c(320,1206,11011,464,220,1742,5638,3904,1555,626),nrow = 2,byrow = T)

> colnames(x)<-c("<20","20~24","25~29","30~34","≥35")> rownames(x)<-c("Yes","No")

> x.yes<-x["Yes",];x.total<-margin.table(x,2)

> prop.test(x.yes,x.total)

5-sample test for equality of proportions without

continuity correction

data: x.yes out of x.total

X-squared = 8020, df = 4, p-value < 2.2e-16

alternative hypothesis: two.sided

sample estimates:

prop 1 prop 2 prop 3 prop 4 prop 5

0.1551891 0.1762127 0.7382501 0.2298167 0.2600473

结论:

P值<<0.05,拒绝原假设,即初次分娩各年龄段患乳腺癌的比例不全相同

(2)如果不同,哪些年龄段之间不同?

源代码及运行结果:(复制到此处,不要截图)

R 复制代码
> pairwise.prop.test(x.yes,x.total)

Pairwise comparisons using Pairwise comparison of proportions

data: x.yes out of x.total

<20 20~24 25~29 30~34

20~24 0.057 - - -

25~29 < 2e-16 < 2e-16 - -

30~34 9.2e-09 2.2e-07 < 2e-16 -

≥35 3.4e-10 1.7e-08 < 2e-16 0.092

P value adjustment method: holm

结论:

初次分娩年龄<20与初次分娩年龄25~29、30~34、≥35;初次分娩年龄20~24与初次分娩年龄25~29、30~34、≥35;初次分娩年龄25~29与初次分娩年龄30~34、≥35有显显著性差异

(3)乳腺癌患病率是否呈现某种趋势?

提出假设:

H0:p1=p2=p3=p4=p5

H1:p1≥p2≥p3≥p4≥p5

源代码及运行结果:(复制到此处,不要截图)

R 复制代码
> prop.trend.test(x.yes,x.total)

Chi-squared Test for Trend in Proportions

data: x.yes out of x.total ,

using scores: 1 2 3 4 5

X-squared = 1520.5, df = 1, p-value < 2.2e-16

> prop.trend.test(x.yes,x.total,score=c(1,2,5,3,4))

Chi-squared Test for Trend in Proportions

data: x.yes out of x.total ,

using scores: 1 2 5 3 4

X-squared = 7407.9, df = 1, p-value < 2.2e-16

结论:

由计算结果得出,无论是自然顺序还是规定顺序,都拒绝原假设,即彼此之间存在某种趋势

思考:

当原假设为真时,拒绝原假设,则犯了第++++一++++ 错误,这类错误也称为++++假阳性++++ 错误;当原假设为假时,接受原假设,则犯了第++++二++++ 错误,这类错误也称为++++假阴性++++ 错误。

在假设检验中,a 称为++++显著性水平++++ ;在区间估计中,1-a 称为++++置信水平++++ 。

常见的均值检验的问题有哪3种类型(实验目的1和2)?这3类问题都可以用R软件中t.test()函数做检验吗?

样本均值检验,独立样本检验,配对样本检验都能用t.test()函数做检验

两个独立总体的均值检验除了要求满足①正态性,②独立性外,还要特别注意哪个条件?在R语言中,通过选择t.test()函数中哪个参数进行区别设置?

方差是否相等,在t.test()函数中用var.equal参数进行区别设置

两个成对数据的均值检验可以转化为单个总体的均值检验问题,具体来说,首先求出差值序列,然后利用单个总体的均值检验方法检验此差值序列的均值是否等于多少?

0

在对一个总体比例进行检验时,如果是小样本数据,可以用二项分布做精确检验,用到R软件中的++++binom.test()++++ 函数;如果是大样本数据,可以用正态分布做近似计算,但在R软件中,使用的是卡方分布,用到的是++++prop.test()++++ 函数。在对两个总体比例(差)进行检验时,R软件直接利用使用大样本数据下的卡方分布做近似计算,用到的同样是++++prop.test()++++ 函数。

两个总体比例的检验还可以推广到3个及以上的总体,若最后拒绝原假设后想知道到底哪两个总体具有显著性差异,还需要进一步做多重比较,这称为++++事后检验++++ 。除此之外,还可以利用++++prop.trend.test()++++ 函数做比率趋势的检验。

相关推荐
明月*清风7 分钟前
【数据结构专栏】二叉搜索树(Binary Search Tree)的剖析?
开发语言·数据结构·c++·visualstudio
雪碧聊技术29 分钟前
RabbitMQ3:Java客户端快速入门
java·开发语言·rabbitmq·amqp·spring amqp·rabbittemplate
Sinsa_SI37 分钟前
2024年9月中国电子学会青少年软件编程(Python)等级考试试卷(六级)答案 + 解析
开发语言·python·等级考试·电子学会·考级
济南信息学奥赛刘老师37 分钟前
GESP考试大纲
开发语言·c++·算法·青少年编程
许静知1 小时前
第十章 JavaScript的应用
开发语言·javascript·ecmascript
froginwe111 小时前
SQLite Having 子句
开发语言
好开心331 小时前
js高级06-ajax封装和跨域
开发语言·前端·javascript·ajax·okhttp·ecmascript·交互
不惑_1 小时前
【Python入门第七讲】列表(List)
开发语言·python·list
无空念1 小时前
C++ STL - vector/list讲解及迭代器失效
开发语言·c++
雪的期许1 小时前
Python/GoLang/Java 多环境管理工具 pyenv/goenv/jenv
开发语言·python·策略模式