- 实验目的:
- 学会利用R软件完成一个正态总体的均值和两个正态总体的均值(差)的检验;
- 学会利用R软件完成服从正态分布的成对数据的均值的检验;
- 学会利用R软件完成一个总体比例和两个总体比例差的检验。
实验内容:
(习题5.18)市场上出售的某品牌罐头,标称为每罐400g。现随机抽取36听罐头,称其重量,其样本均值为393g,样本标准差为24g。试分析,这批罐头的重量是否能达到它标称的重量?
提示:样本容量大于等于30,属于大样本数据,因此可以使用Z检验。对于大样本数据,也可以使用t.test()函数做T检验。因为当样本容量n 较大时,X ~t (n )与X ~N (0,1)非常接近。但这题没有给出具体样本值,因此不能直接使用t.test(),做法参考例5.22。
解:提出假设:
H0:μ≥400
H1:μ<400
源代码及运行结果:(复制到此处,不要截图)
> source("C:\\Users\\黄培滇\\Desktop\\R语言生物统计学\\chap05\\P_value.R")
> x_bar<-393;S<-24;n<-36;mu<-400
> Z<-(x_bar-mu)/(S/sqrt(n) )
> P_value(Z,side=-1)
[1] 0.04005916
结论:
P值<0.05,拒绝原假设,即这批罐头的重量没有达到它的标准重量
(习题5.19)正常男子血小板计数均值为225 × 109/L,今测得20名男性油漆作业工人的血小板计数值(单位:109/L)
220 188 162 230 145 160 238 188 247 113
126 245 164 231 256 183 190 158 224 175
问油漆工人的血小板计数与正常成年男子有无差异?
提示:样本容量小于等于30,属于小样本数据,因此可以直接使用t.test()函数。参考例5.24.
解:提出假设:
H0:μ≤225
H1:μ>225
源代码及运行结果:(复制到此处,不要截图)
>X<-c(220,188,162,230,145,160,238,188,247,113,126,245,164,231,256,183,190,158,224,175)
> t.test(X,alternative = "greater" , mu = 225)
One Sample t-test
data: X
t = -3.4783, df = 19, p-value = 0.9987
alternative hypothesis: true mean is greater than 225
95 percent confidence interval:
175.8194 Inf
sample estimates:
mean of x
192.15
结论:
P值大于0.05,接受原假设,即认为油漆工人的血小板小于低于正常成年男子
(习题5.20)---项调查显示某城市老年人口比重为14.7%。该市老年研究协会为了检验该项调查是否可靠,随机抽选了400名居民,发现其中有57人是老年人。问调查结果是否支持该市老年人口比重为14.7%的看法(a =0.05)。
提示:此题是总体比例的双侧检验,由于满足np≥5和nq≥5,因此可以使用针对大样本数据的prop.test()函数。当然,对于大样本数据,也可以用binorm()函数做精确检验。参考例5.26。
解:提出假设:
H0:p = 0.147
H1:p ≠ 0.147
源代码及运行结果:(复制到此处,不要截图)
> prop.test(57,400,p=0.147)
1-sample proportions test with continuity
correction
data: 57 out of 400, null probability 0.147
X-squared = 0.033695, df = 1, p-value =
0.8544
alternative hypothesis: true p is not equal to 0.147
95 percent confidence interval:
0.1105235 0.1815235
sample estimates:
p
0.1425
结论:
P值>0.05,接受原假设,即该市老年人比重等于14.7%
(习题5.21)作性别控制试验,经某种处理后,共有雏鸡328只,其中公雏150只,母雏178只,试问这种处理能否增加母雏的比例?(性别比应为1:1)。
提示:此题也是总体比例的右侧检验,即检验此次检验中母雏的总体比例是否大于0.5。由于满足np≥5和nq≥5,因此可以使用针对大样本数据的prop.test()函数。当然,对于大样本数据,也可以用binorm()函数做精确检验。参考例5.26。注意到这里的p=0.5。
解:提出假设:
H0:p≤0.5
H1:p>0.5
源代码及运行结果:(复制到此处,不要截图)
> binom.test(178,328,p=0.5)
Exact binomial test
data: 178 and 328
number of successes = 178, number of trials =
328, p-value = 0.1359
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.4870679 0.5975204
sample estimates:
probability of success
0.5426829
结论:
P值>0.5,接受原假设,即该处理方法能增加母雏的比例
(习题5.23)为研究某铁剂治疗和饮食治疗營养性缺铁性贫血的效果,将16名患者按年龄、体重、病程和病情相近的原则配成8对,分别使用饮食疗法和补充铁剂治疗的方法,3个月后测得两种患者血红蛋白如下表所示,问两种方法治疗后的患者血红蛋白有无差异?
铁剂和饮食两种方法治疗后患者血红蛋白值 (g/L)
|-------|-----|-----|-----|-----|-----|-----|-----|-----|
| 铁剂治疗组 | 113 | 120 | 138 | 120 | 100 | 118 | 138 | 123 |
| 饮食治疗组 | 138 | 116 | 125 | 136 | 110 | 132 | 130 | 110 |
提示:此题为小样本的成对数据的均值检验。注意t.test()中参数paired的设置。参考例5.31。
解:提出假设:
H0:μ1 = μ2
H1:μ1 ≠ μ2
源代码及运行结果:(复制到此处,不要截图)
> 铁剂治疗组<-c(113,120,138,120,100,118,138,123)
> 饮食治疗组<-c(138,116,125,136,110,132,130,110)
> table<-data.frame(铁剂治疗组,饮食治疗组)
> with(table,t.test(铁剂治疗组,饮食治疗组,paired = T))
Paired t-test
data: 铁剂治疗组 and 饮食治疗组
t = -0.65127, df = 7, p-value = 0.5357
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
-15.628891 8.878891
sample estimates:
mean difference
-3.375
结论:
在α=0.05的条件下,不存在显著性差异,即两种方法治疗后的患者血红蛋白没有显著性差异
(习题5.24)为研究国产四类新药阿卡波糖胶囊效果,某医院用40 名Ⅱ型糖尿病病人进行同期随机对照实验。试验者将这些病人随机等分到试验组(阿卡波糖胶囊组)和对照组(拜唐苹胶囊组),分别测得试验开始前和8周后空腹血糖,算得空腹血糖下降值,如下所示。假设数据服从正态分布,试用T检验(讨论方差相同和方差不同两种情况下)和成对T检验来判断:国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果是否相同?
试验组与对照组空腹腔血糖下降值(mmol/L)
|-------------|-------|-------|------|------|------|------|------|------|------|-------|
| 试验组 | -0.70 | -5.60 | 2.00 | 2.80 | 0.70 | 3.50 | 4.00 | 5.80 | 7.10 | -0.50 |
| (n1 = 20) | 2.50 | -1.60 | 1.70 | 3.00 | 0.40 | 4.50 | 4.60 | 2.50 | 6.00 | -1.40 |
| 对照组 | 3.70 | 6.50 | 5.00 | 5.20 | 0.80 | 0.20 | 0.60 | 3.40 | 6.60 | -1.10 |
| (n2 = 20) | 6.00 | 3.80 | 2.00 | 1.60 | 2.00 | 2.20 | 1.20 | 3.10 | 1.70 | -2.00 |
解:提出假设:
H0:国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果相同
H1:国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果有差异
①方差相同模型
源代码及运行结果:(复制到此处,不要截图)
> 实验组<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50)
> 对照组<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10)
> t.test(实验组,对照组,var.equal = T)
Two Sample t-test
data: 实验组 and 对照组
t = -0.81188, df = 18, p-value = 0.4275
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4.233517 1.873517
sample estimates:
mean of x mean of y
1.91 3.09
结论:
P值>0.05,接受原假设,即国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果相同
②方差不同模型
源代码及运行结果:(复制到此处,不要截图)
R
> t.test(实验组,对照组,var.equal = F)
Welch Two Sample t-test
data: 实验组 and 对照组
t = -0.81188, df = 16.819, p-value = 0.4282
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4.248959 1.888959
sample estimates:
mean of x mean of y
1.91 3.09
结论:
P值>0.05,接受原假设,即国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果相同
③成对T检验模型
源代码及运行结果:(复制到此处,不要截图)
R
> 实验组n1<-c(2.50,-1.60,1.70,3.00,0.40,4.50,4.60,2.50,6.00,-1.40)
> 对照组n2<-c(6.00,3.80,2.00,1.60,2.00,2.20,1.20,3.10,1.70,-2.00)
> t.test(实验组n1,对照组n2,paired = T)
Paired t-test
data: 实验组n1 and 对照组n2
t = 0.062842, df = 9, p-value = 0.9513
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
-2.099857 2.219857
sample estimates:
mean difference
0.06
结论:
P值>0.05,接受原假设,即国产四类新药阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果相同
(习题5.25)为研究某种新药对抗凝血酶活力的影响,随机安排新药组病人12例,对照组病人10例,分别测定其抗凝血酶活力(单位:mm3),其结果如下:
新药组:126 125 136 128 123 138 142 116 110 108 115 140
对照组:162 1 72 1 77 1 70 1 75 152 157 159 160 162
假设数据服从正态分布,试用T检验(讨论方差相同和方差不同两种情况)来分析新药组和对照组病人的抗凝血酶活力有无显著差别(a = 0.05)。
解:提出假设:
H0:新药组和对照组病人的抗凝血酶活力无显著差别
H1:新药组和对照组病人的抗凝血酶活力有显著差别
①方差相同模型
源代码及运行结果:(复制到此处,不要截图)
R
> 新药组<-c(126,125,136,128,123,138,142,116,110,108,115,140)
> 对照组<-c(162,172,177,170,175,152,157,159,160,162)
> t.test(新药组,对照组,var.equal = T)
Two Sample t-test
data: 新药组 and 对照组
t = -8.8148, df = 20, p-value = 2.524e-08
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-48.24975 -29.78358
sample estimates:
mean of x mean of y
125.5833 164.6000
结论:
P值<<0.05,拒绝原假设,即新药组与对照组病人的抗凝血酶有显著性差别
②方差不同模型
源代码及运行结果:(复制到此处,不要截图)
R
> t.test(新药组,对照组,var.equal = F)
Welch Two Sample t-test
data: 新药组 and 对照组
t = -9.0925, df = 19.603, p-value = 1.818e-08
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-47.97935 -30.05398
sample estimates:
mean of x mean of y
125.5833 164.6000
结论:
P值<<0.05,拒绝原假设,即新药组与对照组病人的抗凝血酶有显著性差别
(习题5.26)科学家认为,太平洋树蛙能产生一种酶,以保护它的卵免受紫外线的伤害.现做两组试验,一组是有紫外线保护的,共 70 个蛙卵,有 34 个孵化。另一组没有紫外线保护,共 80 个蛙卵,有 31 个孵化。试分析,太平洋树蛙是否确实有保护它的卵免受紫外线伤害的能力?
提示:此题是两个总体比例的检验。参考例5.32。
解:提出假设:
H0:p1 = p2
H1:p1 ≠p2
源代码及运行结果:(复制到此处,不要截图)
R
> n<-c(70,80);x<-c(34,31)> prop.test(x,n)
2-sample test for equality of proportions with
continuity correction
data: x out of n
X-squared = 1.0939, df = 1, p-value = 0.2956
alternative hypothesis: two.sided
95 percent confidence interval:
-0.07362454 0.27005311
sample estimates:
prop 1 prop 2
0.4857143 0.3875000
结论:
P值大于0.05,拒绝原假设,即太平树蛙具有保护其卵免受紫外线伤害的能力
(习题5.27)研究者发现,妇女患乳腺癌可能与初次分娩时的年龄有关。下表给出国际卫生组织在 1970 年的报告。试分析初次分娩各年龄段患乳腺癌的比例是否相同。如果不同,哪些年龄段之间不同?乳腺癌患病率是否呈现某种趋势?
初次分娩年龄与乳腺癌患病人数
|------|------|--------|--------|--------|-----|
| | 初次分娩年龄 |||||
| | <20 | 20~24 | 25~29 | 30~34 | ≥35 |
| 乳腺癌数 | 320 | 1206 | 1011 | 463 | 220 |
| 调查总数 | 1742 | 5638 | 3904 | 1555 | 626 |
提示:此题是多个总体比例的检验,并需要做比率的多重检验,以及比率趋势的检验。参考例5.33。
解:
(1)初次分娩各年龄段患乳腺癌的比例是否相同
提出假设:
H0:初次分娩各年龄段患乳腺癌的比例是相同
H1:初次分娩各年龄段患乳腺癌的比例不全相同
源代码及运行结果:(复制到此处,不要截图)
R
> x<-matrix(c(320,1206,11011,464,220,1742,5638,3904,1555,626),nrow = 2,byrow = T)
> colnames(x)<-c("<20","20~24","25~29","30~34","≥35")> rownames(x)<-c("Yes","No")
> x.yes<-x["Yes",];x.total<-margin.table(x,2)
> prop.test(x.yes,x.total)
5-sample test for equality of proportions without
continuity correction
data: x.yes out of x.total
X-squared = 8020, df = 4, p-value < 2.2e-16
alternative hypothesis: two.sided
sample estimates:
prop 1 prop 2 prop 3 prop 4 prop 5
0.1551891 0.1762127 0.7382501 0.2298167 0.2600473
结论:
P值<<0.05,拒绝原假设,即初次分娩各年龄段患乳腺癌的比例不全相同
(2)如果不同,哪些年龄段之间不同?
源代码及运行结果:(复制到此处,不要截图)
R
> pairwise.prop.test(x.yes,x.total)
Pairwise comparisons using Pairwise comparison of proportions
data: x.yes out of x.total
<20 20~24 25~29 30~34
20~24 0.057 - - -
25~29 < 2e-16 < 2e-16 - -
30~34 9.2e-09 2.2e-07 < 2e-16 -
≥35 3.4e-10 1.7e-08 < 2e-16 0.092
P value adjustment method: holm
结论:
初次分娩年龄<20与初次分娩年龄25~29、30~34、≥35;初次分娩年龄20~24与初次分娩年龄25~29、30~34、≥35;初次分娩年龄25~29与初次分娩年龄30~34、≥35有显显著性差异
(3)乳腺癌患病率是否呈现某种趋势?
提出假设:
H0:p1=p2=p3=p4=p5
H1:p1≥p2≥p3≥p4≥p5
源代码及运行结果:(复制到此处,不要截图)
R
> prop.trend.test(x.yes,x.total)
Chi-squared Test for Trend in Proportions
data: x.yes out of x.total ,
using scores: 1 2 3 4 5
X-squared = 1520.5, df = 1, p-value < 2.2e-16
> prop.trend.test(x.yes,x.total,score=c(1,2,5,3,4))
Chi-squared Test for Trend in Proportions
data: x.yes out of x.total ,
using scores: 1 2 5 3 4
X-squared = 7407.9, df = 1, p-value < 2.2e-16
结论:
由计算结果得出,无论是自然顺序还是规定顺序,都拒绝原假设,即彼此之间存在某种趋势
思考:
当原假设为真时,拒绝原假设,则犯了第++++一++++ 错误,这类错误也称为++++假阳性++++ 错误;当原假设为假时,接受原假设,则犯了第++++二++++ 错误,这类错误也称为++++假阴性++++ 错误。
在假设检验中,a 称为++++显著性水平++++ ;在区间估计中,1-a 称为++++置信水平++++ 。
常见的均值检验的问题有哪3种类型(实验目的1和2)?这3类问题都可以用R软件中t.test()函数做检验吗?
样本均值检验,独立样本检验,配对样本检验都能用t.test()函数做检验
两个独立总体的均值检验除了要求满足①正态性,②独立性外,还要特别注意哪个条件?在R语言中,通过选择t.test()函数中哪个参数进行区别设置?
方差是否相等,在t.test()函数中用var.equal参数进行区别设置
两个成对数据的均值检验可以转化为单个总体的均值检验问题,具体来说,首先求出差值序列,然后利用单个总体的均值检验方法检验此差值序列的均值是否等于多少?
0
在对一个总体比例进行检验时,如果是小样本数据,可以用二项分布做精确检验,用到R软件中的++++binom.test()++++ 函数;如果是大样本数据,可以用正态分布做近似计算,但在R软件中,使用的是卡方分布,用到的是++++prop.test()++++ 函数。在对两个总体比例(差)进行检验时,R软件直接利用使用大样本数据下的卡方分布做近似计算,用到的同样是++++prop.test()++++ 函数。
两个总体比例的检验还可以推广到3个及以上的总体,若最后拒绝原假设后想知道到底哪两个总体具有显著性差异,还需要进一步做多重比较,这称为++++事后检验++++ 。除此之外,还可以利用++++prop.trend.test()++++ 函数做比率趋势的检验。