fccjxxw.com
非常超级学习网 学习超级帮手
当前位置:首页 >> 数学 >>

分类变量资料的假设检验_图文

分类变量资料的假设检验

一、u检验
(一)样本率与总体率 比较
(二)两样本率比较

二、χ2检验
(一)四格表资料的χ2检 验
(二)行×列(R×C)表资 料的χ2检验
(三)配对计数资料的χ2 检验
(四)行×列表的χ2分割
(五)四格表的确切概率法

一、u检验

(一)样本率与总体率比较 样本率与总体率的假设检验的目的是
推断样本率所代表的未知总体率π与已知 总体率π0(一般指理论值、标准值或经 大量观察得到的稳定值)是否相等,其u 检验公式为:
u ? p ? ?0 ?p
式中,p为样本率,π0为已知总体率, 为根据总体率求得的率的标准误。

例5-6 由临床经验得知,一般溃 疡病患者的胃出血率为20%,现某医师 观察65岁以上溃疡病人250例,其中80 例发生胃出血症状,问老年患者胃出血
率与一般患者是否不同?

H0:?=?0 ,即老年患者胃出血率与一 般患者相同; H1:???0 ,即老年患者胃出血率与一 般患者不同; α=0.05

本例 ?0=20%,n=250,x=80

p ? x ? 80 ? 0.32 n 250

?p ?

?0(1 ? ?0 ) ? n

0.2(1 ? 0.2) ? 0.0253 250

将数据代入上式: u ? 0.32 ? 0.20 ? 4.743
0.0253

用绝对值查u界值表(t界值表中v
=∞栏):
4.743 >3.29 = u0.001/2 P < 0.001
按α=0.05,拒绝H0,接受H1,可认 为老年患者胃出血率与一般患者不同,
老年溃疡病患者更容易出现胃出血。

(二)两样本率比较 两样本率比较的假设检验的目的
是推断两样本所来自的两总体的总体 率是否相等。

其u检验公式为:

u ? p1 ? p2 sp1 ?p2

11 sp1?p2 ? pc (1 ? pc )( n1 ? n2 )

pc

?

x1 n1

? ?

x2 n2

例5-7 为比较工人和农民的高血 压患病率,分别调查了50—59岁男性 工人和50—59岁男性农民1281人和387 人,其高血压患者分别为386人(患病 率30.13%)和65人(患病率16.80%)。 问工人与农民的高血压患病率有无不 同?

H0:?1=?2,即工人和农民高血压患病 率相 同;
H1:?1??2, 即工人和农民高血压患病 率不同;
α=0.05

本例 p1=30.13%,x1=386,n1=1281; p2=16.80%,x2=65,n2=387;

pc

?

x1 n1

? x2 ? n2

?

386 ? 65 1281 ? 387

?

451 1668

?

0.2704

11 sp1?p2 ? pc (1 ? pc )( n1 ? n2 )

?

0.2704(1 ? 0.2704)(

1

?

1 )

1281 387

? 0.0258

将有关数据代入u检验公式

u ? p1 ? p2 ? 0.3013 ? 0.1680 ? 5.174

sp1 ?p2

0.0258

查u界值表(双侧,t界值表中=∞栏):

5.174 >3.29 = u0.001/2 P < 0.001

按α=0.05,拒绝H0,接受H1,可认 为50?59岁男性工人和 50?59岁男性农 民高血压患病率不同,工人患病率高于

农民。

二、χ2检验

χ2检验的基本公式为:
? ?2 ? (A ? T)2
T
式中A为实际频数(actual frequency), T为理论频数(theoretical frequency).

(一)四格表资料的χ2检验 例5-8 为观察药物A、B治疗某病
的疗效,某医师将100例该病病人随机 分为两组,一组40人,服用A药;另一 组60人,服用B药。结果发现:服用A药 40人中有30人治愈;服用B药的60人中 有11人治愈。问A、B两药的疗效有无差
别?

将本例所给数据整理成下表。

A、B 两药治疗某病疗效比较

处理

治愈人数

未愈人数

合计

A药

30(16.4) 10(23.6)

40

B药

11(24.6) 49(35.4)

60

合计

41

59

100

治愈率% 75.00 18.33 41.00

表中这四个 数据推算出来的,

30 10 11 49

格子的数据是整个表的基本数据,其余数据都是从这四个基本 故上表称为四格表。

χ2检验的基本步骤如下: H0:?1=?2 ,即A、B两药疗效相同; H1:?1??2 ,即A、B两药疗效不同; α=0.05

计算理论频数:理论频数指的是在无 效假设成立的前提下,理论上在实际频数 位置上的频数。本例如无效假设成立,两 药疗效相同,则其合计的治愈率为41%。据 此,A药组理论治愈人数=40×41%=16.4,B 药组理论治愈人数=60×41%=24.6;同理, 合计未愈率为59%,依此算得A药组和B药组 未愈人数分别为23.6和35.4。各理论频数 计算见上表中括号内的数字。理论频数的 计算过程可用下式表示:

TRC

?

nR ? nC N

上式中,R(row)表示行,C(column)
表示列;表示第R行第C列的理论数;nR和 nC分别代表第R行和第C列的合计数;N为 总合计数。

例如:第一行第一列的理论数
40? 41 T11 ? 100 ? 16.4
T12、T21、T22也可仿此算出。

将表5-2中的理论数和实际数代入χ2检

验公式:
?2

?

?

(A

? T)2 T

? (30 ? 16.4)2 ? (11 ? 24.6)2

16.4

24.6

? (10 ? 23.6)2 ? (49 ? 35.4)2

23.6

35.4

? 31.86

χ2检验自由度的计算公式为:

v =(行数-1)(列数-1)=(R-1)(C-1)

本例:(2-1)(2-1)=1

查附表4,χ2界值表:
31.86>7.88
χ2>χ2 0.005,1 P<0.005
P<0.005,按α=0.05,拒绝H0,接 受H1,可认为两药疗效不同,A药疗效 优于B药。

对于四格表资料,可用四格表专用 公式简化计算,省去求理论频数的过程.

?2 ?

(ad ? bc)2 ? N

(a ? b)(c ? d)(a ? c)(b ? d)

式中,a、b、c、d为四格表的四个 实际频数据,N为总合计数,N=a+b+c+d。 对四格表资料与χ2检验公式完全等价。
仍以上表资料为例:

处理 A药 B药 合计

A、B 两药治疗某病疗效比较

治愈人数

未愈人数

合计

30(a)

10(b) 40(a+b)

11(c)

49(d) 60(c+d)

4(a+c) 59(b+d) 100(N)

将上表数据代入上式

?2 ?

(ad ? bc)2 ? N

(a ? b)(c ? d)(a ? c)(b ? d)

(30 ? 49 ? 10 ?11)2 ?100 ?
40 ? 60 ? 41? 59 ? 31.86

计算结果与χ2检验公式计算结果 相同

四格表χ2检验的条件:
1.最小的T≥5,N≥40,用普通 χ2检验;
2.有1≤T<5,N≥40,用校正的 χ2检验;
3.有T<1或N<40,用确切概率法。

校正χ2检验的计算公式:

? ?2 ? ( A ? T ? 0.5)2
T 或

( ad ? bc ? N )2 ? N

?2 ?

2

(a ? b)(c ? d)(a ? c)(b ? d)

例5-9 某医师比较甲、乙两药疗 效,甲药治疗患者31例,有效23例; 乙药治疗同一种病患者48例,有效46
例。试问两药疗效是否相同?

将例 5-9 资料整理得下表。

甲、乙两药疗效比较

处理

有效人数

无效人数

甲药

23

8

乙药

46

2

合计

69

10

合计 31 48 79

有诳率(%) 74.19 95.83 87.34

H0: ?1=?2 ,即甲、乙两药疗效相同; H1: ?1??2 ,即甲、乙两药疗效不同;
α=0.05

由于,故四格表中有一格1< T〈5, 且n=79>40,所以χ2值需校正。将上表 数据代入校正检验公式

( ad ? bc ? N )2 ? N

?2 ?

2

(a ? b)(c ? d)(a ? c)(b ? d)

( 23 ? 2 ? 8 ? 46 ? 79 )2 ? 79

?

2

31? 48 ? 69 ?10

? 6.14

v =(R-1)(C-1)=(2-1)(2-1)=1

查附表4,χ2界值表:
5.02 < 6.14 < 6.63 χ20.025,1< χ2 < χ20.010,1
0.025 > P > 0.01
按α=0.05,拒绝H0,接受H1,可 认为甲、乙两药疗效不同,乙药疗效 优于甲药。

(二)行×列(R×C)表资料的χ2检验

检验统计量计算公式

? ?2 ? N(

A2 ? 1)

nR ? nc

例 5-10 某医院用三种方案治疗急性无黄疸型病毒性肝炎 254 例,结果见下表,试比较三

种方案的有效率有无差别?

三种方案治疗病毒性肝炎疗效比较

处理组

有效人数

无效人数

合计

有效率(%)

西药组

51

49

100

51.00

中药组

35

45

80

43.75

中西医结合组

59

15

74

79.73

合计

145

109

254

57.09

本例为三个率的比较,3×2=6,为六 格表,属于行×列表,可用行×列表χ2 检验。
H0:?1=?2=?3,即三种方案有效率相同;
H1:三种方案的有效率不同或不全同;
α=0.05。

将上表数据代入行×列表卡方检验

公式

? ?2 ? N(

A2 ? 1)

nR ? nc

512

352

592

? 254 ? (

?

?

100 ?145 80 ?145 74 ?145

? 492 ? 452 ??? 152 ? 1)

100 ?109 80 ?109

74 ?109

? 22.80

v =(R-1)(C-1)=(3-1)(2-1)=2

查附表态,χ2界值表:
22.80 > 10.60 χ2 > χ20.005,2 P < 0.005
P<0.005,按α=0.05,拒绝H0, 接受H1,可认为三种方案治疗病毒性肝 炎有效率不同或不全同。

例5-11 医师分别调查了维吾尔族与回族居民 1513 人和 1

355 人,得其 ABO 血型资料如下表,问两个民族居民血型构成是否

相同?

维吾尔族与回族居民 ABO 血型的频数分布比较

民族

A

B

O

AB

合计

维吾尔族 442

483

416

172

1513

回族

369

384

487

115

1355

合计

811

867

903

287

2868

本例并非多个率的比较,而是两组资 料构成比的比较,2×4=8,为八格表,属 于行×列表,可用行×列表χ2检验。
H0:两民族居民ABO血型构成相同;
H1:两民族居民ABO血型构成不同;
α=0.05

将上表数据代入行×列表卡方检验 公式

? ?2 ? N(

A2

4422

3692

4832

? 1) ? 2868 ? (

?

?

nR ? nc

1513 ? 811 1355 ? 811 1513 ? 867

? 3842 ? 4162 ? 4872 ? 1722 ? 1152 ? 1) 1355 ? 867 1513 ? 903 1355 ? 903 1513 ? 287 1355 ? 287

? 26.15
v =(R-1)(C-1)=(2-1)(4-1)=3

查χ2界值表:
26.15 > 12.84 χ2 > χ20.005,3 P < 0.005
P<0.005,按α=0.05,拒绝H0,接 受H1,可认为两民族居民ABO血型构成 不同,维吾尔族A、B型血者相对多些, 回族O型者相对多些。

例 5-12 某医师分析了 278 例尸解记录,得到下表资料。问年龄与冠状动脉粥样硬化程

度间有无关联性?

年龄与冠状动脉粥样硬化关系的分析

冠状动脉粥

年龄(岁)

合计

样硬化等级

21—

31—

41—

51—

-

70

27

16

9

122

+

22

24

23

20

89

++

4

9

13

15

41

+++

2

3

7

14

26

合计

98

63

59

58

278

上表为同时按照两个属性进行交叉分 类所形成的双向有序表(A属性分为有序 的R类,B属性分为有序的C类),称之为 R×C列联表(contingency table)。因 其仍属于R×C表,故χ2值的计算与普通 R×C表χ2值计算无异。
H0:年龄与冠状动脉粥样硬化程度间 相互独立(即两者间无关联);
H1:年龄与冠状动脉粥样硬化程度间 有关联;
α=0.05

将上表数据代入行×列表卡方检验 公式

? ?2 ? N(

A2

702

222

42

22

272

? 1) ? 278 ? (

?

?

?

?

?

nR ? nc

122 ? 98 89 ? 98 41? 98 26 ? 98 122 ? 63

??? 242 ? 92

32 ?

162 ?

232

132

72

?

?

?

?

92

89 ? 63 41? 63 26 ? 63 122 ? 59 89 ? 59 41? 59 26 ? 59 122 ? 58

??? 202 ? 152 ? 142 ? 1) ? 71.43 89 ? 58 41? 58 26 ? 58

v =(R-1)(C-1)=(4-1)(4-1)=9

查χ2界值表:
71.43 > 23.59
χ2 > χ20.005,9 P < 0.005
P<0.005,按α=0.05,拒绝H0,接 受H1,可认为年龄与冠状动脉粥样硬化 程度间有关联。

若需进一步定量表达两变量间关 联程度的大小,可选用列联系数rp,其 计算公式如下:
? ? rp ? ?2 n ? ?2

式中,χ2为统计量,n为样本含量。 rp的取值在0∽1之间,0表示完全独立, 1表示完全关联。本例列联系数为:
? ? rp ? ?2 n ? ?2 ? 71.43 ?278 ? 71.43? ? 0.45
表明年龄与冠状动脉粥样硬化之间 存在一定的关联性。

行×列表χ2检验注意事项:

1.χ2检验要求理论频数不宜太小, 否则将导致分析的偏性。R×C表资料 不宜有1/5以上格子的理论频数小于, 或有一个格子的理论频数小于1。对理 论频数太小的资料,有几种处理方法:

(1)增大样本含量; (2)删去理论频数太小的行与列; (3)将太小的理论频数所在的行或列 的实际频数与性质相近的邻行邻列的实 际频数进行合并。三种方法中,后两法 可能会损失部分信息,也会损害样本的 随机性。不同的合并方式有可能影响推 断结论,故不宜作为常规方法使用。

2.多个样本率(或构成比)比
较的χ2检验,结论为拒绝检验假设, 只能认为至少两个相差大的样本率 (或构成比)所代表的总体率(或构 成比)之间有差别,还不能说明它们 彼此之间都有差别。进一步的分析可 作χ2分割。

(三)配对计数资料的χ2检验

例 5-13 某医院用甲、乙两种培养基培养结核杆菌 45 份,结果见下表。问两种培

养基培养结果之间有无联系?有无差别?

甲、乙两种培养基培养结核杆菌的结果

乙培养基

甲培养基

合计

+

-

+

1 2 ( a)

-

2 ( c)

1 6 ( b) 15(d)

28(a+b) 17(c+d)

合计

1 4 (a+c)

31(b+d)

45(N)

1.两种培养基培养结果之间有无联系?

此时可将表5-8看成双向有序列联 表,做关联性分析。因此表只有四个格 子,故用普通四格表χ2检验来分析。
H0:两种培养基培养结果相互独立 (无 联系);
H1:两种培养基培养结果有关联 (有联系);
α=0.05

将上表数据代入四格表卡方检验

公式

?2 ?

(ad ? bc)2 ? N

(a ? b)(c ? d)(a ? c)(b ? d)

? (12 ?15 ? 16 ? 2)2 ?100 28 ?17 ?14 ? 31
? 4.77

V =(R-1)(C-1)=(2-1)(2-1)=1

查χ2界值表:
3.84 < 4.77 < 5.02 χ2 0.05,1< χ2 < χ2 0.025,1
0.05 > P > 0.025
P<0.05,按α=0.05,拒绝H0,接 受H1,可认为甲、乙两种培养基培养结 果有关联(联系)。

本例还可用φ(phi)系数进一步定 量表达两变量关联程度的大小,φ系数的 计算公式如下:

???

?2 n

式中,χ2为χ2统计量,n为样本含 量。φ的取值在-1与+1之间,其绝对值越 大,关联程度越高;而符号则表示相互关 联的方向,符号的正负与ad-bc的符号一

致。

本例:

???

?2 n

?

4.77 45 ? 0.33

由于12×15>16×2,故φ取正值, 因此两种培养基培养结果之间存在正 关联性,即甲培养基培养结果阳性 (或阴性),乙培养基培养结果也趋 向于阳性(或阴性)。

2.两种培养基培养结果之间有无差别?

检验统计量计算公式为:
?2 ? ( b ? c ? 1)2 b?c
? ?1
分子中的1为连续性校正数,若 b+c≥40是时,可省略。

H0:B=C,即两种培养基培养结果 阴性数相同;
H1:B≠C,即两种培养基培养结 果阴性数不同;
α=0.05

将上表数据代入上式
?2 ? ( 16 ? 2 ? 1)2 ? 9.39 16 ? 2
? ?1

查χ2界值表:
9.39 > 7.88 χ2 >χ20。005,1 P < 0.005
P<0.005,按α=0.05,拒绝H0,接 受H1,两培养基结果之间有差别,乙培 养基阳性数高于甲培养基。

(四)行×列表的χ2分割

例5-14 对例5-10三种方案治疗急 性无黄疸型病毒性肝炎的有效率作进一 步的两两比较。
本例西药组与中药组两组有效率差 异最小,将它们分割出来,作χ2检验
得χ2=0.936,v =1,P>0.05,差别无
统计意义,可将两有效率合并,资料重 组为新的四格表,再作χ2检验得 χ2=21.854,1,P<0.05。

综合结果表明:西药组与中药组有效率无差别;中西医结合组有效率高于单纯西药组和

单纯中药组。

三种方案治疗病毒性肝炎疗效比较的χ2 分割计算表

步骤

处理组

有效人数 无效人数 合计 有效率(%) χ2

ν

P

分割

西药组

51

49

100

51.00

0.936

1

>0.05

中药组

35

45

80

43.75

合计

86

94

180

合并 西药组+中药组 8 6

94

180

47.78

21.854

1

<0 . 0 5

中西医结合组

59

15

74

79.73

合计

145

109

254

22.790 2

χ2分割的原理是χ2值及其自由度 的可加性。本例原总表χ2=22.80,2;
χ2分割法合计的χ2=22.79,v =2,两
者一致。若前后不一致,就说明分割
方法可能有误。

(五)四格表的确切概率法

本法的基本思想是:在四格表周 边合计不变的条件下,用下式直接计 算表内四个数据的各种组合出现的概 率。
P ? (a ? b)!(c ? d)!(a ? c)!(b ? d)! a!b!c!d!N!
式中a、b、c、d为四个实际频数, N为总样本含量,!这阶乘的符号。

例5-15 为了解两种治疗方法对原 发性肝癌的疗效,某医师随机把病人分 成两组,一组使用5-氟尿嘧啶+辅助治 疗(简称5-氟组),另一组使用安慰剂 +辅助治疗(简称安慰组)。治疗结果 按缓解死亡划分。第1组12人,5人缓解, 7人死亡;第2组11人,1人缓解,10人
死亡。试问两组疗效是否不同?

将例 5-15 资料整理成下表。

两种治疗方法对原发性肝癌疗效的比较

处理组

缓解人数

死亡人数

合计

5-氟组

5(3.13)

7 ( 8.87)

12

安慰组

1(2.87)

10(8.13)

11

合计

6

17

23

缓解率(%)
41.67 9.09 26.09

本例n<40,且四格表中有两格 1<T<5,宜用四格表的确切概率法。
H0: ?1=?2 ,即两种疗法疗效相 同;
H1: ?1??2 ,即两种疗法疗效不 同;
α=0.05

将上表数据代入上式
P ? 12!?11!?6!?7! ? 0.0863 5!?7!?11!?10!?23!

上表中两组缓解率差值的绝对值 |P1-P2|=|0.4167-0.0909|=0.3258。在 周边合计数不变的条件下,表内四个数 据可能还有其它组合其缓解率差别 ≥0.3258,所有这些比样本四格表更极 端的情况都应考虑进去,因为这些极端 情况在H0条件下都可能发生,其概率是 支持H0的。

在周边合计数不变的条件下,可 得到多种不同组合的四格表。为方便 起见,选定行合计与列合计均最小所 对应的格子为基础。本例以C格为基础, 其取值的变动范围从0到对应的最小周 边合计数。本例C格可变范围为0—6, 可得到7个四格表及其相应的概率见理
下表。

序号(i) 0 1 2 3 4 5 6

确切概率法计算表(四格表周边合计数不变)

缓解 6

死亡 6

p1 p2 0.5000

∣p1-p2∣ 0.5000

0

11

0.0000

5

7

0.4167

0.3258

1

10

0.0903

4

8

0.3333

0.1515

2

9

0.1818

3

9

0.2500

0.0227

3

8

0.2727

2

10

0.1667

0.1969

4

7

0.3636

1

11

0.0833

0.3712

5

6

0.4545

0

12

0.0000

0.5454

6

5

0.5454

P(i) 0.0092 0.0863
0.0549 0.0046

上表显示|p1-p2|≥0.3258的有序号 为0,5,6的分表,这几个分表与样本四 格表比,属于更极端情况,加上样本四格 表,本例所求累计概率为:
P=P(0)+P(1)+P(5)+P(6)=0.0092+0.0863 +0.0549+0.0046=0.155
P=0.155,按按α=0.05不能拒绝H0, 尚不能认为两种治疗方法对原发性肝癌的 疗效有不同。

注意:如果两组例数相等,则列出 的分表是对称的,可以简化计算,即先 算出一侧与样本四格表情况及比其更极 端情况的分表的概率,再乘以2便为所 求概率。如果是单侧检验,只求与样本 四格表情况相同及比其更极端情况一侧
的概率即可。


更多相关文章:

非常超级学习网 fccjxxw.com

copyright ©right 2010-2021。
非常超级学习网内容来自网络,如有侵犯请联系客服。zhit325@126.com|网站地图