Tải bản đầy đủ (.pdf) (8 trang)

Bài giảng Thống kê y học - Bài 15: Kiểm định chi bình phương

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (377.38 KB, 8 trang )

KIỂM ÐỊNH CHI BÌNH PHƯƠNG
Mục tiêu
Sau khi nghiên cứu chủ đề, học viên có khả năng:
­ Xây dựng được bảng dự trù n ×  m để mô tả mối liên quan giữa hai biến số định tính
­ Sử dụng kiểm định χ2  cho   bảng dự trù n ×  m  về sự liên quan giữa hai biến số định 
tính
­ Trình bày các giả định về tính hợp lệ cho kiểm định χ2
­ Sử dụng kiểm định χ2  McNemar để kiểm định sự liên quan giữa hai biến số định tính 
trong thiết kế bắt cặp.
1. Giới thiệu
Trình bày số liệu của các biến định tính được mô tả  ở  chương Thống kê, biến số  và  
phân   phối.   Khi   có   hai   biến   định   tính,   số   liệu   được   sắp   xếp   trong   bảng   dự   trù 
(contigency table). Các phạm trù cho một biến số tạo thành hàng và các phạm trù cho  
biến số khác tạo thành cột. Cá nhân được đưa vào một ô thích hợp của bảng dự trù tùy 
theo giá trị  của hai biến số. Bảng dự trù cũng được dùng cho các biến số  định lượng  
rời rạ hay biến số định lượng liên tục khi các giá trị được phân nhóm.
Kiểm định chi bình phương (χ2 ) được dùng để kiểm định xem có sự liên hệ giữa các 
biến số hàng và biến số cột hay không hay nói cách khác, sự phân phối của các cá nhân  
trong các phạm trù của một biến số có phụ thuộc vào sự phân phối trong các phạm trù 
của biến kia hay không. Khi bảng chỉ  có hai hàng và hai cột điều này có nghĩa là so  
sánh phân phối của biến số nhị giá (được biểu thị bằng tỉ lệ) ở hai  nhóm hay  còn gọi  
là so sánh hai tỉ lệ.
2. Bảng 2 x 2 (so sánh hai tỉ lệ)
Chúng ta sử dụng lại thí dụ đã nêu trong chương Nguyên tắc kiểm định ­ so sánh hai tỉ 
lệ. Trong một thử nghiệm lâm sàng để điều trị ung thư vú đã di căn, bệnh nhânh được  
phân nhóm ngẫu nhiên để  được điều trị  với L­Pam hay CMF (một phối hợp gồm 3  
loại thuốc). Ðáp ứng khối u được định nghĩa là sự  teo nhỏ  trên một nửa của diện tích 
khối u trong thời gian tối thiểu là 2 tuần. Số liệu như sau:
Bảng 11. Ðáp ứng khối u của 184 bệnh nhân ung thư vú với điều trị bằng CMF và L­PAM

Ðiều trị



CMF

L­Pam

Tổng số

49
(52,7%)

18
(19,8%)

67
(36,4%)

Không

44

73

117

Tổng   số   bệnh 
nhân

93

91


184

Ðáp   ứng   của  Có
khối u

Với số  liệu trên, chúng ta có thể  sử  dụng kiểm định ý nghĩa để  xem bằng chứng để 
kết luận CMF tốt hơn L­Pam mạnh đến mức độ nào.


Bước đầu tiên trong việc lí giải số  liệu bảng dự  trù là tính tốn tỉ  lệ  hay phần trăm 
thích hợp. Do đó tỉ  lệ  đáp ứng là 52,7% trong nhóm điều trị  CMF, 19,8% trong nhóm  
placebo và 36,4% tồn bộ. Sau đó chúng ta cần quyết định như vậy có đủ chứng cứ để 
xem CMF có hiệu quả hơn L­Pam hay sự khác biệt là chỉ là do tình cờ.
Ðiều này được tiến hành bằng kiểm định chi bình phương (chi square test) nhằm so  
sánh số  quan sát trong một trong bốn phạm trù trong bảng dự  trù với vọng trị  nếu  
khơng có sự  khác biệt về  hiệu quả  giữa CMF và L­Pam. Tổng số  67/184 bệnh nhân 
đáp  ứng và nếu CMF và L­Pam có hiệu quả  bằng nhau, tỉ lệ đáp ứng trong hai nhóm  
cũng bằng giá  trị trên và chúng ta sẽ có 93 * 67/184 =33,9 người trong nhóm CMF và  
91 * 67/184 = 33,1 người trong nhóm L­Pam đáp  ứng với điều trị. Tương tư như vậy  
sẽ có 93 * 117/184 = 59,1 người và 91 * 117/184  = 57,9 người khơng đáp ứng. Những  
vọng trị này đươc trình bày trong bảng 13.1(b). Chúng cũng tạo tổng số hàng và tổng  
số  cột tương tự  như  trị  số  quan sát. Giá trị  chi bình phương có được bằng cách tính  
(quan sát ­ vọng trị)2/vọng trị cho mỗi ơ trong bảng dự trù và cộng chúng lại.
(O

2

E) 2
, d . f . 1 độtựdo vớibảng2 x 2

E

Giá trị  này được gọi là giá trị  χ2 của Pearson. Nếu hiệu số giữa số quan sát được và 
vọng trị càng lớn, giá trị  χ2 càng lớn và ít có thể sự khác biệt này là do tình cờ. Ðiểm 
phần trăm của phân phối χ2 được trình bày trong bảng A5. Giá trị  này phụ  thuộc vào 
độ tự do và trong bảng 2 ×  2 độ tự do bằng 1.
Trong thí dụ này
2

(49 33,9) 2 (18 33,1) 2 (44 59,1) 2
33,9
33,1
59,1
6,73 6,89 3,86 3,94 21,4

(73 57,9) 2
57,9

21,4 lớn hơn 10,83, điểm 0,001 của phân phối χ2 một độ tự do. Do đó xác suất của sự 
khác biệt quan sát được về tỉ lệ đáp ứng do tình cờ nhỏ hơn 0,001 (0,1%), nếu khơng 
có sự khác biệt về hiệu quả giữa CMF và L­Pam. Do đó có thể kết luận rằng CMF có  
hiệu quả tốt hơn.
Bảng 13.1 Kết quả thử nghiệm CMF và L­Pam trên bệnh nhân ung thư vú.

(a) Số quan sát

Ðiều trị

CMF


L­Pam

Tổng số

49
(52,7%)

18
(19,8%)

67
(36,4%)

Khơng

44

73

117

Tổng số  bệnh 
nhân

93

91

184


CMF

L­Pam

Tổng số



(a) Vọng trị

Ðiều trị




33,9

33,1

67

Không

59,1

57,9

117

93


91

184

Tổng số  bệnh 
nhân

Công thức χ 2 của Mantel­Haenzen 
Khi trường hợp chỉ có một bảng 2 x 2 giá trị  của  χMH2 sẽ hơi nhỏ hơn χ2 của Pearson 
tuỳ theo cỡ mẫu;
N 1 2
2
MH
N
Công thức χ 2 của Yates để hiệu chỉnh tính liên tục
Giống như kiểm định bình thường, kiểm định chi bình phương đối với bảng 2  ×  2 có 
thể được cải tiến nhờ hiệu chỉnh tính liên tục, thường được gọi là hiệu chỉnh tính liên 
tục của Yates (Yates' continuity correction). Công thức như sau
2

(| O E |
E

1
2

, d. f . 1

cho giá trị  χ2 nhỏ  hơn, |O ­ E| có nghĩa là giá trị  tuyệt đối của O­E hay nói cách khác,  

giá trị của O­E bỏ qua dấu của nó.
Trong thí dụ này giá trị của χ2 là
2

(49 33,9 0,5) 2 (33,1 18 0,5) 2
33,9
33,1
6,29 6,44 3,61 3,68 20,0

(59,1 44 0,5) 2
59,1

(73 57,9 0,5) 2
57,9

So sánh với kiểm định bình thường
Kiểm định bình thường để so sánh hai tỉ lệ và kiểm định chi bình phương cho bảng dự 
trù 2 ×  2 thực chất là tương đương với nhau và χ2 = z2. Ðiều này đúng với cả khi có 
hay không có hiệu chỉnh tính liên tục, với điều kiện là nó cùng hiệu chỉnh hoặc không 
cùng hiệu chỉnh. Từ  thí dụ  trong Bảng 11, z2  với (không hiệu chỉnh tính liên tục) = 
4,632= 21,4 giống hệt như giá trị χ2 = 21,4 đã được tính ở trên. Kiểm định bình thường 
có ưu điểm là dễ tính khoảng tin cậy hơn cho hiệu số hơn và vì vậy thường được sử 
dụng để  so sánh hiệu quả  điều trị  của thử  nghiệm lâm sàng hay để   ước lượng nguy 
cơ quy trách. Kiểm định χ2 dễ áp dụng hơn và có thể ứng dụng để tính khoảng tin cậy 
của nguy cơ  tương đối (RR) nên thường được sử  dụng trong các nghiên cứu dịch tễ 
quan sát. Ngoài ra kiểm định   χ2 có thể  mở  rộng để  so sánh nhiều tỉ  lệ  và dùng cho 
bảng dự trù lớn hơn và
Lưu ý rằng điểm phần trăm trong Bảng A5 cho kiểm định chi bình phương một độ tự 
do tương ứng với điểm phần trăm hai đuôi trong bảng A2 của phân phối bình thường. 
(Khái niệm kiểm định một đuôi hay hai đuôi không dùng đối với kiểm định chi bình 

phương có độ  tự  do lớn hơn bởi vì chúng bao gồm việc so sánh nhiều tỉ  lệ  (multiple 
comparison).)


Tính hợp lệ (validity)
Nên luôn luôn sử  dụng hiệu chỉnh tính liên tục mặc dù chúng có tác động nhiều nhất 
khi vọng trị  nhỏ. Khi chúng rất nhỏ  kiểm định chi bình phương (và kiểm định bình 
thường) không phải là xấp xỉ tốt, ngay cả khi có hiệu chỉnh tính liên tục và khi đó nên 
dùng kiểm định chính xác (exact test) cho bảng 2 ×  2. Cochran (1954) đề nghị sử dụng 
kiểm định chính xác khi tổng số của bảng nhỏ hơn 20 hay khi nó ở giữa 20 và 40 và số 
nhỏ nhất trong bốn giá trị vọng trị nhỏ hơn 5. Do đó kiểm định chi bình phương hợp lệ 
khi tổng số phải lớn hơn 40 bất kể các giá trị vọng trị hay khi tổng vọng trị ở giữa 20  
và 40 với điều kiện tất cả các giá trị vọng trị phải lớn hơn hoặc bằng 5.
Bảng 12. Kí hiệu tổng quát cho bảng dự trù 2 ×  2

Ðiều trị

CMF

L­Pam

Tổng số



a1

a0

m1


Không

b1

b0

m0

Tổng số  bệnh 
nhân

n1

n0

N

Công thức tính nhanh
Nếu các số trong bảng dự trù được kí hiệu bằng các kí tự như trong bảng 13.2 thì công 
thức để tính chi bình phương nhanh hơn cho bảng 2 ×  2 như sau:
2

N (a1b0 a 0 b1 ) 2
n1 n0 m1 m0

184 (49 73 44 18) 2
67 117 93 91

21,4


Nếu không có sai số làm tròn, kết quả có được từ công thức tính nhanh hoàn toàn đồng  
nhất với công thức tính χ2  kinh điển.
Công thức tính nhanh cho χ2  của Mantel Haenszel là:
2

( N 1) (a1b0 a 0 b1 ) 2
n1 n0 m1 m0

( N 1) (a1 N n1 m1 ) 2
n1 n0 m1 m0

Công thức tính nhanh cho χ2  của Yates để hiệu chỉnh tính liên tục là: 
2

N

(| a1b0 a 0 b1 | N / 2) 2
n1 n 0 m1 m0

184 (| 49 73 44 18 | 92) 2
67 117 93 9

20,0

Kết quả này tương tự như như giá trị đã tính ở trên, nếu không xét đến sai số làm tròn.
3. Bảng lớn
Kiểm định chi bình phương có thể được áp dụng cho bảng lớn hơn, nói chung là bảng 
r x c, trong đó r kí hiệu số hàng trong bảng và c là số cột.
(O E ) 2

, d . f . (r 1) (c 1)
E
Và không có hiệu chỉnh tính liên tục hay kiểm định chính xác cho bảng dự  trù ngoại 
trừ bảng 2 ×  2. Cochran (1954) đã đề nghị rằng xấp xỉ của kiểm định chi bình phương 
2


shplnucúớthn20%scỏcgiỏtrvngtrdi5vkhụngcúgiỏtr vngtr
nonhhnmt.Cúth vtquahnchnybngcỏchkthpcỏchng(haycỏc
ct)cúgiỏtrvngtrthp.
Khụngcúcụngthctớnhnhanhchobngrxc(trnghpcbit2xchayrx2s
cxột phnsau).Phitớnhvngtr chomiụ.S dngcỏclớlunynh trong
trnghpbng2ì 2.Quitcchungtớnhvngtrl:

E

Toồngcuỷacoọt Toồngcuỷahaứng
Toồngsoỏchung

Cnluýrngkimnhchibỡnhphngchhplnucỏpdngchos thc
ttrongcỏcphmtrựkhỏcnhau.Khụngbaogicỏpdngnúchobngchcútl
hayphntrmmthụi.
Bng13.Sosỏnhcỏcngunncchớnhcsdngbigiaỡnhtrong3lngTõyphi

NGUN
NC

LNGA

LNGB


LNGC

TNGS

Sụng

20(40,0%)

32(53,3%)

18(45,0%)

70(46,7%)

Aoh

18(36,0%)

20(33,3%)

12(30,0%)

70(33,3%)

Sui

12(24,0%)

8(13,3%)


10(25,0%)

30(20,0%)

Tngs

50(100,0%)

60(100,0%)

40(100,0%)

150(100,0%)

Bng14.Sosỏnhcỏcngunncchớnhcsdngbigiaỡnhtrong3lngTõyphi(vng
tr)

NGUN
NC

LNGA LNGB LNGC

TNG
S

Sụng

23,3


28,0

18,7

70

Aoh

16,7

20,0

13,3

50

Sui

10,0

12,0

8,0

30

50

60


40

150

Tngs

Thớd
Bng13trỡnhbyktqu cacuciutrasosỏnhngunncchớnhtrong3xó
TõychõuPhi.Trongbngtrỡnhbys vphntrmcỏcgiaỡnhdựng,ncsụng,
ncao,haysui.ThớdtronglngA,40%sdngncsụngch yu,36%nc
aoh,24,0%s dngging.Victớnhtoỏncỏcphntrmlcnthittrongviclớ
giisliucabngdtrự.Núichung,70trong150hdựngncging.Nukhụng
cúskhỏcbitgiacỏclng,ngitacúthchorngtldựngncsụnglging
nhautrongmilng.Doúvngtrcashdựngncsngl


70 ×  50/150 = 23,3 

70 ×  60/150= 28,0 

70 ×  40/150 = 18,7

Vọng trị  có thể  được tính bằng cách áp dụng quy tắc chung. Thí dụ  vọng trị  của hộ 
dùng nước sống trong làng B là:

tổngcủahàng(sông) tổngcủacột(B)
tổngsốchung

70 60
150


28,0

Vọng trị của tồn bộ bảng được trình bày trong Bảng 14.
2

(O E ) 2
E
( 20­23,3 )2 / 23,3   ( 32­28,0 )2 / 28,0    ( 18­18,7 )2 / 18,7    
( 18­16 ,7 )2 / 16,7    ( 20­ 20,0 )2 / 20,0    ( 12­12 ,3 )2 / 13,3   
( 12­10 ,0 )2 / 10,0    ( 8­12 ,0 )2 / 12,0    ( 10­8,0 )2 / 8,0 
3,53

df

(r 1) (c 1) 2 2 4

Bởi vì 3,53 nhỏ hơn 5,39 (điểm 25% của χ2 4 độ tự do), có thể kết luận rằng khơng có 
sự khác biệt ý nghĩa giữa các làng về phần trăm số hộ dùng các nguồn nước khá nhau 
(P>0,25)
4. Cơng thức ngắn gọn cho bảng 2 x c
Kiểm định chi bình phương được áp dụng cho bảng 2 x c, đó là bảng chỉ  có 2 hàng  
trình bày sự  khác biệt giữa c tỉ  lệ  thể  hiện bởi c cột trong bảng. Cơng thức cơ đọng 
hơn trong trường hợp này
2

N 2 [ ( r 2 / n) R 2 / N ]
, d. f . c 1
R( N R)


Bảng 15. Tỉ lệ hiện nhiễm Schistosoma mansoni theo nghề nghiệp

 
Ngư dân

 
Nơng dân

Nghề nghiệp
Bn bán

thợ thủ cơng

tổng số

22(62,9%)

21 (48,8%)

 17 (29,3%)

15 (51,7%)

75 (45,5%)

Âm tính

13

22


41

14

90

Tổng số

35

43

58

29

165

S. Manosi
Dương tính

Trong đó n thể hiện tổng số cho cột và r là giá trị của ơ trên trong cột đó. r 2/n được tính 
cho mỗi cột trong bảng và tổng của chúng là ( Σr2/n). N là tổng số tồn bộ và R là tổng 
số cả hàng trên. (đối với bảng có 2 cột chứ  khơng phải hai hàng, từ  'cột' và 'hàng' sẽ 
đổi chỗ cho nhau trong phần trình bày trên.)
Thí dụ
Bảng 15 trình bày kết quả cuộc điều tra ở một vùng nơng thơn ở Trung Phi để so sánh 
tỉ lệ hiện nhiễm Schistosoma mansoni trong các nghề nghiệp khác nhau. Áp dụng cơng  
thức ngắn gọn cho χ2:



 (r 2 /n)

  22 2 / 35    212 / 43   17 2 / 58   15 2 / 29  
 13,83   10 ,26     4 ,98    7 ,76     36 ,83

R2 / N

75 2 / 165 34,09
1652( 36 ,83­34 ,09 )
2
11,05 d . f . 3
75 90
Ðiều này có ý nghĩa ở mức 2,5%, gợi ý rằng có thể có sự liên hệ giữa nguy cơ nhiễm  
bệnh và nghề nghiệp. Suất mắc toàn bộ  của S. mansoni cao ở người ngư dân, thấp ở 
người buôn bán so với nông dân và thợ thủ công.

5. Bài tập
Ðể  xem việc ăn thịt có liên quan hay độc lập đến viêm ruột hoại tử  hay không, một  
nhà khoa học đã tiến hành một nghiên cứu bệnh chứng thu được số liệu như sau:
Table 10. Sự liên hệ giữa ăn thịt trong thời gian gần đầu và viêm ruột hoại tử ở Papua New 
Guinea (OR=11,6)

Ăn thịt trong thời 
gian gần đây

Không ăn thịt trong 
thời gian gần đây


Tổng số

Nhóm bệnh

50

11

61

Nhóm chứng

16

41

57

Tổng số

66

52

118

Ta thấy người ăn thịt có nguy cơ  bị  viêm ruột hoại tử  tăng gấp 11 lần so với người 
không ăn thit. Tuy nhiên để  đảm bảo rằng sự gia tăng nguy cơ  này không phải do sai  
số ngẫu nhiên ta tiến hành tính giá trị χ2 và tính mức ý nghĩa của nó.
Bài giải:

1. Giả thuyết Ho: ăn thịt không có liên quan đến viêm ruột hoại tử hay
Nguy cơ viêm ruột hoại tử ở nhóm ăn thịt bằng nguy cơ viêm ruột hoại 
tử ở nhóm không ăn thịt
2. Chọn kiểm định χ2  với 1 độ tự do, giá trị tới hạn là 3,84 với mức ý nghĩa 5%
3. Giá trị χ2 được tính như sau:
Vì giá trị  χ2  = 34,72 lớn hơn giá trị  tới hạn 3,84 tương  ứng với mức ý nghĩa 
0,05 nên chúng ta có thể  bác bỏ  giả  thuyết Ho. Tuy niên do để  lượng hoá sức 
mạnh của sự liên hệ, người ta tính giá trị p (p­value) . Tra bảng χ2, ta tìm được 
p tương  ứng với giá trị  34,72 <0,001. Vì vậy ta có thể  báo cáo: bác bỏ  giả 
thuyết Ho với p<0,0001.
2. Một cuộc điều tra việc sử  dụng mùng được tiến hành trong một mẫu ngẫu nhiên  
gồm các đứa trẻ  dưới 7 tuổi  ở  khu vực Tây Nguyên. Ðiều tra ghi nhận dân tộc của  
đứa trẻ  và đứa trẻ  thường ngủ  mùng có tẩm permethrin, mùng không tẩm permethrin 
hay không ngủ mùng, với kết quả như sau:
Nhóm dân tộc

Không mùng

Mùng không tẩm

Mùng tẩm 
permethrin


Êđê

3

88


165

Mơ nông

43

73

76

Stiêng

29

16

26

a. Mục tiêu của nghiên cứu là xem xét sự  liên hệ  giữa  dân tộc và việc sử  dụng ùng.  
Ðể khảo sát các số liệu này, bước đầu tiên cần thực hiện là gì?
b. Các biến số nào là biến số đáp ứng, biến số nào là biến số giải thích? Nên sử dụng  
phần trăm theo hàng hay phần trăm theo cột? Tính các số phần trăm này. Các số phần 
trăm cho thấy điều gì?
c. Bạn có nghĩ rằng sự khác biệt về sử dụng mùng trong các dân tộc khác nhau này là  
do cơ hội hay không? Dùng phương pháp thống kê nào để đánh giá điều này?
d. Tiến hành kiểm định ý nghĩa để xem có bằng chứng về mối liên hệ hay không. Giá 
trị p là bao nhiêu?
e. Hãy kiểm tra tính giá trị của kiểm định χ2 mà bạn đã thực hiện.
f. Chúng ta có thể kết luận được điều gì?
g. Chúng ta có thể nói thêm gì về sự các biệt giữa các nhóm dân tộc? Sự khác biệt đó ở 

đâu?



×