KIỂM ÐỊNH CHI BÌNH PHƯƠNG
Mục tiêu
Sau khi nghiên cứu chủ đề, học viên có khả năng:
Xây dựng được bảng dự trù n × m để mô tả mối liên quan giữa hai biến số định tính
Sử dụng kiểm định χ2 cho bảng dự trù n × m về sự liên quan giữa hai biến số định
tính
Trình bày các giả định về tính hợp lệ cho kiểm định χ2
Sử dụng kiểm định χ2 McNemar để kiểm định sự liên quan giữa hai biến số định tính
trong thiết kế bắt cặp.
1. Giới thiệu
Trình bày số liệu của các biến định tính được mô tả ở chương Thống kê, biến số và
phân phối. Khi có hai biến định tính, số liệu được sắp xếp trong bảng dự trù
(contigency table). Các phạm trù cho một biến số tạo thành hàng và các phạm trù cho
biến số khác tạo thành cột. Cá nhân được đưa vào một ô thích hợp của bảng dự trù tùy
theo giá trị của hai biến số. Bảng dự trù cũng được dùng cho các biến số định lượng
rời rạ hay biến số định lượng liên tục khi các giá trị được phân nhóm.
Kiểm định chi bình phương (χ2 ) được dùng để kiểm định xem có sự liên hệ giữa các
biến số hàng và biến số cột hay không hay nói cách khác, sự phân phối của các cá nhân
trong các phạm trù của một biến số có phụ thuộc vào sự phân phối trong các phạm trù
của biến kia hay không. Khi bảng chỉ có hai hàng và hai cột điều này có nghĩa là so
sánh phân phối của biến số nhị giá (được biểu thị bằng tỉ lệ) ở hai nhóm hay còn gọi
là so sánh hai tỉ lệ.
2. Bảng 2 x 2 (so sánh hai tỉ lệ)
Chúng ta sử dụng lại thí dụ đã nêu trong chương Nguyên tắc kiểm định so sánh hai tỉ
lệ. Trong một thử nghiệm lâm sàng để điều trị ung thư vú đã di căn, bệnh nhânh được
phân nhóm ngẫu nhiên để được điều trị với LPam hay CMF (một phối hợp gồm 3
loại thuốc). Ðáp ứng khối u được định nghĩa là sự teo nhỏ trên một nửa của diện tích
khối u trong thời gian tối thiểu là 2 tuần. Số liệu như sau:
Bảng 11. Ðáp ứng khối u của 184 bệnh nhân ung thư vú với điều trị bằng CMF và LPAM
Ðiều trị
CMF
LPam
Tổng số
49
(52,7%)
18
(19,8%)
67
(36,4%)
Không
44
73
117
Tổng số bệnh
nhân
93
91
184
Ðáp ứng của Có
khối u
Với số liệu trên, chúng ta có thể sử dụng kiểm định ý nghĩa để xem bằng chứng để
kết luận CMF tốt hơn LPam mạnh đến mức độ nào.
Bước đầu tiên trong việc lí giải số liệu bảng dự trù là tính tốn tỉ lệ hay phần trăm
thích hợp. Do đó tỉ lệ đáp ứng là 52,7% trong nhóm điều trị CMF, 19,8% trong nhóm
placebo và 36,4% tồn bộ. Sau đó chúng ta cần quyết định như vậy có đủ chứng cứ để
xem CMF có hiệu quả hơn LPam hay sự khác biệt là chỉ là do tình cờ.
Ðiều này được tiến hành bằng kiểm định chi bình phương (chi square test) nhằm so
sánh số quan sát trong một trong bốn phạm trù trong bảng dự trù với vọng trị nếu
khơng có sự khác biệt về hiệu quả giữa CMF và LPam. Tổng số 67/184 bệnh nhân
đáp ứng và nếu CMF và LPam có hiệu quả bằng nhau, tỉ lệ đáp ứng trong hai nhóm
cũng bằng giá trị trên và chúng ta sẽ có 93 * 67/184 =33,9 người trong nhóm CMF và
91 * 67/184 = 33,1 người trong nhóm LPam đáp ứng với điều trị. Tương tư như vậy
sẽ có 93 * 117/184 = 59,1 người và 91 * 117/184 = 57,9 người khơng đáp ứng. Những
vọng trị này đươc trình bày trong bảng 13.1(b). Chúng cũng tạo tổng số hàng và tổng
số cột tương tự như trị số quan sát. Giá trị chi bình phương có được bằng cách tính
(quan sát vọng trị)2/vọng trị cho mỗi ơ trong bảng dự trù và cộng chúng lại.
(O
2
E) 2
, d . f . 1 độtựdo vớibảng2 x 2
E
Giá trị này được gọi là giá trị χ2 của Pearson. Nếu hiệu số giữa số quan sát được và
vọng trị càng lớn, giá trị χ2 càng lớn và ít có thể sự khác biệt này là do tình cờ. Ðiểm
phần trăm của phân phối χ2 được trình bày trong bảng A5. Giá trị này phụ thuộc vào
độ tự do và trong bảng 2 × 2 độ tự do bằng 1.
Trong thí dụ này
2
(49 33,9) 2 (18 33,1) 2 (44 59,1) 2
33,9
33,1
59,1
6,73 6,89 3,86 3,94 21,4
(73 57,9) 2
57,9
21,4 lớn hơn 10,83, điểm 0,001 của phân phối χ2 một độ tự do. Do đó xác suất của sự
khác biệt quan sát được về tỉ lệ đáp ứng do tình cờ nhỏ hơn 0,001 (0,1%), nếu khơng
có sự khác biệt về hiệu quả giữa CMF và LPam. Do đó có thể kết luận rằng CMF có
hiệu quả tốt hơn.
Bảng 13.1 Kết quả thử nghiệm CMF và LPam trên bệnh nhân ung thư vú.
(a) Số quan sát
Ðiều trị
CMF
LPam
Tổng số
49
(52,7%)
18
(19,8%)
67
(36,4%)
Khơng
44
73
117
Tổng số bệnh
nhân
93
91
184
CMF
LPam
Tổng số
Có
(a) Vọng trị
Ðiều trị
Có
33,9
33,1
67
Không
59,1
57,9
117
93
91
184
Tổng số bệnh
nhân
Công thức χ 2 của MantelHaenzen
Khi trường hợp chỉ có một bảng 2 x 2 giá trị của χMH2 sẽ hơi nhỏ hơn χ2 của Pearson
tuỳ theo cỡ mẫu;
N 1 2
2
MH
N
Công thức χ 2 của Yates để hiệu chỉnh tính liên tục
Giống như kiểm định bình thường, kiểm định chi bình phương đối với bảng 2 × 2 có
thể được cải tiến nhờ hiệu chỉnh tính liên tục, thường được gọi là hiệu chỉnh tính liên
tục của Yates (Yates' continuity correction). Công thức như sau
2
(| O E |
E
1
2
, d. f . 1
cho giá trị χ2 nhỏ hơn, |O E| có nghĩa là giá trị tuyệt đối của OE hay nói cách khác,
giá trị của OE bỏ qua dấu của nó.
Trong thí dụ này giá trị của χ2 là
2
(49 33,9 0,5) 2 (33,1 18 0,5) 2
33,9
33,1
6,29 6,44 3,61 3,68 20,0
(59,1 44 0,5) 2
59,1
(73 57,9 0,5) 2
57,9
So sánh với kiểm định bình thường
Kiểm định bình thường để so sánh hai tỉ lệ và kiểm định chi bình phương cho bảng dự
trù 2 × 2 thực chất là tương đương với nhau và χ2 = z2. Ðiều này đúng với cả khi có
hay không có hiệu chỉnh tính liên tục, với điều kiện là nó cùng hiệu chỉnh hoặc không
cùng hiệu chỉnh. Từ thí dụ trong Bảng 11, z2 với (không hiệu chỉnh tính liên tục) =
4,632= 21,4 giống hệt như giá trị χ2 = 21,4 đã được tính ở trên. Kiểm định bình thường
có ưu điểm là dễ tính khoảng tin cậy hơn cho hiệu số hơn và vì vậy thường được sử
dụng để so sánh hiệu quả điều trị của thử nghiệm lâm sàng hay để ước lượng nguy
cơ quy trách. Kiểm định χ2 dễ áp dụng hơn và có thể ứng dụng để tính khoảng tin cậy
của nguy cơ tương đối (RR) nên thường được sử dụng trong các nghiên cứu dịch tễ
quan sát. Ngoài ra kiểm định χ2 có thể mở rộng để so sánh nhiều tỉ lệ và dùng cho
bảng dự trù lớn hơn và
Lưu ý rằng điểm phần trăm trong Bảng A5 cho kiểm định chi bình phương một độ tự
do tương ứng với điểm phần trăm hai đuôi trong bảng A2 của phân phối bình thường.
(Khái niệm kiểm định một đuôi hay hai đuôi không dùng đối với kiểm định chi bình
phương có độ tự do lớn hơn bởi vì chúng bao gồm việc so sánh nhiều tỉ lệ (multiple
comparison).)
Tính hợp lệ (validity)
Nên luôn luôn sử dụng hiệu chỉnh tính liên tục mặc dù chúng có tác động nhiều nhất
khi vọng trị nhỏ. Khi chúng rất nhỏ kiểm định chi bình phương (và kiểm định bình
thường) không phải là xấp xỉ tốt, ngay cả khi có hiệu chỉnh tính liên tục và khi đó nên
dùng kiểm định chính xác (exact test) cho bảng 2 × 2. Cochran (1954) đề nghị sử dụng
kiểm định chính xác khi tổng số của bảng nhỏ hơn 20 hay khi nó ở giữa 20 và 40 và số
nhỏ nhất trong bốn giá trị vọng trị nhỏ hơn 5. Do đó kiểm định chi bình phương hợp lệ
khi tổng số phải lớn hơn 40 bất kể các giá trị vọng trị hay khi tổng vọng trị ở giữa 20
và 40 với điều kiện tất cả các giá trị vọng trị phải lớn hơn hoặc bằng 5.
Bảng 12. Kí hiệu tổng quát cho bảng dự trù 2 × 2
Ðiều trị
CMF
LPam
Tổng số
Có
a1
a0
m1
Không
b1
b0
m0
Tổng số bệnh
nhân
n1
n0
N
Công thức tính nhanh
Nếu các số trong bảng dự trù được kí hiệu bằng các kí tự như trong bảng 13.2 thì công
thức để tính chi bình phương nhanh hơn cho bảng 2 × 2 như sau:
2
N (a1b0 a 0 b1 ) 2
n1 n0 m1 m0
184 (49 73 44 18) 2
67 117 93 91
21,4
Nếu không có sai số làm tròn, kết quả có được từ công thức tính nhanh hoàn toàn đồng
nhất với công thức tính χ2 kinh điển.
Công thức tính nhanh cho χ2 của Mantel Haenszel là:
2
( N 1) (a1b0 a 0 b1 ) 2
n1 n0 m1 m0
( N 1) (a1 N n1 m1 ) 2
n1 n0 m1 m0
Công thức tính nhanh cho χ2 của Yates để hiệu chỉnh tính liên tục là:
2
N
(| a1b0 a 0 b1 | N / 2) 2
n1 n 0 m1 m0
184 (| 49 73 44 18 | 92) 2
67 117 93 9
20,0
Kết quả này tương tự như như giá trị đã tính ở trên, nếu không xét đến sai số làm tròn.
3. Bảng lớn
Kiểm định chi bình phương có thể được áp dụng cho bảng lớn hơn, nói chung là bảng
r x c, trong đó r kí hiệu số hàng trong bảng và c là số cột.
(O E ) 2
, d . f . (r 1) (c 1)
E
Và không có hiệu chỉnh tính liên tục hay kiểm định chính xác cho bảng dự trù ngoại
trừ bảng 2 × 2. Cochran (1954) đã đề nghị rằng xấp xỉ của kiểm định chi bình phương
2
shplnucúớthn20%scỏcgiỏtrvngtrdi5vkhụngcúgiỏtr vngtr
nonhhnmt.Cúth vtquahnchnybngcỏchkthpcỏchng(haycỏc
ct)cúgiỏtrvngtrthp.
Khụngcúcụngthctớnhnhanhchobngrxc(trnghpcbit2xchayrx2s
cxột phnsau).Phitớnhvngtr chomiụ.S dngcỏclớlunynh trong
trnghpbng2ì 2.Quitcchungtớnhvngtrl:
E
Toồngcuỷacoọt Toồngcuỷahaứng
Toồngsoỏchung
Cnluýrngkimnhchibỡnhphngchhplnucỏpdngchos thc
ttrongcỏcphmtrựkhỏcnhau.Khụngbaogicỏpdngnúchobngchcútl
hayphntrmmthụi.
Bng13.Sosỏnhcỏcngunncchớnhcsdngbigiaỡnhtrong3lngTõyphi
NGUN
NC
LNGA
LNGB
LNGC
TNGS
Sụng
20(40,0%)
32(53,3%)
18(45,0%)
70(46,7%)
Aoh
18(36,0%)
20(33,3%)
12(30,0%)
70(33,3%)
Sui
12(24,0%)
8(13,3%)
10(25,0%)
30(20,0%)
Tngs
50(100,0%)
60(100,0%)
40(100,0%)
150(100,0%)
Bng14.Sosỏnhcỏcngunncchớnhcsdngbigiaỡnhtrong3lngTõyphi(vng
tr)
NGUN
NC
LNGA LNGB LNGC
TNG
S
Sụng
23,3
28,0
18,7
70
Aoh
16,7
20,0
13,3
50
Sui
10,0
12,0
8,0
30
50
60
40
150
Tngs
Thớd
Bng13trỡnhbyktqu cacuciutrasosỏnhngunncchớnhtrong3xó
TõychõuPhi.Trongbngtrỡnhbys vphntrmcỏcgiaỡnhdựng,ncsụng,
ncao,haysui.ThớdtronglngA,40%sdngncsụngch yu,36%nc
aoh,24,0%s dngging.Victớnhtoỏncỏcphntrmlcnthittrongviclớ
giisliucabngdtrự.Núichung,70trong150hdựngncging.Nukhụng
cúskhỏcbitgiacỏclng,ngitacúthchorngtldựngncsụnglging
nhautrongmilng.Doúvngtrcashdựngncsngl
70 × 50/150 = 23,3
70 × 60/150= 28,0
70 × 40/150 = 18,7
Vọng trị có thể được tính bằng cách áp dụng quy tắc chung. Thí dụ vọng trị của hộ
dùng nước sống trong làng B là:
tổngcủahàng(sông) tổngcủacột(B)
tổngsốchung
70 60
150
28,0
Vọng trị của tồn bộ bảng được trình bày trong Bảng 14.
2
(O E ) 2
E
( 2023,3 )2 / 23,3 ( 3228,0 )2 / 28,0 ( 1818,7 )2 / 18,7
( 1816 ,7 )2 / 16,7 ( 20 20,0 )2 / 20,0 ( 1212 ,3 )2 / 13,3
( 1210 ,0 )2 / 10,0 ( 812 ,0 )2 / 12,0 ( 108,0 )2 / 8,0
3,53
df
(r 1) (c 1) 2 2 4
Bởi vì 3,53 nhỏ hơn 5,39 (điểm 25% của χ2 4 độ tự do), có thể kết luận rằng khơng có
sự khác biệt ý nghĩa giữa các làng về phần trăm số hộ dùng các nguồn nước khá nhau
(P>0,25)
4. Cơng thức ngắn gọn cho bảng 2 x c
Kiểm định chi bình phương được áp dụng cho bảng 2 x c, đó là bảng chỉ có 2 hàng
trình bày sự khác biệt giữa c tỉ lệ thể hiện bởi c cột trong bảng. Cơng thức cơ đọng
hơn trong trường hợp này
2
N 2 [ ( r 2 / n) R 2 / N ]
, d. f . c 1
R( N R)
Bảng 15. Tỉ lệ hiện nhiễm Schistosoma mansoni theo nghề nghiệp
Ngư dân
Nơng dân
Nghề nghiệp
Bn bán
thợ thủ cơng
tổng số
22(62,9%)
21 (48,8%)
17 (29,3%)
15 (51,7%)
75 (45,5%)
Âm tính
13
22
41
14
90
Tổng số
35
43
58
29
165
S. Manosi
Dương tính
Trong đó n thể hiện tổng số cho cột và r là giá trị của ơ trên trong cột đó. r 2/n được tính
cho mỗi cột trong bảng và tổng của chúng là ( Σr2/n). N là tổng số tồn bộ và R là tổng
số cả hàng trên. (đối với bảng có 2 cột chứ khơng phải hai hàng, từ 'cột' và 'hàng' sẽ
đổi chỗ cho nhau trong phần trình bày trên.)
Thí dụ
Bảng 15 trình bày kết quả cuộc điều tra ở một vùng nơng thơn ở Trung Phi để so sánh
tỉ lệ hiện nhiễm Schistosoma mansoni trong các nghề nghiệp khác nhau. Áp dụng cơng
thức ngắn gọn cho χ2:
(r 2 /n)
22 2 / 35 212 / 43 17 2 / 58 15 2 / 29
13,83 10 ,26 4 ,98 7 ,76 36 ,83
R2 / N
75 2 / 165 34,09
1652( 36 ,8334 ,09 )
2
11,05 d . f . 3
75 90
Ðiều này có ý nghĩa ở mức 2,5%, gợi ý rằng có thể có sự liên hệ giữa nguy cơ nhiễm
bệnh và nghề nghiệp. Suất mắc toàn bộ của S. mansoni cao ở người ngư dân, thấp ở
người buôn bán so với nông dân và thợ thủ công.
5. Bài tập
Ðể xem việc ăn thịt có liên quan hay độc lập đến viêm ruột hoại tử hay không, một
nhà khoa học đã tiến hành một nghiên cứu bệnh chứng thu được số liệu như sau:
Table 10. Sự liên hệ giữa ăn thịt trong thời gian gần đầu và viêm ruột hoại tử ở Papua New
Guinea (OR=11,6)
Ăn thịt trong thời
gian gần đây
Không ăn thịt trong
thời gian gần đây
Tổng số
Nhóm bệnh
50
11
61
Nhóm chứng
16
41
57
Tổng số
66
52
118
Ta thấy người ăn thịt có nguy cơ bị viêm ruột hoại tử tăng gấp 11 lần so với người
không ăn thit. Tuy nhiên để đảm bảo rằng sự gia tăng nguy cơ này không phải do sai
số ngẫu nhiên ta tiến hành tính giá trị χ2 và tính mức ý nghĩa của nó.
Bài giải:
1. Giả thuyết Ho: ăn thịt không có liên quan đến viêm ruột hoại tử hay
Nguy cơ viêm ruột hoại tử ở nhóm ăn thịt bằng nguy cơ viêm ruột hoại
tử ở nhóm không ăn thịt
2. Chọn kiểm định χ2 với 1 độ tự do, giá trị tới hạn là 3,84 với mức ý nghĩa 5%
3. Giá trị χ2 được tính như sau:
Vì giá trị χ2 = 34,72 lớn hơn giá trị tới hạn 3,84 tương ứng với mức ý nghĩa
0,05 nên chúng ta có thể bác bỏ giả thuyết Ho. Tuy niên do để lượng hoá sức
mạnh của sự liên hệ, người ta tính giá trị p (pvalue) . Tra bảng χ2, ta tìm được
p tương ứng với giá trị 34,72 <0,001. Vì vậy ta có thể báo cáo: bác bỏ giả
thuyết Ho với p<0,0001.
2. Một cuộc điều tra việc sử dụng mùng được tiến hành trong một mẫu ngẫu nhiên
gồm các đứa trẻ dưới 7 tuổi ở khu vực Tây Nguyên. Ðiều tra ghi nhận dân tộc của
đứa trẻ và đứa trẻ thường ngủ mùng có tẩm permethrin, mùng không tẩm permethrin
hay không ngủ mùng, với kết quả như sau:
Nhóm dân tộc
Không mùng
Mùng không tẩm
Mùng tẩm
permethrin
Êđê
3
88
165
Mơ nông
43
73
76
Stiêng
29
16
26
a. Mục tiêu của nghiên cứu là xem xét sự liên hệ giữa dân tộc và việc sử dụng ùng.
Ðể khảo sát các số liệu này, bước đầu tiên cần thực hiện là gì?
b. Các biến số nào là biến số đáp ứng, biến số nào là biến số giải thích? Nên sử dụng
phần trăm theo hàng hay phần trăm theo cột? Tính các số phần trăm này. Các số phần
trăm cho thấy điều gì?
c. Bạn có nghĩ rằng sự khác biệt về sử dụng mùng trong các dân tộc khác nhau này là
do cơ hội hay không? Dùng phương pháp thống kê nào để đánh giá điều này?
d. Tiến hành kiểm định ý nghĩa để xem có bằng chứng về mối liên hệ hay không. Giá
trị p là bao nhiêu?
e. Hãy kiểm tra tính giá trị của kiểm định χ2 mà bạn đã thực hiện.
f. Chúng ta có thể kết luận được điều gì?
g. Chúng ta có thể nói thêm gì về sự các biệt giữa các nhóm dân tộc? Sự khác biệt đó ở
đâu?