Tải bản đầy đủ (.pdf) (9 trang)

Bài giảng Thống kê y học - Bài 10: Sự biến thiên của trung bình - Kiểm định T-TEST bắt cặp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (376.19 KB, 9 trang )

SỰ BIẾN THIÊN CỦA TRUNG BÌNH ­ KIỂM ÐỊNH T­TEST BẮT CẶP
Mục tiêu
Sau khi nghiên cứu chủ đề học viên có khả năng:
­ Nhận thức được sự biến thiên của trung bình mẫu mẫu
­ Trình bày được các tính chất của phân phối bình thường và so sánh phân phối bình  
thường với phân phối t
­ Trình bày công thức  ước lượng khoảng tin cậy của  trung bình theo phương pháp  z 
và phương pháp t
­ Trình bày được công thức kiểm định một trung bình theo phép kiểm z và phép kiểm t.
­ Trình bày khái niệm bắt cặp trong nghiên cứu và thực hiện phép kiểm t bắt cặp 
1. Giới thiệu
Trong hai bài qua,chúng ta đã nghiên cứu phương pháp suy luận thống kê về  tỉ lệ dựa  
trên số liệu thu thập từ các mẫu ngẫu nhiên. Phương pháp thống kê cho tỉ lệ thích hợp 
cho phân tích biến số  nhị  giá. Chúng cũng có thể  được sử  dụng cho các biến số  kết  
quả là định lượng bằng cách xác định một ngưỡng và tính tỉ lệ đối tượng có giá trị lớn  
hơn (hay nhỏ hơn) giá trị ngưỡng đó. Mặc dù sử dụng phương pháp này là hợp lệ, nó  
không sử dụng được đầy đủ  các thông tin có được về  sự phân phối của các giá trị  và  
hơn nữa việc đặt ra ngưỡng có thể là tùy tiện.
Chúng ta đã biết phân phối của số liệu định lượng có thể được tóm tắt bằng cách tính  
toán trung bình và độ lệch chuẩn. Hai con số này cho  thông tin về tỉ lệ các đối tượng  
có giá trị lớn hơn (hay nhỏ hơn) giá trị  ngưỡng. Trong bài này và bài kế  tiếp chúng ta 
sẽ thảo luận phương pháp rút ra các kết luận về trung bình của biến số định tính.
Trong phần này chúng ta sẽ xem xét một tình huống đơn giản nhất trong đó một mẫu  
ngẫu nhiên đơn   được rút ra từ  một dân số  xác định và chúng ta muốn kết luận về 
trung bình thực sự  của dân số  dựa trên số  liệu của mẫu. Ðặc biệt chúng ta sẽ  quan 
tâm đến:
1. Gắn khoảng tin cậy cho trung bình của mẫu
2. Kiểm định xem trung bình thực sự có bằng với một giá trị cho trước hay không
3. Áp dụng những phương pháp này cho số liệu bắt cặp
2. Kí hiệu
Chúng ta kí hiệu trung bình và độ lệch chuẩn của biến số x trong dân số đích được kí  


hiệu bằng µ và σ.  Ðối với một dân số đích xác định thì trung bình  µ và độ lệch chuẩn 
σ của dân số là không đổi.
Nếu chúng ta nghiên cứu n đối tượng được chọn ngẫu nhiên trong dân số  đó và tính  
trung bình  x và độ  lệch chuẩn s của mẫu nghiên cứu này. Nếu chúng ta tiến hành 
chọn nhiều mẫu khác nhau, chúng ta sẽ ghi nhận được các giá trị  trung bình  x và độ 
lệch chuẩn s khác nhau.
Dân số

Mẫu


Trung bình

µ

x

Ðộ lệch chuẩn

σ

s

3. Biến thiên mẫu


Chúng ta có dân số  đích gồm 250 người có phân phối của huyết áp tâm trương như 
trong hình a với trung bình µ= 78,2 mmgHg và độ lệch chuẩn σ=9,4mmHg.

Tần suất


(a) Phân phối của huyết áp tâm trương trong dân số gồm 250 người { =78,2 
mmgHg,  =9,4mmHg}
28
24
20
16
12
8
4
0
100

70

50

Huye át  áp  tâm  trư ơ ng  (mmHg )

Tàn  suất

(b) Phân phối lấy mãu cho 30 trung bình mẫu , cỡ mẫu = 10 {trung bình (trung 
bình mẫu)=78,23 mmHg, s.d.(trung bình mẫu)=3,01 mmgHg, s.e. (lí 
thuyết)=9,4/=2,97}
10
8
6
4
2
0

100

70

50

Huyết  áp  tâm  trư ơ ng  (mmHg )

tần suất

(c) Phân phối lấy mẫu cho 30 trung bình mẫu, cỡ mẫu = 20 { =78,2 =trung bình 
mẫu)=78,14 mmHg, s.d.(trung bình mẫu)=2,07 mmgHg, s.e. (lý 
thuyết)=9,4/=2,10}
12
10
8
6
4
2
0
100

70

50

Huyết  áp  tâm  trư ơ ng  (m mHg )


Mtchngtrỡnhmỏytớnhcsdngrỳtngunhiờnramilnsliuhuyt

ỏptõmtrngca10ngivtớnhtrungbỡnhmuxcahuytỏptõmtrng.Lp
li30mu(vicmul10)chỳngtacúphõnphica xcbiudintrờnhỡnh
b.Chngtrỡnhnylicsdngtớnhxca30muvicmul20.Phõn
phica30xnycbiudintrờnhỡnhc.
Tphõnphinychỳngtacúnhnxột:
1.Giỏtrxvsthayitmunysangmukhỏc
2.Giỏtrxphõnbixngchungquanhgiỏtrtrungbỡnhdõnsà.
3.Giỏtr xtptrungchungquanhgiỏtr à.Núicỏchkhỏcgiỏtr gnàs xuthin
nhiuhncỏcgiỏtrxaà.
Sphõnphicax(nhtronghỡnhbvc)cgilphõnphimucatrungbỡnh.
é rngcaphõnphinúilờntớnhbinthiờnca xchungquanhgiỏtr à.Cúth
chngminhbngtoỏnrng lchchuncaxbng lchchundõns chia
chocncac mu.é lchchunca xcũncgilsais chunca xv
ckớhiulS.E.cax
S .E. cuỷax

/ n

Vittheongụnngcatoỏnhchỡnhthc
X~N(à,2)=>X~N(à,)
Nờnluýrngthhinsbinthiờncagiỏtrcatngcỏthtrongdõns,trong
khiúsaischun/nolngsbinthiờncatrungbỡnhmux.
5. c lng khong tin cy ca mt trung bỡnh
Chỳngtacúthsdngtớnhchtphõnphitimcnbỡnhthngcatrungbỡnhmu
xktlunvtrungbỡnhcadõns à.Chỳngtabitrng95%cỏctrnghp x
nmcỏchàkhụngquỏ1,96lchchuncax,vỡvytrong95%cỏctrnghpà
nmtrongkhongx 1,96xS.E.Khonggiỏtr ny(x 1,96xS.E)cgil
khongtincy95%.Tngtnhvykhongtincy99%lx 2,58xS.E.
Tinhnhochemoglobinca25ph n cchnmtcỏchngunhiờntrong
dõnsớchtacútrungbỡnhvlchchuncabinshemoglobinl11,50v0,84.

Tớnhkhongtincy95%catrungbỡnhhemoglobindõnsớch.
Trungbỡnhhemoglobinmu=11,50
ésailchtiacatrungbỡnhmusovitrungbỡnhdõns
1,96

ẹoọleọchchuaồn

1,96

0,84

0,33
n
25
Nh vytrungbỡnhca hemoglobin dõns ớch(chớnhxỏchn,khongtincy
95%catrungbỡnhcahemoglobindõnsớch)snmtrongkhong:
(11,500,33;11,50+0,33)=(11,17;11,83)


6. Sử dụng phân phối t
Chúng ta biết khoảng tin cậy 95% của trung bình  được tính bằng  x ±  1,96 x σ/√n. 
Tuy nhiên trên thực tế  chúng ta không biết được  σ mà chỉ  biết được s và dùng s để 
ước lượng cho σ. Nhưng khi đó chúng ta bị mắc thêm một sai số khác nữa, vì vậy trên  
thực tế  khoảng x ± 1,96 x s/√n chứa  ( trong ít hơn 95% các trường hợp và điều này  
có nghĩa là để  có khoảng tin cậy 95% cần phải nhân SE với một thừa số mà thừa số 
này lớn hơn 1,96. Thừa số này có thể có tìm thấy trong bảng phân phối t. Ðể  có thừa 
số cho khoảng tin cậy 95% người ta đọc bảng t với giá trị p hai đuôi = 0,05 và độ tự do 
nhỏ hơn cỡ mẫu một đơn vị. Trong trường hợp cỡ mẫu bằng 25 thì độ tự do bằng 25 ­  
1 = 24 .
Áp cụng cho thí dụ mẫu gồm 25 giá trị hemoglobin của phụ nữ, chúng ta tra bảng t với  

25 độ tự do và với p hai  đuôi = 0,05 chúng ta có thừa số 2,064 và độ sai lệch là
2,064

Ñoäleächchuaån

2,064

0,84

0,35
n
25
và khoảng tin cậy 95% sẽ là:
(11,50 – 0,35 ; 11,50 + 0,35) = (11,15 ; 11,85)
Chúng ta có thể  nhận xét rằng trong trường hợp khoảng tin cậy sử dụng phân phối t  
chỉ  khác khoảng tin cậy sử dụng phân phối bình thường không đáng kể. Nói chung 2  
khoảng tin cậy này là xấp xỉ bằng nhau khi cỡ mẫu đủ  lớn (trên 30) và chỉ  khác nhau 
nhiều với cỡ mẫu nhỏ

7. Kiểm định giả thuyết cho một trung bình
Ðôi khi chúng ta muốn kiểm định một giả thuyết đặc hiệu về trung bình của dân số µ. 
Thí dụ nồng độ  hemoglobin ở người phụ nữ khỏe mạnh là 12 g/100ml. Chúng ta tiến  
hành đo đạc hemoglobin của 25 phụ nữ được chọn một cách ngẫu nhiên ở  một xã ta  
có trung bình và độ  lệch chuẩn của biến số  hemoglobin là 11,50 và 0,84. Chúng ta 
muốn xem số liệu của chúng ta có phù hợp với giả thuyết trung bình hemoglobin của  
dân số  xã này là 12 g/100 ml hay không hay ngược lại, số  liệu này cho bằng chứng  
rằng hemoglobin ở phụ nữ xã này thấp hơn 12 g/100ml.
Một cách để trả lời câu hỏi này chúng ta có thể xem khoảng tin cậy 95% có bao gồm  
giá trị giả thuyết là 12g/100 ml hay không. Từ kết quả đã trình bày ở trên, chúng ta có  
thể thấy  rằng khoảng tin cậy 95% của trung bình là  11,15 đến 11,85 không chứa giá  

trị  giả  thuyết nên chúng ta nói rằng số  liệu không phù hợp với giả  thuyết trung bình 
hemoglobin là 12 g/100ml. Vì vậy chúng ta bác bỏ giả thuyết này.
Tuy nhiên giải pháp nêu chỉ giúp chúng ta bác bỏ giả thuyết nhưng không cho chúng ta  
định lượng được mức độ phù hợp (hay không phù hợp) của số liệu so với giả thuyết.  
Ðể có  một đo  lường định lượng, chúng ta có thể  sử dụng kiểm định ý nghĩa và xem  
xét giá trị p (p­value).
Các bước để kiểm định giả thuyết bao gồm:
­ Khẳng định giả thuyết Ho: nồng độ hemoglobin của phụ nữ xã này là 12 g/100ml
­ Lựa chọn kiểm định phù hợp: Trong trường hợp này kiểm định phù hợp là kiểm định  
t một mẫu. Nghĩa nếu giả thuyết Ho đúng thì trung bình nồng độ hemoglobin của mẫu 


sẽ có phân phối t với  trung bình là 12, sai số chuẩn của mẫu bằng 0,84/ √25 = 0,168 và 
độ tự do là 25­1 = 24
­ Tính giá trị phân phối t nếu giả thuyết Ho đúng. Trong trường hợp này phân phối t sẽ 
bằng:
xx11,5 12
0,5
t
2,98
SE
/ n 0,84 / 25 0,168
­ Tính p=xác suất xẩy ra t=2,98 dựa trên bảng phân phối t với 24 độ  tự  do. Tra bảng  
chúng ta biết p>0,005 và p<0,01 (nếu chúng ta sử dụng máy tính chúng ta sẽ biết chính 
xác hơn về p.   p =0,0065). Nói khác đi, nếu giả thuyết Ho đúng thì xác suất xảy ra kết 
quả như trên sẽ nhỏ hơn 0,01
­ Dựa trên kết quả này chúng ta cho rằng số liệu này rất ít phù hợp với giả thuyết Ho  
và chúng ta bác bỏ giả thuyết Ho.
8. Kiểm định t bắt cặp
Vừa rồi chúng ta nghiên cứu về suy luận thống kê  cho trung bình của biến số x trong  

một dân số. Trên thực tế  chúng ta thường quan tâm nhiều hơn đến việc so sánh giữa 
hai hay nhiều hơn các nhóm. Trong phần sau chúng ta sẽ  nghiên cứu việc so sánh 2  
trung bình bắt cặp ­ nghĩa là so sánh trung bình khi số  liệu quan sát trong nhóm thứ 
nhất bắt cặp với số liệu quan sát trong nhóm thứ hai.
Việc bắt cặp trong thiết kế  nghiên cứu nhằm loại bỏ  một nguồn gốc của sự  biến  
thiên (sự  biến thiên giữa các phần tử  của mẫu) nhằm mục tiêu là làm tăng độ  chính  
xác của phân tích. Và điều này được thực hiện bằng cách chọn những cặp giống nhau  
về mọi phương diện ngoại trừ biến số mà chúng ta muốn quan tâm. Ngoài cách chọn 
lựa 1 cặp gồm hai đối tượng giống nhau người  ta còn có thể  dùng chính đối tượng 
bắt cặp với chính nó.
Một số thí dụ về thiết kế bắt cặp bao gồm:
a. Giả  sử chúng ta có hai phương pháp  ước tính tuổi thai của phụ nữ mang thai: siêu  
âm hay hỏi ngày kinh cuối. Ðể  so sánh hai phương pháp này chúng ta ghi nhận  ước  
tính tuổi thai của mỗi phụ nữ bằng hai phương pháp và sử  dụng kiểm định t bắt cặp  
để so sánh 2 nhóm số liệu này.
b. Chúng ta muốn so sánh hai phương pháp giáo dục sức khỏe về  phương pháp chải  
răng. Chúng ta có thể  chọn ra nhiều cặp, mỗi cặp gồm 2 đứa trẻ  tương tự  nhau về 
tuổi, trình độ  học vấn và hoàn cảnh kinh tế xã hội của gia đình. Trong mỗi cặp chọn 
ngẫu nhiên một trẻ để  được giáo dục theo cách 1 và chọn một trẻ được giáo dục theo  
cách 2. So sánh kết quả  giáo dục sức khỏe  ở  hai nhóm trẻ  này    sẽ  được tiến hành  
bằng kiểm định t bắt cặp.
Ðể phân tích biến số định lượng cho thiết kế bắt cặp, bước đầu tiên là phải tính hiệu 
số  của hai quan sát cho mỗi cặp (cần để  ý đến dấu của hiệu số). Nếu không có sự 
khác biệt giữa hai số  liệu thì trung bình của hiệu số  phải bằng 0 (zero). Sử  dụng 
phương pháp kiểm định số trung bình như đã nêu ở trên để xem trung bình của hiệu số 
có bằng không hay không.
Thí dụ:


Tiên lượng của bệnh nhân suy hô hấp mãn tính tăng carbonic thường kèm (tỉ  lệ  tử 

vong trong 3 năm thay đổi từ 30% đến 100%) và hiện tại chưa có phương pháp điều trị 
hữu hiệu. Tilapur và Mir (Am J  Med 1984; 77:987) giả thuyết rằng chế độ  ăn giảm 
carbonhydrate có thể  cải thiện tình trạng hô hấp. 8 người suy hô hấp mãn tính (+tim 
lớn, gan lớn, phù và tăng áp phổi) điều trị bằng chế độ ăn 600 Kcal và ghi nhận PaO2  
và PaCO2 trước và sau điều trị.  

PaO2

PaCO2

Trước

Sau

Hiệu số

Trước

Sau

Hiệu số

70
59
53
54
44
58
64
43


82
66
65
62
74
77
68
59

12
7
12
8
30
19
4
16

49
68
65
57
76
62
49
53

45
54

60
60
59
54
47
50

4
14
5
­3
17
8
2
3

Trung bình

55.6

69.1

13.5

59.9

53.6

6.3


Ðộ  
chuẩn

9.2

7.9

8.2

9.6

5.9

6.5

1
2
3
4
5
6
7
8
lệch 

Giả sử chúng ta muốn kiểm định phân áp oxy động mạch trước và sau điều trị có thay  
đổi hay không, chúng ta sẽ tiến hành kiểm định với các bước như sau:
Bước 1: Xây dựng giả thuyết Ho: Sau điều trị  PaO2 của mỗi cá nhân không thay đổi, 
nói khác đi trung bình hiệu số của PaO2 bằng zero
Bước 2: Chọn kiểm định phù hợp: Vì đây là thiết kế  bắt cặp và để  so sánh biến số 

định lượng giữa hai nhóm, chúng ta sẽ  sử dụng kiểm định t bắt cặp với 8­1=7 độ  tự 
do.
Bước 3:
Tính trung bình của hiệu số, độ lệch chuẩn của hiệu số và giá trị t

d

13,5; sd

8,2; t

d
s/ n

4,66

Bước 4:
Tra bảng t với 7 độ tự do ta được p<0,005và p > 0,002 (chính xác ta có p = 0,0023)


Bưới 5: Như vậy chúng ta bác bỏ giả thuyết Ho với mức ý nghĩa p <0,005 và như vậy 
PaO2  đã tăng có ý nghĩa thống kê sau khi thực hiện chế độ điều trị.
Bài tập
1. Sau đây là số liệu về chiều cao (tính bằng cm) của một mẫu ngẫu nhiên gồm 20 trẻ 
trai 2 tuổi bị bệnh hồng cầu liềm ở thành phố Cần Thơ.
84,4
87,0
80,6
83,4
85,0

85,4
89,2
78,5
80,0
89,8
82,5
85,0
89,0
84,1
81,3
85,4
80,7
85,5
81,9
86,3
a. Tính trung bình và độ lệch chuẩn của chiều cao của trẻ trong dân số nghiên cứu này
b. Giả định chiều cao có phân phối bình thường, số  liệu chiều cao của dân số  này sẽ 
nằm chủ yếu trong khoảng giá trị nào?
c. Kiểm tra lại số liệu trên thực tế
d. Sử dụng kết quả ở câu a và b hãy phác thảo (vẽ phác) phân phối tần suất của chiều  
cao của trẻ.
e. Ước tính sai số chuẩn của trung bình mẫu. Trình bày sự khác biệt giữa sai số chuẩn  
và độ lệch chuẩn của chiều cao của trẻ.  Phác thảo phân phối mẫu trên cùng đồ thị các 
bạn vẽ ở câu d.
f. Sử dụng phân phối bình thường. Tính khoảng tin cậy 95% của giá trị trung bình thực 
sự của chiều cao của các trẻ này (trung bình dân số).
g. Tính lại khoảng tin cậy nhưng sử dụng phân phối t hay vì phân phối bình thường.
h. Nếu chúng ta muốn ước tính chiều cao trẻ chính xác hơn, chúng ta sẽ cần tăng hay  
giảm khoảng tin cậy 95%? Muốn vậy chúng ta cần phải làm gì?
i. Khoảng tin cậïy 99% sẽ rộng hơn hay hẹp hơn khoảng tin cậy 95%. Tính khoảng tin 

cậy 95%
j. Tổ chức y tế thế giới cho biết chiều cao trung bình của trẻ trai 2 tuổi là 86,5 cm. Từ 
khoảng tin cậy chúng ta có cho rằng chiều cao của trẻ em bị bệnh hồng cầu liềm thấp  
hơn trẻ trai bình thường hay không?
k. Thực hiện kiểm định t để so sánh chiều cao trẻ trai bị hồng cầu liềm và trẻ trai bình  
thường. Giá trị p bằng bao nhiêu?  Lí giải giá trị p
l. Nếu có sự khác biệt, thảo luận các lí do tại sao có sự khác biệt.
2. Người ta thực hiện một thử nghiệm lâm sàng ngẫu nhiên, mù đôi, bắt chéo nhằm so  
sánh hiệu quả điều trị của một loại thuốc hạ áp đã có (propranolol) với một loại thuốc  
hạ áp mới (thuốc X).  Mỗi bệnh nhân được điều trị  với mỗi loại thuốc hạ áp trong 8  
tuần, và hai đợt điều trị này cách nhau bởi 2 tuần lễ không điều trị để tránh loại bỏ tác  
dụng kéo dài của thuốc này  ảnh hưởng lên kết quả  điều trị  của thuốc kia (thời gian 
rửa trôi) . Do thứ  tự  dùng 2 loại thuốc này là ngẫu nhiên và do có thời gian rửa trôi,  
chúng ta giả định rằng thứ tự sử dụng thuốc không có ảnh hưởng đáng kể lên kết quả.
Kết quả theo dõi huyết áp của 10 bệnh nhân này như sau:


Bệnh nhân

Huyết áp tâm thu
Propranolo

Thuốc X

1

150

130


2

148

131

3

107

144

4

159

144

5

171

113

6

110

128


7

140

112

8

138

112

9

143

116

10

126

134

a.   Có   bằng   chứng   về   sự   khác 
biệt   về   hiệu   quả   của   hai   loại 
thuốc lên huyết  áp tâm thu hay 
không?
b. Tính khoảng tin cậy của trung 
bình   hiệu   số   huyết   áp   của   hai 

loại thuốc.
c. Chúng ta có thể kết luận gì?
3.Tiến   hành   lấy   mẫu   huyết 
thanh ở 25 trẻ dưới 5 tuổi để tìm 
hiệu   giá   kháng   thể   ngưng   kết 
với não mô cầu sử dụng phương 
pháp   pha   loãng.   Kết   quả   như 
saub:
1:1
1:8
1:8
1:16
1:32

1:1
1:8
1:8
1:64 1:8
1:16 1:1
1:8
1:8
1:8
1:4
1:16 1:8
1:8
1:32
1:4
1:1
1:4
1:128 1:2

a. Sử dụng nghịch đảo của hiệu giá, người ta tính được hiệu giá trung bình là 16,2 và 
độ  lệch chuẩn là 27.0. Giả sử hiệu giá có phân phối bình thường, hiệu giá kháng thể 
sẽ  nằm chủ yếu trong khoảng số liệu nào? Kiểm tra có phải đa số số liệu nằm trong 
khoảng giá trị đó hay không? Nếu không, tại sao?
b. Lập lại các bước trên sử  dụng log của nghịch đảo hiệu giá. Có phải phần lớn các  
giá trị nằm trong khoảng đã tính hay không? Tại sao?
c. Tính khoảng tin cậy 95% của trung bình  của log của hiệu giá kháng thể.
d. Aùp dụng hàm mũ (antilog) cho khoảng tin cậy của log.  Số liệu này là gì? Tại sao  
chúng ta phải lấy log trong phân tích này?



×