Tải bản đầy đủ (.pdf) (118 trang)

Kiểm định giả thiết thống kê Ôn thi xác xuất thống kê đại học Y dược Tp.HCM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (854.84 KB, 118 trang )

KIỂM ĐỊNH
GIẢ THIẾT THỐNG KÊ

TS CHU VĂN THỌ
Trưởng Bộ môn Toán Đại Học Y Dược Tp HCM


A-MỞ ĐẦU
Tỉ lệ bò bệânh A trong một dân số là p = 0,2. Một chương trình điều trò bệnh A được tiến hành. Sau khi hoàn
tất chương trình điều trò, chọn ngẫu nhiên một mẫu 100 người trong dân số và khám thấy có 12 người bò
bệnh A. Vấn đề đặt ra là sau khi thực hiện chương trình điều trò, tỉ lệ bò bệnh A trong dân số có thực sự khá c
p = 0,2 không ?
Sau khi hoàn tất chương trình điều trò, gọi tỉ lệ bò bệnh A trong dân số là p' và trên mẫu khảo sát là F = 0,12.
Đặt giả thiết thống kê là: Chương trình điều trò không làm thay đổi tỉ lệ bò bệnh A trong dân số, nghóa là sự
khác biệt giữa p' và p không có ý nghóa thống kê.
Có thể kết luận giả thiết thống kê đưa ra có phù hợp với thực tiễn hay không, tức là tương thích với các dữ
kiện quan sát hay không bằng cách kiểm đònh giả thiết. Mục đích của kiểm đònh giả thiết là giúp ta đi đến
những kết luận liên quan đến dân số từ việc khảo sát trên một mẫu ngẫu nhiên được lấy từ dân số đó.


Giả thiết thống kê được kiểm đònh, thường được phát biểu dưới dạng "không có sự khác biệt", được gọi là
"giả thiết không" (null hypothesis) và ký hiệu là H 0 . Trường hợp bác bỏ giả thiết H0 , ta chấp nhận giả thiết
gọi là "giả thiết đối " (alternative hypothesis) và ký hiệu là H A .
Trong thí dụ trên, giả thiết H0 là : "p' = p" và giả thiết H A là: "p' ≠ p". Ta cần kiểm đònh giả thiết H0 .
Giả thiết H0 liên quan đến dân số nhưng ta chỉ căn cứ vào một mẫu ngẫu nhiên được lấy từ dân số để kết
luận H0. Do đó có hai khả năng xảy ra:
1) H0 đúng (nghóa là thực sự p' = p), nhưng ta bác bỏ H0 , chấp nhận HA .
2) H0 sai (nghóa là thực sự p' ≠ p), nhưng ta chấp nhận H0 .
Sai lầm trong trường hợp 1 gọi là sai lầm loại I và sai lầm trong trường hợp 2 gọi là sai lầm loại II.
Hai sai lầm này có tính đối kháng, tức là muốn hạn chế khả năng sai lấm loại I thì lại tăng khả năng sai lầm
loại II và ngược lại. Nếu tăng kích thước mẫu lên thì sẽ hạn chế được khả năng sai lầm của hai loại, nhưng


đồng thời cũng làm tăng chi phí và sự khó khăn.


Mức ý nghóa hay ngưỡng sai lầm:
Quy tắc kiểm đònh giả thiết được đặt ra sao cho xác suất sai lầm loại I không vượt quá một số α rất nhỏ nào
đó. Xác suất sai lầm loại I = P(bác bỏ H0 / H0 đúng) ≤ α.
Khi đó α được gọi là mức ý nghóa hoặc ngưỡng sai lầm.
Xác suất sai lầm loại II = P(chấp nhận H0 / H0 sai) ≤ β.
Nguyên lý biến cố có xác suất nhỏ : "Nếu biến cố A có xác suất không vượt quá một số α rất nhỏ nào đó
thì có thể xem biến cố A không xảy ra trong một lần thử ".
Giả sử biến cố A có xác suất là 0,01, tức là trung bình trong 100 lần thử khả năng có 1 lần biến cố A xảy ra.


Quy tắc kiểm đònh giả thiết:
Để kiểm đònh H0 , xét một mẫu X1 , X 2 ,..., X n độc lập được lấy ngẫu nhiên từ dân số. Căn cứ vào mẫu đó ta
có thống kê T(X1 , X 2 ,..., X n ) .
Giả sử khi H0 đúng, ta biết được phân phối xác suất của T(X1 , X 2 ,..., X n ) (như T(X1 , X 2 ,..., X n ) có phân
phối Chuẩn, phân phối Student, phân phối Fisher, phân phối  2 ,... ).
Khi đó ta tìm được tα sao cho P( T(X1 , X 2 ,..., X n )  t  / H0 đúng) = α (α rất nhỏ).
Ta đưa ra quy tắc kiểm đònh như sau:
-Nếu T(X1 , X 2 ,..., X n )  t  thì bác bỏ giả thiết H0 .
-Nếu T(X1 , X 2 ,..., X n )  t  thì chấp nhận H0 .


Theo nguyên lý biến cố có xác suất nhỏ, vì P( T(X1 , X 2 ,..., X n )  t  / H0 đúng) = α (α rất nhỏ) nên có thể
coi như biến cố " T(X1 , X 2 ,..., X n )  t  / H0 đúng" không xảy ra trong một lần thử.
Khi bác bỏ H0 mà H0 đúng, thì ngưỡng sai lầm là α . Tuy nhiên khi chấp nhận H0 mà H0 sai, thì ngưỡng sai
lầm β không biết vì khi H0 sai ta không biết phân phối xác suất của thống kê T(X1 , X 2 ,..., X n ) .
Ta nhận thấy nếu α tăng thì β giảm và ngược lại.



B- BÀI TOÁN KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ
BÀI 1- SO SÁNH HAI TỈ LỆ
1. SO SÁNH HAI TỈ LỆ KHI CÓ TỈ LỆ THỰC NGHIỆM VÀ TỈ LỆ DÂN SỐ
Trong dân số D, tỉ lệ có đặc tính A là p. Sau khi thực hiện những giải pháp nhằm thay đổi tỉ lệ có đặc tính A,
gọi tỉ lệ có có đặc tính A trong dân số là p’. Ta muốn so sánh p và p’. Đặt giả thiết H0 : p' = p.
Xét một mẫu X1 , X 2 ,..., X n độc lập, được lấy từ dân số trong đó Xi ~ B(1; p), Xi có giá trò là 0 hoặc 1.
X
p(1  p)
Theo đònh lý giới hạn trung tâm, khi 0,1 < p < 0,9 , np  5 và n(1 - p)  5, ta có F =  i ~ N(p;
).

Suy ra:

Fp
p(1  p)
n

n

~ N(0;1).

n


THỰC HIỆN PHÉP KIỂM U VỚI 0,1 < p < 0,9 ; np  5 và n(1-p)  5 :
Đặt giả thiết H0 : p' = p .
HA : p' ≠ p .
Nếu H0 đúng thì U =


Fp

p(1  p)
n

~ N(0,1) .

-Nếu U >1,96 (hoặc 2,58) thì bác bỏ H0, chấp nhận HA, ngưỡng sai lầm  = 0,05 (hoặc  = 0,01).
-Nếu U  1,96 (hoặc 2,58) thì chấp nhận H0.


Thí dụ 1 : Trong dây chuyền sản xuất thuốc viên có 20% viên không đạt tiêu chuẩn. Một cải tiến được thực
hiện và sản xuất thử 100 viên thấy có 12 viên không đạt tiêu chuẩn. Cải tiến trên có làm thay đổi tỉ lệ viên
không đạt tiêu chuẩn không ?
Giải :
F = 0,12 ; p = 0, 2 ; n = 100 thỏa điều kiện 0,1 < p < 0,9 ; np  5 và n(1-p)  5.
Đặt giả thiết H0 : p' = p.
HA : p' ≠ p.
Nếu H0 đúng thì U = F  p

p(1  p)
n

Ta có U = F  p

p(1  p)
n

~ N(0,1) .


= -2. Vì U >1,96 nên bác bỏ H0, chấp nhận HA, ngưỡng sai lầm  = 0,05.

Sự cải tiến trên làm thay đổi tỉ lệ viên không đạt tiêu chuẩn, ngưỡng sai lầm  = 0,05.


Chú ý: Nếu đặt vấn đề cải tiến trên có làm giảm tỉ lệ viên không đạt tiêu chuẩn không ?
Trong trường hợp này dùng phép kiểm U 1-đuôi .
THỰC HIỆN PHÉP KIỂM U 1-ĐUÔI VỚI ĐIỀU KIỆN 0,1 < p < 0,9 ; np  5 và n(1-p)  5 :
Đặt giả thiết H0 : p' = p .
HA : p' < p .
Nếu H0 đúng thì U = F  p

p(1  p)
n

~ N(0,1) .

- Nếu U < -1,64 (hoặc U < -2,33) thì bác bỏ H0, chấp nhận HA, ngưỡng sai lầm  = 0,05 (hoặc  = 0,01).
- Nếu U  -1,64 (hoặc U  -2,33) thì chấp nhận H0.


Trở lại thí dụ 1: Cải tiến trên có làm giảm tỉ lệ viên không đạt tiêu chuẩn hay không ?
Giải :
F = 0,12 ; p = 0, 2 ; n = 100 thỏa điều kiện 0,1 < p < 0,9 ; np  5 và n(1-p)  5.
Đặt giả thiết H0 : p' = p .
HA : p' < p .
Nếu H0 đúng thì U =

Ta có U =


Fp
p(1  p)
n

Fp

p(1  p)
n

~ N(0,1) .

= -2. Vì U < -1,64 nên bác bỏ H0, chấp nhận HA, ngưỡng sai lầm  = 0,05.

Sự cải tiến trên làm giảm tỉ lệ viên không đạt tiêu chuẩn, ngưỡng sai lầm  = 0,05.


Đồ thò hàm mật độ của phân phối chuẩn N(0;1) : y = f(x) =

1
2

___
____
_____
______
____ __
_______
P(0  U  a)
_____ _
_____ _


0,025

-1,96

0

a

e

x2
2

.

0,025

1,96

P(0  U  a) =  (a) (a > 0).
P( U  1,96) = P(–1,96  U  1,96) = 2 (1,96) = 2x0,475 = 0,95.

U
P(0  U  1,96) = (1,96) = 0,475.


_
__
_ _ _ P(c  U  d)

____
_____
_____
_____
_____
_____
_____

0,005

-2,58

0 c

d

2,58

P( c  U  d) =  (d) –  (c) ( 0 < c < d ).
P( U  2,58) = P(–2,58  U  2,58) = 2  (2,58) = 2x 0,495 = 0,99.

0,005

U


____
_______
________
________

________
P(–b  U  c)
________
________
________
________

0,05

-1,64

-b

0

c

0,05

1,64

P( –b  U  c) =  (c) +  (b). ( 0 < b < c )
P( U < –1,64) = P(U > 1,64) = 0,5 –  (1,64) = 0,5 – 0,45 = 0,05.
P( U < 1,64) = P(U > –1,64) = 0,5 +  (1,64) = 0,5 + 0,45 = 0,95.

U


0,01


0,01

-2,33

0

2,33

P( U < –2,33) = P(U > 2,33) = 0,5 –  (2,33) = 0,5 – 0,49 = 0,01.
P( U < 2,33) = P(U > –2,33) = 0,5 +  (2,33) = 0,5 + 0,49 = 0,99.


2- SO SÁNH HAI TỈ LỆ KHI CÓ HAI TỈ LỆ THỰC NGHIỆM ĐỘC LẬP
VỚI ĐIỀU KIỆN 0,1 < p < 0,9 , n1p  5 , n1(1-p)  5 , n2p  5 , n2(1-p)  5:
Xét một mẫu X1 , X 2 ,.., X n1 độc lập, được lấy từ dân số D1 trong đó X i ~ B(1; p1 ), X i =1 hay X i = 0.
X
p (1  p1 )
Đặt F1 =  i . Khi 0,1 < p1 < 0,9; n1p1  5 và n1 (1  p1 )  5, ta có F1 ~ N( p1 ; 1
).
n1
n1
Xét một mẫu Y1 , Y2 ,..., Yn 2 độc lập, được lấy từ dân số D 2 trong đó Yi ~ B(1; p 2 ), Yi =1 hay Yi = 0.
Y
p (1  p 2 )
Đặt F2 =  i . Khi 0,1 < p 2 < 0,9; n 2 p 2  5 và n 2 (1- p 2 )  5, ta có F2 ~ N( p 2 ; 2
).
n2
n2
p (1  p1 ) p 2 (1  p 2 )
F1  F2  (p1  p 2 )

Do đó: F1 - F2 ~ N( p1 - p 2 ; 1
+
) hay
~ N(0,1) .
n1
n2
p1 (1  p1 ) p 2 (1  p 2 )
n1



n2


THỰC HIỆN PHÉP KIỂM U - ĐIỀU KIỆN 0,1 < p < 0,9 , n1p  5 , n1(1-p)  5 , n2p  5 , n2(1-p)  5:
Đặt giả thiết H0 : p1 = p2 .
HA : p 1 ≠ p2 .
k  k2
Nếu H0 đúng thì p1 = p2 . Ước lượng p1 = p2 = p  1
, với k1  n1F1 và k 2  n 2 F2 .
n1  n 2
F1  F2
Khi đó: U 
~ N(0;1).
1
1
( 
)p(1  p)
n1 n 2
- Nếu U > 1,96 (hoặc 2,58) thì bác bỏ H0, chấp nhận HA, ngưỡng sai lầm  = 0,05 (hoặc  = 0,01).

- Nếu U  1,96 (hoặc 2,58) thì chấp nhận H 0 .
(Medical Biostatistics&Epidemiology-Diane Essex-Sorlie, PhD - Appleton & Lange Medical Book,1995)


Thí dụ 2: Điều trò bằng phương pháp 1 dể trò bệnh A cho 102 bệnh nhân, khỏi bệnh 82 người. Điều trò bằng
phương pháp 2 dể trò bệnh A cho 98 bệnh nhân, khỏi bệnh 69 người. So sánh hiệu quả của 2 phương pháp ?
Giải: F1 = 82/102, F2 = 69/98.
Đặt giả thiết H0 : p1 = p2 .
HA : p 1 ≠ p2 .

Nếu H0 đúng thì p1 = p2 . Ước lượng p1 = p2 = p 
F1  F2

Khi đó: U 
(

Ta có: U 

n1F1  n 2 F2
= 0,75.
n1  n 2

~ N(0;1).

1
1
 )p(1  p)
n1 n 2

F1  F2


= 1,64. Vì U  1,96 nên chấp nhận H0 .

1
1
(  )p(1  p)
n1 n 2

Hiệu quả của 2 phương pháp trên khác nhau không có ý nghóa.


3- SO SÁNH HAI TỈ LỆ KHI CÓ HAI TỈ LỆ THỰC NGHIỆM SỐ LIỆU ĐÔI
VỚI ĐIỀU KIỆN n1 + n2  10 :
Xét một mẫu n cá thể được lấy ngẫu nhiên từ dân số D. Ứng với mẫu n cá thể, tác động bởi yếu tố I và yếu
tố II, ta xây dựng cặp số liệu đôi ( X i , Yi ) (i=1,2,...,n); trong đó X i =1 khi cá thể có đặc tính A và X i = 0 khi
cá thể không có đặc tính A; Yi =1 khi cá thể có đặc tính A và Yi = 0 khi cá thể không có đặc tính A. Do đó

X i và Yi không độc lập (i=1,2,...,n). Ta có 4 loại cặp giá trò ( X i , Yi ) như sau:
Loại
1

Mẫu I

Mẫu II

Xi

Yi

Số cặp ( X i , Yi )


0

1

2

1

0

3

0

0

n1
n2
n3

4

1

1

n4

( n1 + n 2 + n 3 + n 4 = n)


n2  n4
n n
và F2 = 1 4 .
n
n
Gọi p1 và p 2 lần lượt là tỉ lệ cá thể có đặc tính A trong dân số được tác động bởi yếu tố I và yếu tố II.

Trong mẫu I và mẫu II, tỉ lệ cá thể có đặc tính A lần lượt là F1 =


Ta muốn so sánh p1 và p 2 . Đặt giả thiết H0 : p1 = p 2 .
Theo H0 , suy ra F1 = F2 .
n n
Ta có: F1 = F2  F1 - F2 = 1 2 = 0  n1 = n 2 . Do đó theo H0 , suy ra n1 = n 2 .
n
Xét n1 + n 2 = k cặp ( X i , Yi ) thuộc loại 1 và loại 2; gọi X là biến ngẫu nhiên chỉ số cặp ( X i , Yi ) thuộc loại 1,
n
1
khi đó X có phân phối nhò thức B(k ; p), với p = 1  (theo H0 , suy ra n1 = n 2 ).
n1  n 2 2
n n
Khi kp  5 và k(1-p)  5  1 2  5, theo đònh lý Moivre-Laplace, X được coi như có phân phối chuẩn
2
n
k
k
1 p(1  p) 1
N(kp = ; kp(1-p) = ). Suy ra biến ngẫu nhiên F = 1 có phân phối chuẩn N( p = ;
= ).

k
2
4
2
k
4k
n n
Fp
Khi đó:
 1 2 có phân phối chuẩn N(0,1) .
p(1  p)
n1  n 2
k
n
Chú ý: Ta cũng có kết quả tương tự cho tỉ lệ số cặp ( X i , Yi ) thuộc loại 2 trong hai mẫu I và II là F = 2 .
k


THỰC HIỆN PHÉP KIỂM U VỚI ĐIỀU KIỆN n1 + n2  10 :
Đặt giả thiết H0 : p1 = p2 .
HA : p 1 ≠ p2 .
n1
n
n n
Fp
Theo giả thiết H0 :
(hoặc F = 2 ) và p = 0,5.
 1 2 ~ N(0,1) , trong đó: F =
n1  n 2
n1  n 2

p(1  p)
n1  n 2
n1  n 2
n n
Fp
Tính: U =
 1 2
p(1  p)
n1  n 2
n1  n 2
- Nếu U > 1,96 (hoặc 2,58) thì bác bỏ H0, chấp nhận HA , ngưỡng sai lầm  = 0,05 (hoặc  = 0,01).
- Nếu U  1,96 (hoặc 2,58) thì chấp nhận H0 .


Thí dụ 3 : Hai loại thuốc giảm đau T1 và T2 thử trên cùng 100 bệnh nhân. Kết quả như sau: có 41 người đều
thấy giảm đau và 34 người đều thấy không giảm đau khi dùng hai loại thuốc trên; có 18 người thấy giảm đau
khi dùng T1 và không giảm đau khi dùng T2 ; có 7 người thấy không giảm đau khi dùng T1 và giảm đau khi
dùng T2 . Hỏi hai loại thuốc trên có tác dụng giảm đau như nhau không ?
Giải :

Mẫu I ( T1 )
Loại

Mẫu II ( T2 )

Xi

Yi

2


1

0

3

0

0

4

1

1

1

0

1

Số cặp ( X i , Yi )

n1 =7
n 2 =18
n 3 =34

n 4 =41

Gọi p1 và p2 lần lượt là tỉ lệ giảm đau trong dân số khi dùng thuốc T1 và T2 .

( n1 + n 2 + n 3 + n 4 =100)


Đặt giả thiết H0 : p1 = p2 .
HA : p 1 ≠ p2 .
Fp

Theo giả thiết H0 :

Tính: U =

Fp
p(1  p)
n1  n 2

p(1  p)
n1  n 2





n1  n 2 ~ N(0,1) , trong đó: F = n1
và p = 0,5.
n

n
n1  n 2

1
2

n1  n 2 = -2,2. Vì U >1,96 nên bác bỏ H , chấp nhận H , ngưỡng sai lầm  = 0,05.
0
A
n1  n 2

Hai loại thuốc T1 và T2 có tác dụng giảm đau khác nhau có ý nghóa, ngưỡng sai lầm  = 0,05.
Chú ý : Ta có U = 2,2 < 2,58 nên cũng có thể chấp nhận H0 . Tuy nhiên, khi chấp nhận H0 ta không biết
ngưỡng sai lầm  . Với U = 2,2 > 1,96 bác bỏ H0, chấp nhận HA , ta biết ngưỡng sai lầm  = 0,05. Do đó,
trong trường hợp này ta nên bác bỏ H0. Trong trường hợp cần thiết có thể tiến hành thử nghiệm lại với cỡ
mẫu lớn hơn.


BÀI 2 - PHÉP KIỂM

2

1.MỞ ĐẦU
1.1. ĐẶT VẤN ĐỀ
Trong dân số D các đặc tính A1, A2 ,..., Ak lần lượt có tỉ lệ là p1, p2,.., pk . Lấy ngẫu nhiên một mẫu M từ
dân số D, cỡ mẫu là n. Số các cá thể trong mẫu M có đặc tính A1, A2 ,..., Ak lần lượt là n1, n2 ,.., nk . Về mặt
lý thuyết, số các cá thể trong mẫu M có đặc tính A1, A2 , ..., Ak lần lượt là n 1' = np1, n '2 = np2 ,..., n 'k = npk .
Theo Pearson, biến ngẫu nhiên:
k
2
(n i  n 'i ) 2
Q =
~  , độ tự do là  = k -  , nếu không có tham số nào được ước lượng.

n 'i
1
2
(n i  n 'i ) 2
Q =
~  , độ tự do là  = k -  - m , nếu có m tham số được ước lượng.
n 'i
1
k

(  là số các hệ thức ràng buộc các ni’ và các hệ thức này không phụ thuộc nhau)


1.2. THỰC HIỆN PHÉP KIỂM 
Trong dân số D các đặc tính A1, A2 ,..., Ak lần lượt có tỉ lệ là p1, p2 , ... , pk . Xét một mẫu K có cỡ mẫu là n.
Số các cá thể trong mẫu K có đặc tính A1, A2 ,..., Ak lần lượt là n1, n2 ,..., nk .Ta muốn kiểm đònh xem K có là
một mẫu thuộc dân số D không.
Nếu mẫu K thuộc dân số D thì, về mặt lý thuyết, số các cá thể trong mẫu K có đặc tính A1, A2 ,..., Ak lần
lượt là n 1' = np1, n '2 = np2 ,..., n 'k = npk .
2

Đặt giả thiết H0: Sự khác biệt giữa các cặp (ni , n i' ) (i =1,...,k) không có ý nghóa. (Mẫu K thuộc dân số D).
HA: Sự khác biệt giữa các cặp (ni , n i' ) có ý nghóa. (Mẫu K không thuộc dân số D).
(n i  n 'i ) 2 2
Theo giả thiết H0 , ta có: Q = 
~  (  ).
n 'i
1
k


-Nếu Q >  0,05 (  ) (hoặc  0,01 (  )) thì bác bỏ H0 , chấp nhận HA , ngưỡng sai lầm  = 0,05 (hoặc  = 0,01).
2

2

-Nếu Q   0,05 (  ) (hoặc  0,01 (  )) thì chấp nhận H0 .
2

2


×