Tải bản đầy đủ (.pdf) (105 trang)

Bài toán kiểm định giả thuyết thống kê pot

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (355.91 KB, 105 trang )

Kiểm định giả thuyết thống kê
Hoàng Văn Hà
Ngày 6 tháng 4 năm 2012
Bài toán kiểm định giả thuyết
thống kê
Bài toán kiểm định giả thuyết thống kê
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 3
■ Định nghĩa
■ Giả thuyết không và đối thuyết
■ Cách đặt giả t huyết
■ Miền bác bỏ - Tiêu chuẩn kiểm định
■ Sai lầm loại I v à loại II
■ Bổ đề Neyman - Pearson
■ Kiểm định tỷ lệ hợp lý
■ p - giá trị
Định nghĩa
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 4
Định nghĩa 1. Giả thuyết thống kê là những phát biểu về c ác tham số, quy
luật phân phối, hoặc tính độc lập của các đại lượng ngẫu nhiên. Việc tìm ra
kết luận để bác bỏ hay chấp nhận một giả thuyế t gọi là
kiểm định giả thuyết
thống kê
.
Ví dụ 1. Giám đốc một nhà máy sản xuất bo mạch chủ máy v i tính tuyên bố
rằng tuổi thọ trung bình của một bo mạch chủ do nhà máy sản xuất ra là 5
năm; đây là một giả thuyế t về kỳ v ọ ng của biến ngẫu nhiên X = tuổi thọ của
một bo mạch chủ. Để đưa ra kết luận là chấp nhận hay bác bỏ giả thuyết
trên, ta cần dựa vào mẫu điều tra và quy tắc kiểm định thống kê.
Giả thuyết không và đối thuyết
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 5
Định nghĩa 2. Trong bài toán kiểm định giả thuyết, giả thuyết cần được


kiểm định gọi là
Giả thuyết không (null hy pothesis), ký hiệu là H
0
. Mệnh đề
đối lập với H
0
gọi là
đối thuyết (alternative hypothesis), ký hiệu là H
1
.
Xét bài toán kiểm định tham số, giả sử ta quan trắc mẫu ngẫu nhiên
(X
1
, . . . , X
n
) từ biến ngẫu nhiên X có hàm mật độ xác suất f(x; θ) phụ
thuộc vào tham số θ. Gọi Θ là không gian tham số, và Θ
0
và Θ
c
0
là hai tập
con rời nhau của Θ sao cho Θ
0
∪ Θ
c
0
= Θ. Giả thuyết (giả thuyết không) và
đối thuyết của bài toán có dạng như s au


H
0
: θ ∈ Θ
0
H
1
: θ ∈ Θ
c
0
(1)
Giả thuyết không và đối thuyết
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 6
Ví dụ 2.
1. Gọi µ là độ thay đổi trung bình t rong huyết áp của một bệnh nhân sau khi
dùng thuốc; bác sĩ điều trị cần quan tâm đến giả thuyế t sau

H
0
: µ = 0 Không có ảnh hưởng của thuốc lên huyết áp của bệnh nhân
H
1
: µ = 0 Có ảnh hưởng của thuốc lên huyết áp của bệnh nhân
2. Một khách hàng quan t âm đến tỷ lệ s ản phẩm kém chất lượng t rong một
lô hàng mua của một nhà cung cấp. Giả sử tỷ lệ sản phấm kém tối đa được
phép là 5%. Khách hàng cần quan tâm đến giả t huyết sau

H
0
: p ≥ 0.05 Tỷ lệ sản phẩm kém cao hơn mức cho phép
H

1
: p < 0.05 Tỷ lệ sản phẩm kém ở mức chấp nhận được
Cách đặt giả thuyết
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 7
1. Giả thuyết được đặt ra với ý đồ bác bỏ nó, nghĩa lã giả thuyết đặt ra
ngược lại với điều ta muốn c hứ ng minh, muốn thuyết phục.
2. Giả thuyết được đặt ra sao cho khi chấp nhận hay bác bỏ nó sẽ c ó tác
dụng trả lời bài toán thực tế đặt ra.
3. Giả thuyết được đặt ra sao cho nếu nó đúng thì ta sẽ xác định được quy
luật phân phối xác suất c ủa đại lượng ngẫu nhiên được chọn làm tiểu
chuẩn kiểm định.
4. Khi đặt giả thuyết , ta thường so sánh cái chưa biết với cái đã biết . Cái
chưa biết là điều mà ta cần kiểm định, kiểm tra, làm rõ. "Cái đã biết" là
những thông tin trong quá khứ, các định mức kinh tế, kỹ thuật.
5. Giả thuyết đặt ra t hư ờng mang ý nghĩa: "không khác nhau" hoặc "khác
nhau không có ý nghĩa" hoặc "bằng nhau".
Cách đặt giả thuyết
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 8
Tổng quát, một bài t oán kiểm định giả thuyết cho tham số θ sẽ có một trong
3 dạng dưới đây (θ
0
là giá trị kiểm định đã biết):
Hai phía:

H
0
: θ = θ
0
H
1

: θ = θ
0
Một phía bên trái:

H
0
: θ ≥ θ
0
H
1
: θ < θ
0
Một phía bên phải:

H
0
: θ ≤ θ
0
H
1
: θ > θ
0
Miền bác bỏ - Tiêu chuẩn kiểm định
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 9
Định nghĩa 3. Xét bài toán kiểm định giả thuyết có giả thuyết H
0
và đối
thuyết H
1
. Giả sử rằng H

0
đúng, từ mẫu ngẫu nhiên X = (X
1
, . . . , X
n
) chọn
hàm Z = h(X
1
, . . . , X
n
; θ
0
) sao cho với số α > 0 bé tùy ý ta có thể tìm được
tập hợp W
α
thỏa điều kiện
P (Z ∈ W
α
) = α (2)
Tập hợp W
α
gọi là miền bác bỏ giả thuyết H
0
và phần bù W
c
α
gọi là
miền
chấp nhận giả thuyết H
0

. Đại lượng ngẫu nhiên Z = h(X
1
, . . . , X
n
; θ
0
) gọi là
tiêu chuẩn kiểm định giả thuyết H
0
. Giá trị α gọi là mức ý nghĩa của bài toán
kiểm định.
Miền bác bỏ - Tiêu chuẩn kiểm định
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 10
Thực hiện quan trắc dựa trên mẫu ngẫu nhiên (X
1
, . . . , X
n
) ta thu được mẫu
thực nghiệm (x
1
, . . . , x
n
). Từ mẫu thực nghiệm này, ta tính được giá trị của
Z là z = h ( x
1
, . . . , x
n
; θ
0
).

■ Nếu z ∈ W
α
thì ta bác bỏ giả thuyết H
0
.
■ Nếu z ∈ W
c
α
thì ta kết luận c hư a đủ cơ sở để bác bỏ H
0
.
Sai lầm loại I và loại II
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 11
Trong bài toán kiểm định giả thuyết thống kê, ta có thể mắc phải các sai lầm
sau
a.
Sai lầm loại I: là sai lầm mắc phải khi ta bác bỏ H
0
trong khi thực t ế
giả thuyết H
0
đúng. Sai lầm loại I ký hiệu là α, chính là mức ý nghĩa
của kiểm định.
α = P (W
α
|H
0
) (3)
b.
Sai lầm loại II: là sai lầm mắc phải khi ta chấp nhận giả thuyết H

0
trong
khi thực tế H
0
sai. Sai lầm loại II ký hiệu là β.
β = P (W
c
α
|H
1
) (4)
Sai lầm loại I và loại II
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 12












Quyết định
Thực tế
H
0
đúng H

0
sai
Không bác bỏ H
0
Không có sai lầm Sai lầm loại II
(1 − α) β
Bác bỏ H
0
Sai lầm loại I Không có sai lầm
α (1 − β)
Sai lầm loại I và loại II - Ví dụ
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 13
Khảo sát tốc độ cháy của một loại nhiên liệu rắn dùng để đẩy tên lửa ra khỏi
giàn phóng. Giả sử biến ngẫu nhiên X = tốc độ cháy của nhiên liệu (cm/s)
có phân phối chuẩn với kỳ vọng µ và độ lệch chuẩn σ = 2.5.
Ta cần kiểm định giả thuyết

H
0
: µ = 50
H
1
: µ = 50
Giả sử bác bỏ H
0
khi: ¯x < 48.5 hoặc ¯x > 51.5. Các giá trị 4 8.5 và 51.5 gọi là
giá trị tới hạn (critical value). Giả sử khảo sát mẫu ngẫu nhiên cỡ n = 10 , ta
tìm xác suất s ai lầm loại I.
α = P(Bác bỏ H
0

khi H
0
đúng)
Sai lầm loại I và loại II - Ví dụ
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 14
Tức là,
α = P(
¯
X < 48.5|µ = 50) + P(
¯
X > 51.5|µ = 50)
= P

¯
X − 50
2.5/

10
<
48.5 − 50
2.5/

10

+ P

¯
X − 50
2.5/


10
<
51.5 − 50
2.5/

10

= P(Z < −1.90) + P(Z > 1.90) = 0.028 7 + 0.0287 = 0.0574
nghĩa là có 5. 7 4% số mẫu ngẫu nhiên khảo sát được sẽ dẫn đến kết luận bác
bỏ giả thuyết H
0
: µ = 50 (cm/s) khi tốc độ cháy trung bình thự c sự là 50
(cm/s).
Ta có thể giảm sai lầm α bằng cách mở rộng miền chấp nhận. Giả sử với cỡ
mẫu n = 10, miền chấp nhận là 48 ≤ ¯x ≤ 52, khi đó giá t rị của α là
α = P

Z <
48 − 50
2.5/

10

+ P

Z >
52 − 50
2.5/

10


= 0.0057 + 0.0057 = 0.0114
Sai lầm loại I và loại II - Ví dụ
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 15
Cách thứ hai để giảm α là tăng cỡ mẫu khảo sát, giả sử cỡ mẫu n = 16, ta c ó
σ/

n = 2.5/

16 = 0.625, với miền bác bỏ là ¯x < 48.5 hoặc ¯x > 51.5, ta có
α = P(
¯
X < 48.5|µ = 50) + P(
¯
X > 51.5|µ = 50)
= P

Z <
48.5 − 50
0.625

+ P

Z >
51.5
0.625

= 0.0082 + 0.0082 = 0.0164
Xác suất sai lầm loại II β được t ính như sau
β = P(Không bác bỏ H

0
khi H
0
sai)
Để tính β, ta cần chỉ ra một giá trị cụ thể cho tham số trong đối thuyế t H
1
.
Sai lầm loại I và loại II - Ví dụ
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 16
Giả sử với cỡ mẫu n = 10, miền chấp nhận của giả thuyết H
0

48.5 ≤
¯
X ≤ 51.5 trong khi giá trị t hự c sự của µ = 52. Sai lầm β cho bởi
β = P(48.5 ≤
¯
X ≤ 51.5|µ = 52)
= P

48.5 − 52
2.5/

10

¯
X − 52
2.5/

10


51.5 − 52
2.5/

10

= P(−4.43 ≤ Z ≤ −0.63) = P(Z ≤ −0.63) − P(Z ≤ −4.43)
= 0.2643 − 0.0000 = 0.2643
Giả sử giá trị thực sự µ = 50.5, khi đó
β = P(48.5 ≤
¯
X ≤ 51.5|µ = 50.5)
= P

48.5 − 50.5
2.5/

10

¯
X − 50.5
2.5/

10

51.5 − 50.5
2.5/

10


= P(−2.53 ≤ Z ≤ 1.27) = 0.8980 − 0.0057 = 0.8923
Sai lầm loại I và loại II - Ví dụ
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 17
Tương tự α, tăng cỡ mẫu sẽ làm giảm sai lầm β, với c ỡ mẫu n = 16 và miền
chấp nhận là 48 <
¯
X < 52, ta tính được β = 0.229.
Bảng
1 tổng kết sai lầm lầm loại I và loại II với miền chấp nhận và cỡ mẫu
khác nhau
Miền chấp nhận n α β với µ = 52 β với µ = 50.5
48.5 < ¯x < 51.5 10 0.0574 0.2643 0.8923
48 < ¯x < 52 10 0.0114 0.5000 0.9705
48.5 < ¯x < 51.5 16 0.0164 0.2119 0.9445
48 < ¯x < 52 16 0.0014 0.5000 0.9918
Bảng 1: Sai lầm loại I và loại II
Sai lầm loại I và loại II - Nhận xét
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 18
1. Ta c ó thể giảm kích thước của miền bác bỏ (tương ứng tăng kích thước
miền chấp nhận), và xác suất sai lầm loại I α bằng cách chọ n những
điểm tới hạn thích hợp.
2. Xác suất sai lầm loại I và loại II có liên quan với nhau. Vớ i một cỡ mẫu
cố định, việc giảm sai lầm loại này sẽ làm tăng sai lầm loại kia.
3. Cố định các điểm tới hạn, tăng cỡ mẫu n sẽ làm giảm xác suất sai lầm
loại I α và loại II β.
4. Nếu H
0
sai, sai lầm β sẽ tăng khi giá trị thực của tham số tiến gần đến
giá trị được phát biểu trong giả thuyết H
0

.
Sai lầm loại I và loại II - Ví dụ
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 19
Ví dụ 3.
1. Xét X là biến ngẫu nhiên có phân phối nhị thức. Ta cần kiểm định giả
thuyết H
0
: p = 0.8 và đối thuyết H
1
: p < 0.8. Hãy tìm miền bác bỏ
{X ≤ c} và tính xác suất sai lầm loại I α và loại II β tương ứng với đối
thuyết H
1
: p = 0.6 khi n = 10 và n = 20.
2. Một mẫu ngẫu nhiên cỡ n được chọn từ tổng thể có phân phối chuẩn với
phương sai σ
2
= 9, tính được ¯x = 17. Ta cần kiểm định giả t huyết
H
0
: µ = 15 và H
1
: µ > 15. Giả sử α = 0.0 5,
a. Tìm miền bác bỏ có dạng {
¯
X > c}.
b. Với đối thuyết H
1
: µ = 16, tính β.
Bổ đề Neyman-Pearson

Kiểm định giả thuyết thống kê Hoàng Văn Hà – 20
Định nghĩa 4. Giả sử Z = h( X
1
, . . . , X
n
) là một tiêu chuẩn kiểm định và
W
α
là miền bác bỏ của một bài toán kiểm định giả t huyết thống liên quan
đến tham số θ.
Độ mạnh của kiểm định là xác suất bác bỏ giả thuyết H
0
khi
đối thuyết H
1
đúng, ký hiệu π.
π = P(W
α
|H
1
) = 1 − P(W
c
α
|H
1
) = 1 − β (5)
Một tiêu chuẩn kiểm định tốt sẽ có độ mạnh cao.
Định nghĩa 5. Xét bài toán kiểm định giả thuyết thống kê có giả thuyết H
0
,

đối thuyết H
1
, miền bác bỏ W
α
và miền chấp nhận W
c
α
. Cho α, β lần lượt là
sai lầm loại I và loại II. Cố định giá trị α nhỏ, trong tất cả c ác t iêu chuẩn
kiểm định Z = h(X
1
, . . . , X
n
) có cùng mức sai lầm α thì tiêu chuẩn nào có
độ mạnh π = 1 −β lớn nhất thì được gọi là tiêu chuẩn tốt nhất (tố i ưu).
Bổ đề Neyman-Pearson
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 21
Định lý 6 (Bổ đề Neyman-Pearson). Xét bài toán kiểm định giả thuyết thống
kê H
0
, đối thuyế t H
1
dựa trên một mẫu ngẫu nhiên (X
1
, . . . , X
n
) lấy từ một
phân phối phụ thuộc vào tham số θ. Xét L(θ) = L (θ|X
1
, . . . , X

n
) > 0 là hàm
hợp lý dựa trên mẫu ngẫu nhiên X = ( X
1
, . . . , X
n
). Nếu tồn tại một hằng số
dương C và một tập con W ⊂ R
n
sao cho
1.
L(θ
0
)
L(θ
1
)
≤ C với x = (x
1
, . . . , x
n
) ∈ W
2.
L(θ
0
)
L(θ
1
)
> C với x = (x

1
, . . . , x
n
) ∈ W
c
, với W ∪ W
c
= R
n
3. P [(X
1
, . . . , X
n
) ∈ W ; θ
0
] = α.
thì kiểm định với miền bác bỏ W sẽ có độ mạnh lớn nhất với giả thuyết H
0
và đối thuyết H
1
. Ta gọi α là độ lớn (size) của kiểm định và W là miền bác
bỏ tốt nhất với độ lớn α.
Bổ đề Neyman-Pearson - Ví dụ
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 22
Xét X
1
, . . . , X
n
là mẫu ngẫu nhiên chọn t ừ tổng thể có phân phối Poiss on với
trung bình λ. Tìm kiểm định có độ mạnh lớn nhất cho giả thuyết H

0
: λ = 2
và H
1
: λ = 1/2.
Hàm xác suất của X ∼ P (λ): f(x) =
e
−λ
λ
x
x!
, với x = 0, 1, 2, . . .
Hàm hợp lý là
L(λ) =
n

i=1
f(x
i
) = λ
m
e
−λn

n

i=1
(x
i
!)


−1
với m =
n

i=1
x
i
Với λ = 2
L(2) = 2
m
e
−2n

n

i=1
(x
i
!)

−1
Bổ đề Neyman-Pearson - Ví dụ
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 23
và λ = 1/2,
L(1/2) = (1/2)
m
e
−(1/2)n


n

i=1
(x
i
!)

−1
Theo bổ đề Neyman-Pearson, miền bác bỏ thỏa
L(2)
L(1/2)
=
2
m
e
−2n

1
2

m
e

n
2
= 4
m
e

3n

2
≤ C
Lấy logarit 2 vế ta được,
m log(4) −
3n
2
< log(C) ⇒ m <
log(C) + (3n/2)
log(4)
Đặt C

=
log(C) + (3n/2)
log(4)
, ta sẽ bác bỏ H
0
khi

n
i=1
x
i
≤ C

.
Kiểm định tỷ lệ hợp lý (LRT)
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 24
Xét bài toán kiểm định giả thuyết

H

0
: θ ∈ Θ
0
H
1
: θ ∈ Θ
c
0
Với θ là tham s ố chưa biết của t ổng thể nhận giá trị t rong k hông gian tham
số Θ, và Θ
0
⊂ Θ. Xét mẫu ngẫu nhiên cỡ n: X = (X
1
, . . . , X
n
) và hàm hợp
lý L(θ|x
1
, . . . , x
n
) = L(θ|x).
Định nghĩa 7.
Kiểm định tỷ lệ hợp lý (Likelihood ratio test) cho kiểm định
thống kê với g iả thuyết H
0
: θ ∈ Θ
0
và đối thuyết H
1
: θ ∈ Θ

c
0

λ(x) =
sup
Θ
0
L(θ|x)
sup
Θ
L(θ|x)
(6)
Chú ý rằng 0 ≤ λ(x) ≤ 1.
Kiểm định tỷ lệ hợp lý
Kiểm định giả thuyết thống kê Hoàng Văn Hà – 25
Gọi
ˆ
θ
0

ˆ
θ lần lượt là ước lượng hợp lý cực đại của tham số θ xác định trên
không gian tham số Θ
0
và Θ. Khi đó, kiểm định tỷ lệ hợp lý là
λ(x) =
L(
ˆ
θ
0

|x)
L(
ˆ
θ|x)
(7)
Bác bỏ giả thuyết H
0
khi
λ(x) ≤ C
Hằng số C được chọn sao cho kiểm định có mức ý nghĩa cho trước là α.

×