Tải bản đầy đủ (.pdf) (84 trang)

Một số kỹ thuật thống kê sử dụng trong ước lượng bayes

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (823.28 KB, 84 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

NGUYỄN THỊ HỒNG

MỘT SỐ KỸ THUẬT THỐNG KÊ
SỬ DỤNG TRONG ƯỚC LƯỢNG BAYES

LUẬN VĂN THẠC SĨ TOÁN HỌC

HÀ NỘI, 2014


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

NGUYỄN THỊ HỒNG

MỘT SỐ KỸ THUẬT THỐNG KÊ
SỬ DỤNG TRONG ƯỚC LƯỢNG BAYES

LUẬN VĂN THẠC SĨ TOÁN HỌC
Chuyên ngành: Lý thuyết xác suất và thống kê toán
Mã số: 60 46 01 06

Người hướng dẫn khoa học

TS. Trịnh Quốc Anh

HÀ NỘI, 2014



Lời cảm ơn
Tác giả xin bày tỏ lòng biết ơn sâu sắc đến tất cả các thầy cơ trong
khoa Tốn – Tin- Cơ trường Đại học Khoa học Tự nhiên, Đại học Quốc
gia Hà Nội đã giảng dạy truyền đạt những kiến thức quý báu cho em
trong chương trình cao học khóa 11-13.
Tác giả xin cảm ơn q thầy cơ bộ mơn Xác suất và thống kê tốn đã
trang bị cho những kiến thức giúp tác giả hiểu sâu hơn về chuyên ngành
này.
Hơn hết, luận văn được hoàn thành dưới sự hướng dẫn của TS. Trịnh
Quốc Anh, em xin bày tỏ sự kính trọng và lịng biết ơn sâu sắc đối với
thầy, người đã giao đề tài và tận tình hướng dẫn, góp ý và sửa chữa chu
đáo góp phần quan trọng để em hoàn chỉnh luận văn này.
Nhân dịp này tác giả xin gửi lời cảm ơn tới các đồng nghiệp trong
Khoa Khoa học cơ bản, ban giám hiệu trường Đại học Sao đỏ đã giúp
đỡ và tạo điều kiên tốt nhất để tác giả hồn thành khóa học.
Và cuối cùng, tôi xin được gửi lời cảm ơn chân thành tới gia đình,
bạn bè, đã ln động viên, cổ vũ, tạo mọi điều kiện thuận lợi cho tôi
trong quá trình học tập và hồn thành luận văn.

Hà Nội, tháng 10 năm 2014
Tác giả

Nguyễn Thị Hồng


Lời cam đoan
Tôi xin cam đoan, luận văn Thạc sĩ chuyên ngành Lý thuyết xác suất
và thống kê với đề tài "Một số kỹ thuật thống kê sử dụng trong
ước lượng Bayes" được hoàn thành dưới sự hướng dẫn của TS. Trịnh

Quốc Anh và bản thân tác giả.
Trong quá trình nghiên cứu thực hiện luận văn, tác giả đã kế thừa
những thành tựu của các nhà khoa học với lòng biết ơn trân trọng nhất.
Hà Nội, tháng năm 2014
Tác giả

Nguyễn Thị Hồng


Mục lục
Mở đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

Chương 1. Giới thiệu thống kê Bayes . . . . . . . . . . . . . . . . . . . .

3

Chương 2. Thống kê Bayes trong mơ hình chuẩn và hồi quy
27
Chương 3. Thống kê Bayes với chuỗi thời gian . . . . . . . . .

63

Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


79


Mở đầu
Thống kê là khoa học về các phương pháp tổng quát xử lí các kết
quả thực nghiệm. Để phát hiện ra những quy luật đằng sau những con
số, người làm thống kê phải tiến hành công việc suy luận thống kê. Hiểu
một cách đơn giản, suy luận thống kê là quá trình tìm ra các quy luật
từ dữ liệu thực tế.
Hiện nay có hai trường phái đang phát triển song song và “cạnh tranh”
nhau. Đó là trường phái tần suất (cổ điển) và Bayes.
Suy luận Bayes thể hiện cách suy nghĩ phổ biến của tất cả chúng ta
là chúng ta tiếp thu kiến thức theo kiểu tích lũy. Thơng tin mà chúng ta
muốn biết bắt nguồn từ thông tin chúng ta đã biết cộng với thông tin
thực tế.
Trong luận văn này , tác giả trình bày tổng quan về thống kê Bayes,
thống kê Bayes với các mơ hình; chuẩn, hồi quy tuyến tính, tuyến tính
tổng qt và mơ hình chuỗi thời gian. Luận văn gồm 3 chương
Chương 1. Giới thiệu thống kê Bayes
Trong chương 1, tác giả hệ thống các suy luận Bayes cho các biến
ngẫu nhiên rời rạc và liên tục, với các tiên nghiệm rời rạc và liên tục.
Đồng thời giới thiệu phương pháp MCMC để giải quyết phép tính tích
phân phức tạp có trong thống kê Bayes.
Chương 2. Thống kê Bayes trong mơ hình chuẩn và hồi quy
Trong chương 2, trình bày mơ hình thống kê Bayes chuẩn và hồi quy,
so sánh giữa cách tiếp cận của tần suất và tiếp cận Bayes
Chương 3. Thống kê Bayes với mơ hình chuỗi thời gian

1



2

Trong chương 3, trình bày thống kê Bayes với mơ hình chuỗi thời
gian, những kết quả về ước lượng và kiểm định theo Bayes và một số
thuật toán chạy sử dụng trong phân tích số liệu bằng Bayes.
Kết luận. Trình bày các kết quả của luận văn


Chương 1
Giới thiệu thống kê Bayes
I. Định lý Bayes
Việc suy luận thống kê để tìm ra quy luật từ dữ liệu thực tế biểu thị
bởi y, dữ liệu có thể tuân theo một phân phối nào đó, tuy nhiên phân
phối này phụ thuộc vào những tham số chưa biết θ, kí hiệu f (y, θ). Với
mơ hình xác suất f (y|θ) có hai cách hiểu về tham số θ tương ứng với hai
trường phái suy luận: thống kê tần suất và thống kê Bayes.
• Thống kê tần suất (thống kê cổ điển) xem tham số là một giá trị
không biết nhưng khơng ngẫu nhiên;
• Thống kê Bayes coi tham số θ là biến ngẫu nhiên. Chúng ta có thể
gán cho tham số một phân phối xác suất để biểu thị sự tin cậy về
giá trị thực của tham số. Bằng cách kết hợp thơng tin đã có trước
khi quan sát với thơng tin có được khi quan sát, chúng ta thu được
thông tin muốn biết.
Cơ sở của suy luận Bayes là định lí Bayes. Định lí cho phép xác định
xác suất xảy ra một sự kiện ngẫu nhiên khi biết sự kiện liên quan xảy
ra.
Xét tham số là biến ngẫu nhiên X, không quan sát được X. Biến
ngẫu nhiên Y , phụ thuộc vào các tham số, với các giá trị y1 , y2 , ..., yn , Y
quan sát được. Ta suy luận về biến ngẫu nhiên X/Y = yn bằng việc

sử dụng định lí Bayes. Gọi f là phân phối chứa biến ngẫu nhiên Y, g là
phân phối chứa tham số biến ngẫu nhiên X.
1. Trường hợp X là rời rạc
3


4

Nếu X nhận các giá trị x1 , x2 , ..., xn . Phân phối đồng thời là f (xi /yj ) =
n

g(xi )f (yj /xi ). Phân phối biên duyên của Y là

n

f (xi /yj ) =
i=1

g(xi )f (yj /xi ).
i=1

Phân phối hậu nghiệm của X/Y = yj là:
g(xi /yj ) =

g(xi )f (yj /xi )
n

.

(1.1)


g(xi )f (yj /xi )
i=1

Phân phối xác suất tiên nghiệm g(xi ) của biến ngẫu nhiên rời rạc X là
xác suất của mỗi xi trước khi ta quan sát thấy dữ liệu, nó xuất phát
từ kinh nghiệm, không phải từ dữ liệu. Khi quan sát được Y = yi ta có
hàm hợp lý f (yj /xi ).
2. Trường hợp X là liên tục
Nếu X liên tục trên R, khi đó phân phối hậu nghiệm xác định theo định
lý Bayes như sau
g(x)f (y/x)
g(x)f (y/x)dx

g(x/y) =

(1.2)

R

Hệ quả quan trọng cuả định lý Bayes: Nhân 1 hằng số với tiên nghiệm
không làm thay đổi kết quả định lý Bayes. Nhân hàm hợp lý với một
hằng số không làm thay đổi kết quả định lý Bayes.
Trong tính tốn phân phối hậu nghiệm, nói chung tìm mật độ biên
dun và mật độ hậu nghiệm không dễ, nên chúng ta tập trung vào
phân phối tiên nghiệm mà có phân phối hậu nghiệm dễ tính tốn, khi
đó những tiên nghiệm này được gọi là tiên nghiệm liên hợp.
II. Bayes cho tỷ lệ Nhị thức
Cho Y /p ∼ Binomial(n, p). (n phép thử độc lập, p là xác suất thành
công của mỗi phép thử và như nhau trong n phép thử). Y là số lần thành

công trong n phép thử
Nếu cố định y là số thành công của quan sát, và cho p thay đổi các giá


5

trị có thể của nó, chúng ta có hàm hợp lý
f (y/p) = Cny py (1 − p)n−y , 0 ≤ p

1

1. Sử dụng tiên nghiệm đều
Tiên nghiệm cho p là phân phối đều có mật độ g(p) = 1, (0

p

1).

Mật độ hậu nghiệm tương ứng
g(p/y) =

g(p)f (y/p)
1

=

1Cny py (1 − p)n−y
1

g(p)f (y/p)dp

0

∝ Cny py (1 − p)n−y

1Cny py (1 − p)n−y dp

0

Phân phối hậu nghiệm này là một hàm của p và phân phối này là phân
b=n−y+1

phối Beta(a; b) với a = y + 1,

2. Sử dụng tiên nghiệm Beta
Tiên nghiệm cho p là phân phối Beta(a; b) có mật độ
g(p, a, b) =

Γ(a + b) a−1
p (1 − p)b−1
Γ(a)Γ(b)

Hậu nghiệm tương ứng
g(p/y) =

g(p, a, b)f (y/p)
1

g(p, a, b)f (y/p)dp
0


∝ g(p, a, b)f (y/p)
∝ pa+y−1 (1 − p)b+n−y−1
Đây cũng là phân phối Beta(a ; b ) với a = a + y;

b =b+n−y

* Tiên nghiệm Beta(a; b) gọi là tiên nghiệm liên hợp cho tỷ lệ p
của phân phối nhị thức và tiên nghiệm đều là trường hợp đặc biệt của
Beta(a; b) với a = b = 1.
* Định lý Bayes cung cấp một phương pháp để sửa đổi (niềm tin)
phân phối về các tham số, cho dữ liệu. Để sử dụng nó, phải có một phân


6

phối đại diện cho niềm tin của về các tham số, trước khi chúng ta nhìn
vào các dữ liệu.
* Trong khi có kiến thức mơ hồ về tiên nghiệm thì phân phối Beta(a; b)
sẽ làm tiên nghiệm phù hợp. Ví dụ, khi không biết về p, là một giá trị rất
nhỏ, thì Beta(0, 5; 1), Beta(0, 5; 2), Beta(0, 5; 3), Beta(1; 2), Beta(1; 3)
sẽ là thỏa đáng.
* Nếu có kiến thức về tiên nghiệm, lựa chọn Beta(a; b) phù hợp với
niềm tin của chúng ta về trung bình và độ lệch chuẩn. Trung bình tiên
nghiệm là p0 =

a
a+b

và độ lệch chuẩn tiên nghiệm là σ0 =


ab
.
2
(a+b) (a+b+1)

Ví dụ 1.1. Có 3 sinh viên muốn xây dựng niềm tin về tỷ lệ người dân
muốn xây dựng sòng bạc ở Hamilton. Anna suy nghĩ phân phối tiên
nghiệm có giá trị trung bình là 0, 2 và độ lệch chuẩn là 0, 8. Tiên nghiệm
Beta(a; b) là phù hợp, được xác định bởi


a



= 0, 2

 a = 4, 8
a+b

ab


2

 b = 19, 2
=
0,
8


2
(a + b) (a + b + 1)
⇒ tiên nghiệm của Anna là Beta(4, 8; 19, 2).
Bart không biết thông tin gì về vùng này nên đã quyết định dùng tiên
nghiệm đều với a = b = 1 và tiên nghiệm của Bart là Beta(1; 1). Chris
khơng có tiên nghiệm thích hợp cho niềm tin của mình và tin rằng xác
suất tiên nghiệm có một dạng hình thang bằng cách nội suy tuyến tính
từ kết quả sau
Bảng 1.1. Trọng số của p
p

0

Trọng số 0

0,05

0,1

0,3

0,4

0,5

1

2

2


1

0


7




2p 0 p 0, 1



g(p) = 0, 2 0, 1 p 0, 3




 0, 5 − p 0, 3 p 0, 5
Giả sử các sinh viên lấy mẫu n = 100 quan sát được y = 26. Khi đó hậu
nghiệm của Anna là
Beta(a + y; b + n − y) = Beta (4, 8 + 26; 19, 2 + 74)
= Beta (30, 8; 93, 2)
Hậu nghiệm của Bart là
Beta (1 + 26; 1 + 74) = Beta (27; 75)
Hậu nghiệm của Chris là
g(p/y) =


g(p)f (y/p)
1
0 g(p)f (y/p)dp

Ta thấy hậu nghiệm của Anna, Bart, Chris là tương tự nhau dù các tiên
nghiệm là khác nhau (Hình 1.1; 1.2). Vậy Phân phối hậu nghiệm tóm
tắt niềm tin của ta về tham số sau khi cập nhật dữ liệu.
Sau khi có phân phối hậu nghiệm về p, chúng ta cần ước lượng pˆ dựa
trên phân phối hậu nghiệm.
Có 2 phương pháp ước lượng hay dùng là ước lượng điểm và ước lượng
khoảng.
3. Ước lượng điểm
Các u cầu cần có của ước lượng là


Tính không chênh E(θ) =










θ f (θ /θ)d θ = θ, trong đó f (θ /θ) là phân

phối mẫu của ước lượng θ, có sai số ngẫu nhiên là bias(θ) = E θ − θ.



8

Hình 1.1: Tiên nghiệm của Anna, Bart, Chris

Hình 1.2: Phân phối hậu nghiệm của Anna, Bart, Chris

Sai số trung bình bình phương của một ước lượng
M S(θ) = E(θ − θ)2 =

2

(θ − θ) f (θ/θ)dθ = V ar(θ) + bias2 (θ)

a. Theo tần suất
Ước lượng cho p là pF = ny , trong đó y là tần số thành cơng cho n phép
thử và có phân phối nhị thức B (n; p). pF là ước lượng khơng có sai số


9

ngẫu nhiên BiaspF = 0 và
y
np(1 − p) p(1 − p)
V ar(ˆ
pF ) = V ar( ) =
=
n
n2
n

p(1 − p)
M S(pF ) = V ar(pF ) =
n
b. Theo Bayes
Sử dụng trung bình hậu nghiệm để ước lượng cho p. Nếu sử dụng tiên
nghiệm đều Beta (1; 1) thì ước lượng cho p là


a = 1 + y
a
pB =
với

a +b
b = n − y + 1
Ta có
pB =

y
1
y+1
=
+
n+2 n+2 n+2

(1.3)

Do đó
2


np
1
1
E(pB ) =
+
, V ar(pB ) =
np(1 − p)
n+2 n+2
n+2
M S(pB ) = (E pB − p)2 + V ar(pB )
=

np
1
+
−p
n+2 n+2

=

1 − 2p
n+2

2

+

2

+


np(1 − p)
(n + 2)2

np(1 − p)
(n + 2)2

Giả sử p = 0, 4, n = 10 thì
p(1 − p)
= 0, 024
n
2

1 − 2p
np(1 − p)
M S(P ) =
+
≈ 0, 0169 < 0, 024.
n+2
B
(n + 2)2

M S(pF ) =

Ta thấy ước lượng điểm theo Bayes có sai số trung bình bình phương nhỏ
hơn so với ước lượng tần suất. Vì vậy ước lượng điểm theo Bayes là tốt


10


hơn.
4. Ước lượng khoảng
a. Theo tần suất
Theo tần suất, ta dùng khoảng tin cậy để ước lượng cho p. Khoảng
tin cậy là khoảng có xác suất cao chứa giá trị của θ. Khoảng tin cậy
(1 − α).100% cho θ là khoảng (l, u) thỏa mãn P (l ≤ θ ≤ u) = 1 − α. Vậy
khoảng tin cậy (1 − α).100% cho p là
pF − zα/2

pF (1 − pF )
, pF + zα/2
n

pF (1 − pF )
n

.

Ví dụ 1.2.[9] (tiếp)
Mẫu ngẫu nhiên của họ là n = 100, y = 26 là số người nói đồng ý
xây dựng sịng bạc ở Hamilton. Khoảng tin cậy 95% cho p là:
0, 26 − 1, 96

0, 26.0, 74
; 0, 26 + 1, 96
100

0, 26.0, 74
100


= (0, 174; 0, 346)

b. Khoảng tin được Bayes (Bayesian Credible Interval )
Trong thống kê Bayes ta sử dụng “khoảng tin được Bayes”. Một
khoảng các giá trị mà có xác suất hậu nghiệm cao được biết đến (1 −
α).100% chứa tham số gọi là khoảng tin được Bayes. Ở đây ta tìm khoảng
tin được cho p sử dụng tiên nghiệm Beta(a, b), phân phối hậu nghiệm
tương ứng là Beta(a , b ). Chúng ta tìm một khoảng tin được 95% cho
phân phối hậu nghiệm là xấp xỉ phân phối chuẩn (p/y) ∼ N (m , s 2 ) với
kỳ vọng và phương sai như sau:
m =

a
,
a +b

2

s =

ab
(a + b )2 (a + b + 1)

Khoảng tin được (1 − α).100% cho p là
(m − zα/2 .s ; m + zα/2 .s )

(1.4)


11


(zα/2 là giá trị tìm từ phân phối chuẩn tắc). Chẳng hạn với khoảng tin
được 95%, zα/2 = 1, 96. Việc lấy xấp xỉ là tốt nhất nếu a ≥ 10, b ≥ 10
Ví dụ 1.2.[9] (tiếp)
Ba sinh viên Anna, Bart, Chris tính khoảng tin được cho p thoe hai cách,
sử dụng hàm mật độ chính xác Beta và xấp xỉ chuẩn, kết quả được trình
bày ở bảng sau
Bảng 1.2. Khoảng tin được của Anna, Bart, Chris.
Phân phối

Khoảng tin được Khoảng tin được

hậu nghiệm

chính xác

xấp xỉ chuẩn

Anna Beta(30,8; 93,2) (0,177; 0,328)

(0,172; 0,324)

Bart

(0,184; 0,354)

(0,183; 0,355)

(0,181; 0,340)


(0,181; 0,341)

Beta(27; 75)

Chris Lấy tích phân

Ta thấy ba kết quả là tương tự nhau. Và kết quả của tần suất cũng tương
tự với 3 khoảng tin được của Bayes
5. Kiểm định giả thuyết
a. Kiểm định một phía
i. Theo tần suất
Ví dụ 1.2. Giả sử chúng ta muốn xác định tỷ lệ người được hưởng lợi
từ việc điều trị theo tiêu chuẩn tại một bệnh viện. p là tỷ lệ bệnh nhân
được hưởng lợi từ điều trị mới, tỷ lệ điều trị theo tiêu chuẩn được biết
từ ghi chép là p0 = 0, 6. Một nhóm ngẫu nhiên gồm 10 bệnh nhân được
điều trị mới. y là số người được hưởng lợi. Quan sát y = 8, điều này đủ
tốt để kết luận rằng π > 0, 6 tại mức ý nghĩa α = 10%. Các bước kiểm
định:


12

1) Thiết lập giả thuyết và đối thuyết


 H0 : p 0, 6

 H1 : p > 0, 6
2) Phân phối không của kiểm định thống kê là phân phối mẫu của
kiểm định cho giả thuyết không là đúng. Trong trường hợp này,

phân phối có dạng nhị thức B(n = 10, p = 0, 6).
3) Chọn mức ý nghĩa α = 5%, khi y có phân phối rời rạc, chỉ có
một vài giá trị của α, vì thế chúng ta có thể chọn một giá trị ở ngay
phía trên hoặc dưới 5%.
4) Miền bác bỏ được chọn sao cho nó có xác suất của α dưới phân
phối khơng. Nếu chọn Y ≥ 9 thì α = 0, 0463.
Bảng 1.3. Miền bác bỏ.
Y

P (y/p = 0, 6) Miền

0

0,0001

Chấp nhận

1

0,0016

Chấp nhận

2

0,0106

Chấp nhận

3


0,0425

Chấp nhận

4

0,1115

Chấp nhận

5

0,2007

Chấp nhận

6

0,2508

Chấp nhận

7

0,2150

Chấp nhận

8


0,1209

Chấp nhận

9

0,0403

Bác bỏ

10 0,006

Bác bỏ


13

5) Nếu giá trị kiểm định thống kê cho mẫu nằm trong miền bác bỏ
thì bác bỏ giả thuyết H0 tại α. Trong trường hợp này y = 8 thuộc
miền chấp nhận. Ta chấp nhận giả thuyết H0 : p ≤ 0, 6.
6) p-giá trị là mức ý nghĩa chính xác. Trong trường hợp này
10

n

p − giá trị = 0, 1672 =

P (y/p0 ) =
y.qs


P (y/p0 )
y=8

. Nếu p−giá trị < α, kiểm định thống kê nằm trong miền bác bỏ, và
ngược lại. Với y = 8 nằm trong miền chấp nhận và p − giá trị α =
0, 05 nên bằng chứng không đủ mạnh để kết luận p > 0, 6.
Kiểm định tần suất sử dụng một xác suất tính trên tất cả dữ liệu có
thể xảy ra nhưng giả thuyết về tham số xác định trên toàn bộ giá trị.
ii. Theo Bayes
Kiểm định



 H0 : p

p0


 H1 : p > p0
tại mức ý nghĩa α.
Phương pháp Bayes là cách dễ hiểu, chúng ta cần làm các tính toán xác
suất hậu nghiệm bằng cách sau:
p0

P (H0 : p < p0 /y) =

g(p/y)dp

(1.5)


0

Bác bỏ giả thuyết H0 nếu xác suất hậu nghiệm nhỏ hơn α.
Ví dụ 1.3. (tiếp)
Chúng ta sử dụng tiên nghiệm Beta(1, 1) cho p, với y = 8 thì hậu
nghiệm cho p là Beta(9; 3). Khi đó xác suất hậu nghiệm của giả thuyết
khơng là P (p

0, 6/y = 8) =

0,6 Γ(12)
8
0 Γ(3)Γ(9) p (1

− p)2 dp = 0, 1189 > 0, 05,


14

không thể bác bỏ giả thuyết H0 ở mức α = 5%.
b. Kiểm định 2 - phía
i. Mối quan hệ giữa kiểm định 2-phía và khoảng tin cậy
Có một mối quan hệ chặt chẽ giữa kiểm tra giả thuyết 2-phía và
khoảng tin cậy. Nếu kiểm định giả thuyết 2-phía tại α, tương ứng khoảng
tin cậy cho tham số (1 − α).100%, nếu giả thuyết H0 : p = p0 bị bác bỏ
thì giá trị p0 nằm ngồi khoảng tin cậy và ngược lại.
ii. Theo Bayes
Từ quan điểm Bayes, phân phối hậu nghiệm của tham số được sử
dụng để kiểm định giả thuyết. Nhưng nếu chúng ta sử dụng tiên nghiệm

là liên tục thì hậu nghiệm liên tục, do đó chúng ta không sử dụng xác
suất hậu nghiệm để kiểm định giả thuyết 2-phía vì P (H0 : p = p0 /y) = 0.
Thay vào đó, chúng ta sử dụng khoảng tin được Bayes cho p. Nếu p0
nằm trong khoảng tin được ta chấp nhận giả thuyết H0 và nếu p nằm
ngồi khoảng đó thì ta bác bỏ giả thuyết.
II. Bayes cho trung bình của phân phối chuẩn
Với phương sai đã biết
Cho (y1 , y2 , ..., yn ) ∼ N (µ, σ 2 ), nếu ta dùng tiên nghiệm liên tục cho
µ thì phân phối hậu nghiệm là
g(µ)f (y1 , y2 , ..., yn /µ)
g(µ)f (y1 , y2 , ..., yn /µ)dµ

g(µ/y1 , y2 , ..., yn ) =
R

1. Sử dụng tiên nghiệm đều
g(µ) = 1, 0
a. Y là một quan sát đơn giản

µ+∞


15

Hàm hợp lý kèm theo
2

1

f (y/µ) ∝ e− 2σ2 (y−µ)

Phân phối hậu nghiệm tương ứng là

2

1

g(µ/y) ∝ e− 2σ2 (µ−y)
b. Y có n quan sát
2

n với mẫu (y1 , y2 , ..., yn ). Khi đó, y ∼ N (µ, σn )
2

− 2σ21/n (y−µ)

Hàm hợp lý kèm theo f (y/µ) ∝ e

.

Do đó, phân phối hậu nghiệm là phân phối chuẩn
− 2σ21/n (µ−y)

2

g(µ/y) ∝ e
2. Sử dụng tiên nghiệm chuẩn

1

µ ∼ N (m, s2 ), g(µ) ∝ e− 2s2 (µ−m)


2

a. Y là một quan sát đơn giản
1

2

Hàm hợp lý kèm theo f (y/µ) ∝ e− 2σ2 (y−µ)
Phân phối hậu nghiệm tương ứng
− 21

g(µ/y)) ∝ g(µ)f (y/µ) ∝ e

(µ−m)2
(y−µ)2
+
2
s
σ2

1 σ 2 (µ2 − 2µm + m2 ) + s2 (y 2 − 2yµ + µ2 )
∝ exp −
2
s2 σ 2
1 µ2 (σ 2 + s2 ) − 2µ(σ 2 m + s2 y) + σ 2 m2 + s2 y 2
∝ exp −
2
s2 σ 2
∝ exp




1
2

s2 σ 2
s2 +σ 2

σ 2 m + s2 y
µ− 2
s + σ2

2

Vậy phân phối hậu nghiệm là phân phối chuẩn (µ/y) ∼ N (m ; s 2 ) với
(σ 2 m + s2 y)
σ 2 s2
2
m =
, s’ = 2
σ 2 + s2
σ + s2


16

b. Y là n quan sát
Ta có mẫu (y1 , y2 , ..., yn ).
n


Hàm hợp lý f (y/µ) ∝ e− 2σ2 (y−µ)

2

Phân phối hậu nghiệm tương ứng là phân phối chuẩn
n

2

g(µ/y) ∝ e− 2s 2 (−y+m )
Trong đó

1
(σ 2 m + ns2 y)
s2
m =
= 1
n m+
σ 2 + ns2
+
2
s
σ2
2 2
σ s
1
1
n
s’2 = 2

⇒ 2= 2+ 2
2
σ + ns
s
s
σ

n
σ2
1
s2

+

_

n
σ2

y

Vậy tiên nghiệm chuẩn là tiên nghiệm liên hợp cho tham số µ của biến
ngẫu nhiên cho phân phối chuẩn.
Ví dụ 1.3. Ba sinh viên Arnie, Barb, Chuck làm ước lượng chiều dài
trung bình của cá hồi trong vịng một năm tuổi trên một dịng suối.
Nghiên cứu trước đây có trình bày chiều dài của nó tuân theo phân phối
chuẩn với độ lệch chuẩn đã biết là 2cm. Arnie xây dựng tiên nghiệm với
trung bình là 30cm, với niềm tin chiều dài khơng dưới 18cm và khơng
vượt q 42cm, do đó độ lệch chuẩn là 4cm và Arnie sử dụng tiên nghiệm
chuẩn N (30; 42 ). Barb khơng biết phân tích về cá hồi nên đã sử dụng tiên

nghiệm đều. Chuck quyết định dùng tiên nghiệm có dạng hình thang với
trọng số tại 0 là 18cm, tại 1 là 24cm và lên đến 40cm, sau đó đi xuống
0 tại 46cm. Chuck dùng cơng thức nội suy tuyến tính giữa các giá trị để
tìm tiên nghiệm cho µ.
Họ lấy mẫu với n = 12 và tìm trung bình mẫu y = 32cm.


17
_

Hậu nghiệm của Arnie có phân phối chuẩn (µ/ y ) ∼ N (m ; s 2 ) trong đó:
σ2
σ 2 s2
22 42
) → s’2 = 2
=
= 0, 3265
12
σ + ns2
22 + 12.42
22
σ2
2
2
y
m
+
s
n
12 .30 + 4 .32

=
= 31, 96.
m =
2
22
s2 + σn
42 + 12
y ∼ N (µ,

Barb có hậu nghiệm là N (m ; s 2 ) trong đó s 2 =

σ2
n

=

22
12

= 0, 3333 →

_

s = 0, 5774, m’ = y = 32.
Chuck tìm hậu nghiệm sử dụng cơng thức
g(µ)f (y1 , y2 , ..., yn /µ)
g(µ)f (y1 , y2 , ..., yn /µ)dµ

g(µ/y1 , y2 , ..., yn ) =
R


Hậu nghiệm của Arnie, Barb, Chuck được thể hiện trong hình 1.3 và 1.4.

Hình 1.3: Tiên nghiệm của Arnie, Barb, Chuck

Ta thấy dù xuất phát với các tiên nghiệm khác nhau nhưng kết quả
thu được là tương tự nhau.


18

Hình 1.4: Hậu nghiệm của Arnie, Barb, Chuck

Với phương sai chưa biết
Ta tính phương sai mẫu σ 2 =

1
n−1

n

(yi − y)2 dựa vào dữ liệu mẫu và

1

tính s , m tương tự trên, trong đó thay σ bởi σ.
3. Ước lượng điểm

Cho (y1 , y2 , ..., yn ) là một mẫu ngẫu nhiên từ một phân phối chuẩn
2


Y ∼ N (µ; σ 2 ), có phân phối mẫu tương ứng là y ∼ N µ, σn
a. Theo tần suất
Sử dụng y để ước lượng khơng chệch cho µ
µF = y
b. Theo Bayes

Sử dụng kỳ vọng của µ trong phân phối hậu nghiệm để ước lượng cho
µ.
1/s2
n/σ 2
µB = E (µ/y1 , y2 , ..., yn ) =
.m +
.y
n/σ 2 + 1/s2
n/σ 2 + 1/s2

(1.6)


19

Ta có
1/s2
n/σ 2
E (µB ) =
.m +

n/σ 2 + 1/s2
n/σ 2 + 1/s2

n/σ 2
V ar (µB ) =
n/σ 2 + 1/s2

2

σ2
. =
n

ns2
ns2 + σ 2

2

.

σ2
n

M S (µB ) = bias2 + V ar (µ) .


Tương tự như đối với p ta cũng có M S (µB ) < M S(µ): Ước lượng theo
F

Bayes tốt hơn tần suất.
4. Ước lượng khoảng
a. Theo tần suất
Khoảng tin cậy (1 − α).100% cho µ là

σ
σ
=1−α
µ − zα/2 √ < y < µ + zα/2 √
n
n
σ
σ
⇔ P y − zα/2 √ < µ < y + zα/2 √
=1−α
n
n

P

b. Theo Bayes
Nếu phương sai đã biết: Nếu sử dụng tiên nghiệm là phân phối
đều hoặc là phân phối chuẩn N (m, s2 ) thì phân phối hậu nghiệm của µ
là N m , s 2 . Một khoảng tin được Bayes (1 − α).100% cho µ là
m ± zα/2 s

(1.7)

trong đó zα/2 là giá trị tìm từ bảng chuẩn tắc.
Nếu phương sai chưa biết: Tính phương sai mẫu từ dữ liệu σ 2 =
1
n−1

n


(yi − y)2 và tính m , s’2 . Có sự khơng chắc chắn trong việc ước

i=1

lượng σ 2 , chúng ta sẽ mở rộng khoảng tin được bằng cách lấy giá trị
bảng phân phối Student’s thay cho phân phối chuẩn tắc. Khoảng tin
được Bayes chính xác là
m ± tα/2 s

(1.8)


20

Tiên nghiệm không chuẩn: Khi chúng ta bắt đầu với một tiên
nghiệm khơng chuẩn, việc tìm phân phối hậu nghiệm cho µ sử dụng định
lý Bayes có sử dụng đến phép lấy tích phân. Phân phối hậu nghiệm sẽ là
khơng chuẩn, và chúng ta có thể tìm khoảng tin dùng Bayes (1−α).100%
như sau
µu

g(µ/y1 , y2 , ..., yn )dµ = 1 − α
µl

c. Mối quan hệ giữa khoảng tin cậy và khoảng tin được từ
tiên nghiệm đều
Nếu với tiên nghiệm cho µ là đều thì hậu nghiệm có kỳ vọng
m = y, s’2 =

σ2

n

vì vậy trong trường hợp này khoảng tin cậy và khoảng tin được Bayes
có dạng
σ
σ
y − zα/2 √ < µ < y + zα/2 √
n
n

(1.9)

Vậy khoảng tin cậy và khoảng tin được bayes là như nhau. Tuy nhiên
có những giải thích khác nhau. Đối với tần suất µ là cố định, các đuôi
của khoảng ngẫu nhiên là tính tốn sử dụng xác suất trên phân phối mẫu
của thống kê y, và khơng cịn tính ngẫu nhiên sau khi trình bày các dữ
liệu. Đối với Bayes µ là biến ngẫu nhiên, khoảng tin được tính từ phân
phối hậu nghiệm.
Ví dụ 1.4.[9] (tiếp). Arnie, Barb, Chuck xác định chiều dài của cá
hồi có phân phối chuẩn N µ, σ 2 = 22 . Họ thu được mẫu ngẫu nhiên
n = 12, trung bình mẫu y = 32cm, khoảng tin cậy 95% cho µ là
σ
2
y ± z0,025 √ = 32 ± 1, 96. √ = (30, 87; 33,13)
n
12


×