bai giang thong ke bayes

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (286.7 KB, 56 trang )

PHẦN MỞ ĐẦU
Hiện tại thống kê có hai trường phái: Thống kê tần suất và thống kê Bayes.
Thống kê tần suất đã ra đời trước, là phương pháp phổ biến hiện nay. Nó dựa trên
những kết quả quan sát mẫu của hiện tại mà không cần để ý đến những thông tin, dữ
liệu đã biết trước. Thống kê Bayes dựa trên những thông tin dữ liệu đã biết trước về
vấn đã quan sát để suy luận cho những thống kê hiện tại. Trước sự phát triển mạnh
mẽ của công nghệ thông tin, đặc biệt là những phần mềm thống kê, việc lưu trữ
những thông tin rất thuận lợi thì thống kê Bayes ngày càng phát triển. Chúng ta có
thể đem thống kê Bayes vào phương pháp tần suất để phát triển nhiều kết quả lý
thuyết cũng như ứng dụng. Chính vì vậy, có thể nói thống kê Bayes là một mảng
kiến thức rộng lớn được rất nhiều nhà thống kê trên thế giới quan tâm, tuy nhiên ở
nước ta vấn đề này chưa được nghiên cứu nhiều.So với các phương pháp khác,
phương pháp thống kê Bayes lập luận theo kinh nghiệm được tích lũy áp dụng vào
mô hình phân loại đối tượng linh hoạt hơn, phù hợp với đặc trưng của bài toán hơn.
Các cơ chế ước lượng cũng gần gũi với cách suy luận thông thường, chính vì vậy
mà các kết quả phân loại tương đối giống với cách phân loại thông thường.
Suy luận Bayes được sử dụng rất rộng rãi trong tất cả các ngành nghề như y
học, kinh tế, tin học,v.v.. Đặc biệt trong xác suất và thống kê hiện nay nó đóng vai
trò cũng hết sức quan trọng.Hiện tại chúng ta tìm được một số biểu thức giải tích
hậu nghiệm cụ thể khi giả sử tiên nghiệm là các hàm mật độ xác suất thông dụng
như Beta, mũ, chuẩn,.. Trong thống kê sử dụng định lý Bayes cho ước lượng và
kiểm định tham số thống kê, cũng như các bài toán phân loại ngày nay trở nên phổ
biến.

1

Chương 1
BIẾN NGẪU NHIÊN VÀ CÁC PHÂN PHỐI
XÁC SUẤT THÔNG DỤNG
1.1 Biến ngẫu nhiên và luật phân phối xác suất

1.1.1 Khái niệm và phân loại
a) Khái niệm
Biến ngẫu nhiên là biến nhận các giá trị là các khả năng có thể của phép thử
ngẫu nhiên với một xác suất nhất định nào đó phụ thuộc vào kết quả của phép thử
ngẫu nhiên.
Các biến ngẫu nhiên thường được ký hiệu bằng các chữ cái hoa như: X, Y, Z,
… hoặc dạng chỉ số: X1, X2, …, Xn; Y1, Y2, …, Yn;…Các giá trị có thể có của biến
ngẫu nhiên được ký hiệu là: x1, x2, …, xm; y1, y2…,ym,…
Một biến ngẫu nhiên coi như được xác định nếu biết được tập các giá trị của
nó và các xác suất mà nó nhận giá trị thuộc tập đó.
b) Phân loại
Gọi tập giá trị của biến ngẫu nhiên X là

X (Ω ) .

Căn cứ vào tập

X (Ω ), biến ngẫu nhiên được chia thành 2 loại: rời rạc và liên tục.
Biến ngẫu nhiên rời rạc: Biến ngẫu nhiên được gọi là rời rạc nếu

X (Ω ) là hữu hạn hoặc vô hạn đếm được, cách quãng nhau.
Biến ngẫu nhiên liên tục: Biến ngẫu nhiên được gọi là liên tục nếu

X (Ω ) lắp đầy một khoảng hay một số khoảng hay toàn bộ trục số.
1.1.2 Hàm mật độ xác suất
a) Đối với biến ngẫu nhiên rời rạc
Giả sử biến ngẫu nhiên rời rạc X có n giá trị có thể xi, i = 1, 2, …, n, với xác
suất tương ứng pi = P(X = xi) > 0, khi đó hàm mật độ xác suất của X (ký hiệu f(x))
được xác định như sau:

 pi khi x = xi , i = 1, 2,..., n
f ( x) = 
 0 khi x ≠ xi

2

Thông thường để thuận lợi trong đánh giá biến ngẫu nhiên rời rạc, hàm mật độ
xác suất được biểu diễn dưới dạng bảng phân phối xác suất như sau:
X
P

x1
p1

x2
p2

…
…

xn
pn

b) Đối với biến ngẫu nhiên liên tục
Hàm số y = f(x) xác định trên R được gọi là hàm mật độ xác suất của biến ngẫu
nhiên liên tục X nếu nó thỏa 2 tính chất sau:
i) f(x) là hàm không âm: f(x)

≥

∀ x,

0

+∞

∫ f ( x)dx = 1

ii)

−∞

.

Về mặt hình học, việc tìm hàm mật độ f(x) có thể xem là việc tìm hàm số f(x)
không âm mà diện tích hình phẳng giới hạn bởi đồ thị y = f(x) và trục hoành bằng 1.
Diện tích này đặc trưng cho tất cả khả năng xảy ra của phép thử. Từ ý nghĩa hình
học này ta rút ra tính chất quan trọng của hàm mật độ xác suất như sau:
b

P(a ≤ X ≤ b) = ∫ f ( x)dx

i)

a

ii) P(a
b) = P(a★Chú

≤X

≤ b) = P(a

ý: Từ định nghĩa hàm mật độ ta có với

≤ X< b) = P(a< X

∆x

≤

đủ bé ta có

P( x ≤ X ≤ x + ∆ x) = f ( x)∆ x
Do đó ta thấy xác suất để X nhận giá trị thuộc lân cận khá bé (x, x +

∆ x) gần như tỉ lệ vớif(x).
1.1.3 Hàm phân phối xác suất
a) Định nghĩa
Hàm phân phối xác suất của biến ngẫu nhiên X (kí hiệu là F(x)) là hàm số được
xác định như sau:
F(x) = P(XCông thức trên có thể cụ thể hóa cho từng loại biến ngẫu nhiên như sau:
3

• Khi X là biến ngẫu nhiên rời rạc nhận các giá có thể có x1, x2, …, xk với
xác suất tương ứng p1, p2, …, pkthì

∑p

xi < x

i

F(x) =
• Khi X là biến ngẫu nhiên liên tục có hàm mật độ xác suất f(x) thì
x

∫ f ( t )dt

F(x) =

−∞

b) Tính chất
Hàm phân phối xác suất có những tính chất sau:

0 ≤ F ( x) ≤ 1 ∀ x.

i)
ii)
iii) F(x) là hàm số không giảm.

F (−∞ ) = 0; F (+ ∞ ) = 1.

P(a ≤ X < b) = F (b) − F (a).

iv)
v)

X là biến ngẫu nhiên liên tục thì F’(x) = f(x).

1.2. Tham số đặc trưng của biến ngẫu nhiên
1.2.1 Kỳ vọng
a) Định nghĩa
• Nếu X là biến ngẫu nhiên rời rạc có bảng phân phối xác suất:
X
P

x1
p1

x2
p2

…
…

xn
pn

thì kỳ vọng của X (kí hiệu là E(X) được xác định bằng công thức:
n

E(X) =

∑xp

i =1

i i

• Nếu X là biến ngẫu nhiên liên tục có hàm mật độ xác suất là f(x) thì kỳ
vọng của X được xác định bằng công thức:
+∞

E(X) =

∫ xf ( x)dx

−∞

b) Tính chất
4

Cho C là một hằng số, X và Y là hai biến ngẫu nhiên. Từ định nghĩa kỳ vọng ta
rút ra được các tính chất sau:
i) E(C)
= C.
ii) E(C.X) = C.E(X).

± Y) = E(X)
± E(Y).
iii) E(X
iv) E(X.Y) = E(X).E(Y) nếu X, Y là 2 biến ngẫu nhiên độc lập.
1.2.2 Phương sai và độ lệch chuẩn
a) Phương sai

i) Định nghĩa
Phương sai của biến ngẫu nhiên X (kí hiệu V(X)) được xác định bằng biểu thức:
V(X) = E[X – E(X)]2
ii) Công thức
Khi X là biến ngẫu nhiên rời rạc:
n

V ( X ) = ∑ xi2 pi − [ E ( X )]2
i =1

Khi X là biến ngẫu nhiên liên tục:

V (X ) =

+∞

∫

x 2 f ( x )dx − [ E ( X )]2

−∞

iii) Tính chất
Cho C là hằng số, X và Y là hai biến ngẫu nhiên, ta có
V(C) = 0.
V(C.X) = C2.V(X).
Nếu X, Y độc lập thì V(X

± Y) = V(X) + V(Y).

b) Độ lệch chuẩn

σ (X ) = V (X )
1.3 Phân phối xác suất nhiều chiều
1.3.1 Phân phối xác suất và các tham sô đặc trưng
Cho , ,…, là các biến ngẫu nhiên, hàm phân phối xác suất chiều của chúng
được định nghĩa như sau:

5

Nếu liên tục thì hàm mật độ xác suất được định nghĩa là

Biến ngẫu nhiên , ,…, được gọi là độc lập nếu các hàm mật độ xác suất của nó
thỏa .
Đặt , . Véctơ trung bình của biến ngẫu nhiên X được định nghĩa bởi biểu thức

Thành phần thứ i của trung bình được tính bởi . trong đó là hàm mật độ xác
suất riêng của biến . Cụ thể

Hiệp phương sai của biến ngẫu nhiên và , kí hiệu bởi được xác định bởi

Ma trận ∑ với phần tử thứ (i,j) là được gọi là ma trận hiệp phương sai.Hệ số
tương quan giữa và được định nghĩa như sau:

1.3.2 Hàm của các biến ngẫu nhiên
a) Trường hợp tổng quát
Gọi

f (x1, x2,..., xn )

là hàm mật độ xác suất của X1, X2, …, Xn. Đặt

i = 1,2,..., n

yi = yi (x1,..., xn )

,
là hàm số thứ i. Chúng ta giả sử
sự thay đổi từ không gian X tới không gian Y là 1-1 có hàm nghịch đảo

xi = xi (y1,..., yn )

, và định nghĩa các biến ngẫu nhiên Y1, Y2, … , Yn bởi

Y i = yi (X 1,..., X n )

. Lúc này hàm mật độ xác suất đồng thời của Y1, Y2,

… , Yn là

g(y1, y2,..., yn ) = f x1(y1, y2,..., yn ),..., xn (y1, y2,..., yn ) J (y1, y2,..., yn ).
Trong đó

J (y1, y2,..., yn )

là định thức Jacobi

6

 ∂x1

 ∂y1
 ∂x2

J (y1,..., yn ) = det  ∂y1
 M

 ∂xn
 ∂y1
Trong

trường

hợp

∂x1 

∂yn 
∂x2 
...

∂yn  .
... M 

∂xn 
...
∂yn 

∂x1
∂y2
∂x2
∂y2
M
∂xn
∂y2

các

...

biến

ngẫu

nhiên

được

xác

định

Y 
X 
1
 
 1
 M = A  M

Y 
X 
 n
 n  với A là ma trận vuông cấp n, vì det(A-1) =

1
det(A) nên tại bất kỳ điểm (y , …, y )
1
n

g(y1,..., yn )

suất đồng thời

y ∈ Rn

∈ R n,

hàm mật độ xác

của Y1, Y2, … , Yn được kí hiệu là g(y),

trở thành

g(y) =

(

)

1
f A − 1y .
det(A)

Trong đó f(x) là hàm mật độ xác suất đồng thời của

X 1, X 2,..., X n

.

b) Trường hợp đặc biệt
Giả sử

X 1, X 2
f (x1, x2),

khi

Y = X1 + X 2

là hai biến ngẫu nhiên có hàm mật độ xác suất đồng thời
đó

hàm mật độ xác suất

g(y) của biến ngẫu nhiên

được cụ thể như sau :

7

g(y) =

+∞

+∞

−∞

−∞

∫ f (z, y − z)dz = ∫ f (y − z, z)dz.

với

− ∞ < y < +∞

Trong trường hợp X1, X2 là hai biến ngẫu nhiên độc lập có hàm mật độ xác suất

f1(x)

f2(x)

,
suất (1.7) trở thành

g(y) =

f (x1, x2) = f1(x)f2(x)

, vì

+∞

nên hàm mật độ xác

+∞

∫ f (z)f (y − z)dz = ∫ f (y − z)f (z)dz.
1

2

1

−∞

2

−∞

với

−∞ < y < +∞

Nguyên hàm này được gọi là tích chập của f và g.
1.4 Một số phân phối xác suất thông dụng
1.4.1 Phân phối Bernoulli
a) Hàm mật độ xác suất

p

Cho tham số

0 ≤ p ≤ 1 . Biến ngẫu nhiên rời rạc X

thõa

được gọi là có phân phối Bernoulli với tham số p (Kí hiệu:
nếu hàm mật độ xác suất của nó được xác định như sau:

X ~ Be( p) )

 p x q1− x khi x = 0,1
f ( x) = 
khi x ≠ 0,1
0
b) Tham số đặc trưng
Nếu

X ~ Be ( p) thì

Trung bình:

E ( X ) = p.

Phương sai:

Var ( X ) = pq.

1.4.2 Phân phối nhị thức
a) Hàm mật độ xác suất
Biến ngẫu nhiên rời rạc X được gọi là có phân phối nhị thức với 2 tham số n
và p(Kí hiệu: X ~ B(n, p)), nếu hàm mật độ xác suất của nó được xác định như sau:

8

 Cnx p x q1− x khi x = 0, 1, ... , n
f ( x) = 
khi x ≠ 0, 1, ... , n
0
b) Tham số đặc trưng
Nếu X ~ B(n, p) thì
Trung bình:

E ( X ) = np .

Phương sai:

Var ( X ) = npq .

★Chý ý:Nếu X1,X2,…, Xn là các biến ngẫu nhiên độc lập có phân phối nhị thức: X i
~

B(ni,

i = 1, 2, ..., n

p),

X = X 1 + X 2 + ... + X n

thì

biến

ngẫu

nhiên

sẽ có phân phối nhị thức B(n, p), trong đó

n = n1 + n2 + ... + nn .
1.4.3 Phân phối Poisson
a) Hàm mật độ xác suất
Biến ngẫu nhiên rời rạc X được gọi là có phân phối Poisson với tham số

λ > 0 (Kí hiệu:

X ~ P(λ ) ), nếu hàm mật độ xác suất của nó được

xác định như sau:

 λ xe− λ
khi x = 0, 1, ..., n

f ( x) =  x !
0

khi x ≠ 0, 1, ..., n

b) Tham số đặc trưng
Nếu

X ~ P (λ )

thì

Trung bình:

E (X ) = λ .

Phương sai:

Var ( X ) = λ

.

★Chú ý:
9

X 1 , X 2 , ..., X n

i) Nếu

là các biến ngẫu nhiên rời rạc, độc lập nhau

λ i,

có phân phối Poisson với trung bình

X = X 1 + X 2 + ... + X n

ngẫu nhiên

λ

trung bình

cũng có phân phối Poisson với tham số

λ 2+…+

λ 1+

=

i = 1, 2, ... n thì biến

λ n.

B(n, p) khi n lớn và p nhỏ (thông thường

ii) Phân phối nhị thức

P(λ ) , trong đó

p < 0.1) sẽ xấp xĩ phân phối Poisson

λ = np.

1.4.4 Phân phối chuẩn
a) Hàm mật độ xác suất
Biến ngẫu nhiên liên tục X được gọi là có phân phối chuẩn với hai tham số

µ

σ

và
xác định như sau:

2

σ > 0) nếu hàm mật độ xác suất của nó được

(

 ( x − µ )2 
1
f ( x) =
exp  −
÷
2σ 
σ 2π


N(µ ,σ 2 ) .

Ký hiệu: X~

Đặt
tắc.

Y=

x−µ
σ , khi đó Y ~ N(0, 1). Lúc này ta nói Y có phân phối chuẩn

b)Tham số đặc trưng

(

X ~ N µ ,σ 2

Nếu

Trung bình:
Phương sai:

)

thì

E (X ) = µ

.

Var ( X ) = σ 2 .

c) Công thức tính xác suất

10

Nếu

µ,

X~N(

σ

2

)

thì

 x − µ   x1 − µ 
P( x1 ≤ X ≤ x 2 ) = ϕ  2
 −ϕ

 σ   σ ,

1 x  x2 
ϕ ( x) =
exp − 

∫
2π 0  2  .

trong đó

★Chú ý: Chúng ta có một số kết quả quan trọng sử dụng trong các ứng dụng của
thống kê liên quan đến phân phối chuẩn như sau:
i) Nếu X1, X2, …, Xn là các biến ngẫu nhiên độc lập nhau có phân phối

X i ~ N ( µ i , σ i2 )

chuẩn

, i = 1, 2,…, n. Khi đó biến ngẫu nhiên

X = a1X1 + a2X2 + … + anXn

µ = a1

cũng có phân phối chuẩn với tham số trung bình

µ2

+

…

+

an

µn

và

µ 1 + a2
phương

sai

σ 2 = a12σ 12 + a 22σ 22 + ... + a n2σ n2 .
ii) Nếu X1, X2,…, Xn là các biến ngẫu nhiên rời rạc, độc lập nhau có phân

µ,

phối chuẩn N(

σ

2

), i = 1, 2,…, n thì biến ngẫu nhiên

1 n
X = ∑ Xi
n i =1
có phân phối chuẩn với trung bình

E (X ) = µ và

σ2
Var ( X ) =
n .

phương sai

1.4.5 Phân phối Gamma và phân phối mũ
a)Hàm mật độ xác suất
Biến ngẫu nhiên liên tục Xđược gọi là có phân phối Gamma với 2 tham số

α

và

β

, nếu hàm mật độ xác suất của nó được xác định bởi

11

 β α α −1 − β x
x e khi x > 0

f ( x ) =  Γ (α )
0
khi x ≤ 0


α

Γ (α ) ,

trong đó

> 0 được xác định bởi công thức:
∞

Γ (α ) = ∫ x α −1e − x dx = (α − 1)Γ (α − 1).
0

X ~ G(α , β ).

Ký hiệu:
b) Tham số đặc trưng

X ~ G (α , β )

Nếu

thì

E (X ) =
Trung bình:

Var ( X ) =
Phương sai:

α
β.

α
β2 .

★Chú ý: Chúng ta có một số kết quả sau:
i) Nếu X1, X2,…, Xn là các biến ngẫu nhiên rời rạc, độc lập nhau có phân phối
Gamma với tham số

α i và

β

, i = 1, 2, …, n thì biến ngẫu nhiên

X=X1 +X2+…+Xn
có phân phối Gamma với tham số

α 1 + α 2 + ... + α n

và

β

.

α = 1 phân phối Gamma được gọi là phân phối mũ. Như vậy
ii) Khi
đối với phân phối mũ ta có hàm mật độ xác suất:
 β e − β x khi x > 0
f (x | β ) = 

khi x ≤ 0
0
Kí hiệu: X~ E(

β

).

12

β

Nếu X~ E(

) thì các hàm số đặc trưng được xác định:

1
1
, Var(X) = 2 .
β
β

E( X ) =
1.4. 6 Phân phối Beta

a) Hàm mật độ xác suất
Biến ngẫu nhiên liên tục X được gọi là có phân phối Beta với 2 tham số

α

β

> 0,

>0 nếu hàm mật độ xác suất của nó được xác định bởi:

 Γ (α + β ) α −1
x (1 − x) β −1

f ( x) =  Γ (α )Γ ( β )
0


α

Kí hiệu: Beta(

β

,

khi 0 < x < 1
khi x ∉ [0, 1]

).

b) Tham số đặc trưng

α

Nếu X ~ Beta(

β

,

E (X ) =
Trung bình:

α
α +β .

Var ( X ) =
Phương sai:

) thì

αβ
.
(α + β ) 2 (α + β + 1)

1.5 Một số xấp xỉ luật phân phối xác suất của mẫu ngẫu nhiên
1.5.1 Xấp xỉ phân phối chuẩn

i)

Z=

Khi X có phân phối chuẩn

X−µ

σ/ n

(

X ~N µ , σ 2

)

thì

( )

~N 0,1 .

13

n → ∞ , từ định lý giới hạn

ii) Khi X không có phân phối chuẩn và

trung tâm ta có

X−µ

X−µ

σ / n và

S / n đều hội tụ về phân phối

n ≥ 30) ta có các phân phối xấp xỉ

chuẩn tắc. Trong thực tế với n đủ lớn (
sau:

X−µ
- Nếu biết phương sai tổng thể

σ

2

σ/ n

thì

~N (0,1)
và

 σ2
X ~N  µ , ÷.
 n
X−µ
-Nếu chưa biết phương sai tổng thể

σ

2

S/ n

thì

~N (0,1)

 S2 
X ~N  µ , ÷.
 n

và

iii) Giả sử trong tổng thể, ta quan tâm tỷ lệ phần tử có tính chất A (kí hiệu: p).
Chọn một mẫu ngẫu nhiên gồm n phần tử.

Đặt
Từ luật số lớn ta có

) 1 n
P = ∑ X i,
n i =1
trong đó

 Xi = 1

 Xi = 0

) P ,hcc
P →
p.
)
P −p

Theo định lý giới hạn trung tâm ta có

p(1 − p)
n

→ N (0,1).

14

Trong

thực

hành

np ≥ 5; n(1 − p) ≥ 5

với

thì

 p(1 − p) 
F ~N  p,

÷
n 

. Vì p chưa biết nên với n đủ lớn, gọi f là tỷ lệ phần
tử có tính chất A của mẫu thì

)
 f(1 − ) 
P ≈ N  f,
÷
n 

.
1.5.2 Xấp xỉ phân phối Khi bình phương và phân phối Student

i) Khi X có phân phối chuẩn

(

X ~N µ, σ 2

) thì

nS 2 1 n
= 2 ∑ (X i − µ )2 ~ χ n2
2
σ
σ i =1
(n − 1)S 2 1 n
= 2 ∑ (X i − X )2 ~ χ n2−1.

2
σ
σ i =1
ii) Nếu n< 30, chưa biết phương sai của tổng thể và X có phân phối chuẩn thì

X−µ
S/ n

~tn−1

Phân phối xác suất của mẫu ngẫu nhiên là nền tảng quan trọng để thực hiện
các thống kê như ước lượng, kiểm định, phân tích hồi qui, …

15

Chương 2
PHÂN PHỐI XÁC SUẤT HẬU NGHIỆM

2.1 Định lý Bayes
2.2.1 Định lý Bayes cho biến rời rạc
a) Khái niệm

A1 , A2 , ..., An

Gọi S là không gian mẫu của phép thử, ta gọin biến cố
là một hình thức chia của S nếu thỏa mãn 2 điều kiện:

 A1 + A2 + ... + An = S


 Ai A j = φ
■ Nhận xét: Gọi B là một biến cố bất kỳ của S. Nếu

A1 B, A2 B, ..., An B

hình thức chia của S thì

A1 , A2 , ..., An

là một

sẽ là một hình thức chia của B.

b) Định lý Bayes
Giả sử

A1 , A2 , ..., An

là một hình thức chia của S, B là một biến cố bất

kỳ
trong S thì

P( Ai | B) =

P( Ai ) P( B | Ai )
n

∑ P( A ) P ( B | A )
i =1

i

i

(1.1)

Trong đó P(Ai) được gọi là xác suất tiên nghiệm ban đầu của biến cố Ai.
16

2.2.2 Định lý Bayes cho biến liên tục
Hàm phân phối xác suất có điều kiện của biến ngẫu nhiên X khi biến cố

Ai
đã xảy ra được xác định như sau:

F ( x | Ai ) =

P({X ≤ x}, Ai )
P ( Ai )

F (+ ∞ | Ai ) = 1

Trong đó

F (−∞ | Ai ) = 0 .

và

Hàm mật độ xác suất có điều kiện của biến ngẫu nhiên X khi biến cố Ai xảy
ra được xác định như sau:

f ( x | Ai ) =

P( x ≤ X ≤ x + ∆ x | Ai )
dF
= lim
dx ∆ x→ 0
∆x

Giả sử quan sát biến ngẫu nhiên X trên k tổng thể

f i (x) và

hàm mật độ xác suất

w1 , w2 , ..., wk

xác suất tiên nghiệm

có

qi ,

i = 1, 2, ..., k ,

khi đó theo Webb (2002) kết quả (1.1)được mở rộng cho
trường hợp liên tục như sau:
k

k

i =1

i =1

f ( x) = ∑ P( wi ) f ( x | wi ) = ∑ qi f i ( x).
P( w i | x) =

P( wi ) f ( x | wi )
q f ( x)
= k i i
.
f ( x)
∑ qi f i ( x )
i =1

Trong đó
tổng thể và

P( Ai ) = qi

f (x)

được gọi là hàm mật độ xác suất kết hợp của các

là xác suất tiên nghiệm để x thuộc vào tổng thể wi.

17

Khi X và Y là 2 đại lượng ngẫu nhiên liên tục, theo định lý Bayes cho trường
hợp này thì hàm mật độ xác suất có điều kiện
sau:

f ( x | y) =

∫

f ( x | y)

được xác định như

f ( x) f ( y | x)
f ( x) f ( y | x)dx

2.2.2 Xác suất trong chẩn đoán
Giả sử một người đến khám bệnh, với những dấu hiệu ban đầu, lời khai của
người bệnh, qua kinh nghiệm, bác sĩ chẩn đoán người này có khả năng bị bệnh B
với xác suất bị bệnh

P( B + )

P( B + )

P( B − )

và không bị bệnh

(ta gọi

P( B − ) là xác suất tiên nghiệm bị bệnh hoặc không

hoặc
bị bệnh của người này) . Cho người này làm xét nghiệm T, kết quả xét nghiệm này
có thể dương tính (
những vấn đề sau:

T + ), hoặc âm tính (

T − ). Lúc này ta xem xét

a) Đánh giá một xét nghiệm
Một xét nghiệm được đánh giá qua các khái nghiệm sau:
* Độ nhạy còn được gọi là dương thật:
* Dương giả:

P(T + | B − ) .

* Độ chuyên còn được gọi là âm thật:
* Âm giả:

P(T + | B + ) .

P(T − | B − ) .

P(T − | B + ) .

Một xét nghiệm có độ nhạy và độ chuyên lớn là một xét nghiệm tốt.

Trong thực tế không có xét nghiệm có độ nhạy và độ chuyên 100%. Khi có nhiều
xét nghiệm để lựa chọn, thông thường tùy theo đánh giá ban đầu của mình, bác sĩ sẽ
quyết định xét nghiệm có lợi cho bệnh nhân. Nếu nghi ngờ khả năng bị bệnh nhiều
hơn, ta sẽ ưu tiên xét nghiệm có độ nhạy lớn hơn, ngược lại ta lựa chọn xét nghiệm
có độ chuyên lớn hơn.
b) Xác suất chẩn đoán bệnh
18

Sau khi cho một người làm xét nghiệm T, xét nghiệm này có thể trả lại dương tính

B+

và âm tính. Xác suất hậu nghiệm của
+

B − , khi biết kết

hoặc

−

T hoặc
T chính là xác suất chẩn đoán bệnh B
quả xét nghiệm
của người này. Cụ thể ta có hai khái niệm sau:
PV + = P( B + | T + ).

* Giá trị tiên đoán dương:

PV − = P( B − | T − ).

* Giá trị tiên đoán âm:

★Chú ý: Nếu ta cho một người lần lượt cho làm nhiều xét nghiệm, thì giá trị tiên
đoán của xét nghiệm trước chính là xác suất tiên nghiệm của xét nghiệm sau. Giá
trị tiên đoán dương của xét nghiệm sau cùng, chính là xác suất chẩn đoán người
này bị bệnh B.
2.2 Bảng phân phối xác suất hậu nghiệm
2.2.1 Trường hợp tổng quát
a) Bài toán

X có thể nhận giá trị với xác suất chưa biết. Giả
Biến ngẫu nhiên
sử có xác suất tiên nghiệm lần lượt là Tiến hành m lần phép thử. Gọi Y là kết quả
nhận được. Giả sử Y nhận được các giá trị cụ thể . Dựa vào các thông tin trên ta cần
lập bảng phân phối xác suất hậu nghiệm cho X.
b) Phương pháp thực hiện
Gọi là xác suất đồng thời để biến ngẫu nhiên nhận giá trị và biến ngẫu nhiên
nhận giá trị . Khi đó,

(

P ( xi , y1 ) = P ( X = xi ) P Y = y1 X = xi

)

(2.1)

trong đó

Theo công thức (2.1) thì xác suất hậu nghiệm của và được xác định như sau:

(

)

pi(1) = P X = xi |Y = y1 =

(

) (
∑ P ( X = x ) P (Y

P X = xi P Y = y1 | X = xi

n

i =1

i

)

= y1 | X = xi

)

.
(2.2)

Thực hiện tiếp phép thử thứ 2 với , sử dụng phân phối tiền nghiệm được xác
định bởi (2.2) ta sẽ tính được :
19

(

pi(2) = P X = xi |Y = y2
=

(

) (
∑ P ( X = x ) P (Y

)

) (
) (
)
= y | X = x ) .P ( Y = x ) P ( X = y | X = x ,Y = y )

P X = xi P Y = y1 | X = xi .P Y = xi P Y = y2 | X = xi ,Y = y1

2

i

i =1

1

i

i

2

i

1

Cứ tiếp tục thực hiện như vậy ta sẽ có xác suất hậu nghiệm ở giai đoạn thứ m là

pi(m) =

(

P (X = xi )P Y = (y1, y2,..., ym | xi )
m

∑P (X
i =1

) (

)

= xi P Y = (y1, y2,..., ym | xi )

)

,
(2.3)

với

( (

)) (

) (

)

P Y = y1, y2,..., ym xi = P Y = y1 X = xi P Y = y2 X = xi ,Y = y1 ...

(

)

.P Y = ym X = xi ,Y = y1,Y = y2,...,Y = ym−1 .
2.2.2 Một số trường hợp cụ thể
a) Tham số tỷ lệ trong phân phối nhị thức
■ Bài toán
Giả sử biến ngẫu nhiên X có phân phối nhị thức B(l;p) trong đó xác suất thành
công được giả sử là biến ngẫu nhiên rời rạc có thể nhận các giá trị: với xác suất
tiên nghiệm tương ứng . Chọn một mẫu gồm n phần tử và gọi Y là số lần thành
công. Ta cần tìm bảng phân phối xác suất hậu nghiệm của p khi Y nhận giá trị cụ thể
.

■ Phương pháp thực hiện
Ta có bảng phân phối xác suất hậu nghiệm của tham số p như sau:

trong đó

20

(B)
i

p

(

)

= P p = xi |Y = k =

(

) (
∑ P ( p = p ) P (Y

P p = pi P Y = k | p = pi

n

i

i =1

)

= k | p = pi

)

,

(2.4)
với

b) Tham số trung bình của phân phối chuẩn
■ Bài toán
Cho biến ngẫu nhiên X có phân phối chuẩn với đã biết và chưa biết. Giả sử
nhận được các giá trị với xác suất tiên nghiệm . Chọn một mẫu ngẫu nhiên, được
giá trị cụ thể của là , ta cần tìm xác suất hậu nghiệm cho các giá trị của .
■ Phương pháp thực hiện
Ta có bảng phân phối xác suất hậu nghiệm của như sau:

trong đó

(

)

pi(N) = P µ = µ i | X = x0 =

(

) (
) ,
∑P ( µ = µ ) f (x |µ )
P µ = µ i f x0 | µ i

N

i =1

i

0

i

(2.5)

với

 x −µ 2
(
)
1
f x0 µ i =
exp − 0 2 i ÷.

÷
2σ
σ 2π




(

)

Khi có nhiều giai đoạn, ta lần lượt tìm xác suất hậu nghiệm của qua từng giai
đoạn một và xác suất hậu nghiệm của giai đoạn trước chính là xác suất tiên nghiệm
cho giai đoạn sau. Bảng phân phối xác suất hậu nghiệm của chính là xác suất hậu
nghiệm của giai đoạn cuối cùng.
2.3 Hàm mật độ xác suất hậu nghiệm
2.3.1 Trường hợp tổng quát
Xét biến ngẫu nhiên với hàm mật độ xác suất có tham số chưa biết. Giả sử
có hàm mật độ xác suất tiên nghiệm . Thực hiện một quan sát, ta được giá trị cụ thể
của là . Khi đó hàm mật độ xác suất hậu nghiệm của được xác định như sau:
21

X nhận nhiều giá trị quan sát thì hàm mật độ xác
Trong trường hợp
suất hậu nghiệm của trở thành như sau:
1 n
x = ∑ xi .
n i =1

trong đó

2.3.2 Trường hợp phân phối nhị thức
Định lý 2.1 Giả sử biến ngẫu nhiên

X có

phân phối nhị thức

( ) , trong đó xác suất thành công là biến ngẫu nhiên có hàm mật độ

B l; p

xác suất tiên nghiệm . Thực hiện lần các phép thử, ta có số lần thành công là m, khi
đó p có phân phối hậu nghiệm là trong đó

Chứng minh.
Ta có

và

Theo (2.6) ta có phân phối hậu nghiệm của p được xác định bởi

Do đó

Đặt khi đó

Do đó

Chú ý: Nếu có hàm mật độ xác suất tiên nghiệm đều trên thì

Khi đó

22

Mặt khác

Đặt khi đó

Do đó

Như vậy, khi tham số p có phân phối tiên nghiệm đều trên [0, 1] thì kết quả
hàm phân phối xác suất hậu nghiệm của p là trường hợp đặc biệt khi tham số p có
phân phối với .
2.3.3 Trường hợp phân phối chuẩn
Định lý 2.2 Cho biến ngẫu nhiên X có phân phối chuẩn với tham số trung bình là
chưa biết, phương sai đã biết. Giả sử có phân phối chuẩn . Thực hiện một quan sát
ta được một giá trị cụ thể của X là , khi đó phân phối hậu nghiệm của là phân phối
chuẩn với

Chứng minh.
Theo định lý Bayes cho biến liên tục ta có

(

)

g µ x0 =

(

g( µ ) . f x0 µ
+∞

)

∫ g( µ ) . f ( x µ ) dµ

,

0

−∞

trong đó ,
Ta có

Xét

với M là hằng số được điều chỉnh thích hợp.
Do đó

23

Đặt

Khi đó phân phối hậu nghiệm của là phân phối chuẩn với:

Chú ý: Khi thực hiện n lần quan sát cho X ta nhận được các giá trị cụ thể khi đó
hàm mật độ xác suất cho được xác định như sau

(

)

( ) .
∫ g( µ ) . f ( x µ ) dµ

g µ x1, x2,..., xn = +∞

g( µ ) . f x µ

−∞

Xét trong trường hợp đặc biệt có phân phối chuẩn và có hàm mật độ:

Thì phân phối hậu nghiệm của cũng là phân phối chuẩn với

2.3.4 Trường hợp phân phối Possion

X

Định lý 2.3 Nếu

λ , phân phối tiền nghiệm của
số

α

β

và

(

X = x = x1, x2,..., xn

là

nx + α

và

Poisson

có phân phối

λ

là

Gamma với tham

thì phân phối hậu nghiệm của

)

cũng là phân phối

với tham số

λ

khi

Gamma với tham số

β
1 + nβ .

Chứng minh.

24

x1, x2,..., xn

Nếu

là mẫu được quan sát từ biến ngẫu nhiên

(

x = x1, x2,..., xn

X

thì hàm mật độ đồng thời (hàm hợp lý) của
được xác định như sau:

( )

(

)

n

) ∏ f ( x |θ )

L λ = f x; λ =

i =1
n

i

x

λ i e− λ
=∏
xi !
i =1
x + x +...+ x
λ 1 2 n e− nλ  x1 + x2 + ... + xn

=
; 
= x÷
÷.
x1 !x2 !...xn ! 
n



( ) nên hàm mật độ tiền nghiệm của

λ ~Gamma α , β

Vì

 λ
λ α −1 exp  −
 β
π λ =
β αΓ α

( )

λ

( )

λ

là:

λ

sẽ có


÷

,

là biến ngẫu nhiên liên tục nên ta có hậu nghiệm của

dạng sau:

 λ
e−nλ λ nxλ α −1 exp  − ÷
 β
π λ |x µ f x |λ π λ =
βαΓ α
 λ 1 + nβ
λ nx+α −1 exp  −

β

=
βαΓ α
 λ 1 + nβ
λ nx+α −1 exp  −

β

µ
β nx+α Γ nx + α

(

)

(

) ( )

( )

(

(

) ÷

( )
(

) ÷

)

÷


÷
.

Từ đây ta có kết quả chứng minh

25

bai giang thong ke bayes

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về