Tải bản đầy đủ (.pdf) (33 trang)

Mô phỏng xích markov bằng thuật toán metropolis hastings

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (155.53 KB, 33 trang )

1

Mục lục

Mở đầu...............................................................................................2
Chương 1. Các kiến thức chuẩn bị...............................................4
1.1. Biến ngẫu nhiên và các số đặc trưng của biến ngẫu nhiên ......4
1.1.1. Biến ngẫu nhiên ................................................................4
1.1.2. Các số đặc trưng ...............................................................7
1.2. Xích Markov .............................................................................9
1.2.1. Lý thuyết xích Markov ......................................................9
1.2.2. Tính ergodic ......................................................................12
1.2.3. Tính khả nghịch ................................................................14
1.3. Mơ phỏng biến ngẫu nhiên .......................................................14
1.3.1. Phương pháp chung ...........................................................14
1.3.2. Phương pháp Monte Carlo ................................................16
Chương 2. Mơ phỏng xích Markov ..............................................19
2.1. Thuật tốn Metroloplis-Hastings ..............................................19
2.1.1. Thuật toán ........................................................................19
2.1.2. Bổ đề .................................................................................20
2.1.3 Mệnh đề ..............................................................................21
2.2. Sự triệt tiêu hàm sinh ...............................................................22
2.2.1. Định lý ...............................................................................22
2.2.2. Các ví dụ ...........................................................................24
2.2.3. Các định lý hội tụ .............................................................25
2.2.4. Các ví dụ ...........................................................................26
Kết luận .............................................................................................28
Tài liệu tham khảo ............................................................................29


2



MỞ ĐẦU

Đầu thế kỷ XX, nhà vật lý và bác học nổi tiếng người Nga A.A.
Markov đã đưa ra một mơ hình tốn học để mơ tả chuyển động của các
phân tử chất lỏng trong một bình kín. Sau này mơ hình được phát triển
và mang tên là: Q trình Markov. Xích Markov là trường hợp riêng của
q trình Markov.
Xích Markov Monte Carlo (MCMC) là một phương pháp Monte Carlo
dựa trên việc lấy mẫu từ q trình của xích Markov. Mặc dù trong những
năm gần đây thuật toán Metropolis Hastings (M-H) đã được sử dụng rộng
rãi trong ngành vật lý (Metropolis, Rosenbluth, Teller và Teller (1953))
nhưng thuật tốn đã khơng được nhận được nhiều sự chú ý của các
nhà thống kê. Hastings (1970) là người đầu tiên khái quát phương pháp
Metropolis, và do đó thuật tốn này được gọi là thuật toán MetropolisHastings (M-H). MCMC đã nhận được nhiều sự quan tâm lý thuyết và
trong một số lượng lớn các ứng dụng.
Để tập dượt nghiên cứu khoa học và nâng cao hiểu biết của mình, hồn
thành luận văn tốt nghiệp cao học, chúng tơi đã quan tâm tới thuật tốn
Metropolis-Hastings. Do đó chúng tơi đã mạnh dạn nghiên cứu đề tài
"Mơ phỏng xích Markov bằng thuật tốn Metropolis-Hastings".
Tài liệu chính chúng tôi tham khảo trong luận văn này là bài báo
"Geometric convergence of the Metropolis-Hasting simulation algorithm"
của tác giả Lars Holden và "Metropolis Hastings Markov Chain Monte
Carlo" của tác giả Chuang Yi (xem [3] và [4]).


3

Nội dung của luận văn được chia làm hai chương:
Chương 1. Kiến thức cơ sở. Trong chương này, chúng tôi trình bày

các khái niệm cơ bản của lý thuyết xác suất về biến ngẫu nhiên, xích
Markov. Ngồi ra, chúng tơi trình bày thêm một số khái niệm và kiến
thức liên quan về phương pháp mô phỏng biến ngẫu nhiên, đặc biệt là
phương pháp mô phỏng Monte Carlo.
Chương 2. Mô phỏng xích Markov. Trong chương này, chúng tơi
trình bày về thuật tốn Metropolis-Hastings và các định lý liên quan đến
tính chất hội tụ của thuật tốn, từ đó chúng tơi sử dụng thuật tốn để
mơ phỏng Xích Markov, và đưa ra một số ví dụ minh hoạ.
Luận văn được hồn thành tại Trường Đại học Vinh dưới sự hướng
dẫn của thầy giáo, TS. Nguyễn Trung Hồ. Nhân dịp này tơi xin được
tỏ lòng biết ơn sâu sắc tới thầy giáo trong tổ Xác suất thông kê đã giảng
dạy, chỉ bảo cho tôi trong suôt thời gian học tập và nghiên cứu.
Cũng nhân dịp này tôi xin gửi lời cám ơn các thầy giáo, cơ giáo trong
khoa Tốn, khoa sau Đại học đã tạo điều kiện cho tơi trong q trình
học tập và nghiên cứu. Tơi xin bày tỏ lịng biết ơn đối với bạn bè và gia
đình đã tạo điều kiện thuận lợi cho tơi hồn thành luận văn này.

Vinh, tháng 12 năm 2011

Tác giả


4

CHƯƠNG 1
CÁC KIẾN THỨC CHUẨN BỊ

1.1. Biến ngẫu nhiên và các số đặc trưng của biến ngẫu nhiên.
1.1.1 Biến ngẫu nhiên.
Giả sử (Ω, F, P ) là không gian xác suất, G là σ- đại số con của σđại số F. Khi đó ánh xạ X : Ω → R được gọi là biến ngẫu nhiên G- đo

(
được nếu nó là ánh xạ G/B(R) đo được tức là với mọi B ∈ B(R) thì
)
X −1 (B) ∈ G .
Trong trường hợp đặc biệt, khi X là biến ngẫu nhiên F- đo được, thì
X được gọi là biến ngẫu nhiên.
Biến ngẫu nhiên còn được gọi là đại lượng ngẫu nhiên.
Biến ngẫu nhiên G- đo được là biến ngẫu nhiên. Nếu X là biến ngẫu
nhiên thì họ:

(
)
σ(X) = X −1 (B) : B ∈ B(R)

lập thành một σ- đại số con của σ- đại số F, σ- đại số này gọi là σ- đại
số sinh bởi X. Đó là σ- đại số bé nhất mà X đo được. Từ đó suy ra X là
biến ngẫu nhiên G- đo được khi và chỉ khi σ(X) ⊂ G.
Định lý 1. X là biến ngẫu nhiên khi và chỉ khi một trong các điều kiện
sau đây được thoả mãn
(
)
(i) (X < a) := ω : X(ω) < a ∈ F với mọi a ∈ R.
(
)
(ii) (X a) := ω : X(ω) a ∈ F với mọi a ∈ R.
(
)
(iii) (X > a) := ω : X(ω) > a ∈ F với mọi a ∈ R.
(
)

(iv) (X a) := ω : X(ω) a ∈ F với mọi a ∈ R.


5

Định lý 2. Giả sử X1 , X2 , X3 , . . . , Xn là các biến ngẫu nhiên cùng xác
(
định trên (Ω, F, P ), f : Rn → R là hàm đo được tức f là B(Rn )/B(R)
)
đo được . Khi đó
Y = f (X1 , . . . , Xn ) : Ω → R
(
)
ω → f X1 (ω), . . . , Xn (ω)
là biến ngẫu nhiên.
Hệ quả. Giả sử X, Y là biến ngẫu nhiên cùng xác định trên (Ω, F, P )
f : R → R là hàm liên tục a ∈ R. Khi đó: aX, X ± Y, |X|, f (X),
X + = max(X, 0), X − = max(−X, 0), X
Y , (Y ̸= 0) đều là các biến ngẫu
nhiên.
Định lý 3. Giả sử (Xn , n

1) là dãy các biến ngẫu nhiên cùng xác định

trên (Ω, F, P ). Khi đó, nếu inf Xn , sup Xn là hữu hạn thì inf Xn , sup Xn ,
n

n

n


n

limXn , limXn , lim Xn (nếu tồn tại,) đều là biến ngẫu nhiên.
n→∞

Định lý 4. Nếu X là biến ngẫu nhiên không âm thì tồn tại dãy biến ngẫu
nhiên đơn giản, khơng âm (Xn , n

1) sao cho Xn ↑ X (khi n → ∞).

Giả sử (Ω, F, P ) là không gian xác suất, X : Ω → R là biến ngẫu
nhiên. Khi đó hàm tập
Px : B(R) → R

(
)
B → Px (B) = P X −1 (B)

được gọi là phân phối xác suất của X.
Ta có các tính chất sau đây của phân phối xác suất
1. PX là độ đo xác suất trên B(R).
Thật vậy

(
)
(i) PX (B) = P X −1 (B)
0, ∀B ∈ B(R).
( −1 )
(ii) PX (R) = P X (R) = P (Ω) = 1.

(iii) Giả sử (Bn )⊂ B(R), Bi Bj = ϕ (i ̸= j). Lúc đó:
X −1 (Bi )X −1 (Bj ) = X −1 (Bi Bj ) = ϕ(i ̸= j).


6

Suy ra:

(

PX




(

)
Bn

X −1

=P

n=1

=





(




(

))
Bn

n=1

(
P X −1 (Bn )=

n=1

=P






)
X −1 (Bn )

n=1


PX (Bn ).

n=1

2. Nếu Q là độ đo xác suất trên B(R) thì Q là phân phối xác suất của
một biến ngẫu nhiên X nào đó.
Giả sử (Ω, F, P ) là không gian xác suất, X : Ω → R là biến ngẫu
(
)
nhiên. Khi đó, hàm số FX (x) = P (X < x) = P ω : X(ω) < x được gọi
là hàm phân phối của X.
[
]
[
]
Nhận xét: FX (x) = P X −1 (−∞, x) = PX (−∞, x) .
Ta có các tính chất sau đây cho hàm phân phối
• 0

F (x)

1.

• Nếu a < b thì F (b) − F (a) = P (a

X < b); do đó F (x) là hàm

khơng giảm.



lim F (x) = 1; lim F (x) = 0.

x→+∞

x→−∞

Một biến ngẫu nhiên được gọi là biến ngẫu nhiên rời rạc nếu nó chỉ
nhận được một số hữu hạn hoặc đếm được giá trị.
Biến ngẫu nhiên X được gọi là biến ngẫu nhiên liên tục nếu hàm phân
phối F (x) của nó là hàm liên tục và tồn tại hàm số p(x) sao cho
• p(x)
• F (x) =

0; −∞ < x < +∞.
+∞


p(t)dt; −∞ < x < +∞.

x

Hàm số p(x) nêu trên được gọi là hàm mật độ xác suất của X.
Hàm mật độ xác suất của X có các tính chất


7

• Với mọi a, b thoả mãn −∞

a


+∞ ta có.

∫b
p(x)dx

P (a < x < b) =
a



+∞


p(x)dx = 1

−∞

• p(x) = F ′ (x) tại mọi điểm mà p(x) liên tục.
Biến ngẫu nhiên X gọi là có phân phối đều trên [a, b], kí hiệu X ∼
U [a, b], nếu hàm mật độ phân phối xác suất có dạng
{
0
nếu x < a, x > b
P (x) =
1
x b
b−a nếu a
1.1.2 Các số đặc trưng.


(
)
Giả sử X : (Ω, F, P ) → R, B(R) là biến ngẫu nhiên. Khi đó tích
phân Lebergue của X theo độ đo P (nếu tồn tại) được gọi là kỳ vọng
của X và ký hiệu là EX.



Vậy
EX =

XdP


Nếu tồn tại E|X|p < ∞ (p > 0) thì ta nói X khả tích bậc p. Đặc biệt,
nếu E|X| < ∞, thì X được gọi là biến ngẫu nhiên khả tích.
Ta có các tính chất của kỳ vọng.
1. Nếu X

0 thì EX

0.

2. Nếu X = C thì EX = C.
3. Nếu tồn tại EX thì với mọi C ∈ R, ta có E(CX) = CEX.
4. Nếu tồn tại EX và EY thì E(X ± Y ) = EX ± EY .
Nếu X rời rạc và nhận các giá trị x1 , x2 , . . . với P (X = xi ) = pi thì

EX =
xi p i .

i


8

Nếu X liên tục với hàm mật độ p(x) thì EX =

+∞


xp(x)dx.

−∞

Tổng quát hơn, nếu f : R → R là hàm đo được và Y = f (X) thì
• Nếu X rời rạc và nhận các giá trị x1 , x2 , . . . với P (X = xi ) = pi thì

f (xi )pi
EY =
i

• Nếu X liên tục với hàm mật độ p(x) thì

∫+∞
EY =
f (x)p(x)dx
−∞

5. Định lý P. Levy về sự hội tụ đơn điệu.
Nếu Xn ↑ EX (tương ứng Xn ↓ X) và tồn tại n để EXn− < ∞ (tương

ứng EXn+ < ∞) thì EXn ↑ EX (tương ứng EXn ↓ EX).
6. Bổ đề Fatou.
Nếu Xn

1 và EY > −∞ thì

Y với mọi n

limEXn

ElimXn
Nếu Xn

Y với mọi n

1 và EY < +∞ thì

ElimXn
Nếu |Xn|

Y , với mọi n
ElimXn

limEXn

1 và EY < ∞ thì

limEXn

limEXn


ElimXn

7. Bất đẳng thức Markov.
Giả sử X là biến ngẫu nhiên khơng âm. Khi đó nếu tồn tại EX thì
với mọi ε > 0 ta có
P (X

ε)

EX
ε


9

Giả sử X là biến ngẫu nhiên. Khi đó, số DX := E(X − EX)2 (nếu
tồn tại) được gọi là phương sai của X.
Chú ý: Phương sai DX của biến ngẫu nhiên X có thể tồn tại hoặc
khơng tồn tại. Nếu tồn tại nó được tính như sau:
Nếu X rời rạc và nhận các giá trị x1 , x2 , . . . với P (X = xi ) = pi thì

DX =
(xi − EX)2 pi .
Nếu X liên tục với hàm mật độ p(x) thì

∫+∞
DX =
(x − EX)2 p(x)
−∞


Tính chất.
1. DX = EX 2 − (EX)2
2. DX

0

3. DX = 0 khi và chỉ khi X = EX = hằng số h.c.c
4.D(CX) = C 2 DX
1.2. Xích Markov.
1.2.1 Lý thuyết xích Markov.
Ta nói rằng X(t) có tính chất Markov nếu
{
}
P X(tn+1 ) = j|X(t0 ) = i0 , . . . , X(tn−1 ) = in−1 , X(tn ) = i
{
}
= P X(tn+1 ) = j|X(tn ) = i
với bất kỳ t0 < t1 < . . . < tn < tn+1 < . . . và i0 , . . . , in−1 , i, j ∈ E.
Với tn là hiện tại, tn+1 là tương lai, (t0 , t1 , . . . , tn−1 ) là quá khứ.
(
)
Đặt p(s, i, t, j) = P X(t) = j|X(s) = i , (s < t) thì p là xác suất có
điều kiện để trạng thái i của xích ở thời điểm s, chuyển sang trạng thái
j tại thời điểm t. Vì thế, ta gọi p(s, i, t, j) là xác suất chuyển của xích
Markov.


10


Nếu xác suất chuyển chỉ phụ thuộc vào (t − s) tức là
p(s, i, t, j) = p(s + h, i, t + h, j)
thì ta nói q trình là thuần nhất theo thời gian.
• Ma trận xác suất chuyển. Giả sử (Ω, A, P ) là không gian xác suất,
Xn : Ω → E là biến ngẫu nhiên nhận giá trị trong tập đếm được
E, E là không gian trạng thái. Khi đó (Xn ); n = 0, 1, 2, . . . là xích
Markov rời rạc và thuần nhất. Tính Markov và tính thuần nhất của
(Xn ) có nghĩa là
(
)
pij = P |Xn+1 = j|Xn = i
)
(
= P |Xn+1 = j|X0 = i0 , . . . , Xn−1 = in−1 , Xn = in
P = (pij ) được gọi là ma trận xác suất chuyển sau một bước.
pij là xác suất có điều kiện để q trình chuyển từ trạng thái i ở
thời điểm n (hiện tại) sang trạng thái j tại thời điểm n + 1 (tương
lai).
Tính Markov có nghĩa là q khứ và tương lai độc lập với nhau
khi cho trước hiện tại.
Ma trận P = (pij ) có tính chất 0

pij

1, ∀i, j ∈ E;



pij = 1


j∈E

được gọi là ma trận ngẫu nhiên.
Xác suất chuyển sau n bước được định nghĩa theo công thức
(n)

pij = P (Xn+m = j|Xm = i) = P (Xn = j|X0 = i)
Đây là xác suất của quá trình tại thời điểm ban đầu ở trạng thái i,
(n)

sau n bước chyển sang trạng thái j. Rõ ràng Pij = Pij . Ta quy ước
{
1
nếu i = j
(0)
pij =
0
nếu i ̸= j


11

Đặt

P (n)

(
)
(n)
= pij thì P (n) gọi là ma trận xác suất chuyển sau n


bước.
Từ công thức xác suất đầy đủ và tính Markov ta có ∀n =
0, 1, 2, . . .
(n+1)
pij

=



(n)

pik pkj

k∈E
(n+1)
pij

=



(n)

pik pkj

k∈E

Các phương trình trên được gọi là phương trình ngược và phương

trình thuận.
Với mọi n, m = 0, 1, 2, . . . phương trình Chapman-Kolmogorov là
∑ (n) (m)
(n+m)
pij
=
pik pkj
k∈E

Ta có
P (n) = P n
Phân phối hữu hạn chiều của xích Markov được tính theo cơng
thức sau
p(X0 = i0 ) = pi0 ,
p(X0 = i0 , X1 = i1 , . . . , Xn−1 = in−1 , Xn = i) = pi0 .pi0 i1 . . . pin−1 i
Phân phối ban đầu của xích được cho bởi công thức sau
pnj = P (Xn = j); n = 0, 1, 2, . . . ; j ∈ E

( (n)
)
Đặt π (n) = pj , j ∈ E thì π = π (0) là phân phối ban đầu của
xích.

( (n)
)
Ta quy ước π (n) = pj , j ∈ E là véc tơ hàng. Dễ thấy rằng
π (n+m) = π (n) P (m)


12


Theo công thức xác suất đầy đủ
(n+m)
pj

=



(n) (m)

pi pij

i∈E

Phân phối ban đầu được gọi là dừng nếu π (n) không phụ thuộc
vào n nghĩa là π = πP .
Như vậy, mơ hình của một xích Markov rời rạc và thuần nhất là
bộ ba (Xn , π, P ), trong đó: (Xn ) là dãy các biến ngẫu nhiên rời rạc,
π là phân phối ban đầu, P là ma trận xác suất chuyển.
• Phân phối dừng.


Nghiệm khơng âm (π1 , . . . , πn ) của phương trình xj =
xk pkj ,
k∈E

j ∈ E sao cho
πj = 1 được gọi là phân phối dừng (hay bất biến)
j∈E


của xích Markov với ma trận xác suất chuyển P = (pij ).
• Phân phối giới hạn.
Ta nói rằng xích Markov có phân phối giới hạn, nếu ∀j = 1, 2, . . . , N
(n)

tồn tại các giới hạn lim pij = πj không phụ thuộc vào i và thoả
n→∞ ∑
mãn các điều kiện πj
0,
πj = 1. Trong trường hợp đó ta gọi
j∈E

(π1 , . . . , πn ) là phân phối giới hạn.
1.2.2 Tính ergodic.
Ta nói rằng xích Markov có tính ergodic, nếu ∀j = 1, 2, . . . , N tồn tại
(n)

các giới hạn lim pij = πj không phụ thuộc vào i và thoả mãn các điều
n→∞

kiện πj 0,
πj = 1. Trong trường hợp đó ta gọi (π1 , . . . , πn ) là phân
j∈E

phối ergodic.
Trạng thái j được gọi là đạt được từ trạng thái i nếu tồn tại n
cho

(n)

pij

> 0 (ta quy ước

(0)
pij

= 1 nếu i = j và

trường hợp đó ta ký hiệu i → j.

(0)
pij

0 sao

= 0 nếu i ̸= j). Trong


13

Hai trạng thái được gọi là liên thông với nhau nếu i → j và j → i.
Trong trường hợp đó ta kí hiệu i ↔ j.
Xích Markov được gọi là tối giản nếu hai trạng thái bất kì của nó liên
thơng với nhau.
Chu kỳ d(i) của trạng thái i là ước chung lớn nhất của tất cả các số
nguyên n
n

(n)


(n)

1 thoả mãn điều kiện pii > 0. Nếu pii = 0 đối với tất cả

1 thì đặt d(i) = 0.

Trạng thái i được gọi là trạng thái hồi quy nếu pii = 1. Trạng thái hồi


(n)
(n)
quy i được gọi là trạng thái dương nếu
npii = +∞, trong đó pii là
n=0

xác suất chuyển từ quá trình i quay trở lại quá trình i tại bước thứ n.
Định lý Ergodic. Giả sử P = (pij ) là ma trận xác suất chuyển của
xích Markov (Xn ) có trạng thái hữu hạn E = {1, 2, . . . , N }.
(i) Nếu P thoả mãn điều kiện tồn tại n0 sao cho
(n )

min pij 0 > 0

(1.1)

thì tồn tại các số π1 , . . . , πN sao cho

n n0 , πj > 0,
πj = 1


(1.2)

i,j

j∈E

và với mỗi j ∈ E
(n)

lim pij = πj

(1.3)

n→∞

(ii) Ngược lại, nếu tồn tại các số π1 , . . . , πN thoả mãn điều kiện (1.2)
và (1.3) thì sẽ tồn tại n0 thoả mãn (1.1).
(iii) Các số π1 , . . . , πn là nghiệm của hệ phương trình

xj =
xk pkj , j ∈ E
(1.4)
k∈E

và đó là nghiệm duy nhất thoả mãn điều kiện

xj 0, ∀j ∈ E;
xj = 1
j∈E



14

nếu (1.1) được thực hiện.
Điều kiện (1.1) được gọi là chính quy.
Chứng minh.
(n)

(n)

(i) Đặt mj

= mini pij

(n)

và Mj

(n)

= maxi pij . Từ phương trình

Chapman-Kolmogorov ta có
(n+1)
pij

=




(n)

pik pkj

k

Từ đó suy ra
(n+1)

mj
(n)

i

(n+1)

Vậy mj

mj

= min

(



(n)

pik pkj


k

min
i

(n) )



(n)

pik mj

k

là dãy đơn điệu tăng.
( (n) )
(n+1)
là dãy đơn điệu giảm.
Mj
hay Mj

hay mj
(n)

Tương tự ta có Mj

Vì vậy để chứng minh (1.3) ta chỉ cần chứng tỏ
(n)


Mj

(n)

− mj

→ 0 khi n → ∞ ; ∀j = 1, 2, . . . , N

(n )

(n )

(n)

Giả sử ε = min pij 0 > 0. Khi đó pik 0 − εpik
i,j

(n +n)
pij 0

=



(n ) (n)
pik 0 pkj

0 và ta có


]
∑ (n) (n)
∑ [ (n )
(n)
(n)
0
pjk pkj
=
pik − εpjk pkj + ε

]
∑ [ (n )
(n)
(2n)
(n)
0
=
pik − εpjk pkj + εpjj
k

k

k

k
∑ [ (n )
(n)
mj
pik 0
k


(n)
− εpjk

]

(2n)

+ εpjj

(n)

Từ đó ta có
(n0 +n)

mj (1 − ε) + εpjj

(n0 +n)

Mj (1 − ε) + εpjj

mj

(n)

(2n)

(n)

(2n)


Tương tự ta có
Mj

Từ hai bất đẳng thức này ta được
(n +n)
Mj 0

(n +n)
− mj 0

(

(n)
Mj

(2n)

= mj (1 − ε) + εpjj

(n)
− mj

)

(1 − ε)


15


Từ đó suy ra
(kn +n)
Mj 0

(

(kn +n)
− mj 0

(

(n)
Mj

(n)
− mj

)

(1 − ε)k → 0 khi k → ∞

)

(n)
(n)
Dãy Mj − mj
đơn điệu giảm , có dãy con
(n +n)
(n +n)
nên Mj 0

− mj 0
→ 0 ; ∀j = 1, 2, . . . , N.

hội tụ tới 0

Như vây, ta đã chứng minh được rằng tồn tại
(n)

(n)

πj = lim mj

= lim Mj

n→∞

n→∞

(n)

= lim pij
n→∞

Cần chú ý rằng, theo cách chứng minh trên thì khi n
(n)

(n)

pij − πj


Mj

(n)

− mj

n0 ta có

(1 − ε)[n/n0 ]−1 ,

(n)

tức là sự hội tụ của pij tới πj diễn ra với tốc độ cấp số nhân. Ngoài ra,
(n)

mj

(n0 )

mj

ε > 0 khi n

n0 , do đó πj > 0.

(ii) Hiển nhiên từ (1.2) và (1.3) suy ra (1.1) vì số trạng thái là hữu
hạn.
(iii) (1.4) là hệ quả trực tiếp của (1.3) Thật vậy, vì số trạng thái là
hữu hạn, nên
(n+1)


πj = lim pij
n→∞

=



= lim



n→∞

(n)

pik pkj

k
(n)
lim pik pkj=∑ πk pkj
n→∞
k

k

Tính duy nhất của nghiệm được chứng minh như sau:
(
)
Giả

sử

phân
phối
dừng
π
,
π
,
.
.
.
,
π
và phân phối dừng
1
2
N
)
(∼ ∼

π 1 , π 2 , . . . , π N . Khi đó

πj =

∑∼
∑ ∼ (1)
∑ ∼ (n)
π k pkj =
π k pkj = . . . =

π k pkj
k

k

k

(n)

Từ (1.3) ta có πj = lim pij nên ta có
n→∞



πj =

∑∼
π k πj = πj
k


16
(n )

Ta có min pij 0 > 0 suy ra tồn tại duy nhất phân phối dừng. Định lý
i,j

được chứng minh.

( )

Định lý. Giả sử xích Markov Xn có hữu hạn trạng thái. Khi đó
các điều sau là tương đương.
(i) (Xn ) tối giản có chu kỳ 1 (tức khơng có chu kỳ).
(ii) (Xn ) tối giản có chu kỳ 1 và tất cả các trạng thái là hồi quy
dương.
(iii) (Xn ) có tính ergodic, tức là tồn tại các giới hạn:

(n)
πj = lim pij sao cho πj > 0, ∀j ∈ E và
πj = 1
n→∞

i∈E

(iv) Tồn tại n0 sao cho với mọi n

(n )

n0 thì min pij 0 > 0.
i,j

1.2.3 Tính khả nghịch.
Với một phân phối, P có tính khả nghịch với π nếu có một hạt nhân
chuyển tiếp P thoả mãn:
πi pij = πj pji
Lấy tổng hai vế phương trình theo i ta có:
S






i=0
S

i=0
S


πi pij =

S


πj pji

i=0

πi pij = πj

S


pji

i=0

πi pij = πj

i=0


Nó chỉ ra rằng đối với chuỗi Markov và hạt nhân chuyển tiếp P, π sẽ
là phân phôi giới hạn.


17

1.3. Mô phỏng biến ngẫu nhiên.
1.3.1. Phương pháp chung.
a) Phương pháp ngược.

Mệnh đề 1. Giả sử biến ngẫu nhiên có hàm phân phối xác suất F (x)
đều trên (0, 1). Ta thấy rằng nếu giả sử cho biến ngẫu nhiên X liên tục
và F (x) liên tục, đơn điệu tăng khi 0

F (x)

1. Khi đó tồn tại hàm

ngược F −1 .
Như vậy để tạo X có thể dùng thuật tốn như sau.
(1) Tạo U ∼ U (0, 1).
(2) Lấy X = F −1 (U ).
Dễ dàng thấy rằng X có phân phối F , thật vậy chúng ta thấy rằng
bất kỳ số thực x nào đó thì P (X
[
nên ta có P (X
x) = P F −1 (U )

x) = F (x) và do F có hàm ngược

]
[
]
x =P U
F (x) = F (x) ở đây

U ∼ U (0, 1).

(
Mệnh đề 2. Giả sử hàm F được xác định bởi F (U ) = min x : F (x)
)
u . Khi đó nếu U ∼ U (0, 1) thì X = F (U ) tuân theo phân phối định
nghĩa bởi F .
Sử dụng mệnh đề này chúng ta có thể tạo ra biến số rời rạc rồi lấy chỉ

một giá trị xác định x1 , x2 , . . . với x1
F (x) = P (X

x2 . . . Trong trường hợp này

p(xi )
x) =
xi x

ở đây p(xi ) = P (X = xi ).
Thuật tốn được mơ tả như sau
(1) Tạo U ∼ U (0, 1).
(2) Xác định số nguyên nhỏ nhất I sao cho F (xI )
(3) Lấy X = x1 .


U.


18
b) Phương pháp chấp nhận-loại bỏ.

Phương pháp này đòi hỏi tồn tại một hàm g mà không nhỏ hơn hàm
mật độ f , tức là g(x)

f (x) với mọi x. Nói chung hàm g khơng phải

là hàm mật độ, nhưng hàm h định nghĩa bởi h(x) = g(x)/c là hàm mật
độ. Giả sử các biến ngẫu nhiên có hàm mật độ h có thể được tạo ra một
cách hiệu quả. Khi đó thuật tốn được mơ tả như sau.
(1) Tạo y từ h.
(2) Tạo U ∼ U (0, 1), độc lập với y.
(3) Nếu U

f (x)/g(x), lấy X = y. Ngược lại, chuyển đến bước 1.

Phương pháp này hiệu quả với c nhỏ.
c) Phương pháp phức hợp.

Phương pháp này thường được sử dụng khi hàm phân phối F có thể
biểu hiện như một tổ hợp lồi các hàm phân phối khác mà những biến
của chúng có thể tạo ra.
Giả sử:
F (x) =





aj Fj (x)

j=1

ở đây aj

0,




aj = 1, và mỗi Fj là hàm phân phối. Trong thực tế chỉ

j=1

có một số hữu hạn các aj là dương. Tương tự, hàm mật độ f của X có
thể được biểu diễn như sau.
f (x) =




aj fj (x)

j=1

ở đây fj là hàm mật độ.
Thuật toán được tổng quát như sau:

(1) Tạo một số nguyên dương J sao cho P (J = j) = a với j = 1, 2, . . .
(2) Giả sử rằng J = j, tạo X với phân phối Fj và quay lại.


19

1.3.2 Phương pháp Monte Carlo.
Mô phỏng Monte Carlo là một phương pháp sử dụng các số ngẫu nhiên
hoặc các biến ngẫu nhiên có phân phối đều trên (0, 1), để giải quyết bài
tốn mà sự trơi qua của thời gian khơng đóng vai trị quyết định.
Phương pháp Monte Carlo là một lớp các thuật toán để giải quyết
nhiều bài toán thường bằng cách sử dụng các số ngẫu nhiên (thường là
các số giả ngẫu nhiên), ngược lại với các thuật toán tất định. Một ứng
dụng cổ điển của phương pháp này là việc tính tích phân xác định, đặc
biệt là các tích phân nhiều chiều với các điều kiện biến phức tạp.
Thuật tốn Monte Carlo là phương pháp tính bằng số hiệu quả cho
nhiều bài toán liên quan đến nhiều biến số mà không dễ dàng giải được
bằng các phương pháp khác. Hiệu quả của phương pháp này so với các
phương pháp khác tăng lên khi số chiều của bài toán tăng. Monte Carlo
cũng được ứng dụng cho nhiều lớp bài toán tối ưu hoá.
Nhiều khi, phương pháp Monte Carlo được thực hiện hiệu quả hơn
với số giả ngẫu nhiên, thay cho số ngẫu nhiên thực thụ, vốn rất khó tạo
ra được bởi máy tính. Các số giả ngẫu nhiên có tính tất định, tạo ra từ
chuỗi giả ngẫu nhiên có quy luật, có thể sử dụng để chạy thử, hoặc chạy
mô phỏng theo cùng điều kiện như trước. Các số giả ngẫu nhiên trong
các mô phỏng chỉ cần tỏ ra "đủ mức ngẫu nhiên", nghĩa là chúng theo
phân bố đều hay theo một phân bố định trước.
Phương pháp Monte Carlo thường được thực hiện lặp lại một số lượng
rất lớn các bước đơn giản, song song với nhau, một phương pháp phù
hợp cho máy tính. Kết quả của phương pháp này càng chính xác (tiệm

cận về kết quả đúng) khi số lượng lặp các bước tăng.
Ví dụ 1. Mơ phỏng phân phối đều trên [0, 1).
Sử dụng các hàm sinh số ngẫu nhiên (Random number generator) đã
được cài đặt trên máy tính. Dù dùng bảng số ngẫu nhiên hay sử dụng
các hàm sinh số ngẫu nhiên trong máy tính, ta cũng lấy ra hoặc tính


20

được liên tiếp các số ngẫu nhiên xi trong [0, 1) với i = 1, 2, . . . , n. Tần số
các giả trị này rơi vào k khoảng nhỏ với độ dài bằng nhau

1
k

được chia

ra từ [0, 1) là gần như nhau (≈ nk ). Với n lớn thì các tần số đó càng sát
gần nk . Vì vậy ta coi các giả trị phát sinh được là các thể hiện của biến
ngẫu nhiên X tuân theo phân phối đều trên [0, 1).
Trong trường hợp cần mô phỏng biến Y phân phối đều trên [a, b) ta
có:
yi = a + (b − a)xi
Chú ý rằng để phát sinh các số ngẫu nhiên nhận giá trị nguyên 0, 1, 2, . . . , N ,
chỉ cần áp dụng công thức:
]
[
V ar Y (n) = n−1 var(Y )yi = [(N + 1)xi ]
trong đó vế phải là phần nguyên của (N + 1)xi .
Một số bảng số ngẫu nhiên nguyên hay hàm sinh số ngẫu nhiên nguyên

cài đặt sẵn trong hệ máy tính.
Ví dụ 2. Giả sử ta muốn đánh giá tích phân I =

∫b

g(x)dx, ở đây g(x)

a

là hàm thực khả tích. Sử dụng mơ phỏng Monte Carlo chúng ta có thể
giải gần đúng bài tốn này.
Giả sử X là một biến ngẫu nhiên có phân phối đều trên [a, b] và xét
Y = (b − a)g(X). Khi đó kỳ vọng của biến Y có dạng sau
E(Y ) = E(b − a)g(X)
= (b − a)Eg(X)
∫b
= (b − a) g(x)fX dx
a

∫b
=

g(x)dx = I
a

ở đây fX = (b − a)−1 là hàm mật độ xác suất của biến ngẫu nhiên có


21


phân phối đều trên [0, 1]. Như vậy bài toán đánh giá tích phân được đưa
về đánh giá kì vọng E(Y ).
Chúng ta sẽ đánh giá I = E(Y ) bằng trung bình mẫu
n


Y (n) =

Yi

i=1

n

ở đây X1 , X2 , . . . , Xn là các biến ngẫu nhiên độc lập cùng phân phối đều
trên (0, 1). Chúng ta chứng minh rằng
[ EY (n)
] = I sao cho Y (n) là một
ước lượng không chệch của I và V ar Y (n) = n−1 var(Y ). Giả sử rằng
V ar(Y ) là hữu hạn, suy ra rằng Y (n) sẽ dần tới I khi n đủ lớn với xác
suất đơn vị.


22

CHƯƠNG 2
MƠ PHỎNG XÍCH MARKOV

2.1. Thuật tốn Metropolis-Hastings.
Thuật tốn mơ phỏng Metropolis-Hastings được sử dụng để lấy mẫu

đáp ứng một phân phối f (x). Hiện tại đang có nhiều quan tâm MCMC
trong cả về lý thuyết và trong một số lượng lớn các ứng dụng.
Thuật toán này xây dựng một xích Markov thoả mãn điều kiện là sau
một số bước đủ lớn thì sẽ hội tụ tới một hàm phân bố xác suất f (x) nào
đó. Mục tiêu là xây dựng dãy các mẫu ngẫu nhiên sao cho hàm phân
phối của nó hội tụ đến hàm phân bố đã cho.
Giả sử Ω ⊂ Rn là một không gian trạng thái Borel đo được (đo được
theo độ đo Borel) và f (x) với mật độ xác suất dương trong Ω. Các mật
độ p0 (x) và q(x|y), (x, y ∈ Ω) là dương trong Ω hoặc một tập hợp con
của Ω. Tất cả các mật độ đều được giả thiết là liên tục tuyệt đối. Thuật
toán Metropolis-Hastings sau đây được sử dụng để tạo ra một mẫu từ
mật độ xác suất f (x).
2.1.1. Thuật toán.
Bước 1: Tạo ra một trạng thái ban đầu x0 ∈ Ω từ mật độ xác suất
ban đầu nào đó p0 (x).
Bước 2: Với: 1, . . . , n:
Sinh một trạng thái tiếp theo {y từ mật độ }q(y|xi )
f (y)q(xi |y)
Tính xác suất α(y, xi ) = min 1, f (x)q(y|xi )


23

Bước 3: Đặt:

{

xi+1 =

y nếu xác suất = α(y, xi )

xi nếu xác suất = 1 − α(y, xi )

Giả thiết rằng q(y|x) > 0 nghĩa là q(x|y) > 0 với x, y từ các trạng
thái được đề xuất vì nếu q(x|y) = 0 thì q(y|x) > 0 sẽ khơng được chấp
nhận. Ta cần các định nghĩa sau đây
{
}
h(x, y) = min f (x)q(y|x), f (y)q(x|y)
{
}
h(x, y)
f (x)
= min q(x|y), q(y|x)
Q(x, y) =
f (y)
f (y)
{
}
j (x)
j (x)
P
P
j
Rj (x) =
− 1 và RM
= sup
−1
f (x)
f
(x)

x∈Ω
với pj (x) là hàm mật độ sau j bước lặp lại. Ω(y) có thể có chiều thấp
hơn Ω. Tích phân trên Ω(y) hoặc tập con của Ω(y) liên quan với các tích
phân Lebesgue trong khơng gian này.
Sự thách thức trong Metropolis-Hastings là tìm ra một hàm sinh tốt.
Công thức rõ ràng đối với tốc độ hội tụ được đưa ra trong luận văn này
được sử dụng để so sánh các hàm sinh khác nhau.
Bổ đề sau đay có ích cho định lý tiếp theo vì các công thức xác định
mật độ xác suất với pi+1 (x) là một hàm của pi (x) dưới một công thức
thu gọn.
2.1.2 Bổ đề.
Mật độ xác suất trong thuật tốn mơ phỏng metrolopolis-hasting thoả

∫ (

mãn
pi+1 (y) = pi (y) +

pi (x) pi (y)

f (x)
f (y)

)
h(x, y)dx

Ω(y)






Ri+1 (y) = Ri (y) 1 −



Ω(y)



Q(x, y)dx +



Ω(y)

Ri (x)Q(x, y)dx


24



Khi

Q(x, y)dx)

1

Ω(y)


Chứng minh. Định nghĩa trong thuật toán metrolopolis-hasting cho
thấy



pi+1 (y) =


pi (x)q(y|x)α(y, x)dx) +

Ω(y)

(
)
pi (y)q(z|y) 1 − α(z, y)dz

Ω(y)



(

= pi (y) +

)
pi (x)q(y|x)α(y, x) − pi (y)q(x|y)α(x, y) dx

Ω(y)


∫ (

i

= p (y) +

pi (x) pi (y)

f (x)
f (y)

)
h(x, y)dx

Ω(y)

Ta có h(x, y) là đối xứng

{
}
h(x, y) = min f (x)q(y|x), f (y)q(x|y)
(
}
= min f (y)q(x|y), f (x)q(y|x)
= h(y, x)

Trong phần chứng minh trên sử dụng hệ thức α(x, y) =

h(x,y)
f (y)q(x|y)


h(x, y) là đối xứng.
Theo định nghĩa trên
R

i+1

pi+1 (y)
−1
(y) =
f (y)
)
∫ ( i
p (x) pi (y) h(x, y)
pi (y)
−1+

dx
=
f (y)
f (x)
f (y)
f (y)
Ω(y)



(

= Ri (y) +


)
Ri (y) − Ri (y) Q(x, y)dx

Ω(y)




= Ri (y) 1 −



Ω(y)



Q(x, y)dx +



ω(y)

Ri (x)Q(x, y)dx




25


Nếu hàm sinh là dương, có thể chuyển giữa bất kỳ hai trạng thái
nào trong một bước. Điều này làm cho sự hội tụ nhanh hơn. Mengersen
Tweedie (1994) chứng minh một phát biểu tương tự với giả thiết mạnh
hơn q(x|y) = q(x).
2.1.3 Mệnh đề:
Giả thiết rằng q(x|y)

af (x) thoả mãn với mọi trường hợp hằng số a ∈

[0, 1]. Khi đó các sai số tương đối của thuật tốn mơ phỏng metrolopolisi+1
hasting thoả mãn RM

i .
(1 − a)RM

Chứng minh. Giả thiết trong mệnh đề có nghĩa Q(x, y)
áp dụng bổ đề trên ta có



i
RM


Ri+1 (y)


i
RM
Q(x, y)dx +






i
RM
−a

=

(

Ri (x)Q(x, y)dx


)
i
RM
− Ri (x) f (x)dx


i
RM (1 − a)

Việc tính tốn ở trên cũng đúng với
Ri+1 (y)

af (x).



Ri

(x) = −Ri (x). Khi đó

i (1 − a). Vì cả hai f (x) và q(x|y) đều là mật độ, a ∈
RM

[0, 1].
2.2. Sự triệt tiêu hàm sinh.
Khi hàm sinh triệt tiêu một vài bước chuyển

{ j}
x j=0,s , ở đây x0 = x

và xs = x, là cần theo thứ tự để chuyển giữa các trạng thái bất kỳ
(
)
x, y ∈ Ω. Cho Dj xi+1 là miền chứa xj , đi qua tại bước chuyển từ x
{ }
đến y bằng cách sử dụng định nghĩa: S = Syx x,y∈Ω là một tập hợp
{ (
)}s−1
(
)
0
các chuỗi Syx = Dj X j+1 j=0 , trong đó xs = y, xj ∈ Dj xj+1 với
(
)
( ) { }

(
)
{
}
mọi xj+1 ∈ Dj+1 xj+2 , Do x1 = x0 và Dj xj+1 ⊆ Ω xj+1 với
j = 0, . . . , s − 1.


×