Tải bản đầy đủ (.pdf) (70 trang)

THUẬT TOÁN MÔ PHỎNG MCMC THÍCH NGHI VÀ ỨNG DỤNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.44 MB, 70 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-------------------

NGUYỄN VĂN TÂN

THUẬT TOÁN MÔ PHỎNG MCMC THÍCH
NGHI VÀ ỨNG DỤNG
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số:

60460106

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. TRẦN MẠNH CƯỜNG

Hà Nội - 2015


Mục lục
Lời nói đầu

3

1 Kiến thức chuẩn bị
1.1 Sự hội tụ của dãy đại lượng ngẫu nhiên .
1.2 Dãy mixingale . . . . . . . . . . . . . . .
1.3 Các thuật toán mô phỏng cơ bản . . . . .
1.3.1 Phương pháp biến đổi nghịch đảo


1.3.2 Phương pháp loại bỏ . . . . . . .
1.3.3 Phương pháp lấy mẫu quan trọng
1.4 Xích Markov . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.


2 Phương pháp MCMC
2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Mẫu Metropolis - Hastings . . . . . . . . . . . . . . .
2.3 Một số thuật toán MCMC . . . . . . . . . . . . . . .
2.3.1 Mẫu Gibbs . . . . . . . . . . . . . . . . . . . .
2.3.2 Mẫu độc lập . . . . . . . . . . . . . . . . . . .
2.3.3 Mẫu Metropolis - Hastings du động ngẫu nhiên
2.3.4 Mẫu Metropolis (thành phần đơn) . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.


22
22
23
29
29
30
32
33

. .
. .
. .
AP

34
35
35
37
38

.
.
.
.
.
.
.

.

.
.
.
.
.
. .

3 MCMC thích nghi
3.1 Thuật toán Metropolis du động ngẫu nhiên thích nghi .
3.1.1 Mô tả thuật toán . . . . . . . . . . . . . . . . .
3.1.2 Tính chất ergodic . . . . . . . . . . . . . . . . .
3.1.3 So sánh các thuật toán Metropolis với thuật toán
1

.
.
.
.
.
.
.

5
5
6
7
8
9
13
15



3.2

3.3

Thuật toán Metropolis thích nghi . . . . . . . . .
3.2.1 Mô tả thuật toán . . . . . . . . . . . . . .
3.2.2 Tính Ergodic . . . . . . . . . . . . . . . . .
3.2.3 So sánh các thuật toán Metropolis với thuật
Một số ứng dụng của MCMC thích nghi . . . . . .
3.3.1 Mô hình mô phỏng GOMOS . . . . . . . .
3.3.2 Mô hình suy giảm oxy . . . . . . . . . . . .

. . .
. . .
. . .
toán
. . .
. . .
. . .

. .
. .
. .
AM
. .
. .
. .


42
45
47
59
59
60
65

Kết quả chính

67

Tài liệu tham khảo

68

2


Lời nói đầu
Để tìm hiểu về MC, ta xét bài toán sau: Giả sử ta cần tính tích phân
Theo định lý Newton - Leibnitz, nếu F (x) là một nguyên hàm
của h(x) thì
1
0 h(x)dx.

1

I = F (x) = F (1) − F (0).
0


Tuy nhiên, trong nhiều trường hợp, ta không thể tìm được F(x). Giả sử
f (x) là hàm mật độ trên [0, 1] sao cho nếu h(x) = 0 thì f (x) > 0. Ta viết
1
lại I = 0 fh(x)
(x) f (x)dx. Khi đó, chúng ta lấy mẫu độc lập cùng phân phối
(1)
(n)
(x , ..., x ) từ phân phối xác định bởi mật độ f và xét:

1
Iˆn =
n

n

h(x(i) )/f (x(i) ).
i=1

Luật số lớn cho ta thấy rằng Iˆn hội tụ với xác suất 1 tới tích phân I khi n
tiến tới ∞ nghĩa là Iˆn → I(h.c.c). Như vậy để tính xấp xỉ I, ta phải thực
hiện n mô phỏng cho biến ngẫu nhiên X.
Các mô phỏng MC cơ bản này có ưu điểm là dễ thực hiện. Tuy nhiên,
nó chỉ mô phỏng được đối với các trường hợp đơn giản.
Trong nhiều trường hợp phức tạp như số chiều tăng lên (phân phối
nhiều chiều) ... thì các MC cơ bản không thể thực hiện được. Đề giải quyết
vấn đề này, chúng ta đưa ra một phương pháp gọi là phương pháp MCMC.
Ý tưởng chính của phương pháp MCMC là đi xây dựng một xích Markov
có tính ergodic mà phân phối dừng là π . Khi đó, chúng ta chạy X lên đến
thời gian dài N và ước lượng E(h(Y )) bởi N1 N

n=1 h(Xn ). Định lý ergodic
cho ta biết với N đủ lớn, ước lượng trên sẽ gần đến E(h(Y )).
Chúng ta thấy rằng việc chọn lựa phân phối đề xuất là quan trọng cho
3


sự hội tụ của thuật toán MCMC. Việc chọn lựa được phân phối đề xuất
tốt thường khó thực hiện vì thông tin về mật độ mục tiêu là không có
hoặc rất ít. Hơn nữa, trong thuật toán MCMC, phân phối đề xuất được
chọn cho mọi bước mô phỏng. Để sử dụng các thông tin đã thu được trong
các bước mô phỏng trước để mô phỏng cho bước tiếp theo, chúng ta đưa
ra thuật toán MCMC thích nghi. Ở đó, phân phối đề xuất được cập nhật
cùng quá trình sử dụng thông tin đầy đủ tích lũy cho đến thời điểm hiện
tại. Mỗi lựa chọn phân phối đề xuất thích nghi sẽ cho chúng ta một dạng
MCMC thích nghi.
Mục đích chính của luận văn này là trình bày các phương pháp MCMC
cơ bản và hai thuật toán MCMC thích nghi từ bài báo [6], [7]. Đồng thời
đưa ra các so sánh giữa các thuật toán MCMC và chứng minh chi tiết các
định lý trong bài báo cũng như đưa ra một số ứng dụng của thuật toán.
Luận văn gồm 3 chương.

• Chương 1 nhắc lại một số kiến thức bổ trợ về sự hội tụ của dãy đại
lượng ngẫu nhiên, dãy mixingale, các thuật toán mô phỏng MC cơ
bản và xích Markov.
• Chương 2 trình bày về các phương pháp MCMC cơ bản.
• Chương 3 trình bày chi tiết về hai phương pháp MCMC thích nghi từ
hai bài báo [6] và [7]. Đó là thuật toán Metropolis du động ngẫu nhiên
thích nghi ([6]) và thuật toán Metropolis thích nghi ([7]). Chỉ ra tính
hội tụ của hai thuật toán và chứng minh tính ergodic của thuật toán
Metropolis thích nghi. Sau mỗi thuật toán đều đưa ra sự so sánh giữa

các thuật toán MCMC. Đồng thời đưa ra một số ứng dụng thực tế
của mô hình MCMC thích nghi.
Lời đầu tiên, xin chân thành cảm ơn thầy TS. Trần Mạnh Cường đã
nhận hướng dẫn và tận tình giúp đỡ tôi hoàn thành luận văn này. Lòng biết
ơn sâu sắc tôi cũng xin được gửi đến các thầy cô trong Trường ĐHKHTN
- ĐHQGHN, Khoa Toán - Cơ - Tin đã giúp đỡ tôi hoàn thành khóa học.
Hà Nội tháng 12 năm 2015
4


Chương 1
Kiến thức chuẩn bị
1.1

Sự hội tụ của dãy đại lượng ngẫu nhiên

Giả sử (Ω, F, P ) là không gian xác suất.
Định nghĩa 1.1. Một dãy các đại lượng ngẫu nhiên hay biến ngẫu nhiên
(Xn ) được gọi là hội tụ hầu chắc chắn đến biến ngẫu nhiên X nếu:

P {ω ∈ Ω : lim Xn (ω) = X(ω)} = 0.
n→∞

Ký hiệu là limn→∞ Xn = X(h.c.c).
Định nghĩa 1.2. Cho dãy (Xn ) các biến ngẫu nhiên. Fn (x), F (x) tương
ứng là hàm phân phối của Xn , X . Gọi C(F ) là tập các điểm liên tục của
hàm F . Ta nói dãy (Xn ) hội tụ theo phân phối đến X nếu ∀x ∈ C(F ), ta
có:
lim Fn (x) = F (x).
n→∞


d

− X.
Ký hiệu là Xn →
Định nghĩa 1.3. Một dãy các biến ngẫu nhiên (Xn ) được gọi là hội tụ
theo xác suất đến biến ngẫu nhiên X nếu ∀ε > 0 ta có :

P {ω ∈ Ω : |Xn (ω) − X(ω)| > ε} = 0.
P

Ký hiệu là Xn −
→ X.
5


Định nghĩa 1.4. Một dãy các biến ngẫu nhiên (Xn ) được gọi là hội tụ theo
trung bình bậc r đến biến ngẫu nhiên X nếu r ≥ 1, E|Xn |r < ∞ ∀n,
E|X|r < ∞ và :
lim E{|Xn − X|r } = 0.
n→∞

L

r

Ký hiệu là Xn −→ X .
Định nghĩa 1.5. (luật số lớn) Cho dãy (Xn ) các biến ngẫu nhiên độc
lập cùng phân phối, có cùng kỳ vọng EXi = µ (i = 1, 2, ...). Đặt Sn =
X1 +...+Xn

. Ta nói dãy (Xn ) tuân theo luật số lớn nếu Sn sẽ hội tụ theo xác
n
suất đến µ.
Định lí 1.6. (định lý giới hạn trung tâm) Cho dãy (Xn ) các biến ngẫu
nhiên độc lập cùng phân phối, có cùng kỳ vọng EXi = µ và phương sai
√ n −nµ . Khi đó Zn sẽ hội tụ
DXi = σ 2 (i = 1, 2, ...). Đặt Zn = X1 +...+X
σ n
theo phân phối đến biến ngẫu nhiên Z có phân phối chuẩn tắc.

1.2

Dãy mixingale

Định nghĩa 1.7. Cho dãy (Xn )n≥1 các biến ngẫu nhiên bình phương khả
tích trong không gian xác suất (Ω, F, P ) và dãy (Fn )+∞
n=−∞ là dãy tăng các
σ - đại số con của F . Khi đó, (Xn , Fn ) được gọi là dãy mixingale nếu với
mọi dãy hằng không âm cn và ψm , trong đó ψm → 0 khi m → ∞, ta có:

||E(Xn |Fn−m )||2 ≤ ψm cn và ||Xn − E(Xn |Fn+m )||2 ≤ ψm+1 cn ,
với mọi n ≥ 1 và m ≥ 0.
Định lí 1.8. [4, tr. 41] Nếu {Xn , Fn } là một mixingale và {bn } là một
dãy hằng dương tăng đến ∞ sao cho

2
−1/2
b−2
(logn)−2 )
n cn < ∞ và ψn = O(n

n=1

thì b−1
n

n
i=1 Xi

→ 0(h.c.c).

6

khi n → ∞


1.3

Các thuật toán mô phỏng cơ bản

Các kết quả thống kê thường liên quan đến tích phân. Nhắc lại rằng cả
kỳ vọng và xác suất đều nhận được từ tích phân (hoặc tổng). Vì vậy, xét
tích phân sau:
1

I=

h(x)dx
0

Thông thường, người ta tiếp cận dạng tổng Riemann. Chúng ta đánh

giá hàm h(x) tại n điểm (x(1) , ..., x(n) ) trong một lưới chính quy và sau đó
tính:
n
1
I≈
h(x(i) ).
n i=1
Tuy nhiên, trong nhiều trường hợp, việc xác định lấy các điểm (x(1) , ..., x(n) )
là không thể hoặc chi phí quá tốn kém, người ta đã đưa ra một cách tiếp
cận khác. Đó là quá trình Monte Carlo. Chúng ta bắt đầu bằng việc viết
lại tích phân như sau:
1
h(x)
I=
f (x)dx
0 f (x)
trong đó f (x) là một mật độ trên [0, 1] sao cho nếu h(x) = 0 thì f (x) > 0.
Nhưng điều này nghĩa là:

I = Ef (h(X)/f (X)),
trong đó Ef là ký hiệu của kỳ vọng đối với phân phối xác định bởi f . Bây
giờ, chúng ta lấy mẫu độc lập cùng phân phối (x(1) , ..., x(n) ) từ phân phối
xác định bởi mật độ f và xét:

1
Iˆn =
n

n


h(x(i) )/f (x(i) ).
i=1

Luật số lớn cho ta thấy rằng Iˆn hội tụ với xác suất 1 tới tích phân I khi
n tiến tới ∞ nghĩa là Iˆn → I(h.c.c). Hơn nữa, định lý giới hạn trung tâm
chỉ ra rằng
(Iˆn − I)/ V ar(Iˆn )
7


xấp xỉ phân phối chuẩn. Vì vậy phương sai V ar(Iˆn ) cho ta biết về độ chính
xác ước lượng của chúng ta và nó có thể được ước lượng như sau:

1
vn =
n(n − 1)
1.3.1

n

(h(xj )/f (xj ) − Iˆn )2 .
j=1

Phương pháp biến đổi nghịch đảo

Định lí 1.9. Xét hàm phân phối lũy tích (cdf) F (x). Gọi F −1 là nghịch
đảo mở rộng của F , tức là:

F −1 (u) = min{x ∈ S : F (x) ≥ u}


u ∈ (0, 1]

Gọi U là một biến ngẫu nhiên phân phối đều (0, 1) và đặt X = F −1 (U ),
khi đó phân phối của X có cdf F (x). (Chú ý rằng đối với hàm phân phối
liên tục thì nghịch đảo mở rộng là nghịch đảo thông thường).
Bằng định nghĩa của nghịch đảo mở rộng và tính đơn điệu của F , ta
có:

P (X ≤ x) = P(F −1 (U ) ≤ x) = P (U ≤ F (x)) = F (x).
Ví dụ 1.1. Mô phỏng một biến ngẫu nhiên phân phối mũ với
tham số λ .
Một biến ngẫu nhiên có phân phối mũ với tham số λ có hàm phân phối là:

F (x) = 1 − exp(−λx)

với x ≥ 0.

Gọi U ∼ U (0, 1) (phân phối đều trên (0, 1)) và đặt

1
Y = − log(1 − U ).
λ
Khi đó Y có phân phối mũ với tham số λ. Điều này có thể đơn giản hóa
hơn bằng cách thừa nhận rằng 1 − U cũng là phân phối đều trên (0, 1) và
vì thế
1
Y = − log(U )
λ
có phân phối mũ với tham số λ.


8


Ví dụ 1.2. Mô phỏng biến ngẫu nhiên có phân phối Bernoulli (p)
và biến ngẫu nhiên có phân phối nhị thức B(n, p)
Cho U là một biến ngẫu nhiên phân phối đều (0, 1). Nếu ta xét

1 nếu U < p
X=
0 ngược lại
thì X là biến ngẫu nhiên có phân phối Bernoulli với xác suất thành công
p.
Cho X1 , ..., Xn là một mẫu độc lập cùng phân phối Bernoulli(p). Khi
đó Y = ni=1 Xi có phân phối nhị thức B(n, p).
Ví dụ 1.3. Mô phỏng biến ngẫu nhiên tuân theo phân phối hình
học (p)
Giả sử X nhận giá trị trong N và P(X = j) = pj . Khi đó:
j

F

−1

(u) = min{j ∈ N : u ≤

pi }.
i=1

Bây giờ, nếu X ∼ G(p) thì P(X > j) = (1 − p)j . Do đó
j


pi = 1 − (1 − p)j ≥ u
i=1

nếu và chỉ nếu

j≥

log(1 − u)
.
log(1 − p)

Ký hiệu [a] là phần nguyên của a thì X =

log(U )
log(1−p)

tuân theo phân phối

hình học G(p).

1.3.2

Phương pháp loại bỏ

Giả sử chúng ta muốn lấy mẫu X là một biến ngẫu nhiên liên tục với
hàm mật độ f (x). Chúng ta không biết cách lấy mẫu từ X nhưng chúng ta
biết cách lấy mẫu từ một biến ngẫu nhiên Y tương tự với hàm mật độ g(y).
Gọi giá của f là supp(f ) = {x : f (x) > 0}. Nếu ta có supp(f ) ⊆ supp(g)
9



và f (x)/g(x) ≤ M ∀x thì ta có thể lấy mẫu từ Y để tạo ra mẫu cho X .
Chúng ta lặp lại các bước sau cho đến khi một mẫu được trả về.

• Bước 1: Lấy mẫu Y = y từ g(y) và U = u từ phân phối đều U(0, 1).
Sang bước 2.
• Bước 2: Nếu u ≤

f (y)
M g(y)

thì đặt X = y . Ngược lại, quay lại bước 1.

Mệnh đề 1.10. Phân phối của biến ngẫu nhiên X được lấy mẫu trong
phương pháp loại bỏ như trên có mật độ f (x).
Thật vây, ta có
P(X ≤ x) = P Y ≤ x|U ≤

=

P Y ≤ x, U ≤
P U≤

f (Y )
M g(Y )
f (Y )
M g(Y )

.


f (Y )
M g(Y )

Để tính được xác suất trên, ta cần biết mật độ chung của Y và U . Bởi
tính độc lập nên:
h(y, u) = g(y)1[0≤u≤1] .
Vì vậy:

f (Y )
P Y ≤ x, U ≤
M g(Y )

x

f (y)/M g(y)

=

g(y)
−∞
x

1dudy
0

f (y)
1
=
g(y)

dy =
M g(y)
M
−∞


f (Y )
P U≤
M g(y)

1
=
M



f (y)dy =
−∞

x

f (y)dy
−∞

1
.
M

Dẫn đến:
P(X ≤ x) =


P Y ≤ x, U ≤
P U≤

f (Y )
M g(Y )

f (Y )
M g(Y )

x

=

f (y)dy.
−∞

Có bao nhiêu lần lặp trong thuật toán chúng ta dùng đến? Trong mỗi lần
10


(Y )
1
lặp, chúng ta tạo ra một mẫu với xác suất P(U ≤ Mf g(Y
) ) = M nên tổng
số lần lặp tuân theo phân phối hình học với tham số 1/M . Do vậy trung
bình cần số lần lặp là M . Chú ý sau đây:

1. Cận M nhỏ hơn thì thuật toán hiệu quả hơn trong tổng số lần lặp.
Vì vậy chúng ta nên tìm kiếm một mật độ g gần f .

2. Nếu giá của f không bị chặn thì để có thể tìm thấy cận M , mật độ
g cần có đuôi lớn hơn f .
Ví dụ 1.4. Giả sử chúng ta muốn lấy mẫu |X| trong đó X là biến ngẫu
nhiên phân phối chuẩn tắc. Mật độ của |X| được cho bởi

f (x) =

x2
2
exp −
π
2

với x ∈ R+ .

Ta đã biết cách lấy mẫu một biến ngẫu nhiên phân phối mũ vì thế chúng
ta chọn mật độ g là mật độ của một phân phối mũ với tham số 1. Khi đó:

f (x)
=
g(x)

Từ đó, đặt M =

x2 − 2x
2
exp −
π
2
2e

.
π
2e
π

=

(x − 1)2
2e
exp −
π
2

dẫn đến

f (x)
(x − 1)2
= exp −
M g(x)
2

.

Thuật toán lấy mẫu loại bỏ tiến hành như sau:

• Bước 1: Lấy mẫu Y = y từ phân phối mũ E(1) và U = u từ phân
phối đều U (0, 1). Đến bước 2.
• Bước 2: Nếu u ≤ exp − (y−1)
2


2

thì đặt X = y . Ngược lại, trở lại

bước 1.
Ví dụ 1.5. Xét một biến ngẫu nhiên Y với mật độ g(x) được xác định
trên không gian trạng thái S . Bây giờ, giả sử A ⊂ S và chúng ta muốn lấy
11


mẫu biến ngẫu nhiên có điều kiện X = (Y |Y ∈ A) với không gian trạng
thái A. Trong trường hợp này mẫu loại bỏ có thể hoàn thành bởi lấy mẫu
lặp đi lặp lại X cho đến khi mẫu của chúng ta nằm trong A. Cụ thể hơn,
X có mật độ f (x) = P(Yg(x)
∈A) với x ∈ A. Do đó

f (x)
1

=M
g(x)
P(Y ∈ A)



f (x)
= 1[x∈A] với x ∈ S.
M g(x)

Giả sử U có phân phối đều trên khoảng đơn vị. Khi đó


1 nếu Y ∈ A
P(U ≤ f (Y )/M g(y)) =
0 nếu Y ∈
/A
Vì vậy, trong thuật toán lấy mẫu loại bỏ tiêu chuẩn, chúng ta chấp nhận
nếu Y ∈ A và ngược lại, chúng ta loại bỏ. Chúng ta không cần lấy mẫu U
để đưa ra quyết định này.
Nếu đánh giá mật độ mục tiêu f là tốn kém thì phương pháp loại bỏ có
thể dùng máy điện toán ít tốn kém hơn. Nếu thêm cận trên M g(x) trên
mật độ mục tiêu f (x) thì chúng ta cũng có thể dễ dàng ước lượng cận dưới
h(x). Vì thế gọi là thuật toán lấy mẫu loại bỏ hình bao, tiến hành như
sau:
1. Giả sử Y = y từ g(y) và U = u từ phần phối đều U (0, 1).
2. Chấp nhận nếu u ≤ h(y)/M g(y) và đặt X = y là một mẫu. Ngược
lại, đi đến bước 3.
3. Chấp nhận nếu u ≤ f (y)/M g(y) và trả lại X = y là một mẫu. Ngược
lại đi đến bước 1.
Điều này hiệu quả hơn vì trung bình ta cần 1/M h(x)dx lần lặp đánh
giá của f được thay thế bởi đánh giá của h. Hàm h có thể được tìm thấy
trong ví dụ bởi khai triển Taylor.

12


1.3.3

Phương pháp lấy mẫu quan trọng

Trong đoạn trước ta đã đưa ra lấy mẫu loại bỏ, sử dụng mật độ đề xuất

để tạo ra mẫu từ mật độ mục tiêu. Trong đoạn này, chúng ta vấn tiếp tục
lấy mẫu của mật độ mục tiêu nhưng thay đổi cách đánh giá tạo ra ước
lượng không chệch của các đặc tính của mật độ mục tiêu.
Nhắc lại cái mà ta đang quan tâm khi thảo luận về phương pháp Monte
Carlo là tích phân

I = Ef (h(X)) =

h(x)f (x)dx
S

với f là một mật độ. Khi đó, ta viết lại tích phân dưới dạng

I=
S

f (x)
h(x)g(x)dx
g(x)

trong đó, g là một mật độ sao cho g(x) > 0 với f (x)h(x) = 0. Bây giờ,
chúng ta tạo ra một mẫu độc lập cùng phân phối (x1 , ..., xn ) từ g và ước
lượng I bởi:

1
Iˆ =
n

n


i=1

1
f (xi )
h(xi ) =
g(xi )
n

n

w(xi )h(xi )
i=1

Ta gọi cách lấy mẫu này là lấy mẫu quan trọng. Mật độ g được gọi là
(xi )
mật độ đề xuất hoặc mật độ công cụ và trọng số w(xi ) = fg(x
được gọi là
i)
trọng số quan trọng. Chú ý rằng Iˆ là một ước lượng không chệch của I .
Có hai lý do tại sao chúng ta quan tâm đến biểu diễn mẫu quan trọng:
1. Lấy mẫu từ f (x) là không thể hoặc quá đắt đỏ.
2. h(x), trong đó X ∼ f , có phương sai lớn, vì thế ước lượng không
chệch theo quy ước có sai số Monte Carlo (MC) lớn.
Phương sai của một ước lượng quan trọng sẽ chỉ hữu hạn nếu ước lượng
là bình phương khả tích, tức là
Eg

f 2 (X)
h (X) 2
g (X)

2

= Ef h2 (X)
13

f (X)
g(X)

< ∞.


Do đó, phương sai sẽ thường vô hạn nếu tỷ số f (x)/g(x) không bị chặn.
Dẫn đến, nếu có thể, chúng ta nên chọn mật độ đề xuất g có đuôi dày hơn
f . Tóm lại, nếu f (x)/g(x) không bị chặn thì thậm chí nếu phương sai của
ước lượng thống kê là hữu hạn, thủ tục lấy mẫu là không hiệu quả cũng
như phương sai của trọng số quan trọng là lớn.
Thay vì ước lượng quan trọng Iˆ = n1 ni=1 w(xi )h(xi ), ước lượng tỷ lệ
sau đây thường được sử dụng

I˜ =

n
j=1 h(xj )w(xj )
.
n
w(x
)
j
j=1


Ước lượng này có hai lợi thế:
1. Nó là ước lượng không chệch, thường có phương sai nhỏ hơn ước lượng
quan trọng, đưa vào dễ dàng hơn. Nhưng chú ý rằng ước lượng này
vẫn phù hợp đối với x1 , ..., xn độc lập cùng phân phối với mật độ g ,
ta có
n
1
n→∞
f (xj )/g(xj ) −−−−→ 1.
n j=1
2. Chúng ta có thể áp dụng lấy mẫu quan trọng ngay cả khi chúng ta
biết f (x) và vì thế w(x) chỉ đến một hằng số tỷ lệ.
Nếu ta không thể tìm thấy một mật độ quan trọng dẫn đến phương sai
nhỏ hợp lý của trọng số quan trọng thì có vài phương pháp lấy mẫu có thể
áp dụng để làm giảm phương sai:
1. Phép tính gần đúng đầu tiên được gọi là lấy lại mẫu quan trọng liên
tiếp và quá trình này như sau:
(a) Lấy một mẫu quan trọng Y (1) , ..., Y (n) với các trọng số quan trọng
wi = f (Y (i) )/g(Y (i) ), i = 1, ..., n.
(b) Tạo một mẫu mới X (1) , ..., X (n) bằng cách lấy mẫu từ Y (1) , ..., Y (n)
trong đó Y j được lấy mẫu với xác suất wj / ni=1 wi .
2. Phương pháp lấy mẫu thứ hai được gọi là kiểm soát loại bỏ và xem xét
loại bỏ bất kỳ điểm mẫu mà có trọng số quan trọng dưới một ngưỡng
14


c cho trước. Loại bỏ những điểm mẫu sẽ đưa ra một độ lệch, nhưng
bằng sự thay đổi các trọng số quan trọng thích hợp, độ lệch này có
thể tránh được. Cho mẫu quan trọng Y (1) , ..., Y (n) với các trọng số
quan trọng w1 , ..., wn , quá trình kiểm soát loại bỏ như sau:

(a) Với j = 1, ..., n chấp nhận Y (j) với xác suất pj = min{1, wj /c}.
Ngược lại, loại bỏ Y (j) .
(b) Nếu Y (j) được chấp nhận tính toán lại thì trọng số quan trọng là
w˜j = qwj /pj , trong đó q = min{1, w(x)/c}g(x)dx.
Chú ý vì q như nhau đối với tất cả các điểm mẫu nên ta không cần
tính nó rõ ràng nếu ta sử dụng ước lượng tỷ lệ. Hơn nữa, kiểm soát
loại bỏ tạo ra một mẫu quan trọng theo mật độ đề xuất

g∗ =

1.4

min{g(x), f (x)/c}
.
q

Xích Markov

Trong đoạn này, chúng ta đưa ra một số định lý về xích Markov quan
trọng cho phương pháp MCMC.
Định nghĩa 1.11. Xích Markov. Một dãy đại lượng ngẫu nhiên X =
{Xn , n = 0, 1, 2, 3, ...} nhận các giá trị trên tập S được gọi là xích Markov
nếu:
P(Xn+1 ∈ A|Xn = xn ,Xn−1 = xn−1 , ..., X0 = x0 )

= P(Xn+1 ∈ A|Xn = xn )
với mọi n

0, A ⊆ S , x0 , x1 , ..., xn ∈ S .


Đôi khi tính Markov của xích còn được phát biểu dưới dạng: Nếu biết
trạng thái hiện tại (tại thời điểm n) của xích thì quá khứ và tương lai (tại
thời điểm n+1) độc lập với nhau.

15


Ví dụ 1.6. Giả sử Xn là



0


Xn = 1



2

thời tiết ngày thứ n. Ta đặt:
nếu trời nắng vào ngày thứ n
nếu trời có mây vào ngày thứ n
nếu trời mưa vào ngày thứ n

Hình sau chỉ ra các xác suất chuyển cho sự thay đổi thời tiết.
Bằng việc lấy mô hình thời tiết như xích Markov, chúng ta giả sử rằng

Hình 1.1: Xác suất chuyển của xích thời tiết


thời tiết ngày mai được tính theo thời tiết hôm nay, không phụ thuộc vào
ngày hôm qua hay bất kỳ ngày trước nào.
Định nghĩa 1.12. Xác suất chuyển, Xích thời gian thuần nhất.
Một xích Markov X được gọi là xích thuần nhất nếu xác suất chuyển của
nó:
P(Xn+1 ∈ A|Xn = x) = P (x, A) =
p(x, y)dy
A

không phụ thuộc vào n. Ta gọi P(x, A) là nhân chuyển. Trong phạm vi ở
đây, chúng ta giả sử rằng nhân chuyển là liên tục tuyệt đối với mọi x ∈ S ,
tức là nó có một mật độ liên quan hoặc hàm khối xác suất. Vì vấy, cố định
x ∈ S , hàm p(x, y) là một mật độ hoặc hàm khối xác suất (pmf).
Xác suất chuyển sau n bước của X được định nghĩa bởi
P(Xn ∈ A|X0 = x) = P (n) (x, A) =

p(n) (x, y)dy.
A

16


Nếu không gian trạng thái S của X là hữu hạn thì ta có thể gom các
xác suất chuyển thành một ma trận xác suất chuyển như sau.
Định nghĩa 1.13. Ma trận chuyển. Đặt P(Xn+1 = j|Xn = i) = pij
(i, j ∈ S ). Ma trận xác suất chuyển của X là

P = (pij )i,j∈S .
(n)


Khi đó xác suất chuyển sau n bước là pij = Pn (i, j).
Ví dụ 1.7. Ma trận xác suất chuyển của xích Markov thời tiết và Ma trận
xác suất chuyển sau 2 - lần của xích Markov thời tiết là




0, 4 0, 6 0
0, 31
0, 39
0, 3




P = 0, 25 0, 25 0, 5 , P2 = 0, 1625 0, 4125 0, 425
0
0, 4 0, 6
0, 1
0, 34 0, 56
.
Bổ đề 1.14. Phân phối tại thời điểm n. Giả sử đã biết phân phối ban
đầu của X, tức là phân phối của X0 được cho bởi hàm mật độ q (0) (x). Khi
đó, ta có thể tính được hàm mật độ của X tại thời điểm n như sau:

q (n) (x) =

q (0) (y)p(n) (y, x)dy.
S


Nếu q (n) là véctơ của phân phối tại thời điểm n và Pn là ma trận xác suất
chuyển sau n bước thì ta có:

q (n) = q (0) Pn .
Ví dụ 1.8. Giả sử trong ngày thứ 0, trời nắng. Do đó q (0) = (1, 0, 0).
Khi đó, phân phối của thời tiết trong ngày thứ 2 là

q (2) = q (0) P2



0, 31
0, 39
0, 3


= (1, 0, 0) 0, 1625 0, 4125 0, 425
0, 1
0, 34 0, 56

= (0, 31; 0, 39; 0, 3).
Vì vậy nếu ngày thứ 0 trời nắng thì chúng ta có 31% khả năng trời nắng
vào ngày thứ 2.
17


Nếu một xích Markov thỏa mãn điều kiện hợp lý nhất định thì phân
phối của xích hội tụ đến một phân phối giới hạn mà cũng được gọi là phân
phối cân bằng hoặc cân bằng hoặc bất biến. Xích như thế được gọi là một
xích Markov ergodic.

Một xích Markov thời gian rời rạc trên một không gian trạng thái rời
rạc là ergodic nếu nó là tối giản, không chu kỳ và hồi quy dương. Đầu tiên,
ta đưa ra các khái niệm cho không gian trạng thái (rời rạc) đếm được và
định nghĩa tương tự cho không gian trạng thái tổng quát.
Định nghĩa 1.15. Tối giản: Xích Markov X được gọi là tối giản nếu tất
cả các trạng thái đều liên lạc được, tức là với mọi i, j ∈ S , có một số n ≥ 0
sao cho:
P(Xn = i|X0 = j) > 0.
Định nghĩa 1.16. Hồi quy Một xích Markov X được gọi là hồi quy nếu
xác suất để xích xuất phát từ trạng thái i quay trở lại i sau hữu hạn bước
bằng 1, tức là:
P(X trở lại trạng thái i sau hữu hạn bước |X0 = i) = 1

∀i ∈ S.

Định nghĩa 1.17. Hồi quy dương : Một xích hồi quy được gọi là hồi
quy dương nếu E(Tii ) < ∞ với mọi i ∈ S , trong đó Tii là khoảng thời gian
lần đầu tiên trở về trạng thái i. Nếu xích Markov là ergodic với phân phối
dừng π thì
π(i) = 1/E(Tii ).
Ở đây, phân phối dừng π = (π(1), π(2), ...) còn được gọi là phân phối giới
hạn.
Định lí 1.18. Trạng thái i là hồi quy khi và chỉ khi

(n)

n=1 pii

= ∞.


Định nghĩa 1.19. Tính không chu kỳ:
Một xích Markov được gọi là không có chu kỳ nếu không tồn tại d
các tập con rời nhau S1 , S2 , ..., Sd ⊂ S sao cho:

P (x, Si+1 ) = P(Xn+1 ∈ Si+1 |Xn = x) = 1 ∀x ∈ Si ,
P (x, S1 ) = 1 ∀x ∈ Sd .
18

2 và

i ∈ {1, 2, 3, ..., d−1}


Ví dụ 1.9.

Hình 1.2: Xác suất chuyển của xích thời tiết

Bây giờ ta xét một không gian trạng thái liên tục X . Bởi vì xác suất
của một biến ngẫu nhiên liên tục nhận giá trị tại một điểm bằng 0 nên ta
cần xem lại định nghĩa về tính tối giản.
Định nghĩa 1.20. φ - tối giản. Một xích Markov được gọi là φ - tối giản
nếu tồn tại một độ đo không tầm thường φ trong X sao cho ∀A ⊆ X với
φ(A) > 0 và ∀x ∈ X , tồn tại số nguyên dương n = n(x) sao cho:

P (n) (x, A)(= P(Xn ∈ A|X0 = x)) > 0.
Ví dụ như φ(A) = δx0 thì điều này đòi hỏi trạng thái x0 có thể đạt
được (liên lạc) từ bất kỳ trạng thái khác với xác suất dương. Vì vậy, tính
tối giản là điều kiện chặt hơn so với φ - tối giản. Với không gian trạng thái
liên tục, φ(·) có thể là độ đo Lebesgue.
Khái niệm về tính không chu kỳ như định nghĩa trước đó cũng được áp

dụng cho xích Markov liên tục.
Một xích Markov là φ - tối gian và không có chu kỳ thì có phân phối
giới hạn. Để đo khoảng cách giữa hai độ đo xác suất ta sử dụng khoảng
cách biến thiên hoàn toàn.
Định nghĩa 1.21. Khoảng cách biến phân giữa hai độ đo xác suất P1 và
P2 được định nghĩa bởi:

P1 (·) − P2 (·) = sup |P1 (A) − P2 (A)|.
A

19


Định lí 1.22. Phân phối trạng thái cân bằng. Phân phối của xích
Markov không có chu kỳ, φ - tối giản hội tụ đến một phân phối giới hạn
π , tức là:

lim P n (x, ·) − π(·) = 0 với π − hầu hết x ∈ X .

n→∞

Ta gọi phân phối giới hạn π là phân phối trạng thái cân bằng hay phân
phối dừng.
Định nghĩa 1.23. Hồi quy Harris: Một xích Markov X là hồi quy Harris
nếu ∀B ⊆ X với π(B) > 0 và ∀x ∈ X ta có:
P(Xn ∈ B với n > 0 | X0 = x) = 1.
Định lí 1.24. Phân phối của một xích Markov không có chu kỳ, hồi quy
Harris hội tụ đến phân phối giới hạn π , tức là:

lim P n (x, ·) − π(·)


n→∞

= 0 ∀x ∈ X .

Chú ý rằng vì:

q (n) (A) = P(Xn ∈ A) =

q (0) (x)P n (x, A)dx

nên ta có lim P(Xn ∈ A) = π(A) ∀A ⊆ X và với mọi phân phối ban đầu
n→∞

(0)

q .
Vì định lý trên đúng cho bất kỳ phân phối ban đầu q (0) nào nên dẫn
đến ta có phương trình cân bằng tổng quát

π(x) =

π(y)p(y, x)dy.
S

Bổ đề 1. Trạng thái cân bằng chi tiết. Giả sử π là phân phối trên
S thỏa mãn: π(x)p(x, y) = π(y)p(y, x) với mọi x, y ∈ S , trong đó p(x, y)
là mật độ chuyển hoặc hàm khối xác suất của một xích Markov X có tính
ergodic. Khi đó π là một phân phối dừng của X.


20


Thật vậy, phân phối π thỏa mãn phương trình trạng thái cân bằng tổng
quát vì:

π(x)p(x, y)dx =
S

π(y)p(y, x)dx = π(y)
S

p(y, x)dy = π(y).
S

Sự hữu ích của MCMC là dựa trên định lý quan trọng đối với xích Markov
có tính ergodic sau.
Định lí 1.25. Định lý ergodic: Cho h là một hàm thực nào đó và X là
một xích Markov có tính ergodic với phân phối dừng π . Xét ergodic trung
bình:
N
1
¯N =
h
h(Xn ).
N n=1
Bây giờ giả sử Y có phân phối π . Nếu Eπ (|h(Y )|) < ∞ thì khi N → ∞,
¯ N hội tụ đến Eπ (h(Y )) với xác suất 1.
ergodic trung bình h
Chúng ta cũng có định lý giới hạn trung tâm. Nó đòi hỏi điều kiện nhất

định là tốc độ hội tụ được biết đến là hội tụ hình học. Chúng ta cũng sử
dụng các ký hiệu như định lý trên.
Định lí 1.26. Định lý giới hạn trung tâm Nếu X là ergodic hình học
([3])và Eπ (h(Y )2+ε ) < ∞ với ε > 0 thì
2

τ
d
¯ N −→
h
N (Eπ (h(X)), )
N
với τ 2 là đại lượng có liên quan đến thời gian tự tương quan đầy đủ của X.

21


Chương 2
Phương pháp MCMC
2.1

Giới thiệu

Trong chương đầu, chúng ta đã giới thiệu một số phương pháp MC cơ
bản. Các mô phỏng này có ưu điểm là dễ thực hiện. Tuy nhiên, nó chỉ mô
phỏng được đối với các trường hợp đơn giản. Trong nhiều trường hợp phức
tạp như số chiều tăng lên (phân phối nhiều chiều) ... thì các mô phỏng cơ
bản không thể thực hiện được. Hơn nữa, bây giờ, giả sử chúng ta muốn
biết kỳ vọng của biến ngẫu nhiên h(Y) với Y có phân phối nhiều chiều
được cho bởi hàm mật độ (hoặc hàm khối xác suất) π . Tuy nhiên, chúng

ta không thể tính E(h(Y )) = h(y)π(y)dy và các phương pháp mô phỏng
cơ bản cũng không thực hiện được. Đề giải quyết vấn đề này, chúng ta đưa
ra một phương pháp gọi là phương pháp MCMC.
Chúng ta biết rằng một xích Markov X có tính ergodic thì phân phối
của xích hội tụ đến phân phối dừng. Vì vậy, ý tưởng chính của phương
pháp MCMC là đi xây dựng một xích Markov có tính ergodic mà phân
phối dừng là π . Khi đó, chúng ta chạy X lên đến thời gian dài N và ước
lượng E(h(Y )) bởi N1 N
n=1 h(Xn ). Định lý ergodic cho ta biết với N đủ
lớn, ước lượng trên sẽ gần đến E(h(Y )).
Xích Markov quan tâm thường bắt đầu tại một trạng thái mà không có
phân phối dừng (ngược lại chúng ta không làm việc với MCMC). Ta có thể
khám phá hiệu quả trạng thái ban đầu có thể có trên các trạng thái được
truy cập bởi xích Markov. Để giảm khả năng của độ chệch, cái được gọi
22


là độ chệch khởi đầu do ảnh hưởng của kết quả của giá trị khởi động, một
M bước ban đầu của xích bị loại bỏ và ước lượng dựa trên trạng thái được
truy cập sau thời gian M, tức là chúng ta sử dụng ergodic trung bình:

¯N =
h

1
N −M

N

h(Xn ).

n=M +1

Giai đoạn đầu đến thời điểm M được gọi là giai đoạn tạm thời (ngắn
ngủi) hoặc là thời kỳ burn-in. Làm thế nào chúng ta quyết định thời độ
dài của thời kỳ burn-in? Bước đầu tiên kiểm tra đầu ra của xích là quan
sát thông thường bằng mắt. Đây là một phương pháp rất thô nhưng rất
nhanh chóng và rẻ tiền. Tuy nhiên, điều này nên được theo dõi bằng các
phương pháp phức tạp hơn.
Như vậy, chúng ta bắt đầu với phân phối π và cố gắng tìm xích Markov
có tính ergodic mà phân phối dừng là π . Với bất kỳ cách cho phân phối,
thường là có nhiều xích Markov phù hợp. Vì vậy, có nhiều cách khác nhau
trong việc xây dựng một xích Markov mà phân phối hội tụ đến phân phối
mục tiêu.
Thực sự không phải quá khó để tìm một xích Markov có phân phối
dừng là phân phối mong muốn. Có một số các phương pháp, được gọi là
"lấy mẫu", mà chúng ta có thể sử dụng để tìm một xích Markov như vậy.
Nếu xích được xây dựng là ergodic thì chúng ta có thể tiến hành bằng cách
mô phỏng xích đó và ước tính số lượng quan tâm.

2.2

Mẫu Metropolis - Hastings

Cho S là không gian trạng thái của phân phối mục tiêu. Quá trình
chuyển đổi của một xích Metropolis-Hastings được tạo ra như sau. Đầu
tiên, chúng ta chọn với mỗi x ∈ S một mật độ q(x, ·) trong S (hoặc hàm
khối xác suất nếu S là rời rạc). Vì vậy, q(x, ·), x ∈ S , xác định các xác
suất/mật độ chuyển của một xích Markov trong không gian trạng thái S ,
cho biết trạng thái hiện tại là x. Các xác suất/ mật độ chuyển q(x, ·) nên
được chọn sao cho việc lấy mẫu được dễ dàng.

23


Giả sử trạng thái hiện tại của xích Markov là Xn = x. Khi đó, chúng
ta lấy mẫu một trạng thái z theo q(x, ·). Chúng ta đề xuất trạng thái z
này như là trạng thái mới của xích và chấp nhận nó với xác suất

α(x, z) = min 1,

π(z)q(z, x)
.
π(x)q(x, z)

Nếu trạng thái đề xuất z được chấp nhận thì xích Markov chuyển đến
trạng thái z , nghĩa là Xn+1 = z . Nếu không thì xích vẫn còn ở trạng thái
x, nghĩa là Xn+1 = x. Chúng ta tóm tắt quá trình này trong định nghĩa
sau:
Định nghĩa 2.1. Mẫu Metropolis - Hastings. Chọn các xác suất/mật
độ chuyển q(x, y), x, y ∈ S . Chúng được gọi là các phân phối đề xuất. Bây
giờ, giả sử Xn = x ∈ S .
Tiến hành như sau:
1. Lấy mẫu Z= z dựa vào q(x, z), z ∈ S
2. Chấp nhận Z= z với xác suất

α(x, z) = min 1,

π(z)q(z, x)
.
π(x)q(x, z)


Nếu Z= z được chấp nhận thì Xn+1 = z . Ngược lại, nếu Z= z không
được chấp nhận thì Xn+1 = x.
Chúng ta xem xét một vài ví dụ sau. Ví dụ đầu tiên về phân phối hỗn
hợp: phân phối hỗn hợp liên tục với hai thành phần có mật độ dạng

f (x) = pf1 (x) + (1 − p)f2 (x)
với 0từ f1 (·) với xác suất p và từ f2 (·) với xác suất 1-p. Ví dụ sau chỉ ra cách
lấy mẫu từ một phân phối hỗn hợp bằng cách sử dụng mẫu Metropolis Hastings. Mật độ trong ví dụ này có thể được lấy mẫu trực tiếp.
Ví dụ 2.1. Mô phỏng phân phối hỗn hợp của hai phân phối chuẩn
24


×