Tải bản đầy đủ (.pdf) (55 trang)

Phương pháp MCMC và một số ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (562.11 KB, 55 trang )

Mục lục
LỜI MỞ ĐẦU 5
BẢNG KÝ HIỆU 7
1 TỔNG QUAN 8
1.1 Suy luận Bayes . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.1 Đặc điểm mô hình Bayes . . . . . . . . . . . . . . . 9
1.1.2 Các tiên nghiệm Jeffreys . . . . . . . . . . . . . . . 9
1.2 Tích phân Monte Carlo . . . . . . . . . . . . . . . . . . . . 10
1.2.1 Bài toán . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2 Xấp xỉ Monte Carlo . . . . . . . . . . . . . . . . . . 11
1.2.3 Monte Carlo thông qua lấy mẫu theo trọng số . . . 12
1.3 Phương pháp sinh biến ngẫu nhiên . . . . . . . . . . . . . . 13
1.3.1 Phương pháp biến đổi . . . . . . . . . . . . . . . . . 13
1.3.2 Phương pháp chấp nhận - bác bỏ . . . . . . . . . . . 14
1.3.3 Phương pháp tỷ số đều . . . . . . . . . . . . . . . . 15
1.4 Xích Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4.1 Các định nghĩa và kí hiệu . . . . . . . . . . . . . . . 18
1.4.2 Sự hội tụ của phân phối . . . . . . . . . . . . . . . . 19
1.4.3 Giới hạn của giá trị trung bình . . . . . . . . . . . . 19
2 MẪU GIBBS 21
2.1 Mẫu Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Thuật toán mở rộng dữ liệu . . . . . . . . . . . . . . . . . . 24
3 THUẬT TOÁN METROPOLIS-HASTINGS 27
3.1 Thuật toán Metropolis – Hastings . . . . . . . . . . . . . . 27
3.1.1 Khái niệm . . . . . . . . . . . . . . . . . . . . . . . 27
2
3.1.2 Mẫu độc lập . . . . . . . . . . . . . . . . . . . . . . 29
3.1.3 Xích bước ngẫu nhiên . . . . . . . . . . . . . . . . . 30
3.2 Thuật toán Metropolis- Hasting cho các phân phối nhiều
chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.1 Cập nhật từng khối . . . . . . . . . . . . . . . . . . 30


3.2.2 Cập nhật từng thành phần . . . . . . . . . . . . . . 34
3.3 Các dạng khác nhau của thuật toán Metropolis - Hastings . 36
3.3.1 Thuật toán chạm và chạy . . . . . . . . . . . . . . . 36
3.3.2 Thuật toán Langevin . . . . . . . . . . . . . . . . . 37
3.3.3 Thuật toán đa phép thử MH . . . . . . . . . . . . . 38
3.4 Thuật toán bước nhảy ngược MCMC cho bài toán lựa chọn
mô hình Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.1 Thuật toán bước nhảy ngược MCMC . . . . . . . . 39
3.4.2 Xác định điểm thay đổi . . . . . . . . . . . . . . . 43
4 Phương pháp biến phụ trợ MCMC 46
4.1 Mô phỏng nhiệt luyện . . . . . . . . . . . . . . . . . . . . . 48
4.2 Mô phỏng điều hoà nhiệt . . . . . . . . . . . . . . . . . . . 49
4.3 Thuật toán Moller . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Thuật toán trao đổi . . . . . . . . . . . . . . . . . . . . . . 53
Tài liệu tham khảo 56
3
LỜI CẢM ƠN
Luận văn này được hoàn thành với sự hướng dẫn tận tình và cũng hết
sức nghiêm khắc của TS. Nguyễn Thịnh. Thầy đã dành nhiều thời gian
quý báu của mình để hướng dẫn cũng như giải đáp các thắc mắc của tôi
trong suốt cả quá trình làm luận văn. Tôi muốn tỏ lòng biết ơn chân thành
và sâu sắc nhất tới người thầy của mình.
Tôi cũng muốn gửi tới toàn thể các thầy cô Khoa Toán - Cơ - Tin học
trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, các thầy cô
đã đảm nhận giảng dạy khóa Cao học 2011 - 2013, đặc biệt là các thầy cô
tham gia giảng dạy nhóm Xác suất thống kê 2011 - 2013 lời cám ơn chân
thành đối với công lao dạy dỗ trong suốt thời gian của khóa học.
Tôi xin cám ơn gia đình, bạn bè, đồng nghiệp và các anh chị em trong
nhóm Xác suất thống kê 2011 - 2013 đã quan tâm, giúp đỡ, tạo điều kiện
và động viên tinh thần để tôi có thể hoàn thành được khóa học này.

4
LỜI MỞ ĐẦU
Luận văn này với mục đích trình bày về phương pháp MCMC và một
số ứng dụng của nó.Luận văn được xây dựng dựa trên lý thuyết về suy
luận Bayes,tích phân Monte Carlo và xích Markov
Luận văn gồm có 4 chương:
Chương 1. Tổng quan.
Suy luận Bayes: giới thiệu về suy luận Bayes, các đặc điểm của mô hình
Bayes, các tiên nghiệm Jeffreys.
Tích phần Monte Carlo: Bài toán tích phân Monte Carlo, xấp xỉ Monte
Carlo, Monte Carlo thông qua lấy mẫu theo trọng số.
Phương pháp sinh biến ngẫu nhiên: Phương pháp biến đổi, phương pháp
chấp nhận - bác bỏ, phương pháp tỷ số đều.
Xích Markov: Các định nghĩa và kí hiệu, Sự hội tụ của các phân phối,
giới hạn của giá trị trung bình.
Chương 2. Mẫu Gibbs.
Giới thiệu về phương pháp lấy mẫu Gibbs và ví dụ cho trường hợp biến
ngẫu nhiên nhiều chiều.
Thuật toán mở rộng dữ liệu:mô tả thuật toán và một số ví dụ tương
ứng.
Chương 3. Thuật toán Metropolis- Hastings.
Thuật toán Metropolis- Hasting: Khái niệm, mẫu độc lập, xích bước
ngẫu nhiên.
Thuật toán Metropolis - Hasting đối với phân phối nhiều chiều: giới
thiệu ứng dụng của thuật toán Metropolis - Hasting đối với các biến ngẫu
nhiên nhiều chiều bằng cập nhật từng khối, cập nhật từng thành phần.
Các dạng khác nhau của thuật toán Metropolis - Hasting: Thuật toán
chạm và chạy, thuật toán Langevin, thuật toán đa phép thử MH.
Chương 4. Phương pháp biến phụ trợ MCMC.
5

Giới thiệu về mặt lý thuyết một vài thuật toán của phương pháp MCMC
có sử dụng các biến phụ trợ: Phương pháp mô phỏng nhiệt luyện, mô
phỏng điều chỉnh nhiệt,Moller, thuật toán trao đổi, phương pháp lấy mẫu
MH kép. Do thời gian gấp rút và kiến thức còn hạn chế nên luận văn
không thể tránh khỏi những thiếu sót, vì vậy, rất mong nhận được những
ý kiến đóng góp của các thầy cô và bạn bè đồng nghiệp, xin trân trọng
cám ơn.
Hà Nội, tháng 11 năm 2014
6
BẢNG KÝ HIỆU
MCMC: Xích Markov Monte Carlo
AD: Thuật toán mở rộng dữ liệu
AR: Thuật toán chấp nhận - bác bỏ
h.c.c: hầu chắc chắn
MTH: thuật toán đa phép thử Metropolis - Hastings
MTM: thuật toán đa phép thử Metropolis
RJMCMC: Thuật toán bước nhảy ngược MCMC
7
Chương 1
TỔNG QUAN
1.1 Suy luận Bayes
Suy luận Bayes là một công thức suy luận xác suất. Với ưu điểm là tính
toán đơn giản và cùng với những phát triển gần đây của các phương pháp
xích Markov Monte Carlo(MCMC) cho việc tính xấp xỉ tích phân có số
chiều cao mà suy luận Bayes ngày càng được sử dụng rộng rãi. Suy luận
Bayes được bắt nguồn từ Thomas Bayes (1764), người đã rút ra xác suất
nghịch đảo của xác suất thành công θ trong một dãy các phép thử độc lập
Bernoulli, trong đó θ được lấy từ phân phối đều trên khoảng (0,1).
Ví dụ 1.1. (Mô hình Bernoulli với tiên nghiệm đã biết)
Giả sử rằng θ ∼ Unif (0, 1) là phân phối đều trên khoảng (0,1),và

x
1
, x
2
, , x
n
là mẫu lấy từ Bernoulli (θ) với không gian mẫu X = {0, 1}
và hàm khối xác suất
Pr (X = 1 |θ) = θ;
Pr (X = 0 |θ) = 1 −θ
(1.1)
trong đó X là biến ngẫu nhiên Bernoulli với X = 1 nếu thành công, và
X = 0 nếu thất bại.
Ta viết N =

n
i=1
x
i
là số quan sát thành công trong n phép thử
Bernoulli.
Khi đó N |θ ∼ B (n, θ) là phân phối nhị thức với cỡ n và xác suất thành
công θ. Xác suất nghịch đảo của θ cho bởi x
1
, x
2
, , x
n
được hiểu như phân
phối hậu nghiệm,được xem như là phân phối Beta, Beta(1+N,1+n-N) với

hàm mật độ xác suất
1
B(1 + N, 1 + n −N)
θ
(1+N)−1
(1 −θ)
(1+n−N)−1
(0 ≤ θ ≤ 1)
(1.2)
8
trong đó B (

,

) là kí hiệu của hàm Beta
1.1.1 Đặc điểm mô hình Bayes
Theo như những nghiên cứu toán học đã biết thì để xác định mô hình
Bayes ta cần :
(i) Chỉ rõ một mô hình lấy mẫu từ dữ liệu quan sát X, có điều kiện trên
một đại lượng chưa biết θ.
X ∼ f (X |θ)
(X ∈ X, θ ∈ Θ)
(1.3)
ở đó f (X |θ) là hàm mật độ xác suất, và
(ii) Chỉ rõ một phân phối biên,được gọi là phân phối tiên nghiệm hay đơn
giản là tiên nghiệm π (θ) của θ:
θ ∼ π (θ)
(θ ∈ Θ)
(1.4)
Phân tích dữ liệu dựa trên kết quả những suy luận ở trên nhằm mục

đích rút gọn tính toán tích phân đối với phân phối hậu nghiệm, hay nói
gọn là hậu nghiệm,
π (θ |X ) =
π (θ) L (θ |X )

π (θ) L (θ |X ) dθ
(θ ∈ Θ)
(1.5)
ở đó
L (θ |X ) ∝ f (X |θ)
trong đó δ được gọi là thống kê hợp lý của δ với X đã cho.
1.1.2 Các tiên nghiệm Jeffreys
Một cách tự nhiên ta thấy rằng việc chỉ rõ mô hình Bayes chẳng khác gì
việc tổng hợp các thông tin có thể trong thực tế theo quan điểm xác suất
chính xác. Đồng thời, việc chỉ rõ mô hình xác suất đối với dữ liệu quan
sát X là việc làm tất yếu. Thêm vào đó khi xét mô hình lấy mẫu của dữ
liệu quan sát X đối với đại lượng chưa biết θ suy luận Bayes yêu cầu tiên
nghiệm cho θ phải được xác định rõ ràng. Trong trường hợp thông tin tiên
9
nghiệm của θ là sẵn có và có thể biết một cách chính xác bởi một phân
phối xác suất thì điều này là hiển nhiên. Tuy nhiên, đối với các trường
hợp khi thông tin này là không sẵn có hoặc không dễ xác định bằng một
phân phối xác suất chính xác, đặc biệt là đối với các bài toán với số chiều
cao, khi đó phương pháp thường được sử dụng là phương pháp Jeffreys,
với việc giả thiết tiên nghiệm có dạng:
π
J
(θ) ∝ |I (θ)|
1
2

(θ ∈ Θ)
(1.6)
Trong đó I (θ) là lượng thông tin Fisher.
Ví dụ 1.2. Giả sử rằng ta xét một mẫu được lấy từ phân phối N (µ, 1)
Thông tin Fisher thu được như sau:
I (µ) =
+∞

−∞
φ (x −µ) dx = 1
Trong đó
φ (x −µ) = (2π)
1
2
exp


1
2
(x −µ)
2

là hàm mật độ của N (µ, 1). Điều này dẫn đến tiền nghiệm Jeffreys của θ

π
J
(θ) ∝ 1
(−∞ < µ < +∞)
(1.7)
Ta thu được phân phối hậu nghiệm tương ứng của θ cho bởi X như sau:

π
J
(µ |X ) = N (X, 1) (1.8)
1.2 Tích phân Monte Carlo
1.2.1 Bài toán
Cho ν là độ đo xác suất trên σ - trường Borel X với không gian mẫu
X ⊆ R
d
, trong đó R
d
là không gian Euclide d-chiều. Một khó khăn thường
gặp trong bài toán là ước tính tích phân dạng:
E
ν
[h (X)] =

X
h (x) ν (dx) (1.9)
10
Trong đó h(x) là hàm đo được. Giả sử rằng ν có hàm mật độ xác suất
f(x) thì (1.9) có thể được viết thành:
E
f
[h (X)] =

X
h (x) f (x) dx (1.10)
Ví dụ 1.3. Để ước lượng xác suất Pr (X ∈ S) với S ∈ X, h (x) hàm chỉ
tiêu là: h (x) = I
x∈S

với
h (x) =

1, nếu x ∈ S
0, nếu ngược lại
, và tính toán phân phối thành phần f
Y
(y) từ phân phối đồng thời f
X,Y
(x, y).
Khi đó thay vào trong (1.10) ta được là E
fX

f
Y |X
(y|x)

, trong đó f
X
(x)
là hàm mật độ của thành phần X,và f
Y |X
(y |x) là hàm mật độ có điều kiện
của Y đối với X đã biết.
1.2.2 Xấp xỉ Monte Carlo
Ta kí hiệu X
1
, , X
n
là một mẫu kích thước n lấy từ hàm mật độ xác

suất f(x) trong (1.10). Khi đó trung bình mẫu của h (X) là:
h
n
=
1
n
n

i=1
h (X
i
) (1.11)
có thể được sử dụng để tính xấp xỉ (1.10) vì h
n
hội tụ tới (1.10) hầu chắc
chắn theo luật số lớn. Khi h (X) có phương sai hữu hạn, sai số của xấp xỉ
này có thể được mô tả bằng định lý giới hạn trung tâm, nghĩa là:
h
n
− E
f
[h (X)]

nV ar (h (X))
∼ N (0, 1)
Tương tự V ar (h (X)) có thể được xấp xỉ bằng phương sai mẫu:
1
n −1
n


i=1

h (X
1
) −h
n

2
Phương pháp xấp xỉ tích phân qua các mẫu mô phỏng được biết đến như
là phương pháp Monte Carlo
11
1.2.3 Monte Carlo thông qua lấy mẫu theo trọng số
Trong trường hợp ta gặp khó khăn khi sinh trực tiếp các mẫu từ f (x),
ta có thể sử dụng phương pháp lấy mẫu theo trọng số, phương pháp này
dựa trên phép đồng nhất sau đây:
E
f
[h (X)] =

X
h (x) f (x) dx =

X
h (x)
f(x)
g(x)
g (x) dx
= E
g
[h (X) f (X) /g (X)]

Trong đó g (x) là hàm mật độ xác suất trên X và g(x) > 0 với mọi x mà
tại đó f (x) > 0. Đồng nhất thức này cho chỉ ra rằng các mẫu có các hàm
mật độ khác nhau xuất phát từ f (x) cũng có thể được xấp xỉ (1.10). Lý
thuyết Monte Carlo áp dụng được trong trường hợp này vì:
E
f
[h (X)] = E
g

h (X)
f (X)
g (X)

= E
g


h (X)

trong đó

h (x) = h (x)
f (x)
g (x)
g (x)
Ước lượng của E
f
[h (X)] bây giờ trở thành:
h =
1

m
m

i=1
f (x
1
)
g (x
i
)
h (x
i
) (1.12)
trong đó x
1
, , x
n
là các mẫu độc lập cùng phần phối sinh ra từ g (x). So
sánh với (1.11), với mỗi i = 1, , m x
i
có trọng số w
i
=
f(x
i
)
g(x
i
)
. Chính vì lý

do đó mà phương pháp này được gọi là phương pháp lấy mẫu theo trọng
số. Vấn đề mấu chốt của phương pháp này là chọn g (x) thỏa mãn cả tính
đơn giản trong việc sinh ra các mẫu Monte Carlo và độ chính xác trong
ước lượng E
f
[h (X)] bằng cách kiểm soát các sai số Monte Carlo. Với độ
tin cậy Monte Carlo,ta cần chọn g (x) để cực tiểu phương sai của

h (X)
với X ∼ g (x). Người ta chứng minh được rằng hàm g(x) thoả mãn điều
kiện trên là:
g

(x) =
|h (x)|f (x)

X
|h (y)|f (y) dy
12
1.3 Phương pháp sinh biến ngẫu nhiên
Phương pháp MC dựa trên việc lấy mẫu từ các phân phối xác suất. Mặt
khác,dựa vào phân phối đều Unif(0, 1) ta có thể sinh được các số ngẫu
nhiên của một phân phối xác suất bất kỳ .Do đó phương pháp sinh một
mẫu độc lập cùng phân phối từ phân phối đều đơn giản nhất Unif(0, 1)
là rất quan trọng bởi vì toàn bộ các phương pháp lấy mẫu đều dựa trên
các số ngẫu nhiên đều được sinh ra.
Thuật toán 1.1 (Hàm phân bố ngược liên tục)
1, Sinh ra một biến ngẫu nhiên đều U.
2, Tính toán và đưa ra kết quả X = F
−1

(U) trong đó F
−1
(.) là hàm số
ngược của hàm phân bố liên tục F (.).
Thuật toán 1.2 (Hàm phân bố ngược rời rạc)
1, Sinh ra biến ngẫu nhiên đều U.
2, Tìm X thỏa mãn F (X −1) < U ≤ F (X).
3, Trả lại giá trị X.
Tuy nhiên,thuật toán này nhìn chung có tính toán phức tạp. Các phương
pháp hiệu quả hơn sẽ được mô tả trong phần sau của luận văn. Sau đây
là một số phương pháp thường được sử dụng để lấy mẫu từ các các phân
phối trong trường hợp công thức hàm phân bố ngược không thể áp dụng
được.
1.3.1 Phương pháp biến đổi
Phương pháp biến đổi dựa trên phép biến đổi của các biến ngẫu nhiên,thuật
toán 1.1 và 1.2 là một ví dụ. Tuy nhiên,ngoại trừ một vài trường hợp như
phân phối mũ và phân phối Bernoulli thì thuật toán 1.1 và 1.2 thường
không hiệu quả. Các phương pháp biến đổi tốt hơn thu được bằng cách
dựa vào phân phối mục tiêu f(x). Sau đây là một số ví dụ thường được
sử dụng trong thực hành.
13
Công thức Phép biến đổi Phân phối
Mũ X = −ln(U) X ∼ Expo(1)
Cauchy X = tan (πU − π/2)) X ∼ Cauchy(0, 1)
Beta X
i
ind

Gamma (α
i

) , i = 1, 2
X
1
X
1
+X
2
∼ Beta (α
1
, α
2
)
1.3.2 Phương pháp chấp nhận - bác bỏ
Phương pháp chấp nhận - bác bỏ (AR) rất hữu ích trong việc sinh các
số ngẫu nhiên khi các phương pháp biến đổi trực tiếp không tồn tại hoặc
tính toán không hiệu quả. Ta mô tả phương pháp AR thông qua một đối
số hình học.
Xét mẫu có phân phối d - chiều với không gian mẫu X ⊆ R
d
. Theo
định nghĩa về hàm mật độ, miền phía dưới đường cong/mặt phẳng của
hàm mật độ
C
f
= {(x, u) : 0 ≤ u ≤ f (x)} ⊂ R
d+1
(1.13)
bằng một đơn vị thể tích.Do đó nếu (X,U) là đều trong miền C
f
thì

X ∼ f (x). Chú ý rằng X ∼ f (x) vẫn đúng khi f (x) trong (1.13) được
làm bội bởi một hằng số dương tùy ý, nghĩa là:
C
h
= {(x, y) : 0 ≤ u ≤ h (x)} ⊂ R
d+1
(1.14)
trong đó h (x) ∝ f (x),bởi sự thay đổi tỷ lệ trên U sẽ không ảnh hưởng
đến phân phối biên của X. Điều này có nghĩa là ta có thể sinh ra X bằng
các điểm mô phỏng phân phối đều trên C
f
hoặc C
h
. Khi ta gặp khó khăn
để lấy mẫu một cách trực tiếp từ C
h
,ta có thể lấy mẫu một cách gián tiếp
qua C
h
như sau:
(i) Sinh ra những điểm có tính đều trên một miền mở rộng và dễ dàng để
lấy mẫu D ⊇ C
h

(ii) Thu thập những điểm thuộc vào miền C
h
. Miền mở rộng D như vậy
có thể được xây dựng bằng một phân phối có thể lấy mẫu một cách
đơn giản với hàm mật độ g (x) thoả mãn
f(x)

g(x)
bị chặn trên bởi một số
hằng số hữu hạn M. Vì vậy C
h
là đóng trong miền:
C
g
= {(x, u) : 0 ≤ u ≤ g (x)} ⊂ R
d+1
(1.15)
14
với h (x) ∝ f (x). Phân phối g (x) được gọi là phân phối công cụ và
f (x) là phân phối mục tiêu.
Tóm lại, thuật toán AR dùng để sinh các số ngẫu nhiên từ f (x) bằng
cách sử dụng phân phối công cụ g (x), trong đó :
sup
x
h (x)
g (x)
≤ M < ∞
Thuật toán 1.3(Chấp nhận -bác bỏ)
Lặp lại 2 bước sau cho đến khi một giá trị được trả về trong bước 2:
1, Sinh ra X từ g(x) và U từ Unif (0, 1).
2, Nếu U ≤
f(X)
Mg(X)
, trả lại giá trị X (như là độ lệch ngẫu nhiên từ f (x)).
Trong trường hợp hàm số h(x) khó ước lượng, ta sử dụng hàm số kẹp s(x)
0 ≤ s (x) ≤ h (x) có tính toán đơn giản hơn để rút gọn việc tính toán
h(x).

Thuật toán 1.4 (Chấp nhận - bác bỏ với hàm số kẹp).
Lặp lại hai bước sau đây cho đến khi một giá trị xuất ra trong bước 2:
1, Sinh ra X từ g (x) và U từ Unif (0, 1).
2, Nếu U ≤
s(X)
Mg(X)
hoặc
S(X)
Mg(X)
< U ≤
h(X)
Mg(X)
trả lại giá trị X (như là
một độ lệch ngẫu nhiên từ f (x)).
Do đó trong trường hợp này U ≤
s(X)
Mg(X)
, thuật toán không ước lượng h (x)
1.3.3 Phương pháp tỷ số đều
Phương pháp tỷ số đều là phương pháp thông dụng để sinh các số ngẫu
nhiên của nhiều phân phối thông dụng như phân phối Gamma, chuẩn, và
student-t.
Ý tưởng tổng quát của phương pháp tỷ số đều là tìm ra một cặp phép
biến đổi khả vi U = u(Y ) và X = x(Z, Y ) với U = u(Y ) tăng thực sự để
15
thoả mãn (1.14) và do đó với một hằng số Jacobi thì (Y, Z) cũng đều trên
tập ảnh tương ứng của C
h
:
C

(Y,Z)
h
=

(y, z) : u
−1
(0) ≤ y = u
−1
(u) ≤ u
−1
(h (x (z, y)))

⊂ R
d+1
(1.16)
trong đó u
−1
(.) là hàm số ngược của u(.). Điều này dẫn tới thuật toán
bác bỏ tổng quát như sau:
Thuật toán 1.5.
Lặp lại hai bước sau cho đến khi giá trị trả về trong bước 2:
1, Sinh (Y, Z) có độ lệch đều trên miền D ⊇ C
(Y,Z)
h
2, Nếu (Y, Z) ∈ C
(Y,Z)
h
, trả về giá trị X = x(Y, Z) là độ lệch mong
muốn.
Thuật toán này có tỉ số chấp nhận

r =

C
(Y,Z)
h
dydz

D
dydz
=

X
h (x) dx
J
x,u
(z, y)



D
dydz
Trong đó
J
x,u
(z, y) =






∂x
∂z
∂x
∂y
0
∂u
∂y





= u

(y)




∂x
∂z




là hệ số Jacobi của các phép biến đổi.
1.4 Xích Markov
Trong trường hợp việc sinh các mẫu độc lập cùng phân phối từ phân
phối mục tiêu π là không thể thực hiện được, các mẫu phụ thuộc {X
i

}
có thể sử dụng thay thế, với điều kiện là trung bình mẫu (1.11) hội tụ tới
(1.10).
Xích Markov là một dãy các biến ngẫu nhiên {X
i
, i = 0, 1, 2 } với tính
Markov được cho bởi trạng thái hiện tại, trạng thái tương lai, trạng thái
quá khứ là độc lập, nghĩa là với mọi tập đo được A ⊆ X:
Pr (X
t+1
∈ A |X
0
= x
0
, , X
t
= x
t
) = Pr (X
t+1
∈ A |X
t
= x
t
) (1.17)
16
với thời gian t = 0, 1, Để thuận lợi cho việc trình bày ta sử dụng kí
hiệu π (dy) để chỉ độ đo xác suất π trên (X, X) cho cả trường hợp biến
ngẫu nhiên rời rạc và liên tục. Với biến liên tục X, hàm mật độ f (x) của
nó là đạo hàm Radon - Nikodym của độ đo xác suất π (dx) đối với độ đo

Lebesgue. Đối vớibiến ngẫu nhiên rời rạc X, hàm mật độ f (x), là đạo hàm
của π (dx) đối với độ đo đếm. Do vậy, kí hiệu P
t
(dx) cho phân phối của
X
t
đối với trạng thái X tại thời điểm t. Xuất phát với phân phối ban đầu
P
0
(dx), xích Markov {X
t
} khai triển như sau:
P
t+1
(dy) = ∫
X
P
t
(dx) P
t
(x, dy) (1.18)
Phân phối P
t
(x, dy) là độ đo xác suất đối với X
t+1
trong đó X
t
= x cho
trước và được gọi là phân phối hạch chuyển dịch tại thời điểm t. Trong
thực tế, đây là hàm mật độ có điều kiện của X

t+1
với X
t
= x cho trước.
Một lớp các xích Markov sơ cấp thường được sử dụng trong MCMC là các
xích Markov dừng, trong đó
P
t
(x, dy) = P (x, dy) (1.19)
với t = 1, 2, Trong trường hợp này (1.18) trở thành:
P
t+1
(dy) =

X
P
t
(dx) P (x, dy) (1.20)
và P
t
(dx) là xác định duy nhất bởi phân phối ban đầu P
0
(dx) và hạch
chuyển dịch P (x, dy). Tổng quát lên ta kí hiệu P
n
(x, .) là phân phối có
điều kiện của X
t
0
+n

với X
t
0
= x cho trước.
Ý tưởng cơ bản cho việc tạo ra các xích Markov để xấp xỉ E
π
(h (X))
là xây dựng một hạch chuyển dịch P (x, dy) với π (dx) là phân phối dừng,
nghĩa là P (x, dy) và π (dx) thỏa mãn điều kiện cân bằng:
π (dy) =

X
π (dx) P (x, dy) (1.21)
Trong trường hợp phân phối mục tiêu π có hàm mật độ xác suất f (x) và
hạch dịch chuyển P (x, dy) có hàm mật độ điều kiện p (y |x), điều kiện cân
bằng có thể được viết dưới dạng:
f (y) =

χ
p (y |x) f (x) dx
17
Chú ý: Nếu với hầu hết π(x) và với mọi tập đo được A ta có:
lim
t→∞
Pr (X
t
∈ A |X
0
= x) = π (A) thì π(dx) được gọi là phân phối cân
bằng của xích Markov.

1.4.1 Các định nghĩa và kí hiệu
Định nghĩa 1.1. Cho X
n
là một xích bất khả quy với phân phối dừng
π (.) và kí hiệu {A
n
i.o} là một dãy xuất hiện thường xuyên vô hạn, nghĩa


i
I
A
i
= ∞ với xác suất 1
(a) Xích là hồi quy nếu với mọi B thoã mãn π (B) > 0,thì
Pr (X
n
∈ Bi.o. |X
0
= x) > 0
với mọi x và P r (X
n
∈ Bi.o. |X
0
= x) = 1 với hầu hết π (x)
(b) Xích là hồi quy Harris nếu Pr (X
n
∈ Bi.o. |X
0
= x) = 1 với hầu hết

π(x)
Để xác định các dạng khác của ergodic, ta sử dụng khái niệm tổng biến
thiên khoảng cách giữa hai độ đo trên X và khái niệm thời điểm chạm.
Tổng biến thiên khoảng cách giữa hai độ đo trên (X, X) xác định bằng
tổng biến thiên chuẩn của độ đo λ trên (X, X)
λ = sup
A∈X
λ (A) − inf
A∈X
λ (A) (1.22)
Thời điểm chạm của tập con B ∈ X là biến ngẫu nhiên:
H
B
= inf {t ≥ 0 : X
t
∈ B}
Trong đó cận dưới đúng của tập rỗng tiến tới ∞
Định nghĩa 1.2. Các dạng ergodic khác nhau được cho như sau:
(a) Một xích Markov được gọi là ergodic nếu nó là Harris dương hồi quy
và không tuần hoàn.
(b) Cho H
B
là thời điểm chạm của tập B. Một xích ergodic với phân phối
dừng π (x) được gọi là ergodic cấp 2 nếu:

B
E
x

H

2
B

π (dx) < ∞
18
với mọi H ∈ X thỏa mãn π (H) > 0
(c) Một xích ergodic với phân phối dừng π (x) được gọi là ergodic hình học
nếu tồn tại một hàm số thực không âm M thỏa mãn E (|M (X)|) < ∞
và một hằng số dương r < 1 sao cho:
P
n
(x, .) −π ≤ M (x) r
n
∀x
(d) Xích trong (c) được gọi là ergodic đều nếu tồn tại một hằng số M và
một hằng số dương r < 1 sao cho
P
n
(x, .) −π ≤ Mr
n
1.4.2 Sự hội tụ của phân phối
Tổng biến thiên khoảng cách giữa hai độ đo trên (X, X) đã được sử
dụng để mô tả sự hội tụ của một xích Markov trong định lý sau đây (Định
lý 1 của Tierney, 1994)
Định lý 1.1. Giả sử rằng P (x, dy) có π(x) là bất khả quy và dừng. Khi
đó P (x, dy) là hồi quy dương và π (dx) là phân phối dừng duy nhất của
P (x, dy). Nếu P (x, dy) cũng không tuần hoàn thì với hầu hết π (x):
P
n
(x, .) −π → 0

với . là tổng biến thiên khoảng cách. Nếu P (x, dy) là hồi quy Harris thì
nó hội tụ với mọi x
1.4.3 Giới hạn của giá trị trung bình
Định lý 1.2. Giả sử rằng X
n
là ergodic với phân phối cân bằng f (x) và
giả sử h (x) có giá trị thực và E
f
(|h (X)|) < ∞. Khi đó với bất kỳ phân
phối ban đầu, h
n
→ E
f
(h (X)) h.c.c
.
Định lý 1.3. Giả sử rằng X
n
là ergodic bậc 2 với phân phối cân bằng
f (x) và giả sử h (x) có giá trị thực và bị chặn. Khi đó tồn tại một số thực
σ
h
sao cho phân phối của

n

h
n
− E
f
(h (X))


hội tụ yếu tới phân phối
chuẩn với kỳ vọng bằng 0 và phương sai σ
2
h
với mọi phân phối ban đầu.
19
Giả thiết về tính bị chặn của h(x) có thể được bỏ nếu xích là ergodic
đều và E
f

h
2
(X)

< ∞
Định lý 1.4. Giả sử rằng X
n
là ergodic đều với phân phối cân bằng f (x)
và giả sử h (x) có giá trị thực và E
f

h
2
(X)

< ∞. Khi đó tồn tại một số
thực σ
h
sao cho phân phối của


n

h
n
− E
f
(h (X))

hội tụ yếu tới phân
phối chuẩn với kỳ vọng 0 và phương sai σ
2
h
với mọi phân phối ban đầu.
20
Chương 2
MẪU GIBBS
Trong thực tế các phương pháp lấy mẫu trực tiếp để sinh các biến ngẫu
nhiên nhiều chiều thường không khả thi đối với suy luận Bayes, trừ trường
hợp các mô phỏng là đơn giản. Ví dụ, đối với phương pháp chấp nhận -
bác bỏ hoặc các biến thể của nó như phương pháp tỷ số đều, tỷ số chấp
nhận thường có kết quả 0 trong các bài toán có số chiều cao. Để khắc phục
khó khăn này ta sử dụng phương pháp lấy mẫu Gibbs hay gọi đơn giản là
mẫu Gibbs.
2.1 Mẫu Gibbs
Giả sử rằng ta muốn sinh các số ngẫu nhiên từ hàm mật độ mục tiêu
f (x), x ∈ X ⊆ R
d
. Ta tiến hành phân hoạch vector d-chiều x vào K khối
và viết x = (x

1
, , x
K
)

trong đó K ≤ d và dim (x
1
) + dim (x
K
) = d
với dim (x
k
) là số chiều của x
k
.
Ta kí hiệu
f
k
(x
k
|x
1
, , x
k−1
, x
k+1
, , x
K
) (k = 1, , K) (2.1)
tương ứng là tập các phân phối có điều kiện. Dưới các điều kiện không

chặt tập các phân phối có điều kiện này sẽ xác định phân phối mục tiêu
f(x).
Định lý 2.1. (Hammersley- Clifford) Nếu f (x) > 0 với mỗi x ∈ X , khi
đó phân phối đồng thời f (x) được xác định duy nhất bởi các phân phối
21
điều kiện(2.1). Chính xác hơn:
f (x) = f (y)
K

k=1
f
j
k

x
j
k


x
j
1
, , x
j
k−1
, y
j
k+1
, , y
j

K

f
j
k

y
j
k


x
j
1
, , x
j
k−1
, y
j
k+1
, , y
j
K

(x ∈ X)
(2.2)
với mọi hoán vị j trên {1, , n} và ∀y ∈ X.
Về mặt thuật toán mẫu Gibbs là một chương trình lấy mẫu lặp. Khởi
đầu với giá trị tuỳ ý x
(0)

trong X thoả mãn f

x
(0)

> 0, mỗi bước lặp
của mẫu Gibbs đều phải qua tập các phân phối có điều kiện (2.1) để sinh
một ngẫu nhiên từ mỗi f
k
(x
k
|x
1
, , x
k−1
, x
k+1
, , x
K
) bằng cách thiết
lập x
1
, , x
k−1
, x
k+1
, , x
K
tại các giá trị đã được sinh ra gần nhất của
chúng.

Định nghĩa 2.1. (Mẫu Gibbs) Lấy x
(0)
=

x
(0)
1
, , x
(0)
K

từ f
(0)
(x) với
f

x
(0)

> 0 và lặp lại với t = 1, 2
1, Sinh ra x
(t)
1
∼ f
1

x
1




x
(t−1)
2
, , x
(t−1)
K

.
.
.
k, Sinh ra
x
(t)
k
∼ f
k

x
k



x
(t)
1
, , x
(t)
k−1
, x

(t−1)
k+1
, , x
(t−1)
K

.
.
.
K, Sinh ra
x
(t)
K
∼ f
K

x
K



x
(t)
1
, , x
(t)
K−1

Khi đó, phân phối của x
(t)

=

x
(t)
1
, , x
(t)
K


, kí hiệu là f
(t)
(x) sẽ hội tụ
tới f(x)
Ví dụ 2.1. (Phân phối chuẩn của biến ngẫu nhiên nhiều chiều)
Xét phân phối chuẩn p chiều, kí hiệu là N
p
(µ,

), xác định trên không
gian mẫu X
p
với các tham số µ ∈ R
p
và ma trận covarian xác định dương
p ×p:

∈ M
+
p×p

trong đó [M
+
p×p
là ma trận xác định dương cỡ p ×p. Hàm
mật độ xác suất N
p
(µ,

):
f
µ,

(x)
=
1

2π |

|
e

1
2
(x−µ)


−1
(x−µ)
(x ∈ R
p

)
22
Để minh hoạ cho mẫu Gibbs, ta dùng phân phối chuẩn hai chiều
p (x) = N

µ,


; µ = [µ
1
, µ
2
] = [0, 0] ;

=

1 ρ
12
ρ
21
1

=

1 0, 8
0, 8 1

x
(t)
1

∼ N

µ
1
+ ρ
21

x
(t−1)
2
− µ
2

,

1 −ρ
2
21

x
(t)
2
∼ N

µ
2
+ ρ
12

x

(t)
1
− µ
1

,

1 −ρ
2
12

Dưới đây là phần code Matlab của ví dụ trên;
rand(’seed’ ,12345);
nSamples = 5000;
mu = [0 0];
rho(1) = 0.8;
rho(2) = 0.8;
propSigma = 1;
minn = [-3 -3];
maxx = [3 3];
x = zeros(nSamples,2);
x(1,1) = unifrnd(minn(1), maxx(1));
x(1,2) = unifrnd(minn(2), maxx(2));
dims = 1:2;
t = 1;
while t < nSamples
t = t + 1;
T = [t-1,t];
for iD = 1:2
nIx = dims =iD;

muCond = mu(iD) + rho(iD)*(x(T(iD),nIx)-mu(nIx));
varCond = sqrt(1 − rho(iD)
2
);
x(t,iD) = normrnd(muCond,varCond);
end
end
23
Hình 2.1: Mẫu Gibbs đối với phân phối chuẩn hai chiều
2.2 Thuật toán mở rộng dữ liệu
Thuật toán mở rộng dữ liệu DA có thể xem là trường hợp đặc biệt của
mẫu Gibbs , đó là mẫu Gibbs hai buớc. DA có ít nhất 3 điểm chú ý:
Thứ nhất nó có ứng dụng trong phân tích Bayes về các dữ liệu không
đầy đủ.
Thứ hai DA là trường hợp đơn giản nhất của mẫu Gibbs và bởi vậy nó
được nghiên cứu rộng rãi để hiểu các tính chất lý thuyết của mẫu
Gibbs.
Thứ ba , Ý tưởng cho việc phát huy hữu hiệu thuật toán DA có thể được
mở rộng cho các mẫu Gibbs tổng quát hơn, ví dụ như thuật toán
Metropolis - Hastings.
Ta mô tả thuật toán DA trong phạm vi của phân tích Bayes cho trường hợp
dữ liệu không đầy đủ. Ta kí hiệu X
obs
là dữ liệu quan sát và X
mis
(∈ X
mis
)
là dữ liệu thiếu,X
com

= (X
obs
, X
mis
) là dữ liệu đầy đủ. Giả sử rằng mẫu
dữ liệu đầy đủ có mật độ g (X
obs
, X
mis
|θ) với tham số θ ∈ Θ ⊆ R
d
với d
là số nguyên dương. Mục đích là thiết lập suy luận Bayes với phân phối
24
tiên nghiệm p (θ) cho tham số θ. Cho f (X
obs
|θ) là mô hình dữ liệu quan
sát
f (X
obs
|θ) =

X
mis
g (X
obs
, X
mis
|θ) dX
mis

(θ ∈ Θ)
(2.3)
Đối với suy luận Bayes về θ sử dụng phương pháp MCMC cần đòi hỏi
lấy mẫu từ hậu nghiệm đúng hoặc các hậu nghiệm của dữ liệu quan sát
p (θ |X
obs
) ∝ f (X
obs
|θ) p (θ) (2.4)
Hoặc tổng quát hơn, phân phối đồng thời của θ và X
mis
:
p (θ, X
mis
|X
obs
) ∝ g (X
obs
, X
mis
|θ) p (θ)
,
(θ ∈ Θ) (2.5)
Đặt h (X
mis
|θ, X
obs
) là phân phối có điều kiện của X
mis
với θ và X

obs
cho
trước. Giả sử rằng h (X
mis
|θ, X
obs
) và p (θ |X
obs
, X
mis
) đều dễ dàng sinh
ra từ các mẫu. Mẫu Gibbs hai bước dựa trên hai điều kiện đó được gọi là
thuật toán DA và có thể tóm tắt như sau:
Thuật toán DA: mẫu Gibbs hai bước
Lấy θ
(0)
∈ Θ và lặp lại với t = 1, 2,
Bước I Chỉ ra X
(t)
mis
∼ f
mis

X
mis


θ
(t−1)
, X

obs

Bước P Chỉ ra θ
(t)
∼ p

θ



X
obs
, X
(t)
mis

Giống như mẫu Gibbs hai bước, DA tạo nên sự đan xen giữa các xích
Markov

θ
(t)
, t = 1, 2



X
(t)
mis
: t = 1, 2


. Điều này giả thích tại
sao DA cung cấp cho các trường hợp toán học đơn giản nhất của mẫu
Gibbs. Ví dụ giải thích rằng DA là hữu ích cho các bài toán thiếu dữ liệu
Ví dụ 2.2. (Phân phối chuẩn nhiều chiều với dữ liệu không đầy đủ)
Giả sử ta có một tập dữ liệu không đầy đủ là một mẫu cỡ n, Y
1
, , Y
n
từ
phân phối chuẩn p- chiều N
p
(µ,

) với µ ∈ R
p


là ma trận covarian
xác định dương cỡ p ×p. Mỗi thành phần Y
i
hoặc là quan sát đầy đủ hoặc
là quan sát khuyết. Đặt Y
(i)
obs
là thành phần quan sát và đặt Y
(i)
mis
là thành
25
phần khuyết của Y

i
. Khi đó phân phối có điều kiện của Y
(i)
mis
với Y
(i)
obs

(µ,

) là:
Y
i,mis
|(Y
i,obs
, µ,

) ∼ N


µ
(i)
mis
+
(i)

mis,obs

(i)


obs,obs

−1

Y
i,mis
− µ
(i)
mis

,
(i)

mis,mis

(i)

mis,obs

(i)

obs,obs

−1
(i)

obs,mis


(2.6)

Giả sử rằng đối với phân tích Bayes ta sử dụng phân phối tiên nghiệm:
p

µ,










−(q+1)/2
trong đó q là số nguyên dương đã biết. Với q = p tiên nghiệm này trở thành
tiên nghiệm Jeffreys đối với

.
Đặt
¯
Y =
1
n
n

i=1
Y
i
và đặt S =

n

i=1

Y
i

¯
Y

Y
i

¯
Y


Phân phối hậu nghiệm dữ liệu đầy đủ

|Y
1
, . . . , Y
n

1
|

|
(n+q)/2
e

{

1
2
trace
(

−1
S
)}
(2.7)
nghĩa là,
µ




, Y
1
, . . . , Y
n
∼ N
p

¯
Y ,

/n

(2.8)

Do đó, thuật toán DA có bước I và bước P như sau:
Bước I Với i = 1, , n, sinh Y
i,mis
từ (2.6)
Bước P Đầu tiên ta sinh µ từ (2.7) với Y
1
, , Y
n
đã biết, sau đó sinh µ từ
(2.8) với Y
1
, , Y
n


đã biết.
26

×