MACHINE LEARNING
ASSIGNMENT
SAMPLING MEHOD (PHƯƠNG PHÁP LẤY MẪU)
Minh City, May 2016
tài: Sampling Methods
M
C TIÊU C A
SAMPLING METHODS
Vn
c b n: Tìm giá tr kì v ng c a hàm f(z) tùy ý c a z v i hàm m t
xác su t p(z):
T t ng: N u chúng ta có m t t p h p các m u z (l) , l = 1 ....L rút c l p
t p(z), k v ng có th
c tính x p x b ng công th c:
Vn
t ra: Làm th nào chúng ta l y m u c l p t hàm m t
su t p(z), chúng ta không bi t
c là m u
c l y t â u?
.N i dung chính
Các ph
ng pháp c b n
Makov Chain Monte Carlo (MCMC)
c l ng Monte Carlo
xác
I. Các ph n g pháp c
b n
1.1 Ph n g pháp bi n i (Tranformation methods): hay còn g i
là ph ng pháp bi n i ng c. Ph ng pháp này
c áp d ng trong nh ng
tr ng h p hàm phân b f(x) cpos d ng n gi n, ta có th th c hi n m t phép bi n
i x(t) v m t phân b n g nh t, ta có công th c b o toàn xác su t:
P(x)dx = P(t)dt
v i P(x) = f(x) và P(t) = 1 (phân b
n g nh t) ta thu
c:
1.2 Ph n g pháp ch p nh n – lo i b ( Acceptance - Rejection
methods): th ng
c s d ng trong nh ng tr ng h p hàm f(x) có d ng ph c
t p, không d dàng l y m u b ng ph ng pháp bi n i :
-
Tìm m t hàm phân b công c g(x) có th d dàng l y m u b ng
ph ng pháp khác.
G i c là ch n trên c a giá tr c c i t s f(x)/g(x)
C >= max(f(x)/g(x))
Hàm f(x) s
v i xác su t:
c l y m u b ng cách l y m u hàm g(x) và gi l i s i m l y m u
P = f(x)/Cg(x)
1.3 L y m u theo tr n g s (Importance samplings):
l y m u t m t phân b khác thay vì l y m u tr c ti p t phân b c n quan tâm.
Th ng
c g i là k thu t gi m ph ng sai trong l y m u Monte Carlo.
Kì v ng:
Thay vì l y m u bi n x t phân b f(x) thì ta s l y m u t m t phân b g(x)
gi n h n, khi ó kì v ng
c tính theo công th c
n
II. Makov Chain Monte Carlo (MCMC)
MCMC: Chi n l c chung cho phép l y m u t m t l p l n các hàm m t
xác su t.
S d ng c ch c a Markov Chains.
M c tiêu:
sinh ra m t t p các m u t p(z).
Gi
2.1 Ý ki n
nh:
a ra:
phát sinh ra các m u t m t Makov Chain có phân ph i b t bi n là p(z).
2.2
1.
Bi t các m u hi n t i là z(T), t o m t m u n g c z* t m t phân ph i
xu t q(z|z(T)) mà chúng ta bi t làm th nào l y m u t ó .
2.
Ch p nh n m u theo m t tiêu chí thích h p.
3.
N u các m u n g c
c
c ch p nh n thì z (T+1) = z* n u không z(T+1) = z(T).
Thu t toán Metropolis:
Th ng
c dáp d ng cho vi c l y m u t phân b nhi u chi u, t o ra t p h p
các tr ng thái d a trên m t m t
xác su t ã cho tr c ó .
làm i u này chúng ta ph i t o ra m t quá trình Markov mà quá trình
này s ti n d n v m t phân b cân b ng.
M t chu i Markov là m t chu i ng u nhiên các giá tr x1, x2, ..., xN v i c
i m là xác su t c a giá tr sau (x’) ch ph thu c vào giá tr tr c nó (x) và
c c tr ng b i xác su t d ch chuy n P(x x’).
Các m u
III.
3.1
xu t
c l
c l
c ch p nh n v i xác su t:
n g Monte Carlo
n g m u:
3.1.1 Trung bình m u (sample mean): là giá tr c l ng c a trung bình
qu n th d a trên m t m u
c l a ch n ng u nhiên trên qu n th này.
Công th c:
3.1.2
V i xi là giá tr trong m u và N là kích th c m u.
Ph ng sai m u (sample variance): Th ng
c kí hi u là S2
ho c S2N. Công th c:
3.2
chính xác c a c l n g (Accurary):
dùng
á nh giá
g n hay l ch c a giá tr trung bình c l ng so v i giá tr th c c a i l ng
.
v t lý, ô i khi
c miêu t b ng sai s h th ng Trong monte carlo ta không th
c tính chính xác này m t cách tr c ti p
c.
Các nhân t n h h ng
•
•
•
n
chính xác:
chính xác c a code (mô hình v t lý...).
Mô hình bài toán (hình h c, ngu n...).
L i do ng i s d ng.
3.3 Kho n g tin c y (Confidence Interval): là m t kho ng gái tr
mà có th ch a trong nó giá tr c a tham s c n c l ng (unknown
parameter).
r ng kho ng tin c y cho chúng ta thông tin v
bt
nh c a phép tính c l ng tham s .
Các kho ng tin c y thông d ng c a phân b Gauss nh sau:
Kho n g tin c y (Confidence Interval):
:: Minh h a kho ng tin c y c a phân b Gauss.