Thuật toán EM demo

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (551.89 KB, 26 trang )

Mục lục
2
MỞ ĐẦU
Thuật toán EM (Expectation- Maximization) được nghiên cứu từ năm 1958 bởi
Hartley và được nghiên cứu đầy đủ bởi Dempster, Laird và Rubin công bố năm 1977.
Thuật toán EM được sử dụng để tìm ra kỳ vọng tối đa các thông số một mô hình thống
kê trong trường hợp các phương trình không thể giải quyết trực tiếp được. Thông
thường các mô hình liên quan đến các giá trị tiềm ẩn ngoài không biết các thông số và
dữ liệu không quan sát được thông số. Có nghĩa là những giá trị bị thiếu hoặc không
quan sát được mô hình bằng sự giả định của các điểm dữ liệu bổ sung. (Ví dụ: một mô
hình kết hợp đơn giản có thể được mô tả bằng cách giả định rằng mỗi điểm dữ liệu
quan sát được có một điểm tương ứng với dữ liệu không quan sát được, hoặc biến tiềm
ẩn, xác định thành phần hỗn hợp cho mỗi điểm dữ liệu.)
Việc tìm kiếm một giải pháp hợp lý là lấy các dẫn xuất của các hàm hợp
(likehood function) đối với các giá trị không rõ tức là các thông số và các biến tiềm ẩn
đồng thời giải quyết các phương trình. Trong một mô hình thống kê với các biến tiềm
ẩn thường là không thể. Thay vào đó, kết quả thường là một tập hợp các chương trình
đan xem vào đó là giải pháp cho các giá trị của biến tiềm ẩn và ngược lại .
Thuật toán EM nhằm tìm ra sự ước lượng về khả năng lớp nhất của các tham số
trong mô hình xác suất( các mô hình phụ thuộc vào các biến tiềm ẩn chưa được quan
sát), nó được xem như là thuật toán dựa trên mô hình hoặc là mở rộng của thuật toán
k-means. EM gán các đối tượng của cụm đã cho theo xác suất phân phối thành phần
của đối tượng đó. Phân phối xác suất thường được sửa dụng là phân phối xác suất
Gaussian với mục đích là khám phá lặp các giá trị tốt cho các tham số của nó bằng
hàm tiêu chuẩn là hàm logarit khả năng của đối tượng dữ liệu, đây là hàm tốt để mô
hình xác suất cho các đối tượng dữ liệu.
3
CHƯƠNG 1: CÁC KIẾN THỨC CƠ SỞ
1.1 .Hàm logarit
Cho a là một số dương khác 1 và b là một số dương, số thực α thỏa mãn a
α

= b
được gọi là lôgarit cơ số a của b và kí hiệu log
a
(b).
1.2 .Công thức xác suất
Xác suất là các số trong khoảng [0,1], được gán tương ứng với một biến cố mà
khả năng xảy ra hoặc không xảy ra là ngẫu nhiên. Kí hiệu: P(Z)
Công thức sử dụng: P(A|B)= P(A). P(B/A)/ P(B)
1.3 .Entropy thông tin
Entropy thông tin mô tả mức độ hỗn loạn trong một tín hiệu lấy từ một sự
kiện ngẫu nhiên. Nói cách khác, entropy cũng chỉ ra có bao nhiêu thông tin trong tín
hiệu, với thông tin là các phần không hỗn loạn ngẫu nhiên của tín hiệu.
1.4 .Gom cụm dữ liệu
Gom cụm nhìn từ góc độ tự nhiên là một việc hết sức bình thường mà chúng ta
vẫn làm và thực hiện hằng ngày ví dụ như phân loại học sinh khá, giỏi trong lớp, phân
loại đất đai, phân loại tài sản, phân loại sách trong thư viện….
Quá trình gom nhóm/cụm dữ liệu/đối tượng vào các lớp/cụm. Các đối tượng trong
cùng một cụm tương tự với nhau hơn so với đối tượng ở các cụm khác.
Mục tiêu: Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối
tượng tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng tương tự nhau
trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng
còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng.
Quá trình gom cụm dữ liệu
Các yêu cầu tiêu biểu về việc gom cụm dữ liệu
4
Khả năng co giãn về tập dữ liệu (scalability).
Khả năng xử lý nhiều kiểu thuộc tính khác nhau (different types of attributes).
Khả năng khám phá các cụm với hình dạng tùy ý (clusters with arbitrary shape).
Tối thiểu hóa yêu cầu về tri thức miền trong việc xác định các thông số nhập (domain
knowledge for input parameters).

Khả năng xử lý dữ liệu có nhiễu (noisy data).
Khả năng gom cụm tăng dần và độc lập với thứ tự của dữ liệu nhập (incremental
clustering and insensitivity to the order of input records).
Khả năng xử lý dữ liệu đa chiều (high dimensionality).
Khả năng gom cụm dựa trên ràng buộc (constraint-based clustering).
Khả diễn và khả dụng (interpretability and usability).
Phân loại các phương pháp gom cụm dữ liệu tiêu biểu.
Phân hoạch (partitioning): các phân hoạch được tạo ra và đánh giá theo một tiêu chí
nào đó.
Phân cấp (hierarchical): phân rã tập dữ liệu/đối tượng có thứ tự phân cấp theo một tiêu
chí nào đó.
Dựa trên mật độ (density-based): dựa trên connectivity and density functions.
Dựa trên lưới (grid-based): dựa trên a multiple-level granularity structure.
Dựa trên mô hình (model-based): một mô hình giả thuyết được đưa ra cho mỗi cụm;
sau đó hiệu chỉnh các thông số để mô hình phù hợp với cụm dữ liệu/đối tượng nhất.
CHƯƠNG 2: NỘI DUNG THUẬT TOÁN
2.1.Khái niệm:
Thuật toán EM là một phương pháp lặp hiệu quả để ước lượng Maximum
Likehood (ML) trong bài toán dữ liệu ẩn. Trong ước lượng ML, ta muốn ước lượng
các tham số mô hình sao cho dữ liệu đã được quan sát( dữ liệu đã được biết) là tương
thích nhất( the most likely). Ví dụ ước lượng kỳ vọng và phương sai của mỗi thành
phần Gaussian trong bài toán Mixture of Gaussian. Mỗi vòng lặp của EM gồm hai
bước:
5
Bước E (Expectation step): dữ liệu ẩn được ước lượng dựa trên dữ liệu đã quan
sát và các tham số mô hình của ước lượng hiện tại. Điều này được thực hiện bằng cách
sử dụng kì vọng có điều kiện.
Bước M (Maximization step): hàm likehood được cực đại hóa với giả sử dữ liệu
ẩn đã biết( sự ước lượng của dữ liệu ẩn trong bước E được sửa dụng thay cho dữ liệu
ẩn thực sự.). Thuật toán EM luôn hội tụ vì chắc chắn likehood luôn tăng sau mỗi vòng

lặp.
Tiến trình tiếp tục cho đến khi likelihood hội tụ, ví dụ như đạt tới cực đại địa
phương. EM sử dụng hướng tiếp cận leo đồi, nên chỉ đảm bảo đạt được cực đại địa
phương. Khi tồn tại nhiều cực đại, việc đạt tới cực đại toàn cục hay không là phụ thuộc
vào điểm bắt đầu leo đồi. Nếu ta bắt đầu từ một đồi đúng (right hill), ta sẽ có khả năng
tìm được cực đại toàn cục. Tuy nhiên, việc tìm được right hill thường là rất khó. Có
hai chiến lược được đưa ra để giải quyết bài toán này: Một là, chúng ta thử nhiều giá
trị khởi đầu khác nhau, sau đó lựa chọn giải pháp có giá trị likelihood hội tụ lớn nhất.
Hai là, sử dụng mô hình đơn giản hơn để xác định giá trị khởi đầu cho các mô hình
phức tạp. Ý tưởng là: một mô hình đơn giản hơn sẽ giúp tìm được vùng tồn tại cực đại
toàn cục, và ta bắt đầu bằng một giá trị trong vùng đó để tìm kiếm tối ưu chính xác khi
sử dụng mô hình phức tạp hơn.
Thuật toán EM rất đơn giản, ít nhất là về mặt khái niệm. Nó được sử dụng hiệu quả
nếu dữ liệu có tính phân cụm cao.
2.2.Chi tiết thuật toán EM
Thuật toán ước lượng cực đại hay gọi là thuật toán EM là kỹ thuật phổ biến để
tìm giải pháp khả năng cực đại cho mô hình xác suất có biến ẩn. Ở đây chúng tôi đưa
ra các xử lý rất chung của thuật toán EM và trong quá trình chứng minh thuật toán EM
có tính heuristic tại mục 3.2.1 và 3.2.2 đối với hỗn hợp Gaussian thực hiện tối đa hóa
hàm khả năng.
Xét một mô hình xác suất trong đó chúng ta gọi tất cả các các biến được quan sát là X
và tất cả các biến tiềm ẩn là Z. Các phân phối p (X, Z | θ) bị chi phối bởi một tập hợp
các tham số ký hiệu là θ. Mục tiêu của chúng tôi là tối đa hóa hàm khả năng được cho
bởi:
6
P (X | θ)= Σ
z
P(X, Z | θ) (1)
Ở đây chúng ta giả sử Z là rời rạc, tương tự với Z liên tục hoặc là tập các biến
rời rạc và liên tục, với phép tổng được thay thế bởi phép hội. Chúng ta sẽ giả sử tối ưu

hóa trực tiếp của P (X | θ) là khó khăn, nhưng tối ưu hóa hàm khả năng của dữ liệu đấy
đủ(X, Z | θ) là dễ dàng hơn. Tiếp theo, chúng tôi giới thiệu một phân phối q(Z) được
xác định qua các biến ẩn, và chúng tôi quan sát thấy rằng, đối với bất kỳ sự lựa chọn
của q (Z), có sự khai triển sau:
ln P(X| θ)= L(q, θ) + KL(q||p) (2)
Trong đó:
L(q, θ) = ∑
z
q(Z) ln { } (3)
KL(q||p) = -∑
z
q(Z) ln { } (4)

Hình 1a. Các khai triển từ (2) lựa chọn phân phối q (Z). Bởi vì phân kỳ Kullback-
Leibler thỏa mãn KL (q||p), chúng ta thấy rằng L (q, θ) là bé hơn hàm khả năng ln
p (X | θ)
Lưu ý rằng L (q, θ) là một hàm của phân phối q(Z), và một hàm có tham số θ.
Đây là giá trị được nghiên cứu kỹ lưỡng cho các biểu thức (3) và (4), và đặc biệt lưu ý
rằng chúng khác nhau khi L (q, θ) chứa các phân phối kết hợp của X và Z và trong khi
7
KL (q||p) chứa các phân phối có điều kiện của Z với điều kiện X. Để xác minh khai
triển (2), chúng tôi sử dụng các nguyên tắc nhân của xác suất để cho
ln P(X| θ)= ln P(Z|X, θ)+ln P(X| θ) (5)
mà chúng tôi sau đó thay thế vào biểu thức cho L (q, θ).
Từ (4), chúng tôi thấy rằng KL (q ||p) là phân kỳ Kullback-Leibler giữa q (Z) à phân
phối hậu nghiệm p (Z | X, θ). Nhớ lại rằng phân kỳ Kullback-Leibler thỏa mãn KL (q||
p)≥0, với tương đương khi và chỉ khi, q (Z) = P (Z | X, θ). Do đó từ (2), có rằng L (q,
θ) ≤ ln p (X | θ), nói cách khác là L (q, θ) bé hơn p ln (X | θ). Các khai triển (2) minh
hoạ trong hình 1a.
Thuật toán EM là kỹ thuật tối ưu hóa lặp hai giai đoạn cho việc tìm kiếm giải

pháp tối đa hóa khả năng. Chúng tôi có thể sử dụng khai triển (2) để xác định thuật
toán EM và để chứng minh rằng nó thực sự tối đa hóa khả năng. Giả sử rằng giá trị
hiện tại của véc tơ tham số là θ
old
. Trong bước E, cận bé hơn L (q, θ
old
) được tối đa hóa
đối với q (Z) trong khi đang cố định θ
old
. Các giải pháp cho vấn đề tối đa hóa này được
dễ dàng nhìn thấy bằng cách ghi nhận rằng giá trị của p ln (X | θ
old
) không phụ
thuộc vào q (Z) và do đó giá trị lớn nhất của L (q,θ
old
) sẽ xảy ra khi không có phân kỳ
Kullback-Leibler, nói cách khác khi q (Z) bằng với phân phối hậu nghiệm p(Z | X,
θ
old
).
8
Hình 1b. Minh họa bước E của thuật toán EM. Các phân phối q được thiết lập
bằng phân phối hậu nghiệm cho các tham số hiện tại θ
old
, dẫn đến cận dưới thấp
hơn để dẫn đến cùng một giá trị như hàm log likelihood không có phân kỳ.
Trong bước M này, phân phối q (Z) được giữ cố định và L (q, θ) được tối đa
hóa đối với θ để đưa đến giá trị mới θ
new
. Điều này sẽ tăng L (trừ khi nó đã được tối đa

một lần), mà sẽ nhất thiết là tăng hàm log likelihood tương ứng. Bởi vì phân phối q
được xác định bằng cách sử dụng các giá trị tham số cũ chứ không phải là các giá trị
mới và được tổ chức cố định trong bước M, nó sẽ không bằng với phân phối hậu
nghiệm mới p (Z | X, θ
new
), và do đó sẽ có một phân kỳ KL khác không. Sự gia tăng
trong hàm log likelihood do đó lớn hơn sự gia tăng trong cận dưới, như là thể hiện
trong hình 1c. Nếu chúng tôi thay thế q (Z) = P (Z | X, θ
old
) vào (3), chúng tôi thấy
rằng, sau bước E, ràng buộc có dạng:
L(q,) = ∑
z
p(Z|X, θ
old
) ln p(Z|X, θ) - ∑
z
p(Z|X, θ
old
) ln p(Z|X, θ
old
)
= Q(θ, θ
old
) + const (6)
Trong đó, hằng số chỉ đơn giản là entropy âm của phân phối q và do đó độc lập
với θ. Vì vậy, trong bước M, đại ượng đang được tối đa là kỳ vọng của hàm likelihood
với dữ liệu đầy đủ, như chúng tôi đã thấy trước đó trong trường hợp trộn của Gaussian.
Lưu ý rằng biến θ mà chúng tôi tối ưu hóa xuất hiện chỉ trong lôgarit. Nếu phân phối
kết hợp p(Z, X | θ) là hàm mũ, chúng ta thấy rằng lôgarit sẽ hủy bỏ mũ và dẫn đến một

bước M sẽ đơn giản hơn nhiều hơn so với tối đa hóa hàm log likelihood với dữ liệu
không đầy đủ p(X | θ) tương ứng.
9
Hình 1c. Bước M của thuật toán EM. Các phân phối q(Z) được giữ cố định
và L (q, θ) được tối đa đối với tham số θ để cho một giá trị mới θ
new
Hình 1d. Thuật toán EM tính toán thay thế một cận dưới thấp hơn trên hàm
log likelihood cho các giá trị tham số hiện thời và sau đó tối đa hóa để có được giá
trị tham số mới.
Các hoạt động của thuật toán EM cũng có thể được xem xét trong không gian
của tham số, như minh họa trong hình 1d. Dưới đây là mô tả các đường cong màu đỏ
của hàm log likelihood với dữ liệu không đầy đủ mà chúng tôi mong muốn cực đại
hóa. Chúng tôi bắt đầu với một số giá trị tham số ban đầu θ
old
, và trong bước E đầu tiên
chúng tôi đánh giá phân phối hậu nghiệm qua các biến tiềm ẩn, mà cho phép tăng ít
hơn L (θ, θ
old
), có giá trị bằng log likelihood tại θ
old
như được hiển thị bằng các đường
cong màu xanh lam. Trong bước M, cận được tối đa hóa đưa đến giá trị θ
new
lớn hơn
θ
old
. Bước E tiếp theo sau đó là xây dựng một cận là tiếp tuyến tại θ
new
như được hiển
thị bằng các đường cong màu xanh lá cây.

Đối với những trường hợp cụ thể của tập dữ liệu được phân bố độc lập, X sẽ gồm N dữ
liệu điểm (x
n
) trong khi Z sẽ gồm N biến tiềm ẩn (z
n
) tương ứng, trong đó n = 1 , , N.
Từ giả định độc lập, chúng tôi có p(X, Z) =∏
n
(x
n
, z
n
), từ đó chúng ta có p(X) =∏
n
(x
n
).
Sử dụng quy tắc tổng và nhân, chúng ta thấy rằng các xác suất hậu nghiệm ở bước E
có dạng:
10
p(Z|X, θ) ( x
n,
z
n
| θ)
p(Z|X, θ) = = = ( x
n,
z
n
| θ) (7)

∑
z
p(X,Z| θ) ∑
z
( x
n,
z
n
| θ)
Trong trường hợp của mô hình hỗn hợp Gaussian này, chỉ đơn giản nói rằng đó
là trách nhiệm của mỗi thành phần hỗn hợp sẽcho một điểm dữ liệu x
n
cụ thể chỉ phụ
thuộc vào giá trị của x
n
và trên các tham số θ của những thành phần hỗn hợp, không
phải trên các giá trị của dữ liệu khác điểm. Chúng tôi đã thấy rằng cả bước E và M
theo các giải thuật EM tăng giá trị của hàm log likelihood và chu trình EM sẽ thay đổi
các tham số mô hình (trừ khi nó đã được tối đa, trong trường hợp này các tham số vẫn
không thay đổi). Chúng tôi cũng có thể sử dụng thuật toán EM để tối đa hóa phân phối
hậu nghiệm p(θ| X) cho các mô hình, trong đó chúng tôi đã giới thiệu một p(θ) qua
các tham số. Chúng ta lưu ý rằng, cũng như một hàm của θ, chúng ta có p (θ| X) = P
(θ, X) / P (X) và như vậy:
ln p(θ| X) = ln p(θ, X)- ln p(X) (8)
Sử dụng các khai triển (2), chúng ta có:
ln p( θ| X) = L(q, θ) + KL(q||p) + ln p(θ) – ln p(X)
L(q, θ) + ln p(θ)- ln p(X) (9)
Trong đó ln p (X) là hằng số. Chúng tôi lại có thể tối ưu hóa vế phải đối với q
và θ. Việc tối ưu hóa đối với q tăng cho đến cùng bước E như cho các thuật toán EM
chuẩn, vì q chỉ xuất hiện trong L (q, θ). Bước M được sửa đổi thông qua việc cho các

ln p (θ) trước. Thuật toán EM chia vấn đềkhó khăn của tối đa hóa hàm khả năng làm
hai giai đoạn, bước E và M, mỗi trong số đó sẽ thường được chứng minh đơn giản để
thực hiện. Tuy nhiên, đối với các mô hình phức tạp nó có thể là trường hợp đó, hoặc là
bước E hoặc bước M, hoặc cả hai, vẫn không giải quyết được. Cái này dẫn đến hai
phần mở rộng khả năng của thuật toán EM, như sau.
Các thuật toán GEM hoặc EM tổng quát thay vì nhằm tối đa hóa L (q, θ) đối với θ, có
thể thay đổi các tham số để tăng giá trị của nó. Mỗi EM hoàn tất chu kỳ thuật toán
GEM được đảm bảo để tăng giá trị của log likelihood (trừ khi các tham số đã được tối
đa của địa phương). Một cách để khai thác GEM sẽ sử dụng một trong những chiến
11
lược tối ưu hóa phi tuyến, chẳng hạn như các thuật toán gradient liên hợp, trong bước
M. Một dạng khác của thuật toán GEM, được gọi là tối đa hóa kỳ vọng có điều kiện,
hoặc thuật toán ECM, liên quan đến việc tối ưu hóa một số hạn chế trong mỗi bước M
(Meng và Rubin, 1993). Ví dụ, các tham số có thể được phân chia thành các nhóm, và
bước M được chia thành nhiều bước trong đó bao gồm việc tối ưu hóa một trong
những tập con với phần còn lại của tổ chức cố định. Chúng tôi tương tự như vậy có thể
khái quát bước E của các thuật toán EM bằng cách thực hiện một một phần, việc tối ưu
hóa của L (q, θ) đối với q (Z) (Neal và Hinton, 1999). Như chúng ta đã thấy, đối với
bất kỳ giá trị nhất định của θ có một tối đa duy nhất L (q, θ) đối với q (Z) tương ứng
với phân phối hậu nghiệm q θ(Z) = p (Z | X, θ) và cho rằng sự lựa chọn của q (Z)
những ràng buộc L (q, θ) bằng với hàm log likelihood ln p (X | θ). Sau đó thuật toán
hội tụ khi tối đa hóa L (q, θ) sẽ tìm thấy một giá trị của θ mà tối đa hóa hàm log
likelihood ln (X | θ). Hãy xem xét trường hợp của N điểm dữ liệu độc lập x
1
, , x
n
với
tương ứng các biến tiềm ẩn z
1
, , z

n
. Trong bước E, thay vì tính toán lại cho tất cả các
điểm dữ liệu, chúng tôi chỉ cần đánh giá lại ảnh hưởng cho một điểm dữ liệu. Nó có
thể xuất hiện trong M bước tiếp theo sẽ đòi hỏi tính toán liên quan đến ảnh hưởng cho
tất cả các điểm dữ liệu. Xem xét ví dụ, trường hợp của một hỗn hợp Gaussian, và giả
sử chúng tôi thực hiện một cập nhật cho m điểm dữ liệu, trong đó các giá trị của các
trách nhiệm được ký hiệu là γ
old
(z
mk
) và γ
new
(z
mk
). Trong bước M, các số liệu thống kê
đầy đủ yêu cầu có thể được cập nhật từng bước. Ta được:
(γ
new
(z
mk
) - γ
new
(z
mk
) )

k
new
=
k

old
+ (x
m
-
k
old
) (10)
N
k
new
Và
N
k
new
= N
k
old
+ γ
new
(z
mk
) – γ
old
(z
mk
) (11)

Các kết quả tương tự cho covariant và các hệ số trộn.
Vì vậy, cả hai bước E và M có thời gian cố định độc lập với tổng số điểm dữ
liệu. Bởi vì các tham số được sửa đổi sau mỗi điểm dữ liệu, chứ không phải chờ đợi

12
cho đến sau khi toàn bộ dữ liệu được xử lý, sự hội tụ có thể nhanh hơn phiên bản cũ.
Mỗi bước E hoặc M tăng giá trị của L (q, θ) và, như chúng tôi đã thấy ở trên, nếu các
thuật toán hội tụ đến một điểm tối đa của L (q, θ) (cục bộ hoặc toàn cục), điều này sẽ
tương ứng với đến một tối đa (cục bộ hoặc toàn cục) của hàm log likelihood ln p(X |
θ).
2.3.Ví dụ: Thí nghiệm tung đồng xu
Chúng ta cùng tung 2 đồng xu đồng chất lần lượt là A và B. Lần lượt gọi θ
A
và
θ
B
là xác suất xuất hiện số lần mặt ngửa (H) của mỗi đồng xu. Mục tiêu của chúng ta
là ước tính θ =( θ
A
,θ
B
) bằng cách: ngẫu nhiên chọn một trong hai đồng tiền (với xác
suất bằng nhau), và thực hiện tung đồng xu mười lần độc lập với các đồng tiền được
lựa chọn. Ta thực hiện năm lần như thế. Như vậy, toàn bộ thủ tục liên quan đến tổng
cộng 50 tung đồng xu.
Hình 2: Thông số ước tính số liệu đầy đủ và không đầy đủ
13
Hình a. Khả năng ước lượng tối đa.Với mỗi một bộ sau khi tung 10 lần thì khả năng
ước lượng tối đa số lần sấp, ngửa của mỗi đồng xu A và B được tính riêng
Hình b. Tối đa hóa kì vọng.
Cụ thể:
Bước 1: Ước lượng tham số của đồng xu A và B lần lượt là θ
A
=0,6 ; θ

B
=0,5
Bước 2: Tại bước E ta sử dụng công thức xác suất thống kê:
P(A/B)=(P(A). P(B/A))/ P(B)
14
Ta lần lượt gọi:
Số lần tung là x=(x
1
, x
2
, x
3
, x
4
, x
5
) trong đó x
i
∈{0,1…10}
Số lần tung các loại đồng xu là z=( z
1
,z
2
,z
3
,z
4
,z
5
) trong đó z

i
∈{A,B} (z là một biến
ẩn hay là yếu tố tiềm ẩn). Như vậy, ta có:

Tính toán tương tự ta được
P(z
2
=A |x
2
=9)= 0,8 P(z
2
=B |x
2
=1)= 0,2
P(z
3
=A |x
3
=8)=0,73 P(z
2
=B |x
2
=2)=0,27
P(z
4
=A |x
4
=4)=0,35 P(z
2
=B |x

2
=6)=0,65
P(z
5
=A |x
5
=7)=0,65 P(z
2
=B |x
2
=3)=0,35
P(x
1
=5| z
1
=A). P(z
1
=A)
P(z
1
=A |x
1
=5) =
P(x
1
=5)
()
5

5

. (
=
P(x
1
=5)
P(x
1
=5| z
1
=B). P(z
1
=B)
P(z
1
=B |x
1
=5) =
P(x
1
=5)

()
5

5
. (
=
P(x
1
=5)

15
Bảng tính số lần sấp ngửa của đông xu A và B là:
Thứ tự Đồng xu A Đồng xu B
Lần 1 0,45*5= 2,2 H; 0,45*5= 2,2 T 2,8 H; 2,8 T
Lần 2 0,80*9= 7,2 H; 0,80*1= 0,8 T 1,8 H; 0,2 T
Lần 3 0,73*8= 5,9 H; 0,73* 2= 1,5T 2,1 H; 0,5 T
Lần 4 0,35*4= 1,4 H; 0,35*6= 2,1 T 2,6 H; 3,9 T
Lần 5 0,65*7= 4,5 H; 0,65*3= 1,9 T 2,5 H; 1,1 T
Tính:
Tổng số mặt ngửa của đồng xu A là: 2,2+7,2+5,9+1,4+4,5= 21,3
Tổng số mặt sấp của đồng xu A là : 2,2+0,8+1,5+2,1+1,9=8,6
Tổng số mặt ngửa của đồng xu B là: 2,8+1,8+2,1+2,6+2,5=11,7
Tổng số mặt sấp của đồng xu B là :2,8+0,2+0,5+3,9+1,1=8,4
Bước 3: Tại bước M ta sử dụng công thức:
Tổng số mặt ngửa đồng xu A Tổng số mặt ngửa đồng xu B
θ
A
= θ
B
=
Tổng số mặt của đồng xu A Tổng số mặt của đồng xu B
Như vây, ta có:
21,3
θ
A
1
= =0,71
21,3+ 8,6
11,7
θ

B
1

= =0,58
11,7+8,4
16
Tính toán tương tự ta được:
Bước θ
A
θ
B

0 0,600 0,500
1 0,713 0,581
2 0,754 0,569
3 0,768 0,550
4 0,783 0,535
5 0,791 0,562
6 0,795 0,522
7 0,796 0,521
8 0,796 0,520
9 0,796 0,520
Bước 4: Thuật toán đã hội tụ khi θ
n+1
= θ
n
Sơ đồ tổng quát
ξ : Ngưỡng kết thúc
17
2.4.Mở rộng

2.4.1.Quan hệ với K-mean
So sánh giải thuật K-mean với giải thuật EM cho mô hình trộn Gaussian cho
thấy rằng có một sự tương tự gần gũi. Trong khi thuật toán K-mean thực hiện một sự
phân bố hard các điểm dữ liệu đến các cụm, trong đó mỗi điểm dữ liệu được liên kết
duy nhất với một cụm, thì thuật toán EM tạo ra một sự phân bố mềm dựa trên các xác
suất hậu nghiệm. Trong thực tế, chúng ta có thể suy diễn giải thuật K-mean như là một
giới hạn cụ thể của EM cho hỗn hợp Gaussian như sau.
Xét một mô hình hỗn hợp Gaussian trong đó ma trận hiệp biến của những thành phần
kết hợp được đưa ra bởi ϵI, trong đó ϵ là một tham biến được chia sẻ bởi tất cả các
thành phần, và I là ma trận đơn vị, sao cho:
P(x|µ
k
,∑
k
) = exp(-||x- µ
k
||
2
/(2ϵ)) / (2π ϵ)
1/2
) (12)
Bây giờ chúng ta hãy xem xét các thuật toán EM đối với một kết hợp của K
Gaussians của dạng này trong đó ϵ như là một hằng số cố định, thay vì một tham số
được ước lượng lại. Từ xác suất hậu nghiệm (9.13), hoặc trách nhiệm, đối với một
điểm dữliệu cụ thể x
n
được cho bởi:
π
k
exp{ -||x

n
- µ
k
||
2
/2ϵ}
γ (z
nk
) = (13)
∑
j

π
j
exp { -||x
n
- µ
j
||
2
/2ϵ}
Nếu chúng ta xem xét giới hạn ϵ →0, chúng ta thấy rằng trong mẫu số, phần ||x
n
- µ
j
||
2
là nhỏ nhất sẽ tiến về không chậm nhất, và vì thế responsibility γ(z
nk
) cho các

điểm dữ liệu x
n
, tất cả đi về không trừ j, mà responsibility γ(z
nj
) sẽ bằng 1. Như vậy,
trong giới hạn này, chúng ta có được sự phân phối hard các điểm dữ liệu thành các
cụm, giống như trong thuật toán K-mean, do đó, γ(z
nk
) →r
nk
trong đó r
nk
được định
nghĩa. Mỗi điểm dữ liệu do đó được phân về các cụm có giá trị trung bình gần nhất.
Phương trình tái ước lượng EM cho µ
k
, giảm kết quả K-mean. Lưu ý rằng công thức
tái ước lượng cho các hệ số trộn, chỉ đơn giản tái thiết lập giá trị của π
k
bằng một phần
điểm dữ liệu được phân cho cụm k, mặc dù những thông số này không còn đóng một
vai trò tích cực trong thuật toán. Cuối cùng, trong giới hạn ϵ →0, hàm log likelihood
18
với dữ liệu đầy đủ. Vì vậy, chúng ta thấy rằng trong giới hạn này, việc cực đại hóa
hàm log likelihood với dữ liệu đầy đủ tương đương với việc cực tiểu hóa các giá trị J
cho thuật toán K-mean. Lưu ý rằng các thuật toán K-mean không ước tính phương sai
của cụm mà ước tính giá trị trung bình của cụm.
Dưới đây là một hỗn hợp của hai Gaussian được sử dụng, với các trung tâm
khởi tạo bằng cách sử dụng các giá trị giống như thuật toán K-Mean trong hình , và
với độ chính xác ma trận khởi tạo tỉ lệ thuận với ma trận đơn vị.

Đồ thị (a) biễu diễn các điểm dữ liệu trong màu xanh lá cây, cùng với cấu tạo ban đầu
của mô hình hỗn hợp, trong đó các tiêu chuẩn cho độ lệch hai thành phần Gaussian
được hiển thị như vòng tròn màu xanh dương và đỏ.
Đồ thị (b) cho thấy kết quả các bước khởi tạo E, trong đó mỗi điểm dữ liệu
được mô tả bằng cách sử dụng một tỷ lệ màu xanh dương bằng với hậu xác suất của
việc có được tạo ra từ các thành phần màu xanh dương, và một tỷ lệ tương ứng của
màu đỏ được đưa ra bởi hậu xác suất được tạo ra bởi các thành phần màu đỏ. Như vậy,
điểm có xác suất quan trọng thuộc cụm của nó xuất hiện tím.
Tình huống sau bước M đầu tiên được thể hiện trong đồ thị (c), trong đó màu
xanh của Gaussian đã di chuyển đến trung bình của bộ dữ liệu, trọng số bởi xác suất
của mỗi điểm dữ liệu thuộc đến cụm màu xanh, nói cách khác nó đã di chuyển đến
trung tâm của nhóm màu xanh. Tương tự, hiệp biến của Gaussian xanh được thiết lập
bằng với hiệp biến của màu xanh mực. Kết quả tương tự giữ cho thành phần màu đỏ.
Đồ thị(d), (e), và (f) hiển thị kết quả sau 2, 5, và 20 chu kỳ đầy đủ của EM, tương ứng.
Trong đồ thị (f) thuật toán gần hội tụ. Lưu ý rằng các thuật toán EM lặp mất nhiều
hơn để đạt được (khoảng) hội tụ so với thuật toán K-Mean, và mỗi chu kỳ yêu cầu tính
toán nhiều. Do đó, để chạy thuật toán K-Mean tìm một khởi tạo phù hợp với một mô
hình hỗn hợp Gaussian, sau đó thích nghi bằng cách sử dụng EM. Các ma trận hiệp
biến có thể được khởi tạo thuận tiện đến mẫu hiệp biến
19
Hình 3a. Minh họa của thuật toán EM bằng cách sử dụng sự thay đổi tỷ lệ tập dữ liệu
Old Faithful.
(a) Điểm xanh lục biểu thị dữ liệu trong một hai chiều không gian Euclide. Các lựa
chọn đầu tiên cho các trung tâm μ
1
và μ
2
được hiển thị bởi màu đỏ và màu xanh dương
tương ứng.
(b) Trong bước E đầu tiên, mỗi điểm dữ liệu được phân hoặc cho cụm màu đỏ hoặc

cụm xanh, theo các trung tâm cụm gần. Điều này tương đương với phân loại điểm theo
phía vuông góc của đường phân giác của hai trung tâm cụm, hiển thị bằng màu đỏ tươi
của dòng.
(c) Trong M bước con tuần tự tiếp theo, mỗi trung tâm cụm là được tính toán lại bởi
trung bình của các điểm phân cho các cụm tương ứng. (d) - (f) cho thấy bước E và M
tiếp tục đến khi hội tụ.
20
Hình 3b. Đồ thị của hàm chi phí J sau mỗi bước E (điểm màu xanh dương) và bước M
(điểm đỏ) của thuật toán EM cho ví dụ thể hiện trong hình
2.4.2.EM cho hỗn hợp Gaussian
Một phương pháp tốt cho việc tìm kiếm các giải pháp độ phụ thuộc tối đa cho
mô hình với các biến tiềm ẩn được gọi là thuật toán tối đa hóa kì vọng (thuật toán EM)
(Dempster et al, 1977.; McLachlan và Krishnan, 1997). Sau đó chúng ta sẽ cung cấp
một xử lý chung của EM, và cũng cho thấy cách EM có thể được khái quát hóa để có
được khung suy luận biến phân. Ban đầu, chúng ta sẽ đưa ra một giải pháp tương đối
không chính thức trong bối cảnh của mô hình hỗn hợp Gaussian. Tuy nhiên, nhấn
mạnh rằng EM được ứng dụng rộng, và nó sẽ gặp phải trong bối cảnh một loạt các mô
hình khác nhau trong cuốn sách này.
Minh họa thuật toán EM đối với một hỗn hợp của hai Gaussians áp dụng cho
thay đổi tỷ lệ tập dữ liệu Old Faithful trong hình 3a.
Tổng quát EM cho hỗn hợp Gaussian:
21
Cho một mô hình hỗn hợp Gaussian mục đích là tối đa hóa hàm độ phụ thuộc
với các tham số (so sánh giá trị trung bình và hiệp biến của các thành phần và hệ số
hỗn hợp)
1. Khởi tạo giá trị trung bình μ
k
hiệp biến Σ
k
và hệ số hỗn hợp π

k
và đánh giá giá trị
khởi tạo của Log độ phụ thuộc.
2. Bước E, đánh giá trách nhiệm sử dụng giá trị tham số hiện tại
π
k
N(x
n
|µ
k
, Σ
k
)
γ (z
nk
) =
Σ
k
j=1
π
k
N(x
n
| µ
j,
Σ
k
)
1. Bước M, ước lượng lại các tham số sử dụng trách nhiệm hiện tại
µ

k
new =
Σ
n=1
γ (z
nk
) x
n
Σ
k
new
=

Σ
n=1
γ (z
nk
) (x
n
- µ
k
new
)(x
n
- µ
k
new
)
T
Trong đó:

N
k
= Σ
n=1
γ (z
nk
)
2. Đánh giá Log độ phụ thuộc
ln p(X|µ, Σ, π)= Σ
n=1
ln{ Σ
k=1
π
k
N(x|µ
k,
Σ
k
)}
Và kiểm tra sự hội tụ của các tham số hoặc log độ phụ thuộc. Nếu sự hội tụ không thỏa
mãn thì quay lại bước hai.
22
CHƯƠNG 3. ỨNG DỤNG VÀ ƯU NHƯỢC ĐIỂM CỦA THUẬT
TOÁN
3.1.Ứng dụng:
Ứng dụng của thuật toán EM thường được ứng dụng trong máy học, thị giác
máy tính, tái xây dựng hình ảnh y khoa, biểu hiện gen phân nhóm….
Phân đoạn ảnh và nén
Như là một minh hoạ của ứng dụng thuật toán EM, chúng ta xem xét các vấn đề
liên quan đến các phân đoạn ảnh và nén hình ảnh. Mục tiêu của phân đoạn ảnh là phân

vùng một hình ảnh vào mỗi khu vực trong đó có một cách hợp lý đồng nhất trực diện
và tương ứng với các đồ vật hoặc các bộ phận của các đối tượng (Forsyth và
Ponce,2003). Mỗi điểm ảnh trong một hình ảnh là một điểm trong một không gian 3
chiều bao gồm mật độ của các kênh màu đỏ, xanh, và màu xanh lá cây, và thuật toán
phân đoạn của chúng ta đơn giản là xử lý từng điểm ảnh trong hình ảnh như là một
điểm dữ liệu riêng biệt. Lưu ý rằng giới hạn này không phải là không gian Euclide vì
mật độ kênh thuộc đoạn [0, 1]. Tuy nhiên, chúng ta có thể áp dụng thuật toán EM
không mấy khó khăn. Chúng ta minh họa cho kết quả của việc thực thi EM để hội tụ,
cho bất cứ giá trị cụ thể của L, bằng cách vẽ lại hình ảnh thay thế mỗi véc tơ điểm ảnh
với bộ ba mật độ(R, G, B) được đưa ra bởi trung tâm μ mà có điểm ảnh đã được phân.
Kết quả cho các giá trị khác nhau của L được hiển thị trong hình 9.3. Chúng ta cho
rằng với một giá trị nhất định của L, thuật toán là đại diện cho hình ảnh bằng cách sử
dụng một bảng màu sắc của L. Nhấn mạnh rằng sử dụng EM không phải là một
phương pháp đặc biệt tinh vi để phân đoạn ảnh.
23
L=2 L=3 L=10 Original image
Hình 4a: Phân đoạn ảnh dựa vào thuật toán EM
Ngoài ra, ứng dụng phân đoạn ảnh còn được sử dụng trong lĩnh vực y tế. Trong lĩnh
vực này, ảnh thường được sử dụng đó là 3D (não, cột sống…)dựa trên phân đoạn dùng
EM và đã có thành công nhất định
Hình 4b: Ảnh chụp 3D não phát hiện tụ máu não
3.2. Ưu, nhược điểm của thuật toán:
Ưu điểm:
Thuật toán có tính hiệu quả và có tính thực tiễn cao trong nhiều lĩnh vực
Tính toán nhanh và giải quyết bài toán có dữ liệu lớn.
Hiệu quả đối với dữ liệu nhiễu và tiềm ẩn
Thuật toán dễ hiểu
Nhược điểm:
24
Phụ thuộc vào tham số chọn đầu vào kết quả có thể sai khác nếu không chọn thông số

hợp lý.
So sánh với một số thuật toán khác
Thuật toán phổ
biến
Ưu điểm Nhược điểm
Thuật toán cây
quyết định
Cây quyết định dễ hiểu và dễ giải thích
Việc chuẩn bị dữ liệu cho cây quyết
định là cơ bản hoặc không cần thiết
Có thể sử dụng dữ liệu rời rạc và liên
tục
Dễ xảy ra lỗi khi có quá
nhiều lớp
Chi phí tính toán đắt để
đào tạo
Thuật toán
SVM
Hiệu quả để giải quyết bài toán có dữ
liệu có số chiều lớn
Hiệu suất tổng hợp tốt và tính toán cao
Ứng dụng trong nhiều lĩnh vực
Xử lý dữ lệu kiểu số
Khó dịch kết quả
Thuật toán K-
Mean
Thuật toán đơn giản
Dễ hiểu và dễ cài đặt
Độ xử lý cao
Phụ thuộc vào tham số k

được chọn.
Chỉ tạo được cụm dạng cầu
Thuật toán EM Độ xử lý cao
Hiệu quả với nhiễu
Ứng dụng nhiều trong thực tế
Phục thuộc vào thông số
đầu vào.
25
KẾT LUẬN
Báo cáo cung cấp một số nội dung về thuật toán EM( Expectation-
Maximization), đã đạt được một số kết quả như sau:
- Giới thiệu khái quát về thuật toán phân cụm EM và các kiến thức cơ sở
- Trình bày chi tiết thuật toán EM các sơ đồ và ví dụ thực tế. Phân tích được các nội
dung kiến thức cơ bản và mối quan hệ giữa thuật toán EM với các thuật toán khác K-
Means, Gaussian.
- Chỉ ra được ưu nhược điểm của thuật toán cũng như tìm hiểu được ứng dụng của thuật
toán đối với thực tiễn.
Do hạn chế về thời gian và năng lực, báo cáo chưa thực hiện được phần mềm sử dụng
của thuật toán. Trong tương lai, chúng em sẽ tiến hành thực hiện.
Xin chân thành cảm ơn!

Thuật toán EM demo

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về