Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (18.24 MB, 115 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<small>Dao Thanh Ting</small>
<small>Hà Nội - 2020</small>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><small>Đào Thanh Tung</small>
Người hướng dẫn khoa học:
<small>Hà Nội - 2020</small>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">Toi xin cam đoan những kết quả trình bày trong luận án là mới, đã được
<small>cơng bố trên các tạp chí Quốc tế. Các kết quả viết chung với hai hướng dẫnkhoa hoc PGS. TS. Tran Minh Ngọc và TS. Trần Mạnh Cường đã được sự đồng</small>
ý của hai hướng dẫn khi đưa vào luận án. Những kết quả được trình bày trongluận án là trung thực và chưa từng được công bố trong bất kỳ cơng trình nào
<small>Nghiên cứu sinh</small>
<small>Đào Thanh Tùng</small>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">Trước hết, tôi xin bày tỏ lòng biết ơn chân thành đến hai cán bộ hướng dẫn
<small>khoa học:</small>
Đặc biệt PGS. TS. Trần Minh Ngọc, người đã giao đề tài, tận tình chỉ bảo,hướng dẫn tơi trong suốt q trình nghiên cứu và hồn thành luận án.
Tác giả luận án chân thành cảm ơn lãnh đạo, các thầy, cơ giáo và cán bộ
<small>Khoa Tốn - Cơ - Tin học, Phòng Sau đại học - Trường Đại hoc Khoa học Tu</small>
nhiên - Đại học Quốc gia Hà Nội đã làm hết sức trách nhiệm, nhiệt tình giúpđỡ và tạo mọi điều kiện thuận lợi cho chúng tôi trong suốt q trình nghiên cứu
<small>và hồn thành luận án.</small>
Tác giả chân thành cảm ơn các đồng nghiệp ở Khoa Toán - Tin học và lãnhđạo Học viện Quân y đã tạo điều kiện giúp đỡ tôi làm việc và học tập.
Cuối cùng, tác giả luận án xin dành lời cảm ơn đặc biệt tới gia đình, người
<small>thân và bạn bè, những người đã thường xuyên giúp đỡ, chia sẻ động viên và là</small>
<small>Tác giả xin chân thành cảm on!</small>
<small>NCS. Dao Thanh Tùng</small>
<small>ii</small>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><small>Lời cam đoan</small>
<small>Lời cảm ơn</small>
Một số phân phối thường gặp ...
1.1.1 Phân phối Beta...ẶẶẶẶ Ốc1.1.2 Phan phối Gamma...
<small>1.1.3 Phan phối Gamma ngược...</small>
1.1.4 Phân phối chuẩn một
...-1.1.6 Phân phối Wishart... ...0...0..004.
<small>121 Họ mũ... ee</small>
Mơ hình hồi quy tron... 2. ốcPhương pháp Bayes biến phân ...-
<small>1.4.1 Cơ sở toán học ... 00000000 ees1.4.2 Trường hợp MFVB... 0000.</small>
<small>1.43 Trường hợpFEFEVH...</small>
Một số thuật toán tối ưu sử dụng trong luận án...
<small>1.5.1 Thuật toán Newton - Raphson...</small>
<small>vil</small>
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><small>1.5.2 Thuật toán xấp xỉ ngẫu nhiên cho FFVB... 4I</small>
<small>1.5.3 Thuật toán đạo hàm theo hướng... 43</small>
<small>2.4.2 Phân phối hậu nghiệm tối ưu VB chob... 56</small>
<small>2.4.3 Phân phối hậu nghiệm tối tu VB choQ_... 59</small>
2.4.4 Phân phối hậu nghiệm tối tu VB choÀ... 59
2.4.5 Phân phối hậu nghiệm tối ưu VB cho@... 60
2.4.6 Lựa chọn các siêu thamsố ... 61
<small>2.4.7 Thuật toán V... Q2 64</small>
3.2.2 Phan phối hậu nghiệm tối wu VB cho T7y... 78
3.2.3. Phân phối hậu nghiệm tối ưu VB cho g„... 79
3.2.4 Phân phối hậu nghiệm tối wu VB của+y... 79
<small>3.2.5 CandudiL(q).. ốc aaHa eee 803.2.6 Thuật toán VB cho mơ hình MRDE-MN ... 83</small>
3.3 Lựa chọn số thành phần... 84
<small>1V</small>
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><small>3.4 Lựa chọn bién.... 2.0.00 0000000 Q Q Q v va 87</small>
<small>3.4.1 Mơ hình tiénnghiém... 87</small>
<small>3.4.2 Lựa chọn biến cho mean model... 88</small>
3.4.3. Lựa chọn biến cho gatingmodel... 903.44 Thuật toán đầy đủ... co 91
<small>3.5.1 Nghiên cứu mô phỏng ... 93</small>
<small>Kết luan. 2. en 97Kiến nghị về những nghiên cứu tiếp theo...- 97</small>
Danh mục công trình khoa học của tác giả liên quan đến luậnán ... 99
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><small>1.1 Kết quả thực hiện 02 lần: lần 1 cột bên trái và lần 2 cột bên phải. 29</small>
1.2 Kết quả thực hiện mơ phỏng bằng hai thuật tốn. Thuật tốn 1
<small>là cột bên trái và Thuật toán 2 là cột bên phải... 36</small>
<small>vì</small>
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">Bang mơ ta ham liên kết ứng với các dạng hồi quy...
Bảng kết quả hai lần thực hiện mô phỏng...
Bảng kết quả thực hiện mô phỏng.
...-Bảng kết quả thực hiện mô phỏng trên ba thuật tốn. ...
Kết quả mơ phỏng hồi quy Poisson
...-Kết quả mô phỏng hồi quy logistie...
<small>Bang giá trị đúng của các tham số Ø8 và +. ...</small>
Bảng tóm tắt các chỉ số đánh giá hiệu quả của phương phap. . . .
Các biến được chọn và các hệ số ước lượng trong mean model.Các biến được chọn và các hệ số ước lượng trong gating model. . .
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><small>AIC Akaike’s information criterion</small>
<small>BIC Bayesian information criterion</small>
<small>BaLasso Bayesian adaptive LassoBMS Bayesian model selection</small>
<small>GLMM Generalized Linear Mixed Model</small>
<small>Lasso Least absolute shrinkage and selection operatorKL Kullback-Leibler</small>
<small>ACMC Markov chain Monte Carlo</small>
<small>MEM Mixtures of Expert Model</small>
<small>MFVB Mean Form Variational Bayes1L Maximum Likelihood</small>
<small>(LR Multivariate Linear Regression</small>
<small>MRDE-MN Multivariate Regression Density Estimation with</small>
<small>Mixtures of Normals</small>
<small>{RM Mixtures Regression Model</small>
<small>MSE Mean Squared Error</small>
<small>vil</small>
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11"><small>OLS Ordinary Least Squares</small>
<small>PML Penalized Maximum Likelihood</small>
<small>PPS Partial Predictive Score</small>
<small>RDE-MHN(k) Regression Density Estimation with Mixtures of k</small>
<small>vill</small>
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">Lựa chọn mơ hình là một bài toán cơ bản trong thống kê cũng như trong
<small>nhiều lĩnh vực khoa học khác. Theo R. A. Fisher, có ba khía cạnh của một bài</small>
(2) ước lượng các tham số mơ hình, và (3) ước tính độ chính xác. Về cơ bản, bài
<small>tốn lựa chọn mơ hình liên quan đến yếu tố (1) và (3) ở trên. Mục tiêu quan</small>
chúng ta được cho một tập hợp các mơ hình phan ánh một loạt các cấu trúctiềm năng trong dữ liệu và nhiệm vụ là chọn trong số đó một mơ hình giải thíchtốt nhất hoặc phù hợp nhất với dữ liệu.
Giả sử tập dữ liệu D = {(a1, 1), (22, 9a),..., (an, Yn)} được rút ra từ một mối
<small>quan hệ hàm</small>
được chính xác ƒ„„¿ mà cần chon trong một lớp hàm F, nào đó một hàm f,phan ánh tốt nhất mối quan hệ của theo x hay giải thích được y nhiều nhất
Chỉ số "c" trong ký hiệu Z, ngụ ý tính phức tạp của lớp ham (c viết tắt của
<small>chữ "complexity"). Việc chọn hàm f, như vay là lựa chọn mơ hình, bao gồm các</small>
van đề lựa chọn biến, ước lượng tham số của mơ hình và đánh giá f, là tốt nhất
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13"><small>A 2 ` Z</small>
<small>theo tiêu chuẩn nào đó.</small>
Trước khi nhà phân tích dit liệu tiến hành lựa chọn một mơ hình, ho cần
bài tốn lựa chọn mơ hình cần phải được xác định rõ ràng. Các mục tiêu khác
<small>được xác định trước, với c thuộc một tập hợp C nào đó. Lua chon mơ hình sẽ là</small>
hàm hồi quy tốt nhất xấp xỉ ƒ¡„„¿. Có rất nhiều phương pháp lựa chọn mơ hình
<small>pháp thực nghiệm.</small>
Likelihood: ML). Giả sử D có phân phối mẫu là P(D|ƒ) thường gọi là hàm hợp
là lớp hàm tuyến tính hay mơ hình hồi quy tuyến tính của X với e biến độc lập.
<small>Maximum Likelihood: PML) chon</small>
<small>trường hợp, chúng dễ dàng sử dụng và mang lại kết quả tốt. Một số phiên bản</small>
mở rộng của AIC cũng đã được đề xuất trong [6].
<small>Lóp phương pháp lựa chọn mơ hình thứ hai là các phương phấp lựa chon mơ</small>
<small>hình Bayes (Bayesian Model Selection: BMS), các phương pháp này tổ ra rất</small>
hiệu quả và ngày càng được sử dụng nhiều. Thông thường, BMS bao gồm việcxây dựng một công thức Bayes phân cấp và sử dụng phương pháp MCMC hoặc
<small>hình. Mơ hình có xác suất hậu nghiệm cao nhất sẽ được chọn.</small>
Với một lớp mơ hình M, giả sử chúng ta có niềm tin nào đó về phân phối
<small>có phân phối đều. Theo quy tắc Bayes, ta có</small>
mơ hình được chọn là mơ hình có xác suất hậu nghiệm cao nhất, nghĩa là
<small>Su mở rong BMS được giới thiệu trong [22], [29] va [34]. BMS đã được mở</small>
tính xác suất hậu nghiệm của 2? tập con, trong đó p là số lượng tất cả các biến
<small>Một lớp các phương pháp lựa chọn mơ hình khác được ứng dụng rộng rãi</small>
trong thực tế là các phương pháp thực nghiệm như bootstrap của Efron và
<small>[LO], [16] và [37]:</small>
<small>3</small>
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">từng mơ hình sau đó sẽ chọn mơ hình nào có sai số nhỏ nhất trên D’. Các tiêu
ra, chúng đơi khi tốn thời gian, đặc biệt là trong các trường hợp nhiều biến và
các bài toán thống kê hiện đại. Thuật tốn tối đa hóa kỳ vọng (Expectation
Maximization: EM), là một thuật toán lặp đệ quy để ước lượng ML, có một số
lý thống kê. Tuy nhiên, thuật toán EM chứa đựng những yêu cầu làm hạn chế
<small>khả năng ứng dụng của nó trong những bài tốn phức tạp. Gần đây, phươngpháp Bayes biến phân (Variational Bayes: VB) đã xuất hiện giải quyết một số</small>
rãi từ giữa những năm 1990. Hơn nữa, người ta đã chỉ ra rằng thuật toán EM
<small>là một trường hợp đặc biệt của thuật toán VB.</small>
Trong nhiều trường hợp ta đã biết dạng mơ hình hoặc đã xác định được cấu
trúc của mơ hình. Khi đó vấn đề cần quan tâm là chọn biến cho mơ hình. Lựa
chọn biến là bài toán cơ bản nhất trong thống kê và các lĩnh vực liên quan nhưhọc máy và kinh tế lượng. Nó là trường hợp đặc biệt (nhưng thơng dụng nhất)của bài tốn lựa chon mơ hình. Giả sử Y là biến được quan tâm và X\, Xa,..., Xp
chọn lựa các biến quan trọng, tức là lựa chọn một tập con từ p biến đó, có ảnh
các biến được chọn.
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">Bài toán lựa chọn biến là bài toán quen thuộc trong ngữ cảnh hồi quy
<small>tuyến tính thơng thường. Ký hiệu + là vector các chỉ số các tập con của p</small>
biến Xy, Xa,..., Xp tức là + = (đ,í2,...,í„) trong đó i; = 1 nếu biến X; được chọn,i; = 0 nếu ngược lại. Ký hiệu q, là số các biến được chon trong tập con +, tức là
d;=33;—¡¡;- Ta cần chọn tập con phù hợp nhất với mơ hình có dạng
<small>Y= X,B8,+€</small>
trong đó X, là ma trận cỡ n x qy có các cột là các biến được chọn ứng với cácthành phần có giá trị bằng 1 của vector 7, 3, là vector hệ số hồi quy q,-chiéuvà c~ W„(0;ø?]).
Khi hàm mật độ có điều kiện p(/|+) khơng có phân phối chuẩn nhưng vẫn
mơ hình hồi quy tuyến tính thơng thường được mở rộng thành mơ hình hồi quy
sẽ bao gồm ba thành phần như sau:
1. Hàm mật độ có điều kiện p(z|z) thuộc họ phân phối mũ có dạng
2. Thanh phan dự báo tuyến tính ạ= Xổ.
3. Hàm liên kết ø(-) sao cho Ey=p=g~1(n).
Trong thực tế có nhiều tình huống khơng phù hợp với mơ hình hồi quy tuyến
<small>nghiên cứu trên ø bệnh nhân ung thư, bệnh nhân thứ i được theo dõi khảo sát</small>
lập với nhau còn các kết quả khảo sát được trên mỗi bệnh nhân lại phụ thuộc
<small>b</small>
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">Linear Mixed Model: GUMM), cịn gọi là mơ hình hồi quy tuyến tính hỗn hợp
hưởng ngẫu nhiên (hay ảnh hưởng mang tính cá thể) ngồi các ảnh hưởng cố
trong đó b = (bị,...,bạ)“ là vector yếu tố ảnh hưởng ngẫu nhiên, đối tượng thứi được đặc trưng bởi b; với i = 1,...,n. Các yếu tố ảnh hưởng ngẫu nhiên riêng
<small>Q, = blockdiag(@,..., Q).</small>
Trong GLMMs, ham mật độ có điều kiện của ;; được giả sử có dạng
trong đó n;; là tham số chính tắc có liên quan đơn điệu với trung bình có điềukiện ij; = E(yij|B,b;) thơng qua hàm liên kết ø(-), ø(w;;) = mij. Tham số tỷ lệ ở
chọn biến trong GLMMs được coi là một nhiệm vụ khó khăn, vi ham hợp lý liên
biến, chăng hạn như các phương pháp dựa trên kiểm định giả thuyết hoặc lựa
chọn tập hợp con, đều bị giới hạn trong một số lượng ít biến.
<small>Có hai cơng trình đáng chú ý là bài báo của Groll và đồng sự [19] và </small>
hợp nhiều biến. Giả sử Q(g) là ma trận hiệp phương sai của b; phụ thuộc vàovectơ tham số chưa biết ø, ký hiệu ổ' = (9’,b') và +! = (¢, ø) khi đó log hàm hợp
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">phương pháp xấp xỉ Laplace, từ đó nhận được
sau đó họ kết hợp sử dụng một phạt i¡-norm trên các hệ số ảnh hưởng cố định
cuối cùng các ước lượng của đ và b nhận được từ
<small>trong đó ¥ là ước lượng hợp lý cực đại của /“PP(ð, +).</small>
Như vậy, cách tiếp cận của họ là đầu tiên ước lượng hàm hợp lý bằng cáchxấp xỉ các tích phân trên các ảnh hưởng ngẫu nhiên bằng cách sử dụng phương
<small>dạng i¡-norm trên các hệ số ảnh hưởng cố định. Sử dụng một phat Lasso sẽ co</small>
các hệ số về 0, do đó dẫn đến sự lựa chọn biến. Cách tiếp cận lựa chọn biến này
một số lượng lớn các biến.
Tuy nhiên, vẫn còn nhiều vấn đề để cải tiến trong cách tiếp cận của Groll
và đồng su [19] và Schelldorfer và đồng sự [35]. Thứ nhất, xấp xỉ Laplace của
của thuật toán phụ thuộc vào tham số co rút \, tham số này cần được chonmột cách thích hợp. Vì vậy, người dùng phải chạy lại thuật toán nhiều lần chocác giá trị khác nhau của tham số co rút trong phạm vi được chỉ định trước,
AIC hoặc BIC. Kết quả là, tồn bộ quy trình lựa chọn mơ hình cuối cùng có
co rút khơng đơn giản. Thứ ba, cách tiếp cận này sử dụng một tham số co rút
<small>ĩ</small>
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">Trong các ngành khoa học đời sống, kỹ thuật, y tế và kinh doanh, có nhiềutrường hợp cần phải nhóm các đối tượng tương tự và tách những đối tượng
động của các biến giải thích lên một số hiện tượng quan tâm trên các cụm khác
cụm, nhưng kết quả ước tính các hệ số bị sai lệch lớn ngay cả khi các cụm đượctách biệt tốt ([5]). Mặt khác, mơ hình hồi quy hỗn hợp hữu hạn ([26]) cung cấp
lượng các mô hình hồi quy một cách đồng thời trên các cụm ([12]).
Mơ hình hồi quy trộn (Mixtures Regression Model: MRM), giả sử hàm mật
<small>độ có dạng</small>
Có hai van đề can giải quyết trong bài tốn lựa chon mơ hình ở đây, thứ
tiếp cận của Biernacki va đồng sự [4]; Hastie và đồng sự [21] và thứ hai là chọn
hợp với dạng mơ hình này vì nó thường cho số thành phần quá cao dẫn tới kết
thời số lượng thành phần và các biến trong mơ hình hồi quy trộn hữu hạn.
Tran và đồng sự [40] đã nghiên cứu ước lượng mơ hình hồi quy mật độ trộn k
<small>Mixtures of k Heteroscedastic Normals: RDE-MHN(k))</small>
trong đó xác suất trộn 7;(z), trung bình p;(z) và phương sai ơ7(Z ) là các hàm
sự [40] đề xuất một thuật toán nhanh dựa trên phương pháp Bayes biến phâncho phép thực hiện đồng thời lựa chọn các biến, lựa chọn số thành phần k và
Tuy nhiên, Nott và đồng sự [28], Tran và đồng sự [40] va Villani và đồng sự
<small>[42] chỉ mới nghiên cứu mơ hình này với y là đơn biến, trường hợp y là đa biến</small>
<small>chưa được nghiên cứu thực hiện. Do đó mục tiêu thứ hai của chúng tơi là</small>
<small>Từ những lý do trên, chúng tôi xác định đối tượng nghiên cứu của luận án là</small>
Linear Mixed Model: GLMM) va mơ hình hồi quy mật độ nhiều biến với việc
<small>Mixtures of Normals model: MRDE-MN). Luận án sử dụng phương pháp Bayes</small>
tham số mơ hình. Các kết quả chủ yếu của luận án được cơng bố trong các cơng
<small>trình [I], [II] (xem danh mục các cơng trình của tác giả luận án)</small>
<small>9</small>
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21"><small>mô hành.</small>
Nội dung của luận án gồm ba chương:
cho hai chương tiếp theo, bao gồm một số phân phối thường gặp và các tính chấtcủa chúng, cơ sở tốn học và một số ví dụ minh họa cho phương pháp Bayesbiến phân và các thuật toán tối ưu đã sử dụng trong luận án.
Chương 2: Lựa chọn biến và ước lượng tham số bằng phương pháp VB cho
<small>mơ hình GLMM</small>
<small>10</small>
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">Trong chương này, chúng tơi đã xây dựng được một thuật tốn Bayes biến
một mode hậu nghiệm kết hợp với Bayes thích nghi Lasso. Việc đánh giá hiệusuất hoạt động của phương pháp của chúng tôi đã được thực hiện rất đầy đủ
phương sai. Phương pháp VBGLMM được đề xuất cũng có thể được mở rộng
thành (i) lựa chọn nhóm biến trong GLMM bing cách sử dung Lasso phạt nhóm
Chương 3: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương
<small>pháp VB cho mơ hình MRDE-MN</small>
<small>Trong chương này, chúng tơi nghiên cứu mơ hình hồi quy mật độ nhiều biến</small>
thuật tốn Bayes biến phân thực hiện đồng thời chọn biến và ước lượng thamsố cho Mean model và Gating model và xác định số thành phần của mô hình.Hiệu suất hoạt động của phương pháp của chúng tơi cũng được đánh giá bằng
<small>nghiên cứu mô phỏng va dữ liệu thực.</small>
Các kết quả chủ yếu của luận án được báo cáo tại
- Semina Bộ môn Xác suất thống kê - trường Dai học Khoa hoc Tự nhiên,Đại học Quốc gia Hà Nội.
- Hội nghị ngày Thống kê, Đại học Khoa học Tự nhiên, Đại học Quốc gia
<small>Hà Nội.</small>
<small>- Đại hội Toán học Việt Nam lần thứ IX, Nha Trang, tháng 8 năm 2018.</small>
Các kết quả chủ yếu của luận án được công bố trên [I], [II].
<small>11</small>
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23"><small>Biến ngẫu nhiên X nhận giá trị trong đoạn [0; 1] có phân phối Beta với hai</small>
tham số a > 0 và 8 > 0 được ký hiệu là X ~ Beta(a, j).
</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">- Nếu X có ham mật độ p(z|œ,đ)z#~1!(1—z)#=! thi X ~Beta(a,f).
<small>Biến ngẫu nhiên X nhận giá trị dương có phân phối Gamma với hai tham số</small>
<small>œ>0 và B>0 được ký hiệu là X ~Gamma(a,{).- Hàm mật độ:</small>
<small>Biến ngẫu nhiên X nhận giá trị dương có phân phối Gamma ngược (Inverse</small>
Gamma: IG) với hai tham số œ>0 và Ø>0 được ký hiệu là X ~IG(a,).
<small>- Hàm mật độ:</small>
<small>a a</small>
- Một số tính chất quan trọng của phân phối Gamma ngược
<small>EX =(a > 1),</small>
<small>13</small>
</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">- Nếu X~Gamma(a,8) thì +~IG(a,8).
u và o? được ký hiệu là X ~.V(u,ø)).
tham số trung bình pw và ma trận hiệp phương sai © được ký hiệu là X ~.Mq(,>).
<small>14</small>
</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26"><small>- Hàm mật độ:</small>
Ma tran pxp ngẫu nhiên X xác định dương có phân phối Wishart với haitham số n và V được ký hiệu là X ~ Wishart,(n,V) trong đó ø là số tự nhiên và
<small>V là pxp ma trận xác định dương.</small>
<small>15</small>
</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27"><small>- Hàm mật độ</small>
<small>X|n,V np</small>
- Một số tinh chất quan trọng của phân phối Wishart:
<small>Giả sử biến ngẫu nhiên Y có phân phối xác suất phụ thuộc vào tham số n,</small>
được gọi là thuộc họ mũ nếu hàm mật độ có dạng
trong đó được gọi là tham số chính tắc của ho mũ, ¢ là tham số ty lệ, ¢(-) vac(-) là các hàm đã biết.
<small>khi đó</small>
<small>1 1 :</small>
trong trường hợp nay n=, ¢=07, €(n)
- Phân phối Poisson: Gia sử biến ngẫu nhiên Y có phân phối Poisson(A) khi
</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28"><small>trong trường hợp này =logÀ, d=1, ¢(n)=A=e" va c(y,¢) =—log(y!).</small>
- Phân phối Nhị thức: Gia sử biến ngẫu nhiên Y có phân phối nhị thức
<small>Binomial(n,7) khi đó</small>
<small>C?7#(1 — x)" 9</small>
<small>trong trng hp ny ?=logr =logit(z), =1, Â(m) =nlog(1m) =nlog(e" +1)</small>
Chúng ta thường quen thuộc với mơ hình hồi quy tuyến tính thơng thường(khi biến phụ thuộc y là biến liên tục), hay mơ hình hồi quy logistic (khi y làbiến nhị phân). GLMs (Generalized linear models) là một lớp các mơ hình hồi
<small>trình bay trong Annette va Adrian [3] và Nelder và Wederburn [27].</small>
bởi ba thành phần:
<small>- Hàm mật độ thuộc họ mũ</small>
trong đó 7,i=1,2,....n là tham số chính tắc của ho mũ; tham số ty lệ ¢ có thể đã
biết hoặc chưa biết, ¢(-) và c(-) là các hàm đã biết.
</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">- Hàm liên kết
<small>Tham số chính tắc 7 liên hệ đơn trị với kỳ vọng có điều kiện = E(w,|8)</small>
thơng qua hàm liên kết ø(-); ø(u¿)= với i=1,2,....n. Hàm liên kết được xác định
tùy thuộc vào dạng hồi quy, một số dạng hồi quy quen thuộc được trình bày
<small>trong bang 1.1.</small>
<small>Bang 1.1: Bảng mô tả ham liên kết ứng với các dang hồi quy.</small>
<small>Hồi quy Poisson: ;|Ø~ Poisson(A,)</small>
Hồi quy Nhị thức hay hồi quy logistic: |đ=~ Binomial(1,z,) <small>g(m¡) =logit(m;)</small>
<small>đồng nhất thì mơ hình hồi quy trộn là phù hợp nhất (Mixture of Regression</small>Models: MRMs). Nó là một cơng cụ linh hoạt để mơ hình hóa dữ liệu dang này.
Cho Y là một biến đáp ứng được quan tâm và z= (z1,za,...,z„) là vector các hiệp
biến được cho là có ảnh hưởng đến Y. Ta nói (z,Y) tuân theo MRMs nếu ham
mật độ có điều kiện của Y được cho bởi z có dạng
<small>trong đó f(y|0,¢) thuộc một ho các hàm mật độ của Y, K 1a số thành phan,</small>
0y(z)—=g(z!8¿) với k=1,2,..., được cho bởi hàm liên kết ø(-), B=((91,69,...,8x,®,7)
với y;= (ễ1.ka----.ỉp) đ = (Â1,09,....0K) va 7 = (71,72,..,7K)! sao cho Tr. > Ö và
<small>18</small>
</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">- Mơ hình hồi quy trộn các phân phối Nhị thức
<small>trong đó Binomial(y|7,0;,(z)) là phân phối Nhị thức với T là số lần thực hiện</small>
phép thử và xác suất thành công Ø;„(z) € (0,1) được cho bởi logit(0,(z)) =z’ Bp.
<small>- Mơ hình hồi quy trộn các phân phối Poisson</small>
trong đó Poisson(y|A,(z)) là phân phối Poisson với log(Ag(z)) = 2’ Be.
Gia sử y là biến quan sát được, phụ thuộc vào tham số 6. Khi đó p(y) đượcgọi là phân phối biên duyên của y, p(y|@) là phân phối của y khi đã biết Ø (cònđược gọi là hàm hợp lý), p(@) là phân phối tiên nghiệm của 0 và p(0|u) được gọilà phân phối hậu nghiệm của 6 khi đã biết y. Thống kê Bayes sử dung phan
thuyết hay phân tích hồi quy. Do đó phân phối hậu nghiệm p(0|y) là rất quan
<small>trọng trong thống kê Bayes. Suy luận Bayes về p(0|y) được dựa vào định lý Bayes</small>
điều chỉnh như sau:
Như vậy, phân phối hậu nghiệm tỷ lệ với tích phân phối tiên nghiệm và hàm hợp
<small>lý, ký hiệu là p(6|y) « p(@)p(y|@). Tuy nhiên, phân phối tiên nghiệm p(Ø) thường</small>
<small>19</small>
</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31"><small>(dựa vào kinh nghiệm hay lòng tin nào đó về phân phối của 0).</small>
Điều quan trọng hơn cả là phân phối hậu nghiệm p(6|y) thường là phân phối
dung này chúng tơi quan tâm phương pháp Bayes biến phân. Phương phápBayes biến phân VB là các kỹ thuật xấp xỉ phân phối hậu nghiệm trong suy
<small>luận Bayes (Chương 10 [8S], [30]). Phương pháp này thường được sử dụng trong</small>
các mơ hình thống kê phức tạp bao gồm biến quan sát được (còn gọi là "dữ
u được sử dụng cho hai mục đích:
- Tìm ra phân phối tối ưu, thuộc lớp các hàm phân phối quen thuộc nào đó
suy luận thống kê qua các biến này.
<small>- Tìm cực đại cận dưới biên duyên. Từ đó thực hiện lựa chọn mơ hình phù</small>
hợp nhất với dữ liệu.
Giả sử có dữ liệu y với hàm hợp lý p(y|@) trong đó Øe]R“ là tham số chưa biết<small>va phân phối tiên nghiệm của Ø là p(Ø). Phương pháp VB xấp xỉ phân phối hau</small>
<small>nghiệm p(6|y) « p(6)p(w|6) bởi một ham mật độ a(6) của @ trong một lóp phân</small>
<small>Vi KL(allp)>0 nên logp(y) > L(q) do đó L(q) được gọi là cận dưới biên duyên</small>
Giả sử gi(Ø1)=qg„, (01) và qo(02) =4q7, (02) trong đó 7¡ và 7a là các tham số biếnphân cần phải ước lượng. Khi đó
<small>Lm, 72)</small>
trong đó C(72) là một hằng số chi phụ thuộc vào 7a và
<small>Một cách tương tự, cố định r¡, đặt</small>
<small>khi đó, với mọi 7s ta có</small>
Đặt r9ld— (eld rola) là giá trị hiện tại của 7¡ và 7a, giá tri cập nhật mới làthew — 7*(79!¢) trong (1.4) va 7‡°*=zrz(r}°*) trong (1.6). Do (1.5) và (1.7) nên
<small>(1.8) bảo đảm sự cải thiện của cận dưới biên duyên qua các vòng lặp. Do cận</small>
<small>dưới biên duyên L(r) bi chặn trên bởi logp(y) nên sự hội tụ của hệ thống vòng</small>
biến phan được đưa về xử lý bài toán tối ưu (1.4). Các ø;:(Ø;) với ¡=1,.... được
<small>xấp xỉ bởi</small>
Chú ý rang bai toán tối ưu (1.4) cũng chính là bài tốn VB gốc là cực đại
<small>L(q) trong (1.2).</small>
<small>1. Khởi trị r¡ với i=1,...,K.</small>
2. Lần lượt cập nhật các 7; theo kết quả nhận được từ (1.9).
3. Lặp lại bước 2 cho đến khi hội tụ.
<small>22</small>
</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">tham số chính nào đó qua các vịng lặp.
được. Trường hợp này được gọi là Bayes biến phân dạng trung bình (Mean FormVariational Bayesian: MFVB). Khi đó hậu nghiệm VB tối ưu q;;(0;) làm cực đạitích phân bên về phải của (1.4) chính là p;(6;|y), với 77 là tham số tương ứng
<small>của hàm mật độ này.</small>
cho nó một dạng phân phối sau đó sử dụng một số kỹ thuật tối ưu xử lý (1.4)
biến phan Bayes (Fixed Form Variational Bayesian: FFVB).
<small>thông qua (1.9) sẽ cho ta dang ham mật độ q,,(6;) thuộc một lớp phân phối nào</small>
số đặc trưng của phân phối này.
<small>Ví dụ 1.1: Giả sử = (0i....,;)“ là n quan sát độc lập và có cùng phân phối</small>
Trong trường hợp này, bộ tham số của mơ hình là Ø= (/,ø?), phân phối tiên
4(0)=4(0)4(ø?). Ta cần xác định phân phối hậu nghiệm tối ưu VB cho hai thamSỐ / và o?.
<small>Từ (1.9) ta có</small>
tham số ø„ va ø2 được cập nhật theo công thức
<small>5 11, 1\</small>
trong đó [-] là kỳ vọng với phân phối tương ứng.
Phân phối hậu nghiệm tối ưu VB cho ø?.
<small>Tương tự như trên ta có</small>
<small>Nhu vậy q,2(07) ~IG(A,2,B,2) với hai tham số A,2 va B„z được cập nhật theo</small>
<small>công thức</small>
</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37"><small>1 Aj</small>
<small>Cận dưới biên duyên L(q).</small>
<small>Ta có</small>
— P(Y,9) 4) — .
Kết hợp các kết quả trên ta nhận được
<small>3. Cập nhật A„z và B,2 theo công thức (1.11).</small>
4. Lặp lại bước 2 - 3 cho đến khi hội tụ.
<small>... 2, Z N 2 N . .z ñ Z 2 * 4 ` 2</small>
<small>Giả sử ta có /uz„e Và ơz„¿ là hai giá trị đúng của hai tham sô p và o</small>
và phân phối hậu nghiệm đúng cho o? là p(o?|y) ~1G(A%"”, Bi”) với hai tham<small>ơ2 )</small>
số Ate và Bie được xác định bởi công thức
<small>Aue — 5 + Ao.</small>
<small>27</small>
</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">Chúng tôi đã thực hiện mô phỏng với /;„e=0 , ø2.„„= 10 với n=100 và n=200
Bảng 1.2: Bảng kết quả hai lần thực hiện mô phỏng.
<small>Lần thực hiện | Các tham số | Hậu nghiệm đúng | Hậu nghiệm tối ưu VB</small>
Lần 1 by 0.2195 0.2195n = 100 ơn 0.0999 0.0884
<small>Aye 51 51</small>
<small>By 449.1384 451.1436</small>
Lan 2 Hụ -0.0349 -0.0349n = 200 ơn 0.0495 0.0500
<small>Ag 101 101</small>
<small>Đa: 996.2705 1001.1000</small>
Chú ý rằng giá trị đúng của tham số được ước lượng bang mode của phân
Các ước lượng này chưa được tốt là do n=100 khá bé, khi thực hiện với n=200
<small>nét liền là đồ thị của phân phối hậu nghiệm đúng p(u|y) và p(ø?|y) và đường nét</small>
đứt là đồ thi của phân phối hậu nghiệm tối ưu VB g(/) và g(ø?). Nhìn chung haiđường nay rất sát nhau. Đặc biệt nhìn vào đồ thị mô tả sự cải thiện của L(q)qua các vịng lặp, cho thấy thuật tốn VB hội tụ rất nhanh, chỉ sau vài vònglặp đã gần như dat được giới hạn trên của L(q).
<small>28</small>
</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40"><small>The posterior density p(mu|y) và q(mu) The posterior density p(muly) và q(mu)</small>
<small>14 1.8</small>
<small>1.208 4</small>
<small>06 0.8</small>
<small>92 0.25</small>
<small>0.15 0.2</small>
<small>0.050 0</small>
<small>(e) Cận dưới biên duyên L(q) ( Cận dưới biên duyên L(q)</small>
Hình 1.1: Kết quả thực hiện 02 lần: lần 1 cột bên trái và lần 2 cột bên phải.
<small>29</small>
</div>