Tải bản đầy đủ (.pdf) (115 trang)

Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (18.24 MB, 115 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

DAI HỌC QUOC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

<small>Dao Thanh Ting</small>

LUA CHON BIEN, SO THANH PHAN VA

ƯỚC LƯỢNG THAM SỐ BẰNG PHƯƠNG PHAP VB

CHO CÁC MƠ HÌNH GLMM VÀ MRDE-MN

LUẬN ÁN TIẾN SĨ TOÁN HỌC

<small>Hà Nội - 2020</small>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

DAI HỌC QUOC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

<small>Đào Thanh Tung</small>

LUA CHON BIEN, SO THANH PHAN VA

UGC LƯỢNG THAM SỐ BANG PHƯƠNG PHAP VB

CHO CAC MO HINH GLMM VA MRDE-MN

Chuyên ngành: Lý thuyết xác suất và thống kê toán họcMã số: 9460112.02

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Người hướng dẫn khoa học:

PGS. TS. TRAN MINH NGOC

TS. TRAN MẠNH CƯỜNG

<small>Hà Nội - 2020</small>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

LỜI CAM ĐOAN

Toi xin cam đoan những kết quả trình bày trong luận án là mới, đã được

<small>cơng bố trên các tạp chí Quốc tế. Các kết quả viết chung với hai hướng dẫnkhoa hoc PGS. TS. Tran Minh Ngọc và TS. Trần Mạnh Cường đã được sự đồng</small>

ý của hai hướng dẫn khi đưa vào luận án. Những kết quả được trình bày trongluận án là trung thực và chưa từng được công bố trong bất kỳ cơng trình nào

<small>Nghiên cứu sinh</small>

<small>Đào Thanh Tùng</small>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

LỜI CẢM ƠN

Trước hết, tôi xin bày tỏ lòng biết ơn chân thành đến hai cán bộ hướng dẫn

<small>khoa học:</small>

1. PGS. TS. Tran Minh Ngọc.2. TS. Trần Mạnh Cường.

Đặc biệt PGS. TS. Trần Minh Ngọc, người đã giao đề tài, tận tình chỉ bảo,hướng dẫn tơi trong suốt q trình nghiên cứu và hồn thành luận án.

Tác giả luận án chân thành cảm ơn lãnh đạo, các thầy, cơ giáo và cán bộ

<small>Khoa Tốn - Cơ - Tin học, Phòng Sau đại học - Trường Đại hoc Khoa học Tu</small>

nhiên - Đại học Quốc gia Hà Nội đã làm hết sức trách nhiệm, nhiệt tình giúpđỡ và tạo mọi điều kiện thuận lợi cho chúng tôi trong suốt q trình nghiên cứu

<small>và hồn thành luận án.</small>

Tác giả chân thành cảm ơn các đồng nghiệp ở Khoa Toán - Tin học và lãnhđạo Học viện Quân y đã tạo điều kiện giúp đỡ tôi làm việc và học tập.

Cuối cùng, tác giả luận án xin dành lời cảm ơn đặc biệt tới gia đình, người

<small>thân và bạn bè, những người đã thường xuyên giúp đỡ, chia sẻ động viên và là</small>

chỗ dựa để tơi có thể hồn thành luận án này!

<small>Tác giả xin chân thành cảm on!</small>

<small>NCS. Dao Thanh Tùng</small>

<small>ii</small>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Mục lục

<small>Lời cam đoan</small>

<small>Lời cảm ơn</small>

Bảng ký hiệu và viết tắtMở đầu

Chương 1 Kiến thức chuẩn bị

Một số phân phối thường gặp ...

1.1.1 Phân phối Beta...ẶẶẶẶ Ốc1.1.2 Phan phối Gamma...

<small>1.1.3 Phan phối Gamma ngược...</small>

1.1.4 Phân phối chuẩn một

chiều.1.15 Phân phối chuẩn nhiều chiều

...-1.1.6 Phân phối Wishart... ...0...0..004.

Họ mũ va Mơ hình hồi quy tuyến tính tổng qt ...

<small>121 Họ mũ... ee</small>

1.2.2 Mơ hình hồi quy tuyến tính tổng qt ...-

Mơ hình hồi quy tron... 2. ốcPhương pháp Bayes biến phân ...-

<small>1.4.1 Cơ sở toán học ... 00000000 ees1.4.2 Trường hợp MFVB... 0000.</small>

<small>1.43 Trường hợpFEFEVH...</small>

Một số thuật toán tối ưu sử dụng trong luận án...

<small>1.5.1 Thuật toán Newton - Raphson...</small>

<small>vil</small>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<small>1.5.2 Thuật toán xấp xỉ ngẫu nhiên cho FFVB... 4I</small>

<small>1.5.3 Thuật toán đạo hàm theo hướng... 43</small>

Chương 2 Lựa chọn biến và ước lượng tham số bằng phương

<small>pháp VB cho mô hình GLMM 442.1 Giới thiệu chung ... vo 442.2 MohinhGLMM ...0..0 00000000000. 472.3 Phuong pháp VB ước lượng mode hậu nghiém... 50</small>

2.4 Phương pháp VB để chọn biến và ước lượng tham số cho GLMM . 52

<small>2.4.1 Phân phối hậu nghiệm tối ưu VB cho đ... 52</small>

<small>2.4.2 Phân phối hậu nghiệm tối ưu VB chob... 56</small>

<small>2.4.3 Phân phối hậu nghiệm tối tu VB choQ_... 59</small>

2.4.4 Phân phối hậu nghiệm tối tu VB choÀ... 59

2.4.5 Phân phối hậu nghiệm tối ưu VB cho@... 60

2.4.6 Lựa chọn các siêu thamsố ... 61

<small>2.4.7 Thuật toán V... Q2 64</small>

PT) 0... .daa 65

<small>2.5.1 Nghiên cứu mô phỏng ...ẶẶ So 66</small>

2.5.2 Ứng dụng trên dữ liệu thực... 69

Chương 3 Lua chọn biến, số thành phần và ước lượng tham sốbằng phương pháp VB cho mơ hình MRDE-MN 72

<small>3.1 Giới thiệu chung ... . LH ee 733.2 Mơ hình MRDE-MN... Q2 75</small>3.2.1 Phan phối hậu nghiệm tối ưu VB choB... 76

3.2.2 Phan phối hậu nghiệm tối wu VB cho T7y... 78

3.2.3. Phân phối hậu nghiệm tối ưu VB cho g„... 79

3.2.4 Phân phối hậu nghiệm tối wu VB của+y... 79

<small>3.2.5 CandudiL(q).. ốc aaHa eee 803.2.6 Thuật toán VB cho mơ hình MRDE-MN ... 83</small>

3.3 Lựa chọn số thành phần... 84

<small>1V</small>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<small>3.4 Lựa chọn bién.... 2.0.00 0000000 Q Q Q v va 87</small>

<small>3.4.1 Mơ hình tiénnghiém... 87</small>

<small>3.4.2 Lựa chọn biến cho mean model... 88</small>

3.4.3. Lựa chọn biến cho gatingmodel... 903.44 Thuật toán đầy đủ... co 91

3.5 Ứng dụng... ng ee 92

<small>3.5.1 Nghiên cứu mô phỏng ... 93</small>

3.5.2 Ung dụng trên dữ liệu thực HILDA ... 94

Kết luận và kiến nghị 97

<small>Kết luan. 2. en 97Kiến nghị về những nghiên cứu tiếp theo...- 97</small>

Danh mục công trình khoa học của tác giả liên quan đến luậnán ... 99

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Danh sách hình vẽ

<small>1.1 Kết quả thực hiện 02 lần: lần 1 cột bên trái và lần 2 cột bên phải. 29</small>

1.2 Kết quả thực hiện mơ phỏng bằng hai thuật tốn. Thuật tốn 1

<small>là cột bên trái và Thuật toán 2 là cột bên phải... 36</small>

<small>vì</small>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Danh sách bảng

Bang mơ ta ham liên kết ứng với các dạng hồi quy...

Bảng kết quả hai lần thực hiện mô phỏng...

Bảng kết quả thực hiện mô phỏng.

...-Bảng kết quả thực hiện mô phỏng trên ba thuật tốn. ...

Kết quả mơ phỏng hồi quy Poisson

...-Kết quả mô phỏng hồi quy logistie...

<small>Bang giá trị đúng của các tham số Ø8 và +. ...</small>

Bảng tóm tắt các chỉ số đánh giá hiệu quả của phương phap. . . .

Các biến được chọn và các hệ số ước lượng trong mean model.Các biến được chọn và các hệ số ước lượng trong gating model. . .

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Bảng ký hiệu và viết tắt

<small>AIC Akaike’s information criterion</small>

<small>BIC Bayesian information criterion</small>

<small>BaLasso Bayesian adaptive LassoBMS Bayesian model selection</small>

<small>GLMM Generalized Linear Mixed Model</small>

<small>Lasso Least absolute shrinkage and selection operatorKL Kullback-Leibler</small>

<small>ACMC Markov chain Monte Carlo</small>

<small>MEM Mixtures of Expert Model</small>

<small>MFVB Mean Form Variational Bayes1L Maximum Likelihood</small>

<small>(LR Multivariate Linear Regression</small>

<small>MRDE-MN Multivariate Regression Density Estimation with</small>

<small>Mixtures of Normals</small>

<small>{RM Mixtures Regression Model</small>

<small>MSE Mean Squared Error</small>

<small>vil</small>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<small>OLS Ordinary Least Squares</small>

<small>PML Penalized Maximum Likelihood</small>

<small>PPS Partial Predictive Score</small>

<small>RDE-MHN(k) Regression Density Estimation with Mixtures of k</small>

<small>vill</small>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

MỞ ĐẦU

Lựa chọn mơ hình là một bài toán cơ bản trong thống kê cũng như trong

<small>nhiều lĩnh vực khoa học khác. Theo R. A. Fisher, có ba khía cạnh của một bài</small>

tốn tổng qt về suy luận thống kê và dự báo: (1) mô tả và xây dựng mơ hình,

(2) ước lượng các tham số mơ hình, và (3) ước tính độ chính xác. Về cơ bản, bài

<small>tốn lựa chọn mơ hình liên quan đến yếu tố (1) và (3) ở trên. Mục tiêu quan</small>

trọng trong phân tích dữ liệu là hiểu cấu trúc cơ bản trong dữ liệu. Giả sử rằng

chúng ta được cho một tập hợp các mơ hình phan ánh một loạt các cấu trúctiềm năng trong dữ liệu và nhiệm vụ là chọn trong số đó một mơ hình giải thíchtốt nhất hoặc phù hợp nhất với dữ liệu.

Giả sử tập dữ liệu D = {(a1, 1), (22, 9a),..., (an, Yn)} được rút ra từ một mối

<small>quan hệ hàm</small>

U= firue (x) + nhiéu

van đề là ta không biết biểu thức tốn học của ham fire, nó như một hộp den,biến đổi x thành y và có sự tác động của nhiễu. Tìm hiểu về firye chính là tìmhiểu về cơ chế sinh ra dit liệu y khi có x. Thơng thường, ta khơng thể xác định

được chính xác ƒ„„¿ mà cần chon trong một lớp hàm F, nào đó một hàm f,phan ánh tốt nhất mối quan hệ của theo x hay giải thích được y nhiều nhất

theo một tiêu chuẩn nào đó. Lớp hàm để chọn f, được hiểu là một lớp mơ hình.

Chỉ số "c" trong ký hiệu Z, ngụ ý tính phức tạp của lớp ham (c viết tắt của

<small>chữ "complexity"). Việc chọn hàm f, như vay là lựa chọn mơ hình, bao gồm các</small>

van đề lựa chọn biến, ước lượng tham số của mơ hình và đánh giá f, là tốt nhất

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<small>A 2 ` Z</small>

<small>theo tiêu chuẩn nào đó.</small>

Trước khi nhà phân tích dit liệu tiến hành lựa chọn một mơ hình, ho cần

phải biết tiêu chuẩn thế nào là một mô hình tốt. Noi cách khác, mục tiêu của

bài tốn lựa chọn mơ hình cần phải được xác định rõ ràng. Các mục tiêu khác

nhau có thể dan đến các mơ hình khác nhau. Các dạng mơ hình F, cũng cần

<small>được xác định trước, với c thuộc một tập hợp C nào đó. Lua chon mơ hình sẽ là</small>

lựa chọn một chỉ số e € C tốt nhất. Với e được lựa chọn đó, ký hiệu ƒÿ € F là

hàm hồi quy tốt nhất xấp xỉ ƒ¡„„¿. Có rất nhiều phương pháp lựa chọn mơ hình

nổi tiếng như phương pháp hợp lý cực đại phạt, phương pháp Bayes, phương

<small>pháp thực nghiệm.</small>

Để ước lượng tham số của mơ hình có thể sử dụng phương pháp bình phương

tối thiểu (Least Squares: LS) hoặc phương pháp hợp lý cực dai (Maximum

Likelihood: ML). Giả sử D có phân phối mẫu là P(D|ƒ) thường gọi là hàm hợp

ly. Dé ước lượng tham số của mơ hình, phương pháp ML sẽ chọn

fe = ax P(D|f).

Ip arg max (D\f)

Chang hạn xét mơ hình hồi quy tuyến tính thong thường y = 6X +e, khi đó F,

là lớp hàm tuyến tính hay mơ hình hồi quy tuyến tính của X với e biến độc lập.

Khi đó fs = ƒ°(8) trong đó ơ là ước lượng hợp lý cực đại của đ.

Đối với việc chọn mơ hình thì phương pháp hợp lý cực đại phạt (Penalized

<small>Maximum Likelihood: PML) chon</small>

ê = arg min{—logP(D|f%) + pen(Z.)}.

Đại lượng —logP(D|fS) + pen(Z¿) được xem là tiêu chuẩn để chọn lựa mơ hình,

số hạng phạt pen(F,) phụ thuộc vào cách tiếp cận được dùng. Trong tiêu chuẩn

AIC thì pen(Z,) = e, hoặc tiêu chuẩn BIC thì pen(F,) = c®8" trong đó e là số

tham số tự do của mơ hình. Trong thực hành, hai tiêu chuẩn AIC và BIC là cáctiêu chuẩn thông dụng nhất được sử dụng để lựa chọn mơ hình. Trong nhiều

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<small>trường hợp, chúng dễ dàng sử dụng và mang lại kết quả tốt. Một số phiên bản</small>

mở rộng của AIC cũng đã được đề xuất trong [6].

<small>Lóp phương pháp lựa chọn mơ hình thứ hai là các phương phấp lựa chon mơ</small>

<small>hình Bayes (Bayesian Model Selection: BMS), các phương pháp này tổ ra rất</small>

hiệu quả và ngày càng được sử dụng nhiều. Thông thường, BMS bao gồm việcxây dựng một công thức Bayes phân cấp và sử dụng phương pháp MCMC hoặc

một số thuật tốn tính tốn khác để ước lượng xác suất hậu nghiệm của mơ

<small>hình. Mơ hình có xác suất hậu nghiệm cao nhất sẽ được chọn.</small>

Với một lớp mơ hình M, giả sử chúng ta có niềm tin nào đó về phân phối

tiên nghiệm p(M), trong trường hợp khơng có thơng tin gì thì có thể chọn p(M)

<small>có phân phối đều. Theo quy tắc Bayes, ta có</small>

p(DỊM)p(M)p(M|D) = PT

mơ hình được chọn là mơ hình có xác suất hậu nghiệm cao nhất, nghĩa là

Mup = arg max p(M|D).

<small>Su mở rong BMS được giới thiệu trong [22], [29] va [34]. BMS đã được mở</small>

rộng bằng cách xây dựng mơ hình Bayes phân cấp với các biến tiềm an được sửdụng để xác định việc chọn tập con các biến. Bằng cách này, sẽ tránh được việc

tính xác suất hậu nghiệm của 2? tập con, trong đó p là số lượng tất cả các biến

độc lập có thể đưa vào mơ hình hồi quy.

<small>Một lớp các phương pháp lựa chọn mơ hình khác được ứng dụng rộng rãi</small>

trong thực tế là các phương pháp thực nghiệm như bootstrap của Efron và

Tibshirani [14], kiểm tra chéo (cross-validation) và các biến thể của nó trong [1],

<small>[LO], [16] và [37]:</small>

Các phương pháp này thường dựa trên một bộ dữ liệu kiểm tra 7“ được sử

dụng để chọn c sao cho ƒÿ có sai số nhỏ nhất trên D’. Thơng thường 7 được

cắt ra hoặc lấy lại từ 2. Nghia là họ sử dụng D để ước lượng các tham số cho

<small>3</small>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

từng mơ hình sau đó sẽ chọn mơ hình nào có sai số nhỏ nhất trên D’. Các tiêu

chuẩn thực nghiệm dễ hiểu và dễ sử dụng, nhưng độ chính xác sẽ giảm khi kíchthước mẫu giảm, có thể là một van đề nghiêm trọng nếu cỡ mẫu ø nhỏ. Ngồi

ra, chúng đơi khi tốn thời gian, đặc biệt là trong các trường hợp nhiều biến và

lý cực đại là một trong những phương pháp phổ biến được sử dụng để xử lý

các bài toán thống kê hiện đại. Thuật tốn tối đa hóa kỳ vọng (Expectation

Maximization: EM), là một thuật toán lặp đệ quy để ước lượng ML, có một số

lợi thế và đã trở thành một phương pháp tiêu chuẩn để giải quyết các van đề xử

lý thống kê. Tuy nhiên, thuật toán EM chứa đựng những yêu cầu làm hạn chế

<small>khả năng ứng dụng của nó trong những bài tốn phức tạp. Gần đây, phươngpháp Bayes biến phân (Variational Bayes: VB) đã xuất hiện giải quyết một số</small>

yêu cầu hạn chế của thuật toán EM và đang được phát triển và ứng dụng rộng

rãi từ giữa những năm 1990. Hơn nữa, người ta đã chỉ ra rằng thuật toán EM

<small>là một trường hợp đặc biệt của thuật toán VB.</small>

Trong nhiều trường hợp ta đã biết dạng mơ hình hoặc đã xác định được cấu

trúc của mơ hình. Khi đó vấn đề cần quan tâm là chọn biến cho mơ hình. Lựa

chọn biến là bài toán cơ bản nhất trong thống kê và các lĩnh vực liên quan nhưhọc máy và kinh tế lượng. Nó là trường hợp đặc biệt (nhưng thơng dụng nhất)của bài tốn lựa chon mơ hình. Giả sử Y là biến được quan tâm và X\, Xa,..., Xp

là tập các biến độc lập có thể giải thích hay dự đoán Y. Vấn đề đặt ra là cần

chọn lựa các biến quan trọng, tức là lựa chọn một tập con từ p biến đó, có ảnh

hưởng nhất đến Y để đưa ra mơ hình biểu diễn tốt nhất mối quan hệ giữa Y và

các biến được chọn.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

Bài toán lựa chọn biến là bài toán quen thuộc trong ngữ cảnh hồi quy

<small>tuyến tính thơng thường. Ký hiệu + là vector các chỉ số các tập con của p</small>

biến Xy, Xa,..., Xp tức là + = (đ,í2,...,í„) trong đó i; = 1 nếu biến X; được chọn,i; = 0 nếu ngược lại. Ký hiệu q, là số các biến được chon trong tập con +, tức là

d;=33;—¡¡;- Ta cần chọn tập con phù hợp nhất với mơ hình có dạng

<small>Y= X,B8,+€</small>

trong đó X, là ma trận cỡ n x qy có các cột là các biến được chọn ứng với cácthành phần có giá trị bằng 1 của vector 7, 3, là vector hệ số hồi quy q,-chiéuvà c~ W„(0;ø?]).

Khi hàm mật độ có điều kiện p(/|+) khơng có phân phối chuẩn nhưng vẫn

thuộc họ phân phối mũ (chẳng hạn như phân phối nhị thức, Possion) thì khi đó

mơ hình hồi quy tuyến tính thơng thường được mở rộng thành mơ hình hồi quy

tuyến tính tổng qt (Generalized Linear Models: GLMs). Một mơ hình GLM

sẽ bao gồm ba thành phần như sau:

1. Hàm mật độ có điều kiện p(z|z) thuộc họ phân phối mũ có dạng

ƒ(w|8) = exp Ñ — +4 ci) ;

2. Thanh phan dự báo tuyến tính ạ= Xổ.

3. Hàm liên kết ø(-) sao cho Ey=p=g~1(n).

Trong thực tế có nhiều tình huống khơng phù hợp với mơ hình hồi quy tuyến

tính thơng thường mà phải sử dụng mơ hình khác tổng qt hơn. Chẳng hạn, khi

<small>nghiên cứu trên ø bệnh nhân ung thư, bệnh nhân thứ i được theo dõi khảo sát</small>

n¡ lần tại các thời điểm khác nhau. Trong trường hợp này, các bệnh nhân là độc

lập với nhau còn các kết quả khảo sát được trên mỗi bệnh nhân lại phụ thuộc

nhau. Vì vậy khơng thể sử dụng mơ hình hồi quy tuyến tính thơng thường đượcmà cần sử dụng các mơ hình hồi quy tuyến tính hỗn hợp tổng quát (Generalized

<small>b</small>

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Linear Mixed Model: GUMM), cịn gọi là mơ hình hồi quy tuyến tính hỗn hợp

tổng quát với yếu tố ảnh hưởng ngẫu nhiên hoặc mơ hình dữ liệu theo dõi lặplại. Mơ hình hồi quy tuyến tính hỗn hợp tổng qt cũng là một mở rộng từ mơhình tuyến tính tổng qt, trong đó thành phần dự báo tuyến tính chứa các ảnh

hưởng ngẫu nhiên (hay ảnh hưởng mang tính cá thể) ngồi các ảnh hưởng cố

định thơng thường (hay ảnh hưởng mang tính tổng thể). Nghĩa là 7 = X + Zb

trong đó b = (bị,...,bạ)“ là vector yếu tố ảnh hưởng ngẫu nhiên, đối tượng thứi được đặc trưng bởi b; với i = 1,...,n. Các yếu tố ảnh hưởng ngẫu nhiên riêng

của từng đối tượng có phân phối chuẩn b; ~ (0,Q) và b ~ (0,Q¿) trong đó

<small>Q, = blockdiag(@,..., Q).</small>

Trong GLMMs, ham mật độ có điều kiện của ;; được giả sử có dạng

Ƒ(w|8,b) = exp (am n + cis) .

trong đó n;; là tham số chính tắc có liên quan đơn điệu với trung bình có điềukiện ij; = E(yij|B,b;) thơng qua hàm liên kết ø(-), ø(w;;) = mij. Tham số tỷ lệ ở

có thể chưa biết, ¢(-) và e(-) là các hàm đã biết.

GLMMs được sử dung rộng rãi dé lập mơ hình dữ liệu cum phụ thuộc. Lựa

chọn biến trong GLMMs được coi là một nhiệm vụ khó khăn, vi ham hợp lý liên

quan đến các tích phân khó tính tốn. Các phương pháp cổ điển để lựa chọn

biến, chăng hạn như các phương pháp dựa trên kiểm định giả thuyết hoặc lựa

chọn tập hợp con, đều bị giới hạn trong một số lượng ít biến.

<small>Có hai cơng trình đáng chú ý là bài báo của Groll và đồng sự [19] và </small>

Schell-dorfer và đồng sự [35] có thể thực hiện lựa chọn biến cho GLMMs trong trường

hợp nhiều biến. Giả sử Q(g) là ma trận hiệp phương sai của b; phụ thuộc vàovectơ tham số chưa biết ø, ký hiệu ổ' = (9’,b') và +! = (¢, ø) khi đó log hàm hợp

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

phương pháp xấp xỉ Laplace, từ đó nhận được

P(8,2) .. /(uulỗ.+)) — 616)!

sau đó họ kết hợp sử dụng một phạt i¡-norm trên các hệ số ảnh hưởng cố định

PMB, By) = “"(ð,+) = (9,3) > Bil,

cuối cùng các ước lượng của đ và b nhận được từ

j= P99(8,4) = arg max (°(3,4) = A |),arg max (5, 4) arg max y8

<small>trong đó ¥ là ước lượng hợp lý cực đại của /“PP(ð, +).</small>

Như vậy, cách tiếp cận của họ là đầu tiên ước lượng hàm hợp lý bằng cáchxấp xỉ các tích phân trên các ảnh hưởng ngẫu nhiên bằng cách sử dụng phương

pháp Laplace, sau đó giảm thiểu tổng ước lượng hợp lý này và một phạt Lasso

<small>dạng i¡-norm trên các hệ số ảnh hưởng cố định. Sử dụng một phat Lasso sẽ co</small>

các hệ số về 0, do đó dẫn đến sự lựa chọn biến. Cách tiếp cận lựa chọn biến này

hấp dẫn hơn so với các hướng tiếp cận cổ điển vì nó có thể xử lý các vấn đề với

một số lượng lớn các biến.

Tuy nhiên, vẫn còn nhiều vấn đề để cải tiến trong cách tiếp cận của Groll

và đồng su [19] và Schelldorfer và đồng sự [35]. Thứ nhất, xấp xỉ Laplace của

ho trong một số trường hợp có thể khơng chính xác ([20]). Thứ hai, hiệu suất

của thuật toán phụ thuộc vào tham số co rút \, tham số này cần được chonmột cách thích hợp. Vì vậy, người dùng phải chạy lại thuật toán nhiều lần chocác giá trị khác nhau của tham số co rút trong phạm vi được chỉ định trước,

sau đó chọn giá trị tốt nhất của tham số co rút dựa trên một số tiêu chuẩn như

AIC hoặc BIC. Kết quả là, tồn bộ quy trình lựa chọn mơ hình cuối cùng có

thể tốn thời gian. Hơn nữa, việc xác định một phạm vi thích hợp cho tham số

co rút khơng đơn giản. Thứ ba, cách tiếp cận này sử dụng một tham số co rút

duy nhất cho mọi hệ số, có thể dẫn đến ước lượng có chệch của các hệ số. Do

<small>ĩ</small>

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

đó mục tiêu thứ nhất của chúng tôi là khắc phục những hạn chế này,

dựa trên phương pháp Bayes biến phân thích nghỉ với một phạt dạng

Trong các ngành khoa học đời sống, kỹ thuật, y tế và kinh doanh, có nhiềutrường hợp cần phải nhóm các đối tượng tương tự và tách những đối tượng

không giống nhau để hiểu rõ hơn về nội dung hiện tượng quan tâm. Phân tíchcụm cung cấp một cách để nhóm các đối tượng thành các cụm khác nhau. Khiphân loại được thực hiện, các nhà nghiên cứu tìm cách hiểu sự khác biệt tác

động của các biến giải thích lên một số hiện tượng quan tâm trên các cụm khác

nhau. Hướng tới mục tiêu này, họ có thể ước lượng mơ hình hồi quy trong mỗi

cụm, nhưng kết quả ước tính các hệ số bị sai lệch lớn ngay cả khi các cụm đượctách biệt tốt ([5]). Mặt khác, mơ hình hồi quy hỗn hợp hữu hạn ([26]) cung cấp

một cách tiếp cận để phân loại các đối tượng thành các cụm khác nhau và ước

lượng các mô hình hồi quy một cách đồng thời trên các cụm ([12]).

Mơ hình hồi quy trộn (Mixtures Regression Model: MRM), giả sử hàm mật

<small>độ có dạng</small>

ply|x,7, 8,0) = So tN (w|ux(). o%):

Có hai van đề can giải quyết trong bài tốn lựa chon mơ hình ở đây, thứ

nhất là xác định số thành phần K, điều này có thể áp dụng các phương pháp

tiếp cận của Biernacki va đồng sự [4]; Hastie và đồng sự [21] và thứ hai là chọn

biến cho mơ hình, có thể áp dụng các tiểu chuẩn AIC ([2]), BIC ([36]).

Các tác giả Prasad va đồng sự [32] đã nhận thấy tiêu chuẩn AIC không phù

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

hợp với dạng mơ hình này vì nó thường cho số thành phần quá cao dẫn tới kết

quả ước lượng khơng chính xác. Nhóm tác giả này đã phát triển một phươngpháp mới với tiêu chuẩn MRC (Mixture Regression Criterion) để xác định đồng

thời số lượng thành phần và các biến trong mơ hình hồi quy trộn hữu hạn.

Tran và đồng sự [40] đã nghiên cứu ước lượng mơ hình hồi quy mật độ trộn k

phân phối chuẩn có phương sai phụ thuộc (Regression Density Estimation with

<small>Mixtures of k Heteroscedastic Normals: RDE-MHN(k))</small>

P(w|Z) = dl N (y|n3 (2), 05 (2))

trong đó xác suất trộn 7;(z), trung bình p;(z) và phương sai ơ7(Z ) là các hàm

của các tổ hợp tuyến tính của z, các z;(Z) > 0 và ». 7;(z) = 1. Tran va đồng

sự [40] đề xuất một thuật toán nhanh dựa trên phương pháp Bayes biến phâncho phép thực hiện đồng thời lựa chọn các biến, lựa chọn số thành phần k và

ước lượng tham số. Phương pháp của Tran và đồng sự [40] có thể giải quyết vấnđề cực đại địa phương trong việc lựa chọn k, và có thể áp dung cho trường hợpnhiều biến (số lượng biến có thể lớn hơn kích thước mẫu).

Tuy nhiên, Nott và đồng sự [28], Tran và đồng sự [40] va Villani và đồng sự

<small>[42] chỉ mới nghiên cứu mơ hình này với y là đơn biến, trường hợp y là đa biến</small>

<small>chưa được nghiên cứu thực hiện. Do đó mục tiêu thứ hai của chúng tơi là</small>

nghiên cứu mở rộng mơ hình này cho trường hợp y là đa biến.

<small>Từ những lý do trên, chúng tôi xác định đối tượng nghiên cứu của luận án là</small>

lựa chọn biến cho mơ hình hồi quy tuyến tính hỗn hợp tổng qt (Generalized

Linear Mixed Model: GLMM) va mơ hình hồi quy mật độ nhiều biến với việc

trộn các phân phối chuẩn (Multivariate Regression Density Estimation with

<small>Mixtures of Normals model: MRDE-MN). Luận án sử dụng phương pháp Bayes</small>

biến phân để xây dựng thuật toán lựa chọn biến nhanh đồng thời ước lượng

tham số mơ hình. Các kết quả chủ yếu của luận án được cơng bố trong các cơng

<small>trình [I], [II] (xem danh mục các cơng trình của tác giả luận án)</small>

<small>9</small>

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Cụ thể luận án đã đạt được những kết quả như sau:

1. Chứng tôi đã xâu dựng một thuật toán Bayes biến phân dé

thực hiện đồng thời lựa chọn biến va ước lượng tham số trongGLMM, ky hiệu là VBGLMM. Thuật toán được đề xuất dua

trên phương pháp Bayes biến phân để ước lượng mét mode

hậu nghiệm kết hợp uới phương pháp Bayes thích nghi Lasso.

Phương pháp VB mode hậu nghiệm của chứng tơi có thể được ápdung cho tiệc lựa chọn biến trong các ứng dựng khác, chang han

như lựa chọn hiệp phương sai. Phương pháp VBGLMM được đề

quất cũng có thể được mở rộng thành (i) lựa chọn nhóm biến

trong GLMM bằng cách sử dung Lasso phạt nhóm ([43]) (ii)

lua chon biến được sắp xếp trong GLMMs bằng phạt tuyét đối

tổng hợp ([44]).

2. Chứng tôi dé xuất m6 hành hồi quụ mật độ nhiều biến vdi viéc

trộn các phân phối chuẩn có phương sai phụ thuộc

(MRDE-MN), xây dựng thuật toán Bayes biến phân thực hiện đồng thời

chọn biến, ước lượng tham số va xác định số thành phan của

<small>mô hành.</small>

Nội dung của luận án gồm ba chương:

Chương 1: Kiến thức chuẩn bị

Trong chương này chúng tơi trình bày một số nội dung cơ bản nhằm bổ trợ

cho hai chương tiếp theo, bao gồm một số phân phối thường gặp và các tính chấtcủa chúng, cơ sở tốn học và một số ví dụ minh họa cho phương pháp Bayesbiến phân và các thuật toán tối ưu đã sử dụng trong luận án.

Chương 2: Lựa chọn biến và ước lượng tham số bằng phương pháp VB cho

<small>mơ hình GLMM</small>

<small>10</small>

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Trong chương này, chúng tơi đã xây dựng được một thuật tốn Bayes biến

phan để thực hiện đồng thời lựa chọn biến và ước lượng tham số trong GLMM.Thuật toán được đề xuất dựa trên phương pháp Bayes biến phân để ước lượng

một mode hậu nghiệm kết hợp với Bayes thích nghi Lasso. Việc đánh giá hiệusuất hoạt động của phương pháp của chúng tôi đã được thực hiện rất đầy đủ

va đã khang định được phương pháp này tốt hơn rất nhiều so với phương phápkhác. Hơn nữa, phương pháp VB mode hậu nghiệm cũng có thể được áp dụngcho việc lựa chọn biến trong các nội dung khác, chang han như lựa chon hiệp

phương sai. Phương pháp VBGLMM được đề xuất cũng có thể được mở rộng

thành (i) lựa chọn nhóm biến trong GLMM bing cách sử dung Lasso phạt nhóm

([43]) (ii) lựa chọn biến được sắp xếp trong GLMM bang phạt tuyệt đối tổng

hợp (44]).

Chương 3: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương

<small>pháp VB cho mơ hình MRDE-MN</small>

<small>Trong chương này, chúng tơi nghiên cứu mơ hình hồi quy mật độ nhiều biến</small>

với việc trộn các phân phối chuẩn có phương sai phụ thuộc (MRDE-MN), mơ tả

thuật tốn Bayes biến phân thực hiện đồng thời chọn biến và ước lượng thamsố cho Mean model và Gating model và xác định số thành phần của mô hình.Hiệu suất hoạt động của phương pháp của chúng tơi cũng được đánh giá bằng

<small>nghiên cứu mô phỏng va dữ liệu thực.</small>

Các kết quả chủ yếu của luận án được báo cáo tại

- Semina Bộ môn Xác suất thống kê - trường Dai học Khoa hoc Tự nhiên,Đại học Quốc gia Hà Nội.

- Hội nghị ngày Thống kê, Đại học Khoa học Tự nhiên, Đại học Quốc gia

<small>Hà Nội.</small>

<small>- Đại hội Toán học Việt Nam lần thứ IX, Nha Trang, tháng 8 năm 2018.</small>

Các kết quả chủ yếu của luận án được công bố trên [I], [II].

<small>11</small>

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

1.1 Một số phân phối thường gặp

1.1.1 Phân phối Beta

<small>Biến ngẫu nhiên X nhận giá trị trong đoạn [0; 1] có phân phối Beta với hai</small>

tham số a > 0 và 8 > 0 được ký hiệu là X ~ Beta(a, j).

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

E(log X) = (a) — U(œ + 8):

trong đó ø(-) là ham digamma, (+)= dosh (2)

- Nếu X có ham mật độ p(z|œ,đ)z#~1!(1—z)#=! thi X ~Beta(a,f).

1.1.2 Phân phối Gamma

<small>Biến ngẫu nhiên X nhận giá trị dương có phân phối Gamma với hai tham số</small>

<small>œ>0 và B>0 được ký hiệu là X ~Gamma(a,{).- Hàm mật độ:</small>

- Nếu X có hàm mật độ p(z|a,8)exp((a=1)loge= 8z) thì X~Gamma(œ,8).

1.1.3 Phân phối Gamma ngược

<small>Biến ngẫu nhiên X nhận giá trị dương có phân phối Gamma ngược (Inverse</small>

Gamma: IG) với hai tham số œ>0 và Ø>0 được ký hiệu là X ~IG(a,).

<small>- Hàm mật độ:</small>

<small>a a</small>

P(rl0.8)= Ta exp(—2) ex (loge (œ+1)logz 5.

- Một số tính chất quan trọng của phân phối Gamma ngược

<small>EX =(a > 1),</small>

<small>13</small>

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

- Nếu X có hàm mật độ p(z|a,8)<exp( (œ+1)losz~Ÿ) thì X~IG(œ„8).

- Nếu X~Gamma(a,8) thì +~IG(a,8).

1.1.4 Phân phối chuẩn một chiều

Biến ngẫu nhiên X nhận giá trị trên R có phân phối chuẩn với hai tham số

u và o? được ký hiệu là X ~.V(u,ø)).

- Nếu X có hàm mat độ p(z|w.ø°)<exp(~ sz(z?~3uz)) thì X ~N (1,07).

1.1.5 Phan phối chuẩn nhiều chiều

Vector ngẫu nhiên X nhận giá trị trên IR“ có phân phối chuẩn d-chiéu với hai

tham số trung bình pw và ma trận hiệp phương sai © được ký hiệu là X ~.Mq(,>).

<small>14</small>

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

<small>- Hàm mật độ:</small>

p(in.2)=() ‘tex Lene lam}.

p(2e|4.3)=exp{ —Slog(2n) —Slog|®|—5(a—p)'="a—p) .

- Một số tính chất quan trọng của phan phối chuẩn nhiều chiều:

KL(P|I@)=5 {tr@9SI)+(wy—j) S2 (paws) d+ log =}.

1.1.6 Phan phối Wishart

Ma tran pxp ngẫu nhiên X xác định dương có phân phối Wishart với haitham số n và V được ký hiệu là X ~ Wishart,(n,V) trong đó ø là số tự nhiên và

<small>V là pxp ma trận xác định dương.</small>

<small>15</small>

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

<small>- Hàm mật độ</small>

<small>X|n,V np</small>

ANS FEV PDE)

- Một số tinh chất quan trọng của phân phối Wishart:

<small>Giả sử biến ngẫu nhiên Y có phân phối xác suất phụ thuộc vào tham số n,</small>

được gọi là thuộc họ mũ nếu hàm mật độ có dạng

ƒ(yln) = exp (“ —Sữ), cu.) |

<sub>@</sub>

trong đó được gọi là tham số chính tắc của ho mũ, ¢ là tham số ty lệ, ¢(-) vac(-) là các hàm đã biết.

- Phân phối chuẩn: Giả sử biến ngẫu nhiên Y có phân phối chuẩn (,ø2)

<small>khi đó</small>

<small>1 1 :</small>

Đo SP ( 552 Y — H) )

trong trường hợp nay n=, ¢=07, €(n)

- Phân phối Poisson: Gia sử biến ngẫu nhiên Y có phân phối Poisson(A) khi

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

= exp (y logÀ—À— log(y!)),

<small>trong trường hợp này =logÀ, d=1, ¢(n)=A=e" va c(y,¢) =—log(y!).</small>

- Phân phối Nhị thức: Gia sử biến ngẫu nhiên Y có phân phối nhị thức

<small>Binomial(n,7) khi đó</small>

<small>C?7#(1 — x)" 9</small>

= exp (y log + nlog(1 — 7) 4 logCƠ),

<small>trong trng hp ny ?=logr =logit(z), =1, Â(m) =nlog(1m) =nlog(e" +1)</small>

và c(y,@) =logCh.

1.2.2 Mơ hình hồi quy tuyến tính tổng qt

Chúng ta thường quen thuộc với mơ hình hồi quy tuyến tính thơng thường(khi biến phụ thuộc y là biến liên tục), hay mơ hình hồi quy logistic (khi y làbiến nhị phân). GLMs (Generalized linear models) là một lớp các mơ hình hồi

quy tuyến tính tổng qt cho nhiều kiểu dữ liệu của biến phụ thuộc y, được

<small>trình bay trong Annette va Adrian [3] và Nelder và Wederburn [27].</small>

Gia sử y=(y1,y2,---,Yn)’, mơ hình hồi quy tuyến tính tổng quát được xác định

bởi ba thành phần:

<small>- Hàm mật độ thuộc họ mũ</small>

Flute) =esp( HS cauua)),

trong đó 7,i=1,2,....n là tham số chính tắc của ho mũ; tham số ty lệ ¢ có thể đã

biết hoặc chưa biết, ¢(-) và c(-) là các hàm đã biết.

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

- Hàm liên kết

<small>Tham số chính tắc 7 liên hệ đơn trị với kỳ vọng có điều kiện = E(w,|8)</small>

thơng qua hàm liên kết ø(-); ø(u¿)= với i=1,2,....n. Hàm liên kết được xác định

tùy thuộc vào dạng hồi quy, một số dạng hồi quy quen thuộc được trình bày

<small>trong bang 1.1.</small>

<small>Bang 1.1: Bảng mô tả ham liên kết ứng với các dang hồi quy.</small>

<small>Hồi quy Poisson: ;|Ø~ Poisson(A,)</small>

ø(A¡)=log(A)

Hồi quy Nhị thức hay hồi quy logistic: |đ=~ Binomial(1,z,) <small>g(m¡) =logit(m;)</small>

1.3 Mơ hình hồi quy trộn

Trong trường hợp mơ hình dữ liệu được phát sinh từ một quần thể khơng

<small>đồng nhất thì mơ hình hồi quy trộn là phù hợp nhất (Mixture of Regression</small>Models: MRMs). Nó là một cơng cụ linh hoạt để mơ hình hóa dữ liệu dang này.

Cho Y là một biến đáp ứng được quan tâm và z= (z1,za,...,z„) là vector các hiệp

biến được cho là có ảnh hưởng đến Y. Ta nói (z,Y) tuân theo MRMs nếu ham

mật độ có điều kiện của Y được cho bởi z có dạng

p(y|z.#)= ref (ylOe(2).o4);

<small>trong đó f(y|0,¢) thuộc một ho các hàm mật độ của Y, K 1a số thành phan,</small>

0y(z)—=g(z!8¿) với k=1,2,..., được cho bởi hàm liên kết ø(-), B=((91,69,...,8x,®,7)

với y;= (ễ1.ka----.ỉp) đ = (Â1,09,....0K) va 7 = (71,72,..,7K)! sao cho Tr. > Ö và

teal. Các my, k=1,2,...,.K được gọi là xác suất trộn. Hàm liên kết ø(-) được

xác định theo dạng của f(y|0,¢) là Chuẩn, Nhị thức hay Poisson.

<small>18</small>

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

- Mơ hình hồi quy trộn các phân phối Chuẩn

p(y|z.)= ˆ,A(y|wx(2).71),

trong đó N(y|uz(z),o2) là phan phối chuẩn với trung bình py, (z)=2' Be.

- Mơ hình hồi quy trộn các phân phối Nhị thức

p(ylz,8) =) 7, Binomial(y|T,9,(2)),

<small>trong đó Binomial(y|7,0;,(z)) là phân phối Nhị thức với T là số lần thực hiện</small>

phép thử và xác suất thành công Ø;„(z) € (0,1) được cho bởi logit(0,(z)) =z’ Bp.

<small>- Mơ hình hồi quy trộn các phân phối Poisson</small>

p(y|z;)= 7Poisson(y|Ax(2));

trong đó Poisson(y|A,(z)) là phân phối Poisson với log(Ag(z)) = 2’ Be.

1.4 Phương pháp Bayes bién phân

Gia sử y là biến quan sát được, phụ thuộc vào tham số 6. Khi đó p(y) đượcgọi là phân phối biên duyên của y, p(y|@) là phân phối của y khi đã biết Ø (cònđược gọi là hàm hợp lý), p(@) là phân phối tiên nghiệm của 0 và p(0|u) được gọilà phân phối hậu nghiệm của 6 khi đã biết y. Thống kê Bayes sử dung phan

phối hậu nghiệm p(6|y) để suy luận thống kê: ước lượng tham số, kiểm định gia

thuyết hay phân tích hồi quy. Do đó phân phối hậu nghiệm p(0|y) là rất quan

<small>trọng trong thống kê Bayes. Suy luận Bayes về p(0|y) được dựa vào định lý Bayes</small>

điều chỉnh như sau:

p(0)p(/|0)p(0lu) = p0)

Như vậy, phân phối hậu nghiệm tỷ lệ với tích phân phối tiên nghiệm và hàm hợp

<small>lý, ký hiệu là p(6|y) « p(@)p(y|@). Tuy nhiên, phân phối tiên nghiệm p(Ø) thường</small>

<small>19</small>

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

là không biết, mà chỉ có thé chọn cho Ø một tiên nghiệm được xem là phù hợp

<small>(dựa vào kinh nghiệm hay lòng tin nào đó về phân phối của 0).</small>

Điều quan trọng hơn cả là phân phối hậu nghiệm p(6|y) thường là phân phối

không biết mà phải sử dụng một phương pháp xấp xỉ để xấp xỉ nó. Trong nội

dung này chúng tơi quan tâm phương pháp Bayes biến phân. Phương phápBayes biến phân VB là các kỹ thuật xấp xỉ phân phối hậu nghiệm trong suy

<small>luận Bayes (Chương 10 [8S], [30]). Phương pháp này thường được sử dụng trong</small>

các mơ hình thống kê phức tạp bao gồm biến quan sát được (còn gọi là "dữ

liệu"), tham số chưa biết và biến tiềm ẩn. Trong suy luận Bayes, tham số vàbiến tiềm an được nhóm lại là biến khơng quan sát được. Phương pháp VB chủ

u được sử dụng cho hai mục đích:

- Tìm ra phân phối tối ưu, thuộc lớp các hàm phân phối quen thuộc nào đó

để xấp xỉ phân phối hậu nghiệm đúng của các biến không quan sát được để làm

suy luận thống kê qua các biến này.

<small>- Tìm cực đại cận dưới biên duyên. Từ đó thực hiện lựa chọn mơ hình phù</small>

hợp nhất với dữ liệu.

1.4.1 Cơ sở tốn học

Giả sử có dữ liệu y với hàm hợp lý p(y|@) trong đó Øe]R“ là tham số chưa biết<small>va phân phối tiên nghiệm của Ø là p(Ø). Phương pháp VB xấp xỉ phân phối hau</small>

<small>nghiệm p(6|y) « p(6)p(w|6) bởi một ham mật độ a(6) của @ trong một lóp phân</small>

phối dễ xử lý, g(@) được chon sao cho cực tiểu khoảng cách Kullback-Leibler giữa

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

<small>Vi KL(allp)>0 nên logp(y) > L(q) do đó L(q) được gọi là cận dưới biên duyên</small>

của y, việc cực tiểu KL(q||p) sẽ tương đương với cực đại L(q). Thông thường phanphối hậu nghiệm xấp xỉ được khai triển thành một tích là một giả thiết quantrọng trong phương pháp VB. Giả sử 0=(0,9a) và q(@) được khai triển thành

4(0) = 4I(01)4a(03). (1.3)

Giả sử gi(Ø1)=qg„, (01) và qo(02) =4q7, (02) trong đó 7¡ và 7a là các tham số biếnphân cần phải ước lượng. Khi đó

<small>Lm, 72)</small>

L(q) = | Gr: (01) drs (92) log p(y, 0)d01d02 — / Gr, (1) log qr, (01 )d01 + C(72)

= [ons (/ in( ls) logy. at do, — Ju (01) log gr, (01)d01 + Ca)

= .. = f(r) 105 4 (Pi)ats + CC)

= . gn (01) do, + C(72),

trong đó C(72) là một hằng số chi phụ thuộc vào 7a và

ði(w.i) = exp ( / dna(0) log rly, et) = exp (Eo, (log p(y. 4))).

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

<small>Một cách tương tự, cố định r¡, đặt</small>

rf = rf(n) = argmax ( [t0 Dung: (1.6)

<small>T2 T2 2</small>

ña(y.;) = exp ( / dn(61) log rly, 0, ) = exp (B_p,(log p(y. 9))).

<small>khi đó, với mọi 7s ta có</small>

L(71,73) > LI, 72). (1.7)

Đặt r9ld— (eld rola) là giá trị hiện tại của 7¡ và 7a, giá tri cập nhật mới làthew — 7*(79!¢) trong (1.4) va 7‡°*=zrz(r}°*) trong (1.6). Do (1.5) và (1.7) nên

Lí") > (r9), (1.8)

Điều này dẫn tới một hệ thống vòng lặp để cập nhật giá trị z và công thức

<small>(1.8) bảo đảm sự cải thiện của cận dưới biên duyên qua các vòng lặp. Do cận</small>

<small>dưới biên duyên L(r) bi chặn trên bởi logp(y) nên sự hội tụ của hệ thống vòng</small>

lặp được bảo đảm. Kết quả trên có thể dễ dàng mở rộng cho trường hợp tổngquát là q(@) được khai triển thành # khối g()=q1(61) x...xqK (0K). XAp xi Bayes

biến phan được đưa về xử lý bài toán tối ưu (1.4). Các ø;:(Ø;) với ¡=1,.... được

<small>xấp xỉ bởi</small>

tr (0) Bly) = FREES oc exp (Bo (lognty.6)))- (19)

Chú ý rang bai toán tối ưu (1.4) cũng chính là bài tốn VB gốc là cực đại

<small>L(q) trong (1.2).</small>

Từ kết quả trên ta có thuật tốn VB tổng quát có dang:

<small>1. Khởi trị r¡ với i=1,...,K.</small>

2. Lần lượt cập nhật các 7; theo kết quả nhận được từ (1.9).

3. Lặp lại bước 2 cho đến khi hội tụ.

<small>22</small>

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Điều kiện dừng có thể dựa vào sự cải thiện L(q) hoặc dựa vào sự hội tu của

tham số chính nào đó qua các vịng lặp.

Trong nhiều trường hợp, một hàm mật độ tiên nghiệm liên hợp p(;) có thể

được chọn sao cho p;(6;\y) thuộc về một họ mật độ tham số có thể nhận biết

được. Trường hợp này được gọi là Bayes biến phân dạng trung bình (Mean FormVariational Bayesian: MFVB). Khi đó hậu nghiệm VB tối ưu q;;(0;) làm cực đạitích phân bên về phải của (1.4) chính là p;(6;|y), với 77 là tham số tương ứng

<small>của hàm mật độ này.</small>

Nếu 7;(6;|y) không thuộc họ mật độ có thể nhận biết được thì ta cần chọn

cho nó một dạng phân phối sau đó sử dụng một số kỹ thuật tối ưu xử lý (1.4)

để ước lượng tham số rỷ của q,*(6;). Trường hợp này được gọi là cố định dang

biến phan Bayes (Fixed Form Variational Bayesian: FFVB).

1.4.2 Trường hợp MFVB

Trường hợp này ?,(6,|y) thuộc một họ phân phối có thể nhận biết được nên

<small>thông qua (1.9) sẽ cho ta dang ham mật độ q,,(6;) thuộc một lớp phân phối nào</small>

đó đã biết, ta có thể dé dàng xác định tham số zÿ của g;,(0;) chính là các tham

số đặc trưng của phân phối này.

<small>Ví dụ 1.1: Giả sử = (0i....,;)“ là n quan sát độc lập và có cùng phân phối</small>

chuẩn (/,ø2) với hai tham số và o chưa biết. Ta có hàm mật độ

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

p(o ) — 1G(Ao, Bo) — T(Ao)” exp 2).

Trong trường hợp này, bộ tham số của mơ hình là Ø= (/,ø?), phân phối tiên

nghiệm p(@) = p(/)ø(ø?) và hậu nghiệm biến phan VB được khai triển thành

4(0)=4(0)4(ø?). Ta cần xác định phân phối hậu nghiệm tối ưu VB cho hai thamSỐ / và o?.

Phân phối hậu nghiệm tối ưu VB cho 6.

<small>Từ (1.9) ta có</small>

quilt) p1(Hn|g) ôx

log (p(y|t.0?)-p 2s2se))

t5)|<sub>SIS</sub>QS

<small>=</small><sup>we</sup>

xni * oa)!<sup>ơC</sup>

HIP} ell)

Nh vy 7I(0¡|) thuộc họ phân phối chuẩn, do đó q„(u)~.V(u„,ø2) với hai

tham số ø„ va ø2 được cập nhật theo công thức

<small>5 11, 1\</small>

“= (nll +a)

-Hụ = (ng[—] +48) o2, (1.10)

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

trong đó [-] là kỳ vọng với phân phối tương ứng.

Phân phối hậu nghiệm tối ưu VB cho ø?.

<small>Tương tự như trên ta có</small>

qzz(ø) Pa(ø'|u)

<small>ơ?</small>

x exp {E _o2(log p(y, Mo 2)}

exp {Ey (log (p (yl, 0°).p (u)-p(0?))) }

x exp {Ey log p(|u; ø *) + log p(y) + losp(ø?)) Ì

exp {exp {

Io2(o )%exp{ = (F+40+1)log(o ) Fe (Bo Hộ › (Yi- by) 4 voi) S.

<small>Nhu vậy q,2(07) ~IG(A,2,B,2) với hai tham số A,2 va B„z được cập nhật theo</small>

<small>công thức</small>

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

Biz, = Bo (yi — tụ)” + sơ2. (1.11)

<small>1 Aj</small>

a ~ Boa’

[logo?] = log By2 — (A,2)

<small>Cận dưới biên duyên L(q).</small>

<small>Ta có</small>

— P(Y,9) 4) — .

L(q) = | 40)log a) đØ = {log p(y, 8)] — [log a(8)]

= [log p(y|9)] + [log p(@)] — [log g(0)].

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

+Aœ log Byz — log P(Ag2) — (Ag2 + 1) (tog By — 0(Az2)) — Ago.

Kết hợp các kết quả trên ta nhận được

L(q) = Slog(2n) = 6 + Ap — Ag?) (tog By — 0(Az2))

<small>3. Cập nhật A„z và B,2 theo công thức (1.11).</small>

4. Lặp lại bước 2 - 3 cho đến khi hội tụ.

<small>... 2, Z N 2 N . .z ñ Z 2 * 4 ` 2</small>

<small>Giả sử ta có /uz„e Và ơz„¿ là hai giá trị đúng của hai tham sô p và o</small>

trong phân phối chuẩn của các y;. Khi đó phân phối hậu nghiệm đúng cho /

là p(uly) ~N (ut? of") với hai tham số pl") và ofl") được xác định bởi

true 1 t0 ) 2(true)

<sub>= => 1.12</sub>

và phân phối hậu nghiệm đúng cho o? là p(o?|y) ~1G(A%"”, Bi”) với hai tham<small>ơ2 )</small>

số Ate và Bie được xác định bởi công thức

<small>Aue — 5 + Ao.</small>

Bie = Be 3 — irue)Ê- (1.13)

<small>27</small>

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

Chúng tôi đã thực hiện mô phỏng với /;„e=0 , ø2.„„= 10 với n=100 và n=200

để thấy rõ sự ảnh hưởng của dữ liệu y lên phân phối hậu nghiệm của các thamsố pp và ơ?. Kết quả được thể hiện trong bảng 1.2.

Bảng 1.2: Bảng kết quả hai lần thực hiện mô phỏng.

<small>Lần thực hiện | Các tham số | Hậu nghiệm đúng | Hậu nghiệm tối ưu VB</small>

Lần 1 by 0.2195 0.2195n = 100 ơn 0.0999 0.0884

<small>Aye 51 51</small>

<small>By 449.1384 451.1436</small>

Lan 2 Hụ -0.0349 -0.0349n = 200 ơn 0.0495 0.0500

<small>Ag 101 101</small>

<small>Đa: 996.2705 1001.1000</small>

Chú ý rằng giá trị đúng của tham số được ước lượng bang mode của phân

phối hậu nghiệm tối ưu VB tương ứng. Chang hạn, /„„„e=0 được ước lượng

bằng ñ= „0.2195 và ø2.„„= 10 được lượng bằng ở? ey +49 = 8.6758.

Các ước lượng này chưa được tốt là do n=100 khá bé, khi thực hiện với n=200

thì các ước lượng này rất tốt, có thể đạt được ñ= —0.0349 và 6? =9.8147.

Đồ thị minh họa cho xấp xỉ hậu nghiệm được thể hiện như hình 1.1. Đường

<small>nét liền là đồ thị của phân phối hậu nghiệm đúng p(u|y) và p(ø?|y) và đường nét</small>

đứt là đồ thi của phân phối hậu nghiệm tối ưu VB g(/) và g(ø?). Nhìn chung haiđường nay rất sát nhau. Đặc biệt nhìn vào đồ thị mô tả sự cải thiện của L(q)qua các vịng lặp, cho thấy thuật tốn VB hội tụ rất nhanh, chỉ sau vài vònglặp đã gần như dat được giới hạn trên của L(q).

<small>28</small>

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

<small>The posterior density p(mu|y) và q(mu) The posterior density p(muly) và q(mu)</small>

<small>14 1.8</small>

<small>1.208 4</small>

<small>06 0.8</small>

<small>92 0.25</small>

<small>0.15 0.2</small>

<small>0.050 0</small>

<small>(e) Cận dưới biên duyên L(q) ( Cận dưới biên duyên L(q)</small>

Hình 1.1: Kết quả thực hiện 02 lần: lần 1 cột bên trái và lần 2 cột bên phải.

<small>29</small>

</div>

×