Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.26 MB, 43 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
4. Cách tiếp cận và phương pháp nghiên cứu ... 3
5. Đối tượng và phạm vi nghiên cứu ... 4
6. Nội dung nghiên cứu ... 5
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">Chương 3 Ô H NH CH I ĐI INH IÊN ... 21
3 h nh t ích uất uật m t d i u đi m inh viên d a t ên thuật t án f-SVM ... 21
3 a ch n thuộc tính d i u đ u và ... 22
3 iền ử d i u đ u và ... 24
3 3 n uất uật m d a và thuật t án -SVM ... 25
3 p dụng m h nh đề uất đ ph n tích d i u đi m inh viên t ư ng Ca đ ng
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">Hình 1. <i>Hình ảnh phân lớp với SVM</i> ... 6
Hình 2. <i>Sự tương đương giữa SVM và Mơ hình mờ</i> ... 10
Hình 3. <i>Sơ đồ khối thuật tốn f-SVM</i> ... 12
Hình 4. <i>Thuật tốn f-SVM</i> ... 17
Hình 5. <i>Kết quả dự đoán trên 200 mẫu dữ liệu thử nghiệm (RMSE = 0.0092)</i> ... 19
<i>Hình 6. Mơ hình Khai phá luật mờ t dữ liệu đi m a inh viên ... 22 </i>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">ng <i>Tập luật trí h xuất đượ 800 mẫu dữ liệu huấn luyện</i> ... 18
ng <i>So ánh hiệu quả a á mơ hình (RMSE)</i> ... 20
ng 3 <i>Bảng dữ liệu kết quả họ tập a inh viên trên ex el</i> ... 23
ng 4 <i>Cá thuộ tính lựa họn</i> ... 23
ng 5 <i>Bảng dữ liệu đi m inh viên đã đượ rút gọn</i> ... 24
ng 6 <i>Bảng dữ liệu au khi đã đượ tiền xử lý</i> ... 25
ng 7 <i>Ví dụ tập á luật trí h xuất đượ </i> ... 25
ng 8 <i>Một phần tập á luật ản xuất đượ </i> ... 27
ng 9 <i>Diễn dị h á luật trí h xuất đượ trong bảng 8</i> ... 27
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">ĐẠI HỌC ĐÀ NẴNG <b>CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc </b>
<b>1. Thơng tin chung: </b>
<b>- ên đề tài: NGHIÊN CỨU ỨNG DỤNG MÔ HÌNH MÁY HỌC VÉC-TƠ TỰA (SVM) TRONG VIỆC PHÂN TÍCH DỮ LIỆU ĐIỂM SINH VIÊN </b>
<b>- ã ố: T2013-07-01 </b>
- Chủ nhi m: NG ỄN ĐỨC HI N - Thành viên tham gia: khơng có
- Cơ quan chủ t : Ư NG CĐ CÔNG NGH HÔNG IN
d ng thuật t án f- t ên cơ ở tích hợp m h nh má h c ch ài t án tối ưu hóa hồi qu và m h nh m a agi-Sugeno.
Đề uất một m h nh cụ th gồm 3 giai đ ạn, đ t ích uất tập uật m t d i u đi m inh viên ử dụng thuật t án f- ; đồng th i thử nghi m ph n tích và đánh giá cụ th t ên d i u đi m inh viên t ư ng Ca đ ng C ng ngh h ng tin
<b>4. Tóm tắt kết quả nghiên cứu: </b>
Đối với thu ết má h c và uzz m de ing, đề tài đã nghiên cứu nh ng thu ết t án h c cơ n của má h c ch ài t án ph n ớp và ài t án tối ưu hóa hồi qu , thu ết t án h c của m h nh m a agi- ugen , và tương đương về mặt t án h c của hai m h nh nà
Đối với thuật t án t ích út uật m d a t ên vi c ết hợp và Fuzzy modelling, đề tài nghiên cứu c ng cụ at a và thư vi n i và t đó d ng được
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">thuật t án f- ; ng ài a đề tài cũng đã thử nghi m t ên d i u chuỗi th i gian đ đánh giá hi u qu của thuật t án
Đối với m h nh ứng dụng t ích uất uật m t d i u đi m inh viên, đề tài đưa a một m h nh cụ th gồm 3 giai đ ạn đ t ích uất tập uật m t d i u đi m inh viên; đồng th i thử nghi m ph n tích và đánh giá cụ th t ên d i u đi m inh viên t ư ng Ca đ ng C ng ngh h ng tin
<b>5. Tên sản phẩm: </b>
ài á h a h c đăng t ên ỷ ếu Hội th nghiên cứu h a h c: CÔNG NGH HÔNG IN À ỨNG NG CÔNG NGH HÔNG IN ONG C C ĨNH C – ẦN HỨ , và đăng t ên ạp chí Kh a h c & C ng ngh Đại h c Đà Nẵng ên ài á : Ứng dụng m h nh má h c c-tơ t a ( ) t ng ph n tích d i u đi m inh viên
ột thuật t án (f- ) và một m h nh h thống t ích uất uật m t d i u đi m sinh viên
ột á cá tổng ết đề tài nghiên cứu h a h c
<b>6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: </b>
Hi u qu về mặt giá dục - đà tạ : ột gi i pháp dạng m h nh đ có th định hướng ch inh viên ngành tin h c phát t i n các ứng dụng t ng ĩnh v c H chuyên gia và khai phá t i thức; đặc i t à hai phá t í thức dạng uật t d i u đi m inh viên, phục vụ ch vi c cố vấn và định hướng h c tập
Hi u qu về mặt h a h c: đóng góp của đề tài à đề uất một thuật t án và một m h nh ứng dụng và uzz m de ing t ng vi c hai phá các qui tắc m t d i u đi m h c tập của inh viên
ề n phẩm ứng dụng: huật t án, h nh h thống và ập qui tắc m hai phá được có th được ử dụng đ d ng cơ ở t i thức, d ng h thống hỗ t ợ ph n tích d i u đi m t động, h chu ên gia về Cố vấn h c tập
<b>7. Hình ảnh, sơ đồ minh họa chính </b>
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><i><b>Hình. Mơ hình Khai phá luật mờ t dữ liệu đi m a inh viên. </b></i>
<i><b>Bảng 9. Trí h một phần tập luật mờ trí h xuất đượ </b></i>
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">Cùng với phát t i n chóng mặt của c ng ngh th ng tin và ứng dụng của nó t ng đ i ống inh tế - ã hội, c n ngư i ngà càng đòi hỏi nh ng chiếc má tính ph i th ng minh hơn, với nh ng h năng vượt ậc hơn, đ có th phục vụ nhiều hơn n a ch c n ngư i t ng c ng vi c cũng như cuộc ống hàng ngà ột t ng nh ng ĩnh v c há nóng hi n na của c ng ngh th ng tin đó à t í tu nh n tạ và ứng dụng của nó, nh ng ứng dụng t ng ĩnh v c nà ẽ giúp ch má tính có h năng ử th ng tin, hỗ t ợ a qu ết định một cách t động, à ch a hóa của h thống má tính th ng minh, của nền c ng nghi p t i thức gia th a của í tu nh n tạ và tu ết thống ê đã mở a một ch n t i mới ch phát t i n của h a h c và ứng dụng t í tu nh n tạ , nh ng m h nh má h c thống ê đã được nhiều nhà h a h c nghiên cứu, đề uất và đã chứng tỏ được hi u qu t ng vi c phát t i n các ứng dụng
Bài toán khai phá t i thức t d i u ( ata mining) đã và đang được ất nhiều nhà h a h c, tổ chức t ên thế giới nghiên cứu và phát t i n ứng dụng Nhiều ỹ thuật mới đã được nghiên cứu và đề uất như Neu a Netw , h nh m ( uzz modeling), Support Vector Machine (SVM), Self Organizing Map (SOM), Lý thu ết tập th ( ugh et ), các thuật t án h n cụm, h n ớp, Hồi qu ,…[1][2][3][4]. Đặc i t g n, đ u hướng nghiên cứu c i tiến và tích hợp nhiều c ng cụ hác nhau nhằm n ng ca hi u năng của các gi i pháp đang được nhiều nhà h a h c t ên thế giới quan t m; ví dụ như vi c ết hợp gi a Neural Network và Fuzzy modelling, SVM và Fuzzy modeling, SOM và SVM, Rough Sets và , h ặc ết hợp Gi i thuật di t u ền (G ) với các thuật t án h n cụm, h n ớp,… [2][3][5][6][10][12][14].
Nh ng m h nh d đ án d a t ên ỹ thuật hai phá t i thức t d i u được nhiều tác gi nghiên cứu và đề uất ứng dụng t ng nhiều ĩnh v c hác nhau, như:
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">tài chính, th i tiết, hi u năng mạng, d đ án ết qu h c tập của h c inh, inh viên…
Ở i t Nam cũng có ất nhiều tác gi nghiên cứu về vấn đề hai phá d i u và ứng dụng t ng nh ng ài t án d đ án, d á ấn đề ứng dụng m h nh m ch ài t án d á chuỗi th i gian đã được tác gi Ngu ễn C ng Điều đề cập và nghiên cứu [13], cụ th à tác gi đã nghiên cứu một ố thuật t án mới ch m h nh chuỗi th i gian m heu i tic t ng d á giá chứng h án ấn đề h u diễn m - w n và ứng dụng t ng ĩnh v c d á chỉ ố tài chính, chứng h án cũng được nhóm tác gi ùi C ng Cư ng và hạm ăn Chiến nghiên cứu [12]. h nh ết hợp phương pháp ph n cụm K-mean và phương pháp ph n ớp đ n ng ca hi u qu gi i qu ết ài t án ph n ớp d đ án giá cổ phiếu cũng được nhóm tác gi Ngu ễn H àng ú nh nghiên cứu và á cá năm 0 [14].
Ngày na hai phá d i u ( ata mining) đã và đang t ở thành một t ng nh ng vấn đề được quan t m nghiên cứu và phát t i n ứng dụng Có nhiều ỹ thuật đã được đề uất đ có th hai thác t i thức t d i u, t ng đó mơ hình má h c Véc-tơ t a ( – Support Vect achine) ết hợp với uzz m de ing được đề uất như à một t ng nh ng gi i pháp mang ại hi u qu ca Nh ng nghiên cứu về vi c ứng dụng ỹ thuật hai phá d i u đ d ng các h thống ứng dụng đang thu hút nhiều quan t m của các nhà h a h c t ng Đặc i t đối với h thống ứng dụng t ng t ư ng h c, nh ng nghiên cứu g n đ chủ ếu tập t ung và vi c d đ án ết qu h c tập của inh viên và tư vấn ộ t nh h c tập ch inh viên,…
Hi n na , h u như tất c các t ư ng Đại h c và Ca đ ng t ng c nước đã chu n đổi m h nh ang đà tạ the h c chế tín chỉ; đối với m h nh đà tà the h c chế tín chỉ, vấn đề a ch n các m n h c đưa và chương t nh đà tạ , công tác cố vấn h c tập, tư vấn ch inh viên chiến ược a ch n m n h c hợp , ố tín chỉ đăng phù hợp,… à nh ng êu c u há ức thiết hi n na Nh ng inh nghi m, qui tắc the u nghĩ chủ quan của nhà t ư ng, của cố vấn h c tập, của n th n inh viên,… có th h ng phù hợp, h ặc à chưa hách quan và đ đủ; bên
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">cạnh đó, vi c ph n tích h d i u hổng ồ một cách thủ c ng cũng à một gi i pháp h ng h thi; chính v vậ , vi c nghiên cứu đưa a nh ng gi i pháp t ích uất nh ng uật m d a và nh ng d i u ịch ử một cách hi u qu , và t đó d ng các h thống ph n mềm H chu ên gia, H hỗ t ợ a qu ết định, d á , d đ án,… t ên cơ ở ử dụng các tập uật m h c được t cơ ở d i u à một t ng nh ng êu c u ức thiết hi n na .
ục tiêu : nghiên cứu m h nh má h c c-tơ t a ( ) và uzz m de ing ứng dụng t ng hai phá t i thức t cơ ở d i u
ục tiêu : vận dụng m h nh đ hai phá các qui tắc t i u đi m h c tập của inh viên t ư ng Ca đ ng C ng ngh h ng tin nhằm hỗ t ợ ch c ng tác cố vấn h c tập
4.1. Cách tiếp cận:
iếp cận the hướng hàn m: d a và tài i u và các c ng ố h a h c
iếp cận the hướng mục tiêu: d a và mục tiêu đề tài Đề tài ẽ được th c hi n the 4 giai đ ạn:
Giai đ ạn : Nghiên cứu m h nh má h c thống ê c-tơ t a ( ), Fuzzy modeling, và tương đương của chúng
Giai đ ạn : hiết ế thuật t án t ích út uật m t d i u d a t ên ết hợp SVM và Fuzzy modelling
Giai đ ạn 3: ận dụng m h nh t ích út uật m d a t ên đ ph n tích d i u đi m inh viên
Giai đ ạn 4: h c nghi m, đánh giá ết qu và viết á cá tổng ết đề tài
4 hương pháp nghiên cứu:
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">Đề tài ử dụng phương pháp nghiên cứu thu ết, cơ ở t án h c, ết hợp với th c nghi m Cụ th à: t ên cơ ở nghiên cứu các tài i u và c ng ố h a h c mới nhất về vấn đề h nh m và má h c đ d ng m h nh h thống, thu thập và ph n tích d i u đi m inh viên tại t ư ng Ca đ ng C ng ngh h ng tin đ áp dụng m h nh và t ích út a các uật m
5 Đối tượng nghiên cứu:
Đề tài tập t ung và 3 đối tượng nghiên cứu cơ n au:
h nh má h c c-tơ t a và uzz m de ing
huật t án t ích út uật m d a t ên vi c ết hợp và uzz modelling, c ng cụ m phỏng m h nh ết hợp SVM và Fuzzy modeling
Kh d i u đi m inh viên t ư ng Ca đ ng C ng ngh h ng tin và mơ h nh t ích uất uật m t d i u đi m inh viên
5 hạm vi nghiên cứu:
Đối với thu ết má h c và uzz m de ing, đề tài tập t ung nghiên cứu nh ng thu ết t án h c cơ n của má h c ch ài t án ph n ớp và ài t án tối ưu hóa hồi qu , thu ết t án h c của m h nh m Takagi-Sugeno, và tương đương về mặt t án h c của hai m hình này.
Đối với thuật t án t ích út uật m d a t ên vi c ết hợp và uzz m de ing, đề tài tập t ung nghiên cứu c ng cụ at a và thư vi n i đ d ng thuật t án f- ; ng ài a đề tài còn nghiên cứu thử nghi m t ên d i u chuỗi th i gian đ đánh giá hi u qu của thuật toán.
Đối với m h nh ứng dụng t ích uất uật m t d i u đi m inh viên, đề tài đưa a một m h nh cụ th với 3 giai đ ạn đ t ích uất tập uật m t d i u đi m inh viên; đồng th i thử nghi m ph n tích và đánh giá cụ th t ên d i u đi m inh viên t ư ng Ca đ ng C ng ngh h ng tin
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">Đề tài được tiến hành th c hi n the các nội dung và tiến độ cụ th như au:
ng các chương tiếp the au đ của á cá , chúng t i ẽ t nh à nh ng ết qu nghiên cứu chính về thu ết và th c nghi m đã th c hi n được Chương ẽ giới thi u tóm ược cơ ở thu ết về m h nh má h c c-tơ t a và m h nh m , chương ẽ t nh à nh ng ph n tích về tương đương của má h c c-tơ t a và m h nh m , t đó đưa đến vi c d ng một thuật t án t ích uất uật m t d i u, chương 3 ẽ t nh à m h nh t ích uất uật m t d i u đi m h c tập của inh viên, và cuối cùng à một ố ết uận và iến nghị út a t ết qu của đề tài.
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">á h c v c-tơ t a được apni giới thi u năm 995, đ à m h nh h c d a t ên thu ết h c thống ê ( tati tica ea ning Theory) [1], và à một ỹ thuật được đề nghị đ gi i qu ết ch các ài t án ph n ớp thu ết cơ n của má h c véc-tơ t a ch vấn đề ph n ớp có th tóm tắt như au:
Ch tập v ctơ đ u và [ ] , và tập các giá t ị nhãn ớp tuơng ứng ch ộ ph n ớp nhị ph n Hàm tu ến tính ph n i t hai ớp như sau:
t ng đó, w à v ctơ chuẩn của iêu ph ng ph n cách, à độ ch, và (x) là hàm ánh ạ t h ng gian đ u và ang h ng gian đặc t ưng, ( ) (M > D). ục tiêu của à t m một iêu ph ng tối ưu a ch h ng cách ề gi a hai ớp đạt giá t ị c c đại (xem hình 1).
<b>Hình 1. H nh nh ph n ớp với </b>
ên cạnh đó, đ đ m tính tổng qt hóa ca , một iến ỏng ( ac va ia e) được đưa và đ nới ỏng điều i n ph n ớp ài t án đưa đến vi c gi i qu ết tối ưu có àng uộc:
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">t ng đó, C > 0 à tham ố chuẩn tắc ( egu a izati n pa amete ), à iến ỏng ài t án ( ) có th đ ợc gi i ằng phương pháp O (Sequential Minimal Optimization) [10]. Phương pháp nà đưa đến gi i ài t án đối ngẫu qu h ạch t àn phương (Quad atic g amming):
au hi có được các giá t ị t ài t án (3), ta ẽ thu đươc các giá t ị tối ưu w* và * của iêu ph ng Chỉ có các mẫu có mới tham gia và các v c tơ hỗ t ợ ( upp t vect ) Cuối cùng, hàm qu ết định ph n ớp có dạng:
( ) (∑
<small> </small>
( ( ) ( )) )
(4)
G i ( ) ( ) ( ) à hàm nh n của h ng gian đ u và Khi đó (4) được viết ại như au:
( ) (∑
<small> </small>
( ) )
(5)
he đó, tích v hướng t ng h ng gian đặc t ưng tương đương với hàm nh n K ở h ng gian đ u và Như vậ , tha v tính t c tiếp giá t ị tích v hướng, ta th c hi n gián tiếp th ng qua hàm nhân K.
ới vai t ò gi i qu ết vấn đề tối ưu hóa hồi qu , thu ết cơ n của có th được vắn tắt như au [1][2][3][4][5]:
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">Các uật m (fuzz u e ) được i u diễn ở dạng I – HEN, à cơ ở của phép suy uận m [5][10] Gi ử có m uật m được i u diễn như au:
(4)
ng đó ( ) à các iến điều i n; à các iến qu ết định của h thống
<i>m ; </i> và à nh ng thuật ng ng nghĩa ác định ởi các hàm thành viên (mem e hip functi n ) tương ứng ( ) và ( )<i>. ưu , </i> ( )<i> được định </i>
nghĩa như au:
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">Đ ( 1) và (14) đồng nhất với nhau, t ước tiên chúng ta ph i đồng nhất gi a hàm nhân trong (11) và hàm thành viên trong (14) Ở đ , đ thỏa mãn điều i n Mercer [7] hàm thành viên Gau ian được ch n àm hàm nhân; đồng th i giá t ị của
<i>b trong (11) ph i ằng 0 H nh i u diễn tương đương gi a và m h nh </i>
m
<b>Hình 2. tương đương gi a và h nh m </b>
Khi hàm Gau ian được ch n àm hàm thành viên và hàm nhân, đồng th i ố uật m ằng với ố véc-tơ hỗ t ợ (SVs - Support vectors) thì (11) và (14) t ở thành
( ) ∑( ) ( ( <sup> </sup>) )
<small> </small>
( )
và
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">là đồng nhất với nhau ưu ằng i u thức ( 9) chỉ có th có, nếu ố ượng véc-tơ
<i>hỗ t ợ l được iết t ước </i>
ên cơ ở tương t của và h thống m , thuật t án f- đề uất ở h nh ch ph p t ích uất các uật m t
</div>