Tải bản đầy đủ (.pdf) (43 trang)

NGHIÊN CỨU ỨNG DỤNG MÔ HÌNH MÁY HỌC VÉC- TƠ TỰA (SVM) TRONG VIỆC PHÂN TÍCH DỮ LIỆU ĐIỂM SINH VIÊN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.26 MB, 43 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>NGHIÊN CỨU ỨNG DỤNG MƠ HÌNH MÁY HỌC VÉC-TƠ TỰA (SVM) TRONG VIỆC PHÂN TÍCH </b>

<b>DỮ LIỆU ĐIỂM SINH VIÊN </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

4. Cách tiếp cận và phương pháp nghiên cứu ... 3

5. Đối tượng và phạm vi nghiên cứu ... 4

6. Nội dung nghiên cứu ... 5

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

Chương 3 Ô H NH CH I ĐI INH IÊN ... 21

3 h nh t ích uất uật m t d i u đi m inh viên d a t ên thuật t án f-SVM ... 21

3 a ch n thuộc tính d i u đ u và ... 22

3 iền ử d i u đ u và ... 24

3 3 n uất uật m d a và thuật t án -SVM ... 25

3 p dụng m h nh đề uất đ ph n tích d i u đi m inh viên t ư ng Ca đ ng

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>DANH MỤC HÌNH VẼ </b>

Hình 1. <i>Hình ảnh phân lớp với SVM</i> ... 6

Hình 2. <i>Sự tương đương giữa SVM và Mơ hình mờ</i> ... 10

Hình 3. <i>Sơ đồ khối thuật tốn f-SVM</i> ... 12

Hình 4. <i>Thuật tốn f-SVM</i> ... 17

Hình 5. <i>Kết quả dự đoán trên 200 mẫu dữ liệu thử nghiệm (RMSE = 0.0092)</i> ... 19

<i>Hình 6. Mơ hình Khai phá luật mờ t dữ liệu đi m a inh viên ... 22 </i>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>DANH MỤC BẢNG BIỂU </b>

ng <i>Tập luật trí h xuất đượ 800 mẫu dữ liệu huấn luyện</i> ... 18

ng <i>So ánh hiệu quả a á mơ hình (RMSE)</i> ... 20

ng 3 <i>Bảng dữ liệu kết quả họ tập a inh viên trên ex el</i> ... 23

ng 4 <i>Cá thuộ tính lựa họn</i> ... 23

ng 5 <i>Bảng dữ liệu đi m inh viên đã đượ rút gọn</i> ... 24

ng 6 <i>Bảng dữ liệu au khi đã đượ tiền xử lý</i> ... 25

ng 7 <i>Ví dụ tập á luật trí h xuất đượ </i> ... 25

ng 8 <i>Một phần tập á luật ản xuất đượ </i> ... 27

ng 9 <i>Diễn dị h á luật trí h xuất đượ trong bảng 8</i> ... 27

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>DANH MỤC CÁC TỪ VIẾT TẮT </b>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

ĐẠI HỌC ĐÀ NẴNG <b>CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc </b>

<b>THƠNG TIN KẾT QUẢ NGHIÊN CỨU </b>

<b>1. Thơng tin chung: </b>

<b>- ên đề tài: NGHIÊN CỨU ỨNG DỤNG MÔ HÌNH MÁY HỌC VÉC-TƠ TỰA (SVM) TRONG VIỆC PHÂN TÍCH DỮ LIỆU ĐIỂM SINH VIÊN </b>

<b>- ã ố: T2013-07-01 </b>

- Chủ nhi m: NG ỄN ĐỨC HI N - Thành viên tham gia: khơng có

- Cơ quan chủ t : Ư NG CĐ CÔNG NGH HÔNG IN

 d ng thuật t án f- t ên cơ ở tích hợp m h nh má h c ch ài t án tối ưu hóa hồi qu và m h nh m a agi-Sugeno.

 Đề uất một m h nh cụ th gồm 3 giai đ ạn, đ t ích uất tập uật m t d i u đi m inh viên ử dụng thuật t án f- ; đồng th i thử nghi m ph n tích và đánh giá cụ th t ên d i u đi m inh viên t ư ng Ca đ ng C ng ngh h ng tin

<b>4. Tóm tắt kết quả nghiên cứu: </b>

 Đối với thu ết má h c và uzz m de ing, đề tài đã nghiên cứu nh ng thu ết t án h c cơ n của má h c ch ài t án ph n ớp và ài t án tối ưu hóa hồi qu , thu ết t án h c của m h nh m a agi- ugen , và tương đương về mặt t án h c của hai m h nh nà

 Đối với thuật t án t ích út uật m d a t ên vi c ết hợp và Fuzzy modelling, đề tài nghiên cứu c ng cụ at a và thư vi n i và t đó d ng được

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

thuật t án f- ; ng ài a đề tài cũng đã thử nghi m t ên d i u chuỗi th i gian đ đánh giá hi u qu của thuật t án

 Đối với m h nh ứng dụng t ích uất uật m t d i u đi m inh viên, đề tài đưa a một m h nh cụ th gồm 3 giai đ ạn đ t ích uất tập uật m t d i u đi m inh viên; đồng th i thử nghi m ph n tích và đánh giá cụ th t ên d i u đi m inh viên t ư ng Ca đ ng C ng ngh h ng tin

<b>5. Tên sản phẩm: </b>

 ài á h a h c đăng t ên ỷ ếu Hội th nghiên cứu h a h c: CÔNG NGH HÔNG IN À ỨNG NG CÔNG NGH HÔNG IN ONG C C ĨNH C – ẦN HỨ , và đăng t ên ạp chí Kh a h c & C ng ngh Đại h c Đà Nẵng ên ài á : Ứng dụng m h nh má h c c-tơ t a ( ) t ng ph n tích d i u đi m inh viên

 ột thuật t án (f- ) và một m h nh h thống t ích uất uật m t d i u đi m sinh viên

 ột á cá tổng ết đề tài nghiên cứu h a h c

<b>6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: </b>

 Hi u qu về mặt giá dục - đà tạ : ột gi i pháp dạng m h nh đ có th định hướng ch inh viên ngành tin h c phát t i n các ứng dụng t ng ĩnh v c H chuyên gia và khai phá t i thức; đặc i t à hai phá t í thức dạng uật t d i u đi m inh viên, phục vụ ch vi c cố vấn và định hướng h c tập

 Hi u qu về mặt h a h c: đóng góp của đề tài à đề uất một thuật t án và một m h nh ứng dụng và uzz m de ing t ng vi c hai phá các qui tắc m t d i u đi m h c tập của inh viên

 ề n phẩm ứng dụng: huật t án, h nh h thống và ập qui tắc m hai phá được có th được ử dụng đ d ng cơ ở t i thức, d ng h thống hỗ t ợ ph n tích d i u đi m t động, h chu ên gia về Cố vấn h c tập

<b>7. Hình ảnh, sơ đồ minh họa chính </b>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<i><b>Hình. Mơ hình Khai phá luật mờ t dữ liệu đi m a inh viên. </b></i>

<i><b>Bảng 9. Trí h một phần tập luật mờ trí h xuất đượ </b></i>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>MỞ ĐẦU </b>

<b>1. Tổng quan </b>

Cùng với phát t i n chóng mặt của c ng ngh th ng tin và ứng dụng của nó t ng đ i ống inh tế - ã hội, c n ngư i ngà càng đòi hỏi nh ng chiếc má tính ph i th ng minh hơn, với nh ng h năng vượt ậc hơn, đ có th phục vụ nhiều hơn n a ch c n ngư i t ng c ng vi c cũng như cuộc ống hàng ngà ột t ng nh ng ĩnh v c há nóng hi n na của c ng ngh th ng tin đó à t í tu nh n tạ và ứng dụng của nó, nh ng ứng dụng t ng ĩnh v c nà ẽ giúp ch má tính có h năng ử th ng tin, hỗ t ợ a qu ết định một cách t động, à ch a hóa của h thống má tính th ng minh, của nền c ng nghi p t i thức gia th a của í tu nh n tạ và tu ết thống ê đã mở a một ch n t i mới ch phát t i n của h a h c và ứng dụng t í tu nh n tạ , nh ng m h nh má h c thống ê đã được nhiều nhà h a h c nghiên cứu, đề uất và đã chứng tỏ được hi u qu t ng vi c phát t i n các ứng dụng

Bài toán khai phá t i thức t d i u ( ata mining) đã và đang được ất nhiều nhà h a h c, tổ chức t ên thế giới nghiên cứu và phát t i n ứng dụng Nhiều ỹ thuật mới đã được nghiên cứu và đề uất như Neu a Netw , h nh m ( uzz modeling), Support Vector Machine (SVM), Self Organizing Map (SOM), Lý thu ết tập th ( ugh et ), các thuật t án h n cụm, h n ớp, Hồi qu ,…[1][2][3][4]. Đặc i t g n, đ u hướng nghiên cứu c i tiến và tích hợp nhiều c ng cụ hác nhau nhằm n ng ca hi u năng của các gi i pháp đang được nhiều nhà h a h c t ên thế giới quan t m; ví dụ như vi c ết hợp gi a Neural Network và Fuzzy modelling, SVM và Fuzzy modeling, SOM và SVM, Rough Sets và , h ặc ết hợp Gi i thuật di t u ền (G ) với các thuật t án h n cụm, h n ớp,… [2][3][5][6][10][12][14].

Nh ng m h nh d đ án d a t ên ỹ thuật hai phá t i thức t d i u được nhiều tác gi nghiên cứu và đề uất ứng dụng t ng nhiều ĩnh v c hác nhau, như:

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

tài chính, th i tiết, hi u năng mạng, d đ án ết qu h c tập của h c inh, inh viên…

Ở i t Nam cũng có ất nhiều tác gi nghiên cứu về vấn đề hai phá d i u và ứng dụng t ng nh ng ài t án d đ án, d á ấn đề ứng dụng m h nh m ch ài t án d á chuỗi th i gian đã được tác gi Ngu ễn C ng Điều đề cập và nghiên cứu [13], cụ th à tác gi đã nghiên cứu một ố thuật t án mới ch m h nh chuỗi th i gian m heu i tic t ng d á giá chứng h án ấn đề h u diễn m - w n và ứng dụng t ng ĩnh v c d á chỉ ố tài chính, chứng h án cũng được nhóm tác gi ùi C ng Cư ng và hạm ăn Chiến nghiên cứu [12]. h nh ết hợp phương pháp ph n cụm K-mean và phương pháp ph n ớp đ n ng ca hi u qu gi i qu ết ài t án ph n ớp d đ án giá cổ phiếu cũng được nhóm tác gi Ngu ễn H àng ú nh nghiên cứu và á cá năm 0 [14].

<b>2. Tính cấp thiết của đề tài </b>

Ngày na hai phá d i u ( ata mining) đã và đang t ở thành một t ng nh ng vấn đề được quan t m nghiên cứu và phát t i n ứng dụng Có nhiều ỹ thuật đã được đề uất đ có th hai thác t i thức t d i u, t ng đó mơ hình má h c Véc-tơ t a ( – Support Vect achine) ết hợp với uzz m de ing được đề uất như à một t ng nh ng gi i pháp mang ại hi u qu ca Nh ng nghiên cứu về vi c ứng dụng ỹ thuật hai phá d i u đ d ng các h thống ứng dụng đang thu hút nhiều quan t m của các nhà h a h c t ng Đặc i t đối với h thống ứng dụng t ng t ư ng h c, nh ng nghiên cứu g n đ chủ ếu tập t ung và vi c d đ án ết qu h c tập của inh viên và tư vấn ộ t nh h c tập ch inh viên,…

Hi n na , h u như tất c các t ư ng Đại h c và Ca đ ng t ng c nước đã chu n đổi m h nh ang đà tạ the h c chế tín chỉ; đối với m h nh đà tà the h c chế tín chỉ, vấn đề a ch n các m n h c đưa và chương t nh đà tạ , công tác cố vấn h c tập, tư vấn ch inh viên chiến ược a ch n m n h c hợp , ố tín chỉ đăng phù hợp,… à nh ng êu c u há ức thiết hi n na Nh ng inh nghi m, qui tắc the u nghĩ chủ quan của nhà t ư ng, của cố vấn h c tập, của n th n inh viên,… có th h ng phù hợp, h ặc à chưa hách quan và đ đủ; bên

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

cạnh đó, vi c ph n tích h d i u hổng ồ một cách thủ c ng cũng à một gi i pháp h ng h thi; chính v vậ , vi c nghiên cứu đưa a nh ng gi i pháp t ích uất nh ng uật m d a và nh ng d i u ịch ử một cách hi u qu , và t đó d ng các h thống ph n mềm H chu ên gia, H hỗ t ợ a qu ết định, d á , d đ án,… t ên cơ ở ử dụng các tập uật m h c được t cơ ở d i u à một t ng nh ng êu c u ức thiết hi n na .

<b>3. Mục tiêu đề tài </b>

 ục tiêu : nghiên cứu m h nh má h c c-tơ t a ( ) và uzz m de ing ứng dụng t ng hai phá t i thức t cơ ở d i u

 ục tiêu : vận dụng m h nh đ hai phá các qui tắc t i u đi m h c tập của inh viên t ư ng Ca đ ng C ng ngh h ng tin nhằm hỗ t ợ ch c ng tác cố vấn h c tập

<b>4. Cách tiếp cận và phương pháp nghiên cứu </b>

4.1. Cách tiếp cận:

 iếp cận the hướng hàn m: d a và tài i u và các c ng ố h a h c

 iếp cận the hướng mục tiêu: d a và mục tiêu đề tài Đề tài ẽ được th c hi n the 4 giai đ ạn:

 Giai đ ạn : Nghiên cứu m h nh má h c thống ê c-tơ t a ( ), Fuzzy modeling, và tương đương của chúng

 Giai đ ạn : hiết ế thuật t án t ích út uật m t d i u d a t ên ết hợp SVM và Fuzzy modelling

 Giai đ ạn 3: ận dụng m h nh t ích út uật m d a t ên đ ph n tích d i u đi m inh viên

 Giai đ ạn 4: h c nghi m, đánh giá ết qu và viết á cá tổng ết đề tài

4 hương pháp nghiên cứu:

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Đề tài ử dụng phương pháp nghiên cứu thu ết, cơ ở t án h c, ết hợp với th c nghi m Cụ th à: t ên cơ ở nghiên cứu các tài i u và c ng ố h a h c mới nhất về vấn đề h nh m và má h c đ d ng m h nh h thống, thu thập và ph n tích d i u đi m inh viên tại t ư ng Ca đ ng C ng ngh h ng tin đ áp dụng m h nh và t ích út a các uật m

<b>5. Đối tượng và phạm vi nghiên cứu </b>

5 Đối tượng nghiên cứu:

Đề tài tập t ung và 3 đối tượng nghiên cứu cơ n au:

 h nh má h c c-tơ t a và uzz m de ing

 huật t án t ích út uật m d a t ên vi c ết hợp và uzz modelling, c ng cụ m phỏng m h nh ết hợp SVM và Fuzzy modeling

 Kh d i u đi m inh viên t ư ng Ca đ ng C ng ngh h ng tin và mơ h nh t ích uất uật m t d i u đi m inh viên

5 hạm vi nghiên cứu:

 Đối với thu ết má h c và uzz m de ing, đề tài tập t ung nghiên cứu nh ng thu ết t án h c cơ n của má h c ch ài t án ph n ớp và ài t án tối ưu hóa hồi qu , thu ết t án h c của m h nh m Takagi-Sugeno, và tương đương về mặt t án h c của hai m hình này.

 Đối với thuật t án t ích út uật m d a t ên vi c ết hợp và uzz m de ing, đề tài tập t ung nghiên cứu c ng cụ at a và thư vi n i đ d ng thuật t án f- ; ng ài a đề tài còn nghiên cứu thử nghi m t ên d i u chuỗi th i gian đ đánh giá hi u qu của thuật toán.

 Đối với m h nh ứng dụng t ích uất uật m t d i u đi m inh viên, đề tài đưa a một m h nh cụ th với 3 giai đ ạn đ t ích uất tập uật m t d i u đi m inh viên; đồng th i thử nghi m ph n tích và đánh giá cụ th t ên d i u đi m inh viên t ư ng Ca đ ng C ng ngh h ng tin

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>6. Nội dung nghiên cứu </b>

Đề tài được tiến hành th c hi n the các nội dung và tiến độ cụ th như au:

ng các chương tiếp the au đ của á cá , chúng t i ẽ t nh à nh ng ết qu nghiên cứu chính về thu ết và th c nghi m đã th c hi n được Chương ẽ giới thi u tóm ược cơ ở thu ết về m h nh má h c c-tơ t a và m h nh m , chương ẽ t nh à nh ng ph n tích về tương đương của má h c c-tơ t a và m h nh m , t đó đưa đến vi c d ng một thuật t án t ích uất uật m t d i u, chương 3 ẽ t nh à m h nh t ích uất uật m t d i u đi m h c tập của inh viên, và cuối cùng à một ố ết uận và iến nghị út a t ết qu của đề tài.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<b>Chương . CƠ SỞ L THUYẾT MÁY HỌC VÉC-TƠ TỰA VÀ MƠ HÌNH MỜ </b>

<b>1.1. Máy học V c-tơ tựa </b>

á h c v c-tơ t a được apni giới thi u năm 995, đ à m h nh h c d a t ên thu ết h c thống ê ( tati tica ea ning Theory) [1], và à một ỹ thuật được đề nghị đ gi i qu ết ch các ài t án ph n ớp thu ết cơ n của má h c véc-tơ t a ch vấn đề ph n ớp có th tóm tắt như au:

Ch tập v ctơ đ u và [ ] , và tập các giá t ị nhãn ớp tuơng ứng ch ộ ph n ớp nhị ph n Hàm tu ến tính ph n i t hai ớp như sau:

t ng đó, w à v ctơ chuẩn của iêu ph ng ph n cách, à độ ch, và (x) là hàm ánh ạ t h ng gian đ u và ang h ng gian đặc t ưng, ( ) (M > D). ục tiêu của à t m một iêu ph ng tối ưu a ch h ng cách ề gi a hai ớp đạt giá t ị c c đại (xem hình 1).

<b>Hình 1. H nh nh ph n ớp với </b>

ên cạnh đó, đ đ m tính tổng qt hóa ca , một iến ỏng ( ac va ia e) được đưa và đ nới ỏng điều i n ph n ớp ài t án đưa đến vi c gi i qu ết tối ưu có àng uộc:

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

t ng đó, C > 0 à tham ố chuẩn tắc ( egu a izati n pa amete ), à iến ỏng ài t án ( ) có th đ ợc gi i ằng phương pháp O (Sequential Minimal Optimization) [10]. Phương pháp nà đưa đến gi i ài t án đối ngẫu qu h ạch t àn phương (Quad atic g amming):

au hi có được các giá t ị t ài t án (3), ta ẽ thu đươc các giá t ị tối ưu w* và * của iêu ph ng Chỉ có các mẫu có mới tham gia và các v c tơ hỗ t ợ ( upp t vect ) Cuối cùng, hàm qu ết định ph n ớp có dạng:

( ) (∑

<small> </small>

( ( ) ( )) )

(4)

G i ( ) ( ) ( ) à hàm nh n của h ng gian đ u và Khi đó (4) được viết ại như au:

( ) (∑

<small> </small>

( ) )

(5)

he đó, tích v hướng t ng h ng gian đặc t ưng tương đương với hàm nh n K ở h ng gian đ u và Như vậ , tha v tính t c tiếp giá t ị tích v hướng, ta th c hi n gián tiếp th ng qua hàm nhân K.

<b>1.2. Máy học V c-tơ tựa cho bài tốn tối ưu hóa hồi qui </b>

ới vai t ò gi i qu ết vấn đề tối ưu hóa hồi qu , thu ết cơ n của có th được vắn tắt như au [1][2][3][4][5]:

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Các uật m (fuzz u e ) được i u diễn ở dạng I – HEN, à cơ ở của phép suy uận m [5][10] Gi ử có m uật m được i u diễn như au:

(4)

ng đó ( ) à các iến điều i n; à các iến qu ết định của h thống

<i>m ; </i> và à nh ng thuật ng ng nghĩa ác định ởi các hàm thành viên (mem e hip functi n ) tương ứng ( ) và ( )<i>. ưu , </i> ( )<i> được định </i>

nghĩa như au:

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

<b>Chương 2. XÂY DỰNG MƠ HÌNH TRÍCH XUẤT LU T MỜ TỪ MÁY HỌC SVM </b>

<b>2. . Sự tương đương gi a máy học SVM và m hình m </b>

Đ ( 1) và (14) đồng nhất với nhau, t ước tiên chúng ta ph i đồng nhất gi a hàm nhân trong (11) và hàm thành viên trong (14) Ở đ , đ thỏa mãn điều i n Mercer [7] hàm thành viên Gau ian được ch n àm hàm nhân; đồng th i giá t ị của

<i>b trong (11) ph i ằng 0 H nh i u diễn tương đương gi a và m h nh </i>

m

<b>Hình 2. tương đương gi a và h nh m </b>

Khi hàm Gau ian được ch n àm hàm thành viên và hàm nhân, đồng th i ố uật m ằng với ố véc-tơ hỗ t ợ (SVs - Support vectors) thì (11) và (14) t ở thành

( ) ∑( ) ( ( <sup> </sup>) )

<small> </small>

( )

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

là đồng nhất với nhau ưu ằng i u thức ( 9) chỉ có th có, nếu ố ượng véc-tơ

<i>hỗ t ợ l được iết t ước </i>

<b>2.2. Thuật tốn thích uất luật m t d liệu dựa trên sự kết hợp máy học SVM và m hình m </b>

ên cơ ở tương t của và h thống m , thuật t án f- đề uất ở h nh ch ph p t ích uất các uật m t

</div>

×