Tải bản đầy đủ (.pdf) (107 trang)

luận án tiến sĩ phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (932.13 KB, 107 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

Bâ GIÁO DĀC VÀ ĐÀO T¾O

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

LUÂN ÁN TIÀN S) KHOA HàC MÁY TÍNH

Chun ngành: Khoa hác máy tính

Mã số ngành: 9480101

NG¯æI H¯äNG DÀN KHOA HàC

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>LịI CM ĂN </b>

Xin trõn trỏng cm Ân PGS.TS. Nguyán Thanh Tùng đã tÃn tình h°ång dÁn nghiên cāu sinh hoàn thành luÃn án tiÁn s*.

Xin trân tráng cảm ¢n q thÁy/cơ khoa sau đ¿i hỏc, trỗng i hỏc Lc Hng ó to in kiện thuÃn lÿi và há trÿ nghiên cāu sinh hoàn thnh lun ỏn.

Xin trõn trỏng cm Ân trỗng đ¿i hác L¿c Hồng đã t¿o điều kiện thuÃn lÿi trong công tác và há trÿ nghiên cāu sinh tham gia hác tÃp.

Xin chân thành cám ¢n quý b¿n bè, đồng nghiệp đã t¿o điều kiện mái mặt giúp nghiên cāu sinh hoàn thành luÃn án.

Đồng Nai, ngày tháng năm 2023 Nghiên cāu sinh

<b>ò S Tròng</b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>LịI CAM OAN </b>

Tụi xin cam đoan ln án này là cơng trình nghiên cāu cÿa riêng tôi d°åi sự h°ång dÁn cÿa PGS.TS. Nguyán Thanh Tùng. Các số liệu và tài liệu trong nghiên cāu là trung thực và ch°a đ°ÿc cơng bố trong b¿t kỳ cơng trình nghiên cāu nào. T¿t cả các tham khảo và kÁ thừa đều đ°ÿc trích dÁn và tham chiÁu đÁy đÿ.

Đồng Nai, ngày tháng năm 2023 Nghiên cāu sinh

<b>Đß Sĩ Tr°ßng </b>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

2.2.4 Các khái niệm lý thuyÁt thông tin liên quan ... 13

2.3 Mãt số tht tốn hiệu quả cÿa lý thut tÃp thơ ... 16

2.4 Āng dāng cÿa lý thuyÁt tÃp thô trong khám phá tri thāc từ c¢ sơꄉ dữ liệu ... 19

2.5 KÁt ln ch°¢ng 2 ... 21

<b>CH¯¡NG 3.LĄA CHàN THC TÍNH SĀ DĀNG LÝ THUY¾T T¾P THƠ ... 23</b>

3.1 Mơꄉ đÁu ... 23

3.2 Khái quát về bài toán lựa chán thuãc tính ... 24

3.3 Các ph°¢ng pháp lựa chán thc tính sử dāng lý thut tÃp thơ ... 27

3.3.1 Ph°¢ng pháp lựa chán thuãc tính sử dāng ma trÃn phân biệt ... 28

3.3.2 Ph°¢ng pháp rút gán thc tính dựa vào đã phā thuãc ... 32

3.3.3 Ph°¢ng pháp rút gán thuãc tính sử dāng sử dāng đã phā thc t°¢ng đối ... 34

3.3.4 Ph°¢ng pháp rút gán thc tính sử dāng Entropy thơng tin ... 37

3.3.5 Ph°¢ng pháp lựa chán thc tính dựa trên gom cām ... 39

3.4 Đề xu¿t thuÃt tốn rút gán thc tính dựa vào gom cām ACBRC ... 42

3.4.1 í tng v nhng ònh ngh*a c bn ... 42

3.4.2 Giåi thiệu thuÃt toán k-medoids ... 43

3.4.3 ThuÃt tốn rút gán thc tính dựa vào gom cām ACBRC ... 45

3.4.4 KÁt quả thực nghiệm thuÃt toán ACBRC ... 48

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

4.2.1 Các b°åc giải bài toán gom cām dữ liệu ... 55

4.2.2 Các lo¿i ph°¢ng pháp gom cām dữ liệu. ... 56

4.2.3 Các tiêu chí đánh giá mãt thuÃt toán gom cām hiệu... 58

4.3 Gom cām dữ liệu phân lo¿i sử dāng Lý thuyÁt tÃp thô ... 59

4.3.1 Tht tốn lựa chán thc tính gom cām TR ... 61

4.3.2 Tht tốn lựa chán thc tính gom cām MDA ... 63

4.3.3 ThuÃt toán MMR (Min-Min-Roughness) ... 64

4.3.4 ThuÃt toán MGR (Mean Gain Ratio) ... 67

4.4 Đề xu¿t thuÃt toán MMNVI gom cām dữ liệu phân lo¿i ... 69

4.4.1 í tng v nhng ònh ngh*a c bn ... 69

4.4.2 ThuÃt toán MMNVI ... 70

4.4.3 Đã phāc t¿p cÿa thuÃt toán MMNVI ... 75

4.4.4 NhÃn xét thuÃt toán MMNVI ... 76

4.4.5 KÁt quả thực nghiệm thuÃt toán MMNVI ... 76

<b>CH¯¡NG 5.K¾T LU¾N VÀ H¯âNG PHÁT TRIÂN ... 87</b>

5.1 Những kÁt quả và đóng góp chính cÿa ln án ... 87

5.2 H°ång phát trißn cÿa luÃn án ... 88

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>BÀNG THU¾T NGĂ ANH - VIàT </b>

Attribute Clustering Based

Tính tốn tÃp rút gán dựa trên gom cām thuãc tính

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Minimum Mean Normalized

Normalized Variation of

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>B䄃ऀNG C䄃ĀC K夃Ā HIU </b>

<i>ỵ = (, ý) </i> H thụng tin

|| Thc tính điều kiện trong bảng qut đßnh

Ă(Ă) <sup>Giá trß cÿa đối t°ÿng </sup><i>u</i> t¿i thc tính <i>a</i>

(ỵ) Quan h <i>B</i> khụng phõn bit

[]<small>ỵ</small> Låp t°¢ng đ°¢ng chāa <i>u</i> cÿa quan hệ <i><small>IND B</small></i>

( )

<i>/ỵ </i> Phõn hoch ca <i><small>U</small></i> sinh bi tp thuóc tớnh <i>B</i>.

<sub>ỵ</sub>() ó chớnh xỏc ca xp x thụng qua ỵ ý<small>ỵ</small>() ó thụ (roughness) cÿa X đối våi B

Ā(Ă|ă) Entropy có điều kiện cÿa Ă khi đã biÁt ă

<i>ā(Ă; ă) </i> Thông tin t°¢ng há giữa hai thc tính Ă và ă āāā(Ă, ă) BiÁn thß thơng tin chu¿n hóa giữa Ă và ă

ýąĂĈ/<sub>ÿ</sub><sub>Ā</sub>(Ă<sub>ÿ</sub>) Đã thơ trung bình cÿa thuãc tính Ă<small>ÿ</small> đối våi thuãc tính Ă<small>Ā</small>

ý<sub>ÿ</sub><sub>Ā</sub>(ÿ<sub>ā</sub>) Đã thơ låp t°¢ng đ°¢ng ÿ<sub>ā</sub> đối våi Ă<sub>Ā</sub>

ÿý(Ă<sub>ÿ</sub>) Tßng đã thơ ÿý cÿa Ă<small>ÿ</small> våi mái thc tính Ă<small>Ā</small> * ý

ÿý<sub>Ā</sub>(Ă) Tỷ lệ lÿi thơng tin cÿa Ă<small>ÿ</small> đối våi Ă<small>Ā</small>

Āÿý(Ă<small>ÿ</small>) Tỷ lệ lÿi thơng tin trung bình cÿa Ă<small>ÿ</small> đối mái våi Ă<small>Ā</small>

Āāāā(Ă<small>ÿ</small>) <sup>Bi</sup>Án thß thơng tin chu¿n hóa trung bình giữa <small></small> vồi mỏi <sub></sub> * ý

ỵ() Tntropy cÿa tÃp dữ liệu ÿ ⊆ Ā

<i>argmin </i> Xác đßnh phÁn tử có giá trß nh漃ऀ nh¿t trên mãt miền giá trß

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>DANH MĀC BÀNG BIÂU</b>

Bảng 3.1 Bảng qut đßnh ví dā 3.1. ... 30

Bảng 3.2 Ma trÃn phân biệt cÿa Bảng quyÁt đßnh 3.1. ... 31

Bảng 3.3 Bảng quyÁt đßnh ... 34

Bảng 3.4 Bảng mô tả các tÃp dữ liệu thực nghiệm ... 49

Bảng 3.5 Những thuãc tính đ°ÿc chán bơꄉi ba giải thuÃt rút gán thuãc tính ... 50

Bảng 3.6 Bảng so sánh thỗi gian thc hin ca cỏc thut toỏn (theo giõy) ... 50

Bảng 3.7 Đã chính xác phân låp khi ch°a rút gán thuãc tính ... 51

Bảng 3.8 Đã chính xác phân låp våi các thuãc tính đ°ÿc chán bơꄉi ACBRC ... 51

Bảng 3.9 Đã chính xác phân låp bằng C5.0 sau khi sử dāng các ph°¢ng pháp rút gán thuãc tính khác nhau ... 52

Bảng 3.10 Đã chính xác phân låp Bayes sử dāng các thuÃt toán rút gán thc tính ... 52

Bảng 4.1 Hệ thơng tin về ch¿t l°ÿng đÁu vào cÿa sinh viên ... 74

Bảng 4.2 Đã chắc chắn trung bình cÿa các thc tính ... 75

Bảng 4.3 Tám bã dữ liệu chu¿n UCI ... 77

Bảng 4.4 Bảng dự phòng ... 78

Bảng 4.5 KÁt quả gom cām MMNVI trên tÃp dữ liệu Soybean Small ... 80

Bảng 4.6 KÁt quả gom cām MMNVI trên tÃp dữ liệu Breast Cancer Wisconsin. ... 80

Bảng 4.7 KÁt quả gom cām MMNVI trên tÃp dữ liệu Car Evaluation. ... 80

Bảng 4.8 KÁt quả gom cām MMNVI trên tÃp dữ liệu Vote. ... 81

Bảng 4.9 KÁt quả gom cām MMNVI trên tÃp dữ liệu Chess. ... 81

Bảng 4.10 KÁt quả gom cām MMNVI trên tÃp dữ liệu Mushroom. ... 81

Bảng 4.11 KÁt quả gom cām MMNVI trên tÃp dữ liệu Balance Scale ... 81

Bảng 4.12 KÁt quả gom cām MMNVI trên tÃp dữ liệu Zoo ... 81

Bảng 4.13 Đã thuÁn khiÁt tßng thß cÿa 3 thuÃt toán trên 8 bã dữ liệu. ... 82

Bảng 4.14 Chỉ số ngÁu nhiên hiệu chỉnh (ARI) cÿa ba thuÃt toán trên 8 tÃp dữ liệu. ... 83

Bảng 4.15 Thơng tin t°¢ng há chu¿n hóa (NMI) cÿa ba thuÃt toán trên 8 tÃp dữ liệu. ... 84

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>DANH MĀC HÌNH VẼ</b>

Hình 3.1 Hình minh háa tht tốn ACBRC ... 47 Hình 4.1 Hình minh háa so sánh đã thuÁn khiÁt tßng thß cÿa ba thuÃt toán trên tám tÃp dữ liệu thực nghiệm ... 83 Hình 4.2 Hình minh háa so sánh chỉ số ngÁu nhiên hiệu chỉnh trung bình cÿa ba thuÃt toán trên tám tÃp dữ liệu thực nghiệm ... 84 Hình 4.3 Hình minh háa so sánh thơng tin t°¢ng há chu¿n hóa cÿa ba tht tốn đối våi các tÃp dữ liệu có sự phân bß låp cân bằng ... 85

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<b>DANH MĀC THU¾T TON </b>

Thut toỏn 2.1 Thut toỏn xỏc ònh lồp tÂng Âng ... 17

Thut toỏn 2.2 Thut toỏn xỏc ònh xp xỉ d°åi ... 17

Tht tốn 2.3 Tht tốn xác đßnh x¿p xỉ trên ... 18

ThuÃt toán 2.4 ThuÃt toán xác ònh min dÂng ... 19

Thut toỏn 3.1 Thut toỏn QuickReduct ... 33

ThuÃt toán 3.2 ThuÃt toán RelativeReduct ... 36

ThuÃt toán 3.3 ThuÃt toán CEBARKNC ... 38

ThuÃt toán 3.4 ThuÃt tốn gom cām thc tính MNF ... 41

Tht tốn 4.1 ThuÃt toán TR (Total Roughness) ... 62

ThuÃt toán 4.2 ThuÃt toán MDA (Maximumdegree of Dependency of Attributes) ... 63

ThuÃt toán 4.3 ThuÃt toán MMR (Min–Min–Mean-Roughness) ... 65

ThuÃt toán 4.4 ThuÃt toán MGR (Mean Gain Ratio) ... 67

ThuÃt toán 4.5 ThuÃt MMNVI ... 71

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>CH¯¡NG 1. Mà ĐÀU </b>

Ngày nay, cùng våi sự phát trißn cÿa khoa hác cơng nghệ, m¿ng máy tính và truyền thơng đã có những b°åc phát trißn m¿nh m¿ và đ°ÿc āng dāng rãng rãi trong t¿t cả các l*nh vc ỗi sng. Cựng vồi ú, nhu cu v khả năng thu thÃp, l°u trữ dữ liệu cÿa con ngỗi khụng ngng tng lờn theo cp s nhõn. Våi l°ÿng dữ liệu khßng lồ hiện nay, yêu cÁu đặt ra đối våi các công cā xử lý, phân tích thơng tin ngày càng cao. Đặc biệt h¢n, con ngỗi luụn mong mun thu nhn mót cỏch tự đãng những tri thāc tiềm ¿n, mang tính dự đoán từ nguồn dữ liệu quý giá này. Trong những năm qua, khám phá tri thāc (khai phá dữ liệu), hác máy, trích xu¿t quy tắc từ dữ liệu v.v. đã thu hút nhiều sự chú ý cÿa các nhà khoa hác trong l*nh vực trí tuệ nhân t¿o. Trên c¢ sơꄉ đó, nhiều ph°¢ng pháp khám phá tri thāc từ c¢ sơꄉ dữ liệu (CSDL) ó ra ỗi.

Khỏm phỏ tri thc t CSDL (Knowledge Discovery in Databases – KDD) là mãt l*nh vực khoa hác nhằm nghiên cāu đß t¿o ra những cơng cā khai phá những thông tin, tri thāc hữu ích, tiềm ¿n mang tính dự đoán trong các CSDL lån [1, 2].

Mãt quá trình chu¿n khám phá tri thāc từ CSDL bao gồm 5 công đo¿n [1]:

<b>Công đo¿n 1 - Lựa chán dữ liệu: Là quá trình lựa chán mãt tÃp dữ liệu, hoặc kÁt hÿp </b>

mãt số tÃp dữ liệu sẵn våi nhau đß t¿o ra mãt tÃp dữ liệu đích phù hÿp våi māc tiêu khai phá.

<b>Công đo¿n 2 - Tiền xử lý dữ liệu: Giai đo¿n này bao gồm việc lo¿i b漃ऀ hoặc làm giảm </b>

giá trß bß nhiáu; xử lý giỏ trò bò thiu v rỗi rc húa thuóc tính nÁu cÁn. Cơng đo¿n này nhằm cải thiện ch¿t l°ÿng tßng thß cÿa b¿t kỳ thơng tin nào có thß đ°ÿc phát hiện từ CSDL.

<b>Cơng đo¿n 3 - Rút gán dữ liệu: HÁu hÁt các tÃp dữ liệu có thß chāa mãt l°ÿng d° </b>

thừa nh¿t đßnh. L°ÿng dữ liệu d° thừa này không những không há trÿ quá trình khám phá tri thāc mà trên thực tÁ cịn có thß làm sai lệch kÁt quả khai phá. Māc đích cÿa cơng đo¿n này này là tìm ra các thc tính (đặc tr°ng) hữu ích đß đ¿i diện cho dữ liệu và lo¿i b漃ऀ các thc tính khơng liên quan. Từ đó, tiÁt kiệm c thỗi gian x lý trong cụng on khai phỏ dữ liệu tiÁp theo.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>Công đo¿n 4 - Khai phá dữ liệu: Áp dāng các kỹ thuÃt khai phá dữ liệu (trích xu¿t </b>

thơng tin hữu ích tiềm ¿n từ c¢ sơꄉ dữ liệu) đ°ÿc lựa chán phù hÿp våi māc tiêu cÿa nhiệm vā khám phá tri thāc. Việc lựa chán kỹ tht sử dāng có thß phā thc vào nhiều yÁu tố, bao gồm nguồn cÿa tÃp dữ liệu và các giá trß mà nó chāa.

<b>Cơng đo¿n 5 - Đánh giá và dián giải tri thāc. Mãt khi tri thāc đã đ°ÿc khám phá, nó </b>

s¿ đ°ÿc đánh giá về giá trß, tính hữu ích, tính måi v tớnh Ân gin. iu ny cú thò yờu cÁu lặp l¿i mãt số b°åc trên cÿa quá trình khám phá tri thāc. Những mÁu thông tin và mối quan hệ trong dữ liệu đã đ°ÿc phát hiện s¿ đ°ÿc chuyßn sang và bißu dián ơꄉ d¿ng gÁn gi vồi ngỗi s dng nh thò, cõy, bảng bißu, lt, v. v.

Trong 5 cơng đo¿n trên cÿa q trình khám phá tri thāc từ CSDL, cơng đo¿n 4 là quan tráng nh¿t.

Các kÁt quả nghiên cāu cùng våi những āng dāng thành công thỗi gian qua cho thy, khỏm phỏ tri thc từ CSDL là mãt l*nh vực khoa hác tiềm năng, mang li nhiu li ớch, ng thỗi cú u thÁ h¢n hẳn so våi các cơng cā phân tích dữ liệu truyền thống. Tuy nhiên, våi tốc đã tăng tr°ơꄉng cÿa dữ liệu hiện nay, việc nghiên cāu và āng dāng các kỹ thuÃt khai phá dữ liệu cũng đang gặp nhiều khó khăn, thách thāc, địi h漃ऀi các nhà nghiên cāu phải khơng ngừng nß lực nhằm tìm ra những cơng cā đß giải qut các khó khăn, thách thāc này.

Mãt trong những khó khăn, thách thāc quan tráng đó chính là, cùng våi sự bùng nß nhanh chóng cÿa cơng nghệ, kớch thồc ca nhng tp d liu con ngỗi thu thÃp đ°ÿc ngày càng lån. Có thß th¿y, trong hÁu hÁt các āng dāng nh° dữ liệu gen, phân låp văn bản, truy xu¿t hình ảnh và truy xut thụng tin, chỳng ta thỗng phi i mt vồi các tÃp dữ liệu có số l°ÿng lån các thc tính (hay đặc tr°ng). Điều này có thß dÁn đÁn các thuÃt toán khai phá hoặc hác từ dữ liệu truyền thống trơꄉ nên chÃm l¿i và không thß xử lý thơng tin mãt cách hiệu quả. V¿n đề đặt ra là tr°åc khi trißn khai các tht tốn khai phá dữ liệu cÁn phải có ph°¢ng pháp rút gán thc tính cÿa CSDL mà vÁn bảo tồn đ°ÿc những thơng tin cÁn khai thác. Rút gán thc tính có thß đ°ÿc thực hiện bằng cách sử dāng các kỹ thuÃt phù hÿp, tùy thuãc vào yêu cÁu cÿa bài toán khai phá dữ liệu đặt ra. Những kỹ tht này có thß

<i>đ°ÿc chia thành hai lo¿i chính, đó là biến đổi thuộc tính và lựa chọn thuộc tính [1, 3, 4, 5]. </i>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Phép bi<i>Án đßi thc tính cố gắng xây dựng mãt khơng gian thuộc tính mới bằng cách </i>

biÁn đßi khơng gian thc tính ban đÁu thành khơng gian có số chiều th¿p h¢n. Phân tích thành phÁn chính và phân tích thành phÁn đãc lÃp l hai phÂng phỏp bin òi thuóc tớnh c sử dāng rãng rãi [1, 4, 5].

Lựa chán thc tính (hay cịn gái là rút gán thc tính) là q trình chán ra mãt tÃp hÿp con thuãc tính từ tÃp hÿp các thuãc tính ban đÁu, våi māc tiêu lo¿i b漃ऀ càng nhiều càng tốt các thc tính khơng liên quan và d° thừa nhằm cải thiện ch¿t l°ÿng dữ liệu và giảm ó phc tp v thỗi gian v khụng gian cho việc phân tích. Lựa chán thuãc tính là v¿n đề r¿t quan tráng: thā nh¿t là do các thuãc tính khơng liên quan khơng góp phÁn vào việc làm tăng đã chính xác dự đốn; thā hai là do hÁu hÁt thơng tin mà nó có thß cung c¿p cho việc dự đoán đã đ°ÿc chāa trong các thuãc tính khác. Lựa chán thuãc tính đ°ÿc áp dāng rãng rãi trong nhiều l*nh vực khác nhau, chẳng h¿n nh° phân lo¿i văn bản (text categorization), truy cÃp hình ảnh (image retrieval), Tin-sinh hác (bioinformatics), phát hiện xâm nhÃp m¿ng (intrusion detection) , v. v. [1, 3, 5].

Trong công đo¿n 4 cÿa quá trình khai phá dữ liệu, hai kỹ thuÃt quan trỏng, thỗng c s dng nht l k thut phân låp (Classification) và kỹ thuÃt gom cām dữ liệu (Data clustering) [1].

Phân låp là ph°¢ng pháp phân tích dữ liệu đß trích xu¿t các quy tắc sắp xÁp các đối t°ÿng vào mãt trong các låp đã biÁt dựa trên các giá trß sẵn có cÿa các thc tính. Phân låp cịn đ°ÿc gái là hác có giám sát (supervised learning). Mãt số kỹ thut c bn ò phõn lồp d liu l quy n¿p cây quyÁt đßnh (decision tree induction), phân låp Bayes, m¿ng n¢-ron nhân t¿o (Neural network), và ph°¢ng pháp máy véc t¢ há trÿ (Support vector machines - SVM).

Gom cām dữ liệu là ph°¢ng pháp nhóm các đối t°ÿng t°¢ng tự nhau trong tÃp dữ liệu vào các cām sao cho các đối t°ÿng thc cùng mãt cām là t°¢ng đồng cịn các đối t°ÿng thuãc các cām khác nhau s¿ không t°¢ng đồng. Gom cām dữ liệu là mãt ph°¢ng pháp hác khơng có giám sát (unsupervised learning). Khơng giống nh° phân låp dữ liệu, gom cām dữ liệu khơng địi h漃ऀi phải biÁt tr°åc nhãn låp cÿa các mÁu dữ liệu hu¿n luyện. Khi bắt đÁu quá trình ta khơng biÁt tr°åc các cām dữ liệu s¿ nh° thÁ nào. Vì vÃy, thơng

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

thỗng cn cú cỏc chuyờn gia v l*nh vc giỳp đánh giá các cām thu đ°ÿc sau khi thực hiện mãt kỹ thuÃt gom cām. Gom cām dữ liệu đ°ÿc sử dāng nhiều trong các āng dāng, chẳng h¿n trong phân lo¿i các loài thực vÃt, phân đo¿n khách hàng, phân lo¿i trang web v.v. Ngoài ra, gom cām dữ liệu cịn có thß đ°ÿc sử dāng nh° mãt kỹ thuÃt trong b°åc tiền xử lý cho các thuÃt toán khai phá dữ liệu khác.

Bài toán gom cām dữ liệu cũng là bài toán NP-khó. Cho đÁn nay, có nhiều kỹ thuÃt gom cām heuristic đã đ°ÿc đề xu¿t và giåi thiệu trong các tài liệu về phân tích thống kê, khai phá dữ liệu, hác máy [1, 6, 7]. HÁu hÁt các kỹ thuÃt gom cām trong các tài liệu đều tÃp trung vào các tÃp dữ liệu số, trong đó mái thc tính mơ tả các đối t°ÿng đều có miền giá trß là mãt khoảng giá trß thực liên tāc, mái đối t°ÿng dữ liệu số đ°ÿc coi là mãt đißm trong khơng gian metric đa chiều våi mãt metric đo khoảng cách giữa các đối t°ÿng, chẳng h¿n nh° metric Euclide hoặc metric Mahalanobis. Tuy nhiờn, trong cỏc ng dng thc tiỏn thỗng gặp phải những tÃp dữ liệu våi các thuãc tính là những thuãc tính phân lo¿i hay ph¿m trù (categorical), tāc là những thc tính có miền giá trß Ā hữu h¿n và khơng có thā tự (chẳng h¿n nh° màu tóc, quốc tßch v.v.); trong Ā chỉ đ°ÿc phép so sánh giữa các giá trß, våi b¿t kỳ Ă, ă * Ā hoặc Ă = ă hoặc Ă b ă. Våi dữ liệu phân lo¿i ta khơng thß đßnh ngh*a hàm khoảng cách mãt cách tự nhiên.

Lý thuyÁt tÃp thô - do Zdzisaw Pawlak [8] đề xu¿t vào những năm đÁu thÃp niên tám m°¢i cÿa thÁ kỷ hai m°¢i - đ°ÿc xem là cơng cā hữu hiệu đß giải qut các bài tốn xử lý thơng tin có chāa dữ liệu m¢ hồ, khơng chắc chắn. Tính từ m¢ hồ, không chắc chắn liên quan đÁn sự không nh¿t quán hoặc không ro ràng. Do t° duy måi l¿, ph°¢ng pháp đãc đáo và dá cài đặt, trong h¢n ba m°¢i năm qua, lý thut tÃp thơ đã đ°ÿc nghiên cāu, āng dāng và trơꄉ thành mãt công cā quan tráng trong l*nh vực xử lý thông tin thông minh [2, 9, 10, 11, 12, 13]. Nó đã đ°ÿc áp dāng thành cơng trong mãt số l*nh vực nh° hác máy, hệ chuyên gia, nhÃn d¿ng mÁu, hệ thống há trÿ quyÁt đßnh, khám phá tri thāc trong c¢ sơꄉ dữ liệu v.v. Trong nghiên cāu tính tốn h¿t (granular computing), lý thut tÃp thô đã trơꄉ thành mãt trong những mô hình và cơng cā chính [10]. Trißn váng āng dāng cÿa lý thuyÁt tÃp hÿp thô là r¿t rãng. Các tÃp thơ khơng chỉ có thß đ°ÿc sử dāng đß giải qut v¿n đề thơng tin khơng chắc chắn, mà cịn có thß giúp tối °u hóa nhiều ph°¢ng pháp tính tốn mềm hiện

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

có. ¯u đißm chính cÿa cách tiÁp cÃn tÃp thơ là nó khơng cÁn b¿t kỳ thơng tin s¢ bã hoặc bß sung nào về dữ liệu, nh° các giá trß xác su¿t trong thống kê, māc đã thuãc thành viên (degrees of membership) cÿa các phÁn tử trong lý thuyt tp mỗ.

Trong hÂn ba mÂi năm qua, nghiên cāu về các thuÃt toán và āng dāng cÿa lý thuyÁt tÃp thô luôn là đề tài phát trißn m¿nh m¿ và sơi đãng. Trong xu thÁ đó, nhiều nhóm nhà khoa hác, trong đó có cả các nhà khoa hác Việt nam, đã và đang quan tâm đÁn nghiên cāu v¿n đề rút gán thc tính trong bảng qut đßnh và gom cām dữ liệu. Ln án tiÁn s* cÿa Hồng Thß Lan Giao [14] đã đề xu¿t các thuÃt toán heuristic tìm tÃp rút gán và tìm tÃp rút gán x¿p xỉ cÿa bảng quyÁt đßnh nh¿t quán, bao gồm thuÃt toán sử dāng các phép toán trong đ¿i số quan hệ và thuÃt toán sử dāng ma trÃn phân biệt. LuÃn án tiÁn s* cÿa Nguyán Đāc Thn [15] đề xu¿t tht tốn heuristic tìm tÃp rút gán cÿa bảng quyÁt đßnh đÁy đÿ nh¿t quán dựa vào phÿ tÃp thô. LuÃn án tiÁn s* cÿa Nguyán Long Giang [16] nghiên cāu ph°¢ng pháp rút gán thc tính trong bảng qut đßnh đÁy đÿ sử dāng metric.

Có thß th¿y, āng dāng lý thut tÃp thô trong khám phá tri thāc từ CSDL trong thỗi gian qua ó thu hỳt s quan tõm cÿa các nhà nhiên cāu trong và ngoài n°åc. Tuy nhiên, đối våi hai bài toán quan tráng là lựa chán thuãc tính và gom cām dữ liệu vÁn còn mãt số v¿n đề lån cÁn đ°ÿc tiÁp tāc thảo luÃn và cải tiÁn. Đó là:

Đối våi bài tốn lựa chán thc tính, nhiều tht tốn lựa chán thc tính hiện nay có thß lo¿i b漃ऀ thành cơng các thc tính khơng liên quan nh°ng khơng thß lo¿i b漃ऀ các thc tính d° thừa [17, 18, 19, 20, 21]. Thc tính d° thừa khơng giúp cho q trình dự đốn tốt h¢n vì hÁu hÁt các thông tin cÁn thiÁt đã đ°ÿc cung c¿p bơꄉi các thc tính cịn l¿i. Điều này làm ảnh h°ơꄉng nghiêm tráng đÁn đã chính xác cÿa mãt máy hác. Vì vÃy, yêu cÁu đặt ra là phải nghiên cāu ph°¢ng pháp lựa chán thc tính måi, cú thò loi b hiu qu ng thỗi cỏc thc tính khơng liên quan và cả các thc tính d° thừa [6, 7, 22, 23, 24].

Đối våi bài toán gom cām dữ liệu phân lo¿i, mặc dù các thuÃt toán gom cām đã đ°ÿc đề xu¿t có những đóng góp quan tráng trong v¿n đề gom cām dữ liệu phân lo¿i nh°ng chúng cũng có mót s hn ch nh thỗng cú ó chớnh xỏc th¿p và đã phāc t¿p tính tốn cao. Đặc biệt, trên mãt số tÃp dữ liệu chúng không thành cơng hoặc khó chán đ°ÿc thc tính gom cām tốt nh¿t [6, 7]. Vì vÃy, cải tiÁn các thuÃt toán gom cām dữ liệu phân lo¿i

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

nhằm cho kÁt quả gom cām tốt h¢n các tht tốn c¢ bản hiện có cũng là bài tốn quan tráng cÁn giải quyÁt trong khám phá tri thāc.

Våi là lý do này, nghiên cāu sinh chán đề tài nghiên cāu: <Ph°¢ng pháp lựa chán thuãc tính và kỹ thuÃt gom cām dữ liệu phân lo¿i sử dāng lý thuyÁt tÃp thô=.

<b>Māc tiêu nghiên cāu cÿa luÃn án tÃp trung giải quyÁt hai v¿n đề cÿa đề tài: </b>

Māc tiêu thā nh¿t là nghiên cu phÂng phỏp la chỏn thuóc tớnh cú thò loi b hiu qu ng thỗi cỏc thuóc tớnh khụng liên quan và cả các thuãc tính d° thừa.

Māc tiêu thā hai là cải tiÁn các thuÃt toán gom cām dữ liệu phân lo¿i, đặc biệt là bài tốn lựa chán thc tính nhằm cho kÁt quả gom cām tốt h¢n các tht tốn c¢ bản hiện có

<b>Đßi t°ÿng nghiên cāu cÿa luÃn án là các hệ thơng tin, bảng qut đßnh có thß chāa </b>

dữ liệu m¢ hồ, khơng chắc chắn.

<b>Ph¿m vi nghiên cāu cÿa luÃn án bao gồm việc nghiên cāu các ph°¢ng pháp khai </b>

phá dữ liệu theo h°ång tiÁp cÃn tÃp thơ, tÃp trung vào hai v¿n đề chính nêu trong māc tiêu cÿa luÃn án.

<b>Ph°¢ng pháp nghiên cāu các v¿n đề nghiên cāu đặt ra đ°ÿc thực hiện bằng cách </b>

tßng hÿp và đánh giá các kÁt quả nghiên cāu đã đ¿t đ°ÿc về lý thuyÁt tÃp thô trong khai phá dữ liệu từ các công trình đăng trên các t¿p chí khoa hác chun ngành uy tín trong và ngồi n°åc. Từ đó đề xu¿t các kỹ tht, tht tốn måi, cài đặt, tính toán, so sánh và đánh giá kÁt quả thực nghiệm, chāng minh tính hiệu quả cÿa các tht tốn.

<b>Bò cc ca lun ỏn bao gm chÂng m u, ba ch°¢ng nãi dung chính, ch°¢ng kÁt </b>

ln, các cơng trình nghiên cāu đã thực hiện và danh māc tài liệu tham khảo. Ch°¢ng 2 trình bày các khái niệm c¢ bản cÿa lý thut tÃp thơ cùng våi mãt số khái niệm liên quan từ lý thuyÁt thông tin, khái quát về khai phá dữ liệu và tiềm năng āng dāng lý thuyÁt tÃp thô trong khai phá dữ liệu. Ch°¢ng 3 trình bày bài tốn lựa chán thc tính và mãt số tht tốn hiệu quả hiện có theo tiÁp cÃn tÃp thơ, những khó khăn thách thāc; trên c¢ sơꄉ đó đề xu¿t tht tốn måi rút gán thc tính sử dāng ph°¢ng pháp gom cām thc tính. Ch°¢ng 4 trình bày bài toán gom cām trong khai phá dữ liệu, mãt số ph°¢ng pháp gom cām hiệu quả hiện có; h¿n chÁ cÿa chúng và đề xu¿t tht tốn gom cām dữ liệu phân lo¿i sử dāng

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

lý thuyÁt tÃp thô kÁt hÿp các khái niệm entropy trong lý thut thơng. Cuối cùng, ch°¢ng kÁt luÃn nêu những đóng góp cÿa luÃn án và các h°ång phát trißn.

<b>Đóng góp chính cÿa lu¿n án đ°ÿc trình bày trong ch°¢ng 3, ch°¢ng 4. </b>

Ch°¢ng 3 đề xu¿t mãt tht tốn tìm tốn tÃp rút gán trong bảng quyÁt đßnh bằng cách sử dāng phép gom cām thuãc tính våi tên gái ACBRC (Attribute Clustering Based Reduct Computing – Tính tốn tÃp rút gán dựa vào gom cām thc tính). Tht tốn đề xu¿t ho¿t đãng trong ba cơng đo¿n chính. Trong cơng đo¿n đÁu, các thc tính khơng liên quan s¿ bß lo¿i b漃ऀ. T¿i cơng đo¿n thā hai, các thc tính có liên quan đ°ÿc phân chia thành mãt số cām thích hÿp bằng ph°¢ng pháp gom cām Phân ho¿ch Xung quanh Medoids (Partitioning Around Medoids - PAM) våi mãt metric đặc biệt trong không gian thc tính là BiÁn thß Thơng tin Chu¿n hóa (Normalized Variation of Information). Trong cơng đo¿n thā ba, mãt thuãc tính đ¿i diện cho mái cām đ°ÿc chán là thc tính có đã liên quan lån nh¿t våi thc tính qut đßnh; các thc tính đ°ÿc lựa chán t¿o thành mãt tÃp rút gán x¿p xỉ.

Vì trong mái cām gom đ°ÿc các thc tính là t°¢ng tự nhau, việc chỉ chán mãt thuãc tính từ mái cām đ°a vào tÃp rút gán t¿i cơng đo¿n ba cÿa tht tốn cho phép lo¿i b漃ऀ đ°ÿc các thuãc tính d° thừa đối vồi nhim v phõn lồp d liu. ng thỗi, bng cách l¿y t¿t cả đ¿i diện cÿa các cām làm tÃp rút gán thuÃt toán đã xét đÁn t¿t cả các thc tính liên quan, trong đó có thß có các thc tính kÁt hÿp våi nhau tác đãng đÁn kÁt quả phân låp.

Đß đánh giá thuÃt toán ACBRC, luÃn án đã tiÁn hành cài đặt, tính tốn thực nghiệm trên các tÃp dữ liệu chu¿n l¿y từ kho dữ liệu UCI [25]. KÁt quả thực nghiệm cho th¿y tht tốn đề xu¿t có khả năng tính tốn tÃp rút gán x¿p xỉ có kích th°åc nh漃ऀ và đã chính xác phân låp cao so våi các thuÃt toán đem so sánh, khi số cām dùng đß phân chia các thc tính đ°ÿc lựa chán mãt cách thích hÿp.

Ch°¢ng 4 ln án đề xu¿t mãt tht tốn måi gom cām dữ liệu phân lo¿i våi tên gái MMNVI (Minimum Mean Normalized Variation of Information - BiÁn thß Thơng tin Chu¿n hóa Trung bình Nh漃ऀ nh¿t (MMNVI). MMNVI thuãc lo¿i ph°¢ng pháp gom cām

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

phân c¿p, phân phân đôi dÁn tÃp các đối t°ÿng thành các cām. T¿i mái b°åc lặp thuÃt tốn thực hiện ba b°åc chính sau:

- Lo¿i b漃ऀ t¿t cả các thuãc tính chỉ nhÃn mãt giá trß;

- Chán thc tính phân cām là thc tính có giá trß biÁn thß thơng tin chu¿n hóa trung bình (MNVI) nh漃ऀ nh¿t;

- L¿y låp t°¢ng đ°¢ng sinh ra bơꄉi thc tính phân cām có tßng entropy cÿa mái thc tính nh漃ऀ nh¿t làm mãt cām và hÿp cÿa t¿t cả các låp t°¢ng đ°¢ng cịn l¿i làm tÃp dữ liệu cÁn phân chia tiÁp.

T¿i b°åc lặp đÁu tiên, MMNVI l¿y tÃp t¿t cả các đối t°ÿng ban đÁu làm tÃp dữ liệu cÁn phân chia. Quá trình phân cām trên lặp l¿i cho đÁn khi đ¿t đ°ÿc số cām quy đßnh tr°åc. Đß thực hiện b°åc thā hai, MMNVI sử dāng khái niệm <biÁn thß chu¿n hóa cÿa thông tin= trong lý thuyÁt thông tin, mãt đã đo khoảng cách phß qt trong khơng gian thc tính.

KÁt quả thử nghiệm trên các tÃp dữ liệu thực từ UCI cho th¿y tht tốn MMNVI có thß đ°ÿc sử dāng thành cơng trong việc gom cām dữ liệu phân lo¿i. Nó t¿o ra kÁt quả gom cām tốt h¢n hoặc t°¢ng đ°¢ng h¢n våi các tht tốn c¢ bản đem so sánh.

<i>Các đóng góp chính trên đây đã đ°ÿc đăng trong hai bài báo trên Journal of Computer Science and Cybernetics</i>, năm 2022 và năm 2023. Ngồi các đóng góp chính trình bày trong luÃn án, nghiên cāu sinh là đồng tác giả cÿa có mãt số kÁt quả khác liên quan đÁn đề tài luÃn án, bao gồm mãt bài báo quốc tÁ và ba báo cáo hãi thảo khoa hác trong n°åc.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<b>CH¯¡NG 2. KHÁI QT VÀ LÝ THUY¾T T¾P THƠ VÀ ĀNG DĀNG TRONG KHAI PHÁ DĂ LIàU </b>

<b>2.1 Mơꄉ đ</b>

Lý thuyÁt tÃp thô – do Zdzisaw Pawlak [8] đề xu¿t vào những năm đÁu thÃp niên tám m°¢i cÿa thÁ kỷ hai m°¢i – đ°ÿc xem là cơng cā hữu hiệu đß giải qut các bài tốn chāa dữ liệu m¢ hồ, khơng chắc chắn. Từ khi ra ỗi cho n nay, lý thuyt tp thụ c áp dāng rãng rãi trong nhiều l*nh vực khác nhau cÿa khoa hác máy tính nh° trí tuệ nhân t¿o, hệ chuyên gia, hệ há trÿ quyÁt đßnh, khám phá tri thāc từ c¢ sơꄉ dữ liệu, v.v.

Trong lý thuyÁt tÃp thô, mái đối t°ÿng cÿa tÃp vũ trā Ā đều hàm chāa mãt l°ÿng thông tin nh¿t đßnh (dữ liệu, tri thāc) liên quan. Thơng tin này có thß đ°ÿc thß hiện bằng mãt số thc tính (attribute) hay cịn gái là đặc tr°ng (feature). Các thc tính mơ tả đối t°ÿng. Các đối t°ÿng có mơ tả giống nhau đ°ÿc coi là khơng thß phân biệt đ°ÿc đối våi thơng tin có sẵn. Mối quan hệ khơng phân biệt là c¢ sơꄉ tốn hác cÿa lý thut tÃp thơ. Nó t¿o ra sự phân chia tÃp vũ trā thành các khối đối t°ÿng khơng thß phân biệt đ°ÿc, đ°ÿc gái l cỏc tp hp c bn, cú thò c sử dāng đß xây dựng tri thāc về mãt thÁ giåi thực hoặc trừu t°ÿng. B<i>¿t kỳ tÃp con ÿ nào cÿa tÃp vũ trā Ā đều có thß đ°ÿc bißu thß theo các khối này mãt cách </i>

chính xác hoặc x¿p xỉ.

Ch°¢ng này trình bày các khái niệm c¢ bản cÿa lý thut tÃp thơ, quy trình khám phá tri thāc từ c¢ sơꄉ dữ liệu và khả năng āng dāng cÿa cÿa lý thuyÁt về tÃp thô trong khai phá dữ liệu. Các v¿n đề c¢ bản trình bày trong ch°¢ng này là c¢ sơꄉ cho việc nghiên cāu đề xu¿t các ph°¢ng pháp måi rút gán thc tính, gom cām dữ liệu phân lo¿i trình bày các ch°¢ng sau.

<b>2.2 Các khái niám c¢ bÁn cÿa lý thuy¿t t¿p thô2.2.1 Há thông tin </b>

Mãt tÃp dữ liệu có thß đ°ÿc bißu dián d°åi d¿ng mãt bảng, trong đó mái hàng bißu dián mãt đối t°ÿng, mót trỗng hp hay mót s kin, mỏi cót biòu dián mãt thuãc tính, mãt tính ch¿t hay mãt số đo có thß đo đ°ÿc trên mái đối t°ÿng. Trong lý thuyÁt tÃp thô, mãt

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

bảng dữ liệu nh° vÃy đ°ÿc gái là mãt hệ thụng tin. Mót cỏch hỡnh thc, ngỗi ta ònh ngh*a hệ thơng tin nh° sau:

<i><b>Đßnh nghĩa 2.1. [8] H thụng tin l mt b ụi ỵ = (, ý), trong đó Ā là một tập </b></i>

<i>hữu hạn, không rỗng các đối tượng, ý là một tập hữu hạn, khơng rỗng các thuộc tính, mỗi Ă * ý là một ánh xạ Ă ∶ Ā → ā</i><sub>ÿ</sub> <i>, trong đó ā</i><small>ÿ</small><i><sup> ký hi</sup>ệu miền giá trị của Ă. </i>

<b>2.2.2 Quan há không phân biát đ°ÿc và các x¿p xỉ cÿa mát t¿p hÿp </b>

<i><b>Đßnh nghĩa 2.2. [8] Cho h thụng tin l mt b t ỵ = (, ý). Mi tp con cỏc thuc </b></i>

<i>tớnh ỵ ý xỏc nh mt quan h, ký hiu l (ỵ), gọi là quan hệ không phân biệt được, như sau: </i>

Nu hai i tng (, ) * (ỵ) thỡ hai đối t°ÿng này s¿ không phân biệt đ°ÿc bơꄉi cỏc thuóc tớnh thuóc tp ỵ.

Rừ rng (ỵ) là mãt quan hệ t°¢ng đ°¢ng, nó phân chia Ā thnh cỏc cỏc lồp tÂng Âng rỗi nhau, trong đó hai đối t°ÿng thuãc cùng mãt låp nÁu chúng cú cựng giỏ trò i vồi ỵ. Gỏi /(ỵ) (hay vit tt /ỵ) l hỏ ca tt c cỏc lồp tÂng Âng ca (ỵ). Vồi mỏi i tng ý * , ký hiu [ý]<small>ỵ</small> l lồp tÂng Âng ca quan h (ỵ) cha phn t ý, v gỏi [ý]<sub>ỵ</sub> l lồp tÂng Âng ca ý trong quan h (ỵ).

<i><b>ònh ngha 2.3. [8] Cho h thụng tin l mt b t ỵ = (, ý, , ), þ ⊆ ý và ÿ ⊆</b></i>

<i>Ā, B-xấp xỉ dưới của , ký hiu l ỵ(), v ỵ-xp x trờn ca , ký hiu l ỵ(), c nh ngha tng ứng như sau: </i>

<i>Đßnh ngh*a trên cho th¿y nÁu đối tng ý * ỵ thỡ nú chc chn thuóc vo tp , cũn </i>

khi <i>ý * ỵ thỡ nú có thể thc vào tÃp ÿ. Hißn nhiên, ta có þÿ ⊆ ÿ ⊆ þÿ. ÿ đ°ÿc gái là đßnh ngh*a c nu ỵ = ỵ, trỗng hp ngc li, ÿ đ°ÿc gái là tÃp thô våi B-biên </i>

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

ỵ<small>ỵ</small><i>() = ỵ 2 ỵ. Mót cách tự nhiên, mãt tÃp thơ ÿ có thß đ°ÿc x¿p x bng ỵ </i>

v/hoc ỵ.

<i><b>ònh ngha 2.4. [8] Cho h thụng tin ỵ = (, ý), ỵ ⊆ ý và ÿ ⊆ Ā. Độ chính xác </b></i>

<i>của xp x thụng qua ỵ c nh ngha bi </i>

<sub>ỵ</sub>() = <sup>|ỵ|</sup> |ỵ|

(2.4)

Trong sut lun ỏn ny, || ký hiệu số phÁn tử cÿa tÃp ÿ.

<i><b>Đßnh nghĩa 2.5. [8] Cho hệ thụng tin ỵ = (, ý) , þ ⊆ ý và ÿ ⊆ Ā . thụ </b></i>

<i>(roughness) ca i vi ỵ c nh ngha l </i>

ý<sub>ỵ</sub>() = <sub>ỵ</sub>() = 1 2<sup>|ỵ()|</sup> |ỵ()|

(2.5)

Hiòn nhiờn, 0 f ý<small>ỵ</small>() f 1. Nu ý<sub>ỵ</sub>() = 0, thỡ ỵ = ỵ, ỵ-biờn ca l tp rỏng, v l tp ro i vồi ỵ. Nu ý<small>ỵ</small>() < 1, thỡ ỵ ỵ, ỵ-biờn ca là khác ráng, và ÿ là tÃp thô đối vồi ỵ.

<b>2.2.3 Bng quyt ònh </b>

<i><b>ònh ngha 2.6. [8, 10] Bảng quyết định là một hệ thông tin dạng Āÿ = (Ā, ÿ * {ą}), </b></i>

<i>trong đó ą + ÿ là một thuộc tính riêng biệt được gọi là thuộc tính quyết định. Các thuộc tính trong ÿ được gọi là các thuộc tính điều kiện. </i>

<i><b>Đßnh nghĩa 2.7. [8, 10] Cho Āÿ = (Ā, ÿ * {ą}) là một bảng quyết định và tập con </b></i>

<i>thuc tớnh iu kin ỵ . Vựng dng ca i vi ỵ, ký hiu l ỵ</i><small>ỵ</small><i>(), c xỏc định như sau </i>

(2.6)

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

Vùng d°¢ng ỵ<small>ỵ</small>() bao gm nhng i tng chc chn cú thò đ°ÿc phân vào mãt số låp quyÁt đßnh bằng cách kißm tra t¿t cả các thc tính có trong þ. NÁu ăĂþ<small>þ</small>(ą) = Ā, thì bảng qut đßnh Āÿ là nh¿t quán, ng°ÿc l¿i Āÿ là không nh¿t quán.

<i><b>Đßnh nghĩa 2.8. [8, 10] Cho Āÿ = (Ā, ÿ * {ą}) là một bảng quyết định, thuộc tính </b></i>

<i>ỵ c gi l khụng cn thit trong bng quyt định DT nếu </i>

<i>ngược lại,Ą được gọi là cần thiết. </i>

<i><b>Đßnh nghĩa 2.9. [8, 10] Bảng quyết định Āÿ = (Ā, ÿ * {ą}) được gọi là độc lập nếu </b></i>

<i>mi thuc tớnh ỵ u cn thit. Tp tt c các thuộc tính cần thiết trong DT được gọi là tập lõi và được ký hiệu ÿąÿĆ(ÿ). Lúc đó, một thuộc tính cần thiết cịn được gọi là thuộc tính lõi. </i>

<i><b>Đßnh nghĩa 2.10. [8, 10] Tập các thuộc tính ý ý ý được gọi là một rút gọn của bảng </b></i>

<i>quyết định Āÿ = (Ā, ÿ * {ą}) nếu nó là tập con tối tiểu thỏa mãn POS<small>R(d) = POSC(d)</small>. Như vậy, tập rút gọn là tập con tối tiểu các thuộc tính có khả năng phân lớp đúng các đối tượng trong Ā như toàn bộ tập thuộc tính ÿ. </i>

Rõ ràng là có th<i>ß có nhiều tÃp rút gán cÿa ÿ. TÃp t¿t cả các tÃp rút gán cÿa bảng quyÁt đßnh DT đ°ÿc ký hiệu là ýĆą(ÿ). Mãt thuãc tính là cÁn thiÁt khi và chỉ khi nó thuãc vào </i>

mái tÃp rút gán cÿa C. Điều đó đ°ÿc thß hiện trong mệnh đề sau.

<i><b>Mánh đÁ 2.1. [8, 10] Cho bảng quyết định Āÿ = (Ā, ÿ * {ą}). Ta có: </b></i>

ÿĂýā(ÿ) = ⋂ ý

<i><b>Đßnh nghĩa 2.11. [8, 10] Cho bảng quyết định Āÿ = (Ā, ÿ * {ą}). Với tp con ỵ </b></i>

<i>, ph thuc </i><sub>ỵ</sub><i>() ca vo ỵ c nh ngha nh sau: </i>

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

Rừ rng, 0 f <sub>ỵ</sub>() f 1. Nu <sub>ỵ</sub>() = 1, thỡ ta núi rng ph thuóc hon ton vo ỵ, cũn nu 0 < <small>ỵ</small>() < 1, thỡ ph thuóc vo ỵ vồi mc ó <small>ỵ</small>(). Khi <small>ỵ</small>() = 0, ta núi rng khụng ph thuóc vo ỵ.

<b>2.2.4 Cỏc khái niám lý thuy¿t thông tin liên quan </b>

Cho ỵ = (, ý) l mót h thng thụng tin, thc tính Ă * ý. Hệ thống thơng tin ỵ cú thò c xem nh mót qun thò thng kờ v l mót bin ngu nhiờn rỗi r¿c. Giả sử ā<small>ÿ</small> = {ý<small>1</small>, ý<small>2</small>, & , ý<small>ă</small>}, Ā/āāĀ(Ă) = {ÿ<sub>1</sub>, ÿ<small>2</small>, & , ÿ<small>ă</small>}. Khi đó, phân phối xác su¿t cÿa Ă có thß đ°ÿc xác đßnh bơꄉi:

ă(Ă = ý<small>ÿ</small>) = ă(ý<small>ÿ</small>) = |ÿ<small>ÿ</small>| |Ā| ,⁄ ÿ = 1, & , ă . (2.10) Các phân ph<b>ối xác su¿t liên quan khỏc cú thò c xỏc ònh tÂng t. C thß, ă(Ă, ă) </b>

là phân phối xác su¿t chung cÿa Ă và ă, và ă(Ă|ă) là phân phối xác su¿t có điều kiện cÿa Ă cho tr°åc ă. Giả sử Ā āāĀ(Ă)⁄ = {{ÿ<sub>1</sub>, ÿ<sub>2</sub>, & , ÿ<sub>ă</sub>}} và Ā āāĀ(ă)⁄ = {{Ā<sub>1</sub>, Ā<sub>2</sub>, & , <sub></sub>}}, khi ú

( = ý<sub></sub>, = ỵ<sub></sub>) = (ý<sub></sub>, ỵ<sub></sub>) = |<sub></sub>) <sub></sub>| ||<i> , </i>

( = ý<small></small> | = ỵ<small></small>) = (ý<small></small>|ỵ<small></small>) = |<small></small> ) Ā<small>Ā</small>| |Ā⁄ <small>Ā</small>| , ÿ = 1, & , ă, Ā = 1, & , Ą.

<i><b>ònh ngha 2.12. [26] Cho h thụng tin ỵ = (Ā, ý) và thuộc tính Ă * ý. Shannon </b></i>

<i>entropy (gọi tắt là entropy) của Ă là một đại lượng Ā(Ă) xác định theo công thức sau: </i>

Ā(Ă) = 2 ∑ ă(Ă = ý<sub>ÿ</sub>)log<sub>2</sub>ă(Ă = ý<sub>ÿ</sub>) .

<small>ăÿ=1</small>

(2.11)

våi quy °åc 0 × ĂąĈ<small>2</small>0 = 0.

Đối våi thuãc tính, Entropy Ā(Ă) là th°åc đo đo māc đã hán lo¿n (khơng chắc chắn) trong vect¢ cãt liên kÁt våi thc tính Ă. Giá trß nh漃ऀ nh¿t cÿa entropy Ā(Ă) là 0, giá trß này xảy ra khi t¿t cả các thành phÁn trong vect¢ liên kÁt là nh° nhau, khơng có sự rối lo¿n. Giá trß lån nh¿t cÿa entropy là ĂąĈ<small>2</small>|ā<small>ÿ</small>|, xảy ra khi t¿t cả các thành phÁn trong vect¢ liên kÁt

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

đều khác nhau. Giá trß entropy càng lån thì māc đã hán lo¿n càng cao. Khái niệm v entropy cú thò c khỏi quỏt cho trỗng hÿp có hai và nhiều thc tính.

<i><b>Đßnh nghĩa 2.13. [26] Cho hệ thông tin ỵ = (, ý) v hai thuộc tính Ă, ă * ý. </b></i>

<i>Entropy đồng thời của Ă và ă là một đại lượng Ā(Ă, ă) xác định theo công thức sau: </i>

Ā(Ă, ă) = 2 ( = ý<small></small>, = ỵ<small></small>)log<sub>2</sub>( = ý<small></small>, = ỵ<small></small>) .

Entropy (, ) biòu thò mc ó khơng chắc chắn cÿa hai thc tính Ă và ă.

<i><b>Đßnh nghĩa 2.14. [26] Cho h thụng tin ỵ = (, ý) v hai thuộc tính Ă, ă * ý. </b></i>

<i>Entropy có điều kiện của Ă khi đã biết ă là đại lượng Ā(Ă|ă) xác định bởi: </i>

Ā(Ă|ă) xác đßnh l°ÿng entropy (tāc là đã khơng chắc chắn) cịn l¿i cÿa thuãc tính Ă khi đã biÁt giá trß cÿa mãt thc tính ă. Áp dāng các cơng thāc (2.11), (2.12) và (2.13) ta có:

<i><b>Đßnh ngha 2.15. [26] Cho h thụng tin ỵ = (, ý) và hai thuộc tính Ă, ă * ý. Thơng </b></i>

<i>tin tương hỗ giữa hai thuộc tính Ă và ă được định nghĩa: </i>

Thơng tin tin t°¢ng há ā(Ă; ă) là hàm không âm và đối xāng, tāc là ā(Ă; ă) g 0 và ā(Ă; ă) = ā(ă; Ă). ā(Ă; ă) là l°ÿng thông tin mà Ă và ă chia sẻ cho nhau; nó cho biÁt thơng tin về thuãc tính này s¿ làm giảm đ°ÿc bao nhiêu đã khơng chắc chắn cÿa thc tính kia.

<b>Thơng tin tin t°¢ng há giữa Ă và ă cịn đ°ÿc gái là thơng tin có thêm đ°ÿc về Ă khi biÁt ă. </b>

<i><b>Đßnh nghĩa 2.16. [26, 27] Cho hệ thơng tin ỵ = (, ý) v hai thuc tớnh , * ý. </b></i>

<i>Biến thể thơng tin chuẩn hóa āāā(Ă, ă) giữa Ă và ă được xác định như sau: </i>

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

āāā(Ă, ă) = 1 2<sub>Ā(Ă, ă)</sub><sup>ā(Ă; ă)</sup> =<sup>Ā(Ă|ă) + Ā(ă|Ă)</sup><sub>Ā(Ă, ă)</sub> <i> . </i> <sup>(2.16) </sup>

<i><b>Đßnh lý 2.1. [27] āāā(Ă, ă) là một metric trên không gian của các thuộc tính, nghĩa </b></i>

<i>là đối với mọi Ă, ă, Ą * ý, ta đều có: </i>

<i>(i) āāā(Ă, ă) g 0 và đẳng thức xảy ra khi và chỉ khi Ă = ă, (ii) āāā(Ă, ă) = āāā(ă, Ă), </i>

<i>(iii) āāā(Ă, ă) + āāā(ă, Ą) g āāā(Ă, Ą). </i>

Đß chāng minh NVI là mãt metric, tr°åc hÁt ta chāng minh b¿t đẳng thāc sau

trong đó Ă, ă và Ą là 3 thc tính b¿t kỳ.

ThÃt vÃy, ta có Ā(Ă|Ą) f Ā(Ă, Ą|ă) = Ā(Ă|Ą, ă) + Ā(Ą|ă) f Ā(Ă|Ą) + Ā(Ą|ă) (b¿t đẳng thāc cuối cùng đúng vì khi có thêm điều kiện ln làm giảm entropy).

Dá th¿y āāā(Ă, ă) g 0, d¿u bằng xảy ra khi Ă = ă, và āāā(Ă, ă) = āāā(ă, Ă).Do đó đß chứng tỏ NVI là mãt metric, ta chỉ cÁn chāng minh NVI th漃ऀa mãn b¿t đẳng thāc tam giác, ngh*a là āāā(Ă, ă) f āāā(Ă, ă) + āāā(Ą, Ă) . Ā(ă) + Ā(Ă|Ą) + Ā(Ą|ă)

=<sup>Ā(Ă|Ą) + Ā(Ą|ă)</sup><sub>Ā(Ă|Ą) + Ā(ă, Ą)</sub>=<sub>Ā(Ă|Ą) + Ā(ă, Ą)</sub><sup>Ā(Ă|Ą)</sup> +<sub>Ā(Ă|Ą) + Ā(ă, Ą)</sub><sup>Ā(Ą|ă)</sup>

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

āāā(Ă, ă) f āāā(Ă, ă) + āāā(Ą, Ă) . ∎

Giá trß cÿa āāā(Ă, ă) nằm trong khoảng [0,1]. āāā(Ă, ă) cũng là mãt metric phß quát theo ngh*a nÁu mãt đã đo khoảng cách nào đó khác xác đßnh Ă và ă là gÁn nhau, thì NVI cũng s¿ đánh giá chúng gÁn nhau.

Mặc dù các đã đo entropy trên đây đ°ÿc đßnh ngh*a cho các thc tính phõn loi hoc rỗi rc, chỳng cng cú thò đ°ÿc xác đßnh cho các thc tính liên tāc, nÁu miền giá trß cÿa các thc tính này đ°ÿc rỗi rc húa trồc mót cỏch thớch hp [27].

<b>2.3 Mát sß thu¿t tốn hiáu q cÿa lý thuy¿t t¿p thơ </b>

PhÁn này trình bày khái qt mãt số thuÃt toán hiệu quả trên các bảng dữ liệu lån, đó là các tht tốn tìm låp t°¢ng đ°¢ng, tÃp x¿p xỉ trên, tÃp x¿p xỉ d°åi và miền d°¢ng.

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

<b>Thu¿t tốn 2.1 Tht toỏn xỏc ònh lồp tÂng Âng </b>

<i><b>u vo: Tp i tng , tp thuc tớnh ỵ. </b></i>

<i><b>u ra: Tp các lớp tương đương ÿ trong Ā theo quan hệ (ỵ), (tc l phõn </b></i>

<b>Thut toỏn 2.2 Thut toỏn xác đßnh x¿p xỉ d°åi </b>

<i><b>Đầu vào: Tập đối tượng , tp thuc tớnh ỵ, tp cỏc i tng . u ra: Tp cỏc i tng ỵ. </b></i>

<i><b>Thut toỏn: </b></i>

<i>Bc 1: Khi to ỵ = ; </i>

<i> Xác định phân hoạch ă của tập v tr theo quan h (ỵ). Bc 2: </i><small>1</small> <i>= Ā. </i>

<i> Nếu: Ā</i><small>1</small> <i>b ∅ </i>

<i>Thì: Thực hiện bước 3; </i>

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

<i>Ngược lại: Thực hiện bước 5. </i>

<b>Thu¿t tốn 2.3 Tht tốn xác đßnh x¿p xỉ trên </b>

<i><b>Đầu vo: Tp i tng , tp thuc tớnh ỵ, tp các đối tượng ÿ. Đầu ra: Tập các đối tượng þ̅ÿ. </b></i>

<i><b>Thuật toán: </b></i>

<i>Bước 1: Khởi tạo þ̅ÿ = ∅; </i>

<i>Xác định phân hoạch ă của tập vũ trụ theo quan h(ỵ)s. </i>

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

<b>Thut toỏn 2.4 Thut toỏn xỏc ònh min dÂng </b>

<i><b>u vo: H thụng tin ỵ = (, ý, , ), ý = ÿ * Ā. </b></i>

<i><b>Thuật toán: </b></i>

<i>Bước 1: Xác định các lớp tương đương ÿ</i><sub>1</sub><small>ÿ</small>, ÿ<sub>2</sub><small>ÿ</small>, & ÿ<small>ă</small><sup>ÿ</sup><i><sup> c</sup>ủa quan hệ (). Bc 2: ỵ</i><small></small><i>() = . </i>

<i>Bc 3: </i>

<i>Với mọi: Ā = 1,2, & , ă </i>

<i>Nếu: mọi đối tượng trong ÿ</i><sub>ÿ</sub><small>ÿ</small><i><sub> b</sub>ằng nhau tại tất cả các thuộc tính trong Ā </i>

<i> Thỡ: </i>ỵ<small></small>() = ỵ<small></small>() * ÿ<sub>ÿ</sub><small>ÿ</small><i><sub>. </sub></i>

<i> Hết nếu. Hết với mọi. </i>

Các tht tốn trên có đã phāc tp thỗi gian () v ó phc tp khụng gian là

<i><b>Ă(Ą), våi</b></i>Ą là số đối t°ÿng cÿa tÃp Ā, ā là số thuãc tính cÿa tÃp ý.

<b>2.4 Āng dāng cÿa lý thuy¿t t¿p thô trong khám phá tri thāc tÿ c¢ sơꄉ dă liáu </b>

Lý thuyÁt tÃp thơ có thß đ°ÿc āng dāng vào hÁu hÁt các cơng đo¿n cÿa q trình khám phá tri thāc từ dữ liệu. D°åi đây là mãt số āng dāng cā thß cÿa lý thut tÃp thơ trong q trình khám phá tri thāc từ c¢ sơꄉ dữ liệu [9, 10, 11, 13, 28].

<b>(1) Ti</b><i><b>Án xā lý dă liáu. Våi giả thiÁt mơ hình tối thißu, lý thut tÃp thơ đ°ÿc sử dāng </b></i>

đß rút gán và làm s¿ch dữ liệu cho các phân tích tiÁp theo. Mãt cách cā thß, đối våi cơng đo¿n tiền xử lý dữ liệu, lý thuyÁt tÃp thô là công cā hữu hiệu giải quyÁt các v¿n đề d°åi đây [9, 10, 11].

- Xử lý các giá trò thiu .

- Rỗi rc húa dữ liệu. Lý thuyÁt tÃp thô cho phép t¿o ra cỏc phộp rỗi rc húa d liu bo ton các låp quyÁt đßnh trong mãt bảng quyÁt đßnh.

- Rút gán dữ liệu.

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

Trong lý thuyÁt tÃp thô v¿n đề lựa chán thuãc tính trong khai phá dữ liệu đ°ÿc đ°a về bài tốn tìm tÃp thc tính rút gán. Các cơng cā sử dāng đß tìm tÃp rút gán là quan hệ khơng phân biệt giữa các cá thß và các tht tốn tìm tÃp rút gán. Sử dāng các cụng c ny ngỗi ta cú thò tỡm c tÃp các thuãc tính nh漃ऀ nh¿t nhằm lo¿i b漃ऀ những thc tính d° thừa, khơng cÁn thiÁt cho nhiệm vā khai phá; sau đó, dựa vào tÃp thc tính rút gán này có thß tìm ra các quy luÃt chung hoặc các mÁu bißu dián dữ liệu.

<b>(2) Khai phá dă liáu. Trong công đo¿n khai phá dữ liệu, lý thut tÃp thơ có thß </b>

đ°ÿc sử dāng giải quyÁt các v¿n đề sau [9, 10, 11, 13, 28]:

- Phân låp dữ liệu. Là māc đích đÁu tiên lý thut tÃp thơ h°ång tåi. Hiện nay, các cơng cā tÃp thơ có khả năng gii quyt bi toỏn phõn lồp trong c hai trỗng hÿp, bảng thông tin nh¿t quán và không nh¿t quán.

- Gom cām dữ liệu. Ngoài khả năng giải quyÁt hiệu quả bài toán phân låp, gÁn đây mãt số nghiên cāu āng dāng lý thuyÁt tÃp thô vào v¿n đề gom cām cũng đã đ°ÿc thực hiện - Phát hiện luÃt kÁt hÿp. Phép phân tích sự phā thuãc giữa các thuãc tính trong lý thut tÃp thơ có thß đ°ÿc sử dāng đß phát hiện lt kÁt hÿp, l°ÿng hóa māc đã kÁt hÿp giữa các tÃp thc tính.

Có thß nói lý thut tÃp thơ là cơng cā hữu hiệu cho q trình khám phá tri thāc từ c¢ sơꄉ dữ liệu. Tuy vÃy, các kÁt quả nghiên lý thuyÁt và āng dāng đÁn nay vÁn còn những h¿n chÁ. Những h¿n chÁ nßi bÃt cÿa lý thut tÃp thơ kinh đißn là [9, 10, 11, 13]:

- D liu khai phỏ phi l rỗi rc, trong khi phÁn lån các c¢ sơꄉ dữ liệu thực tiỏn thỗng cha c cỏc thuóc tớnh liờn tc.

- Dữ liệu khai phá phải đÁy đÿ, không bß nhiáu trong khi dữ liệu cÿa phÁn lån các c s d liu thc tiỏn thỗng bò thiu và/hoặc chāa nhiáu.

- Tri thāc khám phá đ°ÿc da trờn lý thuyt tp thụ thỗng nhy cm vồi sự biÁn đãng cÿa dữ liệu.

- Các thuÃt toán khai phá dữ liệu dựa vào lý thuyÁt tp thụ thỗng cú ó phc tp cao.

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Có thß th¿y, lý thut tÃp thơ đã đ°ÿc āng dāng vào hÁu hÁt các công đo¿n cÿa quá trình khám phá tri thāc từ dữ liệu. Trong đó, rút gán thc tính đ°ÿc xem là āng dāng quan tráng nh¿t cÿa lý thuyÁt tÃp thô trong khai phá dữ liệu. Māc tiêu cÿa rút gán thuãc tính là lo¿i b漃ऀ các thuãc tính d° thừa đß tìm ra tÃp con các thc tính cốt yÁu và cÁn thiÁt trong c¢ sơꄉ dữ liệu. Đối våi mãt bảng quyÁt đßnh (tÃp dữ liệu dành cho bài tốn phân låp, có các thc tính điều kiện và thc tính qut đßnh), rút gán thc tính là tìm tÃp con nh漃ऀ nh¿t cÿa tÃp thc tính điều kiện bảo tồn thơng tin cho māc đích phân låp các đối t°ÿng nh° tÃp t¿t cả các thuãc tính điều kiện ban đÁu.Các tÃp hÿp con thuãc tính nh° vÃy đ°ÿc gái là các tÃp rút gán. Nói chung, trong mãt bảng quyÁt đßnh có thß tồn t¿i nhiều tÃp rút gán. Trong những năm qua, nhiều ph°¢ng pháp tính tốn tÃp rút gán đã đ°ÿc nghiên cāu và đề xu¿t trong cãng đồng các nhà nghiên cāu lý thuyÁt tÃp thơ. Các ph°¢ng pháp chính bao gồm: ph°¢ng pháp sử dāng ma trÃn phân biệt, ph°¢ng pháp dựa trên miền d°¢ng, ph°¢ng pháp sử dāng các phép tốn trong đ¿i số quan hệ, ph°¢ng pháp sử dāng entropy thơng tin. Bên c¿nh đó, gom cām dữ liệu cũng là mãt āng dāng quan tráng trong lý thuyÁt tÃp thô trong khai phá dữ liệu. Trong những năm gÁn đây, gom cām dữ liệu phân lo¿i sử dāng tÃp thô đã thu hút nhiều sự chú ý từ cãng đồng nghiên cāu khai phá dữ liệu [29, 22, 30, 31, 24, 23]. Lý do là vì:

(1) Lý thut tÃp thơ là cơng cā phân tích hiệu quả dữ liệu phân lo¿i;

(2) Lý thuyÁt tÃp thô cho phép xử lý sự không chắc chắn cÿa dữ liệu. Mặc dù trong những năm qua, mãt số thuÃt toán gom cām dữ liệu phân lo¿i đã đ°ÿc đề xu¿t, nh°ng chúng không đ°ÿc thiÁt kÁ đß xử lý sự khơng chắc chắn trong q trình gom cām. Xử lý sự khơng chắc chắn trong quá trình gom cām là mãt v¿n đề quan tráng, bơꄉi vì trong nhiều āng dāng thực t thỗng khụng cú ranh giồi rừ rng gia cỏc cām.

<b>2.5 K¿t lu¿n ch°¢ng 2 </b>

Nãi dung ch°¢ng 2 bao gồm 3 phÁn chính: khái quát về lý thuyÁt về tÃp thô våi các khái niệm liên quan, quy trình khám phá tri thāc từ c¢ sơꄉ dữ liệu våi các kỹ thuÃt khai phá dữ liệu c¢ bản và āng dāng cÿa cÿa lý thuyÁt về tÃp thô trong khai phá dữ liệu.

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Các khái niệm c¢ bản trình bày trong chÂng ny l c s ò nghiờn cu xu¿t các ph°¢ng pháp måi tìm tÃp rút gán trong mãt bảng quyÁt đßnh và gom cām dữ liệu phân lo¿i sử dāng tÃp thơ, trình bày ơꄉ các ch°¢ng sau.

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

<b>CH¯¡NG 3. LĄA CHàN THC TÍNH SĀ DĀNG LÝ THUY¾T T¾P THƠ </b>

<b>3.1 Mơꄉ đ</b>

Nh° đã trình bày trong Ch°¢ng 1, trong khai phỏ d liu, cỏc CSDL thc t thỗng có kích th°åc r¿t lån. Điều này làm cho q trình khai phá dữ liệu gặp nhiều khó khăn, thÃm chí là b¿t khả thi. V¿n đề đặt ra là tr°åc khi thực hiện thuÃt toán khai thác dữ liệu cÁn phải có ph°¢ng pháp rút gán thc tính cÿa c¢ sơꄉ dữ liệu mà vÁn bảo tồn đ°ÿc những thông tin cÁn khai thác. Rút gán thc tính có thß đ°ÿc thực hiện bằng cách sử dāng các kỹ thuÃt phù hÿp, tùy thuãc vào yêu cÁu cÿa bài toán khai phá dữ liệu đặt ra. Những kỹ thuÃt này có thß đ°ÿc chia thành hai lo¿i chính: biÁn đßi thc tính (attribute transformation) và lựa chán thuãc tính (attribute selection) [1, 9, 10, 11]. Kỹ thuÃt biÁn đßi thc tính, hay cịn gái là trích xu¿t thc tính (attribute extraction), là việc t¿o ra mãt số nh hÂn cỏc thuóc tớnh mồi bng cỏch bin òi các thuãc tính ban đÁu sao cho các thuãc tính đ°ÿc t¿o ra chāa thơng tin hữu ích nh¿t cho māc tiêu khai phá. Ng°ÿc l¿i, kỹ thuÃt lựa chán thuãc tính chỉ lo¿i b漃ऀ những thuãc tính không cÁn thiÁt hoặc không quan tráng và giữ ngun các tính năng cịn l¿i. Trong hai lo¿i kỹ thuÃt rút gán thuãc tính, kỹ thuÃt trích xu¿t thc tính là phāc t¿p h¢n và cho kÁt quả khú gii thớch cho ngỗi dựng. Tuy nhiờn, tht khú cú thò so sỏnh hiu qu ca hai phÂng pháp vì chúng đ°ÿc sử dāng trong những tình huống khác nhau.

Các nghiên cāu gÁn đây cho th¿y, lý thuyÁt tÃp thô là mãt công cā r¿t hiệu quả giải quyÁt nhiều v¿n đề quan tráng trong khai phá dữ liệu, trong đó có bài tốn lựa chán thuãc tính. Lựa chán thuãc tính là mãt phÁn quan tráng đ°ÿc nghiên cāu trong lý thuyÁt tÃp thô và đ°ÿc xem là āng dāng quan tráng nh¿t cÿa lý thuyÁt tÃp thô trong khai phá dữ liệu. Đối våi mãt bảng quyÁt đßnh, lựa chán thc tính là việc tìm tÃp con nh漃ऀ nh¿t cÿa tÃp thc tính điều kiện, bảo tồn thơng tin cho māc đích phân låp các đối t°ÿng nh° tÃp t¿t cả các thuãc tính điều kiện ban đÁu. Các tÃp hÿp con thuãc tính nh° vÃy đ°ÿc gái là các tập rút

<i>gọn (reducts) [8]. </i>

Trong những năm qua, nhiều ph°¢ng pháp tính tốn tÃp rút gán mãt bảng quyÁt đßnh đã đ°ÿc nghiên cāu đề xu¿t trong cãng đồng các nhà nghiên cāu lý thuyÁt tÃp thơ. Các

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

ph°¢ng pháp chính bao gồm: ph°¢ng pháp sử dāng ma trÃn phân biệt, ph°¢ng pháp dựa vào đã phā thuãc, ph°¢ng pháp sử dāng các phép tốn trong đ¿i số quan hệ, ph°¢ng pháp sử dāng entropy thơng tin.

Ch°¢ng 3 này trình bày khái quát về v¿n đề lựa chán thc tính, các ph°¢ng pháp chính tìm tÃp rút gán cÿa mãt bảng quyÁt đßnh và đề xu¿t mãt thuÃt toán måi, våi tên gái ACBRC, dựa trên gom cām các thuãc tính.

<b>3.2 Khái quát vÁ bài tốn ląa chán thc tính </b>

Lựa chán thc tính có thß đ°ÿc thực hiện bằng cách sử dāng các kỹ thuÃt phù hÿp, tùy thuãc vào yêu cÁu cÿa bài toán khai phá dữ liệu đặt ra. Những kỹ tht này có thß đ°ÿc chia thành hai lo¿i chính, đó là biÁn đßi thc tính và lựa chán thuãc tính [1, 32, 33].

<i>Biến đổi thuộc tính là q trình biÁn đßi khơng gian thc tính ban đÁu thành khơng </i>

gian thc tính måi có số chiu thp hÂn. Vồi cỏc k thut bin òi thuóc tớnh, tp thuóc tớnh mồi c to ra thỗng khụng mang ý ngh*a vt lý i vồi ngỗi s dng v thỗng khú hiòu.

<i>La chn thuc tính là q trình chán ra mãt tÃp hÿp con thuãc tính từ tÃp hÿp các </i>

thuãc tính ban đÁu, våi māc tiêu lo¿i b漃ऀ càng nhiều càng tốt các thc tính khơng liên quan và d° thừa nhằm cải thiện ch¿t l°ÿng dữ liệu và giảm đã phāc tp v thỗi gian v khụng gian cho vic phân tích. ThÃt khơng may, việc tính tốn t¿t cả các tÃp rút gán hay tính tốn mãt tÃp rút gán tối °u (theo ngh*a có số thc tính nh漃ऀ nh¿t) là mãt bài tốn NP- khó [3, 5]. Tuy nhiờn, trong thc hnh thỗng khụng yờu cu tìm t¿t cả các tÃp rút gán mà chỉ cÁn tìm đ°ÿc mãt tÃp rút gán tốt nh¿t theo mãt tiêu chu¿n đánh giá nào đó là đÿ. Do đó, nhiều tht tốn heuristic tìm kiÁm mãt tÃp rút gán x¿p xỉ đã đ°ÿc nghiên cāu và đề xu¿t [1, 3, 4, 5]. Các thuÃt toán này gim thiòu ỏng kò khi lng tớnh toỏn, nhỗ ú có thß áp dāng đối våi các bài tốn có khối l°ÿng dữ liệu lån. Nãi dung d°åi đây trình bày khái quát về các kỹ

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

(2) Đánh giá tÃp con.

(3) Kißm tra điều kiện dừng. (4) Kißm chāng kÁt quả.

Hiện nay có hai cách tiÁp cÃn chính đối våi bài tốn lựa chán thuãc tính bao gồm tiÁp cÃn lác (filter) và đóng gói (wrapper) [1, 3, 32].Mái cách tiÁp cÃn có những chú tráng riêng dành cho việc rút gán kích th°åc dữ liệu hay đß nâng cao đã chính xác.

Våi cách tiÁp cÃn filter, các thuãc tính đ°ÿc chán chỉ dựa trên đã quan tráng cÿa chúng trong việc mô tả dữ liệu, gái là đã quan tráng cÿa thuãc tính. Cho đÁn nay, Nhiều ph°¢ng pháp nhiều đánh giá đã quan tráng cÿa cÿa các thuãc tính đã đ°ÿc đề xu¿t.

Ng°ÿc l¿i våi cách tiÁp cÃn filter, cách tiÁp cÃn wrapper tiÁn hành lựa chán thuãc tính bằng cách áp dāng ngay thuÃt khai phá, đã chính xác cÿa kÁt quả khai phá đ°ÿc l¿y làm tiêu chu¿n đß lựa chán các tÃp con thuãc tính.

Cách tiÁp cn filter cú u iòm l thỗi gian tớnh toỏn nhanh, nh°ng do không sử dāng thông tin nhãn låp (hác khơng có giám sát) cÿa các bã dữ liu nờn kt qu thỗng cú ó chớnh xỏc không cao. GÁn đây, nhiều nhà nghiên cāu đã đề xu¿t mãt số cách tiÁp cÃn lựa chán thuãc tính måi, chẳng h¿n cách tiÁp cÃn lai ghép (hybrid approach) nhằm kÁt hÿp các °u đißm cÿa cả hai cách tiÁp cÃn filter và wrapper [33].

Cũng có thß phân chia các cách tiÁp cÃn bài toán lựa chán thc tính thành hai lo¿i: có giám sát (supervised) và khơng có giám sát (unsupervised), tùy theo việc lựa chán có sử dāng hay khơng sử dāng thơng tin nhãn låp cÿa các đối t°ÿng.

Quy trình t¿o lÃp các tÃp con là v¿n đề quan tráng trong q trình lựa chán thc tính. T¿o lÃp tÃp con thc tính là q trình tìm kiÁm liên tiÁp nhằm t¿o ra các tÃp con đß tiÁn hành đánh giá và lựa chán. Quy trình này bao gồm việc chán đißm xu¿t phát, chán h°ång tìm kiÁm và chiÁn l°ÿc tìm kiÁm tÃp con. Giả sử có Ą thuãc tính trong tÃp dữ liệu ban đÁu, khi đó số t¿t cả các tÃp con khác ráng từ Ą thc tính s¿ là 2<small>Ą</small>2 1. Có thß th¿y, việc tìm tÃp con tối °u theo mãt tiêu chu¿n nào đó, ngay cả khi Ą khơng lån lắm, cũng là mãt việc khơng thß. Vì vÃy, phÂng phỏp chung ò tỡm tp con thuóc tớnh ti °u là lÁn l°ÿt t¿o ra các tÃp con đß so sánh.

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

Mái tÃp con sinh ra bơꄉi mãt thÿ tāc s¿ đ°ÿc đánh giá theo mãt tiêu chu¿n nh¿t đßnh và đem so sánh våi tÃp con tốt nh¿t tr°åc đó. NÁu tÃp con này tốt h¢n, nó s¿ thay thÁ tÃp cũ. Q trình tìm kiÁm tÃp con thc tính tối °u s¿ dừng khi mãt trong bốn điều kiện sau xảy ra [32, 33]:

- Đã thu đ°ÿc số thc tính quy đßnh;

- Số b°åc lặp quy đßnh cho q trình lựa chán đã hÁt;

- Việc thêm vào hay lo¿i båt mãt thuãc tính nào đó khơng cho mãt tÃp con tốt h¢n; - Đã thu đ°ÿc tÃp con tối °u theo tiêu chu¿n đánh giá.

TÃp con tốt nh¿t cuối cùng phải đ°ÿc kißm chāng thơng qua việc tiÁn hành các phép kißm đßnh, so sánh các kÁt quả khai phá våi tÃp thuãc tính <tốt nh¿t= này và tÃp thuãc tính ban đÁu trên các tÃp dữ liệu thực hoặc nhân t¿o khác nhau.

Thụng thỗng cú hai phÂng phỏp to lp cỏc tp con cho việc chán lựa thuãc tính, bao gồm [32, 33]: phÂng phỏp bò sung dn (Forward Generation) v ph°¢ng pháp lo¿i b漃ऀ dÁn (Backward Generation).

T¿o lp theo phÂng phỏp bò sung dn bt u bng tÃp ráng. Sau đó, t¿i mái b°åc lặp mãt thuãc tính tốt nh¿t (theo tiêu chu¿n đánh giá) trong số các thc tính cịn l¿i s¿ đ°ÿc thêm vào. Quá trình t¿o lÃp dừng l¿i khi đã vét c¿n t¿t cả các thuãc tính cÿa tÃp dữ liệu ban đÁu hoặc đã tìm đ°ÿc tÃp con tối u.

Ngc li vồi phÂng phỏp bò sung dn, ph°¢ng pháp lo¿i b漃ऀ dÁn bắt đÁu bằng tÃp t¿t cả các thuãc tính. T¿i mái b°åc lặp, mãt thuãc tính tồi nh¿t (theo tiêu chu¿n đánh giá) s¿ bß lo¿i. TÃp thc tính ban đÁu s¿ nh漃ऀ dÁn cho đÁn khi chỉ cịn l¿i mãt thc tính hoặc khi điều kiện dừng th漃ऀa mãn.

Mãt phÂng phỏp khỏc ò to lp cỏc tp con l bắt đÁu bằng mãt tÃp con thuãc tính chán ngÁu nhiên, sau đó t¿i mái b°åc lặp lÁn l°ÿt thêm vào hoặc lo¿i båt mãt thuãc tính cũng đ°ÿc chán mãt cách ngÁu nhiên.

Mãt v¿n đề quan tráng khác trong lựa chán thuãc tính là xác đßnh cách thāc đánh māc đã phù hÿp cÿa mái tÃp con. Đß đánh giá mãt tÃp con thuãc tính đ°ÿc chán là tối °u phải

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

dựa trên mãt tiêu chu¿n đánh giá nh¿t đßnh, mãt tÃp con là tối °u theo tiêu chu¿n này ch°a chắc s¿ tối °u theo tiêu chu¿n khác. Các tiêu chu¿n đánh giá có thß phân thành hai lo¿i: tiêu chu¿n đãc lÃp và tiêu chu¿n ph thuóc [32, 33].

Tiờu chun óc lp (thỗng đ°ÿc dùng trong cách tiÁp cÃn filter) đánh giá māc đã phù hÿp cÿa mãt hay mãt tÃp con thc tính mãt cách đãc lÃp, khơng thơng qua áp dāng mãt thuÃt hác. Các tiêu chu¿n đãc lÃp thỗng c s dng ò ỏnh giỏ cỏc tp con thc tính đß lựa chán là: số đo khoảng cách, số đo l°ÿng thông tin thu thêm, số đo đã phā thuãc, số đo đã nh¿t quán và s o ó tÂng t.

Tiờu chun ph thuóc (thỗng đ°ÿc dùng trong cách tiÁp cÃn wrapper) đánh giá mãt tÃp con thc tính thơng qua đã hiệu quả cÿa mãt thuÃt hác áp dāng trên chính tÃp thuãc tính cÁn đánh giá. Trong hác có giám sát, māc đích đÁu tiên là cực tißu hóa sai số dự báo. Do đó, sai số dự báo (hay ó chớnh xỏc ca d bỏo) thỗng c chỏn lm tiêu chu¿n đß đánh giá các tÃp con thuãc tính. KÁt quả tÃp con thuãc tính đ°ÿc chán dựa trên tiêu chu¿n này có khả năng dự báo cao tuy nhiên đißm h¿n chÁ là nó s¿ m¿t nhiu thỗi gian tớnh toỏn.

<b>3.3 Cỏc phÂng phỏp ląa chán thc tính sā dāng lý thuy¿t t¿p thơ </b>

Trong cãng đồng tÃp thơ, các tht tốn lựa chán thc tính đ°ÿc thực hiện bằng việc tìm kiÁm các rút gán (reducts) cÿa tÃp các thuãc tính, ngh*a là tìm cách rút gán tối đa tÃp các thuãc tính ban đÁu mà vÁn đảm bảo đ°ÿc những thông tin cÁn thiÁt đối våi nhiệm vā khai phá dữ liệu. ThÃt khơng may, việc tìm kiÁm t¿t cả các tÃp rút gán là khơng thß thực hin c trong hu ht cỏc trỗng hp vỡ vồi tÃp dữ liệu có Ą thc tính s¿ có 2<small>Ą</small>2 1 tÃp hÿp con, khi Ą tăng số tÃp con thc tính s¿ tăng theo c¿p số nhân. Tìm kiÁm t¿t cả các tÃp rút gán chỉ có thò c khi tÂng i nh.

Tuy nhiờn, trong ng dng thc tiỏn thỗng khụng ũi hi tỡm tt cả các tÃp rút gán mà chỉ cÁn tìm mãt tÃp rút gán tốt nh¿t theo mãt ngh*a nào đó là đÿ. Vì vÃy, trong những năm qua nhiều tht tốn heuristic tìm mãt tÃp rút gán x¿p xỉ đã đ°ÿc các nhà nghiên cāu đề xu¿t. Các tht tốn này nhằm giảm khối l°ÿng tính tốn, nhỗ ú cú thò ỏp dng i vồi cỏc tÃp dữ liệu lån. Våi cách tiÁp cÃn này, các khái niệm cÿa lý thuyÁt tÃp thô đ°ÿc sử dāng đß xác mãt tiêu chu¿n đánh giá māc đã cÁn thiÁt hay quan tráng cÿa các thuãc tính, sau đó

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

chu¿n đánh giá này đ°ÿc sử dāng nh° là các hàm heuristic đßnh h°ång cho q trình lựa chán thc tính trong các tht toỏn.

Cỏc phÂng phỏp heuristic thỗng ỏp dng mót trong hai chiÁn l°ÿc c¢ bản tìm kiÁm tÃp rút gán, đó là bß sung dÁn và lo¿i b漃ऀ dÁn [2, 9, 13, 10]. ChiÁn l°ÿc bß sung dÁn bắt đÁu våi tÃp ráng hoặc tÃp lõi Core và liên tāc bß sung thêm mãt thc tính t¿i mái thỗi iòm cho n khi cú c mót tp rút gán, hoặc mãt tÃp cha cÿa mãt tÃp rút gán. ChiÁn l°ÿc lo¿i b漃ऀ dÁn bắt đÁu våi tÃp hÿp đÁy đÿ các thuãc tính và liên tāc xúa i mót thuóc tớnh ti mỏi thỗi iòm cho đÁn khi có đ°ÿc mãt rút gán. Từ tính ch¿t cÿa tÃp rút gán, có thß th¿y các tht tốn áp dāng chiÁn l°ÿc lo¿i b漃ऀ dÁn ln dÁn đÁn mãt tÃp rút gán.

Māc này tr°åc hÁt trình bày tht tốn kinh đißn tìm t¿t cả các tÃp rút gán sử dāng ma trÃn không phân biệt, sau đó là mãt số tht tốn heuristic tìm tÃp rút gán x¿p xỉ cÿa bảng quyÁt đßnh bao gồm: ph°¢ng pháp dựa trên hàm đo đã phā thc, ph°¢ng pháp sử dāng các phép tốn trong đ¿i số quan hệ, ph°¢ng pháp sử dāng entropy thơng tin. Các tht tốn heuristic có đã phāc t¿p tớnh toỏn theo thỗi gian l a thc, v do đó có thß áp dāng đ°ÿc trên bảng dữ liệu våi kích th°åc lån.

<b>3.3.1 Ph°¢ng pháp ląa chán thc tính sā dāng ma tr¿n phân biát </b>

Ph°¢ng pháp lựa chán thuãc tính sử dāng ma trÃn phân bit l phÂng phỏp nhm xỏc ònh tt c các tÃp rút gán trong mãt bảng qut đßnh có s thuóc tớnh tÂng i nh.

Cho b<i>ng quyt ònh Āÿ = (Ā, ÿ * {ą}) våi tÃp các đối t°ÿng Ā = {Ă</i><sub>1</sub>, Ă<sub>2</sub>, . . . , Ă<sub>Ą</sub>}, tÃp các thuãc tính điều kiện ÿ = {Ą<small>1</small>, Ą<sub>2</sub>, . . . , Ą<sub>ă</sub>} và thuộc tính đißu kiện ą. Đß tìm t¿t cả các tÃp rút gán cÿa mãt bảng quyÁt đßnh, trong [28] Skowron đã đề xu¿t thuÃt toán sử dāng khái niệm ma trÃn phân biệt và hàm phân biệt đßnh ngh*a d°åi đây.

<i><b>Đßnh nghĩa 3.1. [28] Ma trận phân biệt của Āÿ là ma trận Ā(Āÿ) cỡ Ą × Ą với các </b></i>

<i>phần tử ă</i><small>ÿĀ</small> <i>xác định: </i>

ă<sub>ÿĀ</sub> = {<sup> {Ą * ÿ|Ą(Ă</sup><sup>ÿ</sup>) b Ą(Ă<sub>Ā</sub>) khi ą(Ă<sub>ÿ</sub>) b ą(Ă<sub>Ā</sub>)}

</div>

×