Tải bản đầy đủ (.pdf) (62 trang)

Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu bị sửa đổi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.93 MB, 62 trang )

B GIÁO D CăVÀă ÀOăT O
TR

NGă

I H C CÔNG NGH TP.HCM

---------------------------

NGUY NăV Nă I N

KHAI THÁC LU T PHÂN L P K T H P
TRểNăC ăS

D

LI U B S Aă

LU NăV NăTH CăS
Chuyên ngành: Công ngh thông tin
Mã s ngành: 60480201

TP. H CHệăMINH,ăthángă11ăn mă2016

I


B GIÁO D CăVÀă ÀOăT O
TR

NGă



I H C CÔNG NGH TP.HCM

---------------------------

NGUY NăV Nă I N

KHAI THÁC LU T PHÂN L P K T H P
TRểNăC ăS

D

LI U B S A

I

LU NăV NăTH CăS
Chuyên ngành: Công ngh thông tin
Mã s ngành: 60480201
CÁN B

H

NG D N KHOA H C: TS. NGUY N TH THUÝ LOAN

TP. H CHÍ MINH, tháng 12 n mă2016


CÔNGăTRỊNHă
TR


Cán b h

NGă

C HOÀN THÀNH T I

I H C CÔNG NGH TP. HCM

ng d n khoa h c : TS. NGUY N TH THUÝ LOAN
(Ghi rõ h , tên, h c hàm, h c v và ch ký)

Lu nă v nă Th că s ă đ

c b o v t iă Tr

ngă

i h c Công ngh TP. HCM

ngày 17 tháng 12 n mă2016
Thành ph n H iăđ ngăđánhăgiáăLu năv năTh căs ăg m:
(Ghi rõ h , tên, h c hàm, h c v c a H i đ ng ch m b o v
TT
H ăvƠătênă
Ch
1
GS. TS. Phan Th T i
2
TS. Cao Tùng Anh

3
TS. Ph m Th Thi t
4
PGS.ăTS.ăVõă ìnhăB y
5
TS.ăV năThiênăHoƠng

Lu n v n Th c s )
cădanhăH iăđ ngă
Ch t ch
Ph n bi n 1
Ph n bi n 2
y viên
yăviên,ăTh ăkỦă

Xác nh n c a Ch t ch H iăđ ngăđánhăgiáă Lu n sau khi Lu năv năđưăđ

c

s a ch a (n u có).
Ch t ch H iăđ ngăđánhăgiáăLV


TR

NGă HăCÔNGăNGH TP. HCM

VI Nă ĨOăT OăSAUă

C NGăHọAăXẩăH IăCH ăNGH AăVI TăNAM


IăH C

căl păậ T ădoăậ H nhăphúc
TP. HCM, ngày 01 tháng 12 n m 2016

NHI MăV ăLU NăV NăTH CăS ă
H tên h c viên: NGUY NăV Nă I N .................. Gi i tính: Nam .....................
NgƠy,ătháng,ăn măsinh: 22/06/1982 ........................... N iăsinh:

ng Nai ..............

Chuyên ngành: Công ngh thông tin ......................... MSHV: 1441860006 ............
I- Tênăđ ătƠi:ă
Khai thác lu t phân l p k t h pătrênăc ăs d li u b s aăđ i ..................................
II- Nhi măv ăvƠăn iădung:ăă
 Tìm hi u thu n toán khai thác lu t phân l pătrênăc ăs d li uăt nh.
 Tìm hi u thu n toán khai thác lu t phân l p k t h p trênă c ă s d li u
t ngătr

ng.

 Tìm hi u và xây d ng ví d cho thu n toán khai thác lu t phân l p k t
h p trênăc ăs d li u b s aăđ i.
 Xây d ngă ch

ngă trìnhă khaiă thácă lu t phân l p k t h p trên li u b s a

đ i.
 Vi t báo cáo.

III- NgƠyăgiaoănhi măv : 15/07/2015 ....................................................................
IV- Ngày hoàn thành nhi măv :ă1/12/2016 ...........................................................
V- Cánăb ăh
CÁN B H

ngăd n: TS. NGUY N TH THUÝ LOAN
NG D N

(H tên và ch ký)

KHOA QU N LÝ CHUYÊN NGÀNH
(H tên và ch ký)


L IăCAMă OAN

TôiăxinăcamăđoanăđơyălƠăcôngătrìnhănghiênăc u c a riêng tôi. Các s li u, k t
qu nêu trong Lu nă v nă lƠă trungă th că vƠă ch aă t ngă đ

c ai công b trong b t k

công trình nào khác.
Tôiăxinăcamăđoanăr ng m i s giúpăđ cho vi c th c hi n Lu năv nănƠyăđưă
đ

c c mă năvƠăcácăthôngătinătríchăd n trong Lu năv năđưăđ

c ch rõ ngu n g c.

H c viên th c hi n Lu năv n

(Ký và ghi rõ h tên)

NGUY NăV Nă I N


L IăCỄMă N
Tr

c tiên tôi xin bày t lòng bi tă năchơnăthƠnhăđ n cô Nguy n Th Thuý

Loanăđưăt n tình h tr ,ăh

ng d năvƠăđ ng viên tinh th n giúp chúng tôi hoàn

thành lu năv nănƠy.
Cho chúng tôi bày t lòng bi tă năchơnăthƠnhăđ n Quý Th yăCôăđưăh t lòng
gi ng d y, truy năđ t nh ng tri th c khoa h c và kinh nghi m quý báu cho chúng
tôi trong su t th i gian tham gia h c t pătheoăch

ngătrìnhăth c s

tr

ngăđ i

h c Công ngh Tp.HCM.
Sauăcùng,ăchoătôiăđ

c chuy n l iăcámă năgiaăđìnhăthơnăyêuăc aătôiăđưăluônă


luôn bên c nh tôi nh ngălúcăkhóăkh nănh t, là ngu năđ ng viên và ng h tinh
th n r t l năđ tôi có th hoàn thành lu năv n.
NGUY NăV Nă I N


TịMăT T
Ngày nay, d li uăngƠyăcƠngăphongăphú,ăđaăd ng và kh ng l v nhi uăl nhă
v c.ă

c bi t s phát tri n c a công ngh thông tin và vi c ng d ng công ngh

thông tin trong nhi uă l nhă v că đưă lƠmă choă khoă d li u yă t ngă lênă nhanhă chóng.ă
i u này d năđ n m t v n đ là c n có nh ng k thu t và công c m iăđ t đ ng
chuy năđ iă l
ng

ng d li u kh ng l kia thành các tri th c có ích, ph c v cho con

i. M tăkhác,ătrongămôiătr

ng c nhătranhăthìăng

i ta ngày càng c n có thông

tin v i t căđ nhanhăđ giúp cho vi c ra quy tăđ nh và ngày càng có nhi u câu h i
mang tính ch tăđ nh tính c n ph i tr l i d a trên kh iăl

ng d li u kh ng l đưăcó.ă

Hi nănayăc ngăđưăcóănhi u thu t toán v khai thác lu t phân l p k t h pătrênăc ăs

d li uăt nhănh ngăcácăthu t toán khai thác lu t phân l pătrênăc ăs d li u b s a
đ iăthìăch aăcó.
gi i quy t các v nă đ nh ăđưănêuă trên, n i dung nghiên c u c a lu n
v năs t p trung vào nghiên c u các thu t toán khai thác lu t k t h p, khai thác lu t
phân l p k t h pătrênăc ăs d li u b s aăđ i, vi tăch
thu tătoánăđưănghiênăc u.

ngătrìnhăth c nghi m m t


ABSTRACT
Today, data is increasingly rich, and huge variety of fields. In particular the
development of information technology and the application of information
technology in various fields has made data warehouse was increasing rapidly. This
leads to a problem is the need for new techniques and tools to automatically convert
other huge amounts of data into useful knowledge, to serve man. On the other hand,
in a competitive environment, people increasingly need information at a fast pace to
help in decision-making and more questions of qualitative nature need to be
answered based on the volume of data giant had. Currently also had many mining
algorithms combined classification rules based on static data mining algorithms but
subclass law on database is modified, then no.
To solve the problems as mentioned above, the research content of the thesis
will focus on the study of algorithms combined mining law, mining law combined
classification on the basis of revised data, Useful program an algorithm
experimentally studied.


i

DANHăM CăCỄCăT ăVI TăT Tă

VI T T T

VI Tă



CSDL

C ăs d li u

DHP

Direct Hashing and Pruning

ụăNGH A

thu t b m và t a tr c

K
ti p

FUP

Fast Update algorithm

Thu t toán c p nh t nhanh

SU

Upper support threshold


h tr ng

ng trên

SL

Lower support threshold

h tr ng

ng d

minSup

Minimum support

h tr t i thi u

minConf

Minimum Confidence

tin c y t i thi u

i


ii


DANHăM CăCỄCăB NG
B ng 2.1: M t CSDL hu n luy n m u cho thu t toán Car-Miner ............................17
B ng 3.1: B ngăc ăs d li u m u ............................................................................27
B ng 3.2: B ngăc ăs d li uăđ

c thêm m i..........................................................27

B ng 3.3: B ng nút 1-itemset c a MECR-tree .........................................................29
B ng 3.4: B ng nút 1-itemset c a MECR-tree sau khi clear Obidset. ....................30
B ng 3.5: B ng nút 1-itemset c a MECR-tree sau khi update Obidset, Class Count
và Is Mark ...........................................................................................................30
B ng 3.6: C ăs d li u b xóa. ................................................................................33
B ng 3.7: B ng nút 1-itemset c a MECR-tree sau khi c p nh tăc ăs d li u b xóa.....34
B ng 3.8: C ăs d li u b s a .................................................................................37
B ng 3.9: B ng nút 1-itemset c a MECR-tree sau khi c p nh tăc ăs d li u b xóa...38
B ng 4.1:

căđi m c a các CSDL th c nghi m......................................................41

B ng 4.2: B ng k t qu th c nghi mătrênăc ăs d li u Breast ...............................42
B ng 4.3: B ng k t qu th c nghi m trênăc ăs d li u Lymph ..............................43
B ng 4.4: B ng k t qu th c nghi mătrênăc ăs d li u Iris ....................................43


iii

DANHăM CăCỄCăHỊNHăV
Hình 2.1: Quá trình khai thác d li u [3] ...................................................................5
Hình 2.2: Ki n trúc c a m t h th ng khai thác d li u [3] ......................................6
Hình 2.3: Th hi năs ăđ khai thác d li u b ng m ng Neuron. ................................9

Hình 2.4: Quá trình h c [5] .......................................................................................13
Hình 2.5: Quá trình phân l p [5] ...............................................................................14
Hình 2.6: Thu t toán CAR-Miner .............................................................................20
Hình 2.7: CơyăMECRăđ

c xây d ng t CSDL c a b ng 2.1 .................................20

Hình 3.1: Thu t toán CAR-MinerăModifiedăchoăc ăs d li uăt ngătr

ng ............25

Hình 3.2: Mã gi hàm CAR-Incre và UPDATE-Tree. ............................................26
Hình 3.3: Mã gi hàm TRAVERSE-TREE-TO-CHECK, ......................................27
Hình 3.4: Cây MECR-treeăđ

c t o t c ăs d li u c a b ng 3.1 ........................28

Hình 3.5: Mã gi hàm CAR_Del và UPDATE_TREE_LV1_DEL ........................31
Hình 3.6: Cây MERC-treeăđ

c c p nh t sau khi b xoá ........................................36

Hình 3.7: Mã gi hàm CAR_Modified ....................................................................37
Hình 3.8: C p nh t cây MECR sau khi d li u b s a .............................................40


iv

M CăL C
Ch


ngă1:ăM

1.1.

U ....................................................................................................1

t v năđ ..........................................................................................................1

1.2. Tính c p thi t c aăđ tài ....................................................................................2
1.3. M cătiêu,ăđ iăt

ngăvƠăph

ngăphápănghiênăc u.............................................2

1.3.1. M c tiêu c aăđ tài .....................................................................................2
1.3.2.ă
1.3.3. Ph
Ch

iăt

ng và ph m vi nghiên c u .............................................................3
ngăphápălu năvƠăph

ngăphápănghiênăc u ........................................3

ngă2:ăT NG QUAN ............................................................................................4


2.1. Khai thác d li u ...............................................................................................4
2.1.1. Khái ni m ...................................................................................................4
2.1.2. Quá trình khai thác d li u .........................................................................4
2.1.3. Ki n trúc c a m t h th ng khai thác d li u ............................................6
2.1.4. M t s ph

ngăphápăkhaiăthácăd li u ......................................................7

2.2. Khai thác lu t k t h p .....................................................................................10
2.2.1. Gi i thi u ..................................................................................................10
2.2.2. M t s h

ng ti p c n trong khai thác lu t k t h p ................................11

2.3. Khai thác lu t phân l p ...................................................................................12
2.3.1. Gi i thi u ..................................................................................................12
2.3.2. Quá trình phân l p....................................................................................12
2.3.3. M t s ph

ngăphápăphơnăl p .................................................................14

2.4. Khai thác lu t phân l p d a vào lu t k t h p .................................................14
2.5. Khai thác lu t phân l p k t h p CAR-Miner .................................................15
2.5.1. M t s khái ni m ......................................................................................16


v

2.5.2. C u trúc cây MECR .................................................................................16
2.5.3. Thu t toán khai thác hi u qu cho CAR-Miner.......................................18

2.5.4. Thu t toán CAR-Miner ............................................................................19
Ch

ngă3:ăPH

NGăPHỄPăKHAIăTHỄCăăLU T PHÂN L P K T H P TRÊN

LI U B S Aă

D

I..............................................................................................21

3.1. Thu t toán khai thác lu t k t h pătrênăc ăs d li u b s aăđ i [4]................21
3.1.1. Gi i thi u thu t toán.................................................................................21
3.1.2.ăC ăs lý thuy t .........................................................................................22
3.1.3.ăCácăb

c th c hi n...................................................................................23

3.2. Thu t toán lu t phân l p k t h pătrênăc ăs d li uăt ngătr

ng ...................24

3.3. Thu t toán lu t phân l p k t h pătrênăc ăs d li u b xoá ............................31
3.3.1. Thu t toán CAR-Minerăchoăc ăs d li u b xoá ....................................31
3.3.2. Ví d minh h a v xóa d li u .................................................................33
3.4. Thu t toán khai thác lu t phân l p k t h p cho d li u b s aăđ i ................36
3.4.1. Thu t toán CAR-Minerăchoăc ăs d li u b s aăđ i ..............................36
3.4.2. Ví d minh h a v s a d li u .................................................................37

Ch

ngă4:ăK T QU TH C NGHI MăVÀă ỄNHăGIỄ .......................................41

4.1.ăC ăs d li u th c nghi măvƠămôiătr

ng xây d ng ......................................41

4.1.1.ăC ăs d li u th c nghi m .......................................................................41
4.1.2.ăMôiătr

ng xây d ng thu t toán ..............................................................41

4.2. K t qu th c nghi m .......................................................................................41
4.2.1. K t qu th c nghi mătrênăc ăs d li u Breast .......................................41
4.2.2. K t qu th c nghi mătrênăc ăs d li u Lymph ......................................42
4.2.3. K t qu th c nghi mătrênăc ăs d li u Iris ............................................43


vi

4.2.4. Kh o sát k t qu th c nghi m..................................................................44
Ch

ngă5:ăK T LU NăVÀăH

NG PHÁT TRI N ...............................................45

5.1. K t lu n ...........................................................................................................45
5.2.ăH


ng phát tri n..............................................................................................45


1

Ch
1.1.

ngă1: M

U

t v năđ
NgƠyănay,ăconăng

l v nhi uă l nhă v c.ă

iăđangăs h u kho d li uăphongăphú,ăđaăd ng và kh ng
c bi t s phát tri n c a công ngh thông tin và vi c ng

d ng công ngh thông tin trong nhi uăl nhăv căđưălƠmăchoăkhoăd li u yăt ngălênă
nhanh chóng. Vi c bùng n nƠyăđưăd n t i m t v năđ c p bách c năđ

c gi i quy t

là c n có nh ng k thu t và công c m iă đ t đ ng chuy nă đ iă l

ng d li u


kh ng l kia thành các tri th c có ích, ph c v choăconăng
tr

ng c nhătranhăthìăng

i. M t khác, trong môi

i ta ngày càng c n có thông tin v i t căđ nhanhăđ giúp

cho vi c ra quy tăđ nh và ngày càng có nhi u câu h i mang tính ch tăđ nh tính c n
ph i tr l i d a trên kh iăl

ng d li u kh ng l đưăcó.ăQuá trình ti n hành các công

vi cănh ăv y g i là quá trình phát hi n tri th cătrongăc ăs d li u, trong đóăk thu t
khai thác d li u cho phép phát hi n tri th c ti m n y. T đó,ăcácăk thu t khai
thác d li uăđưătr thành m tăl nhăv c th i s c a n n Công ngh thông tin th gi i
hi n nay nói chung và Vi t Nam nói riêng. R t nhi u t ch c và công ty l n trên th
gi iăđưăápăd ng k thu t khai thác d li u vào các ho tăđ ng s n xu t kinh doanh
c aămìnhăvƠăthuăđ

c nh ng l i ích to l n.

Các k thu t phát hi n tri th c và khai thác d li uăđ

c th c hi n qua nhi u

giaiă đo n và s d ng nhi u k thu t: phân l p, phân c m, phân tích s t

ngă t ,


t ng h p, lu t k t h p,ầăáM t trong nh ng n iădungăc ăb n và ph bi n trong khai
thác d li u là phát hi n cc lu t k t h p.ă Ph
thu cătínhăth
h

ngă phápă nƠyă nh m tìm ra các t p

ng xu t hi năđ ng th iătrongăc ăs d li u và rút ra các lu t v

nh

ng c a m t t p thu c tính d năđ n s xu t hi n c a m t ho c nhi u t p thu c

tínhă khácă nh ă th nƠo?ă Doă đóă vi c phát hi n ra các lu t k t h p là m tă b
quan tr ng trong khai thác d li u.

cr t


2

1.2. Tính c p thi t c aăđ tài
N mb tđ

c nhu c u đó, nhi u gi iăphápăđưăđ

c áp d ng nh m rút trích tri

th c,ătrongăđóăkhaiăthácălu t k t h p là m t trong nh ngăbƠiătoánăthuăhútăđ


c nhi u

s quan tâm nghiên c u c a các nhà nghiên c u trên th gi i.ăC ngăđưăcóănhi u gi i
phápăđ

căđ xu t cho v n đ khai thác lu tănh ălu t khai thác lu t truy n th ng,

khai thác lu tăkhôngăd ăth a.
Tuy nhiên nh ngă ph

ngă phápă trênă ch t p trung ch y u trong vi c xây

d ng thu t toán phân l p d a trên lu t k t h p ho c xây d ng lu t phân l p, mà
không th o lu n nhi u v v năđ th i gian th c thi (khai thác) c a các thu t toán.
H năth n a, khai thác phân l p d a trên lu t k t h p (CARs) tiêu t n r t nhi u th i
gian b i vì nó khai thác m t t păđ yăđ các lu t th aăng

ng. Vì th , c i thi n th i

gian khai thác phân l p d a trên lu t k t h p là m t trong nh ng v năđ chính c n
đ

c gi i quy t. Ngoài ra, các nghiên c u hi n nay t p trung ch y u v khai thác

lu t phân l p k t h pătrênăc ăs d li uăt nh,ămƠăítăquanătơmăđ n vi c khai thác trên
c ăs d li u b s aăđ i.
T nh ng v năđ nêu trên, tôi ch năđ tƠiă“Khaiăthácălu t phân l p k t h p
trênăc ăs d li u b s aăđ i” đ làm lu năv năt t nghi p.
1.3. M cătiêu,ăđ iăt


ngăvƠăph

ngăphápănghiênăc u

1.3.1. M c tiêu c aăđ tài
 Tìm hi u khái quát v khai thác d li uătrongăđóăđiăsơuăv lu t k t h p.
 Tìm hi u lu t phân l p k t h p CAR-Miner.
 Tìm hi u lu t phân l p k t h pătrênăc ăs d li u t ngătr

ng.

 Nghiên c u xây d ng thu t toán lu t phân l p k t h pătrênăc ăs d li u
b s aăđ i.
 CƠiăđ t thu t toán khai thác lu t phân l p k t h pătrênăc ăs d li u b s a
đ i.


3

iăt

1.3.2.

ng và ph m vi nghiên c u

 Nghiên c u bài toán khai thác lu t phân l p d a vào lu t k t h p và thu t
toán CAR-Miner.
 Khai thác lu t phân l p k t h p trên c s d li u b s aăđ i.
1.3.3. Ph


ngăphápălu năvƠăph

ngăphápănghiênăc u

 Tìm hi u các tài li uă trongă vƠă ngoƠiă n

c v khai thác d li u, lu t k t

h p, lu t phân l p, lu t phân l p k t h p.
 Tìm hi u thu t toán CAR-Miner trong bài toán phân l p d a vào lu t k t
h p.


4

Ch

ngă2: T NG QUAN

2.1. Khai thác d li u
2.1.1. Khái ni m
Khai thác d li u (Data Mining) là m t khái ni măraăđ i vào nh ngăn măcu i
c a th p k 1980. Nó là quá trình khám phá thông tin tìm n trongăcácăc ăs d li u
và có th xemănh ălƠăm tăb

c trong quá trình khám phá tri th c. Khai thác d li u

lƠăgiaiăđo n quan tr ng nh t trong ti n trình khai thác tri th c t c ăs d li u, các
tri th c này h tr trong vi c ra quy tăđ nh trong khoa h c và kinh doanh, ...

Khai thác d li u là ti n trình khái quát các s ki n r i r c trong d li u
thành các tri th c mang tính khái quát, tính quy lu t h tr tích c c cho các ti n
trình ra quy tăđ nh. Khai thác d li u là vi c rút trích tri th c m t cách t đ ng và
hi u qu t m t kh i d li u r t l n. Tri th căđóăth
ch t không t măth

ng, khôngăt

ng

ng minh ( n),ăch aăđ

d ng các m u tin có tính
c bi tăđ n và có ti măn ngă

mang l i l i ích.
2.1.2. Quá trình khai thác d li u
B tăđ u c a quá trình là kho d li u thô và k t thúc v i tri th căđ

c chi t

xu t ra. V lý thuy t thì có v r tăđ năgi nănh ngăth c s đơyălƠăm t quá trình r t
khóăkh năg p ph i r t nhi uăv

ng m cănh :ăqu n lý các t p d li u, ph i l păđiăl p

l i toàn b quá trình, ...
1. Gom d li u: T p h p d li uălƠăb
ơyălƠăb


căđ

căđ u tiên trong quá trình khai thác d li u.

c khai thác trong m tăc ăs d li u, m t kho d li u và th m chí

các d li u t các ngu n ng d ng Web.
2. L a ch n d li u: hay còn g i là trích l c d li u.

giaiăđo n này d li uăđ

c

l a ch n ho c phân chia theo m t s tiêu chu n nƠoăđó,ăvíăd ch n t t c nh ng
ng

i có tu iăđ i t 25 - 35ăvƠăcóătrìnhăđ đ i h c.

3. Làm s ch, ti n x lý và chu n b tr

c d li u:ăGiaiăđoanăth ba này là giai

đo n hay b saoă lưng,ă nh ngă th c t nó là m tă b

c r t quan tr ng trong quá


5

trình khai thác d li u. M t s l iăth


ng m c ph i trong khi gom d li u là tính

khôngă đ ch t ch , logic. Vì v y, d li uă th

ng ch a các giá tr vôă ngh aă vƠă

không có kh n ngăk t n i d li u. Ví d : tu iă=ă273.ăGiaiăđo n này s ti n hành
x lý nh ng d ng d li u không ch t ch nói trên. Nh ng d li u d ngănƠyăđ

c

xemănh ăthôngătinăd ăth a, không có giá tr . B i v y,ăđơyă lƠă m t quá trình r t
quan tr ng vì d li u này n uă khôngă đ
tr

că “lƠmă s ch - ti n x lý - chu n b

c”ăthìăs gây nên nh ng k t qu sai l ch nghiêm tr ng.

Hình 2.1: Quá trình khai thác d li u [3]
4. Chuy năđ i d li u: Ti pătheoălƠăgiaiăđo n chuy năđ i d li u, d li uăđ aăraăcóă
th s d ngăvƠăđi u khi năđ

c b i vi c t ch c l i nó. D li uăđưăđ

đ i phù h p v i m căđíchăkhaiăthác.

c chuy n



6

5. Khai thác d li u: Là phát hi n và trích m u d li u.
thu tătoánăkhácănhauăđưăđ
th

giaiă đo n này nhi u

c s d ngăđ trích ra các m u t d li u. Thu t toán

ng dùng là nguyên t c phân lo i, nguyên t c k t h p ho c các mô hình d

li u tu n t .
6.

ánhăgiáăk t qu m u:

ơyălƠăgiaiăđo n cu i trong quá trình khai thác d li u.

giaiăđo n này, các m u d li uăđ

c chi t xu t ra b i ph n m m khai thác d

li u. Không ph i b t c m u d li uănƠoăc ngăđ u h uăích,ăđôiăkhiănóăcònăb sai
l ch. Vì v y, c n ph iă uătiênănh ng tiêu chu năđánhăgiáăđ chi t xu t ra các tri
th c.
2.1.3. Ki n trúc c a m t h th ng khai thác d li u

Hình 2.2: Ki n trúc c a m t h th ng khai thác d li u [3]

Ki n trúc c a m t h th ng khai thác d li u: g m 5 ph n sau:
1. Máyăch ăc ăs ăd ăli uăhayămáyăch ă khoăd ăli u: Máyăch ănƠyăcóătráchă
nhi mă l yă d ă li uă thíchă h pă d aă trênă nh ngă yêuă c uă khaiă thác c aă ng iă
dùng.
2. C ăs ătriăth c: ơyălƠămi nătriăth căđ
quanătr ngăc aăcácăhìnhăm uăk tăqu .

cădùngăđ ătìmăki măhayăđánhăgiáăđ ă


7

3. Máy khai thác d ăli u: M tăh ăth ngăkhai thác d ăli uăc năph iăcóăm tăt pă
các môăđun ch căn ngăđ ăth căhi năcôngăvi c,ăch ngăh nănh ăđ cătr ngăhóa,ă
k tăh p,ăphơnăl p,ăphơnăc m,ăphơnătíchăs ăti năhoá.
4. Môăđun đánhăgiáăm u: B ăph nănƠyăt ngătácăv iăcácămôăđun khai thác d ă
li uăđ ăt pătrungăvƠoăvi căduy tătìmăcácăm uăđángăđ căquanătơm.ăC ngăcóă
th ămôăđun đánhăgiáăm uăđ cătíchăh păvƠoămôăđun khai thác tu ătheoăs ăcƠiă
đ tăc aăph ngăphápăkhai thác đ cădùng.
5. Giaoădi năđ ăh aăchoăng iădùng: Thôngăquaăgiaoădi nănƠy,ăng
t ngătácăv iăh ăth ngăb ngăcáchăđ căt ăm tăyêuăc u.
2.1.4. M t s ph
 Ph

iădùngă

ngăphápăkhaiăthácăd li u

ngăphápăquyăn p


M tăc ăs d li u là m tăkhoăthôngătinănh ngăcácăthôngătinăquanătr ngăh nă
c ngăcóăth đ

c suy di n t kho thôngătinăđó.ăCóăhaiăk thu tăchínhăđ th c hi n

vi c này là suy di n và quy n p.
Ph

ng pháp suy di n: Nh m rút ra thông tin là k t q a logic c a các thông

tinătrongăc ăs d li u.ăPh

ngăphápăsuyădi n d a trên các s ki năchínhăxácăđ suy

ra các tri th c m i t cácă thôngă tină c .ă M u chi t xu tă đ
ph

ngăphápănƠyăth
Ph

c b ng cách s d ng

ng là các lu t suy di n.

ng pháp quy n p: Ph

ngăphápăquyăn păsuyăraăcácăthôngătinăđ

c sinh


ra t c ă s d li u.ă Cóă ngh aă lƠă nóă t tìm ki m, t o m u và sinh ra tri th c ch
không ph i b tă đ u v i các tri th că đưă bi tă tr

c.ă Cácă thôngă tină mƠă ph

ngă phápă

nƠyăđemăl i là các thông tin hay các tri th c c p cao di n t v cácăđ iăt

ng trong

c ăs d li u.ăPh

ngăphápănƠyăliênăquanăđ n vi c tìm ki m các m u trong c s d

li u (CSDL). Trong khai thác d li u, quy n păđ

c s d ng trong cây quy tăđ nh

và t o lu t.
 Cây quy tăđ nh và lu t
Cây quy tă đ nh: Là m t mô t tri th c d ngă đ nă gi n nh mă phơnă cácă đ i
t

ng d li u thành m t s l p nh tăđ nh. Các nút c aăcơyăđ

thu c tính, các c nhăđ

c gán nhãn là tên các


c gán các giá tr có th c a các thu c tính, các lá mô t các


8

l pă khácă nhau.ă Cácă đ iă t
c nhăt

ngă đ

c phân l pă theoă cácă đ

ngă ng v i các giá tr , thu c tính c aăđ iăt
T o lu t: Các lu tăđ

ngă điă trênă cơy,ă quaă cácă

ng t i lá.

c t o ra nh m suy di n m t s m u d li uăcóăỦăngh aă

v m t th ng kê. Các lu t có d ng N u P thì Q, v i P là m nhăđ đúngăm t ph n
trong CSDL, Q là m nhăđ d đoán.
Cây quy tăđ nh và lu tăcóă uăđi m là hình th c mô t đ năgi n, mô hình suy
di n khá d hi uăđ i v iăng

i s d ng. Tuy nhiên, gi i h n c a nó là mô t cây và

lu t ch có th bi u di nă đ


c m t s d ng ch că n ng, vì v y gi i h n v c đ

chính xác c a mô hình.
 Phát hi n các lu t k t h p
Ph

ngăphápănƠyănh m phát hi n ra các lu t k t h p gi a các thành ph n d

li uătrongăc ăs d li u. M uăđ u ra c a gi i thu t khai thác d li u là t p lu t k t
h pătìmăđ

c. Ta có th l y m t ví d đ năgi n v lu t k t h pănh ăsau:ăs k t h p

gi a hai thành ph năAăvƠăBăcóăngh aălƠăs xu t hi n c a A trong dòng kéo theo s
xu t hi n c a B trong cùng dòng đó:ăAă B.
Ví d ch có s ítăng

i mua sách ti ngăanhămƠămuaăthêmăđ aăCD.ăS l

ng

các lu t k t h p trong m t s c ăs d li u l n g nănh ăvôăh n. Do v y thu t toán s
không th phát hi n h t các lu t và không phân bi tăđ

c lu t nào là thông tin th c

s có giá tr và thú v .
V yăchúngătaăđ t ra câu h i là lu t k t h p nào là th c s có giá tr ? Ch ng
h n ta có lu t: Âm nh c, ngo i ng , th thao  CD,ăngh aălƠănh ngăng


i mua sách

âm nh c, ngo i ng , th thaoăthìăc ngămuaăđ aăCD.ăLúcăđóătaăquanătơmăđ n s l
tr

ng h p khách hàng tho mãn lu tănƠyătrongăc ăs d li uăhayăđ h tr cho lu t

nƠy.ă

h tr cho lu t chính là ph nătr măs dòng có c sách âm nh c, ngo i ng ,

th thaoăvƠăđ aăCDăhayăt t c nh ng ng

i thích c ba lo i sách trên.

Tuy nhiên, giá tr h tr lƠăkhôngăđ . Có th cóătr
t

ng

ngăđ i nh ngăng

l năh nănh ngăng
đ aăCD.ăTrongătr

ng h p ta có m t nhóm

iăđ c c ba lo iăsáchătrênănh ngăl i có m t nhóm v iăl

ng


i thích sách th thao, âm nh c, ngo i ng mà không thích mua
ng h p này tính k t h p r t y u m cădùăđ h tr t

ngăđ i cao.


9

Nh ăv y chúng ta c n thêm m tăđ đoăth haiăđóălƠăđ tin c yă(Confidence).ă

tin

c y là ph nătr măcácădòng cóăđ aăCDătrongăs các dòng có sách âm nh c, th thao,
ngo i ng .
Nhi m v c a vi c phát hi n các lu t k t h p là ph i tìm t t c các lu t d ng
X  B sao cho t n s c a lu t không nh h năđ h tr t i thi u (minimum support
- minSup) choătr

căvƠăđ tin c y c a lu t không nh h năđ tin c y t i thi u (Min

Confidence - minConf) choă tr

c. T m tă c ă s d li u ta có th tìmă đ

c hàng

nghìn và th măchíăhƠngătr mănghìnăcácălu t k t h p.
 M ng Neuron
M ng Neuron là ti p c n tính toán m i liên quan t i vi c phát tri n c u trúc

toán h c và kh n ngăh c.ăCácăph

ngăpháp là k t qu c a vi c nghiên c u mô hình

h c c a h th ng th năkinhăconăng

i.

M ng Neuron có th đ aăraăỦăngh aăt các d li u ph c t p ho c không chính
xác và có th đ

c s d ngăđ chi t xu t các m u và phát hi năraăcácăxuăh

ph c t p mà con ng
đ

ng quá

iăc ngănh ăcácăk thu t máy tính khác không th phát hi n

c.ă Khiă đ c pă đ n khai thác d li u,ă ng

iă taă th

ngă đ c p nhi uă đ n m ng

Neuron. Tuy m ng Neuron có m t s h n ch gơyăkhóăkh nătrongăvi c áp d ng và
phát tri nănh ngănóăc ngăcóănh ngă uăđi măđángăk .
D li u


Mô hình m ng Neuron

M u chi t xu t đ

c

Hình 2.3: Th hi năs ăđ khai thác d li u b ng m ng Neuron.
M t trong s nh ngă uăđi m ph i k đ n c a m ng Neuron là kh n ngăt o
ra các mô hình d đoánăcóăđ chính xác cao, có th áp d ngăđ

c cho r t nhi u lo i


10

bƠiătoánăkhácănhau,ăđápă ngăđ

c nhi m v đ t ra c a khai thác d li uănh ăphơnă

l p, gom nhóm, mô hình hóa, d báo các s ki n ph thu c vào th i gian, v.v.
 Gi i thu t di truy n
Gi i thu t di truy n,ănóiătheoăngh aăr ng là mô ph ng l i h th ng ti n hóa
trong t nhiên,ăchínhăxácăh năđóălƠăgi i thu t ch ra t p các cá th đ
đ



căl

c hình thành,


ng và bi năđ iănh ăth nào? Ví d nh ăxácăđ nh xem làm th nƠoăđ

l a ch n các cá th t o gi ng và l a ch n các cá th nào s b lo i b . Gi i thu t
c ngămôăph ng l i y u t gen trong nhi m s c th sinh h cătrênămáyătínhăđ có th
gi i quy t nhi u bài toán th c t khác nhau.
Gi i thu t di truy n là m t gi i thu t t iă uăhóa.ăNóăđ

c s d ng r t r ng rãi

trong vi c t iă uă hóaă cácă k thu t khai thác d li uă trongă đóă cóă k thu t m ng
Neuron. S liên h c a nó v i các quá trình khai thác d li u. Ví d nh ătrongăk
thu t cây quy tăđ nh, t o lu t.ăNh ăđưăđ c p
li u ch a các tham s đ

ph nătr

c, các lu t mô hình hóa d

căxácăđ nh b i các gi i thu t phát hi n tri th c.

Giaiăđo n t iă uăhóaălƠăc n thi tăđ xácăđ nh xem các giá tr tham s nào t o
ra các lu t t t nh t. Vì v y mà gi i thu t di truy năđưăđ

c s d ng trong các công

c khai thác d li u.
2.2. Khai thác lu t k t h p
2.2.1. Gi i thi u
T khiă đ

đ

c gi i thi u t n mă 1993,ă bƠiă toánă khaiă thácă lu t k t h p nh n

c r t nhi u s quan tâm c a nhi u nhà khoa h c. Ngày nay vi c khai thác các

lu tă nh ă th v n là m t trong nh ngă ph

ngă phápă khaiă thácă m u ph bi n nh t

trong vi c khám phá tri th c và khai thác d li u (Knowledge Discovery and Data
mining - KDD).
M căđíchăchínhăc a khai thác d li u là các tri th căđ

c k t xu t ra s đ

c

s d ng trong d báo thông tin tr giúp trong s n xu t kinh doanh và nghiên c u
khoa h c.


11

Trong ho tăđ ng s n xu t kinh doanh, ví d kinh doanh các m t hàng t i siêu
th , các nhà qu n lý r tăthíchăcóăđ

c các thông tin mang tính th ngăkêănh :ă“90%ă

ph n cóă xemă máyă mƠuă đ vƠă đeoă đ ng h Thu S thìă dùngă n

Chanel”ăho că“70%ăkháchăhƠngălƠăcôngănhơnăkhiămuaăTVăth

ng mua lo i TV 21

inches”. Nh ng thông tin nh v y r t h u ích trong vi c đ nhă h
V y v năđ đ t ra là li uăcóătìmăđ

c hoa hi u

ng kinh doanh.

c các lu tănh ăv y b ng các công c khai thác

d li u hay không? Câu tr l i là hoàn toàn có th .ă óăchínhălƠănhi m v khai thác
lu t k t h p.
2.2.2. M t s h

ng ti p c n trong khai thác lu t k t h p

L nhăv c khai thác lu t k t h păchoăđ nănayăđưăđ
theo nhi uăh

c nghiên c u và phát tri n

ng khác nhau. Có nh ngăđ xu t nh m c i ti n t căđ thu t toán, có

nh ngăđ xu t nh m tìm ki m lu tăcóăỦăngh aăh n...ăvƠăcóăm t s h

ng chính sau


đơy:
 Lu t k t h p nh phân (binary association rule ho c Boolean association
rule).
 Lu t k t h p ti p c nătheoăh

ng t p thô (mining association rules base

on rough set).
 Lu t k t nhi u m c (multi-level association rule).
 Lu t k t h p m (fuzzy association rule).
 Lu t k t v i thu că tínhă đ

că đánhă tr ng s

(association rule with

weighted items).
 Khai thác Lu t k t h p song song (parallel mining of association rules).
Bên c nh nh ng nghiên c u v nh ng bi n th c a lu t k t h p, các nhà
nghiên c u còn chú tr ngă đ xu t nh ng thu t toán nh mă t ngă t c quá trình tìm
ki m t p ph bi n t c ăs d li u.
Ngoài ra, còn có m t s h

ng nghiên c u khác v khai thác lu t k t h p

nh :ăkhaiăthácălu t k t h p tr c tuy n, khai thác lu t k t h păđ

c k t n i tr c tuy n

đ n các kho d li uă đaă chi u (Multidimensional data, data warehouse) thông qua



×