Tải bản đầy đủ (.pdf) (137 trang)

Khám phá luật kết hợp mờ và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (49 MB, 137 trang )

£)~I HQC QUOC GIA THANH PHO HO CHi MINH
TRU'CrNG gAl HOC KHOA HOC TU' NHIEN

NGUYEN HA GIANG
KHAM PHA LuA T KET HO'P MO'
. .
vA lrNG DUNG
.
Chuyen nganh: TIN HQC
Ma so: 1.01.10
LuAN VAN THAC sl
. .
(Chuyen nganh Tin hQc)
NGU'O'I HU'O'NG DAN KHOA HQC:
TS. LE HoAI BAc
Thanh phi> Ho Chi Minh -2004
1
MVC LVC
ro, *<>G\
MVC LVC 1
DANH MVC BANG MINH HQA 4
DANH MVC HINH MINH HQA 6
LdI CAM ON 9
PHANMa DAu 10
Chuang 1: TONGQUANKHAMPHADU LIEu , 12
1.1Khalll pha du li~u 12
1.2Cac giai dol,lnchinh trong ti€n trinh kham pha du li~u
, 13
1.3 Cac nhi~m v\,lk~am pha du li~u 15
1.4Phuang phap kham pha du li~u""""""""""""""""""""""""""""""""""" 16
1.5Cac lol,lidu li~uduQ'ckham pha 18


1.6Nhung ung d\,lngcua kham pha du li~u 18
1.7Nhung v~n d~quail Himtrong kham pha du li~u 20
1.8T6ng quail cac lu~nvan kham pha du li~u 21
1.9Hu6ng nghien cuu chinh cua lu~nvan 22
Chuang 2: LuAT KET HOP TONG QUAT Md 23
2.1 Gi6i thi~u lu~t k€t hQ'P 23
2.1.1 Dlnh nghla hinh thuc 25
2.1.2 Thu~t toan kham pha lu~t k€t hQ'p """""", 27
2.2 Lu~t k€t hQ'pt6ng quat 28
2.2.1 S" cai ti€n v6i lu~t k~t hQ'Pthong thuOng 29
2.2.2 Dlnh nghla lu~t t6ng quat 32
2.2.3 Thu~t loan 33
2.3 Lu~t k€t hQ'ps6 luQ'ng 35
2.3.1 Phuang phap xu Iy thuQc tinh s61uQ'ng 36
2.3.2 Bjnh nghla hinh thuc va thu~ttoan kham pha 39
2
2.4 Lu~t k~thqp t6ng quat ma 41
2.4.1 VAnd~ cua cach xu ly phan gia tri s6 hrQ11gVaGcac khoi'mg 43
2.4.2 Su d\lng t~p ma d~fai f~Choa gia tri s6 luQ'ng 47
2.4.3 Ap d\lng ly thuy~t t~p ma trong vi~c Imampha lu~t k~thqp 49
2.4.4 Dinh nghia lu~tk~thqp t6ng quat ma va cac de>do 56
2.4.5 M6 hinh giai quy~t vAnd~ 61
Chuang 3: THUAT ToAN KHAM PHA LuAT KET HOP TONG QuAT MO 66
3.1 Thu~t toan AFAR 66
3.2 Thu~t toan EFAR 69
3.2.1 Cay ti~n t6 cac item ma (FIP) 70
3.2.2 Xay d\l'ng cay FIP 71
3.2.3 Thu~t toan EFAR 74
3.3 K~t qua th\l'Cnghi~m chuang trinh cai d~t 77
3.3.1 Th\l'c nghi~m so sanh t6c de> 78

3.3.2 Th\l'c nghi~m v~ k~t qua Imam pha 82
Chuang 4: KHAM PHA LuAT KET HOP MO TANG CVONG 85
4.1 Kham pha diI li~utang cuang 85
4.2 Kham pha lu~tk~t hqp tang cuang 86
4.3 Xay d\l'ngthu~troan kham pha lu~tk~thQ'pma tang cuang 89
4.3.1 Cac tinh hu6ng c~p nh~titemset 90
4.3.2 Ap d\lng cay ti~nt6 cac itemset d~Imampha tang cuang 92
4.3.3 Thu~t toan kham pha lu~tk~thqp ma tang cuang 96
4.4 K~t qua th\l'Cnghi~m 100
Chuang 5: lrNG D1)NGKHAM PHA LuAT KET HOP MO
" 102
5.1 Kham pha lu~t trong giao tac sieu thi 102
5.2 Kham pha lu~ttrong ca sa diI li~uKDD-CUP-98 108
5.3 Kham pha lu~ttrong diI li~ub~nh nhan Hemophilia 115
5.4 Kham pha lu~t trong diIli~uti~u duang cua v~t nu6i 120
3
Chuang 6: CHUaNG TRINH CAI BAT 122
6.1 M6i truang ling d\lng 122
6.2 Chuang trinh FARMiner 122
6.3 Chuang trinh IncFARMiner 126
KET LuAN vA Hu6NG PHAT TRIEN 131
K€t lu~n 131
Huang phat tri~n 132
TAl LI$U THAM KHAo 133
roe*eoG\
4

DANH M1JCBANG MINH HQA
ro, ~
Bang 2.1: Bang cac giao .tac 24

Bang 2.2: Minh hQadfrli~ugiao tac 28
Bang 2.3: Giao tac minh hQa 28
Bang 2.4: Th6ng ke t~n suit cua man hfmg 29
Bang 2.5: Giao tac ma r(mg 29
Bang 2.6: Th6ng ke t~n suit giao tac ma rQng 29
Bang 2.7: Dfr li~uthong tin ca nhan 36
Bang 2.8: Anh Xc;tsang thuQcHnhnhi phan 37
Bang 2.9: CO'sa dfrli~u giao tac 46
Bang 2.10: ThuQcHnhS6-luQ'ngduQ'cphan lap ma 47
Bang 2.11: Giao tac minh hQa 48
Bang 2.12: Giao tac ma rQngtheo cay phan lap 49
Bang 2.13: Bang sau khi phan lap ma cho dfrli~u 50
Bang 2.14: Th6ng ke s6 d~m cua cac vung ma 51
Bang 2.15: Cac vung ma duQ'cchQnkhi IQcqua nguang minsupp 52
Bang 2.16: Giao tac vai cac vung ma da:duQ'crut gQn 52
Bang 2.17: S6 d~m ma cua (Th\Jcph~m.Cao, Qu~nao.Trung binh). 53
Bang 2.18: Cac itemset co hai ph~n tu 53
Bang 2.19: Cac bQitemset con lc;tisau khi lQcqua nguang. 54
Bang 2.20: BQtin c~y cua cac lu~tk~thqp 55
Bang 2.21: Minh hQath~ hi~n dQccua giao tac trong bang 2.11 57
Bang 3.1: Binh nghla cac ky hi~u duQ'csu d\lng trong AFAR 66
Bang 3.2: Chll'agiao tac da:rut gQnchi g6m cac item ma ph6 bi~n 71
Bang 3.3: Danh sach cac item ma ph6 bi~n 71
Bang 3.4: Danh sach cac itemset ph6 bi~n kham pha tir cay FIP 73
Bang 3.5: Nhfrng ky hi~u duQ'cdung trong thu~t toan EFAR 75
5
Bang 4.1: Cac ky hi~u dung trong thu~t toan tang cucmg 89
Bang 4.2: Giao tac minh hQakham pha tang cucmg 92
Bang 4.3: Cac ky hi~u du<;ycdung trong thu~t tmin IFAR 96
Bang 5.1: MQts6 m~utin trong giao tac dl1li~u 102

Bang 5.2: Danh m\lCmQts6 man hang minh hQa 102
Bang 5.3: MQt s6lu~t di~n hinh du<;yckham pha l06
Bang 5.4: Mo ta thuQc tinh trong bang dl1li~u kham pha 108
Bang 5.5: Danh m\lCcac item t6ng quat trong nhl1ng cfiy phan lap 111
Bang 5.6: Minh ho~ mQt s6 lu~t di~n hinh du<;yckham pha 112
Bang 5.7: Bang thuQc tinh cO'sa dl1li~u b~nh nhan Hemophilia A 116
Bang 5.8: Nhl1ng lu~t di~n hinh du<;yckham pha 118
Bang 5.9: Minh ho~ mQts6 m~utin trong bang dl1li~uti~u duang 120
Bang 5.10: MQts6 lu~t du<;yckham pha tir dl1li~uti~u duang v~t nuoi 120
Bang 6.1: Thong tin chuang trinh cai d~t 122
~*~
6
nANH M1)CHiNH MINH HQA
ibe*~
Hinh 1.1: Minh hQa cac nnh V\fCduQ'c(rng d\mg kham pha 11
Hinh 1.2: T6ng quail tien trinh kham pha du li~u 13
Hinh 2.1: Minh hQalu~tket hQ'p , 23
Hinh 2.2: Minh hQadQh6 trQ'va dQtin c~y cua lu~tket hqp 25
Hinh 2.3: Minh hQamQtc.1utruc phan lap CCYban 27
Hinh 2.4: Kien truc phan c.1pd€ rai r~c cac thuQctinh s6 luQ'llg 40
Hinh 2.5: Cac khoang rai r~c 43
Hinh 2.6: Cac khoang chia ch6ng cheo 44
Hinh 2.7: Phan khoang d\fatren t~pma 45
Hinh 2.8: Ham thanh vien cho cac vling ma 46
Hinh 2.9: C.1utruc phan lap tren thuQc tinh Mon-hang 49
Hinh 2.10: M6 hinh kham pha lu~tket hQ'pt6ng quat ma 61
Hinh 3.1: M6 hinh thu~t toan AFAR 66
Hinh 3.2: Cay ti~n t6 cac item ma 70
Hinh 3.3: Cay FIP a c.1pth(rnh.1t 71
Hinh 3.4: Cay FIP vai cac itemset (rngvien a C.1pth(r2 72

Hinh 3.5: Cay FIP sail khi b6 cac itemset kh6ng du minsupp 72
Hinh 3.6: Cay FIP vai (rngvien a c.1pth(rba 73
Hinh 3.7: Cay FIP cu6i cling " 73
Hinh 3.8: M6 hinh thu~ttoan kham pha du li~uEFAR 74
Hinh 3.9: Bi€u d6 so sanh thai gian th\fc hi~n cua hai thu~t toan 78
Hinh 3.10: So sanh thai gian theo nguang minconf 79
Bang 3.11: Th6ng ke thai gian th\fc hi~n theo s6 luQ'ngglaD tac 80
Hinh 3.12: Th6ng ke thai gian th\fc hi~n theo s6 vling ma 80
Hinh 3.13: Th6ng ke thai gian th\fc hi~ntheo s6 c.1pphan lap 81
7
Hinh 3.14: Th6ng ke s6 1u~tkham pha theo cac ngu5'ng minsupp 82
Hinh 3.15: Th6ng ke s6 1u~tduQ'ckham pha theo dQtin c~y 82
Hinh 3.16: Th6ng ke s6 1u~tkham pha theo s6 vung ma 83
Hinh 3.17: Quan h~ giua s6lu~t va s6 c~pphan lap 83
Hinh 4.1: Minh hQakham pha du li~uva kham pha du li~utang cuang 85
Hinh 4.2: M6 hinh kham pha lu~tk~thQ'Ptang cuang 87
Hinh 4.3: Tinh hu6ng 1 cho vi~c c~pnh~t itemset ph6 bi~n
" 90
Hinh 4.4: Tinh hu6ng 2 c~p nh~t item set ph6 bi~n 90
Hinh 4.5: Tinh hu6ng 3 c~p nh~t itemset ph6 bi~n 91
Hinh 4.6: Cay ti~nt6 itemset ma cho du li~uban dftuDB " 92
Hinh 4.7: Cay ti~n t6 duQ'Cxay dlJng cho du li~uc~pnh~t db+. 93
Hinh 4.8: Cay ti~n t6 cac itemset (rut gQn)cho du li~uc~pnh~t db+ 93
Hinh 4.9: Cay ti~n t6 cho du li~u sail khi c~pnh~t 93
Hinh 4.10: M6 hinh h6a thu~t toaD " 96
Hinh 4.11: So sanh thai glaD thlJc hi~n cua thu~t toaD " 100
Hinh5.1:C~p0 va c~p1cuacayphanlap , 103
Hinh 5.2: C~pthu hai cua nhanh Food 104
Hinh 5.3: C~pthu hai cua nhanh Confection 104
Hinh 5.4: C~pthu hai cua nhanh Beverage 104

Hinh 5.5: C~pthu hai cua nhanh Others 104
Hinh 5.6: Vung ma va ham thanh VieDtuong ling cho cac item 105
Hinh 5.7: Phan lap cho nh6m ki~u nha 110
Hinh 5.8: Phan lap cho nh6m g6c dan 110
Hinh 5.9: Phan lap cho nh6m nghanh ngh~ 110
Hinh 5.10: Phan lap cho nh6m thu nh~p III
Hinh 5.11: Phan nh6m cho nh6m phuong ti~n di lam III
Hinh 5.12: T~pma va ham thanh VieDd~phan lap 112
Hinh 5.13: C~utruc phan lap cho bang du li~ukham pha 117
Hinh 5.14: T~p ma va ham thanh vien cho thuQctinh Age va Height 117
8
Hinh 5.15: Ham thanh vien cho PVIII, Weight va s61~n chay mall 117
Hinh 5.16: Ham thanh vien cho tu6i, tn;mg luQ'ng, li~u luQ'llg 120
Hinh 6.1: Man hinh chinh chuang trinh PARMiner " 123
Hinh 6.2: Man hinh k~t n6i dfi'li~uva chQnbang kham pha 124
Hinh 6.3: Man hinh khai baa c~vtruc phan lap va vung mO'. ". 124
Hinh 6.4: Man hinh chQnthu~ttoan kham pha. 125
Hinh 6.5: Man hinh xu~t lu~tduQ'ckham pha. 125
Hinh 6.6: Man hinh so sach thai gian thvc hi~n cua hai thu~ttoan 126
Hinh 6.7: Man hinh chinh cua chuang trinh IncPARMiner. 127
Hinh 6.8: Man hinh xem bang giao tac kham pha. 128
Hinh 6.9: Man hinh xem c~utruc phan lap. 128
Hinh 6.10: Man hinh xem cac lu~tduQ'ckham pha. " 129
Hinh 6.11: Man hinh xem t~p itemset ph6 bi~n 129
Hinh 6.12: Man hinh xem itemset thuQcNBd(pDB+). 130
~.o@
9
LOI CAM ON
~.~
2:Jdu tiin toi xin ba!) to [onE} bid o'n j.au j.dc ciin nE}uo'i~hd!) cia tqin tLnh hudnE}

ddn toi honE} j.udt qua hi.nh [am [uqin uan, dViu khonE} co j.(i quan tam cUa ~hd!) thi. toi
khonE}thi hoan thank [uqin uan na!) ciuC/c,~oi xin ba!) to [onE} bid dn ua j.(i kink h(;mE}
citn ~itn ~( Li dtodi :Bdc,
~oi cunEI xin chan thank cdm o'n ciin nhl1nE} E}Lao j.U cia cunEI cdp nhl1nE} kiln thl1c
minE} caD ua ci?nh huo'nE} nE}hiin cI1u khoa h9C cho tot: §~,~~!J(dt dtoanE} .!J(r.im,
(Pg~,~~ 2:J6n!)~h? :Bich ~hu!), ~~, :Duo'nE}clfnh 2:Jl1c ,
9(in cdm o'n toan thi qu9 thd!) co honE} khoa {lc:IVJJ ua ~honE} Qudn [9 ~au
r.Ddt cia E}iup cia,toi honE} j.udt qua hLnh h9C tqiP,
{luo'i cunE}' con xin cam dn conE} [aD :Ba-cfli!? cianuoi ndnE} ua cham j.oc cho con
ho'n hat muo'i nam qua. Em xin cdm o'n clfnh dtai cia [0 cho E.m tl2 nho ciin [dn, 9(in cdm
o'n dVE}9C ~hdo. nE}uo'i U9' !)iu thuo'nE} nhdt cia thanE} cdm ua chLa xl nhl1nE}
bu6n uuL cua
toi honE} j.uo't nhl1nE}nam than!) qua!
~~, dt6 Chi cfli!inhnE}a!)22 thanE} 11nam 2°°4
dVE}u!)ln cHa §ianE}
10
PBAN MO f).Au
i'<Y>-$:a@
Tu nhung nam d~u cua th~p nien truac cho d€n nay, lInt V\fCkham pha du
li~uhay con duQ'cgQila kham pha tri thuc tu du li~utra thanh m<)ttrong nhung lInt
V\l'Cthu hUtnhi~u S\l'quail Himtrong giai khoa hQcmay tint va cong ngh~tri thuc,
Dil c6 nhi~u nhung k€t qua nghien cuu duQ'cap d\mg hi~u qua VaGth\fc t€ cho thely
day la mQtlInt V\fCthi€t th\fc chu khong dO'nthu~n la ly thuy€t. C6 th€ n6i S\fthanh
cong cua kham pha du li~u chinh la S\fk€t hQ'pcac ky thu~t tu nhung lInt V\fCkhac
nhu tri tu~ nhan t~o, hQcmay, xac sueltthfmg ke, ly thuy€t thong tin, cO'sa du li~u
va tint toan hi~u sueltcao. Nhi~m V\1cua kham pha du li~u reltr<)ngIan baa g6m
vi~c phan lap, d\f baa, gom nh6m, kham pha nhung quy lu~t k€t hQ'P,kham pha
m~u tu~n t\1',Nhung lInh V\fCduQ'c ap d\1ng kham pha du li~u thi reltnhi~u baa g6m
cac (rng d~ng trong thuO'ng m~i, tal chinh, ngan hang, sinh hQc, y khoa, giao d\1c,
truy~n thong va ca qUail S\l'

Nh~n bi€t duQ'ct~m quail trQng cua lInt V\fCnay nen m<)ts6 cac h~ th6ng
qUailtri cO'sa du li~u dil tich hQ'pcong C\1kham pha du li~u, Day la m<)tS\fcach
m~ngso vai h~th6ng cu, vi truac day cac h~ qUailtri cO'sa du li~uchi c6 chuc nang
chinh la quail ly du li~u mQtcach hi~uqua. S\fc6 mi;itcua cong C\1kham pha du li~u
VaGtrong h~ qUail tri cO'sa du li~u ph~n naG dil n6i len y nghla th\fc ti€n cua lInt
V\l'cnay.
MQttrong nhung chuc nang duQ'cd~c~p reltnhi~u trong kham pha du li~u la
kham pha S\fk€t hQ'pgiua cac m~u trong du li~u hay con gQi la lu~t k€t hQ'p.Trong
thai ky d~u lu~t k€t hQ'pchi dO'ngian la kham pha S\fhi~n di~n cua mQt m~u A thi
d~n d€n S~'xucit hi~n m~u B, Sau d6 lu~t k€t hQ'pduQ'cphat tri€n d€ kham pha quail
h~ c6 tinh s6 luQ'ng giu'a cac m~u, Lu~t nay duQ'c gQi la lu~t k€t hQ'ps6 luQ'ng, M<)t
s6 cac khai ni~m duQ'c b6 sung VaGdu li~u d€ kham pha lu~t k€t hQ'Pa muc t6ng
quat
11
Trong thai gian gftnday, ly thuy€t t~p ma duQ'cap d\lng d~ xu ly cac dl1li~u
s6 luQ'ngtrong kham pha dl1li~u,Nguyen nhan cua vi~c ap d\lng ly thuy€t t~p ma la
do nhl1ngh~n ch€ cua t~p c6 di~n(t~p r5) trong vi~c rai r~c gia tri s6luQ'ng.
Khai ni~m khcimphci luqt kit h9'PmiY(Fuzzy Association Rule Mining) cling
xu~t hi~n tlI' d6 va la 111<)tHnh V\fCkha m6i me va dfty ti~m nrmg, Day cling chinh la
v~n d~ 111alu~n van d~ c~p: "Khcim phci luqt kit h9'P miY va ung d1;lng".Lu~n van
trinh bay khai ni~m v~ lu~t k€t hQ'Pma, xay d\fng mo hinh va thu~t toan d~ kham
pha lu~tk€t hQ'pma, Ngoai ra lu~nvan cling nghien elm den vi~c kham pha lu~tk€t
hQ'p 1110'tang cuang.
C~u truc chinh cua lu~n van baa g6m 6 chuang duQ'ct6m t~t nhu sail:
1. ChU'O'n~: T6ng quail kham pha dl1li~u
Gi6i thi~u t6ng quail v~ kham pha dl1li~ubaa g6m: ky thu~t ap d\lng, nhi~m
V\lth\fc hi~n, HnhV\fCap d\lng,xu hu6ng quail trQngcua llnh V\fCnay
2. ChU'o'n2 2: Lu~t k€t hQ'pt6ng quat ma
Gi6i thi~u khai ni~m lu~t k€t hQ'pt6ng quat ma, cac mo hinh va thu~t toan
t6ng quat d~ kha111pha.

3. ChU'o'n2 3: Thu~t toan kham pha lu~t k€t hQ'Pt6ng quat ma
Trinh bay hai thu~t toan chinh d~ kham pha lu~t k€t hQ'P t6ng quat ma:
AFAR va EFAR.
4. ChU'o'n2 4: Kham pha lu~t k€t hQ'pma tang cuang
Xay d\1'ngmo hinh va thu~t toan kham pha lu~t k€t hQ'pma trong cO'So'dl1
li~u c6 tinh tang cuang.
5. ChU'o'n2 5: Ung d\lng kham pha lu~t k€t hQ'p ma
Ap d\lng cac thu~t toan d~ kham pha lu~t k€t hQ'Pma tir cac dl1 li~u khac
nhau nhu: dl1 li~u sieu thL dl1 li~u y khoa, dl1li~u daTIcu KDD-CUP-98.
6. ChU'o'n2 6: Chuang trinh cai d~t
Trinh bay hai chuang trinh cai d~t minh ho~ cho cac thu~t toan d~ light trong
lu~n van.
~*eoG\
12
ChvO1Ig 1
TAngquan Imam phadvIi~u
ro, ~
1.1 Khtim phti dft Ii'"
Ngay nay cling vai S\fphat tri~n nhanh chong v~ kich thuac va s6 luQ'ngcua
nhung ca sa du li~u trong thuang m<;li,cong nghi~p, qmin ly, y khoa, qUailS\fva
nhung llnh V\fCling dl,lng khac. Con ngmYi mong mu6n co duQ'c nhung cong Cl,l
m<;lnhme, thong minh, 1l!d<)ngnh~m tac d<)nglen kh6i luQ'ng du li~u kh6ng 16nay
d~rut trich nhung thong tin co ynghla va nguai ta g<;>ithong tin nhu tren la nhung
tri thlic. Dap ling nhu c~u tren m<)tllnh V\fCmai xu~t hi~n va nh~n duQ'Cnhi~u S\f
quail tam hall m<)tth~p ky qua. Do la llnh V\fCkhilm phil tri thire tir dif li?u (KDD:
Knowledge Discovery in Databases) hay con duQ'cg<;>ila kham pha du li~u.
Hinh 1.1: Minh h<;>acac llnh V\fCduQ'cling dl,lngkham pha
Theo tac gia Piatetsky-Shapiro co th~ dinh nghla kham pha tri thlic tir du li~u
nhu sau: "Khilm phil tri thirc tir dif li?u fa m(>tS1j:rut trich quan tr9ng nhifng thong
tin ngdm atnh, thong tin khong au9'c bitt truac, va nhii:ng thong tin hii:u d1,lng,co

tiJm nang trang dif fi?u" [19]. Thong qua vi~c rut trich tri thlic trong du li~u, nhung
ca sa du li~u Ian cling c~p m<)tngu6n thong tin d6i daD,tin c~y dap ling cho vi~c
tim ki~mva xac nh~n tri thlic. Nhung tri thlic kham pha co th~ duQ'cap dl,lngcho
c6ngvi~cqUailly thong tin, ra quy~t dinh, di~ukhi~n xu ly va nhi~uling dl,lngkhac.
13
Do d6 kham pha du li~u duQ'c xem nhu la m<)tlInh V\fCnghien clm quail tn;mg va
cling dfiy thach thuG. Nhi~u nha nghien CUutrong nhi~u lInh V\fCkhac nhu h~ ca s6
diI li~u, h~ ca s6 tri thuG, tri tu~ nhan t1;1o,hQc may, tim ki~m tri thuG, th6ng ke,. da
c6 nhi~u SlJquail tam d~n lInh V\fCkhai pha tri thuG. SlJ n~m b~t thong tin la chia
kh6a thanh Gong trong lInh VlJCthuang m1;1i,cac nha kinh doanh da cam nh~n ra
duQ'ctfim quail trQng cila lInh VlJCnay va hQ da c6 nhi~u ung d\lng hi~u qua tir k~t
qua kham pha diI li~u d~ gia tang lQ'inhu~n trong vi~c kinh doanh.
Qua trinh kham pha tri thuGtrong diI li~u c6 th~ duQ'ct6m t~t qua cac giai
do1;1nchinh nhu: chQn lQc diI li~u tir m<)tngu6n diI li~u, cac giai do1;1nchuftn bi
thong tin, giai do1;1nap d\,mgcac thu~t toan kham pha diI li~u va giai do1;1ncu6i la
chuy~n k~t qua thanh tri thUGma con nguoi hi~u duQ'c.C6 th~ xem qua trinh ap
d\mg cac thu~t toan kham pha diI li~u la quail trQngnhAt,qua trinh nay se quy~t
dinh d~n ki~u k~t qua duQ'ckham pha.
M9t trong s6 nhiIng k~t qua thu duQ'ctir ti~n trinh kham pha tri thUGtrong diI
li~u la nhiIng thong tin d1;1nglu~t, day la m<)td1;1ngth~ hi~n tri thUGph6 bi~n nhAt.
N6i b~t han ca do nh~n duQ'cnhi~u SlJquail tam va c6 nhi~u Gong trinh nghien CUu
la !wjt kit h9P (Association Rule). D1;1nglu~t nay th~ hi~n m6i quail h~ cung xuAt
hi~n nhung d6i tUQ'llgtrong m<)tca s6 diI li~u nao d6. Cho phep xac dinh duQ'cSlJ
xuAthi~n cila m<)td6i tuQ'ng nay thong qua S\fhi~n di~n cila m<)td6i tUQ'llgkhac.
1.2 Cac giai ao{ln chink trong ti~n trinh kham pha diJoliill
Chinh vi m\lc tieu kham pha tri thuG ngfim dinh trong ca s6 diI li~u nen qua
trinh kham pha thuong phai qua m<)ts6 cac giai do1;1ncfin thi~t. Bao g6m nhUng giai
do1;1nchuftn bi diI li~u kham pha, giai do1;1nkham pha diI li~u va cu6i cung la giai
do1;1nchuy~n k~t qua kham pha sang nhUng tri thuG cho con nguoi hi~u duQ'c. Chi
ti€t cae bUGCth\fc hi~n duQ'cmo ta t6m t~t nhu sail:

* Giai dean 1: dfiu tien la phM tri~n m<)t slJ hi~u bi~t v~ lInh V\fc ung d\lng va
nhiIng tri thUGtuang ung. Xac dinh m\lc dich cila ti~n trinh kham pha diI li~u tir
quail di~m eila nguoi dung.
14
* Giai doan2: chu~n bi du li~ude kham pha, thu th~p du li~uva du li~umau
* Giai doan 3: ti~n xu ly du li~u, x6a cac thong tin bi nhi€u trong du li~u, lo?i ba
S\ftrung lip du li~uva xac dinh chi~n luQ'Cde xu ly nhung du li~ubi m~t.
* Giai doan4: chi~u du li~u,thu nha du li~uva tlm nhung d~etrung de kham pha.
* Giai doan 5: chQnm9t phuang phap kham pha du li~u thieh hQ'pnh~t trong s6
cac phuang phap ph6 bi~n nhu: t6m tit, phan lap, h6i qui, phan nh6m, k~thqp
* Giai doan 6: tu thu~t toaD dffchQn,mo hlnh h6a thu~t toaD de giai quy~t trong
truang hQ'pC\lthe dang xet. L\fa chQnnhung phuang phap tlm ki~m mau du
li~u, quy~t dinh cac tham s6.
* Giai doan 7: day 1agiai do?n kham pha du li~u, su d\lng thu~t toaDde tlm ki~m
nhung mau thil vi trong m9t hlnh thue the hi~n d~e thu ho~e m9t t~p nhung the
hi~n baa g6m nhung lu~tphan lap, cay, S\fh6i qui va phan nh6m.
* Giai doan 8: thong dich l?i nhung mau dffduQ'ekham pha duai cae hlnh thue the
hi~ntri thUGcua du li~unhu ngon ngu, bieu d6, hlnh cay, bang
Trithuc
-
GOngvi~e truae day d~u t~p trung 6 buae 7 la giai do?n kham pha du li~u. Tuy
15
nhien, cac bu6'c con l<;liquail trQng khong kern va nhung bu6'c do dong gap r~t
nhi~uSl}'thanh Gongcila toan bQti€n trinh kharn phil du li~u.
1.3 Cae nh/im VIIkhdm phil du Iii"
Cho d€n nay da:co r~t nhi~u Gongtrinh nghien Clmva phat tri~n trong lInh
V\fCkharn phil du li~u,co nhi~u kg thu~t va nhung h~ th6ng kharn phil da:duQ'Cphat
tri~n. D\fa tren nhung lo<;litri thUGduQ'c kharn phil, chung ta co th~ rhein lo<;linhu
theo cac nhi~rn V\lnhu sail:
* Kharn phil luat thuoc Hnh:tom t~t nhung thuQcHnhchung cila t~p du li~unaGdo

trong ca sa du li~u.Vi d\l nhu nhung tri~u chung cila rnQtdin b~nh S thi thucmg
c6 th~duQ'cth~ hi~nqua mQtt~plu~tthuQcHnhA.
* Kharn phil nhung luat rheinbiet: kharn philnhung d~ctIling, nhung thuQctinh d~
rhein bi~t gil1'at~p du li~u nay v6'i t~p du li~u khac. Vi d\l nhu nh~rnrhein bi~t
giua cac chung b~nh, thi rnQtlu~trhein bi~t duQ'cdung d~ tom t~t nhung tri~u
chung nh~rnrhein bi~t chung b~nhxac dinh v6'inhung chung b~nhkhac.
* Kharn phil luat k€t hap: kharn pha S\fk€t hQ'pgiua nhung d6i tuQ'ngtrong rnQt
t~pdu li~u. Gia Slrhai t~p d6i tuQ'ng{Al, A2, ,Am}va {Bl, B2, ,Bn} thi lu~tk€t
hQ'p c6 d<;lng(AI /I /\ Am) ~ (Bl /I /\ Bn).
* Kharn pha luat rhein lap: rhein lo<;lidu li~u VaGtrong t~p nhung lap da:bi€t. Vi
d\l nhu rnQts6 chi€c xe co nhung d~ctinh chung d~ rhein VaGcac lap d\fa tren
cach tieu th\l nhien li~u ho~c co th~ rhein VaGcac lap d\fa tren tai trQng
* rhein nh6rn: xac dinh rnQt nhorn cho rnQt t~p nhung d6i tUQllg d\fa tren thuQc
tinh cila chung. MQts6 cac tieu chu~n duQ'csu d\lng d~ xac dinh d6i tuQ'ngc6
thuQcv~ nh6rn hay khong.
* Du baa: d\f baa gia tri c6 th~ dung cila nhung du li~u bi thi€u ho~c S\frhein b6
thuQctinh naGd6 trong t~p du li~u.
* Kharn pha quy luat bi€n d6i: tirn nhung t~p lu~t phan anh nhung hanh vi ti€n
h6a, bi€n d6i chung cila rnQtt~p du li~u. Vi d\l nhu lu~t kharn pha nhung y€u t6
chinh taGdQng leu S\fthay d6i cila nhung gia c6 phi€u naG do.
16
1.4 PhtfO'ngphap kham pha dit li~u
Tu nhung nhi~m V\ltren chung ta th~y r~ng vi~c kham pha du li~ukhong chi
dan gian la st'l'd\lng duy nh~t m<)tky thu?t nao do. B~t cu phuang phap nao h6 trQ'
cho vi~c tim ki~m thong tin t6t thi se duQ'csu d\lng. Tuy thu<)cvao cac nhi~m V\l
khac nhau ma cac phuang phap co th€ duQ'cchQn,m6i phuang phap co di€m m:;1nh
va nhung m~ith:;1nch~ rieng. Chung ta co th€ phan 10:;1inhung phuang phap kham
pha du li~utheo cac nhom sail:
.:. Phuang phap th6ng ke: huang ti~p c?n th6ng ke d\1'atren n~n tang mo hinh xac
su~t.Cach thl,l'chi~n dl,l'atren vi~c ki€m chung nhung ly thuy~t da xac dinh truac

va dl,l'atren vi~c lam thich hgp nhung mo hinh cho du li~u. Thong thm'mgnhung
mo hinh nay da duQ'csu d\lng b6i nhung nha th6ng ke. Do V?ycon ngmJi phai
cling c~pnhung Iy thuy~t ung vien va cac mo hinh th\1'chi~n.
.:. Suy di~n dua tren tinh hu6ng: giai quy~t v~n d~dua ra b~ng cach dung tf\l'Cti~p
cac kinh nghi~m va nhung giai phap trong qua khu. M<)ttinh hu6ng thuimg la
v~nd~d~cbi~t da d6i m~ttruac day va cling da duQ'cgiai quy~t.Dua ra m<)tv~n
d~ mai d~c thu, suy di~n d\1'atren tinh hu6ng se ki€m tra m<)tt?P nhung tinh
hu6ng duQ'cluu tru va tim nhung tinh hu6ng tuang t\1'.N~u tinh hu6ng t6n t:;1ithi
nhung giai phap tuang ung se duQ'cap d\lng cho mo hinh mai va tinh hu6ng giai
quy~t mai se duQ'cC?Pnh?t vao h~ th6ng nh~m ph\lc V\lcho l~n th\1'chi~n sail.
.:. Mang Neural: la lap nhung mo hinh mo phong theo b<)nao con ngmJi. Nhu
chung ta da bi~t thi b<)nao cua con ngmJi baa g6m hang tri~u t~ baa th~n kinh
duQ'ck~tn6i qua kh6p th~n kinh. Nhung m:;1ngth~n kinh duQ'chinh thanh tu s6
luQ'ngIan nhung neural mo phong, cac nut nay duQ'ck~t n6i vai nhau trong cach
gi6ngnhu t~ baa th~n kinh. Tuang t\1'nhu trong b<)nao th?t, cuimg d<)k~tn6i co
th€thay d6i d€ dap l<;1iS\1'kich thich, di~unay cho phep m:;1ngco kha n[mghQc.
.:. Cay quy~t dinh: trong diy nay m6i nut trung gian th€ hi~n m<)tS\1'ki€m chung
ho~c lTI<)tquy~t dinh d\1'atren item du li~u dang xet. D\1'atren k~t qua cua thu
nghi~lTIse xac dinh nhanh ti~ptheo. D€ phan lap m<)titem du li~u, chung ta b~t
d~utu nut g6c sail do di xu6ng theo cac nut phu hgp vai ki€m chung cho d~nkhi
17
g~p nUtla, t(;tinut mlYse cho quy~t dinh. Cay quy~t dinh con du<Jcdung th~hi~n
nhung hinh thll'cd~cbi~t cua mQtt~p Iu~t.
.:. auy nap Iuat: nhung Iu~tth~ hi~n mQtS\ftuang quail th6ng ke giua cac S\fxuftt
hi~n cua nhung thuQctinh, d6i tuqng mlo do trong du li~u. Hinh thll'cchung cua
lu~t Ii X/ /1 /\ XN ~ Y [8, C], nghla Ii khi co S\fxuftt hi~n cac thuQc tinh Xj XN
se dftn d~n thuQc Hnh Y v6'i dQh6 tr<JIi 8 vi dQtin c~y Ii C.
.:. Mang Bayer: m(;tngBayer Ii th~ hi~n d6 hQacua S\fphan b6 cac xac suftt,du<Jc
dftnra tu vi~c th6ng ke S\fxuftthi~n cua cac d6i tuqng. f)~c bi~t m(;tngBayer Ii
mQtdO'nd6 thi co hu6'ng, trong do m6i nut th~ hi~n bi~n thuQc Hnh vi nhung

c(;tnhth~ hi~n xac sufttphl,1thuQcgiua nhUngthuQctinh do.
.:. Thuat giai di truy~n: hay I~ptrinh ti~n hoa Ii cach giai quy~t theo chi~n Iu<Jct6i
uu d\fa theo nguyen Iy ti~n hoa du<Jckhao sat trong t\f nhien. NhUng giai phap
vftnd~ t6t nhfttse di qua giai do(;tnchQnIQcvi chung se du<Jck~t hQ'Pv6'i nhau
d~ cho nhung giai phap khac t6t han. Qua trinh Cll'I~p I(;tinhu v~y cho d~n khi
vftn d~ du<Jcgiai quy~t ho~c ti~n d~n mQtnguang dUng.
.:. Tap ma: day Ii kg thu~t chinh cua vi~c th~ hi~n vi xu Iy tinh khong chinh xac.
SI!khong chinh xac du<Jcnay sinh tu nhung cO'sa du Ii~ungiy nay: S\fkhong
chinh xac, khong th~ xac djnh, khong nhfttquail vi mO'h6 NhUngt~p ma khai
thac tinh khong ch~c ch~n d~ Iim cho h~ th6ng phuc t(;tpITanen d€ quail Iy. Do
v~y nhung t~p ma t(;tothinh cach ti~p c~n m(;tnhkhong chi d~ giai quy~t tinh
khong tn,mvtfn, nhi€u hay du li~u khong chinh xac mi con giup phat tri~n cac
1110hinh khong ch~c ch~n cua du Ii~u nh~m t(;tora S\fth\fc thi thong minh, m~m
cleohan so v6'i h~ th6ng truy~n th6ng.
.:. Tap tho: t~p tho du<JCdinh nghla bai t~p xftpxi tren vi t~p xftpxi du6'LCac d6i
tuqng thuQct~p xftpxi du6'i Ii xac djnh hoin toin. Cac d6i tuqng thuQct~p xftp
xi tren Ii ph~n khong xac dinh. T~p xftpxi trencua t~p tho Ii hQicua t~p xftpxi
du6'i vi t~p bien. MQt d6i tuqng thuQct~p bien Ii xac dinh nhung khong xac
dinh hoin toin. Vi v~y, t~p tho co th~ du<Jcxem nhu Ii t~p ma co him thinh
vien ba gia tri: "dung", "saC'vi "co thi". Gi6ng nhu t~p ma, t~p tho Ii mQtkhai
18
ni~m tmln hQcd~ phan lap du li~u. T?p tho cling nhu t?P ma it duqc S11d\mg
nhu la mOtgiai phap dO"nIe. Chung thuang duqc k€t hqp vai cac phuang phap
khac nhu suy di~n lu?t, phan lap va phan nh6m.
1 5 Ctie lop; dfl' /ifu dU'{1eklttim pita
Kham pha du li~uthuang lam vi~c vai nhi€u ki~u du li~u khac nhau. Hftuh€t
cac ki~udu li~u duqc kham pha la nhung ki~u nhu sail:
ff CO"sa du lieu quail he: nhung cO"sa du li~u duqc t6 chuc theo mo hint quail h~.
Hftuh€t nhung h~ qUailtri cO"sa du li~u hi~n nay d€u h6 trq mo hint nay nhu:
Oracle, IBM DB2, MS SQL Server, MS Access

ff CO"sa du lieu da chi€u: cO"sa du li~u nay thuang duqc gQila nha kho du li~u,
trong d6 du li~u duqc chQntiTnhi€u ngu6n khac nhau va chua nhung d~c tinh
Itch Slrthong qua thuQctinh thai gian tucmgminh ho~cngftmdinh.
ff CO"sa du lieu giao tac: day la lo~i du li~u duqc S11d\mg nhi€u trong sieu thi,
thuO"ngm~i, tai chinh, ligan hang
ff CO"sa du lieu quail he - huang d6i tuO"ng:mo hinh cO"sa du li~u nay la lai giua
mo hint huang d6i tuqng va mo hinh cO"sa du li~u quail h~.
ff CO"sa du lieu thai gian, khong gian: chua nhung thong tin v€ khong gian dia ly
ho~cthong tin theo thai gian.
ff CO"sa du lieu da phuO"ngtien: lo~i du li~u nay baa g6m: am thanh, anh, video,
van ban va nhi€u ki~u du li~u dint d~ng khac. Ngay nay lo~i du li~u nay duqc
Sl1'd\mg nhi€u tren m~ng Internet.
1.6 Nltfl'ng wng dflng eua klttim pita diJ:lifu
Tuy kham pha du li~u la mOthuang nghien cuu mai nhung dffthu hut duqc
nhi€uS\1'quail tam cua nhung nha nghien cuu do kha nang ling d\mg th\1'ct€ trong
nhi€u llnh V\1'C.MQt s6 ling d\lng di~n hint nhu sail:
ff Phan tich du lieu va h6 trQ'quy€t dinh: ling d\lng lo~i nay ph6 bi€n trong thuO"ng
m~i,tai chinh va thi truang chung khoan

×