Tải bản đầy đủ (.pdf) (75 trang)

Xây dựng hệ thống hỗ trợ tự đánh giá năng lực trực tuyến bằng giải thuật luật kết hợp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.03 MB, 75 trang )

TRtfCING DAI HOC AN GIANG
KHOA KY THUAT - CONG NGHE - MOI TRl/OfNG

LE NGUYEN BUt - DTH092032
KHOA LUAN TOT NGHlEP DAI HOC NGANH CU" NHAN TIN HOC

XAY DlTNG HE THONG HO TRO TU^ DANH
GIA NANG LlTC TRVC TUYEN BANG GIAI
THUAT LUAT KET HOP
TRLT6NG DAI HQC
AN GIANG

THUVIEN
Giang vien hirong dan:
Huynh Ly Thanh Nhan

An Giang, 04/2013


NHAN XET CUA GIANG VIEN HET6NG DAN

Giang vicn hirong dan

(Ky va ghi ro hq ten)

N6i dung nhan xet:
Dong ^ hay khong d^ng y cho sinh vien bao cao KLTN; Neu khong d6ng y cln ghi ro ly do.
Ket qua dat di^c so vdi yeu cdu;


LQI CAM ON


Em chan thanh cam on:
Ban giam hieu truong Bai hoc An Giang, Ban chu nhiem khoa Ky thuat - Cong
nghe - Moi trubng, Bo mon Tin hoc cung quy thay co trong khoa Ky thuat - Cong
nghe - Moi truong da tao dieu kipn cho em dupe hoc tap va thuc hien khoa luan nay.
Quy thay co da true tiep cung nhu gian tiep cung cap cac kien thirc nen tang cho
em thuc hien khoa luan.
Phong dao tao, cac thay co trong khoa da tao dieu kien thuan loi cho em trong
viec thu thap da lieu (co so da lieu di^m cua sinh vien, chuong trinh dao tao cac
nganh) cBng nhu phan tich va thuc hi^n de tai.
Thay Huynh Ly Thanh Nhan, ngucri huong dan true tiep da dong gop y kien va
giup do em trong suot qua trinh thirc hien de tai.
Anh Nguyen Van Vu da khich le, dong vien, giup d& em trong qua trinh thuc
hien khoa luan nay.
Xin cam on gia dinh da tao di^u kien cho em an tarn hoc tap, cam on cac ban lop
DH10TH da chia se giup do trong qua trinh hoc tap nhung nam qua. Bac biet goi loi
cam on d^n cac ban thuoc nhom Profit da gin bo va tan tinh giiip d5 trong' su6t 4 nam
hoc.

Tuy da n6 luc dS hoan thanh luan van nhung sai sot la khong thl tranh khoi kinh
mong quy thiy co thong cam va tan tinh chi bao nhung sai sot do. Mong nhan dupe y
ki8n dong gop cua quy thiy co va cac ban.

Sinh vien Le Nguyen Due


TOM TAT
Hien trudng Dai hoc An Giang dang dp dung hinh thuc dao tao hpc che tin chi.
Theo hinh thuc dao tao nay, sinh vien diu phai tu dang ky hoc phin d mii hpc ky. De
co thi ra quyet dinh lira chpn mon tu chpn cho minh sinh vien thudng nhd den su tu
van cua c6 van hpc tap. Muin danh gia dupe nang luc va dua ra ldi tu vdn phu hpp

cho tung sinh vien, co van hpc tap phai xem xet ket qua hpc tap (diem) cua sinh vien d
nhung hpc ky trudc roi dua ra ldi tu van. De lam dupe viec nay he thong cd van hpc
tap phai vd cimg vat va, sinh vien phai chd dpi dupe tu van. Mot thuc te nda, diem so
cua sinh vien deu dupe luu tru lai. Vay tai sao khong xay dung mpt he thong cung dua
vao diem cua sinh vien roi lam cong viec tu van thay chocd van hpc tap. Lam dupe
nhu th^ se ho trp rdt nhieu cho hoat dpng cua he thong cd van hpc tap cua trudng va
tiet kiem dupe thai gian chd dpi dupe tu van cua sinh vien.
De giai quyet bai toan mang tinh chit suy di&, du doan dua vao lich su nhu thi
nay thi luat ket hpp la lira chpn hpp ly nhit. VI thi de tai se su dung cac giai thuat khai
pha luat kit hpp cu thi la charm (tun tap ddng/tap ddng tii dai) va apriori (sinh luat).
Su dung ket qua thu dupe tit charm va apriori tien hanh du doan cho tung sinh vien
cudi cimg su dimg ket qua du doan nay de tu van cho tung sinh vien cu the trong moi
trudng web.
Kit qua thuc nghiem cho thiy charm hieu qua hern apriori va fp-growth tren tap
dii lieu Ion. Mat khac, phuomg phap ma de tai da ap dung cung cho kit qua kha kha
quan, luat tim dupe co dp chinh xac tuong dii cao.


MUC LUC
Danh sach hinhiii
Danh sach bangv
Danh sach ley hieuvi
Danh sach tir viet tatvii

Chuong 1: T6ng quan1
I.Bat van de1
II.Lich su giai quyet vln de1
III.Pham vi cua de tai2
IV.Huong giai quyet van de2
Chirong 2: Co s& Iy thuyet4

I.T6ng quan v^ khai pha tri thiic va khai pha du lieu4
1.Phat hien tri thiic va khai pha du lieu4
2.Qua trinh phat hien tri thuc tir co so da lieu6
3.Khai pha de lieu8
II.Luat k6t hop trong khai pha da lieu12
1.Cac dinh nghia ve luat ket hop12
2.Mot so hudng tiep can trong khai pha luat ket hop14
III.Tim sieu tham s6 (search hyper parameters)14
Chuong 3: Giai thuat charm16
I.Gidi thieu giai thuat,16
II.Tim tap mucthuong xuyen16
1.Cac khai niem lien quan17
2.Tim tap ph6 hi6n dong tren it-tree20
Chirong 4: D do hap dan khach quan cua luat ket hop27

I.Gioithi^u27
II.Cac tieu chi danh gia:27
1.Bi&i thien gia tri27
2.Tinh huong ca biet28
3.Hien tuqng nghich ly29
4.B&nduqc29
5.Badanghoa29
6.Kha nang phan biet29


7.Co th6 giai thick29
8.Khong can blng29
9.Thupc tinh lpi ich30
10.Bi^nthiengiatri30
Chirong 5: Xay dung he thong ho try ty danh gia nang lye true tuyen bang

giai thuat luat ket hop31
I.Tong quan he thong31
1.Phan he khai pha31
2.Phan he ho tra danh gia31
II.Mo ta chi tiet phan he khai pha32
1.Nhap chucmg trinh dao tao tir tap thi excel32
2.Nhap diem tir tap tin excel va chuyen doi diem34
3.Chuyen doi va tich hop dii lieu giao tac36
4.Tim tap dong t6i dai tir co so dii lieu giao tac43
5.Sinh luat tir tap dong toi dai44
6.Tim sieu tham so47
7.Banh gia do hap dan ciia luat53
8.Tao tai khoan va dvr doan54
9.Bong bp dii lieu55
III.Mo ta phan he h6 trp danh gia;56
Chuong 6: Danh gia ba giai thuat apriori, fp-growth va charm tir ket qua
thyenghiem..57
I.So sanh ba giai thuat57
1.Tnibmg hop tap dii lieu Ion57
2.Tnrimg hop tap da lieu nho58
3.Nhan xet va giai thich ket qua59
II.Chpn giai thuat cho de tai60
Ketluan va kien nghi61
Phuluc
Tai lieu tham khao


DANH SACH HJNH
Hinh 2.1. Bang so luang sinh vien bac Bai hoc va Cao dang Viet Nam giai doan
2000-2011'..'.'.'.'..'4


Hinh 2.2. Bilu dl so luang sinh vien bac Bai hoc va Cao ding Viet Nam giai
doan 2000-20115
Hinh 2.3. Qua trinh kham pha tri thiic tu ca sd du lieu6
Hinh 2.4. Kiln true ciia he thing khai pha du lieu:11
Hinh 2.5. Qua trinh khai pha du lieu11
BQnh 3.1. Lap thii 1 cua IT-Tree18
Hinh 3.2. Lap thii 2 ciia IT-Tree19
BQnh 3.3. Lap thii 3 cua IT-Tree19
Hinh 3.4. Lop thu 4 ciia IT-Tree20
Hinh 3.5. Biffset P(tiln to) va cac lop thanh vien X, Y22
Hinh 3.6. IT-Tree dung Biffset vdi minsup la 50%22
Hinh 3.7. Minh hpa xay dung IT-Tree bang charm vdi minsup la 50%25
Hinh 4.1. Ban so cua luat kit hop X-Y27
BQnh 4.2. Biln thien "tot" cua gia tri hap din28
Hinh 5.1. Mo hinh ting quan he thing hi tra tu danh gia nang luc true tuyln31
Hinh 5.2. Quy trinh khai pha32
Hinh 5.3. Cau tnic tap tin excel chiia chuang trinh dao tao33
Hinh 5.4. Danh sach mon hoc thu duac sau khi nhap chuang trinh dao tao ciia
nganh Bai hoc Viet Nam hoc34
Hinh 5.5. Danh sach nganh hoc thu duac sau khi nhap chuang trinh dao tao ciia
nganh Bai hoc Viet Nam hoc34
Hinh 5.6. Chuang trinh dao tao ciia nganh Bai hoc Vidt Nam hoc trong phan he

khai pha34
Hinh 5.7. Kit qua nhap va chuyln dilm cua nganh Bai hoc Viet Nam hoc tir tap
tin excel35
Hinh 5.8. Ket qua chuyen ma mon hoc36
Hinh 5.9. Kit qua chuyen ma nhom nganh ciia nganh Bai hoc Viet Nam hoc37
Hinh 5.10. Tap du lieu diem phuc vu cho viec tong hop ca sd du lieu giao tac

nganh Bai hoc Viet Nam hoc hoc ky 242
Hinh 5.11. Ca sd du lieu giao tac ciia nganh Bai hoc Viet Nam hoc d hoc ky 243
Hinh 5.12. Quy trinh tim tap ddng43

BQnh 5.13. M6 hinh mot tap ddng tli dai45
Hinh 5.14. Tap ddng tli dai duac chia thanh tap tiln dd (cac 6 mau trlng) va tap

kit luan (cac 6 mau do)45
Hinh 5.15. Cac ling vien d tap tiln (vimg mau xanh) d! va tap kit luan (vimg mau

do)46

iii


Hinh 5.16. Mo hinh xii ly sinli va chpn luit47
Hinh 5.17. Tap luat ciia nganh Dai hoc Viet Nam hmnh 5.18. Tap luat, tap Ssupp va tap Cconf49

fflnh 5.19. Tap luat va do chinh xac khi supp la 20% va conf la 50%.49
Hinh 5.20. Tap luat va do chinh xac khi supp la 20% va conf la 60%50
Hinh 5.21. Tap luat va do chinh xac khi supp la 30% va conf la 50%50
Hinh 5.22. Tap luat va do chinh xac khi supp la 30% va conf la 60%51
Hinh 5.23. Cap tham si tint duac51
Hinh 5.24. Ket qua tim sieu tham so cho tap luat cua nganh Dai hpc Viet Nam hpc
crhocky252
Hinh 5.25. Tap luat thoa cap tham s6 tim dugc (10% - 100%)52
Hinh 5.26. Tap luat a hoc ky 2 cua nganh Dai hoc Viet Nam hoc sau khi danh gia
do hip din....'.'.'.'.'.'..'.53


Hinh 5.27. Kit qua tu vin nganh Dai hoc Viet Nam hoc 6 hoc ky 255
Hinh 5.28. Mo hinh trao d6i du lieu giua phin he khai phi va phin he tu vin55
Hinh 5.29. Kit qua tu vin cho mot tai khoan sinh vien nganh Dai hoc Vi?t Nam
hoc a hoc ky 2,,56
Hinh 5.30. Kit qua tu vin cho mot sinh viin tai phan he ho tror danh gia56
Hinh 6.1. Giao dien Sequential Pattern Mining Framework57
Hinh 6.2. Bieu do su phu thuoc cua thai gian vao giai thu$t tren tap du li^u Ian

(dan vi tinh mili giiy)58
Hinh 6.3. Bieu do su phu thupc cua thai gian vao giai thuit tren tap du lieu nho

(dan vi tinh mili giiy)59

IV


DANH SACH BANG
Bang 2.1. Cac nhom ky thuat khai pha du lieu9
Bang 3.1. Cac ky hieu dung trong thuat toan tint tap muc thuong xuyen16
Bang 3.2. Ca sd du lieu minh hpa xay dung IT-Tree17
Bang 3.3. Dinh dang du lipu doc cua cac muc (Items)17
Bang 5.1. Danh sach mon hoc (khoa: 1, khong khoa: 0)38
Bang 5.2. Danh sach cac mon hpc trong chuong trinh dao tao cua nganh Dai hpc
Viet Nam hpc trong hpc ky 1 va 2 (tu chpn: I,b5t bupc: 0)40
Bang 5.3. Npi dung tap SV)41
Bang 5.4. Tap luat khi kgt ling vien cua tap tien dh va tap kiim tra46
Bang 6.1. Thong so ciia tap du lieu Ion va dp h trp nho nhat57
Bang 6.2. K6t qua thuc nghiem tren tap dti lieu ldn58
Bang 6.3. Thong s6 ciia tap dtt lieu nho va dp ho trp nho nhlt58
Bang 6.4. KSt qua thpc nghiem tren tap du lieu nho59

Bang 6.5. So sanh giai thuat Apriori, FP-Growth va Charm60
Bang 7.1. Ket qua thuc nghiem vdi du lieu ciia nganh Dai hpc Viet Nam hpc tit

hpc ky 2 den hpc ky 561


DANH SACH KY HIEU
CkTap ling cu vien k muc
ConfDo tin cay
DCo so du lieu giao tac

FCITap ph6 bien dong
FITap mpc thubng xuyen
LkTap muc thuong xuyen k muc

MFITap pho bi^n dong toi dai
minconfDp tin cay nho nhat
minsupDp ho trp nho nhat
SuppDp ho tro thong tin
TLa tap hop cac tid
La dinh danh cua moi giao tac trong co so du lieu va tid nay la duy
TID
nh^t

VI


DANH SACH TU" VlT TAT
Co so du lieu


CSDL
KDD
MSSV

Knowledge Discovery and Data Mining

NNLCBCCN

Nhung nguyen ly ca ban cua chii nghia

GDQP-AN

Giao due quoc phong — an ninh

VH

Van hoa

BNA

Dong Nam A

TT

Thirc tap

NH-KS

Nha hang - khach san


PPNCKH

Phuong phap nghien cuu khoa hpc

DLCMCBCS

Duong loi each mang ciia Dang cong san

KN

Ky nang

Ma so sinh vien

vii


Kh6a luan t6t nghiep Bl tai: Xay du-ng he thong hd tro- tir danh gia nang lire trirc tuyen bang giai thuat luat kit hop.

CHITONG 1: TdNG QUAN
I.DAT VAN d
Ke tu nam hoc 2009 - 2010, trudng Dai hpc An Giang chuyin tir dao tao theo
nien chi sang dao tao theo hpc chi tin chi [1]. Di theo six thay d6i do la nhu cau
dupe tu van trong viec chpn mon hpc tu chpn nao cho phu hop vdi tirng sinh vien
cu the la rat can thiet cua sinh vien. Theo mpt each thong thudng thi viec tir van
nay se do co van hpc tap hoac giao vien chu nhiem phu trach. De dua ra ldi
khuyen hop ly cho sinh vien cac co vln hpc tap phai xem xet ket qua hpc tap cua
sinh vien ma minh dang tu vln sau do mdi dua ra lexi khuyen cho sinh vien do. Ma
m6i quan he tu van giua c6 van hpc tap va sinh vien khong phai la m6i quan he 11 ma la m6i quan he 1-nhiiu. Vi the cong viec cua ci van hpc tap, giae vien chii

nhiem treng viec tu van cho sinh vien la kha cue nhpc va ton nhieu thai gian.
Mot thuc ti trong nam hpc 2011-2012, Dai hpc An Giang co 19 sinh vien bi
bupc thoi hpc mot nam [11] va 127 sinh vien bi canh bao hpc vu [10], so luong
smh vien bupc thoi hpc nay ngay cang tang va thuong tap trung vac nhung smh
vien n5m thu ba va nam cu6i. Nhung sinh vien hpc or nam thir nhat va nam thu hai
thuang it bi bupc thoi hpc do chua co nhieu mon lua chpn. Khi sinh vien budc vao
nam hpc thu ba hoac thu tu thi s6 lupng mon lira chpn ngay cang nhieu, n^u lya
chpn nhung mon hpc khong phu hap vdi tirng sinh vien thi se din d^n ket qua xlu
va dan dan anh hudng den ket qua ciia toan khoa hpc. Vdi ket qua bi bupc thoi hpc
d nhung sinh vien nam ba va nam cuoi la mot ton that ldn cua sinh vien, gia dinh
va con la ganh nang cua nha trudng, ciia toan xa hoi. That vay, khi sinh vien bi rdt
mot mon hpc nao do thi sinh vien do se phai hpc l^i. Viec hpc lai rat mat thai gian,
cong sue ciia sinh vien, hao ton them ve van de tai chinh ciia gia dinh sinh vien do
va lam giam chat lupng dao tao chung cua toan trudng.
Theo tirng hpc ky, thee tirng nam hpc, diSm ciia tat ca sinh vien hpc tap tai
trudng deu dupe hru trtt lai. Do do, kho dfi lieu nay la vo cung to ldn. Vay van de
dat ra la kho du lieu khong 16 nay co giiip ich gi trong vi|c ho trp cho he thdng co
van hpc tap ciia trudng. Cu the la no co giiip giam tai cong viec tu van cua cac co
van hpc tap hay khong? Day cung chinh la ly do em chpn va thirc hien de tai "Xay
dung he thing ho trp' tu danh gia nang lire true tuyen bang giai thuat luat kit
hop".

II.LJCH SLF GlAl QUY^^T VAN BE
Day khong phai la vln di mdi. Nam 2008, trong khoa luan tit nghiep ciia
minh thay Huynh Ly Thanh Nhan cung da giai quyet van de tuang tu la du doan
kit qua hpc tap cua sinh vien cung blng giai thuat luat kit hop [6]. Di tai ciia thay
Huynh Ly Thanh Nhan da xay dung thanh cong phln mim sinh luat va tiin hanh
du doan kit qua hoc tap ciia smh vien dua vao luat tim dupe [6]. Tuy nhien, van
con mot si vln di chua dupe giai quyit: Mot la, chua ap dung chuang trinh dao
tao theo hpc che tin chi (vi khi xay dung de tai trudng van con dao tao theo nien

chi) diiu nay lam cho di tai khong con phu hpp vdi nhu cau hien nay nua. Hai la,
chua thu nghiem va so sanh cac giai thuat di tim ra giai thuat phu hop vdi yeu clu
ma di tai thuc hien, chua thi ap dung thuc ti. Ba la, chua co thao tac danh gia tri

Sinh vien thyc hien: Le Nguyen Biic - MSSV: DTH092032:Trang 1


Khoa lu#n tat nghiep Be tai: Xay dung he thong ho tr^ tit danh gia nang lire trtrc tuyen bing giai thuat luat kit hop.

thuc ma cu the la viec do do hap dan cua luat. Bon la, viec xay dung website du
doan ket qua hpc tap cho sinh vidn trubng Dai hoc An Giang con nam trong hudng
phat trien ciia de tai. Va pham vi cua dl tai chi ap dung trong Khoa Ky thuat Cong nghe - Mdi trubng.

III.PHAMVICGadtA|
Trong de tai se tap trung trinh bay mot each khai quat ve khai pha tri thiic va
khai kha dtt lieu.
Dua trdn cac ly thuyet da tdng hop tiln hanh nghien cihi sau hon v luat ket
hop.

Cuoi cung la xay dung mot he thong dl khai pha luat kSt hop dua tren co so
du lieu diem cua truong d^ giup cho sinh vien danh gia nang luc cua minh. Danh
gia nang luc la xet xem vdi dilm hien tai cua sinh vien thi thich hpp de hpc nhung
mon to chpn nao. Tu do dua ra sir tu vln cho sinh vien trong viec lira chpn mon
hpc tu chpn nao trong liic dang k^ hpc phan.
Thong thubng trudc khi sinh vien dang ky hpc phan d moi hoc ky sinh vien
phai dung trudc viec quylt dinh chpn hpc mon nao va khdng hpc mon nao giua
cac mon hi chpn. DS di din quylt dinh cudi cimg smh vien thuc hien it nhlt 4
cdng viec sau:
-Tu danh gia nang lire ciia minh xem phu hop dd hpc mon tu chpn nao va khong

phu hop vdi mon tu chpn nao? (Co th! tham khao y kiln cua co vln hpc tap).
-Xet so trudng, so doan, sd thich cua minh la gi?
-Dilu kien va hoan canh gia dmh co phu hop khong?
-Mon hpc co dupe md hay khdng?
Hp thong ma de tai hudng din xay dung se giup giai quyet cdng viec thu nhlt
ma sinh vien phai thuc hien nhu da trinh bay. Tuc la giup sinh vien danh gia nang
lire cua sinh vien xem phu hpp hay khdng phu hop vdi tung mdn hpc tu chpn trong
tirng hpc ky chu khdng ra quyet djnh thay cho sinh vien. Deu nay phan nao da giai
thich dupe chu "tu" trong ten de tai. Tu d day cd nghia la sinh vien phai tu ra
quyet dinh, tu chpn mdn hpc va tu chiu trach nhiem ve quyet dinh cua minh lira
chpn.

IV.HITONG GlAl QUY^T VAN b
. Su dung thuat toan khai pha luat ket hop de sinh ra cac lut ket hpp. Tiln hanh
danh gia dp hap dan ciia luat trudc khi su dung cac luat do lam co sd de tu van cho
sinh vien trong viec chpn mdn hpc tu chpn phu hpp vdi kha nang ciia sinh vien.
Tuy nhidn, qua trinh tim luat tuong ddi phirc tap va ton thai gian. Nen de tai se
chia lam 2 phan thuc hien do la: phan sinh luat tu co sd du lieu va phan su dung
kdt qua cua phan 1 de tu van cho sinh vien. Do qua trinh thuc hien de sinh ra luat
va danh gia luat ton nhilu thai gian va phirc tap ndn dupe thuc hien d mdi trudng
irng dung application d may tinh cue bd (phan he khai pha). Sau khi tim dupe luat
se dua chiing len internet dudi dang mot website dd phuc vu cho sinh vien tu danh
gia nang luc ciia minh (phan he hd trp danh gia). Danh gia xem kha nang cua sinh

Sinh vin thyc hi^n: Le Nguyen Biic - MSSV: DTH092032Trang 2


Khoa lu^n tot nghigp Be tai: Xay dimg he thong ho trqr tie tfan/i gia nang lire tryv tuyen bing giai thuat luat kit hop.


viSn phu hop vdi mon tir chon nao va khong phu hop voi mon to chpn nao. Viec
su dung them phaii he to van se giup to van cho nhieu sinh vi^n trong mot thai
gian ngan va phan nao giai thich yeu to "tr^c tayen"' iciia de tai.

Sinh vin thirc hi^n: Le Nguyen Dire - MSSV: DTH092032Trang 3


Khoa luSn tot nghiep Be tai: Xay dung he thong hd Uo tir danh gia nang lire true tuyen bing giai thuat luat ket hop.

CHITCNG 2: CO S& LY THUYT
I. T6NG QUAN VE KHAI PHA TRI THLFC VA KHAI PHA DU" LIEU
1. PHAT HIEN TRI THLFC VA KHAI PHA DU1 LIEU
Trong thai dai cong ngh# thong tin hien nay, neu khong muon noi la tat ca thi
hau nhtr cac ca quan, to chtic, doanh nghi^p deu xay dung kho luu tru dfl: lieu cho
riSng minh. Theo thai gian thi cac kho du lieu do ngay cang tra nen khong lo. No
khong 16 den noi nguai ta phai dung den dan vi tinh la terabytes d6 do d6m lupng
thong tin do. Va sau day la mot vai vi du minh chung cho su bimg no thong tin
trong luu tru va can phan tich:
Ca sa du lieu khoa hpc thien van: Europe's Very Long Baseline
interforometry (VLBI) co 16 kinh thien van du lieu moi kinh thu du^c trong 1 giay
la 1 Gigabits nguai ta tien hanh phan tich du lieu trong 25 ngay thu duac nen du
lieu can phan tich trong 25 ngay la qua Ion, no len den vai Terabytes [5].
Ca sa du lieu truyen thong: AT&T luu trtt 26 Terabytes thong tin khach hang
de phuc vu cho ke hoach dau tu va phat trien. Con France telecom co den 30
Terabytes luu tru thong tin khach hang [5].
Du lieu world wide: Google tiep nhan han 4 ti yeu ciu tim kiem moi ngay luu
trtt hang tram Terabytes dtt lieu [5].
Du lieu gido due Viet Nam: Chi tinh a 2 bac hoc labac Cao dang va bac Bai
hpc s6 luang sinh vien len den con so 2.208.100 sinh vien vao nam 2011 [18]. Va

hang nam, so luong sinh vien khong ngung gia tang. Sir gia tang nay de dang nhan
thay tu hinh 2.1 va hinh 2.2.

2000

2001

2002

2003

2004

2005

2006

2007

2008

2009

1.020,7

1.131,0

1.319,8

1.387,1


1.666,2

1.603,5

1.719,5

1.956,2 Z162.1

2010

2011

T^ngsp
Sinh vien

899,5 974.1

2.208,1

Thdng tin
Bon vi tinh
Tn/ong, Nghin ngooi, Nghln sinh vien, %

Hinh 2.1. Bang sd luang sinh vien bac Dai hoc va Cao dang Viet Nam giai
doan 2000-2011

Sinh vien thyc hi^n: Le Nguyen Bttc- MSSV: DTH092032

Trang 4



Khoa lu^n tat nghiep <J?i hoc ngnh Ci> nhan Tin hoc.
Be tai: Xay dieng he thong ho trqr ty danh gla nang lye tryc tuyen bing giai thuat luat kit hop.

Giao due dai hoc va cao ding chla theo Cach tinh, Phan t6' va Nam

2,500.00-

Nohin ngu&i, Nghln sinh vifin, ^^

NguSn:

Hinh 2.2. Bieu do so lucrng sinh vien bde Dai hoc vd Cao dang Viet Nam giai
doom 2000 -2011
Vai han 2 trieu sinh vien thi ro rang ca sa dvt lieu chiia thong tin ca nhan cung
nhu diem cua sinh vien trong su6t qua trinh hoe tap la khong hg nho. Tat nhien, xu
hudng ca sa du lieu de luu trir nhung thong tin cua sinh vien ngay eang Ian theo
thai gian la tit yeu. Nhat la doi vdi ca sa du lieu diem duac luu tru lai la vo cimg
quy, neu duac khai pha se ho tra rat nhieu trong ltnh vuc giao due.
Khi luu tru du luo^g dft lieu Ion nhu v|y thi chic chin ring nhung du lieu do
ban than no phai mang nhung gia tri nhat dinh. Nhung theo thing ke thi chi
khoang tir 5% din 10% cua du lieu khing 16 do dugc phan tich, si du lieu con lai
ho khong biSt phai lam gi vai no nhung hQ yln quyet dinh thu thap va luu trii cho
du rit ton kem. So di ho chap nhan danh doi d! lam diiu nay vi ho s^ bo ^ua du
lieu quan trong din khi cin thi khong co. Dae biet trong thai dai bung no cong
nghe thong tin hien nay thi nguai ta can dung nguon du lieu khong 16 do de ho trq
cho vi^c ra quyet dinh trong kinh doanh, ban hang,... Vi the de tim ra cau tra lai
mang tinh chat dinh tinh tir kho dft lieu khong 16 do thi each khai thac va quan tri
du lieu truyen thong to ra khong hieu qua. Cung vi ly do do da lam phat trien mot

khuynh huong ky thuat mai do la ky thuat phat hien tri thiic va khai pha du lieu
(KDD - Knowledge Discovery and Data Mining).
Qua trinh phat hien tri thiic trong ca sa du lieu la qua trinh nhan biet cac mau
hay cac mo hinh du lieu trong ca sa du lieu vai cac tinh nang: hop thiic, mai, kha

ich va co th6 hilu duqc [7].
Khai thac du lieu la mot buac trong qui trinh phat hien tri thiic gom co cac
thuat toan khai thac du lieu chuyen dung dudi mot s6 qui dinh v6 hieu qua tinh
toan chap nhan duac de tim ra cac mau hoac cac mo hinh trong du lieu [7].

Sinh vien thuc hin: Le Nguyen Dire - MSSV: DTH092032Trang 5


Khoa luan t6t nghi$p dai hoc nganh Ci> nhn Tin hgc.
Be tai: Xay djmg he thong h& tree tip danh gia nang /ire true tuyen bSng giai thuat luat ket hop.

2. QUA TRINH PHAT MEN TRI THITC TIP CO S& DU" LIEU
Qua trinh phat hien tri thiic bao gdm cac budc sau:
Lam sqch die lieu (Data cleaning): Qua trinh loai bo dfl lieu nhieu, du lieu
khdng thich hop.
Tich hap die lieu (Data integration): Qua trinh rich hop dfl lieu tu nhieu ngudn
dir lieu khac nhau.
Chqn die lieu (Data selection): Chon du lieu lien quan true tiep den nhiem vu
khai pha.
Chuyen ddi du lieu (Data transformation): ChuySn doi du lieu ve dang co the
khai pha true tiep dupe tu nhung dang du lieu nay.
Khai pha du lieu (Data mining): Sir dung cac ky thuat, thuat toan khai pha dl
tun mau dien hhih trong ca sd dtf lieu, cac thong tin co ich cho ngucri dung.
Danh gia mau tri thiec (Pattern evaluation): Danh gia dp hap dan, d6 kri ich
cua thong tin thu dupe.

Trinh dien die lieu (Knowledge presentatoin): Trinh bay ket qua tri thiic thu
dupe dudi dang hinh anh, bieu do hay dang nao do ma ngudi dung co the hieu
dupe.
5. Bua kit qua vao
tlurc tiln
4. Mink hoa va danli

gia ni thiic
3. Khai thac du lieu-trich
ra cac mau/rno hinh

2. Thu th|p va tien
xu lv da lieu
1. Hieu va xac djnh
vdnde

Hinh 2.3. Qua trinh khdm pha tri thiec tie ca sd die lieu
2.1.Xac djnh van de
Day la van de mang tinh chat djnh hudng. Xac dinh dupe linh vuc yeu cau
phat hien tri thiic va xay dung bai toan tdng quat. Trong thuc te cac cp sd dfi
lieu dupe phan hoa theo timg chuyen mdn khac nhau nhu: y te, ban hang, kinh
doanh, tai chinh,... Vdi mdi tri thiic phat hien dupe co the co gia tri trong lrnh
vuc nay nhung lai khong co gia tri trong linh vuc khac. Vi the cdng viec xac
dinh dupe linh vuc va dinh nghia dupe bai toan tdng quit ban dau la ca sd dinh
hudng cho giai doan "thu thap va tien xd ly du lieu" tiep theo.
2.2.Thu thap va tien xu> ly du> lieu
Thong thudng du lieu trong cac ca sd du lieu nhidu thupc tinh nhung khong
thuin nhit, khong diy dii, co nhidu loi va cac gia tri dac biet. Vi thu thap va tien
xu ly du lieu la giai doan vd cung quan trong trong qua trinh phat hien tri thiic


Sinh vien thpc hi^n: Le Nguyen B^c - MSSV: DTH092032

Trang 6


Kh6a luan tSt nghiep dai hoc nganh Clp nhan Tin hgc.
Be tai: Xiy dung he thong ho tree tip danh gia nang lire trtrc tuyen bing giai thuat luat kit hop.

tir ca sd dft lieu. Giai doan nay chiem tir 70% den 80% gia thanh ciia bai toan
khai pha dft lieu.
Nguoi ta chia giai doan thu thap va tien xu ly dft lieu thanh cac giai doan
nhd han: Chon loc die li$u, day la birdc chpn lpc dir lieu co lien quan tir nhieu
nguln du lieu khac nhau. Nhftng du lieu dupe chon loc phai chiia nhieu thong
tin lien quan toi lrnh vuc can thiet da xac djnh trong giai doan xac dinh van dl.
Ldm gidu die lieu, la qua trinh chuyen doi tich hop du lieu tir nhieu nguon khac
nhau thanh mpt kho thong nhlt. Cac dang dft lieu khac nhau cOng dupe tinh
toan va quy doi thanh mot dang thing nhlt, giiip cho qua trinh phan tich dupe
de dang. Doi khi phai xay dung cac thupc tinh mdi tir cac thupc tinh sin co. Ma
hoa die lieu, viec ma hoa du lieu la sir dung cac phuong phap chpn lpc, lam
sach, lam giau dir lieu vdi dang cac ham, tien ich... Nham tp dpng hoa trong
viec ket xuat, di chuyen du li^u. Cac ham, chuong trinh tien ich do dupe sir
dung khi muon lam tuoi du lieu de phuc vu cho viec khai thac. Ldm sach da
lieu, du lieu dupe thu thap tir nhieu nguon khac nhau nen dan den tinh trang du
lipu khong dong nhat. Vi vay, can co phuong phap dua nhung du lieu khong
dong nhat ay ve cimg m^t dang de phuc vu cho khai thac. Nhiem vu lam sach
du lieu bao gom:
-Di6u hoa du lieu: La Jam nhat quan du lieu khong thdng nhlt cua du lieu da
thu thap dupe tir nhi^u ngudn khac nhau. Phuong phap thuong su dung la
khu nhung dong du lieu trimg lap va thong nhat cac ky hieu. Vi du trong ca
sa du lieu ban hang ciia mot sieu thi thi trong qua trinh cap nhat thong tin cua

khach hang thi phat sinh nhung ddng dtt lieu cua 1 khach hang nhung lam
cho chung ta lam tudng do la du lieu ciia nhigu khdeh hang khac nhau.
-Xu ly dft lieu khuyet: Trong mot ca sa dft lieu thuang co nhieu den rat nhieu
thupc tinh va hien tupng khuyet mot hay nhieu thupc tinh treng mot hay
nhieu dong dft lieu la dieu chac chan se gap phai trong mpi ca sa dft lieu.
Phuang phap co the ap dung khac phuc trong truong hop nay la bo qua dong

bi khuy^t dft lieu, di^n dft lieu bi khuygt bang tay, diSn gia tri trung binh cua
cac thupc tinh cho nhftng 6 bi khuyet, dung mot hang chung dS dien cho
nhftng cho bi khuyet dft lieu,...
-Xu ly dft lieu nhieu va cac ngoai le: Dft lipu bi nhilu co thi la do ngau nhien
hay cung co thi la co chua gia tri bit thuang. De lam sach dft lieu nhieu
nguai ta thuang lam tran nhilu va dung cac giai thuat de phat hien cac ngoai
le gay ra nhieu dft lieu d! xu ly.
2.3.Khai thac dir lieu
Sau khi da cp dupe dft lieu tir giai doan "thu thap va tien xu ly dft lieu" se
tien hanh xac dinh bai toan khai thac dft lieu, lira chpn phuang phap khai thac
phu hop vdi dft lieu hien co va tach ra nhftng tri thftc can thiet.
Thudng thi, bai toan khai thac dft lieu co hai dang: Cac bai toan mang tinh
chit mo ta - dua ra nhftng tinh chit chung nhlt cua dft ligu va cac bai toan khai
thac du bao - suy dien tren dft lieu. Tuy theo yeu clu ciia bai toan ma chpn

phuang phap khai thac dft lieu thich hop.

Sinh vien thuc hi^n: Le Nguyen Bile - MSSV: DTH092032Trang 7


Khoa lu^n tot nghiep cfgi hoc ng^nh CCr nhn Tin hoc.
De tai: Xay dung he thong ho tr^ tip danh gia nang lu-c true tuyen bang giai thuat luat ket hop.


2.4.Minh hoa va danh gia tri thtrc
Tri thuc khai thac ductc se dupe miah hoa duoi dang bao cao, hinh anh,
bieu d6,... phuc vu cho nhi6u muc dich khac nhau.

Khong phai cac tri thuc khai thac dupe dSu tot hay dSu xau nen viec danh
gia tri thuc thu dupe la rat cSn thiet. Viec danh gia nay giup tao ra nhung quyet
dinh chien lucre.
2.5.Dipa kit qua vao thipc te
Ket qua cua qua trinh khai thac va danh gia tri thtic co thl du^e dua vao
ting dung trong nhieu linh vuc khac nhau. Ket qua do co the la du bao pung co
the la mo ta nen chting co the duac dua vao cac he thong ra quyet dinh hoac ho
trq ra quyet dinh mot each tu dpng hoa.
Qua truth phat hi^n hi thtic co th6 dupe tien hanh theo cac budc hen. Ngoai ra
cung co the duac nang cap cai tien, thay doi cho phu hap vai tinh hinh thuc te.

3. KHAI PHA DU" LIEU
3.1.Cac quan niem ve khai pha dir lieu
Khai pha dft li#u la tap hop cac thuat toan nham chiet xuat nhung thong tin

co ich tir kho du ligu khing 16 [7].
Khai pha du lieu giing nhu qua trinh tim ra va mo ta mau du lieu. Du lieu
nhu la mot tap hap ctia cac vat hay sir kien, con diu ra cua qua trinh khai pha
dtt lieu nhu la nhung du bao ctia cac vat hay su kien moi [7].
Vay nhiem vu ctia khai pha du lieu va phat hien tri thtic la tim ra cac mau
mo hinh du lieu huu ich bi che khuat trong kho ca sa du lieu khong 16.
3.2.Nhiem vu cua khai pha dir lieu
Trong cac kho du lieu Ian thi doi hoi viec thu th^p, xii ly dtt lieu phat hien
tri thuc phai duac tu dpng hoa tuy nhien giai doan cu6i cimg la phan tich k6t
qua thu dupe luon do con ngubi dam nhifm.
Sau day la nhttng nhiem vu ca ban nhat cua khai pha dft lieu:

Phan cy,m, phan loai, phan nhom, phan lap: Nhiem vu la tra loi cho cau hoi
"Mot mlu dtt lieu moi thu thap se thupc v lop nao?". Qua trinh nay duac thuc
hien mot each tu dpng.
Khai pha luat kit hap: Tim ra cac luat kit hap co dang X->Y. Tuc la tim ra
m6i quan he cua cac thupc tinh co trong tap X va cac thupc tinh co trong tap Y.
Xem xet su h6 tra gitta cac thupc tinh vai nhau.
Lap mo hinh du bao: Co hai nhiem vu hoac phan lop 1 mau dtt lieu vao mot
hay nhiiu lop da dupe xac dinh truac, hoac la su dung cac truang trong ca sa
dft lieu di du hao sp xult hien hay khong xuit hien cac truang hop khac.
Phan tich cac doi tuang ngodi cuoc: Doi khi trong ca sd dft lieu xuat hien
cac d6i tuang khong thupc mo hinh dtt liSu da dinh san. Theo mot each th6ng
thuang thi xem cac d6i tuang do la dft lieu nhieu va chiing se bi loai bo. Tuy
nhien trong mot s6 truang hap thi dft lieu nhieu do dem lai tri thuc bat ngor va

Sinh vien thyc hi^n: Le Nguyen Diic - MSSV: DTH092032Trang 8


Khoa luan tot nghi^p B6 tai: Xay d^ng he thong hd tra tie danh gia nang lire true tuyen bing giai thuat luat kit hop.

quy gia cho nguoi sii dung. Sir phan tich cac du lieu ngoai cupc dupe goi la
khai pha cac doi tupng ngoai cupc. Va day la mQt s6 phucmg phap phat hien doi
tupng ngoai cuoc: kiem tra mang tinh thdng ke tren co sd phanphoi dur lieu hay
mo hinh xac suat du lieu, dung cac dp do khoang each de phat hien cac doi
tupng ngoai cupc (cac doi tirong ngoai cupc co khoang each kha Ion den bat cii
cum nao), kiem tra dac tnmg cua doi tupng ngoai cupc so vdi dac trung cua cac
ciim trong mo hinh du lieu.
Ph&n tich su tiin hoa: Phan tich sir tiSn hoa thuc hien viec mo ta va mo
hinh hda cac quy luat hay khuynh hudng cua nhung doi tupng ma ting xu cua
chiing thay doi theo thai gian [7].


3.3.Trien khai khai pha d(r lieu
Viec trien khai khai pha du lieu dupe thuc hif n qua 5 buac:
Bitac 1: Xac dinh muc tieu can khai pha.
Buac 2: Chuin bi du lieu phuc vu cho viec khai pha (Thu thap, ti^n xu ly,
chuyen doi du lieu).
Buac 3: Khai pha du lieu (Chpn giai thuat thich hop d^ khai pha du lieu).
Buac 4: Phan tich danh gia ket qua thu dupe (Xem tri thiic do co gi thu vi hay
khong?).
Buac 5: Tieu hoa tri thiic thu dupe (Be ra ke hoach khai thac cac thong tin
mdi).
3.4.Cac ky thuat khai pha du> lieu
Ky thu^t khai pha Avt lieu dupe chia lam 2 nhdm chinh.
Bang 2.1. Cac nhdm ky thuat khai pha du lieu
Nhomky thuat khai pha du lieu
Mota
Du doan
Bua ra cac du

Nhiem vu

Mo ta v^ tinh chat hoac cac dac tinh chung
cua da li^u trong ca sd du lieu.

G^c k^ thuat

Phan cum (clustering), Tom tat
(sumerization), True quan hoa
(visualiztation), Phan tich su phat trien va
dp lech (evolution and deviation analyst),


•trong nhom

doan dua tren cac

suy diin tu du
lieu hien thai.
Phan lap
(classification),

Hoi quy
(regession)...

Luat ket hop (assocition rules),...

Trong do co mot sd phuang phap thong dung nhat la: phan cum du lieu, phan
lap du lieu, phuang phap hoi quy va khai pha luat ket hop.
3.4.1. Phirorig phap phan cum dCr lieu
Nhom cac du lieu tucmg dong ve mat thupc tinh cua du lieu vao mot
cum sao cho tinh chat cua nhung cum khac nhau la khac nhau. Phan cum
la mot vi du diln hinh cho qua trinh hoc ma khong co thay. Phan cum

Sinh vien thpc hi|n: L Nguyen fide - MSSV: DTH092032

Trang 9


Khoa luan tot nghiip dai hoc ng&nh Cft nhln Tin hgc.
el tai: Xay dung he thong hS trtr ty danh gia nang lire true tuyen bing giai thuat luat kit hop.


khdng ddi hoi phai dinh nghla trudc cac mau dft lieu huan luyen. Phan
cum la qua trinh hoc blng quan sat (learning by observation) trong kbi
phan lop la qua trinh hoc bang vi du (learning by example). Trong
phtrong phap phan cum chung ta khong th^ biSt tnrdc dupe kit qua thu
duqc se nhu the nao.

Phan cum dft lieu duqc dung nhieu cho cac ung dung phan doan thi
trudng, phan doan khach hang, nhan dang mau, phan loai trang
web,...Ngoai ra, phan cum con duqc su dung trong giai doan tien xu ly

cua cac thuat toan khai pha du lieu khac.
3.4.2.Phirong phap phan 16-p du> lieu
Phan lop du lieu la du doan nhan lop cho cac mau du lieu tu cac mo hinh
xay dung sin. Vi the qua trinh phan lop du lieu thuong trai qua 2 budc:
Bucrc 1: Xay dung mo hinh du: lieu dung cho viec huln luyen
(training dataset). Viec xay dung duqc tien hanh nhu sau: cac du lieu
tuong dong vai nhau ve thuqc tinh cua chung duqc gom lai chtutg 1
lop va gan nhan cho cac lop do. Cac lop phai duqc xay dung truac
khi xay dung mo hinh.
Bucrc 2: Su dung mo hinh d phan lop du lieu. Truac h^t phai tinh
dp chinh xac ctia du: lieu n6u do chinh xac nay la chap nhan duqc thi
dC lieu duqc giu lai de sti dung trong viec du doan nhan cho cac mlu
tin trong tuang lai.
3.4.3.Phirong phap hoi quy
NSu phucmg phap phan lap du lieu du doan tren du lieu rdi rac thi
phuang phap h6i quy dp doan tren dft H^u lien tuc.
Hoi quy la mot ham hoc anh xa muc dft lieu thanh mot bi6n du doan
co gia tri thuc [7].
3.4.4.Phircng phap khai pha luat ket hop
Muc tieu cua phuang phap nay la tim ra moi lien he gifta cac thuqc

tinh trong ca sa dft liqu. Mau tri thuc dau ra la luat ket hop vdi dp ho trq
thong tin va do tin cay cua luat. Vi du: Khach hang mua duang •^ mua
sfta vai do h6 trq va do tin cay la 50%.
Qua trinh khai pha luat ket hop duqc thuc hien qua 2 budc:
Bucrc 1: Tim tat ca cac tap ph6 bi6n. Tap ph6 bi8n la tap thda do hi
trq cue tieu.

Bucrc 2: Sinh ra cac luat thoa do ho trq va do tin cay cue tieu cho
trudc.

Phuang phap nay td ra kha hieu qu^ trong cac linh vuc maketing cd
chu dich, phan tich quyet dinh, quan ly kinh doanh,...
3.5.Kien true cua he thdng khai pha dip lieu
Nhu da trinh bay trong muc 2 cua muc I chuang nay ta thay ring cac budc
trong qua trinh cd su tuang tac lln nhau gifta ngudi su dung hoac ca sd dft lieu

Sinh vien thqc hi|n: Le Nguyen Bftc - MSSV: DTH092032Trang 10


Khoa luan tot nghigp dai hQC ng^nh Ct> nhan Tin hoc.
Be tai: Xay dung he thong ho tru tu danh gia nang lire true tuyen bang giai thuat luat ket hop.

tri thuc, nhung mau dang quan tam cung cap cho ngudi dung hoac coi la mot tri
thuc mdi va duac luu tru trong ca sd du lieu tri thuc.
Giao dicnngu^i ducg

L

f
B^oh gia mda


^

1
Wo ta khai pha d^^ li^n

U-

T

CSDL hay iho d li^o plnic vy 1

Co ^^ E^ Ii^u

Kho dd lieu

Hinh 2.4. Kien true cua he thong khaiphd dii lieu
Kien tnic cua he thong khai pha du lieu co cac thanh phan sau:
Ca sa dii lieu, kho dii lieu: La mot hay nhi^u ca sd dQ lieu, kho du lieu.
Ben trong da bao gom cac ky thuat lam sach, tich hap, Ipc du lieu co the thuc
hien tren du lieu.
Ca sa dii lieu hay kho du lieu phuc vu: La kgt qua du lieu co lien quan tren
ca sd khai pha du lieu ciia ngudi dung.
Ca so tri thuc: La nai chlia cac tri thuc da khai pha duac.
Mo td khaiphd du lieu: Bao gom cac modul thuc hien cac chiic nang mo ta
dac diem, ket hop, phan lap, phan cum du lieu,...

Ddnh gid mdu: Su dung cac do do va tuang tac vdi modul khai pha du lieu
de tim ra nhung mau tri thuc nao la dang quan tam.
Giao dien ngudi dung: La nai diln ra su tuang tac giua ngudi dimg va he

thdng khai pha du lieu. 0 day ngudi dung duac cung cip cac chiic nang truy
vln, tac vu, tim ki^m,...

3.6.Qua trinh khai pha dtf lieu

Xzcdiih

Mt

Xacdinh
du1 lieu lien qu^n

Hinh 2.5. Qua trinh khaiphd du lieu

Sinh vien thuc hien: Le Nguyen Due - MSSV: DTH092032

Trang 11


Khoa lu^n tot nghiep d?i hgc ngnh Cd nhan Tin hoc.
Be tai: Xay dung he thong hd tru tip danh gia nang lire true tuyen bing giai thuit luat kit hup.

3.7.Kho khan trong khai pha dip lieu
Die lieu Idm: So lupng bang ghi trong co set du lieu co the len den hang trieu
nen kich thudc rat ldn co thl len ddn Gigabytes.
Kich thudc Ian: So lupng tnrbng trong ca sd du lieu tuang dbi nhieu. Dieu
nay lam tang khdng gian tim kidm. Bien phap dupe ap dung trong tnrdng hop
nay la su dung eric tri thiic biet trudc di lam giam cac bidn khong phu hgp trong
co sd du lifu nham thu nhd khong gian tim kiem.
Du lieu dong: Sir thay doi du lieu trong co sd du lieu la dieu khdng tranh

khdi. Vi the du lieu se bi thay doi theo thai gian nen it nhieu anh hudng den tri
thiic khai pha duoc. Van de nay duoc giai qiiyet bang giai phap nang cap mau
va coi su thay doi la co hpi de khai thac bang each su dung no de tim kiem cac
cau bi ddi.
Cac truang du lieu khong phu hap: Muc du lieu khdng phu hop vdi trong
tarn ciia khai thac khi do ta ndi du lieu do khdng phu hop.
Cac gia. tri bi thieu: Su vang hay co mat cua gia tri cac thudc tinh du lieu
phu hpp co the anh hudng den viec khai pha dft lieu.
Cac tncang du lieu bi thieu: Cac thudc tinh quan trong cd the bi thieu nen
khdng the chuin b'i cho qua trinh khai phd dupe.
Qua phu hap: Nhung du lieu tot nhat cho md hinh nao do gay ra hien tupng
chi phu hop vdi du lieu do con cho ket qua kem vdi nhiing dfl lieu la.
Khd nang bieu dat mau: Tri thiic dupe bieu dien sao cho cang de hieu vdi
con ngudi cang tot.

S^ tuang tdc vdi tri thuc ngudi su dung sdn cd: viec su dung lai cac tri thiic
cua ngudi su dung trong qua trinh tim tri thiic la vd cung cin thiet de cho con
ngudi cd the tuang tac vdi qua trinh khai pha nh5m sinh ra tri thiic theo mong
mudn cua con ngudi.

II. LUT kT HOT TRONG KHAI PHA DO LIEU
1. CAC OjNH NGHlA VE LUAT KET HOT
1.1.Oinh nghTa do hd trcr
Dinh nghia 1: Dp ho trp cua tap hop X cd trong ca sd du lieu D la ti sd giua
cac giao tac TcD cd chiia tap X va tdng sd ban ghi trong D (hay la phan tram
cua cac ban ghi trong D cd chiia tap X), ky hieu la support(X) hay supp(X).

D|nh nghia 2: Dp hd trp ciia mot luat kdt hop cd dang X->Y la ti sd giua cac
ban ghi chiia tap hop X U Y so vdi tdng ede ban ghi trong D, ky hieu support(X
->Y) hay supp(X ->Y).

Supp{X -> K) = •

\D\
Sinh vien thuc hi^n: Le NguySn BCrc - MSSV: DTH092032Trang 12


Khoa luan tot nghiep dai hoc nganh CCf nhan Tin hoc.
S tai: Xay dirng he thong ho trg> tie danh gia nang lire truv tuyen bing giai thuat luat ket hop.

1.2.Djnh nghTa do tin cay
Dinh nghla 3: 06 tin cay cua mot luat ket hop X ->Y la ti so giua lupng cac
ban ghi trong D co chiia X U Y vdi so ban ghi trong D co chua tap hop X. Ky
hieu do tin cay cua mot luat la conf(r).
Ta co 0 < conf^r) < 1.
Nhan xet: Do ho trp va dp tin cay co xac suit sau:

conf{X -> Y) = P(Y/X) = SuppQC -> Y)/SuppOO
1.3.0inh nghTa tap hap va cac tinh chat cua tap hap
Dinh nghTa 4: Tap hop X dupe gpi la tap hop thuong xuyen (Frenquent
itemset) neu co Supp(X) > mtnsup, voi minsup la nguong dp ho trp cho
truac.

Ki hieu cac tap thuong xuyen nay la FI.

Tinh chat 1: Gia sti A,BEI la hai tap hop voi AB thl Supp(A) > Supp(B).
Nhu vay nhung ban ghi nao chiia tap hop B thi cung chiia tap hop A.
Tinh chit 2: Gia sii A, B la hai tap hop voi A,BEI. NSu B la tap thuong xuyen
va AEB thi A cung la tap thuong xuyen.
That vay, neu B la tap hop thuong xuyen thi Supp(B) > minsup, mpi tap hop A
la con cua tap hop B deu la tap hop thuong xuyen trong co so du lieu D vi


Supp(A) > Supp(B) (Theo tinh chit 1).
Tinh chit 3: Gia su A,B la hai tap hop ma AEB va A la tap hop khong thuong
xuyen thi B cung la tap hop khong thuong xuyen.
Dinh nghTa 5: Mot tap hop X duoc goi la tap dong (closed) neu khong co tap
cha nao cua X c6 cung dp ho tro voi no. Tuc la khong ton tai tap hop X' ma
X'^ X va t(X)=t(X') (voi t(X), t(X') lin lupt la tap cac giao tac chiia tap muc X
va X'). Ki hieu cua tap pho biln dong la FCI.
Dinh nghTa 6: Neu X la tSp pho bien va khong co tap cha nao cua X la tap pho
biln thi ta noi X la tap ph6 bien ldn nhat (maximally frequent itemset). Ki hieu

tap pho biln Ion nhat la MFI. Dl thly MFIEFClcFI.
1.4.Djnh nghTa luat ket hap
Khai pha luat ket hop la cong viec tim (phat hien, kham pha) ra cac luat ket hop
thoa man nguong dp h fro 5 va dp thi cay a cho truoc. Bai toan khai pha luat
kit hop dupe chia thanh 2 bai toan nho hay con gpi la 2 pha cln thuc hien de
gidi quyet bai toan:

Pha 1: Tim tit ca cac tap ph6 biln (tim FI) trong co so du lieu (D).
Pha 2: Su dimg cac FI da tim 6 pha 1 de sinh ra cac luat thi cay (interesting
rules). Y tuong chung cua bai toan nay la neu gpi cac tap ABCD va AB la
cac tdp muc ph6 biln thi chiing ta co the xac dinh dupe luat AB->CD voi
dp tin cay:

Sinh vien thpc hi^n: Le Nguyen Biio - MSSV: DTH092032Trang 13


Khoa luan tot nghiep dai hoc nganh CO nhan Tin hoc.
06 tai: Xay dung he thong ho tree tip danh gia nang lire trg^ tuyen bang giai thuat luat ket hop.


Neu con/(AB->CD ) > minconf thl luat dupe giu lai.

2. MOT SO HL^ONG TlP CAN TRONG KHA1 PHA LUAT K^T HOP
Lihh vuc khai pha luat ket hop da hinh thanh va phat triSn kha lau. D6n nay da
dupe phat tridn theo nhieu hudng khac nhau. Sau day la mot sd hudng chinh:
Luat kit hop nhi phan (Binary association rule): Theo hudng nay thi chi quan
tarn xejn item co xuat hien trong ca so du lieu hay khong chii khong quan tam den
tan suat xuat hien ciia eac item. Thuat toan tieu bieu cho khai pha dang nay la
Apriori.
Luat kit hop co thuoc tinh va thuoc tinh han muc (Quantitative and categorial
association rule): Trong thuc tg thi ca so dtt lieu co the chtia nhiSu dang dfi lieu
(nhi phan, so, muc,...) chii khong chi chtia dang nhi phan hay nhdt quan dang nao
ca. VI vay de co the khai pha tren ca sd du lieu dang nay thi cac nha nghien ctiu de
xuat mot so phuang phap rdi rac hoa nham chuyen ve dang nhi phan da biet.
Luat kit hop tiip can theo huong tap tho (mining association rule base on
rough set): Tim ki&n luat k8t hop dua tren ly thuygt tap tho.
Luat kit hop nhiiu mice (multi-level association rule): Vdi each tiep can nay
thi luat se co dang keo theo. Vi du: mua may tinh -> mua cac phin m6m he thdng
AND mua cac phan mem ung dung,...

Luat kit hop mo (fuzzy association rule): Khong phai moi trudng hop dieu co
the rdi rac hda duac nen cac nha nghien cuu da dua ra luat ket hap ma nham khac
phuc tinh trang khd rdi rac hda va chuyln luat kgt hop v'h dang gin gui han.
Luat kit hop vdi thuoc tinh duoc danh trong so (association rules with
weighted items): Cac thuoc tinh cua du lieu trong ca sd du lieu thudng mang tam
quan trong bang nhau. Vi vay trong qua trinh tim kiem luat ngudi ta danh trong so
cua thuoc tinh theo muc do quan trong ciia chung. Lam nhu the co the phat hien
duac nhung luat "hiem" (cd do ho trg thap nhung mang nhieu y nghia).
Khai thdc luat kit hop song song (parallel mining of association rule): Ddi
vdi du lieu khong 16 thi nhu cau song song hda va xu ly phan tan la can thiet bdi vi

lam nhu the cd the cai thien duac tic dp xu ly dang ke.

III. TIM SIEU THAM S6 (SEARCH HYPER PARAMETERS)
Viec tim kiem cac sieu tham so, chung ta thuc hien viec tim kiem nay qua hai
giai doan: tim tho (Coarse Search) va tim min (Granularity Search).
Birdc 1: Tim tho cac gia tri tham so nhu nguong dp ho tra nhd nhit (minsup),
ngudng dp tin cay nhd nhat (minconf), pham vi Ian can (K). Do khong gian tim
kiem sieu tham so nay kha ldn, nen viec tim tho nay chi tim tren cac de xuat ca sd
dua tren cac thi nghiem da lam nhu sau:
minsuppe {10% , 20% , 30% , 40%, 50%, 60%, 70%, 80%, 90%, 100%}.
minconf e {10% , 20% , 30% , 40%, 50%, 60%, 70%, 80%, 90%, 100%}.

Sinh vien thyc hi^n: Le Nguyen Bi>c - MSSV: DTH092032Trang 14


×