Tải bản đầy đủ (.pdf) (83 trang)

Khai phá dữ liệu trong SQL server 2012.PDF

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.15 MB, 83 trang )

TONG QUAN YE KHAI PHA DIY LIEU
CHUCFNG 1. TONG QUAN VE KHAI PHA Dir LIEU
1.1. Khii niem va khai phi d* lieu
1.1.1. GM thifu vi Mai plui chi Wu
Trong nhcmg am gin day, su phat
then mph
me ciut CNT'T va nganh ding
nghiep phis cimg da lam cho kha ning thu nhap va Itru fru thong tin ciia cac thimg
thong tin tang nhanh met cach cheng mat. Ben conh do viec tin hoc hea met each 6 at
va
nhanh chiong cac hoot dOng san xuat, kinh doanh cling nhu nhieu lInh Arc hog dOng
khk di tio ra cho chimg to met lucmg de lieu luu tray Ichting 16. Hang trieu CSDL da
dugc sir dung trong cac host dong san xuat, kinh doanh, wan trong do co nhieu
CSDL cac len cot Gigabyte, thorn chi la Terabye. So bang nay din tin ye'u cau cap
thiet la can co nhung k9 thuit va ding cu mei de to Ong chuyen doi Wong de lieu
khang to Ida thanh the tri thirc co ich. Tir do, cac Id thuili khai pha de lieu di fro thanh
met linh we then so dm nen cting nghe thong tin the giei hien nay.
1.1.2. Dinh nghia vi khai pith dfr lifu
Phat hien tri thirc (Knowledge Discovery) trong cac co se du lieu la met qui trinh
nhan biet the
miu ho4c
the mo Mob trong de lieu voi cac tinh fling: hqp thee mei,
kha ich, va c6 the hiau duqc.
Con khai thic de lieu (data mining) la men nge tuong del mei, no ra din vao
khoang nhfrng
nam cu
.
& cua
dun thap
4
1980. C6 nit nhieu djnh nghia khac nhau


ve
khai phi de lieu. Giao su Tom Mitchell da dua ra djnh nghia cita khai pha de lieu nhu
sau:" Khai phi de lieu la viec sir dung
da
lieu lich sir de kham phi nheng qui tic va
cai thien nhcmg quyet djnh tong tuong lai". Veri met each
ti6'p c4r1 ling
dung han, tien
si Fayyad da phat bleu:" Khai phi
da
lieu durang duqc xem la viec kham phi tri thirc
trong cac co se de lieu, la meat qua trinh trich xuat nheng thong tin in, trues day chua
hi& va co kha fling heu ich, duel ding cac quy luat, rang bu0c, qui tic trong co se du
lieu". Con cac nha thong ke thi xem" khai phi
da lieu
nhu la min qua trinh phan tich
dugc thiet ke tham do mitt luong coc len cac der lieu nhim phat hien ra cac miu thich
hqp vil hok cac
mOi
quan he mang tinh he thing gifts cac hien va sau de se hqp thirc
hoi cac ket qua rim duqc bing each ap dung the miu da phat hien duqc cho tip con
mei cita de lieu".
Trang 1190

A11278 — Doan Thanh Cong
A11500 — Nguyin Dec Hoing
TONG QUAN VE KHAI PHA DIY LI$U
N6i tom lai: khai pha 80 lieu la met buoy trong quy trinh phat hien tri thirc
gom
co cac that town khai thic du lieu chuyen dimg dtrOi met se quy djnh ve hieu qua tinh

town chap nhan duqc di tim ra cac mitt hoac cac me hinh trong dO lieu.
1.2. Cic bulk trong khai phi do Ilea
1.2.1. Clic ki thuOt khan ph6 drr
lifu
M3c du
khai thic dfr lieu nhu lit met thuat nge tuong del mai, nhung hau bet cac
ky
thuat khai thic du lieu da ten tai tong nhieu nim. Ma tier than cita khai thic
dur
lieu deu xuat phat tir: thong
ke,
hoc may ya co so a lieu. Mot so thOt town khai thic
d0 lieu, bao gOm ca hOi quy, chugi that wan, va cay quyet djnh deu duqc phat minh
boi cac nhi thOng
ke
hqc. Ky thuorhei quy" CIA ton tai trong nhieu the kY. Cac thuat
toan"chuOi than gian" di duqc nghien ciru trong nhieu thap ky. Thuat town thy quyet
djnh la met trong nhieu k9 thuat gin day, co nien dai tir gifta nhUng nam 1980.
Khan
thic d0 lieu tap trong yao phat hien to (king ho#c ban qr ()Ong matt. Met di
thuat town hoc may(machine learning) duqc lip dtmg cho khai thic dti lieu:
a.
Mang noron (Neural networks)
Day la mot trong nhftng icy thuat khai pha du lieu dirge ling dung ph6 bien Men
nay. K9 thuat nay phat trien dva ten
' met nen tang town hqc vtIng yang, kha nang h '
tan
'
luyen trong ky thuat nay (lira tren mil hinh than kinh trong trong cita con ngu&i.
Kat qua ma mpg naron hqc duqc c6 kha nang tao ra cac mo hinh dv bio, dv

doin yeti de chinh xitc yi dO tin cay cao. NO co kha nang phat hien ra duqc cac xu
bluing phirc tap ma k9 thuat thong thubng Ichic kh6 c6 the phat hien ra duqc. Tuy
nhien phuong phip tnang no ron rat phirc tap yi qua trinh tien Minh no g#p rat nhieu
kh6 khan: doi hoi mat nhieu thai gian, nhieu 80 lieu, nhieu Ian lciem tra thir nghiem.
b.
Giii thuat di truyen
Li qui trinh m8 phong theo tier hoi cua tSr nhien. Y Wang chinh cua giai thuat 11
dva vim quy luat di truyen trong bien dOi, chip Ice tv nhien yi tiers boa trong sinh hoc.
Viec xay dvng cac thuat town di truyen me phong sinh hoc nhim tim ra cac giii
phip tot What bao gem cac btreic sau:
- Tao ra ca the ma di truyen dual long cac xau cita met bang ma lct tv han che.
- Thiet lap mei tnrang nhan tao tror
Th may tinh co cac giii phip co the tham
gia"dau tranh sinh tO'n"veri nhau de zit djnh
dO do thanh cong hay that
hay con goi

thich nghi".
A11278 — Doan Thanh Gong
A11500 — Nguygn Thic Holing
Trang 2190
TONG QUAN VE KHAI PHA DIY LISU
-
Phat trien cac"phep lai ghep" de the gild phip ket hqp vei nhau. Khi do cac
rcau mi di truyen cua giii phip cha va mg bi cat di vi xep lai, trong qua trinh
sinh sin nhu vay cac kieu dOt bien co the duqc ap dung.
-
Cung cap mot (lull the cac giii phip ban diu tucmg d6i da long vi
a
may

tinh thqc hien"cu(ic chai tien hem" bing each loci be cac gal phip tir min ca
the va thay the chung bing cac con chin hoac cac dOt hien cua cac giai phip
bk. Thu* wan
se ket thitc khi mot h9 cac giiti phip thinh citing duqc sinh ra.
Khai phi
de
lieu (KPDL) la viec frith chcm d.3c trtmg MI lieu mot each ty doting
tir mot Si dii lieu 16n. Tri thin do thtrimg o cac ding maw c6 tinh chat khong tam
thuong, An (khong twang minh) nhung 13i co the mang 13i ich lqi lam
neu
no duce sir
clung dung chi). Co the coi KPDL 11
cot
lai cfut qua trinh phat hien tri thac trong
co
so
dii lieu (Knowledge Discovery in Databases — KDD)
1.2.2. Luling di lifu
Khai thic der lieu la mot trong nhUng thanh vien quan trong trong data warehouse
family. Trutmg hqp khai thic dft lieu nio la phu hqp veri dien kien ctla cac luOng
der
lieu trong mot kith bin kinh doanh dien hinh?
Hinh sau minh h9a mot
luting dir lieu
doanh nghiep dien hinh ma khai that der
lieu co the duqc ap dung trong cac giai down Ichic nhau.
Application
Si
Data Mining
-4

ill
P-
O


4





Online
transaction
Processing
(OLTP)
Onlbe
••

Analytical
Processing


Hinh 1: M6 hinh khai phti du lieu doanh nghiep
Trang 3190

A11278 — Doan Thanh Cling
A11500 — Nguyln Dire Hoing
TONG QUAN VE KHAI PHA Dir
Met ung dung kinh doanh luu till the dt1 lieu giao Bich trong met ca so &I lieu
bb 15

,
giao djch true
tuyan (online transaction
processing- OLTP). Cie clit lieu OLTP
duqc chiet
xuat, chuyin doi va nap vio data warehouse met each thuong xuyen. Luqc
itO Gila data
warehouse thuimg khic nhau tir met luqc 46 OLTP. Met lucre d6 data
warehouse dk tnrng cob hinh ding du met ngoi sao hay met bong tuyet.V6i bang giao
djch o chinh gifta luqc 46 va dtrqc bao quash bei met be dimension tables(cic bang
kich thubc).
Tnnk lien, vi ph6 hien nhit, khai that dO lieu co the duqc by dung cho cac kho
dO lieu nth ma dft lieu di
duct
lim mtch. Cac miu duqc phat hien bed cic mo hinh
khai thic c6 the duqc trinh bay cho cite nhit quan lt
tiep
chi thong qua the bio cao.
Khai thic dft lieu co the c6 met lien ket true
tiep
den cic ling dung kinh doanh,
ph6 bien nhit la thong qua cac du doin. Nh(mg khai thic dft lieu vio ling dung kinh
doanh dang ngay met phO bien han.
Vi du: Trong met kich bin bin hang qua Web, met khi met khach hang dit met
sin vio trong gio hang, met du bao troy van khai thic der lieu duqc thuc hien de c6
duqc mot danh sich cic sin phAm duqc de nghj dua tren phin tich.
Khai thic du lieu cling co the duqc cip dung de pit tich kh6i OLAP, la met cc
so
du
lieu da chieu ved nhieu kich thubc vi don vi do. Kich thy& c6 the len den hang

trieu bin ghi do d6 se kho khAn cho vier tim ra mo hinh quan tan. Ky thubt khai thic
dO lieu c6 the duqc ap dung de kham phi ra cac mo hinh an trong met khoi OLAP.
Vi du: Met thulit than lien ket co the duqc bp dung cho mot Ich6i ban hang, phin
tich mau mua ctia khich hing cho met vimg cµ the va then gian. Chling to c6 the ip
dung ky thubtIchai thic dO lieu de du bao cac bien phip nhu ban hing vi lqi nhubn.
Trong 4190

A11278 — Doan Thanh tong
A11500 — Nguyin Due Hoing
Gathering
TONG QUAN VE KHAI PHA D() LISU
1.2.3. Yong did min m#t dv tin Heal phd dit
Eavaluboo of
Data Hag
Clean-mg Praprocetsr4
40
!
II
lai
Ktnittir

Transfortution
Selection Preto-ton
I
— . Dot
i'
rin,
Alli I
erarafra"
Dlia

qp-
Cleansed
Preprocessed
4r
Target

14
Warted
Data
Data
Hinh 2: Yong doff aia men dv an khai phti du lieu.
a.
Gom du lieu (gathering) va Trich lqc
du lieu
(selection)
Gom du lieu: Tap hqp du lieu la boat dau
tien
trong khai phi
du lieu.
Busk nay
lay du lieu tir trong mOt co so de lieu, mOt kho dft lieu, them chi di' lieu tir nhimg
nguon cung Ong web.
Trich lqc du lieu:
O
giai down nay du lieu duqc lira chon va phfin chic theo mOt
se lieu chuan nao d6.
c. Lam sach va tiers xir 15r der lieu (cleansing prepocessing)
Lam sach de' lieu: Day la qua trinh xir ly
a
ga

be hoac lam giam nhieu vi each
xir 15
,
cac gia tri khuyet. Burk lam giarn su mop mer khi hqc.
Phan tich stir thich hqp: Nhieu thuOc tinh trong du lieu co the khOng thich hqp
hay khong can thiet de phan loai. Vi vay phop phan tich sar thich hqp duqc the hien
teen der lieu veri muc dich ger be bat lck nhung thuOc tinh khong thich hqp hay khong
can
thiet. Trong hqc may bait nay duqc gqi la trich hoc dac tnrng. Phip phan tich nay
giup phan
loci hieu qua va nfing cao kha rang ma rung.
Trong 5190

A11278 — Doan Thinh COng
A11500 — Nguyen Dirc Hoang
TONG QUAN VE KHAI PHA Dti
Giai doan nay la giai don hay bj sao ling, nhtmg thuc
4
no la med buck rat quan
trqng trong qua trinh khai phi de lieu.
M6t s6 16i
thubng mac phai trong khi gom de
lieu la de lieu khong day du hok khong thong nhat, thieu chit chi. Vi 4y du lieu
thubng chfra cic gia trj vo nghia va kh8ng co kha ning kit
not du lieu,
vi di; Sinh vien
co tuai=200. Giai doan nay nh&m xir ly cac
de
lieu nhu tren (de lieu vo nghia, de lieu
khong co kha fling kit nai). Nheng de lieu ding nay thubng duce xem la thOng tin du

thin, khong c6 gia tq. Bed viy day li mOt qua trinh rat quan tong. Neu de lieu khong
duqc lam such - tiers xi: ly - chuan bj threw thi se gay nen nheng kit qui sai tech
nghiem tang ve sau.
d.
Chuyen
d6i
de lieu (tranformation)
Trong giai doan nay, de lieu co the duqc to chile va sir dung lai. Muc dich ctia
viec chuy'en dal de lieu li lam cho de lieu phit hqp han veri muc dich khai phi de lieu.
De lieu co the duqc
tong
quit him teri cac mirc khai niem cao han. Dieu nay rat
him ich cho cac thuk tinh co gia tr1 lien tuc. Vi du, cac gia trj
so cua
thuk tinh thu
nhip duce tang quit hoa sang cac pham vi rai rac nhu thap, twig binh va cao. Tuang
Ur, cac thutjc tinh gii trj nhu dtrimg ph6 dirge
tong
quit hoa ten khai niem cao han nhu
thinh ph6. Nher do cac thao tic vio/ra trong qtth tint' xir li se it di.
De lieu co the duqc tieu chuan h6a, &lc biet khi the mpg na-ron hay cac
phuong phap dung phep do khoing each trong cac buck xir H. Tieu chuan hoa bien
dot
theo ty le tat ca cac gia trj cita mOt thuk tinh cho truck de chfmg rai vao pham vi chi
djnh nhu [-1,0;1,0] hay [0;1,0]. Tuy nhien dieu nay can cher cac thutjc tinh co pham vi
ban &anion (nhu thu nhip) co nhieu inh huerng dal veri cac thuk tinh c6 pham vi the)
han ban dau (nhu cac thuk tinh nhj phin).
e.
Phut hien va trich mau de lieu (pattern extraction and discovery)
Day la butc to duy trong khai phi

de

trong giai doan nay nhieu thuit toan
khac nhau di duqc sir dung de trich ra cac man tir dft lieu. Thuit town thubng dimg de
trich
man
de lieu li thuit town phan loci dir
lieu,
kit hqp MI lieu, thuit town ma hinh
hoa de lieu min ur.
Li mOt trong cac buerc quan IA:mg nhat vi tan thin gian What cita qua trinh KDD,
trong d6 sir dung nheng phuang phip thong minh de chat
Ice
ra nhimg
nth
dt1 lieu.
Chu yeu la cac k9 thujt ciut machine learning (hoc may) de khai phi, trich chon nheng
mau (patterns), cac rang bu6c lien
he (realionships) biet trong dit lieu
A11278 — Doan Thanh Cong
A11500 — NguyIn Dim Hoing
Trang 6190
TONG QUAN VE KIIAI
PHA Din Lieu
C6 the cac mo hinh khong china cac mau c6 the sir dung. Co the la dft lieu hoin
than ngiu nhien hoc dft lieu c6 qua nhieu thong tin gay nhieu. Dieu nay you cau can
phai lap lai cac buoy lim sach vi chuyin doi dft lieu de chit lqc ra cac dft lieu c6
nghia ham. Day la met qua trinh lap lai vi tot dill len de dtra ra cac th6ng tin phi' hqp,
coy nghia yeti ngtrai quan trf
f. Dinh gia ket qua ink vi bleu dien tri thirc (evaluation of result and Knowledge

presentation)
Day la giai doan curfoi sung trong qui trinh khai pha &I lieu, a giai doan nay cac
matt dft lieu duqc chiet xuat ra bai phan mem khai phi du lieu. KhOng phai man der
lieu nao cling hftu ich, d8i khi no can bi sai tech. Vi vay can phai dua ra nhiing lieu
chuir
' danh gia do uu tien cho cac mttu der lieu de rut ra duqc nhemg tri link can thiet.
Bieu dien tri thfrc: sir dung
cac kgr
thuit de bien dien vi the hien tivc quan cho
nguiri dung. Cac citch bieu dien nen a clang gait gui vi de hieu vai ngtriri dung nhtr
clang dri thj, cay, de dua ra cac bio cao gulp ngtreri quan tri co the dua ra cac quyet
djnh mang tinh chat quan tong.
1.2.4. Chain khai phsi
din life
SAS: la nhit cling cap san pham khai phi
de lieu tau uhit .4
mat thi. phan. Dung
dau
trong linh vuc thOng
ke
trong nhieu thop kY. Co sa SAS chira met be rat phong
pith cac chile ning thOng
ke
c6 the duqc sir dung cho tit ca cac loai phan tich din
Ho
trq khai thic van ban, moi tnrimg di) hqa di xay dung cac mg hinh, co cac thuat
toan khai thic dit lieu phi') bier nhu: cay quyit djnh, mang naron, hOi quy
SPSS: gOm cac san pham khai thic &I lieu nhu"SPSS base"vrAnswer Tree.
Ke thira gOi khai thic dft lieu Clementine — mot trong nhiing cong ty Mu lien gith
thieu cac khii them luOng khai thic dft lieu, cho phip ngtrai ding lam sach dft

chuy'en dOi der lieu vi thvc hien cac mo hinh thin nghiem
IBM: sin pham khai thic dft lieu la Intelligent Miner a Disc. N6 chira mitt tap
hop cac thuat than va cac cling cu tnrc quan. Dun ra nhiing me hinh khai thic du lieu
trong Predictive Modeling Markup Language (PMML). PMML la cac file XML chira
me to cim cac matt me hinh vi so lieu thong
ke cua
cac dirt lieu mau vai !nue Bich du
bao
Microsoft la nha cung cap dft lieu chuyen nghiep dau lien bao gilm cac tinh ring
khai thic trong met ca se der lieu quan he. SQL Server 2000 c6 hai thuat toan khai
thic dft lieu la: Microsoft Decision Tree vi Microsoft Clustering. Vai cac phien bin
Trang 71 90

A11278 — Doan Thinh Cong
A11500 — Nguyen Dim Hoang
TONG QUAN VE KHAI
PHA DIT LI$U
tiep theo cua SQL Server la 2005, 2008, 2012 cic tinh rang khai phi co kr chi lieu
ngly cang duqc rang cep va sin phew ctia Microsoft ngly cang chiem linh thj truang
Oracle: Oracle 9i twit xtremg vao nim 2000, oft met cap thu#t town khai thic du
lieu dtra tren association (141 kit hqp) va Naive Hayes. Oracle lOg bao gam nhieu
cong cv va thu#t toin khai thic de lieu hon. Oracle cling kit hqp veri Java Data Mining
API la gai phin mem cho khai phi der lieu
Angoss: chit yeu xay (tong ck th41 toin decision trees, cluster analysis vi cic
me hinh du doin cho phep nguiri dung hieu de lieu ctia ho tir nhieu quan diem khic
nhau. Cic th4t win duqc ha trq ben cong co troc quan manh me
et4
giii thich flitting
tri thirc khai phi duqc, n6 ding liun viec tot
vai

cic lien ich cita he quan trt Microsoft
SQL Server
KXEN: cung cep mot s6 thuol town khai phi de lieu nhtr: SVM, regression, time
series, segmentation Va cic giai phip khai phi de lieu cho khei OLAP. Ngoai ra,
cung cep tien ich Excel add — in de khai phi
di
lieu trong moi truerng Excel.
13. Cic hiring dip clin den yin
a
khai phi do lieu
1.3.1. Kiln Ink Su min
he
thing khai phd Aar Mist
Co se du lieu:
gam
kho de lieu hoc ck cich luu
tra
thong tin khic (Database,
data warehouse, worldwideweb, information repositories). Day la mot hay mot tip cic
CSDL, cic kho der lieu, cic trang tinh hay ck dung luu tre thong tin khic.Trong
nheng tinh hung co the, thanh phan nay la nguan nh#p (input) dm ck
kt
thuftt tich
hqp va lam such de
May chit CSDL hay may chti kho dit lieu (Database or Data warehouse server):
may chit nay c6 trich nhiem ley nhemg de lieu thich hqp dtra tren cic you aulchai phi
cua ngtroi dung.
Trang 8190

A11278 — Doan Thanh C8ng

A11500 — Nguyen Dire Hoang
TONG QUAN VE KHAI PHA DIY LltU
Giao difm ad hos wen Wog
Ulm !nog miu
May khai phi da
,
liiu
May chi' CSOL hay kho dat lido
Lim each yi doh hqp SY lido
Co so de
,
lido
Kho canidu
Co. so tri thtk (Knowledge base):
duqc dung de lureng dan qui trinh tim kiem,
danh gia the mau ket qui duqc tim they. Ca sa tri thirc c6 the 11 the phan
cap
khai
niem, niem tin ciia ngutri sir dung, cac ring but* hay the ngtrecng gii tri, sieu &I lieu
May khai pith du lieu (Data mining engine):
Thinh phan nay chira cic khai chirc
ming thuc hien tac vu khai phi da lieu nhu: die trung h6a, ket hqp, phan lop, phfin
cum, phan tich su tien
Module danh gib malt (Pattern evaluation):
Thinh phin nay c6 the duqc tich hqp
vio thinh phan Data mining engine. NO co the dung cac nguOng ve do quan tam de
19c
mau
da kham phi duqc. Cling co the module danh gia
mau

duqc tich hqp vio module
khai phi, toy theo su cii dit ctia phucmg phip khai phi duqc dung.
Giao di en do hpa nguai dung (Graphical user interface):
Thinh phin ha trq su
Wang tic gift nguai sir dung vi he thing khai phi du lieu.
- Nguiti sir dung co the chi djnh cau troy vin hay tic vu khai phi
du lieu.
- Ngubi sir dung co the duqc cung cap thong tin ha my vies tim kiem, thuc hien
khai phi
du lieu
saw hcm thong qua cic ket qui khai phi trung gian.
- Ngtroi sir dung sung co the xem
cic
Itrqc dO
co
s6 dit lieu/kho der lieu, cac eau
trite chl lieu; dinh gia cic mau khai phi duqc; true quan hea cac
mau nay a
cic clang khic nhau.
Trang 91 90

A11278 — Doan Thanh Gong
A11500 — Nguyen Disc Hoing
TONG QUAN VE KHAI PHA
Dir tau
1.3.2.
Clic chic sang chills ciao Mai pho dile
lieu
Cac chfrc nang nay duqc the hien qua
a.

Dac trtmg hem va phan biet:
Dac flung h6a 11 viec tong ket town b0 the dk diem hay cac tinh chat chung cua
mot lop
du
lieu dich. DO lieu d6 twang Ung veri mot kip do ngtthi dung dac ta bang
mot cdu truy van CSDL. DO lieu tra ve ctia qua trinh ddc hung hem co the &the bieu
dien bang nhOng khuon ding khic nhau.
b.
Phan tich sv ket hqp:
La kham pha ra cac luat ket hqp trong mot tap lern dO lieu. Cac IWO ket hqp the
hien m6i quan he glad cac gia tri thuOc fink ma ta nhan thdy duqc to tan suat xuat hien
ding veri nhau.
Cac ludt ket hqp duqt kham phi to mot tap lern cac ban ghi giao dich trong kinh
doanh vi nhOng luat coy nghia co the gitip cho cac nha doanh nghiep ra quyet dinh.
c.
Phan lop va dtr down:
Phan lop la qua trinh tim mot tap cac m8 hinh (hoac cac clue= nang) m8 ta va
phan biet cac lop du lieu. Ck mo hinh nay se duck sir di
v
ing cho ink dich dv doin ve
lop cua mot s6 d6i twang.
Vi'ec xay dvng m8 hinh dva tren sv
phan
tich cita mitt tap cac dir lieu huan luyen,
mitt m8 hinh nhu vay co the duck bleu dien trong nhieu Bang: ludt phan 16p, cay quyet
dinh hay mpg naron
De phan lop vi dv doin co the thvc hien tunic mot sv phan tich thich hqp. Sr
phan tich d6 nhitm xac dinh nhOng thutjc firth kheng tham gia vi qua trinh phan lop vi
dv down, cluing se bi loai tth sau buerc nay.
d.

Phan cvni:
!Chong gating nhu phan lop vi dv down, phan cvm se phan tich cac dai twang
clit
lieu khi chua biet nhan cfia lop.
Sr phan cvm co attic dich nh6m cac dEti tuqng lai then nguyen

Cac d6i twang
trong ding mot nhom gio
t
ng nhau a mt
.
= cao nhit vi cac d6i thong khac nhom giting
nhau it nhat.
e.
Phan tich phan ter ngoai cuOc:
Trang 10190

A11278 — Doan Thinh Cong
A11500 — Nguyen Mc Hoang
TONG QUAN VE ICHAI PHA Dli LL$U
Min so
CSDL c6 the china cac din wag du lieu khong tuan theo me hinh der
lieu, nhiing del tuqng nhu viy gel la phin tin ngoai cuOc.
Hiu het cac phuong phap khai pha der lieu deu coi phin tin ngoai cuec la nhieu va
loii be chung.Tuy nhien trong met se ling dung nao d6 nhu phat hien nhieu ching han,
cac str viec hiem khi xay ra lai duqc quan tam hon nhting gi thuirng xuyen phai.
Sr phan tich du lieu ngoai cuOc xem nhu la sr khai pha cac phin tin ngoai cuoc.
C6 met
so
phucrng phap de phat hien phAn tir ngoai cuOc: dung cac test mang tinh

thong k8 tren co so met gia thiet ve phan phoi du lieu hay met me hinh xac suit cho
dit lieu, dung cac phucmg phap dva ten dt) tech di kitm tra sv klik nhau tong nhcmg
di c trung chinh cita cac del tuqng tong met nh6m.
1.3.3. Cdc dong dfr lit'u cti thi khai plod
Nhu chimg ta di biet, tri thirc cua nhan loci la
tong
hoa cua cac mot quan he, lien
quan met thiet, logic yeti nhau va duqc hat tnlr duoi clang du lieu thy du lieu kia.Trong
thvc to c6
rat
nhieu me hinh co so
de lieu,
my nhien trong cac linh vvc Ung dung cy
the khac nhau, chung ta c6 the dinh nghia va phan biet ra rat nhieu ding du lieu sao
cho thuin lqi nhAt tong qui trinh sir dung. Khai pha du lieu c6 kha ning chip nhin
met se kik' du lieu sau:
Ca so. du lieu quan
he
(relationnal databases):
la cac dit lieu duqc
to
chat theo
mo
hinh clft lieu quan
he
fit phe hien trong nhieu nginh. Do d6 hiu het cac he quan tri
cc se dir lieu dEu he trq dung co sa du lieu quan he nhu Oracle, MS SQL Server, IBM
DB2, MS Access
Ca
see da lieu

da chieu (multidimensional structures, data warehouses):
day cling
la clang dft lieu tac nghiep c6 cac ban ghi that:mg la cac giao tic. Dang du lieu nay
cling phe hien hi'c1/41 nay.
Ca set dit lieu quan he - Wong dei tuqng (object relational databases): la clang du
lieu
lai giera hai me hinh quan he va hut:mg del tuqng.
Du lieu
khong gian, thoi gian va chuti thoi gian (spatial, temporal and time
series data):
la clang de lieu ca tich hop thuoc tinh ve khong gian dit lieu nhu dit
lieu
ban at mang cap dien thoai hoic thiri gian nhu dft lieu ark dien thoai, phat hanh bao
chi, chi se chimg khoan
Trang 11190

A11278 — Doan Thanh Cong
A11500 — Nguyen Dirc Holing
TONG QUAN VE KHAI
PHA Dir tau
Ca so' du lieu da phieang tien (Multimedia databases):
la dang de lieu am thanh,
hinh inh, text & WWW Dang de lieu nay nit phong phit, da dang va duqc phi') bien
rOng rdi, nhAt la tr'en intemet.
1.3.4. Nhung vin di kho khan trong khai phi dir Iteu
a.
VAn de ve Ca SO De Lieu
DAu vao dm met he thong khai phi de lieu thuang la tap cac de lieu the, so nhieu
Inc kh6ng dAy dit va 131 nhieu. Ngoai ra trong thvc to de lieu lai luon bien dong khong
ngUng va duqc b6 xung lien fix tao thanh mot Itnyng de lieu Ichiing to chira ding ca

nheng th8ng tin c6 ich va khong c6 ich. Chinh vi voy trong bAt kY met he thong khai
pha
da
lieu nio viec dAu fien can lim la phin tich va xem xet co se de lieu ma
he
thong khai phi.
b.
Co sa de lieu lot
Viec sir dung cong cu phan tich true tuyen khong khai thic het duqc nhemg thong
tin dm CSDL hien the& chinh vi v'ay nheng floral xir ly de lieu khong con each nao
khk la Itm de lieu lai de phuc vu cho muc dich sir dung sau nay. Der lieu dtrqc hru
chira dung ca thong tin co ich va vo ich. Viec tich ley nay ngay tang len va cho den
nay cac CSDL tai hang trieu ban ghi c6 kith think len den Tetabytes. Tity timg img
dung cu the, viec lam nhu nio de loai 136 de lieu china, nheng thong tin ve nghia lai c6
nheng each khic nhau. Vi vOy phucmg phip xir lY de lieu het sire da clang va phirc tap,
khong co met quy tic chung cho moi irng dung.
c.
SO chieu dit lieu Ian
Tip de lieu thvc chat la mot tap cac
so
do tar mei tnrang hok qua trinh. Twang
hqp don gian that, chimg to co tap hqp cac dOi ttnyng, moi del tucmg co mot tap p se.
do. SO do chinh la thuec firth dm dive the (dti tam, ban ghi ). Cimg vet you au
cim thOng tin la da clang va dAy do ma de, lieu can luu duqc thi se Itrottg thuOc tinh
cfmg can phai nhieu len. MOi thuOc tinh co the &Km cm la mot chieu trong khong gian
CSDL. Chinh vi the se chieu cita bai town trong he khai phi de lieu ming rat len. MOi
tap du
lieu c6 so
chieu
Ian se lam tang khong gian tam kitm cea mo hinh. Bien phap

khic phut vim de nay la phai giam s6 chieu cea de lieu can khai pha va sir dung cac tri
thirc ca sin de" loai be, nheng bien Wong pho hqp.
d.
Du lieu thay dei lien Ate
Trang 121 90

A11278 — Doan Thanh Ding
A11500 — Nguyen Dire Holing
TONG QUAN VlE KHAI PHA
Div
LIEU
Hau ha cac CSDL c6 n6i dung thay d6i lien tic theo thai gian va gay ra he qua
la viec khai phi du lieu bj anh hiking tai theri diem quan sat
du lieu.
Viec thay dbi dit
lieu
nhanh cheing co the
lim mat gii trj cue cac min
truck do, lion nfra cac bien trong
CSDL city img dung dA cho cling bj thay da, bj x6a hok bj tang len theo thbi gian.
e.
Cac thu6c tinh der lieu khong phu hqp
MOt dk diem quan trong cue CSDL la tinh khong phu hqp cue dr lieu. Nghia la
rinic du lieu tit thinh khong thich hqp veri y nghia hien tai cita viec khai pha. Mq't khia
canh lchic aim tinh khong phu hqp cua thu6c tinh do la gia trj cue thuOc tinh do khong
phin anh duqc y nghia hien tai ma chi thich hqp trong lich sir cue no.
f.
Dit lieu khong day di*
Viec thiEu hut khong day du
6

day bao ham ca su khong day du ve gia trj
va
thuOc tinh coa dll lieu. Su co mat hay khong c6 tn4 elm gia trj cac thu6c tinh phu hqp
inh haring rat 16n den viec khai phi der lieu. Viec quan sat khong day diz mat CSDL
den den dua ra cac Met luon sai lam, tri thirc khai phi duce co the sai tech veri thuc
g.
Ck van de khic
Der lieu bi nhieu: ngoli viec du lieu bj
161,
khong day dd thi ban than du lieu cling
tier!) An kha nAng bj nhieu.
Van de Overfilling: Vii
cac he
thong khai pha der lieu theo mo hinh hqc giam sit,
tiro la hoc theo tri thirc dA biEt auk, khi do viec khai phi
du
lieu co the se xay ra tinh
trong qua phi' hqp veri Met qua dA Met. Nghia la ket qua cita mo hinh phu hqp vai tap
dit lieu hart luyen nhung lei khong this stir dua ra cac tri thirc tot theo nghia img vai
tap der lieu kiem tra. BE khic phuc tinh twig nay thtrang phai thuc Men them viec
kiEm tra cheo (cross validation) dE dinh gia m6 hinh, ho*c sir dung Men phip thong ke
ca diEn.
Kha fling twang tic veri nguari sir dung: nit nhiEu ding cu khai phi dit lieu kung
thvc sr c6 kha nAng twang tic veri ngtreri sir ding va khong
a
ding icat hqp v6ri cac tri
thirc dA biet trtrerc d6. Co nhieu Men phitp Mile phuc van de nay nhu sir dung CSDL
suy dien phat hien tri thirc,nhting tri thirc nay sau do sir dung de huang den cho viec
tim lciem, khai phi dll lieu hok sir dung sr phan b6 xic suet du lieu nhu mat dang ma
hem tri thirc co sin.

'Chi sing tich hqp vai he thong khic:
Mdt
ling dung de dat duqc hieu qua cao va
link ho.t can co kha ning tich hqp veri cac he thong khac. Nhtmg tre'n dive
to
viec nay
Trang 13190

A11278 — Doan Thanh Ding
A11500 — Nguyen Dire Hoing
TONG QUAN VE !GUI PHA DI! LIEU
kha kho khin trong cac he khai phi de lieu. Dieu fly xuat phat tir chinh trong cac 1c9
thuit khai phi de lieu li phai xiy clung *It mo hinh pha hqp
de
tim ra cac
min du
tnmg.
1.4. Xu hiring nghien cfru vi vier irng dung cis khai phi d* lieu hien nay
1.4.1. Man nghiin
criu
Khai phi de lieu li mot

vvc mai vi mic de can rat nhieu van de chug duqc
nghien ciru melt cic chgon vgn, nhung tiem ning vi khi ning ang dung caa no rat cao
vi di duqc chimg minh qua nhieu Ling dung thvc
te.
Hien fly co mot so huemg nghien
ciru ma khai phi de lieu quan tam den:
OLAM (Online Analytical Mining): li sr tich hqp gala CSDL, kho dir lieu vi
khai phi de lieu. MOt s8 he ca sec

a
lieu hien nay nhu Oracle, MS SQL Server da tich
hqp xiy citing kho de lieu vi phan tich tnrc tuyin (OLAP). Nhcmg tinh nang nay duqc
he trq dtrai dang cac Ong cu di kem vi nguai sir ding phii mua de sir dung.
Cac nhi nghien eau trong rah vvc CSDL can mutin co them sv tich him giea
CSDL, kho de lieu vi khai phi dir lieu. Khim phi duqc nhieu tri thirc khic nhau tit
cac kieu de lieu Ichic nhau. Tinh chinh xac vi hieu qua, kha ning ma ring vi tich hqp,
xir ly
de lieu bt nhieu, khong day da vi tinh c6 ich cira tri thirc duqc khim phi. Van de
non ngO troy van trong khai phi dit lieu phii cung cap cho ngtrai sir dung mot neon
nge thuin lien, gait gfri nhu SQL trong CSDL quan he.
Khai phi de lieu
di duqc ling dung rat
thinh tong trong CSDL thi trubng. Day li
mot phtrong phi phan tich CSDL khich hang, tim kiem cac
man trong sot
cac khich
hang vi sir dung cic ink nay de Iva chop cac khich hang nem ning trong tucmg lai.
Tap chi Business Week caa
my
da dinh gii co ham 50% cic nhi bin le dang vi c6
(lath sir dung CSDL thI taking cho host dOng kinh doanh tea ho. Cic ling dung khac
tea khai phi de lieu trong kinh doanh nhu phin tich tht tnkmg chimg khoin, phin tich
van kien tai chinh, phan tich vi bio cao cac thay doi de lieu bin hang sieu chi
1.4.2. Ong dyng csia khai pith der
Wu
trong Myr ti
Khai phi
do
lieu lien quan den nhieu nginh nghe, nhieu Iinh Arc nhu: thong

ke,
tri tue nhan tao, he chuyen gia, CSDL, thuit town, tinh song song Meat he thong khai
phi
du lieu
dien hinh bao gom cic phuong thee, thuit town, k9 thuit tir nhieu filth vvc
khic nhau. Diem chung giea cic he thong nay la tau trich rat tir cac kho de lieu co
kith thuerc rat lem.
Trang 14190

A11278 — Doan Thanh Cimg
A11500 — Nguyen Dirc Hoing
TONG QUAN VE ICHAI PHA
Do- tau
Khai pha dit lieu duqc sir dung trong rat nhieu cac linh vtic khoa hue, kinh
doanh :
Bao hiem, tai chinh va chimg khoan: a day khai pha dit lieu co nhiem vµ phan
tich tinh hinh tai chinh, dg bao gia, chi se cac loai co phieu, phan tich du lieu the tin
clung phat hien gian lan tai chinh
Thong
ke,
phan tich dit lieu ha trq ra guy& dinh: dtra vao
s6 lieu
c6 sin, phan
tich dit lieu de dua ra nhi
-
mg quyet dinh dung luc, co lqi nhat
Dieu trj y hoc, chain sec y te:
mot so
thong tin ve chuin down benh km trong he
thOng quan l$

,
benh vien, tit do phan tich mOi lien he gifta cac chirng benh, chuin down
benh de dua ra phuong phap dieu trj.
Test Mining va Web Mining: phan 16p van ban va cac trang web, tom tit nOi
dung van ban, tir do co the Whom cac van ban, trang web theo clang chi de, lqc be cac
trang dOc hai.
Quin trj mpg, phat hien truy cap bit thuerng: Phan tich der lieu troy cap de phat
hien cac truy cap bit thirimg hay cac truy cap veci muc Bich
xAu.
Linh
vvc khoa hoc: quan sat thien van,
de
lieu gene, dit lieu sinh vat, tim kiem so
sanh cac he gene va thong tin di truyen
1.4.3. ling dyng cite khai phd dir1ifu trong Wee gitii quyit Sc nhom bei Win kink
doanh
Phan tich khach hang:
Nhitng khach hang nao co nhieu kha nang chuyen sang
den thu
cash tranh? Vien th8ng, ngan hang, bao hiem la nheng nganh cong nghiep
Clang
phai dOi mat nghiem gong v6i yin
de
can!' tranh hien nay. Trung binh moi thue
bao dien thoai moi tieu tan khoang 200$ diu to
tiep
thj. Chuan analysis c6 the the gulp
cac nha quitn ljr tiep thj hi'eu duqc 15
,
do thay doi caa khach hang, cal thien quan he

khach hang, va can ding tang khach hang trung thanh.
Ban hang cheo:
Nhimg san phan nao la khach hang co the mua? Cross-selling la
mOt thach thirc kinh doanh quan tong cho cac nha ban le. Nhieu nha ban le
,
dk biet la
cac nha ban le trrc
tuyen, sir
dung tinh fling nay de tang doanh se ban hang cila hce.Vi
dv, neu ban ghe tham cira hang sach truc tuyen Sur Arnazon.com
hay Barnes and
Noble.com
de mua mOt cam sach, ban c6 the nhan thiy ring cac trang web nay cung
cap cho ban mOt tap hqp cac kien nghj ve sach lien quan. Nhitng khuy'en cao nay co
the dirge bit
nguen tit
viec phan tich va khai thac di: lieu.
Trang 15190

A11278 — Doan Thanh Cong
A11500 — Nguyen Dirc Hoang
TONG QUAN Nit KHAI
PHA Hos tau
Phcit hien gian

Day c6 phai la mit you au b6i thuing gian Lan bao hiem?
COng ty bao hiem xir 15
,
hang ngan tuyen ha mit ngay. Khong
de

ding cho ho de dieu
tra tirng tnrOng hqp. Khai thic du lieu co the glop xac djnh nhimg you cau ma nhieu
kha nang la sai.
Quan ly nii do:
Khoan vay do nen duqc chip than cho khach hang nay khong?
Day la cau hoi ph6 biEn nhat trong kjch ban ngan hang. K9 that khai thic de lieu co
the duqc sir dung de diem mirc di rdi ro ctia khach hang, giap quan 15
,
din ra
quyet
djnh thich hqp cho mai img dung.
Phan logi kluich hang:
1Chach hang ciut tii la ai? Phan Ioai khach hang glop ac
nha quan 15
,
dap thj
hieu duqc cat cau hinh khac nhau cim khkh hang va c6 nhimg
Milli ding tiep thj phi' hop dtra ten cat phan loci.
Myc tieu quang cao:
Banner quang cao se hien thj dieu gi cho tirng khach hang
truy cap cp the? Web ban le va cac trang web
cling
thong tin nhu de ca nhan hoa nii
dung dm ho cho khach hang. Su dung dieu htrOng elm khach hang hoc cac m6 hinh
mua hang trot tuyen, cac trang web nay c6 the sir dung cac giai phap khai that di: lieu
de hien thj mix tieu quang cao cho rnmc dich cim khach hang.
Dg bcio ban hang:
Co bao nhieu loci ruqu tii se ban trong cira hang tan nay ?
K9 that khai that
da

lieu du bao c6 the duqc sir dung de tra lai nhimg cau &Si lien
quan den thOri gian
Trang 16190

A11278 — Doan Thanh COng
A11500 — Nguyen Bac Hang
CAC KY THUAT KHAI
PHA Hy
LIEU
CHUtING 2. CAC Kt THUAT !MAI PHA DO' la
Cac 1C9 thuat khai pha de lieu thoc chit khong ca gi med. N6 la so ke thin, kit
hqp va ma rong cua the kg thuat ca ban di &nye nghien ciru tir truerc nhu hqc may,
nhan clang, thong ke (hei quy, phan loci, phan nhom), cac me hinh de tht, mang bayes,
tri tu'e Stan tao, thu thap tri thirc he chuyen gia Tuy nhi'en, lied so ket hqp tai tinh
cua
khai pha du lieu,
Icy
thuat nay c6 tru the han hin cac phuang phap truerc do, dem
lai nhieu teen vong trong viec phat trien nghien thu khoa hqc ding nler ap ding thoc
tien va no co the dirge Chia lam 2 nhom chinh sau:
Ky thuat khai pha de lieu mo ta: co nhiem vu mo to ve cac tinh chit hoac cac dac
tinh chung caa der lieu trong CSDL hien co. Nham kg thult nay gem cac phuang phap:
phan nhom, king hqp, phat hien so teen dei va de tech, phan tich luat ket hqp
Ky thuat khai pha
du
lieu do down: co nhiem vu dun n cac do down doa vao suy
dien teen der lieu hien that Nhom kg thuat nay gem cac phuang phap: phap lop, hei
quy
2.1. Peen lop de lieu
2.1.1. Ma hinh phon cay quyit

dJnh
a. Gieri thieu
Trong limb vtre hoc may, cay quyet dinh la met kieu ano hinh do bao (predictive
model), nghia la met anh xa tir cac quan sat ve met so vat/hien Wog toi the ket luan
ye gia try' !nue tieu dm so vat/hien tuqng. Mei net trong (internal node) tuong ung veri
met hien; duerng not gicra no veri net con dm no the hien gia tri co the cho biin do.
MOi net la dai
then
cho gia tri do down elm hien muc lieu, cho trtrerc cac gia trt do doin
cua
cac bien duct bieu dien beri dtremg di tir nut gee tai nut la de. Ky thuiit hoc may
dung trong cay guy& deth dirge goi la hoc bing cay quyet dinh, hay chi gqi veri tai ten
ngin gon la cay quyet dinh.
Vi du:
Cay quyet dinh phan lap mire twang
Trang 161 90

A11278 — Doan Thanh Gong
A11500 — NguyIn Dec Hoing
CAC KY THU4T KHAI

LIU
< 35
> 35

salary

< 40

>40

50

>50
bad

good

bad

good
Hinh 3: Vi du ve cay quyet djnh
b.
Cac kieu cay quy& dinh
Cay
quyet
djnh con co hai loci:
- Cay hei quy (Regression tree): uec luang cac ham c6 gia trj la
se
thuc thay vi
duqc sir dung cho cac nhiem vu phan loci. (Vi du: Sc tinh gia met ngoi nha
hoac khoing thiri gian met benh nhan nim vien.)
- Cay phan loci (Classification tree): niu y la met Men phan loci nhu: gioi tinh
(nam hay n0), ket qua cita met tran
du
(thing hay thua).
c.
diem cita cay quyet djnh
So vei cac phuang phap khai pha der lieu khac, cay quyet dinh la phuang phap c6
met se uu diem:
- Cay quyet djnh

de
hitu. Ngutri to co the hieu and hinh
cay quyet
djnh sau khi
duqc giai thich ngin.
- Viec chitin bj
du
lieu cho met cay
quyet
djnh la co ban hoic kb:mg can thiet.
Ck k9 that 'chic thutmg dei hoi chuin hea du lieu, can tao cac bien phu
(dummy variable) va loai 136 cac gia trj
rang.
- Cay
quyet dinh co the xir IS/
Ca
der lieu co gia tri bing se va dit lieu co gia tri la
ten the loci. Cac kji thuat khk thueng chuyen de phan tich cac be dit lieu chi
gem met lout
bier. Ching han, cac luat quan
he
chi 05 the dimg cho cac bier
ten, trong khi mang na-ron chi co the dung cho cac bi'en ca gia tri bing se.
Trang 17190

A11278 — Doan Thanh Ding
A l 1500 — NguyIn Dec Hoing
CAC KY
THU4T KHAI PHA Did LIVU
- Cay quyet djnh la met mo hinh hop tring. Mang no-ron la met vi du

ye
me
hinh help den, do lai giai thich cho ket qua qua phirc tap de co the hieu duqc.
- Co the thim djnh met ma hinh bang cac kiem tra thOng
ice.
Dieu nay lim cho
to c6 the tin Prang vao mo hinh.
d.
Phan km de lieu bing cay quyet djnh
Phan lap dua ten cay quyet djnh rat thich hqp cho viec khai phi de lieu vi cay
quyet djnh co cau tnic don gian, de hieu vi co the duqc xay dung lcha nhanh tir cay
quyet
djnh co the
a
ding rat ra cac 141
Quy nap cay
quyet
djnh la met qua trinh hqc tip coa cay quyet djnh tir cac phan
16p coa be di) lieu huin luyen (training tuple). Met cay quyet dinh la met bieu
do
ding
de lieu nhu ciu trim cay, moi nut trong (khang phai la) mpg ttung cho met thuec tinh
kiem tra,
mOi
nhanh dai then cho ket qua ctia viec kiem tra, va moi nut la (hay nit giai
hen) gift met lop phan. Nut diu fien ten cay la nut gOc.
Qua trinh phan 16p de lieu thong qua 2 buoy co ban nhu sau:
- Xay dung me, hinh tir tip huin luyen
- Sir dung ma hinh, kiem tra tinh thing din dm mo hinh va dung no de phan lop
do lieu mei.

e.
Xay dung cay quyet djnh
Xay thmg cay
quyet
dinh deu duqc chia ra lam 3 giai (loan co ban:
- ray chmg cay: Thuc hien chia met cach de quy tip mau de lieu huat
' luye'n
cho den khi cac
ink
a
mai nut la thuOc ding mot
lop
- CM
tia cay: Li viec lam ding de tOi uu hoa cay. Cit tia cay chinh la viec tren
met cay con vao trong met nut la.
- Dinh gia
cay:
Dung de danh gia de chinh xac caa
cay
ket qua. Tieu chi dinh
gia la tiring so mau
duqc phan lap chinh xac tren king
s6
mau
dua vao.
2.1.2. Mil hinh phiin ldp dB. lieu Bayer
a. Gieri thieu
Naïve Bayes la phucmg phap phan loth dua vao xac suit duqc sir dung
rOng
rai

trong
lint) vim
may hqc [Mitchell, 1996] [Joachims, 1997] [Jason, 2001], duqc sir dung
lin dku tien trong 14th vuc phan loth bai Maron vao nam 1961 [Maron, 1961] sau do
Trang 18190

A11278 — Doan Thinh Cemg
A11500 — Nguy4n Dire Hoing
ter nen phO bien dimg trong nhieu linh Arc nhu trong cac cong cu tim kiem
[Rijsbergen et al, 1970], cac be, luc email [Sahami et al, 1998]
MO hinh phin 16p Naïve Bayes dva tren djnh 19 ctia Bayes ve xac
suit
co dieu
kien, veri gia thief cac thuOc tinh la dOc lip xac suit.
b. That tan phin lore Naïve Bayes
That town dva tren djnh ly Bayes duqc phat bieu nhu sau:
P(BIA)P(A)
P(AIB) =
P(B)
- P(AIB): Xac suit xay ra A khi B di xay ra.
- P(BIA): Xac suit xay ra B khi A xay ra.
- P(A): Xac sat xay ra A,khong quan tam den B
- P(B): Xac suit xay ra B khong quan tam den A
Ap
dung trong bai tan phin loci, cac dii kien gom co:
- X: tip der lieu huin luyen di ducat vector hoa dui% ding = (x
1
, x
2
, ,

x„)
- Ci: phin lop i, veri i = {1,

m}.
- Cac thuOc tinh detc lip dieu kien doi meit veri nhau.
Theo djnh ly Bayes:
CAC Kt THUAT ICHAI PHA Dir LItU
p pc co
P
(
c
i)
P(c
i
lx) =
P
(X)
Theo tinh chit dOc lap dieu kien:
P(XIC
i
)
=
finxkico
k=
1
Trong de:
- P (C
L
IX) la xac sat
thuOc phan lop i khi biet truck mau X.

- P(C
i
) xac suit
la phin lop i.
-
P(x
k
ICi) xac sat thuOc tinh Mir k mang gia tri xk khi da hi& X thuOc phin
16p i.
c. Cac buerc thvc hien thuot town Naïve Bayes
Thuit town gem hai giai down huin luyen va phan 16p:
Trang 19190

A11278 — Doin Thanh Cong
A11500 — Nguyen Dirc Hoang
CAC Kt THUAT ICHAI PHA DC)' LI$U
- Buck 1: HuAn luyen Naive Bayes (chra vio tap du lieu), tinh
P(C
i
)
vi
P(x
k
ICO
- Buec 2: Phan hip

= (x1, x2,
,x
n
),

ta can tinh xic suit thuec timg phfin
hip khi dA biet truck Xnew. Xnew duqc gin vio lip co xic suit lern nhit theo
cong thirc
max
(P(Ci) fi
P(xklCi))
C1EC
k=1
d. Uu
nhuqc diem cila Naïve Bayes
Yu
diem:
Don gian, de
cai
dat do gia djnh cac thuelc tinh la
doe
lip.
C6 the sir dung thong tin qua khti
de
du bao twang lai. Khi met du bio xuAt
hien trong thirc te, chung lai duct dung de tinh town lai mo hinh du bao cho
cac phan tich tiep theo.
Suy dien chinh xac dua tren tic tap d0 lieu. Viec suy dien tren cac miu nho
cling tuong to nhu tren cac
mau
len.
Cung cap k& qua c6 the dien giii
a
ding bang nen VI to nhien.
Co the chay duqc trong ca truing hqp met se mIu bi thieu dil lieu.

Niiirqc diem:
Do gia djnh cac thuec tinh la dec lop nen ket qua se kern chinh xac neu cac
matt phu
thuec Ian
nhau.
Khong dui ra each
Iva
chqn cac thuOc tinh dau vio nhu the nio.Viec nay you
ca'u ngueri phfin tich phai c6 kinh nghiem. Neu king se lam sailMh ket qua.
Cac ket qui du bio bi anh hueng manh bed cac thuec tinh dau vio.Cho nen
trong thuc
te, se
kh6 thuyet phgc mot ngueri tin vio ket qua du bao
neu
ngueri
de king ding
9
vii each chon tham s6 dau vio.
Chi phi tinh town kha cao khi co nhieu tham s6 dau vio. Cac kat qua me phong
cho thy ket qua phan ph& xic suit hui khic nhau neu top huAn luyen la met
top con ciia du lieu co sin
va mOi lan huk IuYen ta lai
chon mot top con khic
nhau.
2.2. Phin cym di/ lieu
a. Giei thieu
Trang 201 90

A11278 — Doan Thinh Deng
A11500 — Nguyen Dirc Hoang

CAC Kt THUAT KHAI PHA Di)' LIEU
Gom cum dir lieu la hinh thirc hoc kheng giam sat trong do cac
mau
hoc chin
duqc gan than. Muc dich cua gom gun dir lieu la tim nhimg mau dai Bien hoac gom
di:
" lieu tuang qr nhau (theo mot chuir
' danh gia nao d6) thinh nhfing cum. Cac diem
di: lieu nom trong cac cum khic nhau c6 dO twang to thip ban cac diem du lieu n&m
trong cum.
Phan tich cum co nhieu img dung !Ong rai, bao g6m nghien ciru thj Huang,
nhan clang mau, phin tich
du lieu va xir
anh. Trong kinh doanh, phin tich cum co
th'E giup cac nha marketing kham pha str khic nhau gicra cac nhom khach hang dva
tren th6ng tin khic hang va cac dac trung cua cac thorn khach hang dva trEn cac
mau
mua hang. Trong sinh hoc, no co the duqc sir dung dE phan lo3i thvc vat vi dOng vat,
cac
mau
gen veri cac chirc nang twang tv nhau. Phan tich cum can co thO phin loci dot
theo ding fling host thvc
ti
six dung dE co chinh sach qui hooch phu hqp, phan loci
cac tai lieu ten Web.
b.
Ck icieu phan gun dir
lieu
Gia sir mOt tap di': lieu dung de phan tich cum china n
dai

tuqng (cac d6i tuqng co
thE 11 con nguiri, nha, tai lieu ). Cac thuat wan gom gun thuang xir 15
,
hen mot trong
hai can true din lieu sau:
- Ma trot
' der lieu: Bieu then n d6i tuqng, nhu con ngtrai, yeti p Bien (con duqc
goi la cac phep do hay cac thuOc tinh), nhu tuoi, chiEu cao, can nang, gieti tinh
- Ma trap phin biet: De bitu than khoing cach giaa hai diEm (d6i tuqng) trong
khong gian der lieu g6m n d6i ttrqng theo p thuOc tinh to dung ma tran phan
biet
c.
Ck uu diem ciia phan cum
CO kha nang lam viec hieu qua veri luqng dir lieu Ian: Phan tich cum hen mot
man dii lieu lam co thE din den cac
kat
qua that lech. Can phai co cac thuat toin phan
cum ten CSDL lam.
CO kha nang /fir b
,
cac clang dft lieu khac nhau: NhiEu thuat town duqc thiet k
l
e d'E
xir IS/ der lieu bang
sta.
Tuy nhien, cac (mg dung co the you cau phan tich cum cac clang
du lieu
khk, nhu din lieu nhj phan, phin loci, vat tv hay su trOn lan coa cac kiOu der
lieu.
CO kha nang kham phi ra cac cum veri cac clang bat kt: NhiEu thuat toan phan

cum dva ten cac
v
.
!,
do khoing each Euclide hay Manhattan. Cac thuat twin dva ten
Trang 21190

A11278 — Doan Thinh COng
A11500 — NguyIn Dire Hoing
CAC Kt THU4T ICHAI PHA Di) LI$U
cac so do khoang cach c6 xu huong tim cac gun hinh cau veri kich thu6c va mat de
hong tv nhau. Tuy nhien, met cum (cluster) c6 the co hinh clang bat kY. Do do can
phat
thin
cac thuat than
a tim
cac cluster birth ding bit kY
Yeu cau t6i
thieu tri thirc link vtre nhiim xac djnh cac tham se dku vao: Nhieu
thuat town phan cam doi hoi nguvi dimg nhap cac tham so trong phan tich cum. Cac
ket qua phan ctun co the bj anh htremg vio cac tham so
t
dau vio. Cac tham
s6
thtnang
kho xac djnh, dac Wet dai von cac tap de lieu chfra cac dal tucmg du lieu nhieu chieu.
CO kha nang lam viec v6ri du lieu nhieu.
Kheing bj anh hiking vio thin vr nhap cila der lieu.
Lam viec bat tren CSDL co se) chieu cao.
Chap nhan cac rang butjc do ngueri ding chi djnh

Co the hieu va sir dung duqc cac ket qua gom gun
2.3. Hai quy
a.
Gieri thieu
Trong khai phi der lieu, hOi quy la viec hoc met anh xa tir met
mau
adieu thinh
met bien dv (loan co gia tri thvc. Nhiem vu
Cila hoi
quy tuang tv nhu phan lap, diem
Ichach nhau chinh o che thuec tinh di; doin la lien Vic chic khong red rac. Viec cltr doin
cac gia tri s6 thuting duqc lam beri cac phtrcmg phip thong ke
c6
dien chin han
hoi
quy tuyen tinh. Tuy nhien phucmg phip m8 hinh haa cling co the duqc sir dung nhu
cay quyet djnh.
Hai quy la viec hoc met ham anh xa tir met mau de lieu thanh met bien dv doin
cif) gia tri thvc. CO rat nhieu ling dung khai phi de lieu voi nhiem vu hoi quy, vi dv
nhu danh gia kha ning tir vong cilia benh nhan biet cac ket qua xet nghiem chuan doin,
dv doin nhu cau tieu thu met sin pham mai bang mot ham chi tieu quang cao, dv doin
theo than gian voi cac bien &au vio la cac gia tri cila mau dv doin trong qua khir, v.v
b.
Cic clang bai quy
Met s6 dang hai quy thtrang duqc ap dung: hoi quy tuyin tinh, hai quy logic, hai
quy Poisson va hoi quy hoc co giam sat.
Phan tich hoi quy kh6ng chi la tang kW, diking cong (Iva chop met duang
cong ma vira Ichop nhat yeti met tap diem de lieu), no con phai tang ;chap Arai mot mo
hinh voi cac thinh phan sai se va thinh phin xic djnh
Trang 22190


A11278 — Doan Minh Cong
A11500 — Nguyen Dirc Hoing
CAC Kt THU4T KHAI
PHA Hier
LIU
Dang dun gian 'that cua mot mo hinh heti quy (Y = aX + b) china mot bien phi
thuOc (can gel linbien dau rarbien not sinhrbien duqc thuyet minh", harbien-Y")
va mot hien dije lap don (can ggi sarbien ngoai sinh","bien thuyet minh",
hay"bien-X").
Vi du
thuang dung la sv pita thuOe elm huyet ap Y theo tudi tic
X
cita mot
hay sir phv thuOc cua tang luqng Y elm mot con thu nao d6 theo khan phan that an
hang ngay
X.
Sr phi thuOc nay duqc goi la hoi
quy cua
Y len
X.
2.4. Lust ket hqp
a.
Geri thieu
Duqc gieri thieu tir nam 1993, bai toan khai thic 101 kat hqp nhan dirge rat nhieu
sir quan tam ciia cac nha khoa hoe. Ngay nay viec khai thic cac luit nhu
v3y van 11
mot
trong nhftng phuong phip khai thie matt ph6 hien nhat trong viec khai phi tri thiic
va khai pha Mt lieu.

Trong host dOng san xuat kinh doanh, vi di kinh doanh cac mat hang t
i
n sieu thi,
cac !MI quan ly rat thich c6
duqc
cac thong tin mang tinh thong k'e nhu: 90% phi nu
co xe man d6 va deo ding h6 thy sk thi dimg nuec hoa Chanel hoc 70% khfich hang
la cong titian khi mua TV thuang mua loci 21 inches. NM
-
mg th8ng tin nhu v#y rat him
ich trong viec dinh hut:mg kinh doanh. Van de dat ra la lieu c6 tim duqc cac lust nhu
vay bang cong cv khai pha dO lieu Being? Cau tra leri la hoan town cc') the. D6 chinh la
nhiem vi cua khai pha lust ket hqp.
b.
Ck khai niem ca ban trong Khai phi lust ket hop
Ludt Kat Hop (association rule):
11 dang !Etat bieu dien tri thirc a clang Prang dOi
don gian. NO The hien m6i lien he (c6 dieu kien) gift cac tap phan M. Cho A va B la
cac tap phin tir, lust ket hqp gicra A va B la A 4 B. B xuat hien trong dieu kien A xuat
hien.
DO
ho
z
tro (supports):
DO do do tin s6 xuat hien dm cac phan tir, tap phan tir.
Trong supports co
Minimum support
(nguerng h6
trq t6i
thieu) kw la gia tri h6 trq nhe

nhat dirge chi dinh bed ngtkri sir Ming.
Ging thirc tinh ENS h6 trq elm tap phan kr X, ky hi'eu Support (X).Dan vi tinh %:
cac giao dich hO trq X

Support(X)


tong sd cac giao dich
Trang 231 90

A11278 — Doan Thinh CEng
A11500 — Nguyen Dile bang
Support(X

=
Tong so cac giao dich
T6ng so' lung giao dich chin ca X, Y
CAC Kt THU4T KHAI PHA LICU
Cling thirc tinh dO ho trq cua luit ket hqp X -> Y, ky hieu Support(X->Y) Don vi
tinh %:
Do tin cay (Cofidence):
DO do do tin so xuat hien dm mOt tap phin to trong dieu
kien xuat hien dm mOt tap phin to khk. Trong Cofidence co Minimum confidence
(ngutmg tin cay tOi thieu) tirc la gia tri confidence nho nhit duqc chi djnh beri ngueri
dung.
Cling thirc tinh dto tin cay cua luat ket hqp X->Y, ky hieu Confidence(X->Y),
don vi tinh %:
Confidence(X Y) —
S6
giao dich chfra X

DO tin cay (Confidence)
bieu dien mac dO dimg cua quy tic X->
Y.
Phim tit (Item):
Ck phin ter,
tau,
del ttrqng dang duqc quan tat
' n
Tip phin to (Itemset): Tip hqp cac items
Giao Dick (Transaction):
Lin thut hien nrcmg tac yeti hg thOng (vi du: giao
dich"khach hang mua hang")
Tap
phim to phi; Min (Frequent itemset):
Tip phin ter co support thoa minimum
support threshold.
Ludt kit hqp manh (Strong association rule):
Luit kit hqp do support va
confidence thoa minimum support threshold va minimum confidence threshold.
Vi du: phan tich CSDL ban hang nhin duqc thong tin ve tithing khach hang mua
may tinh co khuynh throng mua phin mem quail ly tai chinh trong ding
Ian
mua duqc
mieu to trong loaf ket hqp sau:"mdy
tinh => phiin mem gam 15; tai chinh" [DO
he trq:
2%, DO tin cay: 60%]. May tinh, phin mem quim ly
Si
chinh la cai Itemset, do ho trq
2% nghia la 2% dm

tat
ca cac giao dich da phan tich chi ra ring may tinh va phin
mem quan lY Si chinh duct mua cling nhau. DO tin cay 60% nghia la 60% cac khach
hang mua may tinh cling mua phin mem.
c. Ck buck an
t
ic hien khai pha luit ket hqp
Phfit
bieu bii toin:
Diu vao:
Tong s6 Itrong giao dich chira ca X, Y
Tang 24190

A11278 — Doan Thanh Cong
A11500 — Nguyen thic Hoang

×