Tải bản đầy đủ (.pdf) (89 trang)

Chuyên đề tốt nghiệp: Khai phá dữ liệu trong SQL Server 2012

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.19 MB, 89 trang )

BO GAO DUC DAO TAD
TRUONG DAI HQC THANG LONG
--o0o--

CHUYEN DE TOT NGHIEP

KHAI PHA DU' LIEU TRONG SQL SERVER 2012

thing vien huOng den

: Trait Quang Duy

Sinh vien unit hien

: Doan Minh C6ng A11278
Nguyen Mk Hoang A11500

Chuyen nginh

HA NOI-2014

: C8ng nett thong tin


Lot MO DAU
Srv phat then cua cong nghe thong tin va viec img dung tong nghe thong tin
trong nhieu linh Arc ctia dbi song, kinh tee, xft hoi trong nhieu nim qua cling ding
nghia veri lucmg de lieu dl duqc the co quan thu thip va lint frit ngay mot tich

lily


nhieu len. H9 luu t± cac de lieu nay vi cho ring no An chfra nhung gia trj nho nhat
nao do. Tuy nhien, theo thOng ke tin chi mot lacing nho cira nheng de lieu nay (khoing
tir 5% den 10%) la luon duqc phan tich, so con lui h9 khong biet phai lam gi hoic co
the lam gi veri chting nhung h9 van tiep mc thu thip rat ton kern viii y nghia lo sq rang
co cai gi de quan trcong bj be qua sau nay Inc can den no. Mit khac, trong mOi throng
canli tranh, ngu&i to ngay cang can c6 nhieu thong tin veri tic dO nhanh try glop
viec ra quyOt djnh vi ngay cang nhieu cau hoi mang tinh chit djnh firth can phai tra

lei

dua tr'en mot khOi lacing de lieu khOng 16 dii c6. Viii nheng It do nhtr vay, cac phuong
phap quan trj va khai thac ca ser de lieu truyin thong nwly cing khong dap img duqc
thuc to di lam phat trier mot khuynh huemg ky thuat mOi de la ky thuat phat hien tri
thirc va khai thic de lieu (KDD — Knowlefge Discovery and Data Mining)

icy thuit kham pha tri thfrc va khai pha de lieu da va dang duqc nghien ciru, img
dung trong nhieu rinh Arc khac nhau 6 cac ntrerc ten the gieri, tai Viet Nam ky thuot
nay tuong dOi con mai me toy nhien cling dang duqc nghien thuva din dua vao ling
dung. Buerc quan trong nhat ctia qua tranh nay la Khai phi de lieu (Data Mining), giirp
ngueri sir dung thu thip duqc nhung tri thirc heu ich tir nhung ca ser de lieu hoic cac
nguOn de lieu khOng to khac. Rat nhieu doanh nghiep Ara to chirc tre'n the giai da img
dung ky thuilt khai pha de lieu vao hoot dOng kinh doanh ctia minh va di thu duqc
nheng lqi ich to Ion.
Vi nhung IY do nhu viy nen chting em di ch9n de taithai pha du lieu va img
dung SQL Server 2012"v6i mong mu6n tim hieu cac phuong phap, cac me) hinh,

ky

thuat khai phi de lieu. Dieu nay khong chi c6 tat dung 6 tat gee do nghien cuu IY
thuyet ma con img dung thuc to din tren mot me hinh va kiim chimg tinh xac thuc ma

ky thuat khai phi de lieu dem lid. Tir nhung kien thirc ca ban, dan sang tim hieu cac
van de phirc tap lien quan den cac thuat Win khai phi du lieu. Tuy chi la nhting mirc
tim hieu ca ban, don &An nhung cling it nhieu de cap duqc den cac van de can ton tai
va kha ning cita img dung khai pha de lieu, dic biet la trong img dung he quan
CSDL SQL Server 2012.

trj


NOi dung bio ciao chuyen de tot nghiep bao gem:
Lori my diu
Danh !nye tir vier tit
Chuang 1. Tong quan ye khai phi de lieu
Chuang 2: Cie tic vu trong khai phi (M. lieu
Chuang 3: Khai phi der lieu trong SQL Server 2012
Chuang 4: Ling dung khai phi de lieu trong SQL 2012
Ket luin
TM lieu tham khio


BANG it IOU VA CHU VIET TAT
KY hieu viet tit

Nghia tieng anh

Nghia tiang viet

DM

Data Mining


Khai pha dU lieu

BI

Business Intelligence

Tri tue doanh nghiep

CSDL/DB

Database

Ca so dft lieu

OLAP

Online Analytical Processing

Xir ly, Oen tich der lieu ttvc
tuyen

KDD

Knowledge discovery in databases

Kham pha tri thtic trong cac at
sa der lieu

SSIS


SQL Server Integration Services

Cac djch At tich hop ten SQL
Server ht3 trq khai pha de lieu

ERP

Enterprise Resource Planning

Quin lY nguOn loc va tai nguyen
ctia doanh nghiep

ODBC

Open Database Connectivity

Ket not ca ser du lieu ma


MVC LUC
CH •CING 1.

TONG QUAN VE KHAI PHA DIY LIEU

1

1

1.1. Khai niem ve khai pha 80 lieu

1.1.1. Giei thieu ye khai pha der lieu

1

1.1.2. Dinh nghia ve khai pha der lieu

1
2

1.2. Cac buoy trong khai pha 80 lieu
1.2.1. Cac ki thuat khai pha 80 lieu

2

1.2.2. Luting 80 lieu

3

1.2.3. yang dbi caa mOt du an khai pha der lieu

5

1.2.4. Chuan khai phi dii lieu

7

1.3. Cac huang tiep can den van de khai pha der lieu
1.3.1. Kien irk caa mOt he thOng khai phi der lieu

8

8

1.3.2. Cac chirc rang chinh cua khai pha 80 lieu

10

1.3.3. Cac dung de lieu do the khai pha

11

1.3.4. Nhang van de kho khan trong khai phi der lieu

12

1.4. Xu huemg nghien cuu va viec *fig dung cua khai pha der lieu hien nay

14

1.4.1. Huang nghien ciru

14

1.4.2. (Trig dung coa khai phi der lieu trong thuc to

14

1.4.3. Ung dung cua khai phi der lieu trong viec giii guy& cac nhom bai
toga kink doanh
15
CHUCING 2. CAC Kt THU3T KHAI


PHA usu

2.1. Phan lop da lieu

16

16

2.1.1. M8 hinh phin lap cay guy& dinh

16

2.1.2. M8 hinh phin lop chit lieu Bayer

18

2.2. Phan gun 80 lieu

20

2.3. Hai quy

22

2.4. Luat ket hap

23

2.5. Du bio


25


2.6. T6'ng hqp hem (Summarization)

26

2.7. M8 hinh h6a sv phv thuec (dependency modeling)

26

2.8. Phat hien stir Bien d6i va de Itch (Change and deviation detection)

27

CHUIZING 3. KHAI PHA Dir LItU TRONG SQL SERVER 2012

28

3.1. MO Willi OLE DB trong SQL Sever

28

3.1.1. Gidi thieu

28

3.1.2. Cac khai niem co ban trong OLE DB cho Data Mining


30

3.1.3. Data Mining Extensions to SQL (DMX)

31

3.2. Cac thuat toan khai phi der lieu trong SQL Server 2012

34

3.2.1. Microsoft Decion Trees

35

3.2.2. Microsoft Clustering

35

3.2.3. Microsoft Naive Bayes

36

3.2.4. Microsoft Sequence Clustering

36

3.2.5. Microsoft Time Series

36


3.2.6. Microsoft Association Rules

37

3.2.7. Microsoft Neural Network

38

3.2.8. Microsoft Linear Regression

38

3.2.9. Microsoft Logistic Regression

38

3.3. Nguyen tic chqn dm* toan
CHITONG 4.

VNG DVNG KHAI PHA DC. LIEU SQL SERVER 2012

38
41

4.1. GiOi thieu ve Business Intelligence Development Studio

41

4.2. ling dvng trong SQL


42

4.2.1. Sir dung thuat than Microsoft Decision Tree va Microsoft Naive
42
Bayes
4.2.2. Su dying thujt toan Microsoft Association Rule

63

!CET LU*N

81

TAI LI$U THAM KHAO

81


TONG QUAN YE KHAI PHA DIY LIEU

CHUCFNG 1. TONG QUAN VE KHAI PHA Dir LIEU
1.1. Khii niem va khai phi d* lieu
1.1.1. GM thifu vi Mai plui chi Wu

Trong nhcmg am gin day, su phat then mph me ciut CNT'T va nganh ding
nghiep phis cimg da lam cho kha ning thu nhap va Itru fru thong tin ciia cac thimg
thong tin tang nhanh met cach cheng mat. Ben conh do viec tin hoc hea met each 6 at
va nhanh chiong cac hoot dOng san xuat, kinh doanh cling nhu nhieu lInh Arc hog dOng
khk di tio ra cho chimg to met lucmg de lieu luu tray Ichting 16. Hang trieu CSDL da
dugc sir dung trong cac host dong san xuat, kinh doanh, wan trong do co nhieu

CSDL cac len cot Gigabyte, thorn chi la Terabye. So bang nay din tin ye'u cau cap
thiet la can co nhung k9 thuit va ding cu mei de to Ong chuyen doi Wong de lieu
khang to Ida thanh the tri thirc co ich. Tir do, cac Id thuili khai pha de lieu di fro thanh
met linh we then so dm nen cting nghe thong tin the giei hien nay.
1.1.2. Dinh nghia vi khai pith dfr lifu

Phat hien tri thirc (Knowledge Discovery) trong cac co se du lieu la met qui trinh
nhan biet the miu ho4c the mo Mob trong de lieu voi cac tinh fling: hqp thee mei,
kha ich, va c6 the hiau duqc.
Con khai thic de lieu (data mining) la men nge tuong del mei, no ra din vao
. cua dun thap 4 1980. C6 nit nhieu djnh nghia khac nhau
khoang nhfrng nam cu &
khai phi de lieu. Giao su Tom Mitchell da dua ra djnh nghia cita khai pha de lieu nhu
sau:" Khai phi de lieu la viec sir dung da lieu lich sir de kham phi nheng qui tic va
cai thien nhcmg quyet djnh tong tuong lai". Veri met each ti6'p c4r1 ling dung han, tien
si Fayyad da phat bleu:" Khai phi da lieu durang duqc xem la viec kham phi tri thirc
trong cac co se de lieu, la meat qua trinh trich xuat nheng thong tin in, trues day chua
hi& va co kha fling heu ich, duel ding cac quy luat, rang bu0c, qui tic trong co se du
lieu". Con cac nha thong ke thi xem" khai phi da lieu nhu la min qua trinh phan tich
dugc thiet ke tham do mitt luong coc len cac der lieu nhim phat hien ra cac miu thich
hqp vil hok cac mOi quan he mang tinh he thing gifts cac hien va sau de se hqp thirc
hoi cac ket qua rim duqc bing each ap dung the miu da phat hien duqc cho tip con

ve

mei cita de lieu".

Trang 1190

A11278 — Doan Thanh Cong

A11500 — Nguyin Dec Hoing


TONG QUAN VE KHAI PHA DIY LI$U

N6i tom lai: khai pha 80 lieu la met buoy trong quy trinh phat hien tri thirc gom
co cac that town khai thic du lieu chuyen dimg dtrOi met se quy djnh ve hieu qua tinh
town chap nhan duqc di tim ra cac mitt hoac cac me hinh trong dO lieu.
1.2. Cic bulk trong khai phi do Ilea

1.2.1. Clic ki thuOt khan ph6 drr lifu

M3c du khai thic dfr lieu nhu lit met thuat nge tuong del mai, nhung hau bet cac
ky thuat khai thic du lieu da ten tai tong nhieu nim. Ma tier than cita khai thic dur
lieu deu xuat phat tir: thong ke, hoc may ya co so a lieu. Mot so thOt town khai thic
d0 lieu, bao gOm ca hOi quy, chugi that wan, va cay quyet djnh deu duqc phat minh
boi cac nhi thOng ke hqc. Ky thuorhei quy" CIA ton tai trong nhieu the kY. Cac thuat
toan"chuOi than gian" di duqc nghien ciru trong nhieu thap ky. Thuat town thy quyet
djnh la met trong nhieu k9 thuat gin day, co nien dai tir gifta nhUng nam 1980.
Khan thic d0 lieu tap trong yao phat hien to (king ho#c ban qr ()Ong matt. Met di
thuat town hoc may(machine learning) duqc lip dtmg cho khai thic dti lieu:
a. Mang noron (Neural networks)
Day la mot trong nhftng icy thuat khai pha du lieu dirge ling dung ph6 bien Men
' met nen tang town hqc vtIng yang, kha nang htan
''
nay. K9 thuat nay phat trien dva ten
luyen trong ky thuat nay (lira tren mil hinh than kinh trong trong cita con ngu&i.
Kat qua ma mpg naron hqc duqc c6 kha nang tao ra cac mo hinh dv bio, dv
doin yeti de chinh xitc yi dO tin cay cao. NO co kha nang phat hien ra duqc cac xu
bluing phirc tap ma k9 thuat thong thubng Ichic kh6 c6 the phat hien ra duqc. Tuy

nhien phuong phip tnang no ron rat phirc tap yi qua trinh tien Minh no g#p rat nhieu
kh6 khan: doi hoi mat nhieu thai gian, nhieu 80 lieu, nhieu Ian lciem tra thir nghiem.
b. Giii thuat di truyen
Li qui trinh m8 phong theo tier hoi cua tSr nhien. Y Wang chinh cua giai thuat 11
dva vim quy luat di truyen trong bien dOi, chip Ice tv nhien yi tiers boa trong sinh hoc.
Viec xay dvng cac thuat town di truyen me phong sinh hoc nhim tim ra cac giii
phip tot What bao gem cac btreic sau:
- Tao ra ca the ma di truyen dual long cac xau cita met bang ma lct tv han che.
- Thiet lap mei tnrang nhan tao trorTh may tinh co cac giii phip co the tham
gia"dau tranh sinh tO'n"veri nhau de zit djnh dO do thanh cong hay that
thich nghi".
hay con goi
Trang 2190

A11278 — Doan Thanh Gong
A11500 — Nguygn Thic Holing


TONG QUAN VE KHAI PHA DIY LISU

- Phat trien cac"phep lai ghep" de the gild phip ket hqp vei nhau. Khi do cac
rcau mi di truyen cua giii phip cha va mg bi cat di vi xep lai, trong qua trinh
sinh sin nhu vay cac kieu dOt bien co the duqc ap dung.
may
- Cung cap mot (lull the cac giii phip ban diu tucmg d6i da long vi

a

tinh thqc hien"cu(ic chai tien hem" bing each loci be cac gal phip tir min ca
the va thay the chung bing cac con chin hoac cac dOt hien cua cac giai phip

bk. Thu* wan se ket thitc khi mot h9 cac giiti phip thinh citing duqc sinh ra.
Khai phi de lieu (KPDL) la viec frith chcm d.3c trtmg MI lieu mot each ty doting
tir mot Si dii lieu 16n. Tri thin do thtrimg o cac ding maw c6 tinh chat khong tam
thuong, An (khong twang minh) nhung 13i co the mang 13i ich lqi lam neu no duce sir
clung dung chi). Co the coi KPDL 11 cot lai cfut qua trinh phat hien tri thac trong co so
dii lieu (Knowledge Discovery in Databases — KDD)
1.2.2. Luling di lifu
Khai thic der lieu la mot trong nhUng thanh vien quan trong trong data warehouse
family. Trutmg hqp khai thic dft lieu nio la phu hqp veri dien kien ctla cac luOng der
lieu trong mot kith bin kinh doanh dien hinh?
Hinh sau minh h9a mot luting dir lieu doanh nghiep dien hinh ma khai that der
lieu co the duqc ap dung trong cac giai down Ichic nhau.

Application

-4

Si
ill

O

Data Mining

P-

♦4


Online

transaction
Processing
(OLTP)

••■

Onlbe
Analytical
Processing

Hinh 1: M6 hinh khai phti du lieu doanh nghiep

Trang 3190

A11278 — Doan Thanh Cling
A11500 — Nguyln Dire Hoing


TONG QUAN VE KHAI PHA Dir

Met ung dung kinh doanh luu till the dt1 lieu giao Bich trong met ca so &I lieu
bb 15, giao djch true tuyan (online transaction processing- OLTP). Cie clit lieu OLTP
duqc chiet xuat, chuyin doi va nap vio data warehouse met each thuong xuyen. Luqc
itO Gila data warehouse thuimg khic nhau tir met luqc 46 OLTP. Met lucre d6 data
warehouse dk tnrng cob hinh ding du met ngoi sao hay met bong tuyet.V6i bang giao
djch o chinh gifta luqc 46 va dtrqc bao quash bei met be dimension tables(cic bang
kich thubc).
Tnnk lien, vi ph6 hien nhit, khai that dO lieu co the duqc by dung cho cac kho
dO lieu nth ma dft lieu di duct lim mtch. Cac miu duqc phat hien bed cic mo hinh
khai thic c6 the duqc trinh bay cho cite nhit quan lt tiep chi thong qua the bio cao.

Khai thic dft lieu co the c6 met lien ket true tiep den cic ling dung kinh doanh,
ph6 bien nhit la thong qua cac du doin. Nh(mg khai thic dft lieu vio ling dung kinh
doanh dang ngay met phO bien han.
Vi du: Trong met kich bin bin hang qua Web, met khi met khach hang dit met
sin vio trong gio hang, met du bao troy van khai thic der lieu duqc thuc hien de c6
duqc mot danh sich cic sin phAm duqc de nghj dua tren phin tich.
Khai thic du lieu cling co the duqc cip dung de pit tich kh6i OLAP, la met cc
so du lieu da chieu ved nhieu kich thubc vi don vi do. Kich thy& c6 the len den hang
trieu bin ghi do d6 se kho khAn cho vier tim ra mo hinh quan tan. Ky thubt khai thic
dO lieu c6 the duqc ap dung de kham phi ra cac mo hinh an trong met khoi OLAP.
Vi du: Met thulit than lien ket co the duqc bp dung cho mot Ich6i ban hang, phin
tich mau mua ctia khich hing cho met vimg cµ the va then gian. Chling to c6 the ip
dung ky thubtIchai thic dO lieu de du bao cac bien phip nhu ban hing vi lqi nhubn.

Trong 4190

A11278 — Doan Thanh tong
A11500 — Nguyin Due Hoing


TONG QUAN VE KHAI PHA D() LISU

1.2.3. Yong did min m#t dv tin Heal phd dit

Eavaluboo of

Data Hag
Transfortution

I


Clean-mg Praprocetsr4

Selection Preto-ton

qp-

Gathering

40!

IIlai
Ktnit ir

i' rin,
— . Dot

Dlia
Alli I erarafra"

4r Target
Data

Cleansed
Preprocessed

14Warted

Data


Hinh 2: Yong doff aia men dv an khai phti du lieu.

a. Gom du lieu (gathering) va Trich lqc du lieu (selection)
Gom du lieu: Tap hqp du lieu la boat dau tien trong khai phi du lieu. Busk nay
lay du lieu tir trong mOt co so de lieu, mOt kho dft lieu, them chi di' lieu tir nhimg
nguon cung Ong web.
Trich lqc du lieu: O giai down nay du lieu duqc lira chon va phfin chic theo mOt
se lieu chuan nao d6.
c. Lam sach va tiers xir 15r der lieu (cleansing prepocessing)

a

ga be hoac lam giam nhieu vi each
Lam sach de' lieu: Day la qua trinh xir ly
xir 15, cac gia tri khuyet. Burk lam giarn su mop mer khi hqc.
Phan tich stir thich hqp: Nhieu thuOc tinh trong du lieu co the khOng thich hqp
hay khong can thiet de phan loai. Vi vay phop phan tich sar thich hqp duqc the hien
teen der lieu veri muc dich ger be bat lck nhung thuOc tinh khong thich hqp hay khong
can thiet. Trong hqc may bait nay duqc gqi la trich hoc dac tnrng. Phip phan tich nay
giup phan loci hieu qua va nfing cao kha rang ma rung.
Trong 5190

A11278 — Doan Thinh COng
A11500 — Nguyen Dirc Hoang


TONG QUAN VE KHAI PHA Dti

Giai doan nay la giai don hay bj sao ling, nhtmg thuc 4 no la med buck rat quan
trqng trong qua trinh khai phi de lieu. M6t s6 16i thubng mac phai trong khi gom de

lieu la de lieu khong day du hok khong thong nhat, thieu chit chi. Vi 4y du lieu
thubng chfra cic gia trj vo nghia va kh8ng co kha ning kit not du lieu, vi di; Sinh vien
co tuai=200. Giai doan nay nh&m xir ly cac de lieu nhu tren (de lieu vo nghia, de lieu
khong co kha fling kit nai). Nheng de lieu ding nay thubng duce xem la thOng tin du
thin, khong c6 gia tq. Bed viy day li mOt qua trinh rat quan tong. Neu de lieu khong
duqc lam such - tiers xi: ly - chuan bj threw thi se gay nen nheng kit qui sai tech
nghiem tang ve sau.
d. Chuyen d6i de lieu (tranformation)
Trong giai doan nay, de lieu co the duqc to chile va sir dung lai. Muc dich ctia
viec chuy'en dal de lieu li lam cho de lieu phit hqp han veri muc dich khai phi de lieu.
De lieu co the duqc tong quit him teri cac mirc khai niem cao han. Dieu nay rat
him ich cho cac thuk tinh co gia tr1 lien tuc. Vi du, cac gia trj so cua thuk tinh thu
nhip duce tang quit hoa sang cac pham vi rai rac nhu thap, twig binh va cao. Tuang
Ur, cac thutjc tinh gii trj nhu dtrimg ph6 dirge tong quit hoa ten khai niem cao han nhu
thinh ph6. Nher do cac thao tic vio/ra trong qtth tint' xir li se it di.
De lieu co the duqc tieu chuan h6a, &lc biet khi the mpg na-ron hay cac
phuong phap dung phep do khoing each trong cac buck xir H. Tieu chuan hoa bien dot
theo ty le tat ca cac gia trj cita mOt thuk tinh cho truck de chfmg rai vao pham vi chi
djnh nhu [-1,0;1,0] hay [0;1,0]. Tuy nhien dieu nay can cher cac thutjc tinh co pham vi
ban &anion (nhu thu nhip) co nhieu inh huerng dal veri cac thuk tinh c6 pham vi the)
han ban dau (nhu cac thuk tinh nhj phin).
e. Phut hien va trich mau de lieu (pattern extraction and discovery)
trong giai doan nay nhieu thuit toan
Day la butc to duy trong khai phi de
khac nhau di duqc sir dung de trich ra cac man tir dft lieu. Thuit town thubng dimg de
trich man de lieu li thuit town phan loci dir lieu, kit hqp MI lieu, thuit town ma hinh
hoa de lieu min ur.
Li mOt trong cac buerc quan IA:mg nhat vi tan thin gian What cita qua trinh KDD,
trong d6 sir dung nheng phuang phip thong minh de chat Ice ra nhimg nth dt1 lieu.
Chu yeu la cac k9 thujt ciut machine learning (hoc may) de khai phi, trich chon nheng

mau (patterns), cac rang bu6c lien he (realionships) biet trong dit lieu

Trang 6190

A11278 — Doan Thanh Cong
A11500 — NguyIn Dim Hoing


TONG QUAN VE KIIAI PHA Din Lieu

C6 the cac mo hinh khong china cac mau c6 the sir dung. Co the la dft lieu hoin
than ngiu nhien hoc dft lieu c6 qua nhieu thong tin gay nhieu. Dieu nay you cau can
phai lap lai cac buoy lim sach vi chuyin doi dft lieu de chit lqc ra cac dft lieu c6
nghia ham. Day la met qua trinh lap lai vi tot dill len de dtra ra cac th6ng tin phi' hqp,
coy nghia yeti ngtrai quan trf
f. Dinh gia ket qua ink vi bleu dien tri thirc (evaluation of result and Knowledge
presentation)
Day la giai doan curfoi sung trong qui trinh khai pha &I lieu, a giai doan nay cac
matt dft lieu duqc chiet xuat ra bai phan mem khai phi du lieu. KhOng phai man der
lieu nao cling hftu ich, d8i khi no can bi sai tech. Vi vay can phai dua ra nhiing lieu
chuir' danh gia do uu tien cho cac mttu der lieu de rut ra duqc nhemg tri link can thiet.
Bieu dien tri thfrc: sir dung cac kgr thuit de bien dien vi the hien tivc quan cho
nguiri dung. Cac citch bieu dien nen a clang gait gui vi de hieu vai ngtriri dung nhtr
clang dri thj, cay,... de dua ra cac bio cao gulp ngtreri quan tri co the dua ra cac quyet
djnh mang tinh chat quan tong.
1.2.4. Chain khai phsi din life
SAS: la nhit cling cap san pham khai phi de lieu tau uhit .4 mat thi. phan. Dung
dau trong linh vuc thOng ke trong nhieu thop kY. Co sa SAS chira met be rat phong
pith cac chile ning thOng ke c6 the duqc sir dung cho tit ca cac loai phan tich din
Ho trq khai thic van ban, moi tnrimg di) hqa di xay dung cac mg hinh, co cac thuat

toan khai thic dit lieu phi') bier nhu: cay quyit djnh, mang naron, hOi quy...
SPSS: gOm cac san pham khai thic &I lieu nhu"SPSS base"vrAnswer Tree.
Ke thira gOi khai thic dft lieu Clementine — mot trong nhiing cong ty Mu lien gith
thieu cac khii them luOng khai thic dft lieu, cho phip ngtrai ding lam sach dft
chuy'en dOi der lieu vi thvc hien cac mo hinh thin nghiem
IBM: sin pham khai thic dft lieu la Intelligent Miner a Disc. N6 chira mitt tap
hop cac thuat than va cac cling cu tnrc quan. Dun ra nhiing me hinh khai thic du lieu
trong Predictive Modeling Markup Language (PMML). PMML la cac file XML chira
me to cim cac matt me hinh vi so lieu thong ke cua cac dirt lieu mau vai !nue Bich du
bao
Microsoft la nha cung cap dft lieu chuyen nghiep dau lien bao gilm cac tinh ring
khai thic trong met ca se der lieu quan he. SQL Server 2000 c6 hai thuat toan khai
thic dft lieu la: Microsoft Decision Tree vi Microsoft Clustering. Vai cac phien bin
Trang 71 90

A11278 — Doan Thinh Cong
A11500 — Nguyen Dim Hoang


TONG QUAN VE KHAI PHA DIT LI$U

tiep theo cua SQL Server la 2005, 2008, 2012 cic tinh rang khai phi co kr chi lieu
ngly cang duqc rang cep va sin phew ctia Microsoft ngly cang chiem linh thj truang
Oracle: Oracle 9i twit xtremg vao nim 2000, oft met cap thu#t town khai thic du
lieu dtra tren association (141 kit hqp) va Naive Hayes. Oracle lOg bao gam nhieu
cong cv va thu#t toin khai thic de lieu hon. Oracle cling kit hqp veri Java Data Mining
API la gai phin mem cho khai phi der lieu
Angoss: chit yeu xay (tong ck th41 toin decision trees, cluster analysis vi cic
me hinh du doin cho phep nguiri dung hieu de lieu ctia ho tir nhieu quan diem khic
nhau. Cic th4t win duqc ha trq ben cong co troc quan manh me et4 giii thich flitting

tri thirc khai phi duqc, n6 ding liun viec tot vai cic lien ich cita he quan trt Microsoft
SQL Server
KXEN: cung cep mot s6 thuol town khai phi de lieu nhtr: SVM, regression, time
series, segmentation...Va cic giai phip khai phi de lieu cho khei OLAP. Ngoai ra,
cung cep tien ich Excel add — in de khai phi di lieu trong moi truerng Excel.
13. Cic hiring dip clin den yin

1.3.1. Kiln Ink Su min

a khai phi do lieu

he thing khai phd Aar Mist

Co se du lieu: gam kho de lieu hoc ck cich luu tra thong tin khic (Database,
data warehouse, worldwideweb, information repositories). Day la mot hay mot tip cic
CSDL, cic kho der lieu, cic trang tinh hay ck dung luu tre thong tin khic.Trong
nheng tinh hung co the, thanh phan nay la nguan nh#p (input) dm ck kt thuftt tich
hqp va lam such de
May chit CSDL hay may chti kho dit lieu (Database or Data warehouse server):
may chit nay c6 trich nhiem ley nhemg de lieu thich hqp dtra tren cic you aulchai phi
cua ngtroi dung.

Trang 8190

A11278 — Doan Thanh C8ng
A11500 — Nguyen Dire Hoang


TONG QUAN VE KHAI PHA DIY LltU


Giao difm ad hos wen Wog

Ulm !nog miu

May khai phi da, liiu

May chi' CSOL hay kho dat lido

Lim each yi doh hqp SY lido

Co so de, lido

Kho canidu

Co. so tri thtk (Knowledge base): duqc dung de lureng dan qui trinh tim kiem,
danh gia the mau ket qui duqc tim they. Ca sa tri thirc c6 the 11 the phan cap khai
niem, niem tin ciia ngutri sir dung, cac ring but* hay the ngtrecng gii tri, sieu &I lieu...
May khai pith du lieu (Data mining engine): Thinh phan nay chira cic khai chirc
ming thuc hien tac vu khai phi da lieu nhu: die trung h6a, ket hqp, phan lop, phfin

cum, phan tich su tien
Module danh gib malt (Pattern evaluation): Thinh phin nay c6 the duqc tich hqp
vio thinh phan Data mining engine. NO co the dung cac nguOng ve do quan tam de 19c
mau da kham phi duqc. Cling co the module danh gia mau duqc tich hqp vio module

khai phi, toy theo su cii dit ctia phucmg phip khai phi duqc dung.
Giao di en do hpa nguai dung (Graphical user interface):
Wang tic gift nguai sir dung vi he thing khai phi du lieu.

Thinh phin ha trq su


- Nguiti sir dung co the chi djnh cau troy vin hay tic vu khai phi du lieu.
- Ngubi sir dung co the duqc cung cap thong tin ha my vies tim kiem, thuc hien
khai phi du lieu saw hcm thong qua cic ket qui khai phi trung gian.
- Ngtroi sir dung sung co the xem cic Itrqc dO co s6 dit lieu/kho der lieu, cac eau
trite chl lieu; dinh gia cic mau khai phi duqc; true quan hea cac mau nay a
cic clang khic nhau.
Trang 91 90

A11278 — Doan Thanh Gong
A11500 — Nguyen Disc Hoing


TONG QUAN VE KHAI PHA

Dir tau

1.3.2. Clic chic sang chills ciao Mai pho dile lieu

Cac chfrc nang nay duqc the hien qua
a. Dac trtmg hem va phan biet:
Dac flung h6a 11 viec tong ket town b0 the dk diem hay cac tinh chat chung cua
mot lop du lieu dich. DO lieu d6 twang Ung veri mot kip do ngtthi dung dac ta bang
mot cdu truy van CSDL. DO lieu tra ve ctia qua trinh ddc hung hem co the &the bieu
dien bang nhOng khuon ding khic nhau.
b. Phan tich sv ket hqp:
La kham pha ra cac luat ket hqp trong mot tap lern dO lieu. Cac IWO ket hqp the
hien m6i quan he glad cac gia tri thuOc fink ma ta nhan thdy duqc to tan suat xuat hien
ding veri nhau.
Cac ludt ket hqp duqt kham phi to mot tap lern cac ban ghi giao dich trong kinh

doanh vi nhOng luat coy nghia co the gitip cho cac nha doanh nghiep ra quyet dinh.
c. Phan lop va dtr down:
Phan lop la qua trinh tim mot tap cac m8 hinh (hoac cac clue= nang) m8 ta va
phan biet cac lop du lieu. Ck mo hinh nay se duck sir di ving cho ink dich dv doin ve
lop cua mot s6 d6i twang.
Vi'ec xay dvng m8 hinh dva tren sv phan tich cita mitt tap cac dir lieu huan luyen,
mitt m8 hinh nhu vay co the duck bleu dien trong nhieu Bang: ludt phan 16p, cay quyet
dinh hay mpg naron...
De phan lop vi dv doin co the thvc hien tunic mot sv phan tich thich hqp. Sr
phan tich d6 nhitm xac dinh nhOng thutjc firth kheng tham gia vi qua trinh phan lop vi
dv down, cluing se bi loai tth sau buerc nay.
d. Phan cvni:
!Chong gating nhu phan lop vi dv down, phan cvm se phan tich cac dai twang clit
lieu khi chua biet nhan cfia lop.
Cac d6i twang
Sr phan cvm co attic dich nh6m cac dEti tuqng lai then nguyen
trong ding mot nhom giot ng nhau a mt.= cao nhit vi cac d6i thong khac nhom giting
nhau it nhat.
e. Phan tich phan ter ngoai cuOc:

Trang 10190

A11278 — Doan Thinh Cong
A11500 — Nguyen Mc Hoang


TONG QUAN VE ICHAI PHA Dli LL$U

Min so


CSDL c6 the china cac din wag du lieu khong tuan theo me hinh der
lieu, nhiing del tuqng nhu viy gel la phin tin ngoai cuOc.
Hiu het cac phuong phap khai pha der lieu deu coi phin tin ngoai cuec la nhieu va
loii be chung.Tuy nhien trong met se ling dung nao d6 nhu phat hien nhieu ching han,
cac str viec hiem khi xay ra lai duqc quan tam hon nhting gi thuirng xuyen phai.
Sr phan tich du lieu ngoai cuOc xem nhu la sr khai pha cac phin tin ngoai cuoc.
C6 met so phucrng phap de phat hien phAn tir ngoai cuOc: dung cac test mang tinh
thong k8 tren co so met gia thiet ve phan phoi du lieu hay met me hinh xac suit cho
dit lieu, dung cac phucmg phap dva ten dt) tech di kitm tra sv klik nhau tong nhcmg
di c trung chinh cita cac del tuqng tong met nh6m.
1.3.3. Cdc dong dfr lit'u cti thi khai plod

Nhu chimg ta di biet, tri thirc cua nhan loci la tong hoa cua cac mot quan he, lien
quan met thiet, logic yeti nhau va duqc hat tnlr duoi clang du lieu thy du lieu kia.Trong
thvc to c6 rat nhieu me hinh co so de lieu, my nhien trong cac linh vvc Ung dung cy
the khac nhau, chung ta c6 the dinh nghia va phan biet ra rat nhieu ding du lieu sao
cho thuin lqi nhAt tong qui trinh sir dung. Khai pha du lieu c6 kha ning chip nhin
met se kik' du lieu sau:
Ca so. du lieu quan

mo hinh clft lieu quan

he (relationnal databases): la cac dit lieu duqc to chat theo

he fit phe hien trong nhieu nginh. Do d6 hiu het cac he quan tri

cc se dir lieu dEu he trq dung co sa du lieu quan he nhu Oracle, MS SQL Server, IBM
DB2, MS Access...
Ca see da lieu da chieu (multidimensional structures, data warehouses): day cling
la clang dft lieu tac nghiep c6 cac ban ghi that:mg la cac giao tic. Dang du lieu nay

cling phe hien hi'c1/41 nay.
Ca set dit lieu quan he - Wong dei tuqng (object relational databases): la clang du
lieu lai giera hai me hinh quan he va hut:mg del tuqng.
Du lieu khong gian, thoi gian va chuti thoi gian (spatial, temporal and time
series data): la clang de lieu ca tich hop thuoc tinh ve khong gian dit lieu nhu dit lieu
ban at mang cap dien thoai hoic thiri gian nhu dft lieu ark dien thoai, phat hanh bao
chi, chi se chimg khoan...

Trang 11190

A11278 — Doan Thanh Cong
A11500 — Nguyen Dirc Holing


TONG QUAN VE KHAI

PHA Dir tau

Ca so' du lieu da phieang tien (Multimedia databases): la dang de lieu am thanh,
hinh inh, text & WWW... Dang de lieu nay nit phong phit, da dang va duqc phi') bien
rOng rdi, nhAt la tr'en intemet.
1.3.4. Nhung vin di kho khan trong khai phi dir Iteu
a. VAn de ve Ca SO De Lieu
DAu vao dm met he thong khai phi de lieu thuang la tap cac de lieu the, so nhieu
Inc kh6ng dAy dit va 131 nhieu. Ngoai ra trong thvc to de lieu lai luon bien dong khong
ngUng va duqc b6 xung lien fix tao thanh mot Itnyng de lieu Ichiing to chira ding ca
nheng th8ng tin c6 ich va khong c6 ich. Chinh vi voy trong bAt kY met he thong khai
pha da lieu nio viec dAu fien can lim la phin tich va xem xet co se de lieu ma he
thong khai phi.
b. Co sa de lieu lot

Viec sir dung cong cu phan tich true tuyen khong khai thic het duqc nhemg thong
tin dm CSDL hien the& chinh vi v'ay nheng floral xir ly de lieu khong con each nao
khk la Itm de lieu lai de phuc vu cho muc dich sir dung sau nay. Der lieu dtrqc hru
chira dung ca thong tin co ich va vo ich. Viec tich ley nay ngay tang len va cho den
nay cac CSDL tai hang trieu ban ghi c6 kith think len den Tetabytes. Tity timg img
dung cu the, viec lam nhu nio de loai 136 de lieu china, nheng thong tin ve nghia lai c6
nheng each khic nhau. Vi vOy phucmg phip xir lY de lieu het sire da clang va phirc tap,
khong co met quy tic chung cho moi irng dung.
c. SO chieu dit lieu Ian
Tip de lieu thvc chat la mot tap cac so do tar mei tnrang hok qua trinh. Twang
hqp don gian that, chimg to co tap hqp cac dOi ttnyng, moi del tucmg co mot tap p se.
do. SO do chinh la thuec firth dm dive the (dti tam, ban ghi...). Cimg vet you au
cim thOng tin la da clang va dAy do ma de, lieu can luu duqc thi se Itrottg thuOc tinh
cfmg can phai nhieu len. MOi thuOc tinh co the &Km cm la mot chieu trong khong gian
CSDL. Chinh vi the se chieu cita bai town trong he khai phi de lieu ming rat len. MOi
tap du lieu c6 so chieu Ian se lam tang khong gian tam kitm cea mo hinh. Bien phap
khic phut vim de nay la phai giam s6 chieu cea de lieu can khai pha va sir dung cac tri
thirc ca sin de" loai be, nheng bien Wong pho hqp.
d. Du lieu thay dei lien Ate

Trang 121 90

A11278 — Doan Thanh Ding
A11500 — Nguyen Dire Holing


TONG QUAN VlE KHAI PHA

Div LIEU


Hau ha cac CSDL c6 n6i dung thay d6i lien tic theo thai gian va gay ra he qua
la viec khai phi du lieu bj anh hiking tai theri diem quan sat du lieu. Viec thay dbi dit
lieu nhanh cheing co the lim mat gii trj cue cac min truck do, lion nfra cac bien trong
CSDL city img dung dA cho cling bj thay da, bj x6a hok bj tang len theo thbi gian.
e. Cac thu6c tinh der lieu khong phu hqp
MOt dk diem quan trong cue CSDL la tinh khong phu hqp cue dr lieu. Nghia la
rinic du lieu tit thinh khong thich hqp veri y nghia hien tai cita viec khai pha. Mq't khia
canh lchic aim tinh khong phu hqp cua thu6c tinh do la gia trj cue thuOc tinh do khong
phin anh duqc y nghia hien tai ma chi thich hqp trong lich sir cue no.
f. Dit lieu khong day di*
Viec thiEu hut khong day du 6 day bao ham ca su khong day du ve gia trj va
thuOc tinh coa dll lieu. Su co mat hay khong c6 tn4 elm gia trj cac thu6c tinh phu hqp
inh haring rat 16n den viec khai phi der lieu. Viec quan sat khong day diz mat CSDL
den den dua ra cac Met luon sai lam, tri thirc khai phi duce co the sai tech veri thuc
g. Ck van de khic
Der lieu bi nhieu: ngoli viec du lieu bj 161, khong day dd thi ban than du lieu cling
tier!) An kha nAng bj nhieu.
Van de Overfilling: Vii cac he thong khai pha der lieu theo mo hinh hqc giam sit,
tiro la hoc theo tri thirc dA biEt auk, khi do viec khai phi du lieu co the se xay ra tinh
trong qua phi' hqp veri Met qua dA Met. Nghia la ket qua cita mo hinh phu hqp vai tap
dit lieu hart luyen nhung lei khong this stir dua ra cac tri thirc tot theo nghia img vai
tap der lieu kiem tra. BE khic phuc tinh twig nay thtrang phai thuc Men them viec
kiEm tra cheo (cross validation) dE dinh gia m6 hinh, ho*c sir dung Men phip thong ke
ca diEn.
Kha fling twang tic veri nguari sir dung: nit nhiEu ding cu khai phi dit lieu kung
thvc sr c6 kha nAng twang tic veri ngtreri sir ding va khong a ding icat hqp v6ri cac tri
thirc dA biet trtrerc d6. Co nhieu Men phitp Mile phuc van de nay nhu sir dung CSDL
suy dien phat hien tri thirc,nhting tri thirc nay sau do sir dung de huang den cho viec
tim lciem, khai phi dll lieu hok sir dung sr phan b6 xic suet du lieu nhu mat dang ma
hem tri thirc co sin.

'Chi sing tich hqp vai he thong khic: Mdt ling dung de dat duqc hieu qua cao va
link ho.t can co kha ning tich hqp veri cac he thong khac. Nhtmg tre'n dive to viec nay

Trang 13190

A11278 — Doan Thanh Ding
A11500 — Nguyen Dire Hoing


TONG QUAN VE !GUI PHA DI! LIEU

kha kho khin trong cac he khai phi de lieu. Dieu fly xuat phat tir chinh trong cac 1c9
thuit khai phi de lieu li phai xiy clung *It mo hinh pha hqp de tim ra cac min du

tnmg.
1.4. Xu hiring nghien cfru vi vier irng dung cis khai phi d* lieu hien nay
1.4.1. Man nghiin criu
vvc mai vi mic de can rat nhieu van de chug duqc
Khai phi de lieu li mot
nghien ciru melt cic chgon vgn, nhung tiem ning vi khi ning ang dung caa no rat cao
vi di duqc chimg minh qua nhieu Ling dung thvc te. Hien fly co mot so huemg nghien
ciru ma khai phi de lieu quan tam den:
OLAM (Online Analytical Mining): li sr tich hqp gala CSDL, kho dir lieu vi
khai phi de lieu. MOt s8 he ca sec a lieu hien nay nhu Oracle, MS SQL Server da tich
hqp xiy citing kho de lieu vi phan tich tnrc tuyin (OLAP). Nhcmg tinh nang nay duqc
he trq dtrai dang cac Ong cu di kem vi nguai sir ding phii mua de sir dung.
Cac nhi nghien eau trong rah vvc CSDL can mutin co them sv tich him giea
CSDL, kho de lieu vi khai phi dir lieu. Khim phi duqc nhieu tri thirc khic nhau tit
cac kieu de lieu Ichic nhau. Tinh chinh xac vi hieu qua, kha ning ma ring vi tich hqp,
xir ly de lieu bt nhieu, khong day da vi tinh c6 ich cira tri thirc duqc khim phi. Van de

non ngO troy van trong khai phi dit lieu phii cung cap cho ngtrai sir dung mot neon
nge thuin lien, gait gfri nhu SQL trong CSDL quan he.
Khai phi de lieu di duqc ling dung rat thinh tong trong CSDL thi trubng. Day li
mot phtrong phi phan tich CSDL khich hang, tim kiem cac man trong sot cac khich
hang vi sir dung cic ink nay de Iva chop cac khich hang nem ning trong tucmg lai.
Tap chi Business Week caa my da dinh gii co ham 50% cic nhi bin le dang vi c6
(lath sir dung CSDL thI taking cho host dOng kinh doanh tea ho. Cic ling dung khac
tea khai phi de lieu trong kinh doanh nhu phin tich tht tnkmg chimg khoin, phin tich
van kien tai chinh, phan tich vi bio cao cac thay doi de lieu bin hang sieu chi...
1.4.2. Ong dyng csia khai pith der Wu trong Myr ti
Khai phi do lieu lien quan den nhieu nginh nghe, nhieu Iinh Arc nhu: thong ke,
tri tue nhan tao, he chuyen gia, CSDL, thuit town, tinh song song... Meat he thong khai
phi du lieu dien hinh bao gom cic phuong thee, thuit town, k9 thuit tir nhieu filth vvc
khic nhau. Diem chung giea cic he thong nay la tau trich rat tir cac kho de lieu co
kith thuerc rat lem.

Trang 14190

A11278 — Doan Thanh Cimg
A11500 — Nguyen Dirc Hoing


TONG QUAN VE ICHAI PHA

Do- tau

Khai pha dit lieu duqc sir dung trong rat nhieu cac linh vtic khoa hue, kinh
doanh...:
Bao hiem, tai chinh va chimg khoan: a day khai pha dit lieu co nhiem vµ phan
tich tinh hinh tai chinh, dg bao gia, chi se cac loai co phieu, phan tich du lieu the tin

clung phat hien gian lan tai chinh
Thong ke, phan tich dit lieu ha trq ra guy& dinh: dtra vao s6 lieu c6 sin, phan
tich dit lieu de dua ra nhi-mg quyet dinh dung luc, co lqi nhat
Dieu trj y hoc, chain sec y te: mot so thong tin ve chuin down benh km trong he
thOng quan l$, benh vien, tit do phan tich mOi lien he gifta cac chirng benh, chuin down
benh de dua ra phuong phap dieu trj.
Test Mining va Web Mining: phan 16p van ban va cac trang web, tom tit nOi
dung van ban, tir do co the Whom cac van ban, trang web theo clang chi de, lqc be cac
trang dOc hai.
Quin trj mpg, phat hien truy cap bit thuerng: Phan tich der lieu troy cap de phat
hien cac truy cap bit thirimg hay cac truy cap veci muc Bich xAu.

Linh vvc khoa hoc: quan sat thien van, de lieu gene, dit lieu sinh vat, tim kiem so
sanh cac he gene va thong tin di truyen...
1.4.3. ling dyng cite khai phd dir1ifu trong Wee gitii quyit Sc nhom bei Win kink
doanh
Phan tich khach hang: Nhitng khach hang nao co nhieu kha nang chuyen sang

den thu cash tranh? Vien th8ng, ngan hang, bao hiem la nheng nganh cong nghiep
Clang phai dOi mat nghiem gong v6i yin de can!' tranh hien nay. Trung binh moi thue
bao dien thoai moi tieu tan khoang 200$ diu to tiep thj. Chuan analysis c6 the the gulp
cac nha quitn ljr tiep thj hi'eu duqc 15, do thay doi caa khach hang, cal thien quan he
khach hang, va can ding tang khach hang trung thanh.
Ban hang cheo: Nhimg san phan nao la khach hang co the mua? Cross-selling la

mOt thach thirc kinh doanh quan tong cho cac nha ban le. Nhieu nha ban le dk biet la
cac nha ban le trrc tuyen, sir dung tinh fling nay de tang doanh se ban hang cila hce.Vi
dv, neu ban ghe tham cira hang sach truc tuyen Sur Arnazon.com hay Barnes and
Noble.com de mua mOt cam sach, ban c6 the nhan thiy ring cac trang web nay cung
cap cho ban mOt tap hqp cac kien nghj ve sach lien quan. Nhitng khuy'en cao nay co

the dirge bit nguen tit viec phan tich va khai thac di: lieu.
,

Trang 15190

A11278 — Doan Thanh Cong
A11500 — Nguyen Dirc Hoang


TONG QUAN Nit KHAI PHA Hos tau

Day c6 phai la mit you au b6i thuing gian Lan bao hiem?
Phcit hien gian
COng ty bao hiem xir 15, hang ngan tuyen ha mit ngay. Khong de ding cho ho de dieu
tra tirng tnrOng hqp. Khai thic du lieu co the glop xac djnh nhimg you cau ma nhieu
kha nang la sai.
Quan ly nii do: Khoan vay do nen duqc chip than cho khach hang nay khong?
Day la cau hoi ph6 biEn nhat trong kjch ban ngan hang. K9 that khai thic de lieu co
the duqc sir dung de diem mirc di rdi ro ctia khach hang, giap quan 15, din ra quyet

djnh thich hqp cho mai img dung.
Phan logi kluich hang: 1Chach hang ciut tii la ai? Phan Ioai khach hang glop ac
nha quan 15, dap thj hieu duqc cat cau hinh khac nhau cim khkh hang va c6 nhimg

Milli ding tiep thj phi' hop dtra ten cat phan loci.
Myc tieu quang cao: Banner quang cao se hien thj dieu gi cho tirng khach hang
truy cap cp the? Web ban le va cac trang web cling thong tin nhu de ca nhan hoa nii
dung dm ho cho khach hang. Su dung dieu htrOng elm khach hang hoc cac m6 hinh
mua hang trot tuyen, cac trang web nay c6 the sir dung cac giai phap khai that di: lieu


de hien thj mix tieu quang cao cho rnmc dich cim khach hang.
Dg bcio ban hang: Co bao nhieu loci ruqu tii se ban trong cira hang tan nay ?

K9 that khai that da lieu du bao c6 the duqc sir dung de tra lai nhimg cau &Si lien
quan den thOri gian

Trang 16190

A11278 — Doan Thanh COng
A11500 — Nguyen Bac Hang


CAC KY THUAT KHAI PHA Hy LIEU

CHUtING 2. CAC Kt THUAT !MAI PHA DO' la
Cac 1C9 thuat khai pha de lieu thoc chit khong ca gi med. N6 la so ke thin, kit
hqp va ma rong cua the kg thuat ca ban di &nye nghien ciru tir truerc nhu hqc may,
nhan clang, thong ke (hei quy, phan loci, phan nhom), cac me hinh de tht, mang bayes,
tri tu'e Stan tao, thu thap tri thirc he chuyen gia.... Tuy nhi'en, lied so ket hqp tai tinh
cua khai pha du lieu, Icy thuat nay c6 tru the han hin cac phuang phap truerc do, dem
lai nhieu teen vong trong viec phat trien nghien thu khoa hqc ding nler ap ding thoc
tien va no co the dirge Chia lam 2 nhom chinh sau:
Ky thuat khai pha de lieu mo ta: co nhiem vu mo to ve cac tinh chit hoac cac dac
tinh chung caa der lieu trong CSDL hien co. Nham kg thult nay gem cac phuang phap:
phan nhom, king hqp, phat hien so teen dei va de tech, phan tich luat ket hqp...
Ky thuat khai pha du lieu do down: co nhiem vu dun n cac do down doa vao suy
dien teen der lieu hien that Nhom kg thuat nay gem cac phuang phap: phap lop, hei
quy...
2.1. Peen lop de lieu
2.1.1. Ma hinh phon cay quyit dJnh

a. Gieri thieu
Trong limb vtre hoc may, cay quyet dinh la met kieu ano hinh do bao (predictive
model), nghia la met anh xa tir cac quan sat ve met so vat/hien Wog toi the ket luan
ye gia try' !nue tieu dm so vat/hien tuqng. Mei net trong (internal node) tuong ung veri
met hien; duerng not gicra no veri net con dm no the hien gia tri co the cho biin do.
MOi net la dai then cho gia tri do down elm hien muc lieu, cho trtrerc cac gia trt do doin
cua cac bien duct bieu dien beri dtremg di tir nut gee tai nut la de. Ky thuiit hoc may
dung trong cay guy& deth dirge goi la hoc bing cay quyet dinh, hay chi gqi veri tai ten
ngin gon la cay quyet dinh.
Vi du: Cay quyet dinh phan lap mire twang

Trang 161 90

A11278 — Doan Thanh Gong
A11500 — NguyIn Dec Hoing


LIU

CAC KY THU4T KHAI

> 35

< 35
salary
< 40

>40

bad


50
good

bad

>50
good

Hinh 3: Vi du ve cay quyet djnh
b. Cac kieu cay quy& dinh
Cay quyet djnh con co hai loci:
- Cay hei quy (Regression tree): uec luang cac ham c6 gia trj la se thuc thay vi
duqc sir dung cho cac nhiem vu phan loci. (Vi du: Sc tinh gia met ngoi nha
hoac khoing thiri gian met benh nhan nim vien.)
- Cay phan loci (Classification tree): niu y la met Men phan loci nhu: gioi tinh
(nam hay n0), ket qua cita met tran du (thing hay thua).
c.

diem cita cay quyet djnh

So vei cac phuang phap khai pha der lieu khac, cay quyet dinh la phuang phap c6
met se uu diem:
- Cay quyet djnh de hitu. Ngutri to co the hieu and hinh cay quyet djnh sau khi
duqc giai thich ngin.
- Viec chitin bj du lieu cho met cay quyet djnh la co ban hoic kb:mg can thiet.
Ck k9 that 'chic thutmg dei hoi chuin hea du lieu, can tao cac bien phu
(dummy variable) va loai 136 cac gia trj rang.

- Cay quyet dinh co the xir IS/ Ca der lieu co gia tri bing se va dit lieu co gia tri la

ten the loci. Cac kji thuat khk thueng chuyen de phan tich cac be dit lieu chi
gem met lout bier. Ching han, cac luat quan he chi 05 the dimg cho cac bier
ten, trong khi mang na-ron chi co the dung cho cac bi'en ca gia tri bing se.

Trang 17190

A11278 — Doan Thanh Ding
A l 1500 — NguyIn Dec Hoing


CAC KY THU4T KHAI PHA Did LIVU
- Cay quyet djnh la met mo hinh hop tring. Mang no-ron la met vi du ye me
hinh help den, do lai giai thich cho ket qua qua phirc tap de co the hieu duqc.
- Co the thim djnh met ma hinh bang cac kiem tra thOng ice. Dieu nay lim cho
to c6 the tin Prang vao mo hinh.
d. Phan km de lieu bing cay quyet djnh
Phan lap dua ten cay quyet djnh rat thich hqp cho viec khai phi de lieu vi cay
quyet djnh co cau tnic don gian, de hieu vi co the duqc xay dung lcha nhanh tir cay
quyet djnh co the a ding rat ra cac 141
Quy nap cay quyet djnh la met qua trinh hqc tip coa cay quyet djnh tir cac phan
16p coa be di) lieu huin luyen (training tuple). Met cay quyet dinh la met bieu do ding
de lieu nhu ciu trim cay, moi nut trong (khang phai la) mpg ttung cho met thuec tinh
kiem tra, mOi nhanh dai then cho ket qua ctia viec kiem tra, va moi nut la (hay nit giai
hen) gift met lop phan. Nut diu fien ten cay la nut gOc.
Qua trinh phan 16p de lieu thong qua 2 buoy co ban nhu sau:
- Xay dung me, hinh tir tip huin luyen
- Sir dung ma hinh, kiem tra tinh thing din dm mo hinh va dung no de phan lop
do lieu mei.
e. Xay dung cay quyet djnh
Xay thmg cay quyet dinh deu duqc chia ra lam 3 giai (loan co ban:

- ray chmg cay: Thuc hien chia met cach de quy tip mau de lieu huat' luye'n
cho den khi cac ink a mai nut la thuOc ding mot lop

- CM tia cay: Li viec lam ding de tOi uu hoa cay. Cit tia cay chinh la viec tren
met cay con vao trong met nut la.
- Dinh gia cay: Dung de danh gia de chinh xac caa cay ket qua. Tieu chi dinh
gia la tiring so mau duqc phan lap chinh xac tren king s6 mau dua vao.
2.1.2. Mil hinh phiin ldp dB. lieu Bayer

a. Gieri thieu
Naïve Bayes la phucmg phap phan loth dua vao xac suit duqc sir dung rOng rai
trong lint) vim may hqc [Mitchell, 1996] [Joachims, 1997] [Jason, 2001], duqc sir dung
lin dku tien trong 14th vuc phan loth bai Maron vao nam 1961 [Maron, 1961] sau do

Trang 18190

A11278 — Doan Thinh Cemg
A11500 — Nguy4n Dire Hoing


×