Tải bản đầy đủ (.pdf) (32 trang)

Khai phá dữ liệu bằng cây quyết định

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (885.31 KB, 32 trang )


THệ VIEN ẹIEN Tệ TRệẽC TUYEN

LI CM N
Trc tiờn em xin c gi li cm n chõn thnh ti cỏc thy cụ giỏo trong

OBO
OK S
.CO
M

khoa Cụng ngh thụng tin - Trng i hc s phm H Ni ó tn tỡnh giỳp v
ging dy cho chỳng em trong nhng nm hc va qua.

c bit, em xin gi li cm n chõn thnh nht ti cụ giỏo - T.S H Cm
H cựng cỏc thy cụ giỏo trong t b mụn H thng thụng tin ó tn tỡnh hng
dn, giỳp em hon thnh ti nghiờn cu khoa hc ny.

Trong thi gian va qua mc dự em ó c gng rt nhiu hon thnh tt
ti nghiờn cu khoa hc ca mỡnh. Song chc chn kt qu nghiờn cu s khụng
trỏnh khi nhng thiu sút, vỡ vy em kớnh mong nhn c s ch bo v gúp ý ca
quý thy cụ v cỏc bn.

Em xin chõn thnh cỏm n!

Ký tờn

Hnh

KIL


Nguyn Th Hnh



THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

Trng i hc s phm H Ni

MC LC

KIL
OBO
OKS
.CO
M

LI M U .................................................................................................................. 2
Chng 1: Tng quan v khai phỏ d liu .................................................................. 3
1.1. Khỏm phỏ tri thc v khai phỏ d liu l gỡ? ................................................ 3
1.2. Quỏ trỡnh phỏt hin tri thc ............................................................................ 4
1.2.1.
Hỡnh thnh v nh ngha bi toỏn ......................................................... 5
1.2.2.

Thu thp v tin x lý d liu ................................................................. 5

1.2.3.


Khai phỏ d liu v rỳt ra cỏc tri thc .................................................... 6

1.2.4.

Phõn tớch v kim nh kt qu .............................................................. 6

1.2.5.

S dng cỏc tri thc phỏt hin c ..................................................... 6

1.3. Quỏ trỡnh khai phỏ d liu .............................................................................. 7
1.3.1.
Gom d liu (gatherin) ............................................................................ 7
1.3.2.

Trớch lc d liu (selection) .................................................................... 7

1.3.3.

Lm sch v tin x lý d liu (cleansing preprocessing). ................. 8

1.3.4.

Chuyn i d liu (transformation) ............................................ 81.3.5.
Phỏt hin v trớch mu d liu ( pattern extraction and discovery) .... 8

1.3.6.

ỏnh giỏ kt qu mu (evaluation of result ) ....................................... 8


1.4. Chc nng ca khai phỏ d liu.................................................................... 9
1.5. Cỏc k thut khai phỏ d liu ........................................................................ 9
1.5.1.
Phõn lp d liu: ..................................................................................... 9
1.5.2.

Phõn cm d liu:.................................................................................... 9

1.5.3.

Khai phỏ lut kt hp: ........................................................................... 10

1.5.4.

Hi quy:................................................................................................... 10

1.5.5.

Gii thut di truyn: ............................................................................... 10

1.5.6.

Mng nron: ........................................................................................... 10

1.5.7.

Cõy quyt nh. ...................................................................................... 11

1.6. Cỏc dng d liu cú th khai phỏ c ...................................................... 11
1.7. Cỏc lnh vc liờn quan n khai phỏ d liu v ng dng ca khai phỏ

d liu ........................................................................................................................ 11
1.7.1.
Cỏc lnh vc liờn quan n phỏt hin tri thc v khai phỏ d liu .... 11
1.7.2.

ng dng ca khai phỏ d liu ............................................................ 11

1.8. Cỏc thỏch thc v hng phỏt trin ca phỏt hin tri thc v khai phỏ d
liu. 12
Chng 2: Khai phỏ d liu bng cõy quyt nh..................................................... 13
2.1. Cõy quyt nh ............................................................................................... 13
2.1.1.
nh ngha cõy quyt nh .................................................................... 13
2.1.2.

u im ca cõy quyt nh ................................................................. 14

2.1.3.

Vn xõy dng cõy quyt nh.......................................................... 14

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

1



THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc


Trng i hc s phm H Ni
2.1.4.

Rỳt ra cỏc lut t cõy quyt nh. ........................................................ 15

2.2. Cỏc thut toỏn khai phỏ d liu bng cõy quyt nh ............................... 15
2.2.1.
Thut toỏn CLS ...................................................................................... 15
Thut toỏn ID3 ....................................................................................... 16

2.2.3.

Thut toỏn C4.5 ..................................................................................... 18

2.2.4.

Thut toỏn SLIQ[5] ................................................................................ 22

2.2.5.

Ct ta cõy quyt nh ............................................................................ 25

2.2.6.

ỏnh giỏ v kt lun v cỏc thut toỏn xõy dng cõy quyt nh .... 27

KIL
OBO
OKS

.CO
M

2.2.2.

Chng 3: Xõy dng chng trỡnh dờmo ................................................................. 29
3.1. Mụ t bi toỏn ................................................................................................ 29
3.2. Thu thp v tin x lý d liu ...................................................................... 29
3.3. Chng trỡnh ................................................................................................. 30
Chng 4. KT LUN ................................................................................................. 30
4.1 ỏnh Giỏ ............................................................................................................. 30
4.1.1 Lý thuyt ....................................................................................................... 30
4.1.2 ng dng...................................................................................................... 30
4.2 Hng Phỏt Trin .............................................................................................. 30

LI M U

Trong nhiu nm qua, cựng vi s phỏt trin ca cụng ngh thụng tin v ng
dng ca cụng ngh thụng tin trong nhiu lnh vc ca i sng xó hi, thỡ lng d
liu c cỏc c quan thu thp v lu tr ngy mt nhiu lờn. Ngi ta lu tr

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

2



Trường đại học sư phạm Hà Nội

THÖ

VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
Sinh viên nghiên cứu khoa học

những dữ liệu này vì cho rằng nó ẩn chứa những giá trị nhất định nào đó. Tuy nhiên
theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đến
10%) là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì và có thể làm

KIL
OBO
OKS
.CO
M

gì với những dữ liệu này, nhưng họ vẫn tiếp tục thu thập và lưu trữ vì hy vọng
những dữ liệu này sẽ cung cấp cho họ những thông tin quý giá một cách nhanh
chóng để đưa ra những quyết định kịp thời vào một lúc nào đó. Chính vì vậy, các
phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp
ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật
phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and Data
Mining).

Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu,
ứng dụng trong nhiều lĩnh vực khác nhau trên thế giới, tại Việt Nam kỹ thuật này
còn tương đối mới mẻ tuy nhiên cũng đang được nghiên cứu và bắt đầu đưa vào
một số ứng dụng thực tế. Vì vậy, hiện nay ở nước ta vấn đề phát hiện tri thức và
khai phá dữ liệu đang thu hút được sự quan tâm của nhiều người và nhiều công ty
phát triển ứng dụng công nghệ thông tin. Trong phạm vi đề tài nghiên cứu khoa học
này của em, em sẽ trình bày những nội dung sau:

Chương 1: Tìm hiểu những kiến thức tổng quan về khám phá tri thức và khai

phá dữ liệu.

Chương 2: Nghiên cứu kỹ thuật khai phá dữ liệu bằng cây quyết định.
Chương 3: Xây dựng ứng dụng demo cho kỹ thuật khai phá dữ liệu bằng cây
quyết định

Chương 1: Tổng quan về khai phá dữ liệu
1.1. Khám phá tri thức và khai phá dữ liệu là gì?

Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT

3



Trng i hc s phm H Ni

THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

Phỏt hin tri thc (Knowledge Discovery ) trong cỏc c s d liu l mt qui
trỡnh nhn bit cỏc mu hoc cỏc mụ hỡnh trong d liu vi cỏc tớnh nng: hp thc,
mi, kh ớch, v cú th hiu c [4].

KIL
OBO
OKS
.CO
M


Cũn khai thỏc d liu (data mining) l mt ng tng i mi, nú ra i vo
khong nhng nm cui ca ca thp k 1980. Cú rt nhiu nh ngha khỏc nhau
v khai phỏ d liu. Giỏo s Tom Mitchell ó a ra nh ngha ca khai phỏ d
liu nh sau: Khai phỏ d liu l vic s dng d liu lch s khỏm phỏ nhng
qui tc v ci thin nhng quyt nh trong tng lai.. Vi mt cỏch tip cn ng
dng hn, tin s Fayyad ó phỏt biu: Khai phỏ d liu thng c xem l vic
khỏm phỏ tri thc trong cỏc c s d liu, l mt quỏ trỡnh trớch xut nhng thụng
tin n, trc õy cha bit v cú kh nng hu ớch, di dng cỏc quy lut, rng
buc, qui tc trong c s d liu.. Cũn cỏc nh thng kờ thỡ xem " khai phỏ d liu
nh l mt quỏ trỡnh phõn tớch c thit k thm dũ mt lng cc ln cỏc d liu
nhm phỏt hin ra cỏc mu thớch hp v/ hoc cỏc mi quan h mang tớnh h thng
gia cỏc bin v sau ú s hp thc hoỏ cỏc kt qu tỡm c bng cỏch ỏp dng
cỏc mu ó phỏt hin c cho tp con mi ca d liu".

Núi túm li: khai phỏ d liu l mt bc trong quy trỡnh phỏt hin tri thc
gm cú cỏc thõt toỏn khai thỏc d liu chuyờn dựng di mt s quy nh v hiu
qu tớnh toỏn chp nhn c tỡm ra cỏc mu hoc cỏc mụ hỡnh trong d liu [4].

1.2. Quỏ trỡnh phỏt hin tri thc

Quỏ trỡnh khỏm phỏ tri thc c tin hnh qua 5 bc sau [5]:

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

4



THệ

VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

KIL
OBO
OKS
.CO
M

Trng i hc s phm H Ni

Hỡnh 1.1. Quỏ trỡnh khỏm phỏ tri thc

1.2.1. Hỡnh thnh v nh ngha bi toỏn

õy l bc tỡm hiu lnh vc ng dng v hỡnh thnh bi toỏn, bc ny
s quyt nh cho vic rỳt ra nhng tri thc hu ớch, ng thi la chn cỏc
phng phỏp khai phỏ d liu thớch hp vi mc ớch ca ng dng v bn
cht ca d liu.

1.2.2. Thu thp v tin x lý d liu

Trong bc ny d liu c thu thp dng thụ (ngun d liu thu thp
cú th l t cỏc kho d liu hay ngun thụng tin internet). Trong giai on ny
d liu cng c tin x lý bin i v ci thin cht lng d liu cho
phự hp vi phng phỏp khai phỏ d liu c chn la trong bc trờn.
Bc ny thng chim nhiu thi gian nht trong quỏ trỡnh khỏm phỏ tri
thc.

Cỏc gii thut tin x lý d liu bao gm :

1.

X lý d liu b mt/ thiu: Cỏc dng d liu b thiu s c
thay th bi cỏc giỏ tr thớch hp

2.

Kh s trựng lp: cỏc i tng d liu trựng lp s b loi b
i. K thut ny khụng c s dng cho cỏc tỏc v cú quan

tõm n phõn b d liu.

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

5



Trng i hc s phm H Ni

3.

THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

Gim nhiu: nhiu v cỏc i tng tỏch ri khi phõn b
chung s b loi i khi d liu.
Chun hoỏ: min giỏ tr ca d liu s c chun hoỏ.


5.

Ri rc hoỏ: cỏc dng d liu s s c bin i ra cỏc giỏ tr

KIL
OBO
OKS
.CO
M

4.

ri rc.

6.

Rỳt trớch v xõy dng c trng mi t cỏc thuc tớnh ó cú.

7.

Gim chiu: cỏc thuc tớnh cha ớt thụng tin s c loi b

bt.

1.2.3. Khai phỏ d liu v rỳt ra cỏc tri thc

õy l bc quan trng nht trong tin trỡnh khỏm phỏ tri thc. Kt qu
ca bc ny l trớch ra c cỏc mu v/hoc cỏc mụ hỡnh n di cỏc d
liu. Mt mụ hỡnh cú th l mt biu din cu trỳc tng th mt thnh phn
ca h thng hay c h thng trong c s d liu, hay miờu t cỏch d liu

c ny sinh. Cũn mt mu l mt cu trỳc cc b cú liờn quan n vi bin
v vi trng hp trong c s d liu.
1.2.4.

Phõn tớch v kim nh kt qu

Bc th t l hiu cỏc tri thc ó tỡm c, c bit l lm sỏng t cỏc
mụ t v d oỏn. Trong bc ny, kt qu tỡm c s c bin i sang
dng phự hp vi lnh vc ng dng v d hiu hn cho ngi dựng.
1.2.5.

S dng cỏc tri thc phỏt hin c

Trong bc ny, cỏc tri thc khỏm phỏ c s c cng c, kt hp
li thnh mt h thng, ng thi gii quyt cỏc xung t tim nng trong
cỏc tri thc ú. Cỏc mụ hỡnh rỳt ra c a vo nhng h thng thụng tin
thc t di dng cỏc mụdun h tr vic a ra quyt nh.
Cỏc giai on ca quỏ trỡnh khỏm phỏ tri thc cú mi quan h cht ch
vi nhau trong bi cnh chung ca h thng. Cỏc k thut c s dng
trong giai on trc cú th nh hng n hiu qu ca cỏc gii thut c
s dng trong cỏc giai on tip theo. Cỏc bc ca quỏ trỡnh khỏm phỏ tri

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

6



Trường đại học sư phạm Hà Nội


THÖ
VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
Sinh viên nghiên cứu khoa học

thức có thể được lặp đi lặp lại một số lần, kết quả thu được có thể được lấy
trung bình trên tất cả các lần thực hiện.

KIL
OBO
OKS
.CO
M

1.3. Quá trình khai phá dữ liệu

Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức . Thuật
ngữ khai phá dữ liệu còn được một số nhà khoa học gọi là phát hiện tri thức trong cơ sở dữ
liệu ( knowledge discovery in database _KDD) ( theo Fayyad Smyth and PiatestkyShapiro 1989). Quá trình này gồm có 6 bước [1]:

Hình 1.2. Quá trình khai phá dữ liệu

Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức
được chiết xuất ra. Nội dung của quá trình như sau:
1.3.1. Gom dữ liệu (gatherin)

Tập hợp dữ liệu là bước đầu tiên trong khai phá dữ liệu. Bước này lấy
dữ liệu từ trong một cơ sở dữ liệu, một kho dữ liệu, thậm chí dữ liệu từ những
nguồn cung ứng web.

1.3.2. Trích lọc dữ liệu (selection)


Ở giai đoạn này dữ liệu được lựa chọn và phân chia theo một
số tiêu chuẩn nào đó.

Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT

7



THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

Trng i hc s phm H Ni

1.3.3. Lm sch v tin x lý d liu (cleansing preprocessing).
Giai on th ba ny l giai on hay b sao lóng, nhng thc t nú l
mt bc rt quan trng trong quỏ trỡnh khai phỏ d liu. Mt s li thng

KIL
OBO
OKS
.CO
M

mc phi trong khi gom d liu l d liu khụng y hoc khụng thng
nht, thiu cht ch. Vỡ vy d liu thng cha cỏc giỏ tr vụ ngha v khụng
cú kh nng kt ni d liu. Vớ d Sinh viờn cú tui=200. Giai on th ba
ny nhm x lý cỏc d liu nh trờn(d liu vụ ngha, d liu khụng cú kh

nng kt ni). Nhng d liu dng ny thng c xem l thụng tin d tha,
khụng cú giỏ tr. Bi vy õy

l mt quỏ trỡnh rt quan trng. Nu d

liu khụng c lm sch- tin x lý - chun b trc thỡ s gõy nờn nhng kt
qu sai lch nghiờm trng v sau.

1.3.4. Chuyn i d liu (transformation)

Trong giai on ny, d liu cú th c t chc v s dng li. Mc
ớch ca vic chuyn i d liu l lm cho d liu phự hp hn vi mc
ớch khai phỏ d liu.

1.3.5. Phỏt hin v trớch mu d liu ( pattern extraction and discovery)
õy l bc t duy trong khai phỏ d liu. trong giai on ny
nhiu thut toỏn khỏc nhau ó c s dng trớch ra cỏc mu t d liu.
Thut toỏn thng dựng trớch mu d liu l thut toỏn phõn loi d liu,
kt hp d liu, thut toỏn mụ hỡnh hoỏ d liu tun t.
1.3.6. ỏnh giỏ kt qu mu (evaluation of result )

õy l giai on cui cựng trong quỏ trỡnh khai phỏ d liu, giai
on ny cỏc mu d liu c chit xut ra bi phn mm khai phỏ d liu.
Khụng phi mu d liu no cng hu ớch, ụi khi nú cũn b sai lch. Vỡ vy
cn phi a ra nhng tiờu chun ỏnh giỏ u tiờn cho cỏc mu d liu
rỳt ra c nhng tri thc cn thiờt.

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

8




Trng i hc s phm H Ni

THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

1.4. Chc nng ca khai phỏ d liu
Khai phỏ d liu cú hai chc nng c bn ú l: chc nng d oỏn v chc

KIL
OBO
OKS
.CO
M

nng mụ t.

1.5. Cỏc k thut khai phỏ d liu

Trong thc t cú nhiu k thut khai phỏ d liu khỏc nhau nhm thc hin
hai chc nng mụ t v d oỏn.
-

K thut khai phỏ d liu mụ t: cú nhim v mụ t cỏc tớnh cht hoc
cỏc c tớnh chung ca d liu trong CSDL hin cú. Mt s k thut khai
phỏ trong nhúm ny l: phõn cm d liu (Clustering), tng hp
(Summarisation), trc quan hoỏ (Visualization), phõn tớch s phỏt trin v

lch (Evolution and deviation analyst),.

-

K thut khai phỏ d liu d oỏn: cú nhim v a ra cỏc d oỏn da
vo cỏc suy din trờn c s d liu hin thi. Mt s k thut khai phỏ
trong nhúm ny l: phõn lp (Classification), hi quy (Regression), cõy
quyt nh (Decision tree), thng kờ (statictics), mng nron (neural
network), lut kt hp,.

Mt s k thut ph bin thng c s dng khai phỏ d liu
hin nay l :

1.5.1. Phõn lp d liu:

Mc tiờu ca phõn lp d liu ú l d oỏn nhón lp cho cỏc mu d
liu. Quỏ trỡnh gm hai bc: xõy dng mụ hỡnh, s dng mụ hỡnh phõn
lp d liu( mi mu 1 lp). Mụ hỡnh c s dng d oỏn nhón lp khi
m chớnh xỏc ca mụ hỡnh chp nhn c.
1.5.2. Phõn cm d liu:

Mc tiờu ca phõn cm d liu l nhúm cỏc i tng tng t nhau
trong tp d liu vo cỏc cum, sao cho cỏc i tng thuc cựng mt lp l
tng ng.

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

9




Trng i hc s phm H Ni

THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

1.5.3. Khai phỏ lut kt hp:
Mc tiờu ca phng phỏp ny l phỏt hin v a ra cỏc mi liờn h
gia cỏc giỏ tr d liu trong c s d liu. u ra ca gii thut lut kt hp
bc:
-

KIL
OBO
OKS
.CO
M

l tp lut kt hp tỡm c. Phng phỏp khai phỏ lut kt hp gm cú hai
Bc 1: Tỡm ra tt c cỏc tp mc ph bin. Mt tp mc ph bin c
xỏc nh thụng qua tớnh h tr v tho món h tr cc tiu.
-

Bc 2: Sinh ra cỏc lut kt hp mnh t tp mc ph bin, cỏc lut phi
tho món h tr v tin cy cc tiu.

1.5.4. Hi quy:

Phng phỏp hi quy tng t nh l phõn lp d liu. Nhng khỏc

ch nú dựng d oỏn cỏc giỏ tr liờn tc cũn phõn lp d liu dựng d
oỏn cỏc giỏ tr ri rc.

1.5.5. Gii thut di truyn:

L quỏ trỡnh mụ phng theo tin hoỏ ca t nhiờn. í tng chớnh ca
gii thut l da vo quy lut di truyn trong bin i, chn lc t nhiờn v
tin hoỏ trong sinh hc.
1.5.6. Mng nron:

õy l mt trong nhng k thut khai phỏ d liu c ng dng ph
bin hin nay. K thut ny phỏt trin da trờn mt nn tng toỏn hc vng
vng, kh nng hun luyn trong k thut ny da trờn mụ hỡnh thn kinh
trung ng ca con ngi.

Kt qu m mng nron hc c cú kh nng to ra cỏc mụ hỡnh d
bỏo, d oỏn vi chớnh xỏc v tin cy cao. Nú cú kh nng phỏt hin
ra c cỏc xu hng phc tp m k thut thụng thng khỏc khú cú th
phỏt hin ra c. Tuy nhiờn phng phỏp mng n ron rt phc tp v quỏ
trỡnh tin hnh nú gp rt nhiu khú khn: ũi hi mt nhiu thi gian, nhiu
d liu, nhiu ln kim tra th nghim.

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

10



Trng i hc s phm H Ni


THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

1.5.7. Cõy quyt nh.
K thut cõy quyt nh l mt cụng c mnh v hiu qu trong vic
phõn lp v d bỏo. Cỏc i tng d liu c phõn thnh cỏc lp. Cỏc giỏ

KIL
OBO
OKS
.CO
M

tr ca i tng d liu cha bit s c d oỏn, d bỏo. Tri thc c
rỳt ra trong k thut ny thng c mụ t di dng tng minh, n gin,
trc quan, d hiu i vi ngi s dng.

1.6. Cỏc dng d liu cú th khai phỏ c
-

CSDL quan h

-

CSDL a chiu

-

CSDL giao dch


-

CSDL quan h - i tng

-

CSDL khụng gian v thi gian

-

CSDL a phng tin.

1.7. Cỏc lnh vc liờn quan n khai phỏ d liu v ng dng ca khai phỏ
d liu
1.7.1. Cỏc lnh vc liờn quan n phỏt hin tri thc v khai phỏ d liu
Phỏt hin tri thc v khai phỏ d liu c ng dng trong nhiu ngnh v
lnh vc khỏc nhau nh: ti chớnh ngõn hng, thng mi, y t, giỏo dc,
thng kờ, mỏy hc, trớ tu nhõn to, csdl, thut toỏn toỏn hc, tớnh toỏn song
song vi tc cao, thu thp c s tri thc cho h chuyờn gia,
1.7.2. ng dng ca khai phỏ d liu

Khai phỏ d liu c vn dng gii quyt cỏc vn thuc nhiu lnh
vc khỏc nhau. Chng hn nh gii quyt cỏc bi toỏn phc tp trong cỏc
ngnh ũi hi k thut cao, nh tỡm kim m du, t nh vin thỏm, cnh bỏo
hng húc trong cỏc h thng sn xut; c ng dng cho vic quy hoch v
phỏt trin cỏc h thng qun lý v sn xut trong thc t nh d oỏn ti s
dng in, mc tiờu th sn phm, phõn nhúm khỏch hng; p dng cho
cỏc vn xó hi nh phỏt hin ti phm, tng cng an ninh
Mt s ng dng c th nh sau :


Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

11



Trng i hc s phm H Ni

THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

-

Khai phỏ d liu c s dng phõn tớch d liu, h tr ra quyt nh.

-

Trong sinh hc: nú dựng tỡm kim , so sỏnh cỏc h gen v thụng tin di
chuyn, tỡm mi liờn h gia cỏc h gen v chun oỏn mt s bnh di

-

KIL
OBO
OKS
.CO
M


chuyn

Trong y hc: khai phỏ d liu giỳp tỡm ra mi liờn h gia cỏc triu
chng, chun oỏn bnh.

-

Ti chớnh v th trng chng khoỏn: Khai phỏ d liu phõn tớch tỡnh
hỡnh ti chớnh, phõn tớch u t, phõn tớch c phiu
-

-

Khai thỏc d liu web.

Trong thụng tin k thut: khai phỏ d liu dựng phõn tớch cỏc sai hng,
iu khin v lp lch trỡnh

- Trong thụng tin thng mi: dựng phõn tớch d liu ngi dựng, phõn
tớch d liu marketing, phõn tớch u t, phỏt hin cỏc gian ln.

1.8. Cỏc thỏch thc v hng phỏt trin ca phỏt hin tri thc v khai phỏ d
liu.
S phỏt trin ca phỏt hin tri thc v khai phỏ d liu gp phi mt s
thỏch thc sau:
-

CSDL ln (s lng bn ghi, s bng)

-


S chiu ln

-

Thay i d liu v tri thc cú th lm cho cỏc mu ó phỏt hin khụng
cũn phự hp na.

-

D liu b thiu hoc b nhiu.

-

Quan h gia cỏc trng phc tp

-

Vn giao tip vi ngi s dng v kt hp vi cỏc tri thc ó cú.

-

Tớch hp vi cỏc h thng khỏc.

-



Hng phỏt trin ca khỏm phỏ tri thc v khai phỏ d liu l vt qua c
tt c nhng thỏch thc trờn. Chỳ trng vo vic m rng ng dng ỏp ng

cho mi lnh vc trong i sng xó hi, v tng tớnh hu ớch ca vic khai phỏ d
liu trong nhng lnh vc ó cú khai phỏ d liu. To ra cỏc phng phỏp khai phỏ
d liu linh ng, uyn chuyn x lý s lng d liu ln mt cỏch hiu qu.
Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

12



Trường đại học sư phạm Hà Nội

THƯ
VIỆN ĐIỆN TỬ TRỰC TUYẾN
Sinh viên nghiên cứu khoa học

Tạo ra tương tác người sử dụng tốt, giúp người sử dụng tham gia điều khiển q
trình khai phá dữ liệu, định hướng hệ thống khai phá dữ liệu trong việc phát hiện
các mẫu đáng quan tâm. Tích hợp khai phá dữ liệu vào trong các hệ cơ sở dữ liệu.

KIL
OBO
OKS
.CO
M

Ứng dụng khai phá dữ liệu để khai phá dữ liệu web trực tuyến. Một vấn đề quan
trọng trong việc phát triển khám phá tri thức và khai phá dữ liệu đó là vấn đề an
tồn và bảo mật thơng tin trong khai phá dữ liệu.

Chương 2: Khai phá dữ liệu bằng cây quyết định

2.1.

Cây quyết định

2.1.1. Định nghĩa cây quyết định

Trong lĩnh vực học máy, cây quyết định là một kiểu mơ hình dự báo

(predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện
tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi nút
trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con
của nó thể hiện giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự
đốn của biến mục tiêu, cho trước các giá trị dự đốn của các biến được biểu
diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây
quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn
gọn là cây quyết định. [3]

Ví dụ: Cây quyết định phân lớp mức lương

Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT

13



THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

Trng i hc s phm H Ni


Age?

> 35

KIL
OBO
OKS
.CO
M

35
salary

40

bad

>40

salary

50

good

>50

bad


good

Hỡnh 2.1 Cõy quyt nh phõn lp mc lng

2.1.2. u im ca cõy quyt nh

So vi cỏc phng phỏp khai phỏ d liu khỏc, cõy quyt nh cú mt s
u im sau
-

Cõy quyt nh tng i d hiu.

-

ũi hi mc tin x lý d liu n gin.

-

Cú th x lý vi c cỏc d liu ri rc v liờn tc.

-

Cõy quyt nh l mt mụ hỡnh hp trng.

-

Kt qu d oỏn bng cõy quyt nh cú th thm nh li bng cỏch
kim tra thng kờ.

2.1.3.


Vn xõy dng cõy quyt nh

Cú nhiu thut toỏn khỏc nhau xõy dng cõy quyt nh nh: CLS,
ID3, C4.5, SLIQ, SPRINT, EC4.5, C5.0Nhng núi chung quỏ trỡnh xõy
dng cõy quyt nh u c chia ra lm 3 giai on c bn:
a. Xõy dng cõy: Thc hin chia mt cỏch quy tp mu d liu hun
luyn cho n khi cỏc mu mi nỳt lỏ thuc cựng mt lp
b. Ct ta cõy: L vic lm dựng ti u hoỏ cõy. Ct ta cõy chớnh l vic
trn mt cõy con vo trong mt nỳt lỏ.

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

14



Trng i hc s phm H Ni

THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

c. ỏnh giỏ cõy: Dựng ỏnh giỏ chớnh xỏc ca cõy kt qu. Tiờu chớ
ỏnh giỏ l tng s mu c phõn lp chớnh xỏc trờn tng s mu a

KIL
OBO
OKS
.CO

M

vo.
2.1.4. Rỳt ra cỏc lut t cõy quyt nh.

Cú th chuyn i qua li gia mụ hỡnh cõy quyt nh v mụ hỡnh dng
lut (IF THEN). Hai mụ hỡnh ny l tng ng nhau.
Vớ d t cõy 2.1 ta cú th rỳt ra c cỏc lut sau.

IF (Age <= 35) AND (salary<=40) THEN class = bad
IF (Age<=35) AND (salary>40)

THEN class = good

IF (Age>35) AND (salary <=50 ) THEN class = bad
IF (Age > 35) AND(salary>50)

2.2.

THEN class = good

Cỏc thut toỏn khai phỏ d liu bng cõy quyt nh

2.2.1. Thut toỏn CLS

Thut toỏn ny c Hovland v Hint gii thiu trong Concept
learning System (CLS) vo nhng nm 50 ca th k 20. Sau ú gi tt l
thut toỏn CLS. Thut toỏn CLS c thit k theo chin lc chia tr t
trờn xung. Nú gm cỏc bc sau [6]:


1. To mt nỳt T, nỳt ny gm tt c cỏc mu ca tp hun luyn.
2. Nu tt c cỏc mu trong T cú thuc tớnh quyt nh mang giỏ tr
"yes" (hay thuc cựng mt lp), thỡ gỏn nhón cho nỳt T l "yes" v

dng li. T lỳc ny l nỳt lỏ.

3. Nu tt c cỏc mu trong T cú thuc tớnh quyt nh mang giỏ tr
"no" (hay thuc cựng mt lp), thỡ gỏn nhón cho nỳt T l "no" v

dng li. T lỳc ny l nỳt lỏ.

4. Trng hp ngc li cỏc mu ca tp hun luyn thuc c hai lp
"yes" v "no" thỡ:

+ Chn mt thuc tớnh X trong tp thuc tớnh ca tp mu d liu
, X cú cỏc giỏ tr v1,v2, vn.

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

15



Trng i hc s phm H Ni

THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

+ Chia tp mu trong T thnh cỏc tp con T1, T2,.,Tn. chia theo

giỏ tr ca X.
+ To n nỳt con Ti (i=1,2n) vi nỳt cha l nỳt T.

KIL
OBO
OKS
.CO
M

+ To cỏc nhỏnh ni t nỳt T n cỏc nỳt Ti (i=1,2n) l cỏc
thuc tớnh ca X.

5. Thc hin lp cho cỏc nỳt con Ti(i =1,2..n) v quay li bc 2.
Ta nhn thy trong bc 4 ca thut toỏn, thuc tớnh c chn
trin khai cõy l tu ý. Do vy cựng vi mt tp mu d liu hun luyn nu
ỏp dng thut toỏn CLS vi th t chn thuc tớnh trin khai cõy khỏc nhau,
s cho ra cỏc cõy cú hỡnh dng khỏc nhau. Vic la chn thuc tớnh s nh
hng ti rng, sõu, phc tp ca cõy. Vỡ vy mt cõu hi t ra l
th t thuc tớnh no c chn trin khai cõy s l tt nht. Vn ny s
c gii quyt trong thut toỏn ID3 di õy.
2.2.2. Thut toỏn ID3

Thut toỏn ID3 c phỏt biu bi Quinlan (trng i hc Syney,
Australia) v c cụng b vo cui thp niờn 70 ca th k 20. Sau ú, thut
toỏn ID3 c gii thiu v trỡnh by trong mc Induction on decision trees,
machine learning nm 1986. ID3 c xem nh l mt ci tin ca CLS vi
kh nng la chn thuc tớnh tt nht tip tc trin khai cõy ti mi bc.
ID3 xõy dng cõy quyt nh t trờn- xung (top -down) [5] .
Entropy [5]: dựng o tớnh thun nht ca mt tp d liu. Entropy ca mt
tp S c tớnh theo cụng thc (1)


Entropy(S)= - P + log 2 ( P + ) P - log 2 ( P )

(2.1)

Trong trng hp cỏc mu d liu cú hai thuc tớnh phõn lp "yes"
(+), "no" (-). Ký hiu p+ l ch t l cỏc mu cú giỏ tr ca thuc tớnh quyt
nh l "yes", v p- l t l cỏc mu cú giỏ tr ca thuc tớnh quyt nh l "no"
trong tp S.

Trng hp tng quỏt, i vi tp con S cú n phõn lp thỡ ta cú cụng
thc sau:

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

16



THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

Trng i hc s phm H Ni
n

Entropy(S)=

(- P log
i


2

(2.2)

( Pi ))

i=1

Trong ú Pi l t l cỏc mu thuc lp i trờn tp hp S cỏc mu kim tra.
-

KIL
OBO
OKS
.CO
M

Cỏc trng hp c bit

Nu tt c cỏc mu thnh viờn trong tp S u thuc cựng mt lp thỡ
Entropy(S) =0

-

Nu trong tp S cú s mu phõn b u nhau vo cỏc lp thỡ Entropy(S)
=1

-


Cỏc trng hp cũn li 0< Entropy(S)<1

Information Gain (vit tt l Gain)[5]: Gain l i lng dựng o tớnh
hiu qu ca mt thuc tớnh c la chn cho vic phõn lp. i lng ny
c tớnh thụng qua hai giỏ tr Information v Entropy.
-

Cho tp d liu S gm cú n thuc tớnh Ai(i=1,2n) giỏ tr Information
ca thuc tớnh Ai ký hiu l Information(Ai) c xỏc nh bi cụng thc
.

n

Information(A i ) = - log 2 ( pi ) = Entropy(S)

(2.3)

i=1

-

Giỏ tr Gain ca thuc tớnh A trong tp S ký hiu l Gain(S,A) v c
tớnh theo cụng thc sau:

Gain( S , A) = Information(A) - Entropy(A)= Entropy(S)-



vvalue(A)


Sv
Entropy(Sv ) (2.4)
S

Trong ú :

S l tp hp ban u vi thuc tớnh A. Cỏc giỏ tr ca v tng ng l
cỏc giỏ tr ca thuc tớnh A.

Sv bng tp hp con ca tp S m cú thuc tớnh A mang giỏ tr v.
|Sv| l s phn t ca tp Sv.
|S| l s phn t ca tp S.

Trong quỏ trỡnh xõy dng cõy quyt nh theo thut toỏn ID3 ti mi
bc trin khai cõy, thuc tớnh c chn trin khai l thuc tớnh cú giỏ tr
Gain ln nht.

Hm xõy dng cõy quyt nh trong thut toỏn ID3 [2]

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

17



THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

Trng i hc s phm H Ni


KIL
OBO
OKS
.CO
M

Function induce_tree(tp_vớ_d, tp_thuc_tớnh)
begin
if mi vớ d trong tp_vớ_d u nm trong cựng mt lp then
return mt nỳt lỏ c gỏn nhón bi lp ú
else if tp_thuc_tớnh l rng then
return nỳt lỏ c gỏn nhón bi tuyn ca tt c cỏc lp trong
tp_vớ_d
else begin
chn mt thuc tớnh P, ly nú lm gc cho cõy hin ti;
xúa P ra khi tp_thuc_tớnh;
vi mi giỏ tr V ca P
begin
to mt nhỏnh ca cõy gỏn nhón V;
t vo phõn_vựng cỏc vớ d trong tp_vớ_d cú giỏ tr V
V

ti thuc tớnh P;
Gi induce_tree(phõn_vựng , tp_thuc_tớnh), gn kt qu
V

vo nhỏnh V

end

end

end

Vi vic tớnh toỏn giỏ tr Gain la chn thuc tớnh ti u cho vic
trin khai cõy, thut toỏn ID3 c xem l mt ci tin ca thut toỏn CLS.
Tuy nhiờn thut toỏn ID3 khụng cú kh nng x lý i vi nhng d liu cú
cha thuc tớnh s - thuc tớnh liờn tc (numeric attribute) v khú khn trong
vic x lý cỏc d liu thiu (missing data)v d liu nhiu (noisy data). Vn
ny s c gii quyt trong thut toỏn C4.5 sau õy.
2.2.3. Thut toỏn C4.5

- Thut toỏn C4.5 c phỏt trin v cụng b bi Quinlan vo nm 1996.
Thut toỏn C4.5 l mt thut toỏn c ci tin t thut toỏn ID3 vi
vic cho phộp x lý trờn tp d liu cú cỏc thuc tớnh s (numeric
atributes) v v lm vic c vi tp d liu b thiu v b nhiu. Nú
thc hin phõn lp tp mu d liu theo chin lc u tiờn theo chiu
sõu (Depth - First). Thut toỏn xột tt c cỏc phộp th cú th phõn
chia tp d liu ó cho v chn ra mt phộp th cú giỏ tr GainRatio tt
nht. GainRatio l mt i lng ỏnh giỏ hiu qu ca thuc tớnh

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

18



THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc


Trng i hc s phm H Ni

dựng thc hin phộp tỏch trong thut toỏn phỏt trin cõy quyt
nh. GainRatio c tớnh da trờn kt qu tớnh toỏn i lng
Information Gain theo cụng thc sau:
(2.5)

|Ti |
|T |
log 2 i
|T |
iValue(X) | T |

(2.6)

KIL
OBO
OKS
.CO
M

Gain( X , T )
SplitInfo(X,T)

GainRation( X , T ) =

Vi:

Splitinfo(X,T) = -




Trong ú:

Value(X) l tp cỏc giỏ tr ca thuc tớnh X

Ti l tp con ca tp T ng vi thuc tớnh X = giỏ tr l vi.
i vi cỏc thuc tớnh liờn tc, chỳng ta tin hnh phộp th nh phõn
cho mi giỏ tr ca thuc tớnh ú. thu thp c giỏ tr Entropy gain ca
tt c cỏc phộp th nh phõn mt cỏch hu hiu ta tin hnh xp xp cỏc d
liu theo giỏ tr ca thuc tớnh liờn tc ú bng thut toỏn Quicksort
Thut toỏn xõy dng cõy quyt nh C4.5

Mụ t thut toỏn di dng gi mó nh sau [5]:
Function xay_dung_cay(T)
{

1. <Tớnh toỏn tn xut cỏc giỏ tr trong cỏc lp ca T>;
2. If khỏc lp>Then <Tr v 1 nỳt lỏ>

Else <To mt nỳt quyt nh N>;

3. For <Vi mi thuc tớnh A> Do <Tớnh giỏ tr Gain(A)>;
4. Gain tt nht (ln nht). Gi N.test l thuc tớnh cú Gain ln nht>;
5. If <Nu N.test l thuc tớnh liờn tc> Then tỏch ca N.test>;


6. For <Vi mi tp con T` c tỏch ra t tp T> Do
(

T` c tỏch ra theo quy tc:

- Nu N.test l thuc tớnh liờn tc tỏch theo ngng bc 5

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

19



THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

Trng i hc s phm H Ni

- Nu N.test l thuc tớnh phõn loi ri rc tỏch theo cỏc giỏ tr
ca thuc tớnh ny.
)
If <Kim tra, nu T' rng>} Then

KIL
OBO
OKS
.CO
M


7. {

<Gỏn nỳt con ny ca nỳt N l nỳt lỏ>;
Else

8. vi hm xay_dung_cay(T'), vi tp T'>;
}

9. <Tớnh toỏn cỏc li ca nỳt N>;
<Tr v nỳt N>;

}

Mt s cụng thc c s dng
n

Info x (T)=-
i=1

Ti
* Info(Ti )
T

Gain( X ) = Info(T)-Info X (T )

(2.7)
(2.8)

(2.8) c s dng lm tiờu chun la chn thuc tớnh khi phõn lp.

Thuc tớnh c chn l thuc tớnh cú giỏ tr Gain tớnh theo (2.8) t giỏ tr ln
nht.

Mt s ci tin ca thut toỏn C4.5:
1. Lm vic vi thuc tớnh a tr

Tiờu chun (2.8) cú mt khuyt im l khụng chp nhn cỏc thuc
tớnh a tr. Vỡ vy thut toỏn C4.5 ó a ra cỏc i lng GainRatio v
SplitInfo (SplitInformation), chỳng c xỏc nh theo cỏc cụng thc sau:
P=

freq (C j , T )
S

n

SplitInfo (X) =-
i=1

GainRatio( X ) =

Ti
T
log 2 i
T
T

Gain( X )
SplitInfo(X)


Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

(2.9)
(2.10)

20



THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

Trng i hc s phm H Ni

Giỏ tr SplitInfo l i lng ỏnh giỏ thụng tin tim nng thu thp
c khi phõn chia tp T thnh n tp hp con.
GainRatio l tiờu chun ỏnh giỏ vic la chn thuc tớnh phõn

KIL
OBO
OKS
.CO
M

loi.

2. Lm vic vi d liu b thiu

Thut toỏn va xõy dng da vo gi thuyt tt c cỏc mu d liu cú

cỏc thuc tớnh. Nhng trong thc t, xy ra hin tng d liu b thiu,
tc l mt s mu d liu cú nhng thuc tớnh khụng c xỏc
nh,hoc mõu thun, hoc khụng bỡnh thng. Ta xem xột k hn vi
trng hp d liu b thiu. n gin nht l khụng a cỏc mu vi cỏc
giỏ tr b thiu vo, nu lm nh vy thỡ cú th dn n tỡnh trng thiu
cỏc mu hc. Gi s T l mt tp hp gm cỏc mu cn c phõn loi,
X l phộp kim tra theo thuc tớnh L, U l s lng cỏc giỏ tr b thiu ca
thuc tớnh L. Khi ú ta cú
k

Info(T) = -

freq(C j ,T)

j=1

|T|-U

freq (C j , T )
*log 2

| T | U

n

|T|
*log 2 (Ti )
j=1 |T|-U

Info x (T) = -


(2.11)

(2.12)

Trong trng hp ny, khi tớnh tn s freq (Ci , T) ta ch tớnh riờng cỏc
mu vi giỏ tr trờn thuc tớnh L ó xỏc nh. Khi ú tiờu chun (2.8) c
vit li bng cụng thc (2.13) nh sau:
Gain( X ) =

| T | U
(Info(T)-Info x (T ))
|T |

(2.13)

Tng t thay i tiờu chun (2.13). Nu phộp kim tra cú N giỏ tr u
vo thỡ tiờu chun (2.13) c tớnh nh trong trng hp chia N tp hp ban
u thnh (N+1) tp hp con.

Gi s phộp th X cú cỏc giỏ tr O1,O2,.On c la chn theo tiu
chun (2.13), ta cn x lý nh th no vi cỏc d liu b thiu. Gi s mu t
tp hp T vi u ra l Oi cú liờn quan n tp hp Ti thỡ kh nng mu ú
thuc tp hp Ti l 1.

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

21




THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

Trng i hc s phm H Ni

Gi s mi mu trong Ti cú mt ch s xỏc nh xỏc sut thuc tp
hp Ti. Nu mu cú giỏ tr thuc tớnh L thỡ cú trng s bng 1. Nu trong
trng hp ngc li, thỡ mu ny liờn quan n tp con T1,T2,Tn vi xỏc

KIL
OBO
OKS
.CO
M

xut tng ng l :
T1

,

T2

| T | U | T | U

,...,

Tn


| T | U

Ta cú th d dng thy c rng tng cỏc xỏc xut ny bng 1.
n

Ti

T U = 1
i =1

Túm li gii phỏp ny c phỏt biu nh sau: xỏc sut xut hin ca
cỏc giỏ tr b thiu t l thun vi xỏc sut xut hin ca cỏc giỏ tr khụng
thiu.

Qua tỡm hiu trờn ta thy thut toỏn C4.5 l ci tin ca thut toỏn ID3
2.2.4. Thut toỏn SLIQ[5]

Thut toỏn SLIQ (Supervised Learning In Quest) c gi l thut toỏn
phõn lp leo thang nhanh. Thut toỏn ny cú th ỏp dng cho c hai kiu thuc
liờn tc v thuc tớnh ri rc.

Thut toỏn ny cú s dng k thut tin x lý phõn loi(Pre sorting) trc
khi xõy dng cõy, do ú gii quyt c vn b nh cho thut toỏn ID3.
Thut toỏn SLIQ cú s dng gii thut ct ta cõy hu hiu.
Thut toỏn SLIQ cú th phõn lp rt hiu qu i vi cỏc tp d liu ln v
khụng ph thuc vo s lng lp, s lng thuc tớnh v s lng mu trong
tp d liu.

Xõy dng cõy quyt nh theo thut toỏn ny chia ra lm 2 giai on:
1. Giai on to cõy


Vo: tp d liu hc T

Ra: cõy c phõn loi trờn tp T

Hm

MakeTree(TrainningData T)
{partition (T) ;}

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

22



THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

Trng i hc s phm H Ni

2. Giai on phõn chia tp d liu S
Th tc phõn loi tp S cú gi mó nh sau:
Function partition (Data S)

KIL
OBO
OKS
.CO

M

{

If <tt c cỏc giỏ tr ca tp S u thuc cựng mt lp>

Then
thỳc>

Else{ <ỏnh giỏ mi thuc tớnh A phõn chia>;

m cú giỏ tr chia tỏch tt nht>;

<Gi qui th tc Partition(S1)>;

<Gi qui th tc Partition(S2)>;

}

}

Ch s chia tỏch (Spliting index):

Vn t ra trong th tc Partition(S) trờn l lm th no ỏnh giỏ
thuc tớnh tt nht cho vic la chn thuc tớnh chia tỏch. ỏnh giỏ thuc
tớnh tt nht ú, thut toỏn SLIQ a vo mt i lng, gi l ch s hm
gini, ch s gini c nh ngha nh sau:


Nu tp d liu T gm n lp thỡ giỏ tr gini ca tp T ký hiu gini(T)
c xỏc nh bi cụng thc:

gini (T ) = 1 p 2j

(2.14)

Trong ú pj l tn sut xut hin ca lp j trong tp mu T.
Nu tp T c tỏch ra lm 2 tp con T1 v T2 thỡ ch s gini ca tp
T khi c chia tỏch ký hiu l gini(T)split c xỏc nh bi cụng
thc sau:

gini (T ) split =

T1
T
gini (T1 ) + 2 gini (T2 )
T
T

(2.15)

Sau khi tớnh toỏn ch s gini cho cỏc nỳt, thuc tớnh no cú ch s gini
nh nht s c chn thc hin tip vic trin khai cõy.
K thut tin x lý phõn loi(Pre_sorting Technique)

Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

23




Trng i hc s phm H Ni

THệ
VIEN ẹIEN Tệ TRệẽC TUYEN
Sinh viờn nghiờn cu khoa hc

K thut ny to ra mt lc , lc ny c to ra bng cỏch
sp xp d liu to ra ti mi nỳt. ng vi mi thuc tớnh cú mt danh sỏch
riờng to ra bi tp giỏ tr ca thuc tớnh v nh danh cỏc mu d liu. Mi

KIL
OBO
OKS
.CO
M

danh sỏch riờng gi l danh sỏch lp (class list). Cỏc danh sỏch riờng s to ra
tng ng nhón ca cõy gn vi cỏc mu hc.

Thut toỏn SLIQ yờu cu ti mt thi im cú mt danh sỏch lp v
ch mt danh sỏch thuc tớnh c lu tr trong b nh ca mỏy tớnh, cỏc
danh sỏch cũn li lu trờn a.
ỏnh giỏ s phõn chia:

Thut toỏn ỏnh giỏ phõn chia:
EvaluateSplits()
{


For <Vi mi thuc tớnh A> do
{

<Duyt danh sỏch cỏc giỏ tr ca thuc tớnh A>;

For <vi mi giỏ tr v trong danh sỏch thuc tớnh > do


lp tng ng vi nỳt lỏ 1>;

<Cp nht biu lp vo trong nỳt lỏ 1>;

If <A l thuc tớnh s> Then for <vi mi nỳt lỏ trong cõy> do
<Tỡm tp con ca tp A m cú ch s tỏch l tt nht>

}
}

Cp nht danh sỏch lp:

Thut toỏn cp nht danh sỏch lp:
UpdateLabels()

{ for<Vi mi thuc tớnh A c s dng trong mt phộp tỏch> do
{ <Duyt danh sỏch cỏc thuc tớnh ca A>;

For <Vi mi giỏ tr v trong danh sỏch cỏc thuc tớnh ca A>
do


Sinh viờn: Nguyn Th Hnh Lp: C-K54-CNTT

24


×