Tải bản đầy đủ (.pdf) (78 trang)

ứng dụng khai phá dữ liệu chọn ngành nghề cho học sinh thpt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.45 MB, 78 trang )

B ăGIÁOăD CăVÀOă ÀOăT O
TR

NGă

IăH CăQU CăT ăH NGăBÀNG

NGUY Nă

NGăTH ăVINH

NGăD NGăKHAIăPHỄăD ăLI U
CH NăNGÀNHăNGH ăCHOăH CăSINHăTHPT

LU NăV NăTH CăS ăKHOAăH CăMỄYăTệNH

TP.ăH ăCHệăMINHă- 2014


B ăGIÁOăD CăVÀOă ÀOăT O
TR

NGă

IăH CăQU CăT ăH NGăBÀNG

NGUY Nă

NGăTH ăVINH

NGăD NGăKHAI PHÁ D ăLI U


CH NăNGÀNHăNGH CHOăH CăSINHăTHPT
CHUYểNăNGÀNH:ăKHOAăH CăMÁYăTệNH
MẩăS :ă60.48.01

LU NăV NăTH CăS KHOAăH CăMỄYăTệNH

NG

IăH

NGăD NăKHOAăH C

TS.ăVÕă ÌNHăB Y

TP.ăH ăCHệăMINHă- N M 2014


CHU NăYăC AăH Iă

NGăB OăV ăLU NăV N

Lu năv năt aăđ : ắ ngăd ngăkhaiăpháăd ăli uăch năngƠnhăngh ăchoăh căsinhă
THPT” công trình đ

căắNguy nă

ngăTh ăVinh” th căhi năvƠăn pănh măth a

m tăph năyêuăc uăt tănghi păth căs ăchuyên ngƠnhăKhoaăH căMáyăTính.


Ch ăt chăH iăđ ng

Gi ngăviênăh

ngăd n

………………………….
………………………….

TS.ăBùiăV năMinh

TS.ăVõă ìnhăB y

(Tr

ng ngƠnhăKhoaăh cămáyătính,

Tr

ngă HăQu căt ăH ngăBƠng)

(Giámăđ căTrungătơmăTinăh c,
Tr

Ngày… tháng … n m 2014

ngă HăTônă

căTh ng)


Ngày… tháng … n m 2014

Ngày b o v lu n v n, Tp.HCM, Ngày 11 tháng 5 n m 2014
Vi nă ƠoăT oăSauă
Tr

ngă

iăH c

iăh căQu căt ăH ngăBƠng

……………………..


i

LụăL CHăCÁăNHỂN
- H tên: Nguy nă

ng Th Vinh

- Ngày sinh: 15/10/1982
- N iăsinh:ăNinhăThu n
- T t nghi p THPT t i tr

ng Nguy năDu,ăn mă2000

- Quá trình công tác:
Th iăgian


N iăcôngătác

2003-2004

Công ty CP máy tính Scitec

2005-2009

Tr

ngăCaoăđ ngăGTVTă3

Ch căv
P.Tr

ngăphòngăk ăthu t

Qu nălýăgiáoăv ăvƠăgi ngăd yăt iătrungă
tâm FCM

2010-2012

Tr

ngăCaoăđ ngăVi nă
ông

2012-nay


Tr

ngăCaoăđ ngăVi nă
ông

Tr

ngăPhòngă Ơoăt o,ăPhóăGiámăđ că
TrungătơmăTinăh c

PhóăGiámăđ căTrungătơmăTinăh c,ă
gi ngăviênăkhoaăCNTT

-

a ch liên l c: 58 T 8, p 1 Liên p 1-2-3,ăV nhăL c A, Bình Chánh, TP.HCM

-

i n tho i: 098.901.2.901

- Email:


ii
L IăCAMă OAN
Tôiăcamăđoanăr ngălu năv nănƠy:ăắ ngăd ngăkhaiăpháăd ăli uăch năngƠnhăngh ă
choăh căsinhăTHPT”ălƠăbƠiănghiênăc uăc aăchínhătôi.
Ngo iătr ănh ngătƠiăli uăthamăkh oăđ


cătríchăd nătrongălu năv nă nƠy,ătôiăcam

đoanăr ngătoƠnăph năhayănh ngăph nănh ăc aălu năv nănƠyăch aăt ngăđ
hayăđ

căcôngăb ă

căs ăd ngăđ ănh năb ngăc pă ănh ngăn iăkhác.

Khôngăcóăs năph m/ănghiênăc uănƠoăc aăng
nƠyămƠăkhôngăđ

iăkhácăđ

cătríchăd nătheoăđúngăquyăđ nh.

TP.HCM, ngày 10 tháng 04 n mă2014
Tácăgi ălu năv năă
(Ch ăký)

Nguy nă

ngăTh ăVinh

căs ăd ngătrongălu năv nă


iii
L IăC Mă N
L iăđ uătôiăxinăchơnăthƠnhăc mă năTS.ăVõă ìnhăB yăđưăt nătìnhăh


ngăd n,ăch ă

b oătôiătrongăsu tăth iăgianăth căhi nălu năv n.
TôiăxinăbƠyăt ălòngăbi tă năđ năcácăth yăcôătrongăVi n
tr

ngă

Ơoăt oăSauă

iăh că

iăh c Qu căt ăH ngăBƠngăđưăcungăc pănh ngăki năth căquýăbáuăchoătôiă

trongăsu tăquáătrìnhăh căt păvƠănghiênăc uăt iătr

ng.

Tôiăc ngăxinăg iăl iăc mă năđ năgiaăđình,ăb năbèăvƠănh ngăng

iăthơnăluônăquană

tơmăvƠăgiúpăđ ătôiătrongăsu tăth iăgianăh căt păvƠălƠmălu năv n.ăă
Doăth iăgianăvƠăki năth căcóăh nănênălu năv năch căkhôngătránhăkh iănh ngă
thi uăsótănh tăđ nh.ăTôiăr tămongănh năđ

căs ăgópăýăquýăbáuăc aăth yăcô.ăăă



iv
TÓM T T
Phơnăl păd ăli uălƠăm tătrongănh ngăh
ngh ănƠyăcóănhi uă ngăd ngătrongăl nhăv căth
Trongăcácămôăhìnhăphơnăl păđưăđ

ngănghiênăc uăchínhăc aăKPDL. Công
ngăm i,ăngơnăhƠng,ăyăt ,ăgiáoăd c, …

căđ ăxu t,ăcơyăquy tăđ nhăđ

căcoiălƠăm tă

côngăc ăm nh,ăph ăbi năvƠăđ căbi tăthíchăh păv iăcácă ngăd ngăKPDL.
Quaătìmăhi uănh ngăch căn ngăc aăKPDL,ălu năv năt pătrungăvƠoănghiênăc uă
cácăk ăthu tăphơnăl păb ngăcơyăquy tăđ nh.ăHi uăđ
đơy,ăt ăđóăn măđ

căcácăthu tătoánăhi uăqu ăg nă

cănh ngăđi măchínhăc năquanătơmăgi iăquy tătrongăm iăk ăthu tă

khaiăpháătriăth cătrênăCSDLăkh oăsátăl aăch năngƠnhăh c.
Trongăs ăcácăthu tătoán th

ngădùngăchoăbƠiătoánăphơnăl p,ăthu tătoánăC4.5ăcóă

đ ăchínhăxácăkháăcao,ăch yănhanhăvƠăd ăhi uăđ iăv iăng
li uă cóă nhi uă thu că tínhă thìăcơyă quy tă đ nhă thuă đ


iădùng,ănh ngăn uăt păd ă

căc ngă s ă khóă hi u;ă thu tă toánă

NaïveăBayesăthi uăchínhăxácăđ iăv iăcácăthu cătínhăph ăthu căl nănhauăvƠăkhóăhi u.ă
Khiăápăd ng k tăh păcácăbi năphápăti năx ălý l yăm uăd đ iăv iăl păthi uăs ăvƠ l yă
m uăthi u đ iăv iăl păđaăs ,ăk tăqu ăphơnăl păs ăt tăh n,ănh ngăvi căti năx ălýănƠyă
đòiăh iăph iăcóăki năth căsơu,ăkhôngăphùăh păv iăng

iădùngăkhôngăchuyên;ăthu tă

toán Neural Network cóăđ ăchínhăxácăcaoă nh ngă môăhìnhăkhóăhi uăđ iăv iăng
dùngăvƠăth iăgianăch yăth



ngăl n.

Lu năv năs ăd ngăthu tătoán ID3,ăchoăraămôăhìnhăphơnăl pălƠăm tăt pălu tăd



d ngăcơyăr tăđ năgi năvƠăd ăhi u,ăcóăđ ăchínhăxácăkháăcaoăvƠăth iăgianăch yăch pă
nh n đ

c.ăThu tătoán đ

căxơyăd ngătrênăn năwebsite,ăthu năti năchoăng

ăb tăc ăn iăđơuăcóăk tăn iăinternet.


iăs ăd ngă


v
ABSTRACT
Classification is one of the main research directions of data mining. This
technology has many applications in the fields of commerce, banking, health,
education, etc.
In the classification model has been proposed, decision trees are considered
powerful tool, common and suitable particularly for data mining applications.
By studying the basic functions of data mining, thesis focused on the research
techniques by decision tree classifier. Understand the recent efficient algorithms,
which understand the main points of interest in each technique solving exploration
database knowledge on the education.
Among the mostly used algorithms for the classification task, C4.5 can provide
decision trees which be easy to interpret, yet their interpretability may diminish the
more they become complex; Naïve Bayes networks are both inaccuracy for
interdependence attributes and difficult to understand. When we combine
oversampling the rare classes and undersampling the majority ones, classification
performance will be better, but this preprocessing technique requires thorough
knowledge, not suitable to non-professional users; Neural Networks have high
classification accuracy but cannot produce easy to understand classification models
for users and its running time is usually long.
This thesis using ID3 algorithm whose resulting classification models are set of
classification rules in the form of trees which are very simple and easy to understand,
with pretty high accuracy and acceptable run time. The algorithm is built on the web,
convenient for user in anywhere with an internet connection.



vi
M CăL C

L IăCAMă OAN ...................................................................................................... ii
L IăC Mă N ........................................................................................................... iii
TịMăT T ................................................................................................................. iv
ABSTRACT ................................................................................................................v
M CăL C ................................................................................................................. vi
DANHăM CăHỊNHăV ............................................................................................ ix
DANHăM CăB NG ...................................................................................................x
DANHăM CăT ăVI T T T .................................................................................... xi
CH

NGă1:ăT NGăQUAN .......................................................................................1

1.1. Lýădoăch nălu năv n ......................................................................................1
1.2. M cătiêuănghiênăc u ......................................................................................2
iăt

1.3.
1.3.1.
1.3.2.

ngăvƠăph măviănghiênăc u .................................................................2
iăt

ngănghiênăc u ..........................................................................2

Ph măviănghiênăc u .............................................................................2


1.4. Nhi măv ănghiênăc u ....................................................................................3
1.5. Ph

ngăphápănghiênăc u ...............................................................................3

1.6. ụăngh aăc aălu năv n .....................................................................................3
1.6.1.

ụăngh aăkhoaăh c .................................................................................3

1.6.2.

ụăngh aăth căti n .................................................................................3

1.7. C uătrúcălu năv n ...........................................................................................4
CH

NGă2:ăC ăS ăLụăTHUY T ...........................................................................5

2.1. T ngăquanăv ăkhaiăpháăd ăli u ......................................................................5
2.1.1.

Khaiăpháăd ăli uălƠăgì?.........................................................................5

2.1.2.

Quá trình KPDL ..................................................................................5


vii

2.2. Phơnăl pătrongăKPDL ....................................................................................7
2.2.1.

Phơnăl păd ăli u ...................................................................................7

2.2.2.

Phơnăl păd ăli uăb ngăcơyăquy tăđ nh .................................................9

2.2.3.

Phơnăl păd ăli uăb ngăgi iăthu tăh căILA .........................................10

2.2.4.

Phơnăl păd ăli uăb ngăm ngăNaïveăBayes.........................................11

2.2.5.

Phơnăl păd ăli uăb ngăNeuralăNetwork .............................................12

2.3. KPDLăs ăd ngălu tăk tăh p .........................................................................13
2.4. K ăthu tăKPDLăs ăd ngăcơyăquy tăđ nh .....................................................15
2.4.1.

Gi iăthi uăk ăthu tăKPDLăs ăd ngăcơyăquy tăđ nh ...........................15

2.4.2.

Cácăv năđ ătrongăKPDLăs ăd ngăcơyăquy tăđ nh ..............................15


2.4.3.

Xơyăd ngăcơyăquy tăđ nh ...................................................................19

2.4.4.

Thu tătoánăs ăd ngăxơyăd ngăcơyăquy tăđ nh ...................................20

2.4.5.

C tăt aăcơyăquy tăđ nh ........................................................................26

2.4.6.

ánhăgiáăđ ăchínhăxácăc aămôăhìnhăphơnăl p ...................................28

2.4.7.

Cácăcôngătrìnhănghiênăc uătr

căđơyăliênăquanăđ nălu năv n ...........29

CH

NGă3:ăXỂYăD NGă NGăD NG ................................................................30

3.1.

Gi iăthi uăbƠiătoán ...........................................................................................30


3.2.

Môăhìnhăc uătrúcăh ăth ng ..............................................................................30

3.2.1.ăMôăt ăđ uăvƠo/ăđ uăra ......................................................................................30
3.2.2.ăPh
3.3.

ngăphápăxơyăd ngăh ăth ng.....................................................................31

PhơnătíchăvƠăthi tăk ăh ăth ng .........................................................................31

3.3.1.

Thi tăk ăCSDL .............................................................................................31

3.3.2.

X ălýăvƠăhu năluy năd ăli u ........................................................................40

3.3.3.

Xơyăd ngăvƠăthi tăk ăgiaoădi năc aăch

ngătrình ........................................41

CH

NGă4:ăTH CăNGHI MăVÀă ÁNHăGIÁ .....................................................50


4.1.

D ăli uăth cănghi m .......................................................................................50


viii
4.2.

Môiătr

ngăth cănghi m .................................................................................51

4.3.

ánhăgiáăđ ăchínhăxácăc aăcơyăquy tăđ nh .....................................................51

4.4.

Phơnătích,ăsoăsánhăk tăqu ăvƠănh năxét............................................................52

CH
5.1.

NGă5:ăK TăLU NăVÀăH
K tăqu ăđ tăđ

NGăPHÁTăTRI N ..........................................57

căt ănghiênăc u ......................................................................57


5.2.

óngăgópălu năv n ..........................................................................................57

5.3.

H năch ...........................................................................................................57

5.4.

H

ngăphátătri nălu năv n...............................................................................58

K ăHO CHăNGHIểNăC U ....................................................................................59
TÀIăLI U THAMăKH O .........................................................................................60
PH ăL C ..................................................................................................................63
A.

B ăcôngăc ătr cănghi măđ nhăh

B.

Thôngătinăv ăngƠnhăh c,ătr

ngăngh ănghi păc aăJohnăHolland ...............63

ngăđƠoăt o,ăb căh c,ăkh iăthi,ăđi măchu n. .........64



ix
DANHăM CăHÌNH V
Hình 2.1: Quá trình KPDL [6] ....................................................................................5
Hình 2.2 (a): B

căh c/ăhu năluy nătrongăquáătrìnhăphơnăl păhaiăb

Hình 2.2 (b): B

căphơnăl pătrongăquáătrìnhăphơnăl păhaiăb

că[7] ...............7

că[7] ...........................7

Hìnhă2.3:ăM tăvíăd ăv ăcơyăquy tăđ nhă[7] ................................................................10
Hìnhă2.4:ăMôăhìnhă ngăd ngălu t ..............................................................................14
Hình 2.5: k-fold cross ậvalidation [3] .......................................................................28
Hìnhă3.1:ăMôăhìnhăc uătrúcăh ăth ngăt ăv năch năngƠnhăh c ...................................30
Hìnhă3.2:ăGiaoădi năch

ngătrình .............................................................................41

Hìnhă3.3:ăGiaoădi năPhi uăđ ngăkýătƠiăkho năs ăd ng .............................................41
Hìnhă3.4:ăGiaoădi năPhi uăkh oăsátăthôngătinăv ăs ăthích,ătíchăcách ........................44
Hìnhă3.5:ăGiaoădi năk tăqu ăth căhi nătínhăt ngăđi măt ngănhómăs ăthích ..............45
Hìnhă3.6:ăGiaoădi năk tăqu ăth căhi nătínhăt ngăđi măt ngănhómăs ăthíchă(thôngătină
đ ngăkýăbanăđ uăkhácăv iăk tăqu ăth căhi năkh oăsát) .............................................46
Hìnhă3.7:ăGiaoădi năk tăqu ăngƠnhăh căc aă2ănhómăcóăđi măs ăcaoănh t ................47

Hìnhă3.8:ăGiaoădi năk tăqu ăt ăv năch năngƠnhăh căc aăch

ngătrình .....................48

Hình 3.9: K tăqu ătr

căt ăv n .....................49

ngă H,ăC ăcóăđƠoăt oăngƠnhăh căđ

Hìnhă4.1:ăB ngăphơnăchiaăd ăli uătestă10-fold cross ậ validation .............................51
Hìnhă4.2:ăCh

ngătrìnhămôăph ngăch năngƠnh,ătr

ngăc aă HQGăTp.HCM .........53

Hìnhă4.3:ăK tăqu ăt ăv năch năngƠnhăc aălu năv n ..................................................54


x
DANHăM CăB NG
B ngă3.1:ăB ngăthôngătinăcácătr

ngă H,ăC ..........................................................31

B ngă3.2:ăB ngăl uăcácăngƠnh h căc aăcácătr

ngă H,ăC ....................................32


B ngă3.3:ăB ngăl uăđi mătrungăbình .........................................................................32
B ngă3.4:ăB ngăl uă6ănhómăs ăthích .........................................................................33
B ngă3.5:ăB ngăMưăngƠnhăthu cănhómăngƠnh ..........................................................33
B ngă3.6:ăB ngăl uăk tăqu ăkh oăsátăsinhăviên .........................................................33
B ngă3.7:ăB ngăkh iăthi ............................................................................................34
B ngă3.8:ăB ngăNgƠnhăh c .......................................................................................34
B ngă3.9:ăB ngăNhóm ngành ....................................................................................34
B ngă3.10:ăB ngăch aăthôngătinăt nh ........................................................................35
B ngă3.11:ăB ngăcơuăh iătr cănghi m .......................................................................35
B ngă3.12:ăB ngăthôngătinăkh oăsátăv ăch năngƠnhăh căc aăsinhăviên .....................36
B ngă3.13:ăB ngăchiăti tăthôngătinăkh oăsátăv ăch năngƠnhăh căc aăsinhăviên .........37
B ngă3.14:ăB ngăthôngătinăphi uăkh oăsát ................................................................38
B ngă3.15:ăB ngăthôngătinătr

ngăTHPT ..................................................................39

B ngă4.1:ăS ăli uăth căhi năkh oăsátăsinhăviên .........................................................50
B ngă4.2:ăS ăli uăchiăti tăt ngăngƠnh ........................................................................51
B ngă4.3:ăK tăqu ăđánhăgiáă10-fold cross - validation..............................................52
B ngă4.4:ăK tăqu ăch năngƠnh,ătr

ngăc aă HQGăTp.HCM...................................54

B ngă4.5:ăTh iăgianăth căhi năt ăv năch năngƠnh ....................................................54
B ngă4.6:ăB ngăsoăsánhăk tăqu ................................................................................55


xi
DANHăM CăT ăVI TăT T
KPDL


Khaiăpháăd ăli u

THPT

Trungăh căph ăthông

NB

Naïve Bayes

NN

Neural Network

CLS

Concept Learning System

CSDL

C ăs ăd ăli u



iăh c

C

Caoăđ ng


TCCN

Trungăc păchuyênănghi p

TB

i mătrungăbình

HSSV

H căsinhăsinhăviên

SV

Sinh viên

Q ă

Quy tăđ nh


1
CH

NGă1:ăT NGăQUAN

1.1. Lýădoăch nălu năv n
M cădùăch aăcóăs ăli uăth ngăkêăc ăth ,ănh ngăcóăth ăth yăr ngăh uăh tăh căsinhă
sauăkhiăhoƠnăt tăch


ngătrìnhăl pă12ăđ uăti păt căl aăch năchoămìnhănh ngătr

H,ăC ,ăTCCN.ăThôngăquaăvi căch nătr
đ

ngă

ng,ăch năngƠnhăngh ăs ăgiúpăcácăemăcóă

căki năth c,ăb ngăc p,ăk ăn ngălƠmăvi căđ ăđápă ngănhuăc uălaoăđ ngăc aăxưăh iă

sauăkhiăcácăemăt tănghi p.ăVi căch năđúngăngƠnhăngh ăgiúpăcácăemăđ nhăh

ngăđiă

phùăh păv iăkh ăn ngăc aăb năthơnămìnhăvƠătránhăkh iănh ngăl aăch năv iăvƠngăđ ă
r iăph iăb ăl ăr tănhi uăc ăh iămƠ đángăraăn uăch năvƠăđ nhăh

ngăs măvƠăđúngăcácă

emăs ăthƠnhăcông.ăDoăr tănhi uăy uăt ăkháchăquan,ăch ăquanăkhácăvƠăđaăph năcácăemă
ăcácăt nhăthƠnh,ăvi căti păc năcácăthôngătinăv ăch năngƠnhăngh ăc ngăh năch ăvƠă
thi uăthôngătinăđ ăl aăch năvƠăđ nhăh

ngăcho mình.

Vi căch năđúngăngƠnhăh cătrongăb iăc nhăkinhăt ,ăxưăh iăhi nănayănh mătránhă
vi căcóănhi uăcáănhơnăl aăch năsaiăngh ăs ăd năt iăgi măsútăch tăl
lưngăphíăchoăcôngătácăđƠoăt oăvƠăđƠoăt oăl i.ăCh tăl


ngăđƠoăt o,ăgơyă

ngăngu nănhơnăl căsauăđƠoăt oă

khôngăđ măb oăd năt iăn ngăsu tălaoăđ ngăkhôngăcao,ăn yăsinhănhi uăxáoătr năchoă
ho tăđ ngăc aăcácăt ăch c,ădoanhănghi păb iăcácăhi năt

ngănh :ăb ăngh ,ăchuy nă

ngh , …ăCácădoanhănghi păm tăthêmăchiăphíăđƠoăt oăvƠăđƠoăt oăl iăchoăđ iăng ăc aă
mình.
H c t p lƠăm tăquáătrìnhădƠiăvƠăkhóăkh n,ăđòiăh iăsinhăviênăph iăđ uăt ănhi uă
côngăs c,ăti năb căc aăcáănhơnăc ngănh ăgiaăđình,ăn uăth tăb iătrongăvi căch năngƠnhă
ngh ăs ăd năđ nănh ngăt năth tăl năv ăc ătinhăth năl năv tăch tăchoăsinhăviênăvƠăgiaă
đìnhăh .ăVi căđ nhăh

ngăch năđúngăngƠnhăngh ăs ăgiúpăcácăemătránhăkh iănh ngă

v năđ ătrên.
Vìăv y,ăcôngătácăh

ngănghi păch năngƠnhăngh ăchoăh căsinhăTHPTălƠăđi uăh tă

s căc năthi t.
Tr

cănh ngăth căt ăđó,ătôiăch nălu năv năắ ng d ng khai phá d li u ch n

ngành ngh cho h c sinh THPT”.ăLu năv năth căhi năvi căKPDLăt ăvi căkh oăsátă

ch năngƠnhăh căc aăsinhăviênăcácătr

ngă H,ăC ăđ ăd ăđoánăngƠnhăh căcho h căsinhă

THPT.ăD aăvƠoăk tăqu ăd ăđoánăđóăs ăgiúpăh căsinhăl aăch năchoămìnhăm tăngƠnhă
h căphùăh păv iăđi uăki năvƠăn ngăl căc aăb năthơnăđ ăđ tăđ

căk tăqu ăt tănh t.


2
1.2. M cătiêuănghiênăc u
- Tìm hi uăcácăk ăthu tăKPDL,ă ngăd ngăcácăk ăthu tăKPDLătrongăphơnătíchă
s ăli u,ăxơyăd ngăcácăt pălu tăch năngƠnhăh c d aăvƠoăk tăqu ăkh oăsátăth că
t ăsinhăviên.
- Xơyăd ngă ngăd ngăh ătr ăh căsinhăcácătr

ngăTHPTătrênăđ aăbƠnăt nhăNinhă

Thu năcóănh ngăl aăch năv ăngƠnhăh căphùăh păv iăb năthơnăvƠăh ătr ăcácă
cánăb ăchuyênătráchătuy năsinhăc aăcácătr

ngăTHPTătrênăđ aăbƠnăt nhăNinhă

Thu nănh năđ nhăvƠăđ ăraănh ngăbi năphápăphùăh pănh măt ăv năthêm cho
cácăemătrongăvi căxácăđ nhăngh ănghi păchoăb năthơn.
1.3.
1.3.1.

iăt

iăt

ngăvƠăph măviănghiênăc u
ngănghiênăc u

- Cácăk ăthu tăKPDL.
- D ăli uăkh oăsátăk tăqu ăch năngƠnhăh c.
- H ăth ngăt ăv n.
1.3.2. Ph măviănghiênăc u
- Cácăph

ngăphápăphơnăl p.ă ngăd ngăcácăh ăh ătr quy tăđ nhăvƠoăbƠiătoán.

- D ăli uăkh oăsátăth căt ăvi căch năngƠnhăh căc aăsinhăviênăthôngăquaăb ngă
cơuăh iătr cănghi măch năngƠnhăngh ăc aăTi năs Tơmălýăh căJohnăHolland,ă
nh măphátăhi năraăcácăđ căđi măchungăc aăHSSVătrongăvi căl aăch năngƠnhă
ngh ăh căt p t i m tăs ătr

ngă

iăh căvƠăcaoăđ ngăt iăTP.HCMăt pătrungă

vào 11 ngƠnhăh cănh :ăQu nătr ăkinhădoanh,ăNgônăng ăAnh,ăS ăph măToánă
h c,ăGiáoăd căti uăh c,ăCôngăngh ăk ăthu tăcôngătrìnhăxơyăd ng,ăQu nălýă
côngănghi p,ăVi tăNamăh c,ăCôngăngh ăthôngătin,ăK ătoán, Tài chính Ngân
hƠng,ăKhoaăh căth ăvi n.
- Xơyăd ngă ngăd ngăd ăđoánăngƠnhăh căđ ăh ătr ăt ăv năch năngƠnhăh că
choăh căsinhăcácătr

ngăTHPTăt iăt nhăNinhăThu n.



3
1.4. Nhi măv ănghiênăc u
- Nghiênăc uălýăthuy tăv ăKPDL,ăc ăth ălƠăcácăk ăthu tăphơnăl păvƠăcơyăquy tă
đ nh.
- Xácăđ nhăbƠiătoánăc ăth ălƠăxơyăd ngăcôngăc ăl aăch năngƠnhăh căvƠăchu nă
b ăngu năd ăli uăđ ăxơyăd ngăch

ngătrình.

- Xơyăd ngămôăhìnhăd ăđoánăngƠnhăh căc aăsinhăviênătheoăcácăk ăthu tăkhácă
nhauănh ăcơyăquy tăđ nh,ălu tăk tăh păvƠăki mătraăcácămôăhình.
- Xơyăd ngăch

ngătrìnhă ngăd ngămôăhìnhăđ

căl aăch năđ ăd ăđoánăngƠnhă

h căc aăh căsinhăd aăvƠoăcácăthôngătinăđ uăvƠo,ăt ăđóăth căhi năt ăv năch nă
ngƠnhăh căchoăh căsinhănh măđ tăđ
1.5. Ph

căk tăqu ăt tănh t.ăăă

ngăphápănghiênăc u

- Ph

ngăphápănghiênăc uălý thuy t:ăTìmăhi uăvƠăl aăch năph


ngăphápăKPDLă

thíchăh p.
- Ph

ngăphápănghiênăc uăthuăth păthôngătin,ăphơnătíchăs ăli u:ăThuăth păth ngă

kêăs ăli u t ăphi uăkh oăsátăsinhăviênă(tr căti p,ăpaper,ăwebsite), phân tích
nghiênăc uăcácătƠiăli u,ă ngăd ngăvƠăthamăkh oăýăki năc aăcácăchuyênăgiaă
liênă quană đ nă côngă tácă h

ngă nghi pă choă h că sinhă đ ă cóă đ

că cácă kinhă

nghi măt ăth căti n.ă
- Ph

ngăphápănghiênăc uăth cănghi m:ăPhơnătíchăthi tăk ăh ăth ng,ătri năkhaiă

xơyăd ngă ngăd ng.
1.6. ụăngh aăc aălu năv n
1.6.1. ụăngh aăkhoaăh c
Áp d ng các thu t toán KPDL trên d li u kh o sát l a ch n ngành h c. (D
li uăđ

c thu th p t cácătr

ngă H,ăC ăt i TP.HCM).


1.6.2. ụăngh aăth căti n
Lu năv n ng d ng KPDL ch n ngành ngh cho h căsinhăTHPTăđóngăgópănh ă
là m t công c h tr đ h c sinh ch năđúng ngành h c. K t qu , kinh nghi m
thuăđ

c khi th c hi n lu năv n này s giúp các t ch c giáo d c, nh ng cá

nhân làm công tác giáo d c ( Vi t Nam) phân lu ng l i h th ngăcácătr

ng


4
H,ăC ,ăTCCN,ăgiaoăch tiêuăđƠoăt oăchoăcácătr
trongăđƠoăt o.
1.7. C uătrúcălu năv n
Ch

ngă1:ăT ngăquan

Ch

ngă2:ăC ăs ălýăthuy t

Ch

ngă3:ăXơyăd ngă ngăd ng

Ch


ngă4:ăTh cănghi măvƠăđánhăgiá

Ch

ngă5:ăK tălu năvƠăh

ngăphátătri n

ng, nh m tránh vi c lãng phí


5
CH

NGă2:ăC ăS ăLụăTHUY T

2.1. T ngăquanăv khaiăpháăd ăli u
2.1.1. Khai phá d ăli u là gì?
Khaiăpháăd ăli uălƠăm tăkháiăni măraăđ iăvƠoăcu iănh ngăn mă1980.ăNóălƠăquáă
trìnhăkhámăpháăthôngătină năđ
b

cătìmăth yătrongăcácăCSDL vƠăcóăth ăxemănh ălƠăm tă

cătrongăquáătrìnhăkhámăpháătriăth c.ăKPDL lƠăgiaiăđo năquanătr ngănh tătrongăti nă

trìnhăkhaiăpháătriăth căt ăCSDL,ăcácătriăth cănƠyăh ătr ătrongăvi căraăquy tăđ nhătrongă
cácăl nhăv cănh :ăkhoaăh c,ăgiáoăd c [8] [15], kinh doanh, …
N mă1989ăFayyad,ăSmythăvƠăPiatestsky-Shapiroăđưădùngăkháiăni măPhátăhi nă

triăth căt ăCSDL (Knowledge Discovery in Database - KDD) trongăđóăKPDL lƠăm tă
giaiăđo năr tăđ căbi tătrongătoƠnăb ăquáătrình,ănóăs ăd ngăcácăk ăthu tăđ ătìmăraăcácă
m uăt ăd ăli u.
KPDL lƠăquáătrìnhăphátăhi năcácămôăhình,ăcácăt ngăk tăkhácănhauăvƠăcácăgiáătr ă
đ

căl yăt ăt păd ăli uăchoătr

c [11]. Hay,ăKPDLălƠăs ăth mădòăvƠăphơnătíchăl

ngă

d ăli uăl năđ ăkhámăpháăt ăd ăli uăraăcácăm uăh păl ,ăm iăl , cóăíchăvƠăcóăth ăhi uă
đ

că[23].

2.1.2. Quá trình KPDL
Quá trình KPDL s ăti năhƠnhăquaă6ăgiaiăđo nă[6], [7]
ánhăgiáălu t
Khaiăpháăd ăli u
Chuy năđ iăd ăli u
Ti năx ălýăvƠăchu nă
b ăd ăli u

Triăth c

Tríchăl căd ăli u

Mô hình


D ăli u

D ăli uăđích

D ăli uăđưă
x ălý

D ăli uăđưă
chuy năđ i

Hình 2.1: Quá trình KPDL [6]


6
B tăđ uăc aăquáătrìnhălƠăkhoăd ăli uăthôăvƠăk tăthúcăv iătriăth căđ

căchi tăxu tă

ra.ăV ălýăthuy tăthìăcóăv ăr tăđ năgi nănh ngăth căs ăđơyălƠăm tăquáătrìnhăr tăkhóăkh nă
g păph iăr tănhi uăv

ngăm cănh :ăqu nălýăcácăt păd ăli u,ăph iăl păđiăl păl iătoƠnăb ă

quá trình, …
2.1.2.1. T păh p d ăli uă(Data)
ơy là giaiăđo n đ uătiênătrongăquáătrìnhăKPDL. Giaiăđo n nƠyăl yăd ăli u trong
m tăCSDL,ăm tăkhoăd ăli uăvƠăd ăli uăt ăcácăngu năInternet.
2.1.2.2. Tríchăl căd ăli uă(Selection)
Giaiăđo nănƠyăd ăli uăđ


căl aăch năho căphơnăchiaătheoăm tăs ătiêuăchu nănƠoă

đó.
2.1.2.3. Ti năx ălýăvƠăchu năb d ăli uă(Preprocessing)
Giaiăđo n này r tăquanătr ngătrongăquáătrìnhăKPDL. M tăs ăl iăth

ngăm căph iă

trong khi thuăth p d ăli uănh ăthi uăthông tin, không logic...ăVìăv y,ăd ăli uăth

ngă

ch aăcácăgiáătr ăvôăngh aăvƠăkhôngăcóăkh ăn ngăk tăn iăd ăli u.ă
Giaiăđo nănƠyăti năhƠnhăx ălýănh ngăd ngăd ăli uănóiătrên.ăNh ngăd ăli uăd ngă
nƠyăđ

căxemănh ăthôngătinăd ăth a,ăkhôngăcóăgiáătr .ăVì v y,ăđơyălƠăm tăgiaiăđo n

r tăquanătr ngăvìăd ăli uănƠyăn uăkhôngăđ

călƠmăs chă- ti năx ălýă- chu năb ătr



thìăs ăgơyănênănh ngăk tăqu ăsaiăl chănghiêmătr ng trong KPDL.
2.1.2.4. Chuy năđ iăd ăli uă(Transformation)
Giaiăđo năchuy năđ iăd ăli u,ăd ăli uăđ aăraăcóăth ăs d ngăvƠăđi uăkhi năđ
b iăvi căt ăch căl iănó.ăD ăli uăđưăđ




căchuy năđ iăphùăh păv iăm căđíchăkhaiăthác.

2.1.2.5. Khaiăpháăd ăli u (Data Mining)
Giaiăđo n mangătínhăt ăduyătrongăKPDL.ă ăgiaiăđo nănƠyănhi uăthu tătoánăkhácă
nhauăđưăđ

căs ăd ngăđ ăxu tăra cácăm u t ăd ăli u.ăThu tătoánăth

ngădùngălƠăthu tă

toán phơnălo i d ăli u, k tăh păd ăli uăho căcácămôăhìnhăhóa d ăli uătu năt .
ơyălƠăgiaiăđo năđ
2.1.2.6.

cănhi uăng

iănghiênăc uănh t.ă

ánhăgiáăk tăqu ăm uă(Interpretation/ Evaluation)

Giaiăđo năcu iătrongăquáătrìnhăKPDL. Trong giaiăđo nănƠy,ăcácă m uăd ăli uă
đ

căchi tăxu tăraăb iăph năm măKPDL.ăKhôngăph iăb tăc ăm uăd ăli uănƠoăc ngă


7
đ uăh uăích,ăđôiăkhiănóăcònăb ăsaiăl ch.ăVìăv y,ăc năph iă uătiênănh ngătiêuăchu nă

đánhăgiáăđ ăđ a raăcácătriăth căc năthi tăvƠăs ăd ng đ

c.

2.2. Phơnăl pătrong KPDL
2.2.1. Phơnăl păd ăli u
Phơnăl păd ăli u lƠăm tăquáătrìnhăg măhaiăb
d ngănênăm tămôăhìnhăphơnăl p)ăvƠăm t b
d ngăđ

căh c (trongăđóăxơyă

căphơnăl p (trongăđóămôăhìnhăv aăxơyă

căs ăd ngăđ ăd ăđoánăcácănhưnăl păchoănh ngăd ăli u nƠoăđó).ă

Hình 2.2 minhăh aăquáătrìnhănƠyăchoătr
yăđưăđ

c:ăm t b

ngăh păd ăli uăxinăvayăti n.ăD ăli uă

căđ năgi năhóaăđ ăd ăminhăh a.ăTrongăth căt ,ăcóăth ătaăc năxemăxétănhi uă

thu cătínhăh n.

Hình 2.2 (a): B

c h c/ hu n luy n trong quá trình phân l p hai b


Hình 2.2 (b): B

c phân l p trong quá trình phân l p hai b

c [7]

c [7]


8
ăb
tr

căth ănh t,ătaăxơyă d ngă m tămôăhìnhăphơnăl pămôăt ă m tăb ă xácăđ nhă

c cácăl păd ăli uăhayăkháiăni m.ă ơyălƠ b

căh c (hayăgiaiăđo năhu năluy n),ă ă

đóăm t thu tătoán phân l păxơyăd ngănênămôăhìnhăphơnăl păb ngăcáchăphơnătíchăho că
ắh căh iăt ”ăm t t p hu n luy n hìnhăthƠnhăt ăcácăb năghiătrongăCSDL và các nhãn
l păliênăk tăv iăchúng.ăM iăb năghi X đ

căbi uădi năb iăm t vector thu c tính g m

n-chi u, X = (x1, x2,ă…, xn), mô t n giáătr ăđoăđưăth căhi n trênăb năghiăđóăt n thu că
tínhăt

ngă ngăc aăCSDL A1, A2, …, An.ăM iăb năghi X đ


l păđ

căquyăđ nhătr

c,ănh ăđ

căgi ăđ nhălƠăthu căv ăm tă

căxácăđ nhăb iăm t thu cătínhăkhácăc aăCSDL g iă

là thu c tính nhãn l p.
Thu cătínhănhưnăl pănƠyăcóătr ăr iăr căvƠăkhôngăcóăth ăt .ăNó có tính phân lo i
ăch ăm iăgiáătr ăc aănóăđóngăvaiătròăm t lo i ho c l p.ăCácăb năghiăriêngăt oăthƠnhă
t păhu năluy năđ

căg iălƠăcác b n ghi hu n luy n vƠăđ

căl yăm uăng uănhiênăt ă

CSDL đangăphơn tích.ăTrongăng ăc nhăphơnăl p,ăcácăb năghiăc aăCSDL cóăth ăđ
cácătƠiăli u khácănhauăg iălƠ m u, ví d , th hi n, đi m d li u,ăho c đ i t
Doănhưnăl păc aăm iăb năghiăhu năluy năđ uăđ
cònăđ



ng.

căcungăc păs n,ănênăb


cănƠy

căg iălƠ h c có giám sát,ăt călƠăvi căh căc aămôăhìnhăphơn l pălƠăắcóăgiámă

sát”ă ăch ănóăđ

căchoăbi tălƠăm iăb năghiăhu năluy năthu căv ăl p nƠo.ăNóătráiăv i

h c không giám sát,ătrongăđóătaăkhôngăbi tănhưnăl păc aăm iăb năghiăhu năluy năvƠă
cóăth ăc s ăl

ngăho căt păh păcácăl păc n h căn a.

M iăthu cătínhăđ iădi năchoăm tăắđ c đi m”ăc a X.ăDoăđóăcácătƠiăli uăv ănh nă
d ngăm uădùngăthu tăng vector đ c đi m thay cho vector thu c tính.ăTrongălu năv nă
này, tácăgi dùngăthu tăng ăvectorăthu cătính,ăvƠătrongăcáchăkýăhi uăc aătácăgi ,ăb tă
k ă bi nă nƠoă đ iă di nă choă m tă vectoră đ uă đ
nghiêng,ăcácăgiáătr ăđoămôăt ăvectorăđóăđ

că trìnhă bƠyă b ngă ki uă ch ă đ mă vƠă

cătrìnhăbƠyăb ngăki uăch ănghiêngă(víăd :

X = (x1, x2, x3)).
TrongăcácătƠiăli uăv ămáy h c,ăcácăb năghiăhu năluy năth

ngăđ

căg iălƠ m u


hu n luy n ho c ví d hu n luy n.
B

căth ănh tăc aăquáătrìnhăphơnăl păcònăcóăth ăđ

căxemănh ălƠăvi căh că(hay

tìmăki m)ăm tăánhăx ăhayăhƠm y = f (X)ămƠăcóăth ăd ăđoánăđ
v i m tăb năghi X choătr

cănhưnăl p y liênăk tă

c.ăTheoăcáchăquanăsátănƠy,ăchúngătaămu nătìmăraăm tăánhă

x hayăhƠmămƠăchiaătáchăcácăl păd ăli u.ăThôngăth

ng,ăánhăx ănƠyăđ

căbi uădi nă


9
d

i d ngăcácălu tăphơnăl p,ăcácăcơyăquy tăđ nh,ăho căcácăcôngăth cătoánăh c.ăTrongă

víăd d ăli uăxinăvayăngơnăhƠngăbênătrên,ăánhăx ănƠyăđ

căbi uădi năd


iăd ngăcácă

lu tăphơn l păgiúpănh nădi nănh ngăđ năxinăvayăti nănƠoălƠăanătoƠnăho căr iăroă(Hình
2.2 (a)). Các lu tănƠyăcóăth ăđ

cădùngăđ ăphơnălo iăcácăb năghiăd ăli uătrongăt

ngă

laiăc ngănh giúpătaăhi uăbi tăsơuăh nătrongăn iădungăd ăli u.ăChúngăc ngăcungăc pă
m t cáchăbi uădi năd ăli uăng năg n,ăcôăđ ng.
ăb

căth ăhaiă(Hình 2.2 (b)),ămôăhìnhătìmăđ

că ăb

căth ănh tăs ăđ

cădùngă

căh t,ătaăđánhăgiá đ chính xác d đoán

cho vi căphơnălo iănh ngăd ăli uăm i.ăTr

(predictiveăaccuracy)ăc aămôăhìnhăphơnălo iă y.ăN uănh ătaădùngăt păhu năluy năđ
đánhăgiáăđ ăchínhăxácăc aămôăhìnhăphơnăl păthìăvi căđánhăgiáănƠyănhi uăkh ăn ngălƠ
quáăl căquan,ăb iăvìămôăhìnhă yăcóăkhuynhăh


ng quá kh p d ăli uă(t călƠ trong quá

trìnhăh c,ănóăcóăth ăsápănh păluônăm tăs ătr

ngăh păb tăth

ngăc aăd ăli u hu nă

luy n,ăv năkhôngăhi nădi nătrongăt ngăth ăt păd ăli uănóiăchung).ăVìăth ,ătaădùng m t
t p ki m tra,ăbaoăg măcác b n ghi ki m tra vƠăcácănhưnăl p liênăk tăv iăchúng,ăđ ă
th căhi năvi căđánhăgiáănƠy.ăCácăb năghiăki mătraănƠyăđ căl p v iăcácăb năghiăhu nă
luy n,ăngh aălƠăchúngăkhôngăđ

cădùngăđ ăxơyăd ngămôăhình phơnăl p.

chính xác c aăm tămôăhìnhăphơnăl pătrênăm tăt păki mătraăxác đ nhălƠăt ăl ă
cácăb năghiăc aăt păki mătraăđ

căphơnălo iăđúngăđ năb iămôăhìnhăphơn l pă y.ăNhãn

l păliênăk tăc aăm iăb năghiăki mătraăđ

căsoăsánhăv iăs ăd ăđoánăl păc a mô hình

phơnăl păh că ngăv iăb năghiăđó.ă
M că2.4.6.1 (Trongăch

ngă2) môăt ăvƠiăph

ngăpháp đ ăđánhăgiáăđ ăchínhăxácă


c aămôăhìnhăphơnăl p.ăN uăđ ăchínhăxácăc aămôăhìnhăphơn l p đ
nh năđ

c,ăthìămôăhìnhăphơnăl păcóăth ăđ

li uătrongăt

cădùngăđ ăphơnălo iănh ngăb năghiăd ă

ngălaiămƠănhưnăl păch aăbi t.ă

Víăd ,ăcácălu tăphơnăl păh căđ
c aănh ngăđ năxinăvayăti nălúcătr
tra,ăthìăcóăth ăđ
s cóătrongăt

căxemălƠăch pă

cătrongăHình 2.2 (a) t ăvi căphơnătíchăd ăli u

c,ăn uăcóăđ ăchínhăxácăcaoăkhiăphơnăl păt păki m

cădùngăđ ăchu năthu năho căbácănh ngăđ năxinăvayăti năm iăho că

ngălai,ănh ăđ

căminhăh aătrongăHình 2.2 (b).

2.2.2. Phơnăl păd ăli uăb ngăcơyăquy tăđ nh

Quy n p cây quy t đ nh (decisionătreeăinduction)ălƠăvi cătìmăki măcácăcơyăquy t
đ nhăt ănh ngăb năghiăhu năluy năđưăcóănhưnăl p.ăM i cơyăquy tăđ nh (decision tree)


10
lƠăm tăc uătrúcăcơyăki uăl uăđ ,ătrongăđóăm i nút trong bi uăth ăm tăs ki mătraătrênă
m tăthu cătínhănƠoăđó,ăm i nhánh bi uădi năm tăk tăqu ăc aăs ki mătraăđó,ăcònăm i
nút lá ch aăm tănhưnăl p.ăNútă trênăcùngăc aăcơyălƠ nút g c,ăch aătênăc aăthu cătínhă
c năki mătra.ăHìnhă2.3 choăth yăm tăcơyăquy tăđ nhătiêuăbi u.ăCácănútătrong đ
di năb ngăcácăhìnhăch ănh t,ăcònăcácănútăláăđ

căbi uă

căbi u di năb ngăcácăhìnhăb uăd c.ă

M tăs ăthu tătoán cơyăquy tăđ nhăch ăsinhăraăcác cây nh phân (trongăđóăm iănútătrong
r ănhánhăđ năhaiănútăkhác),ătrongăkhiănh ngăthu tătoán cơyăquy tăđ nhăkhácăcóăth ă
sinhăraănh ngăcơyăkhôngănh ăphơn.
Cácăcơyăquy tăđ nhăđ

cădùngăchoăphơnăl pănh ăth ănƠo?ăChoăm tăb năghi X

nào đóămƠătaăch aăbi tănhưnăl păliênăk tăv iănó,ăcácăgiáătr ăthu cătínhăc aăb năghiăđóă
đ

c ki mătraăsoăv iăcơyăquy tăđ nh.ăD aătheoănh ngăcu căki mătraăđó,ătaăl năraăm tă

đ

ng điăt ăg căđ năm tănútăláăch aăk tăqu ăd ăđoánăl pădƠnhăchoăb năghiă y.ăCácă


cơyăquy tăđ nhăcóăth ăd ădƠngăđ

căchuy năđ iăthƠnhăcác lu t phân l p,ăt c hìnhăth că

phơnălo iăđ năgi năvƠăd ăhi uănh tăđ iăv iăconăng

i [30].

Hình 2.3: M t ví d v cây quy t đ nh [7]
2.2.3. Phơnăl păd ăli uăb ngăgi iăthu tăh căILA
- Thu t gi iăILAăđ

cădùngăđ xácăđ nh các lu t phân lo i cho t p h p các m u

h c. Thu t gi i này th c hi nătheoăc ăch l p,ăđ tìm lu tăriêngăđ i di n cho t p
m u c a t ng l p.ăSauăkhiăxácăđ nhăđ

c lu t, thu t gi i s lo i b các m u mà

lu tănƠyăbaoăhƠm,ăđ ng th i thêm lu t m i này vào t p lu t. K t qu cóăđ
m t danh sách có th t các lu t. [26], [28].
- Mô t thu t gi i ILA [27]

c là


11
+ B


c 1: Chia b ng con có ch a m m u thành n b ng con. M t b ng con ng

v i m t giá tr c a thu c tính phân l p (L p l i t b

că2ăđ năb

c 8 cho

m i b ng con).
+ B

c 2: Kh i t o s l

+ B

c 3: V i m i b ngăconăđangăxét,ăphơnăchiaăcácăthu c tính c a nó thành

ng thu c tính k t h p j v i j = 1.

m t danh sách các thu c tính k t h p, m i thành ph n c a danh sách có j
thu c tính phân bi t.
+ B

c 4: V i m i k t h p các thu cătínhătrongădanhăsáchătrên,ăđ m s l n

xu t hi n các giá tr cho các thu c tính trong k t h păđóă cácădòngăch aăb
khóa c a b ngăđangăxétănh ngănóăkhôngăđ

c xu t hi n cùng giá tr


nh ng

b ng con khác. Ch n ra m t k t h p trong danh sách sao cho nó có giá tr
t

ngă ng xu t hi n nhi u nh tăvƠăđ

c g i là Max_combination.

+ B

c 5: N u Max_combination = 0 thì j = j+1 quay l iăb

+ B

c 6: Khóa các dòng

c 3.

b ngăconăđangăxétămƠăt iăđóăgiáătr b ng v i giá

tr t o ra Max_combination.
+ B

c 7: Thêm vào R lu t m i v i gi

thuy t là các giá tr t o ra

Max_combination k t n i các b này b ng phép AND, k t lu n là giá tr
c a thu c tính quy tăđ nh trong b ngăconăđangăxét.

+ B

c 8: N u t t c cácădòngăđ u khóa:
 N u còn b ng con thì qua b ng con ti p theo và quay l iăb
 Ng
Ng

c 2.

c l i ch m d t thu t toán.

c l i quay l iăb

c 4.

2.2.4. Phơnăl păd ăli uăb ngăm ngăNaïveăBayes
Cácămôăhìnhăphơnăl păd aătheoăBayesă(Bayesianăclassifier)ălƠălo iămôăhình phân
l pătheoălýăthuy tăth ngăkê.ăChúngăcóăth ăd ăđoánăxácăsu tăc aăcácăthƠnhăviênăl p,
ch ngăh năxácăsu tăđ ăm tăb năghiănh tăđ nhăthu căv ăm tăl păc ăth ănƠoăđó.ăPhơnă
l p d aătheoăBayesăc năc ăvƠoăn năt ngălýăthuy tălƠăđ nhălýăBayesă(đ

căđ tătheoătên

c a ThomasăBayes,ănhƠătoánăh căAnhăvƠoăth ăk ă18).
Thu tătoán phơnăl păNaïveăBayesă(NB)ăgi ăđ nhăr ngă nhăh

ngăc aăm tăgiáătr

thu cătínhănƠoăđóătrênăm tăl pănh tăđ nhălƠăđ căl păv iăcácăgiáătr ăc aăcácăthu cătính
khác.ă Gi ă đ nhă nƠyă đ


că g iă lƠ s đ c l p theo đi u ki n l p (class-conditional


×