B ăGIÁOăD CăVÀOă ÀOăT O
TR
NGă
IăH CăQU CăT ăH NGăBÀNG
NGUY Nă
NGăTH ăVINH
NGăD NGăKHAIăPHỄăD ăLI U
CH NăNGÀNHăNGH ăCHOăH CăSINHăTHPT
LU NăV NăTH CăS ăKHOAăH CăMỄYăTệNH
TP.ăH ăCHệăMINHă- 2014
B ăGIÁOăD CăVÀOă ÀOăT O
TR
NGă
IăH CăQU CăT ăH NGăBÀNG
NGUY Nă
NGăTH ăVINH
NGăD NGăKHAI PHÁ D ăLI U
CH NăNGÀNHăNGH CHOăH CăSINHăTHPT
CHUYểNăNGÀNH:ăKHOAăH CăMÁYăTệNH
MẩăS :ă60.48.01
LU NăV NăTH CăS KHOAăH CăMỄYăTệNH
NG
IăH
NGăD NăKHOAăH C
TS.ăVÕă ÌNHăB Y
TP.ăH ăCHệăMINHă- N M 2014
CHU NăYăC AăH Iă
NGăB OăV ăLU NăV N
Lu năv năt aăđ : ắ ngăd ngăkhaiăpháăd ăli uăch năngƠnhăngh ăchoăh căsinhă
THPT” công trình đ
căắNguy nă
ngăTh ăVinh” th căhi năvƠăn pănh măth a
m tăph năyêuăc uăt tănghi păth căs ăchuyên ngƠnhăKhoaăH căMáyăTính.
Ch ăt chăH iăđ ng
Gi ngăviênăh
ngăd n
………………………….
………………………….
TS.ăBùiăV năMinh
TS.ăVõă ìnhăB y
(Tr
ng ngƠnhăKhoaăh cămáyătính,
Tr
ngă HăQu căt ăH ngăBƠng)
(Giámăđ căTrungătơmăTinăh c,
Tr
Ngày… tháng … n m 2014
ngă HăTônă
căTh ng)
Ngày… tháng … n m 2014
Ngày b o v lu n v n, Tp.HCM, Ngày 11 tháng 5 n m 2014
Vi nă ƠoăT oăSauă
Tr
ngă
iăH c
iăh căQu căt ăH ngăBƠng
……………………..
i
LụăL CHăCÁăNHỂN
- H tên: Nguy nă
ng Th Vinh
- Ngày sinh: 15/10/1982
- N iăsinh:ăNinhăThu n
- T t nghi p THPT t i tr
ng Nguy năDu,ăn mă2000
- Quá trình công tác:
Th iăgian
N iăcôngătác
2003-2004
Công ty CP máy tính Scitec
2005-2009
Tr
ngăCaoăđ ngăGTVTă3
Ch căv
P.Tr
ngăphòngăk ăthu t
Qu nălýăgiáoăv ăvƠăgi ngăd yăt iătrungă
tâm FCM
2010-2012
Tr
ngăCaoăđ ngăVi nă
ông
2012-nay
Tr
ngăCaoăđ ngăVi nă
ông
Tr
ngăPhòngă Ơoăt o,ăPhóăGiámăđ că
TrungătơmăTinăh c
PhóăGiámăđ căTrungătơmăTinăh c,ă
gi ngăviênăkhoaăCNTT
-
a ch liên l c: 58 T 8, p 1 Liên p 1-2-3,ăV nhăL c A, Bình Chánh, TP.HCM
-
i n tho i: 098.901.2.901
- Email:
ii
L IăCAMă OAN
Tôiăcamăđoanăr ngălu năv nănƠy:ăắ ngăd ngăkhaiăpháăd ăli uăch năngƠnhăngh ă
choăh căsinhăTHPT”ălƠăbƠiănghiênăc uăc aăchínhătôi.
Ngo iătr ănh ngătƠiăli uăthamăkh oăđ
cătríchăd nătrongălu năv nă nƠy,ătôiăcam
đoanăr ngătoƠnăph năhayănh ngăph nănh ăc aălu năv nănƠyăch aăt ngăđ
hayăđ
căcôngăb ă
căs ăd ngăđ ănh năb ngăc pă ănh ngăn iăkhác.
Khôngăcóăs năph m/ănghiênăc uănƠoăc aăng
nƠyămƠăkhôngăđ
iăkhácăđ
cătríchăd nătheoăđúngăquyăđ nh.
TP.HCM, ngày 10 tháng 04 n mă2014
Tácăgi ălu năv năă
(Ch ăký)
Nguy nă
ngăTh ăVinh
căs ăd ngătrongălu năv nă
iii
L IăC Mă N
L iăđ uătôiăxinăchơnăthƠnhăc mă năTS.ăVõă ìnhăB yăđưăt nătìnhăh
ngăd n,ăch ă
b oătôiătrongăsu tăth iăgianăth căhi nălu năv n.
TôiăxinăbƠyăt ălòngăbi tă năđ năcácăth yăcôătrongăVi n
tr
ngă
Ơoăt oăSauă
iăh că
iăh c Qu căt ăH ngăBƠngăđưăcungăc pănh ngăki năth căquýăbáuăchoătôiă
trongăsu tăquáătrìnhăh căt păvƠănghiênăc uăt iătr
ng.
Tôiăc ngăxinăg iăl iăc mă năđ năgiaăđình,ăb năbèăvƠănh ngăng
iăthơnăluônăquană
tơmăvƠăgiúpăđ ătôiătrongăsu tăth iăgianăh căt păvƠălƠmălu năv n.ăă
Doăth iăgianăvƠăki năth căcóăh nănênălu năv năch căkhôngătránhăkh iănh ngă
thi uăsótănh tăđ nh.ăTôiăr tămongănh năđ
căs ăgópăýăquýăbáuăc aăth yăcô.ăăă
iv
TÓM T T
Phơnăl păd ăli uălƠăm tătrongănh ngăh
ngh ănƠyăcóănhi uă ngăd ngătrongăl nhăv căth
Trongăcácămôăhìnhăphơnăl păđưăđ
ngănghiênăc uăchínhăc aăKPDL. Công
ngăm i,ăngơnăhƠng,ăyăt ,ăgiáoăd c, …
căđ ăxu t,ăcơyăquy tăđ nhăđ
căcoiălƠăm tă
côngăc ăm nh,ăph ăbi năvƠăđ căbi tăthíchăh păv iăcácă ngăd ngăKPDL.
Quaătìmăhi uănh ngăch căn ngăc aăKPDL,ălu năv năt pătrungăvƠoănghiênăc uă
cácăk ăthu tăphơnăl păb ngăcơyăquy tăđ nh.ăHi uăđ
đơy,ăt ăđóăn măđ
căcácăthu tătoánăhi uăqu ăg nă
cănh ngăđi măchínhăc năquanătơmăgi iăquy tătrongăm iăk ăthu tă
khaiăpháătriăth cătrênăCSDLăkh oăsátăl aăch năngƠnhăh c.
Trongăs ăcácăthu tătoán th
ngădùngăchoăbƠiătoánăphơnăl p,ăthu tătoánăC4.5ăcóă
đ ăchínhăxácăkháăcao,ăch yănhanhăvƠăd ăhi uăđ iăv iăng
li uă cóă nhi uă thu că tínhă thìăcơyă quy tă đ nhă thuă đ
iădùng,ănh ngăn uăt păd ă
căc ngă s ă khóă hi u;ă thu tă toánă
NaïveăBayesăthi uăchínhăxácăđ iăv iăcácăthu cătínhăph ăthu căl nănhauăvƠăkhóăhi u.ă
Khiăápăd ng k tăh păcácăbi năphápăti năx ălý l yăm uăd đ iăv iăl păthi uăs ăvƠ l yă
m uăthi u đ iăv iăl păđaăs ,ăk tăqu ăphơnăl păs ăt tăh n,ănh ngăvi căti năx ălýănƠyă
đòiăh iăph iăcóăki năth căsơu,ăkhôngăphùăh păv iăng
iădùngăkhôngăchuyên;ăthu tă
toán Neural Network cóăđ ăchínhăxácăcaoă nh ngă môăhìnhăkhóăhi uăđ iăv iăng
dùngăvƠăth iăgianăch yăth
iă
ngăl n.
Lu năv năs ăd ngăthu tătoán ID3,ăchoăraămôăhìnhăphơnăl pălƠăm tăt pălu tăd
iă
d ngăcơyăr tăđ năgi năvƠăd ăhi u,ăcóăđ ăchínhăxácăkháăcaoăvƠăth iăgianăch yăch pă
nh n đ
c.ăThu tătoán đ
căxơyăd ngătrênăn năwebsite,ăthu năti năchoăng
ăb tăc ăn iăđơuăcóăk tăn iăinternet.
iăs ăd ngă
v
ABSTRACT
Classification is one of the main research directions of data mining. This
technology has many applications in the fields of commerce, banking, health,
education, etc.
In the classification model has been proposed, decision trees are considered
powerful tool, common and suitable particularly for data mining applications.
By studying the basic functions of data mining, thesis focused on the research
techniques by decision tree classifier. Understand the recent efficient algorithms,
which understand the main points of interest in each technique solving exploration
database knowledge on the education.
Among the mostly used algorithms for the classification task, C4.5 can provide
decision trees which be easy to interpret, yet their interpretability may diminish the
more they become complex; Naïve Bayes networks are both inaccuracy for
interdependence attributes and difficult to understand. When we combine
oversampling the rare classes and undersampling the majority ones, classification
performance will be better, but this preprocessing technique requires thorough
knowledge, not suitable to non-professional users; Neural Networks have high
classification accuracy but cannot produce easy to understand classification models
for users and its running time is usually long.
This thesis using ID3 algorithm whose resulting classification models are set of
classification rules in the form of trees which are very simple and easy to understand,
with pretty high accuracy and acceptable run time. The algorithm is built on the web,
convenient for user in anywhere with an internet connection.
vi
M CăL C
L IăCAMă OAN ...................................................................................................... ii
L IăC Mă N ........................................................................................................... iii
TịMăT T ................................................................................................................. iv
ABSTRACT ................................................................................................................v
M CăL C ................................................................................................................. vi
DANHăM CăHỊNHăV ............................................................................................ ix
DANHăM CăB NG ...................................................................................................x
DANHăM CăT ăVI T T T .................................................................................... xi
CH
NGă1:ăT NGăQUAN .......................................................................................1
1.1. Lýădoăch nălu năv n ......................................................................................1
1.2. M cătiêuănghiênăc u ......................................................................................2
iăt
1.3.
1.3.1.
1.3.2.
ngăvƠăph măviănghiênăc u .................................................................2
iăt
ngănghiênăc u ..........................................................................2
Ph măviănghiênăc u .............................................................................2
1.4. Nhi măv ănghiênăc u ....................................................................................3
1.5. Ph
ngăphápănghiênăc u ...............................................................................3
1.6. ụăngh aăc aălu năv n .....................................................................................3
1.6.1.
ụăngh aăkhoaăh c .................................................................................3
1.6.2.
ụăngh aăth căti n .................................................................................3
1.7. C uătrúcălu năv n ...........................................................................................4
CH
NGă2:ăC ăS ăLụăTHUY T ...........................................................................5
2.1. T ngăquanăv ăkhaiăpháăd ăli u ......................................................................5
2.1.1.
Khaiăpháăd ăli uălƠăgì?.........................................................................5
2.1.2.
Quá trình KPDL ..................................................................................5
vii
2.2. Phơnăl pătrongăKPDL ....................................................................................7
2.2.1.
Phơnăl păd ăli u ...................................................................................7
2.2.2.
Phơnăl păd ăli uăb ngăcơyăquy tăđ nh .................................................9
2.2.3.
Phơnăl păd ăli uăb ngăgi iăthu tăh căILA .........................................10
2.2.4.
Phơnăl păd ăli uăb ngăm ngăNaïveăBayes.........................................11
2.2.5.
Phơnăl păd ăli uăb ngăNeuralăNetwork .............................................12
2.3. KPDLăs ăd ngălu tăk tăh p .........................................................................13
2.4. K ăthu tăKPDLăs ăd ngăcơyăquy tăđ nh .....................................................15
2.4.1.
Gi iăthi uăk ăthu tăKPDLăs ăd ngăcơyăquy tăđ nh ...........................15
2.4.2.
Cácăv năđ ătrongăKPDLăs ăd ngăcơyăquy tăđ nh ..............................15
2.4.3.
Xơyăd ngăcơyăquy tăđ nh ...................................................................19
2.4.4.
Thu tătoánăs ăd ngăxơyăd ngăcơyăquy tăđ nh ...................................20
2.4.5.
C tăt aăcơyăquy tăđ nh ........................................................................26
2.4.6.
ánhăgiáăđ ăchínhăxácăc aămôăhìnhăphơnăl p ...................................28
2.4.7.
Cácăcôngătrìnhănghiênăc uătr
căđơyăliênăquanăđ nălu năv n ...........29
CH
NGă3:ăXỂYăD NGă NGăD NG ................................................................30
3.1.
Gi iăthi uăbƠiătoán ...........................................................................................30
3.2.
Môăhìnhăc uătrúcăh ăth ng ..............................................................................30
3.2.1.ăMôăt ăđ uăvƠo/ăđ uăra ......................................................................................30
3.2.2.ăPh
3.3.
ngăphápăxơyăd ngăh ăth ng.....................................................................31
PhơnătíchăvƠăthi tăk ăh ăth ng .........................................................................31
3.3.1.
Thi tăk ăCSDL .............................................................................................31
3.3.2.
X ălýăvƠăhu năluy năd ăli u ........................................................................40
3.3.3.
Xơyăd ngăvƠăthi tăk ăgiaoădi năc aăch
ngătrình ........................................41
CH
NGă4:ăTH CăNGHI MăVÀă ÁNHăGIÁ .....................................................50
4.1.
D ăli uăth cănghi m .......................................................................................50
viii
4.2.
Môiătr
ngăth cănghi m .................................................................................51
4.3.
ánhăgiáăđ ăchínhăxácăc aăcơyăquy tăđ nh .....................................................51
4.4.
Phơnătích,ăsoăsánhăk tăqu ăvƠănh năxét............................................................52
CH
5.1.
NGă5:ăK TăLU NăVÀăH
K tăqu ăđ tăđ
NGăPHÁTăTRI N ..........................................57
căt ănghiênăc u ......................................................................57
5.2.
óngăgópălu năv n ..........................................................................................57
5.3.
H năch ...........................................................................................................57
5.4.
H
ngăphátătri nălu năv n...............................................................................58
K ăHO CHăNGHIểNăC U ....................................................................................59
TÀIăLI U THAMăKH O .........................................................................................60
PH ăL C ..................................................................................................................63
A.
B ăcôngăc ătr cănghi măđ nhăh
B.
Thôngătinăv ăngƠnhăh c,ătr
ngăngh ănghi păc aăJohnăHolland ...............63
ngăđƠoăt o,ăb căh c,ăkh iăthi,ăđi măchu n. .........64
ix
DANHăM CăHÌNH V
Hình 2.1: Quá trình KPDL [6] ....................................................................................5
Hình 2.2 (a): B
căh c/ăhu năluy nătrongăquáătrìnhăphơnăl păhaiăb
Hình 2.2 (b): B
căphơnăl pătrongăquáătrìnhăphơnăl păhaiăb
că[7] ...............7
că[7] ...........................7
Hìnhă2.3:ăM tăvíăd ăv ăcơyăquy tăđ nhă[7] ................................................................10
Hìnhă2.4:ăMôăhìnhă ngăd ngălu t ..............................................................................14
Hình 2.5: k-fold cross ậvalidation [3] .......................................................................28
Hìnhă3.1:ăMôăhìnhăc uătrúcăh ăth ngăt ăv năch năngƠnhăh c ...................................30
Hìnhă3.2:ăGiaoădi năch
ngătrình .............................................................................41
Hìnhă3.3:ăGiaoădi năPhi uăđ ngăkýătƠiăkho năs ăd ng .............................................41
Hìnhă3.4:ăGiaoădi năPhi uăkh oăsátăthôngătinăv ăs ăthích,ătíchăcách ........................44
Hìnhă3.5:ăGiaoădi năk tăqu ăth căhi nătínhăt ngăđi măt ngănhómăs ăthích ..............45
Hìnhă3.6:ăGiaoădi năk tăqu ăth căhi nătínhăt ngăđi măt ngănhómăs ăthíchă(thôngătină
đ ngăkýăbanăđ uăkhácăv iăk tăqu ăth căhi năkh oăsát) .............................................46
Hìnhă3.7:ăGiaoădi năk tăqu ăngƠnhăh căc aă2ănhómăcóăđi măs ăcaoănh t ................47
Hìnhă3.8:ăGiaoădi năk tăqu ăt ăv năch năngƠnhăh căc aăch
ngătrình .....................48
Hình 3.9: K tăqu ătr
căt ăv n .....................49
ngă H,ăC ăcóăđƠoăt oăngƠnhăh căđ
Hìnhă4.1:ăB ngăphơnăchiaăd ăli uătestă10-fold cross ậ validation .............................51
Hìnhă4.2:ăCh
ngătrìnhămôăph ngăch năngƠnh,ătr
ngăc aă HQGăTp.HCM .........53
Hìnhă4.3:ăK tăqu ăt ăv năch năngƠnhăc aălu năv n ..................................................54
x
DANHăM CăB NG
B ngă3.1:ăB ngăthôngătinăcácătr
ngă H,ăC ..........................................................31
B ngă3.2:ăB ngăl uăcácăngƠnh h căc aăcácătr
ngă H,ăC ....................................32
B ngă3.3:ăB ngăl uăđi mătrungăbình .........................................................................32
B ngă3.4:ăB ngăl uă6ănhómăs ăthích .........................................................................33
B ngă3.5:ăB ngăMưăngƠnhăthu cănhómăngƠnh ..........................................................33
B ngă3.6:ăB ngăl uăk tăqu ăkh oăsátăsinhăviên .........................................................33
B ngă3.7:ăB ngăkh iăthi ............................................................................................34
B ngă3.8:ăB ngăNgƠnhăh c .......................................................................................34
B ngă3.9:ăB ngăNhóm ngành ....................................................................................34
B ngă3.10:ăB ngăch aăthôngătinăt nh ........................................................................35
B ngă3.11:ăB ngăcơuăh iătr cănghi m .......................................................................35
B ngă3.12:ăB ngăthôngătinăkh oăsátăv ăch năngƠnhăh căc aăsinhăviên .....................36
B ngă3.13:ăB ngăchiăti tăthôngătinăkh oăsátăv ăch năngƠnhăh căc aăsinhăviên .........37
B ngă3.14:ăB ngăthôngătinăphi uăkh oăsát ................................................................38
B ngă3.15:ăB ngăthôngătinătr
ngăTHPT ..................................................................39
B ngă4.1:ăS ăli uăth căhi năkh oăsátăsinhăviên .........................................................50
B ngă4.2:ăS ăli uăchiăti tăt ngăngƠnh ........................................................................51
B ngă4.3:ăK tăqu ăđánhăgiáă10-fold cross - validation..............................................52
B ngă4.4:ăK tăqu ăch năngƠnh,ătr
ngăc aă HQGăTp.HCM...................................54
B ngă4.5:ăTh iăgianăth căhi năt ăv năch năngƠnh ....................................................54
B ngă4.6:ăB ngăsoăsánhăk tăqu ................................................................................55
xi
DANHăM CăT ăVI TăT T
KPDL
Khaiăpháăd ăli u
THPT
Trungăh căph ăthông
NB
Naïve Bayes
NN
Neural Network
CLS
Concept Learning System
CSDL
C ăs ăd ăli u
Hă
iăh c
C
Caoăđ ng
TCCN
Trungăc păchuyênănghi p
TB
i mătrungăbình
HSSV
H căsinhăsinhăviên
SV
Sinh viên
Q ă
Quy tăđ nh
1
CH
NGă1:ăT NGăQUAN
1.1. Lýădoăch nălu năv n
M cădùăch aăcóăs ăli uăth ngăkêăc ăth ,ănh ngăcóăth ăth yăr ngăh uăh tăh căsinhă
sauăkhiăhoƠnăt tăch
ngătrìnhăl pă12ăđ uăti păt căl aăch năchoămìnhănh ngătr
H,ăC ,ăTCCN.ăThôngăquaăvi căch nătr
đ
ngă
ng,ăch năngƠnhăngh ăs ăgiúpăcácăemăcóă
căki năth c,ăb ngăc p,ăk ăn ngălƠmăvi căđ ăđápă ngănhuăc uălaoăđ ngăc aăxưăh iă
sauăkhiăcácăemăt tănghi p.ăVi căch năđúngăngƠnhăngh ăgiúpăcácăemăđ nhăh
ngăđiă
phùăh păv iăkh ăn ngăc aăb năthơnămìnhăvƠătránhăkh iănh ngăl aăch năv iăvƠngăđ ă
r iăph iăb ăl ăr tănhi uăc ăh iămƠ đángăraăn uăch năvƠăđ nhăh
ngăs măvƠăđúngăcácă
emăs ăthƠnhăcông.ăDoăr tănhi uăy uăt ăkháchăquan,ăch ăquanăkhácăvƠăđaăph năcácăemă
ăcácăt nhăthƠnh,ăvi căti păc năcácăthôngătinăv ăch năngƠnhăngh ăc ngăh năch ăvƠă
thi uăthôngătinăđ ăl aăch năvƠăđ nhăh
ngăcho mình.
Vi căch năđúngăngƠnhăh cătrongăb iăc nhăkinhăt ,ăxưăh iăhi nănayănh mătránhă
vi căcóănhi uăcáănhơnăl aăch năsaiăngh ăs ăd năt iăgi măsútăch tăl
lưngăphíăchoăcôngătácăđƠoăt oăvƠăđƠoăt oăl i.ăCh tăl
ngăđƠoăt o,ăgơyă
ngăngu nănhơnăl căsauăđƠoăt oă
khôngăđ măb oăd năt iăn ngăsu tălaoăđ ngăkhôngăcao,ăn yăsinhănhi uăxáoătr năchoă
ho tăđ ngăc aăcácăt ăch c,ădoanhănghi păb iăcácăhi năt
ngănh :ăb ăngh ,ăchuy nă
ngh , …ăCácădoanhănghi păm tăthêmăchiăphíăđƠoăt oăvƠăđƠoăt oăl iăchoăđ iăng ăc aă
mình.
H c t p lƠăm tăquáătrìnhădƠiăvƠăkhóăkh n,ăđòiăh iăsinhăviênăph iăđ uăt ănhi uă
côngăs c,ăti năb căc aăcáănhơnăc ngănh ăgiaăđình,ăn uăth tăb iătrongăvi căch năngƠnhă
ngh ăs ăd năđ nănh ngăt năth tăl năv ăc ătinhăth năl năv tăch tăchoăsinhăviênăvƠăgiaă
đìnhăh .ăVi căđ nhăh
ngăch năđúngăngƠnhăngh ăs ăgiúpăcácăemătránhăkh iănh ngă
v năđ ătrên.
Vìăv y,ăcôngătácăh
ngănghi păch năngƠnhăngh ăchoăh căsinhăTHPTălƠăđi uăh tă
s căc năthi t.
Tr
cănh ngăth căt ăđó,ătôiăch nălu năv năắ ng d ng khai phá d li u ch n
ngành ngh cho h c sinh THPT”.ăLu năv năth căhi năvi căKPDLăt ăvi căkh oăsátă
ch năngƠnhăh căc aăsinhăviênăcácătr
ngă H,ăC ăđ ăd ăđoánăngƠnhăh căcho h căsinhă
THPT.ăD aăvƠoăk tăqu ăd ăđoánăđóăs ăgiúpăh căsinhăl aăch năchoămìnhăm tăngƠnhă
h căphùăh păv iăđi uăki năvƠăn ngăl căc aăb năthơnăđ ăđ tăđ
căk tăqu ăt tănh t.
2
1.2. M cătiêuănghiênăc u
- Tìm hi uăcácăk ăthu tăKPDL,ă ngăd ngăcácăk ăthu tăKPDLătrongăphơnătíchă
s ăli u,ăxơyăd ngăcácăt pălu tăch năngƠnhăh c d aăvƠoăk tăqu ăkh oăsátăth că
t ăsinhăviên.
- Xơyăd ngă ngăd ngăh ătr ăh căsinhăcácătr
ngăTHPTătrênăđ aăbƠnăt nhăNinhă
Thu năcóănh ngăl aăch năv ăngƠnhăh căphùăh păv iăb năthơnăvƠăh ătr ăcácă
cánăb ăchuyênătráchătuy năsinhăc aăcácătr
ngăTHPTătrênăđ aăbƠnăt nhăNinhă
Thu nănh năđ nhăvƠăđ ăraănh ngăbi năphápăphùăh pănh măt ăv năthêm cho
cácăemătrongăvi căxácăđ nhăngh ănghi păchoăb năthơn.
1.3.
1.3.1.
iăt
iăt
ngăvƠăph măviănghiênăc u
ngănghiênăc u
- Cácăk ăthu tăKPDL.
- D ăli uăkh oăsátăk tăqu ăch năngƠnhăh c.
- H ăth ngăt ăv n.
1.3.2. Ph măviănghiênăc u
- Cácăph
ngăphápăphơnăl p.ă ngăd ngăcácăh ăh ătr quy tăđ nhăvƠoăbƠiătoán.
- D ăli uăkh oăsátăth căt ăvi căch năngƠnhăh căc aăsinhăviênăthôngăquaăb ngă
cơuăh iătr cănghi măch năngƠnhăngh ăc aăTi năs Tơmălýăh căJohnăHolland,ă
nh măphátăhi năraăcácăđ căđi măchungăc aăHSSVătrongăvi căl aăch năngƠnhă
ngh ăh căt p t i m tăs ătr
ngă
iăh căvƠăcaoăđ ngăt iăTP.HCMăt pătrungă
vào 11 ngƠnhăh cănh :ăQu nătr ăkinhădoanh,ăNgônăng ăAnh,ăS ăph măToánă
h c,ăGiáoăd căti uăh c,ăCôngăngh ăk ăthu tăcôngătrìnhăxơyăd ng,ăQu nălýă
côngănghi p,ăVi tăNamăh c,ăCôngăngh ăthôngătin,ăK ătoán, Tài chính Ngân
hƠng,ăKhoaăh căth ăvi n.
- Xơyăd ngă ngăd ngăd ăđoánăngƠnhăh căđ ăh ătr ăt ăv năch năngƠnhăh că
choăh căsinhăcácătr
ngăTHPTăt iăt nhăNinhăThu n.
3
1.4. Nhi măv ănghiênăc u
- Nghiênăc uălýăthuy tăv ăKPDL,ăc ăth ălƠăcácăk ăthu tăphơnăl păvƠăcơyăquy tă
đ nh.
- Xácăđ nhăbƠiătoánăc ăth ălƠăxơyăd ngăcôngăc ăl aăch năngƠnhăh căvƠăchu nă
b ăngu năd ăli uăđ ăxơyăd ngăch
ngătrình.
- Xơyăd ngămôăhìnhăd ăđoánăngƠnhăh căc aăsinhăviênătheoăcácăk ăthu tăkhácă
nhauănh ăcơyăquy tăđ nh,ălu tăk tăh păvƠăki mătraăcácămôăhình.
- Xơyăd ngăch
ngătrìnhă ngăd ngămôăhìnhăđ
căl aăch năđ ăd ăđoánăngƠnhă
h căc aăh căsinhăd aăvƠoăcácăthôngătinăđ uăvƠo,ăt ăđóăth căhi năt ăv năch nă
ngƠnhăh căchoăh căsinhănh măđ tăđ
1.5. Ph
căk tăqu ăt tănh t.ăăă
ngăphápănghiênăc u
- Ph
ngăphápănghiênăc uălý thuy t:ăTìmăhi uăvƠăl aăch năph
ngăphápăKPDLă
thíchăh p.
- Ph
ngăphápănghiênăc uăthuăth păthôngătin,ăphơnătíchăs ăli u:ăThuăth păth ngă
kêăs ăli u t ăphi uăkh oăsátăsinhăviênă(tr căti p,ăpaper,ăwebsite), phân tích
nghiênăc uăcácătƠiăli u,ă ngăd ngăvƠăthamăkh oăýăki năc aăcácăchuyênăgiaă
liênă quană đ nă côngă tácă h
ngă nghi pă choă h că sinhă đ ă cóă đ
că cácă kinhă
nghi măt ăth căti n.ă
- Ph
ngăphápănghiênăc uăth cănghi m:ăPhơnătíchăthi tăk ăh ăth ng,ătri năkhaiă
xơyăd ngă ngăd ng.
1.6. ụăngh aăc aălu năv n
1.6.1. ụăngh aăkhoaăh c
Áp d ng các thu t toán KPDL trên d li u kh o sát l a ch n ngành h c. (D
li uăđ
c thu th p t cácătr
ngă H,ăC ăt i TP.HCM).
1.6.2. ụăngh aăth căti n
Lu năv n ng d ng KPDL ch n ngành ngh cho h căsinhăTHPTăđóngăgópănh ă
là m t công c h tr đ h c sinh ch năđúng ngành h c. K t qu , kinh nghi m
thuăđ
c khi th c hi n lu năv n này s giúp các t ch c giáo d c, nh ng cá
nhân làm công tác giáo d c ( Vi t Nam) phân lu ng l i h th ngăcácătr
ng
4
H,ăC ,ăTCCN,ăgiaoăch tiêuăđƠoăt oăchoăcácătr
trongăđƠoăt o.
1.7. C uătrúcălu năv n
Ch
ngă1:ăT ngăquan
Ch
ngă2:ăC ăs ălýăthuy t
Ch
ngă3:ăXơyăd ngă ngăd ng
Ch
ngă4:ăTh cănghi măvƠăđánhăgiá
Ch
ngă5:ăK tălu năvƠăh
ngăphátătri n
ng, nh m tránh vi c lãng phí
5
CH
NGă2:ăC ăS ăLụăTHUY T
2.1. T ngăquanăv khaiăpháăd ăli u
2.1.1. Khai phá d ăli u là gì?
Khaiăpháăd ăli uălƠăm tăkháiăni măraăđ iăvƠoăcu iănh ngăn mă1980.ăNóălƠăquáă
trìnhăkhámăpháăthôngătină năđ
b
cătìmăth yătrongăcácăCSDL vƠăcóăth ăxemănh ălƠăm tă
cătrongăquáătrìnhăkhámăpháătriăth c.ăKPDL lƠăgiaiăđo năquanătr ngănh tătrongăti nă
trìnhăkhaiăpháătriăth căt ăCSDL,ăcácătriăth cănƠyăh ătr ătrongăvi căraăquy tăđ nhătrongă
cácăl nhăv cănh :ăkhoaăh c,ăgiáoăd c [8] [15], kinh doanh, …
N mă1989ăFayyad,ăSmythăvƠăPiatestsky-Shapiroăđưădùngăkháiăni măPhátăhi nă
triăth căt ăCSDL (Knowledge Discovery in Database - KDD) trongăđóăKPDL lƠăm tă
giaiăđo năr tăđ căbi tătrongătoƠnăb ăquáătrình,ănóăs ăd ngăcácăk ăthu tăđ ătìmăraăcácă
m uăt ăd ăli u.
KPDL lƠăquáătrìnhăphátăhi năcácămôăhình,ăcácăt ngăk tăkhácănhauăvƠăcácăgiáătr ă
đ
căl yăt ăt păd ăli uăchoătr
c [11]. Hay,ăKPDLălƠăs ăth mădòăvƠăphơnătíchăl
ngă
d ăli uăl năđ ăkhámăpháăt ăd ăli uăraăcácăm uăh păl ,ăm iăl , cóăíchăvƠăcóăth ăhi uă
đ
că[23].
2.1.2. Quá trình KPDL
Quá trình KPDL s ăti năhƠnhăquaă6ăgiaiăđo nă[6], [7]
ánhăgiáălu t
Khaiăpháăd ăli u
Chuy năđ iăd ăli u
Ti năx ălýăvƠăchu nă
b ăd ăli u
Triăth c
Tríchăl căd ăli u
Mô hình
D ăli u
D ăli uăđích
D ăli uăđưă
x ălý
D ăli uăđưă
chuy năđ i
Hình 2.1: Quá trình KPDL [6]
6
B tăđ uăc aăquáătrìnhălƠăkhoăd ăli uăthôăvƠăk tăthúcăv iătriăth căđ
căchi tăxu tă
ra.ăV ălýăthuy tăthìăcóăv ăr tăđ năgi nănh ngăth căs ăđơyălƠăm tăquáătrìnhăr tăkhóăkh nă
g păph iăr tănhi uăv
ngăm cănh :ăqu nălýăcácăt păd ăli u,ăph iăl păđiăl păl iătoƠnăb ă
quá trình, …
2.1.2.1. T păh p d ăli uă(Data)
ơy là giaiăđo n đ uătiênătrongăquáătrìnhăKPDL. Giaiăđo n nƠyăl yăd ăli u trong
m tăCSDL,ăm tăkhoăd ăli uăvƠăd ăli uăt ăcácăngu năInternet.
2.1.2.2. Tríchăl căd ăli uă(Selection)
Giaiăđo nănƠyăd ăli uăđ
căl aăch năho căphơnăchiaătheoăm tăs ătiêuăchu nănƠoă
đó.
2.1.2.3. Ti năx ălýăvƠăchu năb d ăli uă(Preprocessing)
Giaiăđo n này r tăquanătr ngătrongăquáătrìnhăKPDL. M tăs ăl iăth
ngăm căph iă
trong khi thuăth p d ăli uănh ăthi uăthông tin, không logic...ăVìăv y,ăd ăli uăth
ngă
ch aăcácăgiáătr ăvôăngh aăvƠăkhôngăcóăkh ăn ngăk tăn iăd ăli u.ă
Giaiăđo nănƠyăti năhƠnhăx ălýănh ngăd ngăd ăli uănóiătrên.ăNh ngăd ăli uăd ngă
nƠyăđ
căxemănh ăthôngătinăd ăth a,ăkhôngăcóăgiáătr .ăVì v y,ăđơyălƠăm tăgiaiăđo n
r tăquanătr ngăvìăd ăli uănƠyăn uăkhôngăđ
călƠmăs chă- ti năx ălýă- chu năb ătr
că
thìăs ăgơyănênănh ngăk tăqu ăsaiăl chănghiêmătr ng trong KPDL.
2.1.2.4. Chuy năđ iăd ăli uă(Transformation)
Giaiăđo năchuy năđ iăd ăli u,ăd ăli uăđ aăraăcóăth ăs d ngăvƠăđi uăkhi năđ
b iăvi căt ăch căl iănó.ăD ăli uăđưăđ
că
căchuy năđ iăphùăh păv iăm căđíchăkhaiăthác.
2.1.2.5. Khaiăpháăd ăli u (Data Mining)
Giaiăđo n mangătínhăt ăduyătrongăKPDL.ă ăgiaiăđo nănƠyănhi uăthu tătoánăkhácă
nhauăđưăđ
căs ăd ngăđ ăxu tăra cácăm u t ăd ăli u.ăThu tătoánăth
ngădùngălƠăthu tă
toán phơnălo i d ăli u, k tăh păd ăli uăho căcácămôăhìnhăhóa d ăli uătu năt .
ơyălƠăgiaiăđo năđ
2.1.2.6.
cănhi uăng
iănghiênăc uănh t.ă
ánhăgiáăk tăqu ăm uă(Interpretation/ Evaluation)
Giaiăđo năcu iătrongăquáătrìnhăKPDL. Trong giaiăđo nănƠy,ăcácă m uăd ăli uă
đ
căchi tăxu tăraăb iăph năm măKPDL.ăKhôngăph iăb tăc ăm uăd ăli uănƠoăc ngă
7
đ uăh uăích,ăđôiăkhiănóăcònăb ăsaiăl ch.ăVìăv y,ăc năph iă uătiênănh ngătiêuăchu nă
đánhăgiáăđ ăđ a raăcácătriăth căc năthi tăvƠăs ăd ng đ
c.
2.2. Phơnăl pătrong KPDL
2.2.1. Phơnăl păd ăli u
Phơnăl păd ăli u lƠăm tăquáătrìnhăg măhaiăb
d ngănênăm tămôăhìnhăphơnăl p)ăvƠăm t b
d ngăđ
căh c (trongăđóăxơyă
căphơnăl p (trongăđóămôăhìnhăv aăxơyă
căs ăd ngăđ ăd ăđoánăcácănhưnăl păchoănh ngăd ăli u nƠoăđó).ă
Hình 2.2 minhăh aăquáătrìnhănƠyăchoătr
yăđưăđ
c:ăm t b
ngăh păd ăli uăxinăvayăti n.ăD ăli uă
căđ năgi năhóaăđ ăd ăminhăh a.ăTrongăth căt ,ăcóăth ătaăc năxemăxétănhi uă
thu cătínhăh n.
Hình 2.2 (a): B
c h c/ hu n luy n trong quá trình phân l p hai b
Hình 2.2 (b): B
c phân l p trong quá trình phân l p hai b
c [7]
c [7]
8
ăb
tr
căth ănh t,ătaăxơyă d ngă m tămôăhìnhăphơnăl pămôăt ă m tăb ă xácăđ nhă
c cácăl păd ăli uăhayăkháiăni m.ă ơyălƠ b
căh c (hayăgiaiăđo năhu năluy n),ă ă
đóăm t thu tătoán phân l păxơyăd ngănênămôăhìnhăphơnăl păb ngăcáchăphơnătíchăho că
ắh căh iăt ”ăm t t p hu n luy n hìnhăthƠnhăt ăcácăb năghiătrongăCSDL và các nhãn
l păliênăk tăv iăchúng.ăM iăb năghi X đ
căbi uădi năb iăm t vector thu c tính g m
n-chi u, X = (x1, x2,ă…, xn), mô t n giáătr ăđoăđưăth căhi n trênăb năghiăđóăt n thu că
tínhăt
ngă ngăc aăCSDL A1, A2, …, An.ăM iăb năghi X đ
l păđ
căquyăđ nhătr
c,ănh ăđ
căgi ăđ nhălƠăthu căv ăm tă
căxácăđ nhăb iăm t thu cătínhăkhácăc aăCSDL g iă
là thu c tính nhãn l p.
Thu cătínhănhưnăl pănƠyăcóătr ăr iăr căvƠăkhôngăcóăth ăt .ăNó có tính phân lo i
ăch ăm iăgiáătr ăc aănóăđóngăvaiătròăm t lo i ho c l p.ăCácăb năghiăriêngăt oăthƠnhă
t păhu năluy năđ
căg iălƠăcác b n ghi hu n luy n vƠăđ
căl yăm uăng uănhiênăt ă
CSDL đangăphơn tích.ăTrongăng ăc nhăphơnăl p,ăcácăb năghiăc aăCSDL cóăth ăđ
cácătƠiăli u khácănhauăg iălƠ m u, ví d , th hi n, đi m d li u,ăho c đ i t
Doănhưnăl păc aăm iăb năghiăhu năluy năđ uăđ
cònăđ
că
ng.
căcungăc păs n,ănênăb
cănƠy
căg iălƠ h c có giám sát,ăt călƠăvi căh căc aămôăhìnhăphơn l pălƠăắcóăgiámă
sát”ă ăch ănóăđ
căchoăbi tălƠăm iăb năghiăhu năluy năthu căv ăl p nƠo.ăNóătráiăv i
h c không giám sát,ătrongăđóătaăkhôngăbi tănhưnăl păc aăm iăb năghiăhu năluy năvƠă
cóăth ăc s ăl
ngăho căt păh păcácăl păc n h căn a.
M iăthu cătínhăđ iădi năchoăm tăắđ c đi m”ăc a X.ăDoăđóăcácătƠiăli uăv ănh nă
d ngăm uădùngăthu tăng vector đ c đi m thay cho vector thu c tính.ăTrongălu năv nă
này, tácăgi dùngăthu tăng ăvectorăthu cătính,ăvƠătrongăcáchăkýăhi uăc aătácăgi ,ăb tă
k ă bi nă nƠoă đ iă di nă choă m tă vectoră đ uă đ
nghiêng,ăcácăgiáătr ăđoămôăt ăvectorăđóăđ
că trìnhă bƠyă b ngă ki uă ch ă đ mă vƠă
cătrìnhăbƠyăb ngăki uăch ănghiêngă(víăd :
X = (x1, x2, x3)).
TrongăcácătƠiăli uăv ămáy h c,ăcácăb năghiăhu năluy năth
ngăđ
căg iălƠ m u
hu n luy n ho c ví d hu n luy n.
B
căth ănh tăc aăquáătrìnhăphơnăl păcònăcóăth ăđ
căxemănh ălƠăvi căh că(hay
tìmăki m)ăm tăánhăx ăhayăhƠm y = f (X)ămƠăcóăth ăd ăđoánăđ
v i m tăb năghi X choătr
cănhưnăl p y liênăk tă
c.ăTheoăcáchăquanăsátănƠy,ăchúngătaămu nătìmăraăm tăánhă
x hayăhƠmămƠăchiaătáchăcácăl păd ăli u.ăThôngăth
ng,ăánhăx ănƠyăđ
căbi uădi nă
9
d
i d ngăcácălu tăphơnăl p,ăcácăcơyăquy tăđ nh,ăho căcácăcôngăth cătoánăh c.ăTrongă
víăd d ăli uăxinăvayăngơnăhƠngăbênătrên,ăánhăx ănƠyăđ
căbi uădi năd
iăd ngăcácă
lu tăphơn l păgiúpănh nădi nănh ngăđ năxinăvayăti nănƠoălƠăanătoƠnăho căr iăroă(Hình
2.2 (a)). Các lu tănƠyăcóăth ăđ
cădùngăđ ăphơnălo iăcácăb năghiăd ăli uătrongăt
ngă
laiăc ngănh giúpătaăhi uăbi tăsơuăh nătrongăn iădungăd ăli u.ăChúngăc ngăcungăc pă
m t cáchăbi uădi năd ăli uăng năg n,ăcôăđ ng.
ăb
căth ăhaiă(Hình 2.2 (b)),ămôăhìnhătìmăđ
că ăb
căth ănh tăs ăđ
cădùngă
căh t,ătaăđánhăgiá đ chính xác d đoán
cho vi căphơnălo iănh ngăd ăli uăm i.ăTr
(predictiveăaccuracy)ăc aămôăhìnhăphơnălo iă y.ăN uănh ătaădùngăt păhu năluy năđ
đánhăgiáăđ ăchínhăxácăc aămôăhìnhăphơnăl păthìăvi căđánhăgiáănƠyănhi uăkh ăn ngălƠ
quáăl căquan,ăb iăvìămôăhìnhă yăcóăkhuynhăh
ng quá kh p d ăli uă(t călƠ trong quá
trìnhăh c,ănóăcóăth ăsápănh păluônăm tăs ătr
ngăh păb tăth
ngăc aăd ăli u hu nă
luy n,ăv năkhôngăhi nădi nătrongăt ngăth ăt păd ăli uănóiăchung).ăVìăth ,ătaădùng m t
t p ki m tra,ăbaoăg măcác b n ghi ki m tra vƠăcácănhưnăl p liênăk tăv iăchúng,ăđ ă
th căhi năvi căđánhăgiáănƠy.ăCácăb năghiăki mătraănƠyăđ căl p v iăcácăb năghiăhu nă
luy n,ăngh aălƠăchúngăkhôngăđ
cădùngăđ ăxơyăd ngămôăhình phơnăl p.
chính xác c aăm tămôăhìnhăphơnăl pătrênăm tăt păki mătraăxác đ nhălƠăt ăl ă
cácăb năghiăc aăt păki mătraăđ
căphơnălo iăđúngăđ năb iămôăhìnhăphơn l pă y.ăNhãn
l păliênăk tăc aăm iăb năghiăki mătraăđ
căsoăsánhăv iăs ăd ăđoánăl păc a mô hình
phơnăl păh că ngăv iăb năghiăđó.ă
M că2.4.6.1 (Trongăch
ngă2) môăt ăvƠiăph
ngăpháp đ ăđánhăgiáăđ ăchínhăxácă
c aămôăhìnhăphơnăl p.ăN uăđ ăchínhăxácăc aămôăhìnhăphơn l p đ
nh năđ
c,ăthìămôăhìnhăphơnăl păcóăth ăđ
li uătrongăt
cădùngăđ ăphơnălo iănh ngăb năghiăd ă
ngălaiămƠănhưnăl păch aăbi t.ă
Víăd ,ăcácălu tăphơnăl păh căđ
c aănh ngăđ năxinăvayăti nălúcătr
tra,ăthìăcóăth ăđ
s cóătrongăt
căxemălƠăch pă
cătrongăHình 2.2 (a) t ăvi căphơnătíchăd ăli u
c,ăn uăcóăđ ăchínhăxácăcaoăkhiăphơnăl păt păki m
cădùngăđ ăchu năthu năho căbácănh ngăđ năxinăvayăti năm iăho că
ngălai,ănh ăđ
căminhăh aătrongăHình 2.2 (b).
2.2.2. Phơnăl păd ăli uăb ngăcơyăquy tăđ nh
Quy n p cây quy t đ nh (decisionătreeăinduction)ălƠăvi cătìmăki măcácăcơyăquy t
đ nhăt ănh ngăb năghiăhu năluy năđưăcóănhưnăl p.ăM i cơyăquy tăđ nh (decision tree)
10
lƠăm tăc uătrúcăcơyăki uăl uăđ ,ătrongăđóăm i nút trong bi uăth ăm tăs ki mătraătrênă
m tăthu cătínhănƠoăđó,ăm i nhánh bi uădi năm tăk tăqu ăc aăs ki mătraăđó,ăcònăm i
nút lá ch aăm tănhưnăl p.ăNútă trênăcùngăc aăcơyălƠ nút g c,ăch aătênăc aăthu cătínhă
c năki mătra.ăHìnhă2.3 choăth yăm tăcơyăquy tăđ nhătiêuăbi u.ăCácănútătrong đ
di năb ngăcácăhìnhăch ănh t,ăcònăcácănútăláăđ
căbi uă
căbi u di năb ngăcácăhìnhăb uăd c.ă
M tăs ăthu tătoán cơyăquy tăđ nhăch ăsinhăraăcác cây nh phân (trongăđóăm iănútătrong
r ănhánhăđ năhaiănútăkhác),ătrongăkhiănh ngăthu tătoán cơyăquy tăđ nhăkhácăcóăth ă
sinhăraănh ngăcơyăkhôngănh ăphơn.
Cácăcơyăquy tăđ nhăđ
cădùngăchoăphơnăl pănh ăth ănƠo?ăChoăm tăb năghi X
nào đóămƠătaăch aăbi tănhưnăl păliênăk tăv iănó,ăcácăgiáătr ăthu cătínhăc aăb năghiăđóă
đ
c ki mătraăsoăv iăcơyăquy tăđ nh.ăD aătheoănh ngăcu căki mătraăđó,ătaăl năraăm tă
đ
ng điăt ăg căđ năm tănútăláăch aăk tăqu ăd ăđoánăl pădƠnhăchoăb năghiă y.ăCácă
cơyăquy tăđ nhăcóăth ăd ădƠngăđ
căchuy năđ iăthƠnhăcác lu t phân l p,ăt c hìnhăth că
phơnălo iăđ năgi năvƠăd ăhi uănh tăđ iăv iăconăng
i [30].
Hình 2.3: M t ví d v cây quy t đ nh [7]
2.2.3. Phơnăl păd ăli uăb ngăgi iăthu tăh căILA
- Thu t gi iăILAăđ
cădùngăđ xácăđ nh các lu t phân lo i cho t p h p các m u
h c. Thu t gi i này th c hi nătheoăc ăch l p,ăđ tìm lu tăriêngăđ i di n cho t p
m u c a t ng l p.ăSauăkhiăxácăđ nhăđ
c lu t, thu t gi i s lo i b các m u mà
lu tănƠyăbaoăhƠm,ăđ ng th i thêm lu t m i này vào t p lu t. K t qu cóăđ
m t danh sách có th t các lu t. [26], [28].
- Mô t thu t gi i ILA [27]
c là
11
+ B
c 1: Chia b ng con có ch a m m u thành n b ng con. M t b ng con ng
v i m t giá tr c a thu c tính phân l p (L p l i t b
că2ăđ năb
c 8 cho
m i b ng con).
+ B
c 2: Kh i t o s l
+ B
c 3: V i m i b ngăconăđangăxét,ăphơnăchiaăcácăthu c tính c a nó thành
ng thu c tính k t h p j v i j = 1.
m t danh sách các thu c tính k t h p, m i thành ph n c a danh sách có j
thu c tính phân bi t.
+ B
c 4: V i m i k t h p các thu cătínhătrongădanhăsáchătrên,ăđ m s l n
xu t hi n các giá tr cho các thu c tính trong k t h păđóă cácădòngăch aăb
khóa c a b ngăđangăxétănh ngănóăkhôngăđ
c xu t hi n cùng giá tr
nh ng
b ng con khác. Ch n ra m t k t h p trong danh sách sao cho nó có giá tr
t
ngă ng xu t hi n nhi u nh tăvƠăđ
c g i là Max_combination.
+ B
c 5: N u Max_combination = 0 thì j = j+1 quay l iăb
+ B
c 6: Khóa các dòng
c 3.
b ngăconăđangăxétămƠăt iăđóăgiáătr b ng v i giá
tr t o ra Max_combination.
+ B
c 7: Thêm vào R lu t m i v i gi
thuy t là các giá tr t o ra
Max_combination k t n i các b này b ng phép AND, k t lu n là giá tr
c a thu c tính quy tăđ nh trong b ngăconăđangăxét.
+ B
c 8: N u t t c cácădòngăđ u khóa:
N u còn b ng con thì qua b ng con ti p theo và quay l iăb
Ng
Ng
c 2.
c l i ch m d t thu t toán.
c l i quay l iăb
c 4.
2.2.4. Phơnăl păd ăli uăb ngăm ngăNaïveăBayes
Cácămôăhìnhăphơnăl păd aătheoăBayesă(Bayesianăclassifier)ălƠălo iămôăhình phân
l pătheoălýăthuy tăth ngăkê.ăChúngăcóăth ăd ăđoánăxácăsu tăc aăcácăthƠnhăviênăl p,
ch ngăh năxácăsu tăđ ăm tăb năghiănh tăđ nhăthu căv ăm tăl păc ăth ănƠoăđó.ăPhơnă
l p d aătheoăBayesăc năc ăvƠoăn năt ngălýăthuy tălƠăđ nhălýăBayesă(đ
căđ tătheoătên
c a ThomasăBayes,ănhƠătoánăh căAnhăvƠoăth ăk ă18).
Thu tătoán phơnăl păNaïveăBayesă(NB)ăgi ăđ nhăr ngă nhăh
ngăc aăm tăgiáătr
thu cătínhănƠoăđóătrênăm tăl pănh tăđ nhălƠăđ căl păv iăcácăgiáătr ăc aăcácăthu cătính
khác.ă Gi ă đ nhă nƠyă đ
că g iă lƠ s đ c l p theo đi u ki n l p (class-conditional