Đ IăH CăĐĨ N NG
TR
NGăĐ IăH CăS ăPH M
NGUY NăTH ăBỊNHăMINH
TểNăĐ ăTĨI LU NăVĔN:
NGăD NGăKHAIăPHỄăD ăLI Uă
XỂYăD NGăH H ăTR ăTUY NăSINHă
T IăTR
NGăĐ IăH CăPH MăVĔNăĐ NG
Chuyên ngành: Hệ th ng thông tin
Mư s : 8480104
LU NăVĔNăTH CăSƾ
NG
IH
NG D N KHOA H C:
PGS.TSKH.TR N QU C CHI N
ĐƠăN ng -Nĕm2019
iii
M CăL C
L IăCAMăĐOAN ...................................................................................................................... i
TịMăT TăĐ ăTĨI ................................................................................................................... ii
DANHăM CăT ăVI TăT T ................................................................................................... v
DANHăM CăCỄCăB NG........................................................................................................ v
DANHăM CăCỄCăHỊNH ....................................................................................................... vi
1. LỦ do ch n đề tài ....................................................................................................1
2. M c tiêu và n i dung nghiên c u ...........................................................................2
3. Đ i t ợng và phạm vi nghiên c u ..........................................................................2
4. Ph ơng pháp nghiên c u ........................................................................................3
5. ụ nghĩa đề tài nghiên c u .......................................................................................3
6. K t quả dự ki n .......................................................................................................3
7. B c c luận văn.......................................................................................................3
CH
NGă1ăăT NGăQUANăV PHỄT HI N TRI TH C VĨăKHAIăPHỄăD ăLI U .... 5
1.1. Phát hiện tri th c ...................................................................................................5
1.2.Các b
c trong phát hiện tri th c ..........................................................................5
1.3. Các ng d ng c a phát hiện tri th c .....................................................................6
1.4. Khai phá dữ liệu ....................................................................................................7
1.5. Mơ hình khai phá dữ liệu ......................................................................................8
1.6. Các ph ơng pháp khai phá dữ liệu .......................................................................9
1.7. K t luận Ch ơng 1 ................................................................................................9
CH
NGă2ăăK ăTHU TăKHAIăPHỄăD ăLI UăVĨă NGăD NG ................................. 11
2.1. Cây quy t đ nh ....................................................................................................11
2.2. Đánh giá cây quy t đ nh trong lĩnh vực khai phá dữ liệu: ..................................13
2.3. Thuật toán ID3 ....................................................................................................13
2.4. Thuật toán C4.5...................................................................................................19
2.5. Thuật toán Naive Bayes ......................................................................................28
2.6.Các giai đoạn c a quá trình khai phá dữ liệu .......................................................29
2.7. Khai phá dữ liệu trong giáo d c..........................................................................30
2.8. Khai phá dữ liệu sinh viên Tr
ng Đại h c Phạm Văn Đồng ............................31
2.9. K t luận Ch ơng 2 ..............................................................................................32
CH
NGă3ăă NGăD NGăKHAIăPHỄăD ăLI UăTRONGăPHỂNăTệCHăVĨăH ăTR ă
H CăSINHăCH NăNGĨNHăH CăVĨOăTR
NGăĐ IăH CăPH MăVĔNăĐ NG .... 33
iv
3.1. Gi i thiệu về Tr
ng Đại h c Phạm Văn Đồng .................................................33
3.2. Gi i thiệu về công c khai phá dữ liệu ...............................................................35
3.3. Mơ hình và bài tốn xây dựng hệ hỗ trợ t v n tuyển sinh. ...............................37
3.4. Mơ tả việc tổng hợp dữ liệu cho bài tốn ...........................................................39
3.5. Chu n hoá dữ liệu đ u vào cho thuật tốn ..........................................................40
3.6. Phân tích cơ s dữ liệu dữ liệu ...........................................................................48
3.7. Khai phá dữ liệu rút ra tri th c............................................................................51
3.8. Triển khai ch ơng trình ......................................................................................52
3.9. Hình ảnh trích ra từ ch ơng trình demo .............................................................53
K TăLU NăVĨăH
NGăPHỄTăTRI N ............................................................................ 55
1. K t luận .................................................................................................................55
2. H
ng phát triển ...................................................................................................55
DANHăM CăTĨIăLI UăTHAMăKH O .............................................................................. 57
Ti ng Việt ..................................................................................................................57
Ti ng Anh ..................................................................................................................57
Tài liệu internet ..........................................................................................................58
v
DANH M C T
CHXHCN
UBND
VI T T T
C ng hòa xư h i ch nghĩa
y ban nhân dân
THPT
Trung h c phổ thông
KDD
Knowledge Discovery in Databases
ID3
Decision tree
Sprint
Scalable PaRallelization INduction of decisionTrees
Weka
Waikato Environment for Knowledge Analysis
SQL
Ngơn ngữ truy v n mang tính c u trúc(Structured Query
Language)
DANH M C CÁC B NG
B ng
Tênăb ng
Trang
Bảng 2.1
Bảng dữ liệu về sinh viên
17
Bảng 2.2
Bảng dữ liệu hu n luyện
23
Bảng 2.3
Bảng dữ liệu về thu c tính TrinhDoCM
24
Bảng 2.4
Bảng dữ liệu về thu c tính LLChinhTri
24
Bảng 2.5
Bảng dữ liệu về thu c tính NgoaiNgu
24
Bảng 2.6
Bảng dữ liệu về thu c tính NgoaiNgu = yes
24
Bảng 2.7
Bảng dữ liệu so sánh về GainRatio
25
Bảng 3.1
Bảng c u trúc file excel dữ liệu c a luận văn
42
Bảng 3.2
Bảng m c đ quan tr ng c a các thu c tính
50
Bảng 3.3
Giải thuật c a hệ th ng
50
vi
DANH M C CÁC HÌNH
S ăhi uăcác
cácăhìnhăv
Trang
Tên hìnhăv
1.1
Q trình phát hiện tri th c
5
2.1
Mơ hình cây quy t đ nh
13
2.2
K t quả cây quy t đ nh v i dữ liệu
2.3
Nút g c c a cây quy t đ nh
25
2.4
Cây quy t đ nh v i nhánh NgoaiNgu = Yes
26
2.5
Cây quy t đ nh hoàn chỉnh
27
3.1
Tr
35
3.2
Giao diện ph n mềm Weka
38
3.3
Mơ hình giải pháp xây dựng hệ hỗ trợ tuyển sinh
38
3.4
Cơ s dữ liệu tuyển sinh c a Tr
Đồng
ng Đại h c Phạm Văn
39
3.5
Cơ s dữ liệu tuyển sinh c a Tr
ng và điểm h c lực THPT
40
3.6
Cơ s dữ liệu tổng hợp ch a chu n hoá
41
3.7
Giao diện l c thu c tính c a Weka
43
3.8
Giao diện sau khi loại b các thu c tính
44
3.9
Giao diện thi t lập thơng s r i rạc hố dữ liệu
45
3.10
Giao diện r i rạc hoá dữ liệu
46
3.11
K t quả dữ liệu r i rạc hố
46
3.12
Chuyển kiểu dữ liệu cho thu c tính
47
3.13
Chuyển kiểu dữ liệu cho thu c tính thành cơng
48
3.14
C u trúc file .arff hoàn chỉnh
48
3.15
Giao diện x p hạng thu c tính
49
3.16
K t quả đánh giá mơ hình
51
3.17
bảng 2.1
ng Đại h c Phạm Văn Đồng
ng d ng mơ hình cho tập dữ liệu kiểm tra
18
52
3.18
Sơ đồ quan hệ cơ s dữ liệu c a hệ th ng
54
3.19
Giao diện c a hệ th ng
55
1
M ăĐ U
1. Lýădoăch năđ ătƠi
Hiện nay, v i sự bùng nổ c a công nghệ thông tin, con ng i tr nên nh bé
giữa kho ki n th c khổng lồ, giữa các sự lựa ch n phù hợp cho bản thân. Giữa kho đại
d ơng tri th c, con ng i mu n tìm tri th c c n thi t cho bản thân tr nên khó khăn
và đơi lúc ln có sự phân vân giữa các lựa ch n.Giải pháp khai phá dữ liệu, đặc biệt
cây quy t đ nh là m t kỹ thuật tuyệt v i để giúp con ng i đ a ra những lựa ch n phù
hợp v i bản thân.
Nghề nghiệp c a m t cá nhân có Ủ nghĩa h t s c quan tr ng đ i v i sự phát
triển kinh t , xư h i c a qu c gia nói chung và đ i v i cu c s ng c a mỗi cá nhân, gia
đình nói riêng. Giải quy t việc làm cho ng i lao đ ng, đặc biệt là lao đ ng trẻ là m t
trong những v n đề quan tâm hàng đ u c a xư h i. Hiện nay, ch t l ợng và cơ c u lao
đ ng Việt Nam cịn nhiều b t cập, tình trạng d cung c u thi u v n còn phổ bi n.
Mặc dù tình trạng h c v n c a lao đ ng không ngừng đ ợc cải thiện, hệ th ng văn
bằng đ ợc nâng cao và m r ng nh ng tình trạng th t nghiệp v n ti p t c gia tăng.
L ợng sinh viên t t nghiệp từ các tr ng đại h c,cao đẳng chính quy trong cả n c
khơng có việc làm ngày càng nhiều, m t b phận sau khi t t nghiệp đại h c tr đảm
nhận các công việc không c n bằng c p, hiện t ợng sinh viên sau khi t t nghiệp làm
công nhân, hoặc làm các công việc khơng c n đ n trình đ đại h c đang d n khơng
cịn xa lạ.
M t trong các ngun nhân d n đ n đ n th tr ng lao đ ng c a Việt Nam có
nhiều b t cập đó là nguồn nhân lực đ ợc đào tạo nh ng không đáp ng đ ợc yêu c u
công việc. Trong đó, nguyên nhân ch y u h c sinh, sinh viên ch a có đ nh h ng
việc làm t ơng lai, ch a hiểu bản thân và nghề nghiệp mình ch n, ch a hiểu các yêu
c u nghề nghiệp c n. Th ng ng i h c sinh, sinh viên ch n nghề theo cảm tính, theo
bạn bè, đ nh h ng gia đình hay theo phong trào. Và sau khi vào h c, h c sinh, sinh
viên m i phát hiện bản thân không phù hợp v i ngành nghề mình ch n, d n đ n tình
trạng chán nản, b bê việc h c, hoặc h c v i t t ng h c để có t m bằng, ra tr ng
tính ti p. Và k t quả ra tr ng v i thành tích khơng cao, đi làm v i ngành nghề đào
tạo không h ng th , không tập trung, d n đ n ch t l ợng công việc không đạt yêu
c u, và các suy nghĩ tiêu cực về công việc. Vì vậy, ch n nghề nghiệp phù hợp cho bản
thân mỗi ng i, đặc biệt là h c sinh Trung h c phổ thông và m t b c ngoặc quan
tr ng c a mỗi đ i ng i.
Hiện nay, tại khu vực Quảng Ngưi ch a có các ng d ng hỗ trợ h c sinh Trung
h c phổ thông ch n nghề. Và Tr ng Đại h c Phạm Văn Đồng cũng ch a có ch ơng
trình t v n tuyển sinh nào tự đ ng để t v n nghề phù hợp cho h c sinh tr c khi h c
sinh ch n ngành đăng kỦ vào tr ng.V i tính c p thi t trên và yêu c u hiện nay thì
việc thu hút h c sinh vào các Tr ng Đại h c, Cao đẳng là v n đề c n thi t và s ng
2
cịn c a đơn v . Do đó, b phận t v n tuyển sinh r t quan tr ng. V i Ủ t ng giúp các
em h c sinh ch n ngành h c cho đúng để có đ nh h ng nghề nghiệp cho t ơng lai
c a mình, bằng kỹ thuật khai phá dữ liệu, tơi nghiên c u đề tài “ ngăd ngăkhai phá
d ăli u xơyăd ngăh ăh ătr ătuy năsinhăt iăTr ngăĐ iăh căPh măVĕnăĐ ng” làm
luận văn t t nghiệp c a mình.
2. M cătiêuăvƠăn iădungănghiênăc u
2.1. Mục tiêu của đề tài
- M c tiêu tổng quát: H ng đ n xây dựng ng d ng hỗ trợ tuyển sinh bằng kỹ
thuật khai phá dữ liệu để hạn ch tình trạng ch n sai nghề c a h c sinh trong t ơng lai
và giảm tình trạng th t nghiệp hoặc làm trái nghề c a sinh viên Tr ng Phạm Văn
Đồng sau khi ra tr ng.
- M c tiêu c thể:
+ Nghiên c u các kỹ thuật khai phá dữ liệu.
+ ng d ng các kỹ thuật khai phá dữ liệu để tạo ra ng d ng hỗ trợ h c sinh
ch n nghề phù hợp.
+
ng d ng dễ sử d ng đ i v i ng
i dùng cu i.
2.2. Nội dung nghiên cứu
- Tổng quan về khai phá dữ liệu, tập dữ liệu m u, thuật toán ID3, thuật toán
C4.5,thuật toán Naive Bayes và cây quy t đ nh.
- Quy trình tuyển sinh c a tr
3. Đ iăt
ng:
ngăvƠăph măviănghiênăc u
3.1. Đối tượng nghiên cứu của đề tài
+ Kỹ thuật khai phá dữ liệu c thể là cây quy t đ nh thuật toán ID3, thuật toán
C4.5 và thuật toán Naive Bayes
+ H c sinh, thí sinh tự do.
+ Quy trình tuyển sinh và quy ch xét tuyển.
3.2. Phạm vi nghiên cứu
+ Kỹ thuật phân l p: cây quy t đ nh, thuật tốn ID3,thuật tốn C4.5 và thuật
tốn Naive Bayes
+ Cơng c khai phá dữ liệu, SQL server và ngôn ngữ lập trình Visual Studio
trên nền Web.
+ Cơng tác t v n tuyển sinh Tr
ng Đại h c Phạm Văn Đồng.
3
4. Ph
ngăphápănghiênăc u
4.1. Nghiên cứu lý thuyết
- Nghiên c u về khai phá dữ liệu và các tài liệu liên quan.
- Nghiên c u thực trạng tuyển sinh tại tr ng Đại h c Phạm Văn Đồng, tìm
hiểu nhu c u thực t c a ng i h c, m t s tiêu chí cơ bản c a các nhà tuyển d ng và
nhu c u việc làm ngoài xư h i.
4.2. Nghiên cứu thực nghiệm
- Ti n hành xây dựng các giải pháp và xây dựng ng d ng đánh giá.
- Phân tích thi t k cơ s dữ liệu tuyển sinh và k t quả h c tập c a Sinh viên từ
đó so sánh và dự đốn k t quả h c tập c a từng ngành, xây dựng hệ th ng ch ơng
trình ng d ng, triển khai xây dựng ch ơng trình ng d ng, kiểm tra, thử nghiệm và
đánh giá k t quả.
5. ụănghƿaăđ ătƠiănghiênăc u
5.1. Ý nghĩa khoa học
- Tìm hiểu cây quy t đ nh trong khai phá dữ liệu.
- Xây dựng ra m t hệ th ng t v n hỗ trợ t v n tuyển sinh c a tr
ng.
5.2. Ý nghĩa thực tiễn
- Thu thập và thi t k đ ợc kho cơ s dữ liệu ph c v cho q trình t v n
tuyển sinh.
- Góp ph n nâng cao hiệu quả trong tuyển sinh cũng nh sự phát triển trong
việc dạy và h c c a tr ng.
6. K tăqu ăd ăki n
- Xây dựng đ ợc hệ hỗ trợ tuyển sinh c a Tr
dữ liệu.
7. B ăc călu năvĕn
L iăcamăđoan
Tómăt tălu năvĕn
M căl c
Danhăm căt ăvi tăt t
Danhăm căb ng
Danhăm căhìnhăv
M ăđ u
ng dựa trên lỦ thuy t khai phá
4
Lu năvĕnăg mă3ăch ng:
Ch ngă1:ăT ngăquanv phátăhi nătriăth căvƠ khaiăpháăd ăli u
Trình bày tổng quan về phát hiện tri th c, khai phá dữ liệu, m i liên hệ giữa
phát hiện tri th c và khai phá dữ liệu. Ch ơng này tìm hiểu về các ph ơng pháp khai
phá dữ liệu, các mơ hình khai phá dữ liệu,ầ
Ch ngă2:K ăthu tăKhaiăpháăd ăli uvƠă ngăd ng
Ch ơng này tìm hiểu về các kỹ thuật khai phá dữ liệu, đặc biệt kỹ thuật khai
phá dữ liệu bằng cây quy t đ nh. Ngồi ra ch ơng cịn gi i thiệu ng d ng khai phá dữ
liệu trong lĩnh vực giáo d c, và h ng ng d ng khai phá dữ liệu tại Tr ng Đại h c
Phạm Văn Đồng.
Ch ngă3:ă ngăd ngăxơyăd ngăh ăh ătr ăt ăv nătuy năsinhăvƠăđánhăgiáăk tă
qu .
Ch ơng này ti n hành tìm hiểu về quy trình tuyển sinh tại Tr ng Đại h c
Phạm Văn Đồng, đồng th i ti n hành áp d ng quy trình khai phá dữ liệu bằng cây
quy t đ nh C4.5 cho bài toán t v n ch n nghề bằng công c Weka. Ti n hành áp d ng
dữ liệu thực nghiệm cho bài toán, xác đ nh đ chính xác cây quy t đ nh, xây dựng tập
luật và k t quả thực nghiệm khi h c sinh thực hiện ch n nghề trên hệ th ng ch n
nghề,ầ
K tălu n vƠăh
ngăphátătri n
Danhăm cătƠiăli uăthamăkh o
5
CH
NG 1 T NG QUAN V PHỄT HI N TRI TH C VÀKHAI
PHÁ D LI U
Ch ơng này trình bày tổng quan về phát hiện tri th c, khai phá dữ liệu, quy
trình phát hiện tri th c, các v n đề chính c a khai phá dữ liệu, các ph ơng pháp, các
nghiệp v trong khai phá dữ liệu.
1.1. Phát hi n tri th c
Khái ni m: Ngoài thuật ngữ phát hiện tri th c, ng i ta còn dùng m t s thuật
ngữ khác có Ủ nghĩa t ơng tự nh phân tích dữ liệu/m u, khai m dữ liệu, khai phá dữ
liệuầ Nh ng tóm lại, về bản ch t phát hiện tri th c liên quan đ n việc phân tích các
dữ liệu và sử d ng các kỹ thuật đặc biệt để tìm ra các m u đặc tr ng trong m t tập dữ
liệu khổng lồ. Có nhiều đ nh nghĩa về phát hiện tri th c đư đ ợc các tác giả khác nhau
đ a ra, theo đ nh nghĩa c a Fayyad: “KDD (Knowledge Discovery in Databases)là q
trình khơng t m th ng c a việc xác đ nh các m u tiềm n có tính hợp lệ, m i lạ, có
ích và có thể hiểu đ ợc trong dữ liệu”[3].
Ti n trình khai phá tri th c bao gồm các giai đoạn: Chu n b dữ liệu, tìm ki m
mơ hình, khai phá dữ liệu, đánh giá m u và sử d ng tri th c khai phá đ ợc. Thuật ngữ
“m u tiềm n” đ ợc hiểu là m i quan hệ trong dữ liệu chẳng hạn nh những sinh viên
h c gi i tốn và ti ng Anh thì có điểm trung bình cu i khóa cao, “hợp lệ” b i vì ch ng
minh đ ợc tính đúng c a mơ hình. Thuật ngữ “m i lạ” hàm Ủ rằng những m u khai
phá đ ợc là không bi t tr c.
1.2.Cácăb
c trong phát hi n tri th c
Quá trình phát hiện tri th c đ ợc ti n hành qua 6 giai giai đoạn sau:
Hìnhă1.1:ăQuáătrìnhăphátăhi nătriăth c
6
Phát hiện tri th c bao gồm nhiều giai đoạn đ ợc lặp đi lặp lại nhiều l n mà
không c n phân biệt từng b c trong quá trình thực hiện.
Giai đoạn 1:Ch n l c dữ liệu. Là việc tìm hiểu lĩnh vực ng d ng từ đó hình
thành bài tốn, xác đ nh các nhiệm v c n phải hoàn thành. B c này s quy t đ nh
cho việc rút ra đ ợc các tri th c hữu ích và cho phép ch n các ph ơng pháp khai phá
dữ liệu thích hợp v i m c đích ng d ng cùng v i bản ch t c a dữliệu.
Giai đoạn 2: Tiền xử lỦ dữ liệu (xử lỦ thơ). B c này cịn đ ợc g i là tiền xửlỦ
dữ liệu nhằm loại b nhiễu (dữ liệu d thừa), làm sạch dữ liệu, xử lỦ và khắc ph c v n
đề thi u hoặc thừa dữ liệu, bi n đổi dữ liệu và rút g n dữ liệu n u c n thi t. B c này
th ng chi m nhiều th i gian nh t (b c quan tr ng) trong toàn b quy trình phát hiện
trith c.
Giai đoạn 3:Chuyển đổi dữ liệu. Thực hiện bi n đổi dữ liệu, ch n lựa m ts
ph ơng pháp. Phân loại (Classification), hồi quy (Regression), phân nhóm
(Clustering), quy nạp, tổng hợp k t quả(Summarization).
Giai đoạn 4: Khai phá dữ liệu. Q trình này trích ch n, chi t xu t ra các m u
hay các mô hình tiềm n d i các dữ liệu có Ủ nghĩa, hiểu đ ợc. Giai đoạn này r t
quan tr ng, bao gồm các công đoạn nh : ch c năng, nhiệm v và m c đích khai phá
dữ liệu, dùng ph ơng pháp khai phá nào là thíchhợp?.
Giai đoạn 5: Đánh giá các m u.Trong giai đoạn này, các m u dữ liệu đ ợc
chi t xu t b i các ph n mềm khai phá dữ liệu. Không phải b t c m u nào cũng đều có
ích, thậm chí cịn b sai lệch. Chính vì vậy, c n phải xác đ nh và lựa ch n những tiêu
chu n đánh giá sao cho s chi t xu t ra các tri th c c n thi t. Giai đoạn này đánh giá
đ tin cậy c a mô hình khai phá đ ợc cũng nh tính hữu d ng c a các mơ hình đ i v i
các m c tiêu đ ợc xác đ nh ban đ u.
Giai đoạn 6: Hiểu và sử d ng tri th c đư tìm đ ợc. Giai đoạn này làm sáng t
các mơ tả và dự đốn. Các b c trên có thể lặp đi lặp lại m t s l n, k t quả thu đ ợc
có thể đ ợc l y trên t t cả các l n thựchiện.
Tóm lại: Quá trình phát hiện tri th c từ trong kho dữ liệu (KDD – Knowledge
Discovery Database) là quá trình chi t xu t ra tri th c từ kho dữ liệu mà trong đó khai
phá dữ liệu là cơng đoạn quan tr ng nh t.
1.3. Các ng d ng c a phát hi n tri th c
Hiện nay, có khá nhiều các ng d ng c a khai phá dữ liệu và khám phá tri th c
đ ợc triển khai, đem lại hiệu quả cao trong thực t , ph c v cho sản xu t kinh doanh
và nghiên c u khoa h c.
7
Trong khoa h c, m t trong những ngành ng d ng chính là thiên văn h c. Hệ
th ng SKICAT dùng để phân tích ảnh, phân loại và x p nhóm các vật thể khơng gian
từ các ảnh quan sát vũ tr . Hệ th ng này đ ợc dùng để xử lỦ 3 terabytes dữ liệu ảnh từ
Đài thiên văn Palomar, v i khoảng 1 tỉ vật thể khơng gian phát hiện đ ợc. SKICAT có
thể làm đ ợc những cơng việc tính tốn cực l n trong việc phân loại các ảnh vật thể
không rõ ràng [5].
Trong kinh doanh, các ng d ng chính c a khám phá tri th c bao gồm ti p th ,
tài chính đặc biệt là đ u t , phát hiện gian lận, sản xu t, viễn thông. Trong ti p th , ng
d ng chính là hệ th ng CSDL ti p th , phân tích các dữ liệu khách hàng để phân loại
các nhóm khách hàng khác nhau và dự báo về s thích c a h .
Phát hiện gian lận: Hệ th ng HNC Falcon and Nestor PRISM dùng để theo dõi
các gian lận thẻ tín d ng, có thể theo dõi hoạt đ ng c a hàng triệu tài khoản. Hệ th ng
FAIS dùng để th m đ nh các giao d ch th ơng mại có bao gồm hoạt đ ng chuyển tiền
b t hợp pháp.
Trong lĩnh vực giáo d c: ng d ng khai phá dữ liệu nhằm giải đáp các câu h i
quan tr ng, làm sáng t ti n trình h c tập từ đó hỗ trợ cho các nhà quản lỦ giáo d c
trong việc ra quy t đ nh để nâng cao hiệu su t giảng dạy và h c tập. ng d ng khai
phá dữ liệu trong hệ th ng đào tạo trực tuy n nhằm phân tích hành vi c a ng i h c.
1.4. Khai phá d li u
Khai phá dữ liệu là m t khái niệm ra đ i vào những năm cu i c a thập kỷ 1980.
Nó là q trình khám phá thơng tin n đ ợc tìm th y trong các cơ s dữ liệu và có thể
xem nh là m t b c trong quá trình khám phá tri th c. Data Mining là giai đoạn quan
tr ng nh t trong ti n trình khai phá tri th c từ cơ s dữ liệu, các tri th c này hỗ trợ
trong việc ra quy t đ nh trong khoa h c và kinh doanh.
Để hình dung v n đề này ta có thể sử d ng m t ví d đơn giản nh sau: Khai
phá dữ liệu đ ợc ví nh tìm m t cây kim trong đ ng c khơ. Trong ví d này, cây kim
là m t mảnh nh tri th c hay m t thơng tin có giá tr và đ ng c khô là m t kho cơ s
dữ liệu r ng l n. Nh vậy, những thông tin có giá tr tiềm n trong kho cơ s dữ liệu
s đ ợc chi t xu t ra và sử d ng m t cách hữu ích nh khai phá dữ liệu. Ch c năng
khai phá dữ liệu gồm có g p nhóm phân loại, dự báo, đốn và phân tích các liên k t.
Năm 1989 Fayyad, Smyth và Piatestsky-Shapiro đư dùng khái niệm phát hiện tri th c
từ cơ s dữ liệu (Knowledge Discovery in Database-KDD). Trong đó, khai phá dữ liệu
là m t giai đoạn r t đặc biệt trong tồn b q trình, nó sử d ng các kỹ thuật để tìm ra
các m u từ dữ liệu [7].
Khai phá dữ liệu (data mining) là quá trình tính tốn để tìm ra các m u trong
các b dữ liệu l n liên quan đ n các ph ơng pháp tại giao điểm c a máy h c, th ng kê
8
và các hệ th ng cơ s dữ liệu. Đây là m t lĩnh vực liên ngành c a khoa h c máy
tính.M c tiêu tổng thể c a quá trình khai thác dữ liệu là trích xu t thơng tin từ m t b
dữ liệu và chuyển nó thành m t c u trúc dễ hiểu để sử d ng ti p.Ngồi b c phân tích
thơ, nó cịn liên quan t i cơ s dữ liệu và các khía cạnh quản lỦ dữ liệu, xử lỦ dữ liệu
tr c, suy xét mơ hình và suy luận th ng kê, các th c đo thú v , các cân nhắc ph c
tạp, xu t k t quả về các c u trúc đ ợc phát hiện, hiện hình hóa và cập nhật trực
tuy n. Khai thác dữ liệu là b c phân tích c a q trình “khám phá ki n th c trong cơ
s dữ liệu” hoặc KDD.
Chúng ta có thể hiểu m t cách sơ l ợc rằng khai phá dữ liệu là q trình tìm
ki m thơng tin hữu ích, tiềm n và mang tính dự báo trong các cơ s dữ liệu l n. Khai
phá dữ liệu là c t lõi c a quá trình khám phá tri th c. Khai phá dữ liệu là nhằm tìm ra
những m u m i, m u có tính ch t không t m th ng, những thông tin tiềm n mang
tính dự đ ng ch a đ ợc bi t đ n và có khả năng mang lại ích lợi.
1.5. Mơăhìnhăkhaiăpháăd ăli u
Mơ hình khai phá dữ liệu là m t mơ tả về m t khía cạnh c thể c a m t tập dữ
liệu. Nó tạo ra các giá tr đ u ra cho tập các giá tr đ u vào.
Víăd : Mơ hình hồi qui tuy n tính, mơ hình phân l p, mơ hình phân nhóm.
M t mơ hình khai phá dữ liệu có thể đ ợc mô tả 2 m c:
- M c ch c năng (Function level): Mơ tả mơ hình bằng những thuật ngữ về dự
đ nh sử d ng. Ví d : phân l p, phân nhóm.
- M c biểu diễn (representation level): Biểu diễn c thể m t mô hình.
Víăd : Mơ hình log-linear, cây phân l p, ph ơng pháp láng giềng g n nh t. Các
mơ hình khai phá dữ liệu dựa trên 2 kiểu h c: Có giám sát và khơng giám sát (đơi khi
đ ợc nói đ n nh là h c trực ti p và không trực ti p – directed and undirected
learning).
Các hàm h c có giám sát (Supervised learning functions) đ ợc sử d ng để dự
đoán giá tr . Các hàm h c khơng giám sát đ ợc dùng để tìm ra c u trúc bên trong, các
quan hệ hoặc tính gi ng nhau trong n i dung dữ liệu nh ng khơng có l p hay nhưn nào
đ ợc gán u tiên. Ví d c a các thuật tốn h c khơng giám sát gồm phân nhóm kmean (k-mean clustering) và các luật k t hợp Apriori. M t ví d c a thuật tốn h c có
giám sát bao gồm Naive Bayes cho phân l p (classification).
T ơng ng có 2 loại mơ hình khai phá dữ liệu:
- Các mơ hình dự báo (h c có giám sát):
+ Phân l p: Nhóm các m c thành các l p riêng biệt và dự đoán m t m c s
thu c vào l p nào.
9
+ Hồi qui (Regression): X p xỉ hàm và dự báo các giá tr liên t c.
+ Đ quan tr ng c a thu c tính: Xác đ nh các thu c tính là quan tr ng nh t
trong các k t quả dự báo
- Các mơ hình mơ tả (h c khơng giám sát):
+ Ph n nhóm (Clusterning): Tìm các nhóm tự nhiên trong dữ liệu.
+ Các mơ hình luật k t hợp (Association models): Phân tích “gi hàng”.
+ Trích ch n đặc tr ng (Feature extraction): Tạo các thu c tính (đặc tr ng) m i
nh là k t hợp c a các thu c tính ban đ u.
1.6. Cácăph
ngăphápăkhaiăpháăd ăli u
• Ph ơng pháp quy nạp (Induction): M t cơ s dữ liệu là m t kho thông tin
nh ng các thông tin quan tr ng hơn cũng có thể đ ợc suy diễn từ kho thơng tin đó. Có
hai kỹ thuật chính để thực hiện việc này là suy diễn và quy nạp.
• Ph ơng pháp suy diễn: Nhằm rút ra thông tin là k t quả logic c a các thông
tin trong cơ s dữ liệu. Ph ơng pháp suy diễn dựa trên các sự kiện chính xác để suy ra
các tri th c m i từ các thông tin cũ. M u chi t xu t đ ợc bằng cách sử d ng ph ơng
pháp này th ng là các luật suy diễn.
• Ph ơng pháp quy nạp: Ph ơng pháp quy nạp suy ra các thông tin đ ợc sinh ra từ
cơ s dữ liệu. Có nghĩa là nó tự tìm ki m, tạo m u và sinh ra tri th c ch không phải bắt
đ u v i các tri th c đư bi t tr c. Các thông tin mà ph ơng pháp này đem lại là các thông
tin hay các tri th c c p cao diễn tả về các đ i t ợng trong cơ s dữ liệu. Ph ơng pháp này
liên quan đ n việc tìm ki m các m u trong CSDL. Trong khai phá dữ liệu, quy nạp đ ợc
sử d ng trong cây quy t đ nh và tạo luật.
1.7. K t lu năCh
ngă1
Phát hiện tri th c từ dữ liệu là quá trình khám phá m u có ích, ch a bi t từ kh i dữ
liệu l n. Quá trình phát hiện tri th c bao gồm nhiều giai đoạn từ việc xác đ nh m c tiêu
c a bài toán đ n chu n b liệu và cu i cùng là kiểm đ nh k t quả và sử d ng tri th c thu
đ ợc. Khai phá dữ liệu là m t giai đoạn quan tr ng trong toàn b quá trình phát hiện tri
th c.
KDD đ ợc ng d ng r ng rưi trong nhiều lĩnh vực: thiên văn, sinh h c, y t ,
th ơng mại, an ninh qu c phòng, đặc biệt trong lĩnh vực giáo d c. Khai phá dữ liệu
trong giáo d c tuy là ngành m i nổi nh ng thu hút đ ợc sự quan tâm c a đông đảo
c ng đồng khoa h c. ng d ng khai phá dữ liệu trong giáo d c nhằm tìm l i giải đáp
cho các câu h i trong giáo d c, làm sáng t ti n trình h c tập từ đó hỗ trợ cho các nhà
quản lỦ giáo d c trong việc ra quy t đ nh để nâng cao hiệu su t giảng dạy và h c tập,
nâng cao năng lực cạnh tranh c a tr ng h c.
10
Ch ơng này trình bày kỹ thuật xây dựng cây quy t đ nh bằng thuật toán ID3.
Cây quy t đ nh đ ợc dùng trong các bài toán phân l p, dự báo. Cây quy t đ nh đ ợc
dùng r ng rưi vì những u điểm c a nó cho k t quả trực quan, dễ hiểu và xử lỦ đ ợc
dữ liệu kiểu s , dữ liệu có giá tr là tên thể loại, dữ liệu r i rạc, dữ liệu thi u và xử lỦ
t t m t l ợng dữ liệu l n trong th i gian ngắn.
11
CH
NGă2 K THU T KHAI PHÁ D
LI U VÀ
NG D NG
Ch ơng này tìm hiểu về các kỹ thuật khai phá dữ liệu, đặc biệt kỹ thuật khai
phá dữ liệu bằng cây quy t đ nh. Ngoài ra ch ơng còn gi i thiệu ng d ng khai phá dữ
liệu trong lĩnh vực giáo d c, và h ng ng d ng khai phá dữ liệu tại Tr ng Đại h c
Phạm Văn Đồng.
2.1. Cây quy tăđ nh
Cây quyết định: Cây quy t đ nh là m t mô tả tri th c dạng đơn giản nhằm phân
các đ i t ợng dữ liệu thành m t s l p nh t đ nh. Các nút c a cây đ ợc gán nhưn là
tên các thu c tính, các cạnh đ ợc gán các giá tr có thể c a các thu c tính, các lá mơ tả
các l p khác nhau. Các đ i t ợng đ ợc phân l p theo các đ ng đi trên cây, qua các
cạnh t ơng ng v i các giá tr , thu c tính c a đ i t ợng t i lá.
Tạo luật: Các luật đ ợc tạo ra nhằm suy diễn m t s m u dữ liệu có Ủ nghĩa về
mặt th ng kê. Các luật có dạng N u P thì Q, v i P là mệnh đề đúng v i m t ph n trong
cơ s dữ liệu, Q là mệnh đề dự đoán.
Cây quy t đ nh và luật có u điểm là hình th c mơ tả đơn giản, mơ hình suy
diễn khá dễ hiểu đ i v i ng i sử d ng. Tuy nhiên, gi i hạn c a nó là mơ tả cây và
luật chỉ có thể biểu diễn đ ợc m t s dạng ch c năng và vì vậy gi i hạn về cả đ chính
xác c a mơ hình.
Trong luận văn tơi ng d ng kỹ thuật khai phá tập trung vào v n đề: Dự đoán
đ ợc ngành h c mà h c sinh nên đăng kỦ vào tr ng Đại h c Phạm Văn Đồng. ng
d ng khai phá dữ liệu trong giáo d c nhằm tìm l i giải đáp cho các câu h i trong giáo
d c, làm sáng t ti n trình h c tập từ đó hỗ trợ cho cho sinh viên ch n đúng ngành h c
và góp ph n nâng cao hiệu su t giảng dạy và h c tập, nâng cao năng lực cạnh tranh
c a tr ng h c cũng nh đáp ng nhu c u c a xư h i.
Cây quy t đ nh (decision tree) là m t ph ơng pháp r t mạnh và phổ bi n cho cả
hai nhiệm v c a khai phá dữ liệu là phân loại và dự báo. Mặt khác, cây quy t đ nh
cịn có thể chuyển sang dạng biểu diễn t ơng đ ơng d i dạng tri th c là các luật IfThen. Cây quy t đ nh là c u trúc biễu diễn d i dạng cây. Trong đó, mỗi nút trong
(internal node) biễu diễn m t thu c tính, nhánh (branch) biễu diễn giá tr có thể có c a
thu c tính, mỗi lá (leaf node) biểu diễn các l p quy t đ nh và đỉnh trên cùng c a cây
g i là g c (root). Cây quy t đ nh có thể đ ợc dùng để phân l p bằng cách xu t phát từ
g c c a cây và di chuyển theo các nhánh cho đ n khi gặp nút lá. Trên cơ s phân l p
này chúng ta có thể chuyển đổi về các luật quy t đ nh. Cây quy t đ nh đ ợc sử d ng
để xây dựng m t k hoạch nhằm đạt đ ợc m c tiêu mong mu n. Các cây quy t đ nh
đ ợc dùng để hỗ trợ quá trình ra quy t đ nh. Cây quy t đ nh là m t dạng đặc biệt c a
c u trúc cây. Tạo cây quy t đ nh chính là q trình phân tích cơ s dữ liệu, phân l p và
12
đ a ra dự đoán. Cây quy t đ nh đ ợc tạo thành bằng cách l n l ợt chia (đệ quy) m t
tập dữ liệu thành các tập dữ liệu con, mỗi tập con đ ợc tạo thành ch y u từ các ph n
tử c a cùng m t l p. Lựa ch n thu c tính để tạo nhánh thông qua Entropy và Gain.
H c bằng cây quy t đ nh cũng là m t ph ơng pháp thông d ng trong khai phá dữ liệu.
Khi đó, cây quy t đ nh mơ tả m t c u trúc cây, trong đó, các lá đại diện cho các phân
loại còn cành đại diện cho các k t hợp c a các thu c tính d n t i phân loại đó. M t cây
quy t đ nh có thể đ ợc h c bằng cách chia tập hợp nguồn thành các tập con dựa theo
m t kiểm tra giá tr thu c tính . Q trình này đ ợc lặp lại m t cách đệ qui cho mỗi tập
con d n xu t. Quá trình đệ qui hồn thành khi khơng thể ti p t c thực hiện việc chia
tách đ ợc nữa, hay khi m t phân loại đơn có thể áp d ng cho từng ph n tử c a tập con
d n xu t [15].
Thuật toán cây quy t đ nh cho ra k t quả là m t tập luật c a những dữ liệu hu n
luyện có thu c tính. Cây quy t đ nh là m t công c phổ bi n trongkhai phá và phân
l p dữ liệu. Đặc điểm c a cây quy t đ nhlà m t cây có c u trúc gồm đó :
Nút g c (Root node):Là nút trên cùng c a cây (hình Oval).
Nút trong (Internal node):Là nút trung gian trên m t thu c tính đơn (hình
Oval), mang thu c tính phân loại.
Nhánh (Branch):Biểu diễn giá tr có thể có c a mỗi thu c tính.
Nút lá (Leaf node): Biểu diễn l p quy t đ nh hay sự phân ph i l p quy t đ nh
(hình vng hoặc chữ nhật)
M c đích c a cây quy t đ nh là dùng để ra quy t đ nh phân l p cho các đ i
t ợng dữ liệu ch a bi t.
Nútăg c
Nút
trong
Nút lá
Nút
trong
Nút lá
Nút lá
Nút lá
Hình 2.1:Mơăhìnhăcơyăquy tăđ nh
13
2.2. Đánhăgiáăcơyăquy tăđ nh trong lƿnhăv c khai phá d li u:
-
u điểm của cây quyết định:
+ K t quả c a quá trình hu n luyện (h c) đ ợc biểu diễn d i dạng cây nên dễ
hiểu và g n gũi v i conng i.
+ Nhìn chung, các giải thuật cây quy t đ nh cho k t quả có đ chính xác khá
cao.
+ Cây quy t đ nh có thể đ ợc chuyển đổi sang tập luật. Cây quy t đ nh có thể
xử lỦ các dữ liệu s , loại. Cây quy t đ nh là có khả năng xử lỦ các tập dữ liệu đó có thể
có lỗi, thi u giá tr .
- Nh ợc điểm của cây quyết định:
+ Cây quy t đ nh n u sử d ng ph ơng pháp chia để tr s thực hiện t t khi có
m t s thu c tính liên quan chặt ch v i nhau nh ng s khó khăn n u m t s t ơng tác
ph c tạp xu t hiện.
+ Các đặc tính liên quan c a cây quy t đ nh d n đ n những khó khăn khác nh
đ nhạy v i tập hu n luyện, các thu c tính không phù hợp, nhiễu.
+ Đ i v i các tập dữ liệu có nhiều thu c tính thì cây quy t đ nh s l n(vềchiều
sâu cả chiều ngang), vì vậy làm giảm đ dễ hiểu.
+ Việc x p hạng các thu c tính để phân nhánh dựa vào l n phân nhánh tr c đó
và b qua sự ph thu c l n nhau giữa các thu c tính.
+ Khi dùng đ lợi thông tin (Information Gain) để xác đ nh thu c tính r nhánh,
các thu c tính có nhiều giá tr th ng đ ợc u tiênch n.
2.3. Thu t toán ID3
2.3.1. Tổng quan
Thuật toán ID3 (Iterative Dichotomiser 3)đ ợc phát triển b i Quiland (Tr ng
Đại h c Syney, Australia) và đ ợc công b vào cu i thập niên 70 c a th kỷ 20. Sau
đó, thuật tốn ID3 đ ợc gi i thiệu và trình bày trong m c Induction on decision tree,
Machine Learning năm 1986. ID3 đ ợc xem nh m t cải ti n c a thuật toán CLS
(CLS đ ợc Hovland Hint gi i thiệu trong Concept Learning System vào những năm
50 c a th kỷ 20) v i khả năng lựa ch n thu c tính t t nh t để ti p t c triển khai cây
tạo mỗi b c. ID3 xây dựng cây quy t đ nh từ trên xu ng (Top-Down) [6].
Có nhiều thuật tốn khác nhau để xây dựng cây quy t đ nh nh : CLS, ID3,
C4.5, SPRINT, C5.0ầNh ng nói chung xây dựng cây quy t đ nh gồm 3 giai đoạn cơ
bản:
Xây dựng cây: Thực hiện chia m t cách đệ quy tập m u dữ liệu hu n luyện
cho đ n khi các m u nút lá thu c cùng m t l p.
14
Cắt tỉa cây: Là việc làm dùng để t i u hóa cây. Cắt tỉa cây chính là tr n m t
cây con vào trong m t nút lá.
Đánh giá cây: Dùng để đánh giá đ chính xác c a cây k t quả. Tiêu chí đánh
giá là tổng s m u đ ợc phân l p chính xác trên tổng s m u đ a vào.
Cây quy t đ nh đ ợc xây dựng từ trên xu ng. Bắt đ u xây dựng cây quy t đ nh
tại nút g c, t t cả các dữ liệu h c nút g c. Ti n hành ch n thu c tính phân hoạch t t
nh t, dữ liệu đ ợc chia theo các giá tr c a thu c tính phân hoạch. Q trình này đ ợc
lặp lại v i tập dữ liệu mỗi nút vừa tạo. Điều kiện để dừng phân chia là: T t cả các
m u cùng m t nút thu c về cùng m t l p; Khơng cịn thu c tính nào để thực hiện phân
chia tập dữ liệu nữa; S l ợng ph n tử c a dữ liệu tại nút bằng không.
Theo nguyên tắc xây dựng cây quy t đ nh nh trên thì v i cùng m t tập dữ liệu
h c có thể cho ra các cây có đ r ng, đ sâu, đ ph c tạp khác nhau n u th tự ch n
thu c tính triển khai cây khác nhau. Do đó, việc ch n thu c tính nào để phân hoạch
mỗi nút mang tính quy t đ nh đ n đ ph c tạp c a cây quy t đ nh đ ợc tạo. Để đánh
giá thu c tính phân hoạch t t nh t ta dựa trên đ lợi thông tin (information gain), đ
đo information gain ratio, chỉ s gini.
2.3.2. Giải thuật thuật toán ID3
Bước 1:Chọn thuộc tính “Tốt” nhất bằng một độ đo đã định tr ớc
+ Tính độ lợi thơng tin (Information) cho sự phân lớp:
Trong đó:
Info (p,n) = ∑ =
�
= � ��
� �
Dữ liệu S gồm có n thu c tính ��(� = 1, 2 ầ ) giá tr Information c a thu c
tính ��ký hiệu là �
� ���
(��).
+ Tính Entropy của thuộc tính A(hay thơng tin mong mu n c n thi t để phân
l p các đ i t ợng trong t t cả các cây con Si) có cơng th c là:
v
Entropy ( A) =
i 1
pi ni
Info(pi , ni)
pn
Trong đó:
Cho các tập {S1, S2,ầSv} là m t phân hoạch trên tập S, khi sử d ng thu ctính
A.
Cho mỗi Si ch a pi m u l p P và ni m u l p N.
Entropy= 0 n u t t cả các thành viên c a S đều thu c cùng 1 l p.
15
Entropy = 1 n u tập hợp ch a s l ợng bằng nhau các thành viên thu c l p
d ơng hoặc l p âm. N u các s này khác nhau thì Entropy
giữa 0 và 1.
+ Độ lợi thơng tin cần thiết của thuộc tính A là:
Gain (A) = Info (p,n) – Entropy (A)
Chọn thuộc tính A có giá trị Gain lớn nhất, lấy nó làm gốc cho cây hiện tại
và loại Thuộc tính A ra khỏi tập thuộc tính.
Bước 2:Phát triển cây bằng việc thêm các nhánh t ơng ứng với từng giá
trị của thuộc tính đã chọn.
Bước 3: Sắp xếp, phân chia dữ liệu với các nút con.
Bước 4: Nếu các ví dụ đ ợc phân lớp rõ ràng thì dừng. Ng ợc lại thì lặp
lại từ B ớc 1 đến B ớc 4 cho từng nút con.
2.3.3. Giải thuật bằng giả mã:
- M c đích: tìm cây thoả mưn tập m u
- ụt
ng: (đệ quy) ch n thu c tính quan tr ng nh t làm g c c a cây/cây con.
ID3(TapMauHuanLuyen, ThuocTinhPhanLop, TapThuocTinh)
{
(1) Tạo 1 nút g c Root cho cây
(2) IfTapMauHuanLuyen+
ThenReturn cây chỉ có 1 nút Root, v i nhưn +
(3) IfTapMauHuanLuyen–
ThenReturn cây chỉ có 1 nút Root, v i nhưn –
(4) IfTapThuocTinh rỗng
ThenReturn cây chỉ có 1 nút Root, v i nhưn = giá tr th
ng
xu t hiện nh t c a ThuocTinhPhanLoptrong TapMauHuanLuyen
(5) Else
{
A ← thu c tính trong TapThuocTinhcho phép phân loại t t
nh t TapMauHuanLuyen
Thu c tính quy t đ nh c a nút g c ← A
V i các giá tr vi có thể có c a A,
Thêm 1 nhánh m i d
i g c, ng v i phép kiểm tra A = vi
16
Đặt TapMauHuanLuyenvi = tập con c a TapMauHuanLuyen
v i giá tr thu ctính A = vi
IfTapMauHuanLuyenvi rỗngThen d
lá v i nhưn = giá tr th
i nhánh m i này, thêm 1
ng xu t hiện nh t c a TapThuocTinhtrong
TapMauHuanLuyen
ElseID3(TapMauHuanLuyenvi,ThuocTinhPhanLop,
TapThuocTinhậ {A})) //d
i nhánh m i này thêm cây con bằng
cách g i đệ quy
}
(6) Return Root
}
2.3.4. Ví dụ minh hoạ thuật tốn ID3
Dựa vào các thu c tính H c lực, Điểm rèn luyện, Khu vực, Điểm tuyển sinh ta
dự đốn xem sinh viên có thơi h c hay khơng. Xây dựng cây quy t đ nh bằng thuật
tốn ID3.
B ngă2.1:B ngăd ăli uăvíăd ăv ăsinhăviên
H căl c
Đi mărènăluy n
Khuăv c
Đi mătuy năsinh
Thơiăh c
Y u
Th p
1
TB
Có
Trung bình
Th p
2
TB
Có
Trung bình
Th p
3
Cao
Có
Y u
Cao
3
Cao
Có
Khá
Th p
3
Cao
Có
Trung bình
Th p
2
Cao
Có
Khá
Cao
2
Cao
Có
Y u
Cao
2
TB
Có
Y u
Th p
1
Cao
Có
Khá
Th p
1
TB
Khơng
Khá
Cao
1
TB
Khơng
Trung bình
Cao
3
Cao
Khơng
Khá
Th p
2
TB
Khơng
Trung bình
Cao
2
TB
Khơng
17
Xétăvíăd ăv iăt păd ăluy nănh ăb ngă2.1 ătrên
Ta có:
L p P: Thơi h c = “Có” = 9
L p N: Thơi h c = “Khơng” = 5
Bước 1: Tính chỉ s thông tin c n thi t để phân l p m t m u đ ợc cho là:
(p,n) = Info (9,5) = -
Info
9
9
5
5
log 2 log 2 = 0.940
14
14 14
14
Xét thu c tính “H c lực” ta có :
○ “H c lực” = “Khá”:
Info([2,3]) = –2/5log2(2/5) –3/5log2(3/5) = 0.971
○ “H c lực” = “Y u”:
Info([4,0]) = –4/4log2(4/4) –0/4log2(0/4) = 0
○ “H c lực” = “TB”:
Info([3,2]) = –3/5log2(3/5) –2/5log2(2/5) = 0.971
Bước 2: Entropy cho phép phân tách trên thu c tính “H c lực” :
Entropy (Học lực) =
5
4
5
Info(2,3)+
Info(4,0) + Info(3,2)
14
14
14
= (5/14) * 0.971 + (4/14) * 0 + (5/14) * 0.971
=0.694
Bước 3: Gain(“Học lực”) = Info(9,5) – Entropy(“H c lực”)
= 0.940 – 0.694 = 0.246
T ơng tự cho các thu c tính cịn lại ta có:
Gain(“H c lực”) = 0.246
Gain(“Điểm tuyển sinh”) = 0.151
Gain(“Điểm rèn luyện”) = 0.048
Gain(“Khu vực”)= 0.029
K t quả trên cho th y thu c tính “H c lực” có đ lợi thơng tin l n nh t nên
đ ợc ch n làm thu c tính để phân tách. Ti p t c t ơng tự ta s đ ợc cây quy t đ nh
cu i cùng có dạng :
18
Hình 2.2: K tăqu ăcơyăquy tăđ nhăv iăt păd ăli uăh cătrongăb ngă2.1
2.3.5. Nhận xét:
-
u điểm:
+ K t quả c a quá trình hu n luyện (h c) đ ợc biểu diễn d i dạng luật If Then nên dễ hiểu v i con ng i, đ ợc sử d ng ch y u trong các hệ chuyên gia.
+ Rút luật từ cây quy t đ nh: đi từ nút g c đ n nút lá, l y các phép thử làm tiền
đề và phân loại c a nút lá làm k t quả.
+ Nói chung, các giải thuật cây quy t đ nh cho đ chính xác khá cao.
- Nh ợc điểm:
+ Hạn ch l n nh t c a ID3 và Cây quy t đ nh nói chung là việc n u m t điểm
dữ liệu m i rơi vào nh mnhánh ngay những l n phân chia đ u tiên, k t quả cu i
cùng s khác đi r t nhiều. Việc rơi vào nh m nhánh này r t dễ xảy ra trong tr ng hợp
thu c tính liên t c đ ợc chia thành nhiều nhóm nh , vì hai điểm có thu c tính t ơng
ng r t g n nhau có thể rơi vào hai nhóm khác nhau.
+ Việc x p hạng các thu c tính để phân nhánh dựa vào l n phân nhánh tr
và b qua sự ph thu c l n nhau giữa các thu c tính.
c đó
+ Khi dùng đ lợi thông tin (Infomation Gain) để xác đ nh thu c tính r nhánh
thì các thu c tính có nhiều giá tr th ng đ ợc u tiên hơn.
+ Thuật tốn ID3 u c u các thu c tính m c tiêu phải là giá tr r i rạc.