Tải bản đầy đủ (.pdf) (74 trang)

Ứng dụng khai phá dữ liệu xây dựng hệ hỗ trợ tuyển sinh tại trường đại học phạm văn đồng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.16 MB, 74 trang )

Đ IăH CăĐĨ N NG
TR

NGăĐ IăH CăS ăPH M

NGUY NăTH ăBỊNHăMINH

TểNăĐ ăTĨI LU NăVĔN:
NGăD NGăKHAIăPHỄăD ăLI Uă
XỂYăD NGăH H ăTR ăTUY NăSINHă
T IăTR
NGăĐ IăH CăPH MăVĔNăĐ NG

Chuyên ngành: Hệ th ng thông tin
Mư s : 8480104

LU NăVĔNăTH CăSƾ

NG

IH

NG D N KHOA H C:

PGS.TSKH.TR N QU C CHI N

ĐƠăN ng -Nĕm2019





iii

M CăL C
L IăCAMăĐOAN ...................................................................................................................... i
TịMăT TăĐ ăTĨI ................................................................................................................... ii
DANHăM CăT ăVI TăT T ................................................................................................... v
DANHăM CăCỄCăB NG........................................................................................................ v
DANHăM CăCỄCăHỊNH ....................................................................................................... vi

1. LỦ do ch n đề tài ....................................................................................................1
2. M c tiêu và n i dung nghiên c u ...........................................................................2
3. Đ i t ợng và phạm vi nghiên c u ..........................................................................2
4. Ph ơng pháp nghiên c u ........................................................................................3
5. ụ nghĩa đề tài nghiên c u .......................................................................................3
6. K t quả dự ki n .......................................................................................................3
7. B c c luận văn.......................................................................................................3
CH

NGă1ăăT NGăQUANăV PHỄT HI N TRI TH C VĨăKHAIăPHỄăD ăLI U .... 5

1.1. Phát hiện tri th c ...................................................................................................5
1.2.Các b

c trong phát hiện tri th c ..........................................................................5

1.3. Các ng d ng c a phát hiện tri th c .....................................................................6
1.4. Khai phá dữ liệu ....................................................................................................7
1.5. Mơ hình khai phá dữ liệu ......................................................................................8
1.6. Các ph ơng pháp khai phá dữ liệu .......................................................................9
1.7. K t luận Ch ơng 1 ................................................................................................9

CH

NGă2ăăK ăTHU TăKHAIăPHỄăD ăLI UăVĨă NGăD NG ................................. 11

2.1. Cây quy t đ nh ....................................................................................................11
2.2. Đánh giá cây quy t đ nh trong lĩnh vực khai phá dữ liệu: ..................................13
2.3. Thuật toán ID3 ....................................................................................................13
2.4. Thuật toán C4.5...................................................................................................19
2.5. Thuật toán Naive Bayes ......................................................................................28
2.6.Các giai đoạn c a quá trình khai phá dữ liệu .......................................................29
2.7. Khai phá dữ liệu trong giáo d c..........................................................................30
2.8. Khai phá dữ liệu sinh viên Tr

ng Đại h c Phạm Văn Đồng ............................31

2.9. K t luận Ch ơng 2 ..............................................................................................32
CH
NGă3ăă NGăD NGăKHAIăPHỄăD ăLI UăTRONGăPHỂNăTệCHăVĨăH ăTR ă
H CăSINHăCH NăNGĨNHăH CăVĨOăTR
NGăĐ IăH CăPH MăVĔNăĐ NG .... 33


iv

3.1. Gi i thiệu về Tr

ng Đại h c Phạm Văn Đồng .................................................33

3.2. Gi i thiệu về công c khai phá dữ liệu ...............................................................35
3.3. Mơ hình và bài tốn xây dựng hệ hỗ trợ t v n tuyển sinh. ...............................37

3.4. Mơ tả việc tổng hợp dữ liệu cho bài tốn ...........................................................39
3.5. Chu n hoá dữ liệu đ u vào cho thuật tốn ..........................................................40
3.6. Phân tích cơ s dữ liệu dữ liệu ...........................................................................48
3.7. Khai phá dữ liệu rút ra tri th c............................................................................51
3.8. Triển khai ch ơng trình ......................................................................................52
3.9. Hình ảnh trích ra từ ch ơng trình demo .............................................................53
K TăLU NăVĨăH

NGăPHỄTăTRI N ............................................................................ 55

1. K t luận .................................................................................................................55
2. H

ng phát triển ...................................................................................................55

DANHăM CăTĨIăLI UăTHAMăKH O .............................................................................. 57

Ti ng Việt ..................................................................................................................57
Ti ng Anh ..................................................................................................................57
Tài liệu internet ..........................................................................................................58


v

DANH M C T
CHXHCN
UBND

VI T T T


C ng hòa xư h i ch nghĩa
y ban nhân dân

THPT

Trung h c phổ thông

KDD

Knowledge Discovery in Databases

ID3

Decision tree

Sprint

Scalable PaRallelization INduction of decisionTrees

Weka

Waikato Environment for Knowledge Analysis

SQL

Ngơn ngữ truy v n mang tính c u trúc(Structured Query
Language)

DANH M C CÁC B NG
B ng


Tênăb ng

Trang

Bảng 2.1

Bảng dữ liệu về sinh viên

17

Bảng 2.2

Bảng dữ liệu hu n luyện

23

Bảng 2.3

Bảng dữ liệu về thu c tính TrinhDoCM

24

Bảng 2.4

Bảng dữ liệu về thu c tính LLChinhTri

24

Bảng 2.5


Bảng dữ liệu về thu c tính NgoaiNgu

24

Bảng 2.6

Bảng dữ liệu về thu c tính NgoaiNgu = yes

24

Bảng 2.7

Bảng dữ liệu so sánh về GainRatio

25

Bảng 3.1

Bảng c u trúc file excel dữ liệu c a luận văn

42

Bảng 3.2

Bảng m c đ quan tr ng c a các thu c tính

50

Bảng 3.3


Giải thuật c a hệ th ng

50


vi

DANH M C CÁC HÌNH
S ăhi uăcác
cácăhìnhăv

Trang

Tên hìnhăv

1.1

Q trình phát hiện tri th c

5

2.1

Mơ hình cây quy t đ nh

13

2.2


K t quả cây quy t đ nh v i dữ liệu

2.3

Nút g c c a cây quy t đ nh

25

2.4

Cây quy t đ nh v i nhánh NgoaiNgu = Yes

26

2.5

Cây quy t đ nh hoàn chỉnh

27

3.1

Tr

35

3.2

Giao diện ph n mềm Weka


38

3.3

Mơ hình giải pháp xây dựng hệ hỗ trợ tuyển sinh

38

3.4

Cơ s dữ liệu tuyển sinh c a Tr
Đồng

ng Đại h c Phạm Văn

39

3.5

Cơ s dữ liệu tuyển sinh c a Tr

ng và điểm h c lực THPT

40

3.6

Cơ s dữ liệu tổng hợp ch a chu n hoá

41


3.7

Giao diện l c thu c tính c a Weka

43

3.8

Giao diện sau khi loại b các thu c tính

44

3.9

Giao diện thi t lập thơng s r i rạc hố dữ liệu

45

3.10

Giao diện r i rạc hoá dữ liệu

46

3.11

K t quả dữ liệu r i rạc hố

46


3.12

Chuyển kiểu dữ liệu cho thu c tính

47

3.13

Chuyển kiểu dữ liệu cho thu c tính thành cơng

48

3.14

C u trúc file .arff hoàn chỉnh

48

3.15

Giao diện x p hạng thu c tính

49

3.16

K t quả đánh giá mơ hình

51


3.17

bảng 2.1

ng Đại h c Phạm Văn Đồng

ng d ng mơ hình cho tập dữ liệu kiểm tra

18

52

3.18

Sơ đồ quan hệ cơ s dữ liệu c a hệ th ng

54

3.19

Giao diện c a hệ th ng

55


1
M ăĐ U

1. Lýădoăch năđ ătƠi

Hiện nay, v i sự bùng nổ c a công nghệ thông tin, con ng i tr nên nh bé
giữa kho ki n th c khổng lồ, giữa các sự lựa ch n phù hợp cho bản thân. Giữa kho đại
d ơng tri th c, con ng i mu n tìm tri th c c n thi t cho bản thân tr nên khó khăn
và đơi lúc ln có sự phân vân giữa các lựa ch n.Giải pháp khai phá dữ liệu, đặc biệt
cây quy t đ nh là m t kỹ thuật tuyệt v i để giúp con ng i đ a ra những lựa ch n phù
hợp v i bản thân.
Nghề nghiệp c a m t cá nhân có Ủ nghĩa h t s c quan tr ng đ i v i sự phát
triển kinh t , xư h i c a qu c gia nói chung và đ i v i cu c s ng c a mỗi cá nhân, gia
đình nói riêng. Giải quy t việc làm cho ng i lao đ ng, đặc biệt là lao đ ng trẻ là m t
trong những v n đề quan tâm hàng đ u c a xư h i. Hiện nay, ch t l ợng và cơ c u lao
đ ng Việt Nam cịn nhiều b t cập, tình trạng d cung c u thi u v n còn phổ bi n.
Mặc dù tình trạng h c v n c a lao đ ng không ngừng đ ợc cải thiện, hệ th ng văn
bằng đ ợc nâng cao và m r ng nh ng tình trạng th t nghiệp v n ti p t c gia tăng.
L ợng sinh viên t t nghiệp từ các tr ng đại h c,cao đẳng chính quy trong cả n c
khơng có việc làm ngày càng nhiều, m t b phận sau khi t t nghiệp đại h c tr đảm
nhận các công việc không c n bằng c p, hiện t ợng sinh viên sau khi t t nghiệp làm
công nhân, hoặc làm các công việc khơng c n đ n trình đ đại h c đang d n khơng
cịn xa lạ.
M t trong các ngun nhân d n đ n đ n th tr ng lao đ ng c a Việt Nam có
nhiều b t cập đó là nguồn nhân lực đ ợc đào tạo nh ng không đáp ng đ ợc yêu c u
công việc. Trong đó, nguyên nhân ch y u h c sinh, sinh viên ch a có đ nh h ng
việc làm t ơng lai, ch a hiểu bản thân và nghề nghiệp mình ch n, ch a hiểu các yêu
c u nghề nghiệp c n. Th ng ng i h c sinh, sinh viên ch n nghề theo cảm tính, theo
bạn bè, đ nh h ng gia đình hay theo phong trào. Và sau khi vào h c, h c sinh, sinh
viên m i phát hiện bản thân không phù hợp v i ngành nghề mình ch n, d n đ n tình
trạng chán nản, b bê việc h c, hoặc h c v i t t ng h c để có t m bằng, ra tr ng
tính ti p. Và k t quả ra tr ng v i thành tích khơng cao, đi làm v i ngành nghề đào
tạo không h ng th , không tập trung, d n đ n ch t l ợng công việc không đạt yêu
c u, và các suy nghĩ tiêu cực về công việc. Vì vậy, ch n nghề nghiệp phù hợp cho bản
thân mỗi ng i, đặc biệt là h c sinh Trung h c phổ thông và m t b c ngoặc quan

tr ng c a mỗi đ i ng i.
Hiện nay, tại khu vực Quảng Ngưi ch a có các ng d ng hỗ trợ h c sinh Trung
h c phổ thông ch n nghề. Và Tr ng Đại h c Phạm Văn Đồng cũng ch a có ch ơng
trình t v n tuyển sinh nào tự đ ng để t v n nghề phù hợp cho h c sinh tr c khi h c
sinh ch n ngành đăng kỦ vào tr ng.V i tính c p thi t trên và yêu c u hiện nay thì
việc thu hút h c sinh vào các Tr ng Đại h c, Cao đẳng là v n đề c n thi t và s ng


2

cịn c a đơn v . Do đó, b phận t v n tuyển sinh r t quan tr ng. V i Ủ t ng giúp các
em h c sinh ch n ngành h c cho đúng để có đ nh h ng nghề nghiệp cho t ơng lai
c a mình, bằng kỹ thuật khai phá dữ liệu, tơi nghiên c u đề tài “ ngăd ngăkhai phá
d ăli u xơyăd ngăh ăh ătr ătuy năsinhăt iăTr ngăĐ iăh căPh măVĕnăĐ ng” làm
luận văn t t nghiệp c a mình.
2. M cătiêuăvƠăn iădungănghiênăc u
2.1. Mục tiêu của đề tài
- M c tiêu tổng quát: H ng đ n xây dựng ng d ng hỗ trợ tuyển sinh bằng kỹ
thuật khai phá dữ liệu để hạn ch tình trạng ch n sai nghề c a h c sinh trong t ơng lai
và giảm tình trạng th t nghiệp hoặc làm trái nghề c a sinh viên Tr ng Phạm Văn
Đồng sau khi ra tr ng.
- M c tiêu c thể:
+ Nghiên c u các kỹ thuật khai phá dữ liệu.
+ ng d ng các kỹ thuật khai phá dữ liệu để tạo ra ng d ng hỗ trợ h c sinh
ch n nghề phù hợp.
+

ng d ng dễ sử d ng đ i v i ng

i dùng cu i.


2.2. Nội dung nghiên cứu
- Tổng quan về khai phá dữ liệu, tập dữ liệu m u, thuật toán ID3, thuật toán
C4.5,thuật toán Naive Bayes và cây quy t đ nh.
- Quy trình tuyển sinh c a tr
3. Đ iăt

ng:

ngăvƠăph măviănghiênăc u

3.1. Đối tượng nghiên cứu của đề tài

+ Kỹ thuật khai phá dữ liệu c thể là cây quy t đ nh thuật toán ID3, thuật toán
C4.5 và thuật toán Naive Bayes
+ H c sinh, thí sinh tự do.
+ Quy trình tuyển sinh và quy ch xét tuyển.
3.2. Phạm vi nghiên cứu
+ Kỹ thuật phân l p: cây quy t đ nh, thuật tốn ID3,thuật tốn C4.5 và thuật
tốn Naive Bayes
+ Cơng c khai phá dữ liệu, SQL server và ngôn ngữ lập trình Visual Studio
trên nền Web.
+ Cơng tác t v n tuyển sinh Tr

ng Đại h c Phạm Văn Đồng.


3

4. Ph


ngăphápănghiênăc u

4.1. Nghiên cứu lý thuyết
- Nghiên c u về khai phá dữ liệu và các tài liệu liên quan.
- Nghiên c u thực trạng tuyển sinh tại tr ng Đại h c Phạm Văn Đồng, tìm
hiểu nhu c u thực t c a ng i h c, m t s tiêu chí cơ bản c a các nhà tuyển d ng và
nhu c u việc làm ngoài xư h i.
4.2. Nghiên cứu thực nghiệm
- Ti n hành xây dựng các giải pháp và xây dựng ng d ng đánh giá.
- Phân tích thi t k cơ s dữ liệu tuyển sinh và k t quả h c tập c a Sinh viên từ
đó so sánh và dự đốn k t quả h c tập c a từng ngành, xây dựng hệ th ng ch ơng
trình ng d ng, triển khai xây dựng ch ơng trình ng d ng, kiểm tra, thử nghiệm và
đánh giá k t quả.
5. ụănghƿaăđ ătƠiănghiênăc u
5.1. Ý nghĩa khoa học
- Tìm hiểu cây quy t đ nh trong khai phá dữ liệu.
- Xây dựng ra m t hệ th ng t v n hỗ trợ t v n tuyển sinh c a tr

ng.

5.2. Ý nghĩa thực tiễn
- Thu thập và thi t k đ ợc kho cơ s dữ liệu ph c v cho q trình t v n
tuyển sinh.
- Góp ph n nâng cao hiệu quả trong tuyển sinh cũng nh sự phát triển trong
việc dạy và h c c a tr ng.
6. K tăqu ăd ăki n
- Xây dựng đ ợc hệ hỗ trợ tuyển sinh c a Tr
dữ liệu.
7. B ăc călu năvĕn

L iăcamăđoan
Tómăt tălu năvĕn
M căl c
Danhăm căt ăvi tăt t
Danhăm căb ng
Danhăm căhìnhăv
M ăđ u

ng dựa trên lỦ thuy t khai phá


4

Lu năvĕnăg mă3ăch ng:
Ch ngă1:ăT ngăquanv phátăhi nătriăth căvƠ khaiăpháăd ăli u
Trình bày tổng quan về phát hiện tri th c, khai phá dữ liệu, m i liên hệ giữa
phát hiện tri th c và khai phá dữ liệu. Ch ơng này tìm hiểu về các ph ơng pháp khai
phá dữ liệu, các mơ hình khai phá dữ liệu,ầ
Ch ngă2:K ăthu tăKhaiăpháăd ăli uvƠă ngăd ng
Ch ơng này tìm hiểu về các kỹ thuật khai phá dữ liệu, đặc biệt kỹ thuật khai
phá dữ liệu bằng cây quy t đ nh. Ngồi ra ch ơng cịn gi i thiệu ng d ng khai phá dữ
liệu trong lĩnh vực giáo d c, và h ng ng d ng khai phá dữ liệu tại Tr ng Đại h c
Phạm Văn Đồng.
Ch ngă3:ă ngăd ngăxơyăd ngăh ăh ătr ăt ăv nătuy năsinhăvƠăđánhăgiáăk tă
qu .
Ch ơng này ti n hành tìm hiểu về quy trình tuyển sinh tại Tr ng Đại h c
Phạm Văn Đồng, đồng th i ti n hành áp d ng quy trình khai phá dữ liệu bằng cây
quy t đ nh C4.5 cho bài toán t v n ch n nghề bằng công c Weka. Ti n hành áp d ng
dữ liệu thực nghiệm cho bài toán, xác đ nh đ chính xác cây quy t đ nh, xây dựng tập
luật và k t quả thực nghiệm khi h c sinh thực hiện ch n nghề trên hệ th ng ch n

nghề,ầ
K tălu n vƠăh

ngăphátătri n

Danhăm cătƠiăli uăthamăkh o


5

CH

NG 1 T NG QUAN V PHỄT HI N TRI TH C VÀKHAI
PHÁ D LI U

Ch ơng này trình bày tổng quan về phát hiện tri th c, khai phá dữ liệu, quy
trình phát hiện tri th c, các v n đề chính c a khai phá dữ liệu, các ph ơng pháp, các
nghiệp v trong khai phá dữ liệu.
1.1. Phát hi n tri th c
Khái ni m: Ngoài thuật ngữ phát hiện tri th c, ng i ta còn dùng m t s thuật
ngữ khác có Ủ nghĩa t ơng tự nh phân tích dữ liệu/m u, khai m dữ liệu, khai phá dữ
liệuầ Nh ng tóm lại, về bản ch t phát hiện tri th c liên quan đ n việc phân tích các
dữ liệu và sử d ng các kỹ thuật đặc biệt để tìm ra các m u đặc tr ng trong m t tập dữ
liệu khổng lồ. Có nhiều đ nh nghĩa về phát hiện tri th c đư đ ợc các tác giả khác nhau
đ a ra, theo đ nh nghĩa c a Fayyad: “KDD (Knowledge Discovery in Databases)là q
trình khơng t m th ng c a việc xác đ nh các m u tiềm n có tính hợp lệ, m i lạ, có
ích và có thể hiểu đ ợc trong dữ liệu”[3].
Ti n trình khai phá tri th c bao gồm các giai đoạn: Chu n b dữ liệu, tìm ki m
mơ hình, khai phá dữ liệu, đánh giá m u và sử d ng tri th c khai phá đ ợc. Thuật ngữ
“m u tiềm n” đ ợc hiểu là m i quan hệ trong dữ liệu chẳng hạn nh những sinh viên

h c gi i tốn và ti ng Anh thì có điểm trung bình cu i khóa cao, “hợp lệ” b i vì ch ng
minh đ ợc tính đúng c a mơ hình. Thuật ngữ “m i lạ” hàm Ủ rằng những m u khai
phá đ ợc là không bi t tr c.
1.2.Cácăb

c trong phát hi n tri th c

Quá trình phát hiện tri th c đ ợc ti n hành qua 6 giai giai đoạn sau:

Hìnhă1.1:ăQuáătrìnhăphátăhi nătriăth c


6

Phát hiện tri th c bao gồm nhiều giai đoạn đ ợc lặp đi lặp lại nhiều l n mà
không c n phân biệt từng b c trong quá trình thực hiện.
Giai đoạn 1:Ch n l c dữ liệu. Là việc tìm hiểu lĩnh vực ng d ng từ đó hình
thành bài tốn, xác đ nh các nhiệm v c n phải hoàn thành. B c này s quy t đ nh
cho việc rút ra đ ợc các tri th c hữu ích và cho phép ch n các ph ơng pháp khai phá
dữ liệu thích hợp v i m c đích ng d ng cùng v i bản ch t c a dữliệu.
Giai đoạn 2: Tiền xử lỦ dữ liệu (xử lỦ thơ). B c này cịn đ ợc g i là tiền xửlỦ
dữ liệu nhằm loại b nhiễu (dữ liệu d thừa), làm sạch dữ liệu, xử lỦ và khắc ph c v n
đề thi u hoặc thừa dữ liệu, bi n đổi dữ liệu và rút g n dữ liệu n u c n thi t. B c này
th ng chi m nhiều th i gian nh t (b c quan tr ng) trong toàn b quy trình phát hiện
trith c.
Giai đoạn 3:Chuyển đổi dữ liệu. Thực hiện bi n đổi dữ liệu, ch n lựa m ts
ph ơng pháp. Phân loại (Classification), hồi quy (Regression), phân nhóm
(Clustering), quy nạp, tổng hợp k t quả(Summarization).
Giai đoạn 4: Khai phá dữ liệu. Q trình này trích ch n, chi t xu t ra các m u
hay các mô hình tiềm n d i các dữ liệu có Ủ nghĩa, hiểu đ ợc. Giai đoạn này r t

quan tr ng, bao gồm các công đoạn nh : ch c năng, nhiệm v và m c đích khai phá
dữ liệu, dùng ph ơng pháp khai phá nào là thíchhợp?.
Giai đoạn 5: Đánh giá các m u.Trong giai đoạn này, các m u dữ liệu đ ợc
chi t xu t b i các ph n mềm khai phá dữ liệu. Không phải b t c m u nào cũng đều có
ích, thậm chí cịn b sai lệch. Chính vì vậy, c n phải xác đ nh và lựa ch n những tiêu
chu n đánh giá sao cho s chi t xu t ra các tri th c c n thi t. Giai đoạn này đánh giá
đ tin cậy c a mô hình khai phá đ ợc cũng nh tính hữu d ng c a các mơ hình đ i v i
các m c tiêu đ ợc xác đ nh ban đ u.
Giai đoạn 6: Hiểu và sử d ng tri th c đư tìm đ ợc. Giai đoạn này làm sáng t
các mơ tả và dự đốn. Các b c trên có thể lặp đi lặp lại m t s l n, k t quả thu đ ợc
có thể đ ợc l y trên t t cả các l n thựchiện.
Tóm lại: Quá trình phát hiện tri th c từ trong kho dữ liệu (KDD – Knowledge
Discovery Database) là quá trình chi t xu t ra tri th c từ kho dữ liệu mà trong đó khai
phá dữ liệu là cơng đoạn quan tr ng nh t.
1.3. Các ng d ng c a phát hi n tri th c
Hiện nay, có khá nhiều các ng d ng c a khai phá dữ liệu và khám phá tri th c
đ ợc triển khai, đem lại hiệu quả cao trong thực t , ph c v cho sản xu t kinh doanh
và nghiên c u khoa h c.


7

Trong khoa h c, m t trong những ngành ng d ng chính là thiên văn h c. Hệ
th ng SKICAT dùng để phân tích ảnh, phân loại và x p nhóm các vật thể khơng gian
từ các ảnh quan sát vũ tr . Hệ th ng này đ ợc dùng để xử lỦ 3 terabytes dữ liệu ảnh từ
Đài thiên văn Palomar, v i khoảng 1 tỉ vật thể khơng gian phát hiện đ ợc. SKICAT có
thể làm đ ợc những cơng việc tính tốn cực l n trong việc phân loại các ảnh vật thể
không rõ ràng [5].
Trong kinh doanh, các ng d ng chính c a khám phá tri th c bao gồm ti p th ,
tài chính đặc biệt là đ u t , phát hiện gian lận, sản xu t, viễn thông. Trong ti p th , ng

d ng chính là hệ th ng CSDL ti p th , phân tích các dữ liệu khách hàng để phân loại
các nhóm khách hàng khác nhau và dự báo về s thích c a h .
Phát hiện gian lận: Hệ th ng HNC Falcon and Nestor PRISM dùng để theo dõi
các gian lận thẻ tín d ng, có thể theo dõi hoạt đ ng c a hàng triệu tài khoản. Hệ th ng
FAIS dùng để th m đ nh các giao d ch th ơng mại có bao gồm hoạt đ ng chuyển tiền
b t hợp pháp.
Trong lĩnh vực giáo d c: ng d ng khai phá dữ liệu nhằm giải đáp các câu h i
quan tr ng, làm sáng t ti n trình h c tập từ đó hỗ trợ cho các nhà quản lỦ giáo d c
trong việc ra quy t đ nh để nâng cao hiệu su t giảng dạy và h c tập. ng d ng khai
phá dữ liệu trong hệ th ng đào tạo trực tuy n nhằm phân tích hành vi c a ng i h c.
1.4. Khai phá d li u
Khai phá dữ liệu là m t khái niệm ra đ i vào những năm cu i c a thập kỷ 1980.
Nó là q trình khám phá thơng tin n đ ợc tìm th y trong các cơ s dữ liệu và có thể
xem nh là m t b c trong quá trình khám phá tri th c. Data Mining là giai đoạn quan
tr ng nh t trong ti n trình khai phá tri th c từ cơ s dữ liệu, các tri th c này hỗ trợ
trong việc ra quy t đ nh trong khoa h c và kinh doanh.
Để hình dung v n đề này ta có thể sử d ng m t ví d đơn giản nh sau: Khai
phá dữ liệu đ ợc ví nh tìm m t cây kim trong đ ng c khơ. Trong ví d này, cây kim
là m t mảnh nh tri th c hay m t thơng tin có giá tr và đ ng c khô là m t kho cơ s
dữ liệu r ng l n. Nh vậy, những thông tin có giá tr tiềm n trong kho cơ s dữ liệu
s đ ợc chi t xu t ra và sử d ng m t cách hữu ích nh khai phá dữ liệu. Ch c năng
khai phá dữ liệu gồm có g p nhóm phân loại, dự báo, đốn và phân tích các liên k t.
Năm 1989 Fayyad, Smyth và Piatestsky-Shapiro đư dùng khái niệm phát hiện tri th c
từ cơ s dữ liệu (Knowledge Discovery in Database-KDD). Trong đó, khai phá dữ liệu
là m t giai đoạn r t đặc biệt trong tồn b q trình, nó sử d ng các kỹ thuật để tìm ra
các m u từ dữ liệu [7].
Khai phá dữ liệu (data mining) là quá trình tính tốn để tìm ra các m u trong
các b dữ liệu l n liên quan đ n các ph ơng pháp tại giao điểm c a máy h c, th ng kê



8

và các hệ th ng cơ s dữ liệu. Đây là m t lĩnh vực liên ngành c a khoa h c máy
tính.M c tiêu tổng thể c a quá trình khai thác dữ liệu là trích xu t thơng tin từ m t b
dữ liệu và chuyển nó thành m t c u trúc dễ hiểu để sử d ng ti p.Ngồi b c phân tích
thơ, nó cịn liên quan t i cơ s dữ liệu và các khía cạnh quản lỦ dữ liệu, xử lỦ dữ liệu
tr c, suy xét mơ hình và suy luận th ng kê, các th c đo thú v , các cân nhắc ph c
tạp, xu t k t quả về các c u trúc đ ợc phát hiện, hiện hình hóa và cập nhật trực
tuy n. Khai thác dữ liệu là b c phân tích c a q trình “khám phá ki n th c trong cơ
s dữ liệu” hoặc KDD.
Chúng ta có thể hiểu m t cách sơ l ợc rằng khai phá dữ liệu là q trình tìm
ki m thơng tin hữu ích, tiềm n và mang tính dự báo trong các cơ s dữ liệu l n. Khai
phá dữ liệu là c t lõi c a quá trình khám phá tri th c. Khai phá dữ liệu là nhằm tìm ra
những m u m i, m u có tính ch t không t m th ng, những thông tin tiềm n mang
tính dự đ ng ch a đ ợc bi t đ n và có khả năng mang lại ích lợi.
1.5. Mơăhìnhăkhaiăpháăd ăli u
Mơ hình khai phá dữ liệu là m t mơ tả về m t khía cạnh c thể c a m t tập dữ
liệu. Nó tạo ra các giá tr đ u ra cho tập các giá tr đ u vào.
Víăd : Mơ hình hồi qui tuy n tính, mơ hình phân l p, mơ hình phân nhóm.
M t mơ hình khai phá dữ liệu có thể đ ợc mô tả 2 m c:
- M c ch c năng (Function level): Mơ tả mơ hình bằng những thuật ngữ về dự
đ nh sử d ng. Ví d : phân l p, phân nhóm.
- M c biểu diễn (representation level): Biểu diễn c thể m t mô hình.
Víăd : Mơ hình log-linear, cây phân l p, ph ơng pháp láng giềng g n nh t. Các
mơ hình khai phá dữ liệu dựa trên 2 kiểu h c: Có giám sát và khơng giám sát (đơi khi
đ ợc nói đ n nh là h c trực ti p và không trực ti p – directed and undirected
learning).
Các hàm h c có giám sát (Supervised learning functions) đ ợc sử d ng để dự
đoán giá tr . Các hàm h c khơng giám sát đ ợc dùng để tìm ra c u trúc bên trong, các
quan hệ hoặc tính gi ng nhau trong n i dung dữ liệu nh ng khơng có l p hay nhưn nào

đ ợc gán u tiên. Ví d c a các thuật tốn h c khơng giám sát gồm phân nhóm kmean (k-mean clustering) và các luật k t hợp Apriori. M t ví d c a thuật tốn h c có
giám sát bao gồm Naive Bayes cho phân l p (classification).
T ơng ng có 2 loại mơ hình khai phá dữ liệu:
- Các mơ hình dự báo (h c có giám sát):
+ Phân l p: Nhóm các m c thành các l p riêng biệt và dự đoán m t m c s
thu c vào l p nào.


9

+ Hồi qui (Regression): X p xỉ hàm và dự báo các giá tr liên t c.
+ Đ quan tr ng c a thu c tính: Xác đ nh các thu c tính là quan tr ng nh t
trong các k t quả dự báo
- Các mơ hình mơ tả (h c khơng giám sát):
+ Ph n nhóm (Clusterning): Tìm các nhóm tự nhiên trong dữ liệu.
+ Các mơ hình luật k t hợp (Association models): Phân tích “gi hàng”.
+ Trích ch n đặc tr ng (Feature extraction): Tạo các thu c tính (đặc tr ng) m i
nh là k t hợp c a các thu c tính ban đ u.
1.6. Cácăph

ngăphápăkhaiăpháăd ăli u

• Ph ơng pháp quy nạp (Induction): M t cơ s dữ liệu là m t kho thông tin
nh ng các thông tin quan tr ng hơn cũng có thể đ ợc suy diễn từ kho thơng tin đó. Có
hai kỹ thuật chính để thực hiện việc này là suy diễn và quy nạp.
• Ph ơng pháp suy diễn: Nhằm rút ra thông tin là k t quả logic c a các thông
tin trong cơ s dữ liệu. Ph ơng pháp suy diễn dựa trên các sự kiện chính xác để suy ra
các tri th c m i từ các thông tin cũ. M u chi t xu t đ ợc bằng cách sử d ng ph ơng
pháp này th ng là các luật suy diễn.
• Ph ơng pháp quy nạp: Ph ơng pháp quy nạp suy ra các thông tin đ ợc sinh ra từ

cơ s dữ liệu. Có nghĩa là nó tự tìm ki m, tạo m u và sinh ra tri th c ch không phải bắt
đ u v i các tri th c đư bi t tr c. Các thông tin mà ph ơng pháp này đem lại là các thông
tin hay các tri th c c p cao diễn tả về các đ i t ợng trong cơ s dữ liệu. Ph ơng pháp này
liên quan đ n việc tìm ki m các m u trong CSDL. Trong khai phá dữ liệu, quy nạp đ ợc
sử d ng trong cây quy t đ nh và tạo luật.
1.7. K t lu năCh

ngă1

Phát hiện tri th c từ dữ liệu là quá trình khám phá m u có ích, ch a bi t từ kh i dữ
liệu l n. Quá trình phát hiện tri th c bao gồm nhiều giai đoạn từ việc xác đ nh m c tiêu
c a bài toán đ n chu n b liệu và cu i cùng là kiểm đ nh k t quả và sử d ng tri th c thu
đ ợc. Khai phá dữ liệu là m t giai đoạn quan tr ng trong toàn b quá trình phát hiện tri
th c.
KDD đ ợc ng d ng r ng rưi trong nhiều lĩnh vực: thiên văn, sinh h c, y t ,
th ơng mại, an ninh qu c phòng, đặc biệt trong lĩnh vực giáo d c. Khai phá dữ liệu
trong giáo d c tuy là ngành m i nổi nh ng thu hút đ ợc sự quan tâm c a đông đảo
c ng đồng khoa h c. ng d ng khai phá dữ liệu trong giáo d c nhằm tìm l i giải đáp
cho các câu h i trong giáo d c, làm sáng t ti n trình h c tập từ đó hỗ trợ cho các nhà
quản lỦ giáo d c trong việc ra quy t đ nh để nâng cao hiệu su t giảng dạy và h c tập,
nâng cao năng lực cạnh tranh c a tr ng h c.


10

Ch ơng này trình bày kỹ thuật xây dựng cây quy t đ nh bằng thuật toán ID3.
Cây quy t đ nh đ ợc dùng trong các bài toán phân l p, dự báo. Cây quy t đ nh đ ợc
dùng r ng rưi vì những u điểm c a nó cho k t quả trực quan, dễ hiểu và xử lỦ đ ợc
dữ liệu kiểu s , dữ liệu có giá tr là tên thể loại, dữ liệu r i rạc, dữ liệu thi u và xử lỦ
t t m t l ợng dữ liệu l n trong th i gian ngắn.



11

CH

NGă2 K THU T KHAI PHÁ D

LI U VÀ

NG D NG

Ch ơng này tìm hiểu về các kỹ thuật khai phá dữ liệu, đặc biệt kỹ thuật khai
phá dữ liệu bằng cây quy t đ nh. Ngoài ra ch ơng còn gi i thiệu ng d ng khai phá dữ
liệu trong lĩnh vực giáo d c, và h ng ng d ng khai phá dữ liệu tại Tr ng Đại h c
Phạm Văn Đồng.
2.1. Cây quy tăđ nh
Cây quyết định: Cây quy t đ nh là m t mô tả tri th c dạng đơn giản nhằm phân
các đ i t ợng dữ liệu thành m t s l p nh t đ nh. Các nút c a cây đ ợc gán nhưn là
tên các thu c tính, các cạnh đ ợc gán các giá tr có thể c a các thu c tính, các lá mơ tả
các l p khác nhau. Các đ i t ợng đ ợc phân l p theo các đ ng đi trên cây, qua các
cạnh t ơng ng v i các giá tr , thu c tính c a đ i t ợng t i lá.
Tạo luật: Các luật đ ợc tạo ra nhằm suy diễn m t s m u dữ liệu có Ủ nghĩa về
mặt th ng kê. Các luật có dạng N u P thì Q, v i P là mệnh đề đúng v i m t ph n trong
cơ s dữ liệu, Q là mệnh đề dự đoán.
Cây quy t đ nh và luật có u điểm là hình th c mơ tả đơn giản, mơ hình suy
diễn khá dễ hiểu đ i v i ng i sử d ng. Tuy nhiên, gi i hạn c a nó là mơ tả cây và
luật chỉ có thể biểu diễn đ ợc m t s dạng ch c năng và vì vậy gi i hạn về cả đ chính
xác c a mơ hình.
Trong luận văn tơi ng d ng kỹ thuật khai phá tập trung vào v n đề: Dự đoán

đ ợc ngành h c mà h c sinh nên đăng kỦ vào tr ng Đại h c Phạm Văn Đồng. ng
d ng khai phá dữ liệu trong giáo d c nhằm tìm l i giải đáp cho các câu h i trong giáo
d c, làm sáng t ti n trình h c tập từ đó hỗ trợ cho cho sinh viên ch n đúng ngành h c
và góp ph n nâng cao hiệu su t giảng dạy và h c tập, nâng cao năng lực cạnh tranh
c a tr ng h c cũng nh đáp ng nhu c u c a xư h i.
Cây quy t đ nh (decision tree) là m t ph ơng pháp r t mạnh và phổ bi n cho cả
hai nhiệm v c a khai phá dữ liệu là phân loại và dự báo. Mặt khác, cây quy t đ nh
cịn có thể chuyển sang dạng biểu diễn t ơng đ ơng d i dạng tri th c là các luật IfThen. Cây quy t đ nh là c u trúc biễu diễn d i dạng cây. Trong đó, mỗi nút trong
(internal node) biễu diễn m t thu c tính, nhánh (branch) biễu diễn giá tr có thể có c a
thu c tính, mỗi lá (leaf node) biểu diễn các l p quy t đ nh và đỉnh trên cùng c a cây
g i là g c (root). Cây quy t đ nh có thể đ ợc dùng để phân l p bằng cách xu t phát từ
g c c a cây và di chuyển theo các nhánh cho đ n khi gặp nút lá. Trên cơ s phân l p
này chúng ta có thể chuyển đổi về các luật quy t đ nh. Cây quy t đ nh đ ợc sử d ng
để xây dựng m t k hoạch nhằm đạt đ ợc m c tiêu mong mu n. Các cây quy t đ nh
đ ợc dùng để hỗ trợ quá trình ra quy t đ nh. Cây quy t đ nh là m t dạng đặc biệt c a
c u trúc cây. Tạo cây quy t đ nh chính là q trình phân tích cơ s dữ liệu, phân l p và


12

đ a ra dự đoán. Cây quy t đ nh đ ợc tạo thành bằng cách l n l ợt chia (đệ quy) m t
tập dữ liệu thành các tập dữ liệu con, mỗi tập con đ ợc tạo thành ch y u từ các ph n
tử c a cùng m t l p. Lựa ch n thu c tính để tạo nhánh thông qua Entropy và Gain.
H c bằng cây quy t đ nh cũng là m t ph ơng pháp thông d ng trong khai phá dữ liệu.
Khi đó, cây quy t đ nh mơ tả m t c u trúc cây, trong đó, các lá đại diện cho các phân
loại còn cành đại diện cho các k t hợp c a các thu c tính d n t i phân loại đó. M t cây
quy t đ nh có thể đ ợc h c bằng cách chia tập hợp nguồn thành các tập con dựa theo
m t kiểm tra giá tr thu c tính . Q trình này đ ợc lặp lại m t cách đệ qui cho mỗi tập
con d n xu t. Quá trình đệ qui hồn thành khi khơng thể ti p t c thực hiện việc chia
tách đ ợc nữa, hay khi m t phân loại đơn có thể áp d ng cho từng ph n tử c a tập con

d n xu t [15].
Thuật toán cây quy t đ nh cho ra k t quả là m t tập luật c a những dữ liệu hu n
luyện có thu c tính. Cây quy t đ nh là m t công c phổ bi n trongkhai phá và phân
l p dữ liệu. Đặc điểm c a cây quy t đ nhlà m t cây có c u trúc gồm đó :




Nút g c (Root node):Là nút trên cùng c a cây (hình Oval).

Nút trong (Internal node):Là nút trung gian trên m t thu c tính đơn (hình
Oval), mang thu c tính phân loại.




Nhánh (Branch):Biểu diễn giá tr có thể có c a mỗi thu c tính.

Nút lá (Leaf node): Biểu diễn l p quy t đ nh hay sự phân ph i l p quy t đ nh
(hình vng hoặc chữ nhật)
M c đích c a cây quy t đ nh là dùng để ra quy t đ nh phân l p cho các đ i
t ợng dữ liệu ch a bi t.

Nútăg c

Nút
trong

Nút lá


Nút
trong

Nút lá

Nút lá

Nút lá

Hình 2.1:Mơăhìnhăcơyăquy tăđ nh


13

2.2. Đánhăgiáăcơyăquy tăđ nh trong lƿnhăv c khai phá d li u:
-

u điểm của cây quyết định:

+ K t quả c a quá trình hu n luyện (h c) đ ợc biểu diễn d i dạng cây nên dễ
hiểu và g n gũi v i conng i.
+ Nhìn chung, các giải thuật cây quy t đ nh cho k t quả có đ chính xác khá
cao.
+ Cây quy t đ nh có thể đ ợc chuyển đổi sang tập luật. Cây quy t đ nh có thể
xử lỦ các dữ liệu s , loại. Cây quy t đ nh là có khả năng xử lỦ các tập dữ liệu đó có thể
có lỗi, thi u giá tr .
- Nh ợc điểm của cây quyết định:
+ Cây quy t đ nh n u sử d ng ph ơng pháp chia để tr s thực hiện t t khi có
m t s thu c tính liên quan chặt ch v i nhau nh ng s khó khăn n u m t s t ơng tác
ph c tạp xu t hiện.

+ Các đặc tính liên quan c a cây quy t đ nh d n đ n những khó khăn khác nh
đ nhạy v i tập hu n luyện, các thu c tính không phù hợp, nhiễu.
+ Đ i v i các tập dữ liệu có nhiều thu c tính thì cây quy t đ nh s l n(vềchiều
sâu cả chiều ngang), vì vậy làm giảm đ dễ hiểu.
+ Việc x p hạng các thu c tính để phân nhánh dựa vào l n phân nhánh tr c đó
và b qua sự ph thu c l n nhau giữa các thu c tính.
+ Khi dùng đ lợi thông tin (Information Gain) để xác đ nh thu c tính r nhánh,
các thu c tính có nhiều giá tr th ng đ ợc u tiênch n.
2.3. Thu t toán ID3
2.3.1. Tổng quan
Thuật toán ID3 (Iterative Dichotomiser 3)đ ợc phát triển b i Quiland (Tr ng
Đại h c Syney, Australia) và đ ợc công b vào cu i thập niên 70 c a th kỷ 20. Sau
đó, thuật tốn ID3 đ ợc gi i thiệu và trình bày trong m c Induction on decision tree,
Machine Learning năm 1986. ID3 đ ợc xem nh m t cải ti n c a thuật toán CLS
(CLS đ ợc Hovland Hint gi i thiệu trong Concept Learning System vào những năm
50 c a th kỷ 20) v i khả năng lựa ch n thu c tính t t nh t để ti p t c triển khai cây
tạo mỗi b c. ID3 xây dựng cây quy t đ nh từ trên xu ng (Top-Down) [6].
Có nhiều thuật tốn khác nhau để xây dựng cây quy t đ nh nh : CLS, ID3,
C4.5, SPRINT, C5.0ầNh ng nói chung xây dựng cây quy t đ nh gồm 3 giai đoạn cơ
bản:


Xây dựng cây: Thực hiện chia m t cách đệ quy tập m u dữ liệu hu n luyện
cho đ n khi các m u nút lá thu c cùng m t l p.


14


Cắt tỉa cây: Là việc làm dùng để t i u hóa cây. Cắt tỉa cây chính là tr n m t

cây con vào trong m t nút lá.
 Đánh giá cây: Dùng để đánh giá đ chính xác c a cây k t quả. Tiêu chí đánh
giá là tổng s m u đ ợc phân l p chính xác trên tổng s m u đ a vào.
Cây quy t đ nh đ ợc xây dựng từ trên xu ng. Bắt đ u xây dựng cây quy t đ nh
tại nút g c, t t cả các dữ liệu h c nút g c. Ti n hành ch n thu c tính phân hoạch t t
nh t, dữ liệu đ ợc chia theo các giá tr c a thu c tính phân hoạch. Q trình này đ ợc
lặp lại v i tập dữ liệu mỗi nút vừa tạo. Điều kiện để dừng phân chia là: T t cả các
m u cùng m t nút thu c về cùng m t l p; Khơng cịn thu c tính nào để thực hiện phân
chia tập dữ liệu nữa; S l ợng ph n tử c a dữ liệu tại nút bằng không.
Theo nguyên tắc xây dựng cây quy t đ nh nh trên thì v i cùng m t tập dữ liệu
h c có thể cho ra các cây có đ r ng, đ sâu, đ ph c tạp khác nhau n u th tự ch n
thu c tính triển khai cây khác nhau. Do đó, việc ch n thu c tính nào để phân hoạch
mỗi nút mang tính quy t đ nh đ n đ ph c tạp c a cây quy t đ nh đ ợc tạo. Để đánh
giá thu c tính phân hoạch t t nh t ta dựa trên đ lợi thông tin (information gain), đ
đo information gain ratio, chỉ s gini.
2.3.2. Giải thuật thuật toán ID3

Bước 1:Chọn thuộc tính “Tốt” nhất bằng một độ đo đã định tr ớc
+ Tính độ lợi thơng tin (Information) cho sự phân lớp:

Trong đó:

Info (p,n) = ∑ =



= � ��

� �


 Dữ liệu S gồm có n thu c tính ��(� = 1, 2 ầ ) giá tr Information c a thu c

tính ��ký hiệu là �

� ���

(��).

+ Tính Entropy của thuộc tính A(hay thơng tin mong mu n c n thi t để phân
l p các đ i t ợng trong t t cả các cây con Si) có cơng th c là:


v

Entropy ( A) =

i 1

pi  ni
Info(pi , ni)
pn

Trong đó:

 Cho các tập {S1, S2,ầSv} là m t phân hoạch trên tập S, khi sử d ng thu ctính
A.

 Cho mỗi Si ch a pi m u l p P và ni m u l p N.

 Entropy= 0 n u t t cả các thành viên c a S đều thu c cùng 1 l p.



15

 Entropy = 1 n u tập hợp ch a s l ợng bằng nhau các thành viên thu c l p
d ơng hoặc l p âm. N u các s này khác nhau thì Entropy

giữa 0 và 1.

+ Độ lợi thơng tin cần thiết của thuộc tính A là:
Gain (A) = Info (p,n) – Entropy (A)
 Chọn thuộc tính A có giá trị Gain lớn nhất, lấy nó làm gốc cho cây hiện tại
và loại Thuộc tính A ra khỏi tập thuộc tính.

Bước 2:Phát triển cây bằng việc thêm các nhánh t ơng ứng với từng giá
trị của thuộc tính đã chọn.
Bước 3: Sắp xếp, phân chia dữ liệu với các nút con.
Bước 4: Nếu các ví dụ đ ợc phân lớp rõ ràng thì dừng. Ng ợc lại thì lặp
lại từ B ớc 1 đến B ớc 4 cho từng nút con.
2.3.3. Giải thuật bằng giả mã:
- M c đích: tìm cây thoả mưn tập m u
- ụt

ng: (đệ quy) ch n thu c tính quan tr ng nh t làm g c c a cây/cây con.

ID3(TapMauHuanLuyen, ThuocTinhPhanLop, TapThuocTinh)
{
(1) Tạo 1 nút g c Root cho cây
(2) IfTapMauHuanLuyen+
ThenReturn cây chỉ có 1 nút Root, v i nhưn +

(3) IfTapMauHuanLuyen–
ThenReturn cây chỉ có 1 nút Root, v i nhưn –
(4) IfTapThuocTinh rỗng
ThenReturn cây chỉ có 1 nút Root, v i nhưn = giá tr th

ng

xu t hiện nh t c a ThuocTinhPhanLoptrong TapMauHuanLuyen
(5) Else
{








A ← thu c tính trong TapThuocTinhcho phép phân loại t t
nh t TapMauHuanLuyen
Thu c tính quy t đ nh c a nút g c ← A
V i các giá tr vi có thể có c a A,
Thêm 1 nhánh m i d

i g c, ng v i phép kiểm tra A = vi


16



Đặt TapMauHuanLuyenvi = tập con c a TapMauHuanLuyen
v i giá tr thu ctính A = vi

 IfTapMauHuanLuyenvi rỗngThen d
lá v i nhưn = giá tr th

i nhánh m i này, thêm 1

ng xu t hiện nh t c a TapThuocTinhtrong

TapMauHuanLuyen

 ElseID3(TapMauHuanLuyenvi,ThuocTinhPhanLop,
TapThuocTinhậ {A})) //d

i nhánh m i này thêm cây con bằng

cách g i đệ quy
}
(6) Return Root
}

2.3.4. Ví dụ minh hoạ thuật tốn ID3
Dựa vào các thu c tính H c lực, Điểm rèn luyện, Khu vực, Điểm tuyển sinh ta
dự đốn xem sinh viên có thơi h c hay khơng. Xây dựng cây quy t đ nh bằng thuật
tốn ID3.

B ngă2.1:B ngăd ăli uăvíăd ăv ăsinhăviên
H căl c


Đi mărènăluy n

Khuăv c

Đi mătuy năsinh

Thơiăh c

Y u

Th p

1

TB



Trung bình

Th p

2

TB



Trung bình


Th p

3

Cao



Y u

Cao

3

Cao



Khá

Th p

3

Cao



Trung bình


Th p

2

Cao



Khá

Cao

2

Cao



Y u

Cao

2

TB



Y u


Th p

1

Cao



Khá

Th p

1

TB

Khơng

Khá

Cao

1

TB

Khơng

Trung bình


Cao

3

Cao

Khơng

Khá

Th p

2

TB

Khơng

Trung bình

Cao

2

TB

Khơng


17


Xétăvíăd ăv iăt păd ăluy nănh ăb ngă2.1 ătrên
Ta có:
L p P: Thơi h c = “Có” = 9
L p N: Thơi h c = “Khơng” = 5
Bước 1: Tính chỉ s thông tin c n thi t để phân l p m t m u đ ợc cho là:
(p,n) = Info (9,5) = -

Info

9
9
5
5
log 2 log 2 = 0.940
14
14 14
14

Xét thu c tính “H c lực” ta có :
○ “H c lực” = “Khá”:
Info([2,3]) = –2/5log2(2/5) –3/5log2(3/5) = 0.971
○ “H c lực” = “Y u”:
Info([4,0]) = –4/4log2(4/4) –0/4log2(0/4) = 0
○ “H c lực” = “TB”:
Info([3,2]) = –3/5log2(3/5) –2/5log2(2/5) = 0.971
Bước 2: Entropy cho phép phân tách trên thu c tính “H c lực” :
Entropy (Học lực) =

5

4
5
Info(2,3)+
Info(4,0) + Info(3,2)
14
14
14

= (5/14) * 0.971 + (4/14) * 0 + (5/14) * 0.971
=0.694
Bước 3: Gain(“Học lực”) = Info(9,5) – Entropy(“H c lực”)
= 0.940 – 0.694 = 0.246
T ơng tự cho các thu c tính cịn lại ta có:
Gain(“H c lực”) = 0.246
Gain(“Điểm tuyển sinh”) = 0.151
Gain(“Điểm rèn luyện”) = 0.048
Gain(“Khu vực”)= 0.029
K t quả trên cho th y thu c tính “H c lực” có đ lợi thơng tin l n nh t nên
đ ợc ch n làm thu c tính để phân tách. Ti p t c t ơng tự ta s đ ợc cây quy t đ nh
cu i cùng có dạng :


18

Hình 2.2: K tăqu ăcơyăquy tăđ nhăv iăt păd ăli uăh cătrongăb ngă2.1
2.3.5. Nhận xét:
-

u điểm:


+ K t quả c a quá trình hu n luyện (h c) đ ợc biểu diễn d i dạng luật If Then nên dễ hiểu v i con ng i, đ ợc sử d ng ch y u trong các hệ chuyên gia.
+ Rút luật từ cây quy t đ nh: đi từ nút g c đ n nút lá, l y các phép thử làm tiền
đề và phân loại c a nút lá làm k t quả.
+ Nói chung, các giải thuật cây quy t đ nh cho đ chính xác khá cao.
- Nh ợc điểm:
+ Hạn ch l n nh t c a ID3 và Cây quy t đ nh nói chung là việc n u m t điểm

dữ liệu m i rơi vào nh mnhánh ngay những l n phân chia đ u tiên, k t quả cu i
cùng s khác đi r t nhiều. Việc rơi vào nh m nhánh này r t dễ xảy ra trong tr ng hợp
thu c tính liên t c đ ợc chia thành nhiều nhóm nh , vì hai điểm có thu c tính t ơng
ng r t g n nhau có thể rơi vào hai nhóm khác nhau.
+ Việc x p hạng các thu c tính để phân nhánh dựa vào l n phân nhánh tr
và b qua sự ph thu c l n nhau giữa các thu c tính.

c đó

+ Khi dùng đ lợi thông tin (Infomation Gain) để xác đ nh thu c tính r nhánh
thì các thu c tính có nhiều giá tr th ng đ ợc u tiên hơn.
+ Thuật tốn ID3 u c u các thu c tính m c tiêu phải là giá tr r i rạc.


×