B GIÁO D
O
I H C DÂN L P H I PHÒNG
NGUY
P
NGHIÊN C U H TH NG TR
GIÚP QUY
NH
N NGH NGHI P CHO H C SINH
TRUNG H C PH
THÔNG
LU
THÔNG TIN
CHUYÊN NGÀNH:
H TH NG THÔNG TIN
MÃ S :
60480104
NG D N KHOA H C:
TRUNG TU N
H i Phòng, 10/2017
i
Lu
u h th ng tr giúp ra quy
n ngh nghi p
cho h c sinh trung h c ph
c hoàn thành không nh ng nh s n l c c a cá
nhân tác gi mà còn có s tr giúp,
t r t nhi u t p th và cá nhân.
c h t, tác gi xin chân thành c
tc
,
, ti
,
các th y giáo cô giáo c a Khoa công ngh
i h c Dân l p H i Phòng
t tình gi ng d y, t
u ki n thu n l i cho tác gi trong quá trình h c t p, nghiên
c u,
c t p c a khóa h c.
c bi t, tác gi bày t lòng bi
th y cô trong h
ng khoa h
lu
n th y
Trung Tu n, các
i gian ch b o t n tình giúp em hoàn thành
Tác gi xin chân thành c
GD và
i Phòng, Ban giám hi u và giáo
ng THPT Lê Ích M c huy n Th y Nguyên thành ph H
t om
u ki n thu n l i cho tác gi trong su t quá trình h c t p, nghiên c u
và hoàn thành lu
Tác gi xin c
, b n bè,
tác gi hoàn thành khóa h c và lu
ng nghi p,
ng viên ti p thêm ngh l c
M
u c g ng, song lu
gi r t mong s ch b o, góp ý c a các nhà khoa h c, các th
i nh ng thi u sót. Tác
ng nghi p.
Xin trân tr ng c
H i Phòng,
Nguy
ii
p
L IC
.......................................................................................................... ii
M C L C .............................................................................................................. iii
DANH SÁCH NH NG T
VI T T T ................................................................ vi
Danh m c các hình v và b ng bi u ...................................................................... vii
M
U ..................................................................................................................1
1. Lý do ch
tài ..........................................................................................1
2. M c tiêu nghiên c u .....................................................................................2
3. N i dung nghiên c u.....................................................................................2
u ..............................................................................2
5. C u trúc lu
..........................................................................................2
...................................................................................................................3
T NG QUAN V H TH NG TR GIÚP QUY
NH ..................................3
1.1. H th ng thông tin .........................................................................................3
1.2. H tr giúp ra quy
1.2.1. Quy
nh ...............................................................................4
nh...............................................................................................4
1.2.2. Quá trình ra quy
1.3. H tr giúp quy
nh ...........................................................................5
nh ...................................................................................7
1.3.1. Khái ni m h tr giúp quy
nh ...........................................................7
1.3.2. Các thành ph n c a h tr giúp quy
1.3.3. Mô hình ra quy
nh.............................................................................8
1.3.4. Phân lo i h tr giúp ra quy
1.3.5.
nh ............................................7
nh.........................................................9
c c a h tr giúp quy
-
nh.....................................................11
..............................................................................13
1.4. Quá trình ng d ng tin h c trong các bài toán phi c u trúc ........................14
1.4.1. Bài toán phi c u trúc .............................................................................14
1.4.2. Lo i bài toán phi c u trúc .....................................................................14
.............................................................................................16
1.5.1 Khái ni m v cây quy
1.5.2 M t s v n
nh .................................................................16
khi s d ng cây quy t
giá cây quy t
nh ...........................................17
nh trong l nh v c khai phá d li u...................19
............................................................................................22
iii
1.6.1 Gi i thi u v thu t toán cây quy
nh................................................22
1.6.2 Gi i thi u thu t toán C4.5 .....................................................................22
nh
1.6.3 Thu t toán C4.5 dùng Gain-entropy làm
o l a ch n thu c tính t t
...........................................................................................................................23
v i c ch riêng trong x lý nh ng giá tr thi u.......26
1.6.5 Tránh
v
1.6.6 Chuy n
d li u .......................................................................26
i t cây quy t
nh sang lu t ...............................................27
1.6.7 Nh n xét v thu t toán C4.5 ..................................................................28
1.7. K t lu n........................................................................................................28
.................................................................................................................29
NHU C U RA QUY
I V I VI C L A CH N NGH NGHI P
C A H C SINH TRUNG H C PH THÔNG ...............................................................29
2.1 Th c tr ng c a vi c ch n ngh c a thanh niên.............................................29
2.1.1. Th c tr ng chung c a thanh niên..........................................................29
2.1.2. Th c tr ng c a l a ch n ngh nghi p c a h c sinh..............................31
2.2.3 Nhu c u v ngu n nhân l c ...................................................................33
tr giúp quy
2.2.1. V ngành ngh
2.2.2. Ngành ngh
nh...........................................35
ng .......................................................................35
i ch
i ..............................40
ng ngh t
giáo d c ph thông...........................................43
n ngh t
giáo d c .............................................................43
n nh h th ng công ngh thông tin ............................................46
2.4. K t lu n........................................................................................................47
.................................................................................................................48
TH NGHI M TR GIÚP QUY
NH L A CH N NGH NGHI P T I
NG TRUNG H C PH THÔNG ..........................................................................48
tv
....................................................................................................48
3.1.1. T ng quan v ph n m m Weka ............................................................48
3.1.2. Xây d ng d li
n m m...................................................50
3.2. Chu n b d li u th nghi m .......................................................................52
3.2.1 Trích ch n thu c tính.............................................................................52
3.2.2 Trích ch n thu c tính b ng ph n m m Weka........................................53
3.2.3 Chu n hóa d li u ..................................................................................54
3.2.4 L a ch n thu
xây d ng cây quy
iv
nh ...........................56
u qu phân l p c a thu t toán............................................58
t qu s d ng cây quy
nh....................................................67
3.3.1. Gi i pháp xây d ng h th ng................................................................67
3.3.2. Giao di n ph n m m .............................................................................67
3.4. K t lu
...........................................................................................68
K T LU N........................................................................ hich
Nangkhieu
Dieukiengiadinh
Lcnghe
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
Vùng hi n th k t qu trainning:
Ch
phân l p: toàn b d li u
Cây J48 sau khi ti n hành trainning:
S
ng lá: 12
c cây: 19
Th i gian ti n hành: 0.01 giây
J48 pruned tree
-----------------Number of Leaves :
Size of the tree :
12
19
Time taken to build model: 0.01 seconds
=== Stratified cross-validation ===
59
=== Summary ===
Correctly Classified Instances
62.2222 %
28
Incorrectly Classified Instances
37.7778 %
17
Kappa statistic
0.575
Mean absolute error
0.0684
Root mean squared error
0.199
Relative absolute error
37.9693 %
Root relative squared error
65.9877 %
Total Number of Instances
45
Tóm t t k t qu xác nh n phân l p:
ng h p phân l p chính xác: 28 chi m 62.22%
ng h p không chính xác: 17 chi m 37.78%
Các th ng kê l i.
K t qu hi n th c
60
T o lu t t cây quy
nh:
1. Rule 1:
Nangkh
and HL = G and Sothich =no and
then Lcnghe
Congan
2. Rule 2:
and HL = G and Sothich =no and
3.
and HL = G and Sothich =yes and
Dieukiengiadinh =K then Lcnghe =
4. Rule 4: If Nhuca
5. Rule 5:
Nvbanhang
and HL = TB then Lcnghe =
6. Rule 6:
Cao and HL = K
7. Rule 7:
Nvvanphong
and HL = G then Lcnghe =
8. Rule 8:
Casi
and HL = TB then Lcnghe =
9.
10. Rule 10:
and HL = G then Lcnghe =
11. Rule 11:
Congnhan
and HL = TB then Lcnghe =
12. Rule 12:
and HL = K then Lcnghe =
3.2.5.2.
tách ph
Percentage split)
Cho bi t t l
t hi u qu phân l p cao nh t.
61
L n th nh t: v i t l phân chia là 66% thì ta có k t qu
=== Evaluation on test split ===
=== Summary ===
Correctly Classified Instances
5
33.33
%
Incorrectly Classified Instances
10
66.67
%
62
sau:
L n th hai: v i t l phân chia là 60% thì ta có k t qu nh sau:
=== Evaluation on test split ===
=== Summary ===
Correctly Classified Instances
8
44.44
%
Incorrectly Classified Instances
10
55.56
%
63
L n th ba: v i t l phân chia là 70% thì ta có k t qu
=== Evaluation on test split ===
=== Summary ===
Correctly Classified Instances
8
61.54
%
Incorrectly Classified Instances
5
38.46
%
64
L n th
v i t l phân chia là 50% thì ta có k t qu
=== Evaluation on test split ===
=== Summary ===
Correctly Classified Instances
9
40.9
%
Incorrectly Classified Instances
13
59.1
%
65
L n th
v i t l phân chia là 40% thì ta có k t qu nh sau:
=== Evaluation on test split ===
=== Summary ===
Correctly Classified Instances
9
33.3
%
Incorrectly Classified Instances
18
66.7
%
3.2.5.3.
t qu :
Sau khi th c hi n ch y 5 l
xây d ng cây v i các tham s
u vào
khác nhau ta th y ng v i l n ch y th 3 v i các tham s l a ch n là: b d li u
dùng kh i t o cây 70%, b d li u th là 3
c t l phân l p chính xác là
61, 54%. S
ng m u th không quá nh ; cho nên
i ta ch n cây quy
nh
sinh ra t i l n ch y th 3 s d ng cho các m u th b t k sau này.
66
Gi
xây d
quy
nh b ng công c ph bi n Weka
hành xây d
các khuôn d
vi c th hi n thu t toán b ng ngôn ng l
vào vi c xây d ng mô hình khai phá d li
Giao di n chính c
ng h th
c t o lu t t cây
k t qu
chính xác cao; ti n
ng Windows b ng ngôn ng l p trình C#,
p trình s
c rút ng
tài s
u.
trình:
Giao di n l a ch n các yêu c u ra quy
67
nh:
Giao di n l a ch n các yêu c u ra quy
cây quy
nh t
d li u v tuy
Lu
trình c a công vi
v n;
N
quy t yêu c
d ng Cây quy
nh:
c ng d ng ph n m m Weka vào vi c xây d ng
c t p lu t và th nghi m công tác ra quy
nh, d a
c phân tích, thi t k , xây d ng.
n hành phân tích, nghiên c u, tìm hi
c, quy
n ngh trong th c t và ng d ng c a máy tính vào vi
li u, áp d
gi i
t ra. C th là nghiên c u và v n d ng thu t toán j48 xây
khai phá d li u công vi
n l a ch n ngh nghi p.
ng d ng minh h a th c hi
Th c hi n truy v n và tr v k t qu phù h p v i yêu c u c
bày trên. Giao di n và cách t ch c thu t toán r t thân thi
dàng s d ng.
V m t th c ti n, lu
xây d ng h th ng tr giúp ra quy
sinh trung h c ph thông.
c yêu c
i dùng d
c gi i pháp k thu
v n d ng và
n ngh nghi p cho h c
Vi c k t h p lý thuy t v mô hình khai phá d li u và thu t toán xây d ng
Cây quy
nh là r t c n thi t, nó giúp gi m thi
th i gian trong vi c tìm
ki
nh thông tin, giúp cho các em h
t t nghi p THPT.
68
H tr giúp ra quy
nh tuy không ph i là m
tài m i m , v i r t nhi u
tài nghiên c u và các n l c áp d ng th c t
n dà tr thành m t b ph n
quan tr ng c a các h th ng thông tin hi
i. Tuy nhiên các áp d ng c a nó v n
m
t chu n th ng nh t. Trong khuôn kh lu
hi u m t cách t ng quan H tr giúp ra quy
nh.
Sau th i gian nghiên c u và hoàn thi n lu
,
c hi
c các
m
(i) tìm hi u v h th ng thông tin và h tr giúp
quy
nh; (ii) hi n tr ng c a công tác
ng ngh và nhu c u v bài toán ra
quy
nh; (iii) th nghi m v bài toán
ng ngh cho h c sinh trung h c
ph thông.
Các k t qu nghiên c u trên hi v ng là tài li u b ích, giúp h c sinh ngay khi
ng i trên gh
, khoa h c v l a ch n ngh
nghi
Các k t qu
c trong lu
V m t khoa h c, lu
u, tìm hi
c, quy trình c a công vi
n ngh trong th c t ; (ii) n
pháp và mô hình khai phá d li u; (iii) th nghi
t ra.
c các
V m t th c ti n, lu
i pháp k thu
v n d ng và xây
d ng h th ng tr giúp ra quy
n ngh ; (ii) k t h p lý
thuy t v mô hình khai phá d li u và thu t toán xây d ng cây quy
nh.
Tuy nhiên, h n ch c a các k t qu
c thù c a vi
n ngh còn
mang nhi u tính ch
nh tính, có nhi u y u t nh y c m, vì v y h th
c xây
d ng ch mang tính h tr là chính; (ii) m
n còn nhi u quy
nh mà d li u training không th th hi n h
c, d
n k t qu
mong mu n. Hi n t i, h th ng ch ch y th nghi m v i ph m vi h p.
Ph n m m s d ng trong lu
c ti p t c th nghi m. h c viên
c r ng c n hoàn thi n ng d
nó có th áp d ng m t cách th c t :
(i) v d li u, c n s d ng các d li u sát v
u ki n th c t ; (ii) v ph n m m,
giao di n thân thi
; (iii) các k t qu tính toán c
áp ng
c các yêu c u
.
69
H c viên công tác t
giáo d c, luôn nh n th
c vai trò c a ng
d ng công c công ngh thông tin và truy
tin h c hóa công tác qu n lí
ng nghi p cho h c sinh.
H c viên s c g ng tìm hi
chính xác v
n ngh , t
mang tính ng d
70
a ngh và các y u t
n h th
h th ng
Tài li u ti ng Vi t
[1]. Hoàng Xuân Hu n, H th ng tr giúp quy
nh, bài gi
h c Công ngh
i h c Qu c gia Hà N i, 2009
[2].
th ng thông tin qu n lý, bài
gi
[3].
i
i h c Thái Nguyên, 2008
Trung Tu n, H tr giúp quy
2016
i h c Qu c gia Hà N i,
Tài li u ti ng Anh
[4]. Delic, K.A., Douillet, L. and Dayal, U., "Towards an architecture for
real-time decision support systems:challenges and solutions, 2001
[5]. E. Turban, Decision support and expert systems, Prentice Hall, 1995
[6]. I.M. Makarov, T.M. Vinogradskaya, Rubchinsky, V.B. Sokolov, The
Theory of choice and decision making, Mir Publishers Moskow, 1987
[7]. M.W.Davis, Applied Decision Support, Prentice Hall, 1988
[8]. Power, D. J. Web-based and model-driven decision support systems:
concepts and issues. in proceedings of the Americas Conference on
Information Systems, Long Beach, California, 2000
[9]. Sauter, V. L. Decision support systems: an applied managerial
approach. New York, John Wiley, 1997
[10]. Sprague R, Decision Support Systems, Ed. Prentice Hall, 1998
[11]. Sprague, R. H. and H. J. Watson. Decision support systems: putting
theory into practice. Englewood Clifts, N.J., Prentice Hall, 1993
[12]. W. H. Inmon, Big Data - getting it right: A checklist to evaluate your
environment, Http://DSS.resources, 2014
Website:
[13]. Ho Tu Bao, Chapter 3: Data with Decision Tree http:// en.wikipedia.org
/wiki/ Decision_support_system, 2014
[14]. http:// baodautu.vn/nhan-luc-cong-nghe-thong-tin-mong-so-luong-yeuchat-luong-d61495.html 2014
[15]. />
71