-2-
-1-
B
GIÁO D C VÀ ĐÀO T O
Đ I H C ĐÀ N NG
M Đ U
1. Lý do ch n lu n văn
Trong nh ng năm g n đây, cơng ngh thông tin phát tri n m nh
m và vi c ng d ng công ngh thông tin trong nhi u lĩnh v c ñ i
s ng, kinh t xã h i ñã làm lư ng d li u ñư c thu th p và lưu tr
PH M C M VÂN
các h th ng thông tin tăng lên m t cách nhanh chóng. Trư c tình
hình đó, vi c khai thác và ch n l c nh ng d li u có ích t lư ng d
li u kh ng l ñó là vi c c n thi t, ñóng vai trị quy t đ nh thành cơng
NG D NG KHAI PHÁ D LI U
Đ TƯ V N H C T P T I TRƯ NG
CAO Đ NG KINH T - K THU T
QU NG NAM
trong m i ho t ñ ng. Các d li u ch t l c đó s giúp c i thi n ho t
ñ ng trong hi n t i hay ñưa ra nh ng d ñoán giúp vi c ñưa ra quy t
ñ nh trong tương lai s chính xác hơn.
V i nh ng lý do đó, nhu c u phát tri n các k thu t thu th p, lưu
tr , phân tích d li u, … đư c đ t ra và nó địi h i ph i đư c x lý
thơng minh và hi u qu hơn. T đó đã làm phát tri n k thu t m i và
Chuyên ngành: Khoa h c máy tính
Mã s : 60.48.01
v i k thu t này cho phép ta khai thác ñư c tri th c h u d ng t cơ
s d li u l n ñư c g i là các k thu t khai phá d li u (Data Mining
- DM). Các k thu t khai phá d li u ñư c ng d ng trong nhi u lĩnh
v c như: kinh t , tài chính, y t , giáo d c…
TÓM T T LU N VĂN TH C SĨ K THU T
Trong vi c ng d ng khai phá d li u vào nhi u lĩnh v c khác
nhau c a ñ i s ng, khai phá d li u trong lĩnh v c giáo d c đang d n
có ñư c s quan tâm ñúng m c. Chúng ta c n ph i nhìn nh n r ng
Ngư i hư ng d n khoa h c:TS. NGUY N TR N QU C VINH
giáo d c là nhân t quy t ñ nh s phát tri n c a ñ t nư c v nhi u
m t. M c tiêu phát tri n xã h i m t cách b n v ng ñang ñ t ra cho
giáo d c nh ng yêu c u m i. Giáo d c ñào t o có nhi m v ñ nh
Đà N ng – Năm 2012
hư ng và ho ch ñ nh chính sách cho đ i tư ng chính c a giáo d c là
th h tr , là l c lư ng k th a c a vi c xây d ng, b o v và phát
tri n ñ t nư c trong tương lai m t cách ñúng ñ n và k p th i. Chính
-3vì v y, vi c đ nh hư ng và xây d ng chính sách trong giáo d c đào
t o c n ph i ñư c h tr b i các cơng c khoa h c đ tránh nh ng sai
l m ñáng ti c. Trong s nh ng cơng c đó, khai phá d li u là m t
cơng c h u ích và có tính khoa h c cao, giúp các nhà qu n lý giáo
-42. M c đích c a lu n văn
- Nghiên c u phương pháp khai phá tìm lu t k t h p và cây
quy t ñ nh d a trên d li u giáo d c.
-
ng d ng th c hi n nghiên c u đ xây d ng mơ hình khai phá
d c có đư c nh ng tri th c quý giá ph c v cho công tác qu n lý và
d li u d a vào thông tin tuy n sinh ñ u vào và k t qu h c t p đã
sinh viên cũng có th s d ng nh ng k t qu h u ích t q trình
thu th p đư c c a sinh viên trư ng Cao Đ ng Kinh T K Thu t
ch t l c d li u trong khai phá d li u.
Qu ng Nam. T đó, tri n khai xây d ng h th ng ng d ng t mơ
Ngày nay, các trư ng đ i h c và cao đ ng đa s đã chuy n sang
hình đã ñư c xây d ng nh m d ñoán k t qu h c t p c a sinh viên
ñào t o theo h c ch tín ch . Vi c tư v n h c t p, ch y u liên quan
qua vi c k t h p gi a thơng tin tuy n sinh đ u vào và l trình h c, t
đ n l a ch n l trình h c phù h p nh m đ t ñư c k t qu h c t p cao
đó giúp cho sinh viên có th ch n l a đư c m t l trình h c đ t k t
nh t cho m i sinh viên ñư c đ c bi t quan tâm. Đó cũng là khó khăn
qu t i ưu nh t phù h p v i ñi u ki n và năng l c c a mình. Bên
chung khơng ch c a m i sinh viên, mà còn c a các bên tham gia tư
c nh đó, h th ng cho phép hi n th các mơ hình khai phá d li u đã
v n, t các t ch c qu n lý trong trư ng ñ i h c cho ñ n các cán b
xây d ng nh m h tr cho ngư i dùng cu i. H th ng khơng ch h
đư c phân công chuyên trách như gi ng viên ch nhi m. Các gi ng
tr cho sinh viên mà còn h tr cho phịng đào t o, các khoa chun
viên chun trách khơng th ti p c n tồn b d li u v ñi m c a
ngành, các giáo viên ch nhi m có th tư v n cho sinh viên.
sinh viên. Ngay c v i các c p qu n lý, b ng c m tính ho c suy lu n
th công t kh i d li u kh ng l ñ ñưa ra nh ng tư v n t t trong
vi c ch n l trình h c cho m i sinh viên không ph i là kh thi.
Trư c th c t đó và đư c s ñ ng ý c a TS. Nguy n Tr n Qu c
- T o ti n ñ ñ phát tri n các ng d ng khác.
3. Đ i tư ng và ph m vi nghiên c u
- Đ i tư ng nghiên c u c a lu n văn
+ K thu t khai phá d li u.
Vinh, tôi ch n lu n văn “ ng d ng khai phá d li u ñ tư v n h c
+ D li u ñào t o.
t p t i Trư ng Cao ñ ng Kinh T K Thu t Qu ng Nam”. Lu n văn
+ H th ng tư v n
th c hi n vi c khai phá d li u t thơng tin tuy n sinh đ u vào k t
- Ph m vi nghiên c u:
h p v i l trình h c nh m đ d đốn k t qu h c t p c a sinh viên.
D a vào k t qu d đốn đó, h th ng – k t qu chính c a lu n văn,
s giúp sinh viên l a ch n cho mình m t l trình h c phù h p v i
ñi u ki n và năng l c c a b n thân ñ ñ t ñư c k t qu t i ưu.
+ Các k thu t phân l p: cây quy t ñ nh (Deccision tree –
DT) và lu t k t h p (Association rules – AR).
+ Công c
h
tr
khai phá Business Intelligence
Development Studio (BIDS) 2008 R2 và các mơ-đun h tr .
+ D li u th c t i trư ng Cao ñ ng Kinh T K Thu t Qu ng
Nam g m: K t qu h c t p và thông tin cá nhân c a kho ng 2000
-5-
-6-
sinh viên v i các ngành h c như sau: K tốn, Qu n tr , Qu n lý đ t
6. Phương pháp nghiên c u
đai, Ni tr ng th y s n, Lâm nghi p.
- Phương pháp nghiên c u lý lu n: Thu th p, ñ c hi u, phân
+ Xây d ng ng d ng d đốn k t qu h c t p ñ tư v n ñào
t o t i trư ng Cao ñ ng Kinh T K Thu t Qu ng Nam.
tích thơng tin, d li u t các tài li u, giáo trình, sách liên quan ñ n
khai phá d li u.
4. Nhi m v nghiên c u
- Phương pháp nghiên c u th c ti n: Ti n hành nghiên c u các
1. Nghiên c u lý thuy t v khai phá d li u, c th là k thu t
lu t k t h p và cây quy t ñ nh.
k thu t cho phép phân l p trong khai phá d li u, ng d ng các k
thu t đó đ xây d ng mơ hình d đốn k t qu h c t p c a sinh viên
2. Xác ñ nh bài toán c th là xây d ng công c li t kê t t c các
d a vào các thơng tin đ u vào. Đ tài ti n hành so sánh k t qu c a
l trình h c cho m i ngành h c và g n l trình h c v i m i sinh viên,
các k thu t ñ l a ch n k thu t cho k t qu chính xác nh t. T đó,
chu n b ngu n d li u đ xây d ng chương trình.
xây d ng chương trình d báo k t qu h c t p cho m i sinh viên đ
3. Xây d ng mơ hình d báo k t qu h c t p c a sinh viên theo
các k thu t khác nhau như cây quy t ñ nh, lu t k t h p,
ng d ng
cơng c Business Intelligence Development Studio đ xây d ng và
tư v n cho sinh viên ch n l trình h c phù h p nh t đ đ t ñư c k t
qu h c t p cao nh t. Vi c xây d ng mơ hình đư c ti n hành theo các
bư c:
ki m tra các mơ hình.
- Làm s ch và tích h p d li u
4. Đánh giá k t qu d báo c a các mơ hình đó và l a ch n mô
- L a ch n d li u và chuy n đ i d li u
hình t t nh t ñ th c hi n d báo.
- Khai thác d li u
5. Nghiên c u các thư vi n liên quan và Data Mining Extension
- Đánh giá mơ hình
(DMX) đ Xây d ng chương trình ng d ng mơ hình ñư c l a ch n
- S tr c quan hóa
đ d báo k t qu h c t p c a sinh viên d a vào các thông tin ñ u
D li u ñ u vào cho các k thu t phân l p có th là s n có như
vào, t đó th c hi n tư v n cho sinh viên trong vi c l a ch n l trình
các thơng tin cá nhân (khu v c, gi i tính, dân t c, đi m ưu tiên…),
h c nh m ñ t k t qu h c t p cao nh t.
ñi m tuy n sinh, chuyên ngành đào t o và cũng có th là l trình h c
5. Ý nghĩa khoa h c và th c ti n c a lu n văn
là k t qu th c hi n c a m t công c là m t ph n c a k t qu c a ñ
- Trư ng Cao ñ ng Kinh T K Thu t Qu ng Nam ñang th c
hi n vi c ng d ng công ngh thông tin vào công tác d y và h c r t
tài.
- Phương pháp nghiên c u tài li u: Tìm hi u ngôn ng l p
t t. Vi c xây d ng ng d ng d đốn k t qu h c t p s h tr cho
trình, h qu n tr Cơ s d li u (CSDL); Xây d ng ng d ng.
sinh viên trong vi c l a ch n phương pháp h c và môn h c (n u
7. B c c c a lu n văn
trư ng h c theo hình th c tín ch ) đ ñ t k t qu t t trong các h c kỳ
k ti p.
Ngồi ph n m đ u và k t lu n, lu n văn g m ba chương:
-7-
-8-
Chương 1: Nghiên c u t ng quan, chương này gi i thi u t ng
Lu t k t h p và cây quy t ñ nh trong khai phá d li u
1.3.
quan v quá trình khai phá d li u, các k thu t khai phá d li u, gi i
1.3.1. Cây quy t ñ nh (Decision Trees)
thi u thu t tốn xây d ng mơ hình khai phá d li u. Gi i thi u công
1.3.1.1 Gi i thi u
c xây d ng mơ hình khai phá d li u và các công c phát tri n h
1.3.1.2 Ho t đ ng c a thu t tốn
th ng.
1.3.1.3.D li u ñư c yêu c u cho vi c xây d ng mơ hình cây quy t
Chương 2: Nghiên c u xây d ng ng d ng, trong chương này
các n i dung đ c p đ n đó là: Mơ t
ng d ng, xây d ng bài tốn
li t kê l trình h c cho t ng ngành h c, phân tích thi t k h th ng,
trình bày các bư c thu th p, x lý d li u.
Chương 3: Phát tri n và Demo ng d ng, chương này trình bày
đ nh
1.3.1.4 Nh ng tham s ñư c h tr trong thu t toán cây quy t ñ nh
1.3.1.5. Xây d ng cây quy t ñ nh s d ng thu t toán C4.5
Thu t toán C4.5 đư c phát tri n và cơng b b i Quinlan vào năm
1996. Thu t toán C4.5 là m t thu t tốn đư c c i ti n t thu t toán
giao di n hi n th hai mơ hình khai phá d li u đã đư c xây d ng và
ID3 v i vi c cho phép x lý trên t p d li u có các thu c tính s
đ ng th i chương trình có th th c hi n ch c năng d đốn k t qu
(numeric attributes) và làm vi c ñư c v i t p d li u b thi u và b
h c t p c a sinh viên k t h p gi a thông tin tuy n sinh đ u vào và l
nhi u.
trình h c, t đó sinh viên có th ch n cho mình m t l trình h c phù
Mã gi thu t tốn C4.5:
h p v i ñi u ki n và năng l c ñ ñ t k t qu ñ u ra t t nh t.
Ví d minh h a cho thu t toán C4.5
CHƯƠNG 1. NGHIÊN C U T NG QUAN
1.1.
Khai phá d li u
Đ minh ho , tác gi xin trích d li u c a 10 sinh viên t d li u
s ñư c s d ng ñ nghiên c u.
1.1.1. Khái ni m
Khai phá d li u ñư c dùng đ mơ t q trình phát hi n ra tri
th c trong CSDL. Quá trình này k t xu t ra các tri th c ti m n t d
li u giúp cho vi c d báo trong kinh doanh, các ho t ñ ng s n xu t,
... Khai phá d li u làm gi m chi phí v th i gian so v i phương pháp
truy n th ng trư c kia (ví d như phương pháp th ng kê).
1.1.2. Mơ hình khai phá d li u t ng quát
1.1.3.
ng d ng c a khai phá d li u
1.2.
D báo d a vào khai phá d li u
1.2.1. Khái ni m
1.2.2. Các phương pháp d báo
Đ gi i quy t bài tốn d đốn k t qu h c t p, ngư i ta đưa ra
mơ hình cây quy t đ nh:
Theo cây quy t đ nh trên, các lu t (Series of Rules) ñư c sinh ra
t cây quy t ñ nh dùng ñ d ñoán như sau:
-9Rule 1: N u Đi m thi ñ u vào<=10 thì sinh viên s x p lo i h c
- 10 D a vào các lu t ñư c sinh ra t cây quy t đ nh trên, có th cho
bi t đư c:
l c Trung bình.
Rule 2: N u 16<Đi m thi đ u vào<=18 thì sinh viên s x p lo i
h c l c Gi i.
+ Sinh viên 1 v i Đi m thi ñ u vào là 19 đi m thì s x p
lo i h c l c Xu t s c (Rule 3).
Rule 3: N u Đi m thi đ u vào>18 thì sinh viên s x p lo i h c
l c Xu t s c.
+ Sinh viên 2 v i Đi m thi đ u vào là 15; Mã ngành là K
tốn và Mã l trình là 47 thì s x p lo i h c l c Khá (Rule 6).
Rule 4: N u 10<Đi m thi ñ u vào<=16 và Mã ngành là Lâm
nghi p thì sinh viên s x p lo i h c l c Khá.
Rule 5: N u 10<Đi m thi ñ u vào<=16; Mã ngành là K tốn và
Mã l trình là 46 thì sinh viên s x p lo i h c l c Trung bình.
Rule 6: N u 10<Đi m thi ñ u vào<=16; Mã ngành là K tốn và
Mã l trình là 47 thì sinh viên s x p lo i h c l c Khá.
1.3.1.6. Ưu ñi m c a cây quy t ñ nh
1.3.2 Lu t k t h p (Association Rules)
1.3.2.1.Gi i thi u thu t toán
Thu t toán lu t k t h p c a Microsoft là m t s th c hi n ñơn
gi n c a thu t tốn Apriori n i ti ng, m t cơng c r t h u ích cho
vi c phân tích gi th trư ng.
1.3.2.2. Ho t ñ ng c a thu t toán
BI N PH THU C: KETQUA
1.3.2.3 D li u ñư c yêu c u cho vi c xây d ng mơ hình lu t k t h p
1.3.2.4 Nh ng tham s h tr trong thu t toán lu t k t h p
1.3.2.5 Xây d ng mô hình lu t k t h p s d ng thu t tốn Apriori
Ví d minh h a cho thu t toán Apriori
Đ minh ho thu t toán Apriori, ta s d ng d li u bao g m các
thu c tính tương t như b d li u s ñư c dung ñ nghiên c u.
V i min_sup=50%; min_conf=70%
T các lu t trên, d đốn k t qu h c t p cho các sinh viên sau:
Quét t p d li u D
- 11 -
- 12 1.4.1.2. Môi trư ng phát tri n ng d ng
1.4.1.3.Các thu t toán khai phá d li u trong Microsoft SQL Server
2008 R2
1.4.2. ADOMD.NET
1.4.3.Tìm hi u ngơn ng truy v n mơ hình (DMX)
1.5.
M t s nghiên c u v khai phá d li u trong giáo d c
Khi tri th c ñã ñư c khái phá khơng ch ngư i khai phá có th s
d ng mà c ngư i s h u (sinh viên) cũng có th dùng. Vì v y, ng
d ng c a khai phá d li u trong h th ng giáo d c có th hư ng đ n
các tác nhân khác nhau v i các góc nhìn đ c trưng:
Hư ng ñ n sinh viên: Đ xu t kinh nghi m h c t p, tư v n tuy n
sinh….
Hư ng ñ n giáo viên: Đ xu t nh ng phương pháp d y thích h p
V i min_sup=50%; min_conf=70%
như phân l p các sinh viên thành các nhóm tùy theo m c h c, tìm ra
các m u thư ng và b t thư ng c a l trình h c t p c a sinh viên, tìm
ra các l i thư ng m c, tìm ra các ho t ñ ng hi u qu ñ giáo viên có
th c i thi n, t ch c l i n i dung gi ng d y ñ ñ t hi u qu t t hơn.
Hư ng ñ n nhà qu n lý: V i nh ng k t qu h c t p m i năm đ u
có nhi u lí do d n đ n. Vì v y, c n đưa ra t p lt t đó tư v n. Có
Vì support và confidence th a mãn 2 tham s min_sup = 50% và
min_conf = 70%, nên ta có lu t k t h p sau:
th có nh ng lí do t t và khơng t t như sau: sinh viên không chuyên
c n, x p l p, th i khóa bi u khơng h p lý, …
R1: DIEMTHI=16; MANGANH=KT -> KETQUA=K
Lu t k t h p R1có ñ tin c y là 100%, ñi u này có nghĩa là :
100% sinh viên v i thơng tin đ u vào DIEMTHI=16 và
MANGANH=KT thì s x p lo i h c l c Khá.
1.4.
Khai phá d li u v i Microsoft SQL Server 2008 R2
1.4.1. Microsoft SQL server 2008 Analysis Services
1.4.1.1. Gi i thi u
Hình 1.4. Qui trình ng d ng khai phá d li u trong h th ng giáo d c
CHƯƠNG 2. NGHIÊN C U XÂY D NG
NG D NG
- 13 2.1. Mô t
ng d ng
- 14 không nh vào ngành h c và l trình mà sinh viên ch n h c. Chính vì
2.1.1. Gi i thi u v Trư ng Cao Đ ng Kinh T K Thu t Qu ng
v y, thu c tính l trình h c là m t thu c tính đ u vào khơng th thi u
Nam
khi xây d ng mơ hình d ñoán k t qu h c t p cho sinh viên.
2.1.2. Yêu c u ñ i v i h th ng
V i d
2.1.2.1. Xác ñ nh yêu c u
li u g n 2000 sinh viên thu th p ñư c cùng v i
nh ng ngành h c và môn h c tương ng cho t ng h c kì c th c a
Cho m t kho d li u lưu gi các thông tin v k t qu h c t p
m i sinh viên. Lu n văn th c hi n ñư c nhi m v li t kê ra l trình
c a sinh viên đã t t nghi p. H th ng th c hi n ch c năng: tìm ra
h c cho m i sinh viên, t đó suy ra t t c l trình h c cho t ng
nh ng quy lu t d a trên nh ng mơ hình đã đư c xây d ng đ d
ngành. Trên cơ s đó, có th d đốn ñư c k t qu h c t p cho t ng
đốn k t qu h c t p cu i khóa cho sinh viên. Bên c nh đó t d li u
l trình h c theo t ng ngành c th mà sinh viên ch n h c.
ñã thu th p c n li t kê l trình h c cho t ng sinh viên và t đó suy ra
2.2.1.2. Cơng c th c hi n
l trình h c cho t ng ngành. V i thu c tính l trình h c đã đư c li t
2.2.1.3. K t qu
kê s h tr cho k t qu d đốn t t hơn.
2.1.2.2. Ph m vi bài toán
B ng 2.1. L trình h c c a m i sinh viên (B ng LoTrinhHoc)
D li u bài toán là d li u v thơng tin tuy n sinh đ u vào và k t
qu h c t p c a sinh viên trư ng Cao ñ ng Kinh t K thu t Qu ng
Nam.
B ng 2.2. B ng Nganh_LoTrinh
2.1.2.3. Yêu c u h th ng
D li u ñư c t ch c trên h qu n tr cơ s d li u Microsoft SQL
Server 2008 R2.
Công c khai phá d
Studio, s
d ng b
li u Business Intelligence Development
cơng c
Analysis Services tích h p cùng
Microsoft SQL Server 2008 R2.
Cơng c l p trình s d ng Microsoft Visual Studio 2010.
2.2.2. D đốn k t qu h c t p
2.2.2.1. Gi i thi u bài tốn
Vi c ch n cho mình m t ngơi trư ng
gi ng ñư ng ñ i h c là
m t ñi u h t s c quan tr ng. Các thí sinh ln băn khoăn và r t mu n
2.1 . Phân tích u c u h th ng
tìm ki m các thơng tin b ích v các trư ng ñ i h c, cao ñ ng trong
2.2.1. Li t kê l trình h c c a t ng sinh viên
c nư c mà mình mu n theo h c. Nhu c u thơng tin đ các thí sinh
2.2.1.1. Gi i thi u bài toán
tham kh o th t s c n thi t nh m ñ m b o phù h p v i năng l c, s
K t qu h c t p cu i khóa c a sinh viên không ch ph thu c
vào nh ng thơng tin tuy n sinh đ u vào mà cịn ph thu c m t ph n
thích, đi u ki n kinh t gia đình, đi u ki n kho ng cách ñ a lý,... ñây
là m t nhu c u r t thi t th c.
- 15 -
- 16 -
Chính vì v y, tơi quy t ñ nh ñưa ra gi i pháp xây d ng mơ hình
Vi c đưa ra nh ng quy t ñ nh s ñư c xác ñ nh t nh ng d li u
khai phá d li u d a trên m t lư ng d li u t các h sơ tuy n sinh
ñ u vào mà nh ng ngư i s d ng ñã nh p vào. H th ng s xem xét
h ng năm và k t qu h c t p ñã ñư c thu th p c a sinh viên trư ng
d a trên mô hình đã đư c xây d ng đ đưa ra nh ng d đốn chính
Cao đ ng Kinh t K thu t Qu ng Nam nh m d đốn k t qu h c
xác. Như v y, yêu c u ñ t ra
t p cu i khóa c a sinh viên. T vi c phát tri n mơ hình khai phá d
Đó chính là q trình khai phá d li u đ tìm ra tri th c ph c v nhu
li u ñã xây d ng, h th ng cũng giúp cho sinh viên ch n ñư c l
c u và m c đích lu n văn.
trình h c t i ưu nh t tương ng v i ngành h c đã ch n.
2.2.2.3. Mơ hình bài tốn
đây là mơ hình đư c phát sinh t đâu.
2.2.2.2. Phân tích quy lu t và l a ch n gi i pháp cho bài tốn
T nh ng d li u đã đư c thu th p và lưu tr ñ áp d ng cho bài
tốn d đốn k t qu h c t p mà tơi đang xây d ng, thì c n ph i tìm
ki m nh ng thơng tin gì? nh ng thơng tin đó giúp ích gì cho vi c d
đốn?
T góc đ xây d ng mơ hình d ñoán và nhu c u th c t c a
trư ng Cao ñ ng Kinh t K thu t Qu ng Nam. H th ng c n ph i
ñáp ng các câu h i ñư c t o ra m t cách t ñ ng và gi i quy t ñư c
các th c m c c a t ng thí sinh, ph huynh và nh ng ngư i quan tâm.
Hình 2.2. Mơ hình bài tốn ng d ng d ñoán k t qu h c t p
2.3 Thi t k h th ng
2.3.1. Danh sách các actor
2.3.2. Sơ ñ use case
2.3.3. Đ c t use case
Câu h i thư ng ñư c ñ t ra ñơn thu n như sau: V i nh ng thơng tin
đ u vào như: Dân t c, ñi m thi ñ u vào, khu v c, ...và v i ngành h c
2.3.4. Bi u đ tu n t
c th thì tơi nên ch n l trình h c nào phù h p đ đ t ñư c k t qu
2.3.5. Bi u ñ ho t ñ ng
h c t p t i ưu.
Các câu tr l i chính xác và đáp ng đư c nguy n v ng c n
thông tin c a các thí sinh cũng như giúp cho các nhà qu n lý ñào t o
c a trư ng nh ng cái nhìn và đánh giá chính xác, địi h i ta ph i xây
d ng vi c phân tích d a trên d li u có s n s l y đư c nh ng thơng
tin gì và có d đốn đư c v n đ gì x y ra khơng? Đó chính là m c
đích c a vi c khai phá d li u t nh ng d li u thu th p đư c mà tơi
mu n th c hi n trong lu n văn này.
Hình 2.9. Mơ hình bài tốn ng d ng d đốn k t qu h c t p
2.4. Xây d ng cơ s d li u
2.4.1. Ngu n d li u
- 17 2.4.1.1. Thu th p d li u
2.4.1.2. Đánh giá ch t lư ng d li u
- 18 3.1.2. Chu n b d li u cho mơ hình
D li u ngu n (Data Source) ñư c chia thành 2 t p d li u dùng
2.4.1.3. X lý d li u
đ hu n luy n mơ hình (Training Data) và ki m tra mơ hình (Testing
2.4.1.4. N p d li u
data).
2.4.2. Xây d ng cơ s d li u trong SQL Server
+ Data source ban ñ u g n 2000 sinh viên
2.4.2.1. Mơ hình cơ s d li u quan h
+ Training Data: 70%
+ Testing Data: 30%
3.1.3. Xây d ng mơ hình
T o DataSource
T o DataSource View
T o mơ hình khai phá d li u
Hình 2.10. Sơ đ CSDL quan h
2.4.2.2. Thi t k cơ s d li u v t lý
CHƯƠNG 3. PHÁT TRI N H TH NG
3.1.
Hình 3.1. Các thu c tính đ u vào
Qui trình xây d ng mơ hình khai phá d li u
3.1.1. Mơ t d li u
D li u ñư c dùng ñ xây d ng mơ hình là Data source g n
Sau đó, ch n Suggest ñ xem nh ng c t nào có th là nh ng c t
input
2000 sinh viên c a trư ng Cao Đ ng Kinh t - K thu t Qu ng Nam,
g m 12 thu c tính:
B ng 3.1. D li u xây d ng mơ hình khai phá d li u
Hình 3.2. K t qu tính entropy
D a vào k t qu tính entropy trên, ta th y ñi m s Score c a 4
thu c tính: DIEMTHI, MALOTRINH, KHOITHI, MANGANH cao
hơn so v i nh ng thu c tính cịn l i, t c là nh ng thu c tính này có
V i m c đích xây d ng mơ hình cây quy t đ nh và lu t k t h p
nh m d ñoán k t qu h c t p cu i khóa c a sinh viên.
tác đ ng m nh đ n thu c tính d đốn (k t qu h c t p). Các thu c
tính cịn l i có m c đ
nh hư ng đ n mơ hình là khơng đáng k .
- 19 Chính vì v y, đ tăng hi u qu c a q trình hu n luy n mơ hình, có
th lo i b các thu c tính này và ch ch n 4 thu c tính có score cao
làm thu c tính input đ xây d ng các mơ hình d đốn k t qu h c
- 20 K t qu như sau
T nhi u thu c tính ñ u vào như ban ñ u, ñ ki m tra m c ñ
nh hư ng gi a thu c tính input và thu c tính d đốn, lu n văn th c
hi n vi c xây d ng mô hình bao g m t t c các thu c tính đ u vào
t p.
Sau đó, ch n ki u d li u và ki u n i dung cho m i thu c tính.
s n có và xây d ng mơ hình đã b đi t t c nh ng thu c tính ít nh
+ Discrete: Đ i v i nh ng thu c tính có giá tr r i r c.
hư ng nh t ñ n thu c tính d đốn (t c là ngồi 4 thu c tính có đi m
+ Continuous: Đ i v i nh ng thu c tính có giá tr liên
s score cao nh t như trên). Qua k t qu thu ñư c t vi c xây d ng
t c.
nh ng mô hình như trên, ta th y có hay khơng có vi c lo i b nh ng
+ Discretized: Đ i v i nh ng thu c tính đư c r i r c
thu c tính khơng quan tr ng t vi c xây d ng mơ hình khác nhau thì
hóa.
Ho c: ch n Detect đ thu t tốn t đ ng ch n l a ki u t t nh t
m c ñ tác ñ ng c a các thu c tính đ u vào v i thu c tính d đốn
v n s khơng thay đ i.
cho m i thu c tính.
Tab Mining Models,
Hai mơ hình tương ng v i hai thu t toán cho trư ng h p ch n
t t c các thu c tính đ u vào: phái, dân t c, khu v c, huy n, ñi m thi,
kh i thi, ngành và l trình h c.
Hai mơ hình tương ng v i hai thu t toán cho trư ng h p ch n
t t c các thu c tính đ u vào khơng bao g m l trình h c.
Hai mơ hình cho thu t toán Decision v i trư ng h p ch ch n
Hình 3.7. Mơ hình Dependency Network
3.1.4. Ki m đ nh mơ hình
Lift Chart
các thu c tính đ u vào đi m thi, kh i thi, ngành và l trình h c, bao
g m và khơng bao g m l trình h c.
Hình 3.8. Bi u đ Lift Chart (có ch n giá tr d đốn)
Hình 3.4. Các mơ hình đư c xây d ng
Sau đó, kích ph i vào Project và ch n Deploy.
V i trư ng h p không ch n giá tr d đốn, dùng bi u đ Lift
Chart đ ki m tra đ chính xác c a m i mơ hình. K t qu cho th y:
- 21 -
- 22 Sau khi th c hi n hu n luy n mơ hình và ch n mơ hình phù h p
v i u c u bài tốn (mơ hình s d ng thu t tốn cây quy t đ nh v i
t l d đốn cao nh t), ta s dùng mơ hình này đ d đốn k t qu
h c t p cho sinh viên. Quá trình đó đư c th c hi n như sau:
Thơng tin v sinh viên c n d đốn k t qu h c t p cu i khóa
đư c lưu vào b ng Dudoanketqua. Lúc này b ng DuDoanKetQua s
Hình 3.9. Bi u đ Lift Chart (khơng ch n giá tr d đốn)
K t qu th ng kê t l d báo c a 6 mơ hình như sau:
STT
Tên mơ hình
T l d đốn
có c t k t qu cịn ñ tr ng vì h th ng chưa th c hi n q trình d
đốn:
B ng 3.2. Thu c tính ñ u vào lưu vào b ng DuDoanKetQua (B ng
1
Lu t k t h p
62,54%
2
Cây quy t ñ nh
96,22%
3
Cây quy t đ nh (khơng ch n Lotrinh)
95,88%
4
Lu t k t h p (Khơng ch n Lotrinh)
83,34%
5
Cây quy t đ nh (ch n 4 thu c tính quan trong)
97,23%
th c hi n truy v n thơng qua mơ hình do ngư i qu n tr ch n s
Cây quy t ñ nh (ch n thu c tính quan trong lo i b
95,83%
d ng. Dư i đây là ví d truy v n cho trư ng h p mơ hình Decision
6
Lotrinh)
H th ng s chuy n ti p d li u v a lưu ñ n BI và BI s t ñ ng
tree v i đ y đ các thu c tính ñ u vào.
- N u k t h p v i l trình h c, vi c d đốn k t qu h c t p c a
sinh viên s chính xác hơn.
- Mơ hình cây quy t đ nh cho t l d
DuDoanKetQua)
Code sinh ra t quá trình truy v n:
Sau khi th c hi n truy v n, d li u d đốn đư c sinh ra và ñư c
báo ñúng cao nh t –
h th ng lưu vào c t k t qu trong b ng DuDoanKetQua. Và t đây
97,23%, trong khi đó mơ hình lu t k t h p cho t l d báo ñúng th p
h th ng s l y k t qu trong b ng DuDoanKetQua cùng c t k t qu
nh t – 83,34%.
m i ñư c lưu vào ñ xu t ra màn hình cho ngư i dùng.
- Vi c ñưa các thu c tính: dân t c, khu v c, ưu tiên, phái, mã
Result
huy n vào mơ hình khơng có ý nghĩa. Thu t tốn cây quy t đ nh lo i
b các thu c tính này hồn tồn và cho k t qu hoàn toàn trùng v i
Sau khi th c hi n truy v n, d li u s lưu vào b ng
DuDoanKetQua
B ng 3.3. K t qu sau khi truy v n
k t qu trong trư ng h p mơ hình khơng bao g m các thu c tính này.
3.1.5. S d ng mơ hình đ d đốn
Tab Mining Model Prediction
3.2
K t qu th nghi m
- 23 3.2.1. Mô t h th ng
H th ng:
Mô hình:
Hi n th các mơ hình khai phá d li u đã xây d ng.
D đốn k t qu :
Cho phép ngư i dùng nh p vào nh ng thông tin c n thi t cho
vi c d đốn, sau ñó h th ng th c hi n ch c năng d đốn và tr v
k t qu h c t p cho ngư i dùng.
3.2.2. Demo h th ng
3.2.2.1. Giao di n chính c a chương trình
Hình 3.10. Giao di n chính c a chương trình
3.2.2.2. C a s ñăng nh p
3.2.2.3. C a s ñăng ký
3.2.2.4. Menu mô hình
3.2.2.5. Giao di n d đốn k t qu h c t p
3.3 B o trì mơ hình
K T LU N
Đánh giá k t qu lu n văn
V lý thuy t, lu n văn đã trình bày đư c cơ s lý thuy t liên quan
ñ n hai thu t tốn cây quy t đ nh, lu t k t h p. Nghiên c u quy trình
tri n khai ng d ng khai phá d li u. Ngoài ra, lu n văn cũng tìm
hi u các v n đ cơ b n v công c Microsoft SQL Server 2008 R2
Analysis Services và các công c liên quan.
- 24 Đ i v i bài tốn d đốn k t qu h c t p cu i khóa c a sinh viên,
lu n văn ñã ñ xu t xây d ng sáu mơ hình d đốn d a trên thu t
tốn cây quy t ñ nh, lu t k t h p, t đó so sánh sáu mơ hình v i nhau
đ ch n ra mơ hình t i ưu. V i d li u hu n luy n ban ñ u, mơ hình
cho phép phân tích các y u t nh hư ng ñ n k t qu h c t p c a
sinh viên, m c ñ tác ñ ng c a t ng y u t ñ u vào, ngồi ra cịn truy
v n đư c l trình h c thơng qua d li u ban đ u, t đó d đốn đư c
k t qu h c t p cu i khóa c a sinh viên qua vi c k t h p thơng tin
đ u vào và l trình h c. Bên c nh đó, lu n văn cịn xây d ng đư c
chương trình demo hi n th mơ hình cây quy t đ nh, lu t k t h p ñã
xây d ng ñ n ngư i dùng cu i.
V i vi c tri n khai h th ng th nghi m cho th y kh năng ng
d ng k t qu này trong vi c d đốn k t qu h c t p c a sinh viên.
H th ng giúp cho sinh viên l a ch n cho mình m t l trình h c phù
h p v i ñi u ki n và năng l c c a b n thân ñ ñ t ñư c k t qu h c
t p t i ưu.
Nhìn chung, lu n văn đã cơ b n hồn thành các m c tiêu đ ra.
Đ đưa mơ hình d đốn vào ng d ng m t cách hi u qu hơn thì c n
ti p t c ñ u tư thu th p d li u sinh viên nhi u hơn n a. Tri n khai
d ñoán, ki m ch ng th c t và ñánh giá k t qu m t cách thư ng
xuyên. B n thân nh n th y ñây là hư ng ti p c n đúng đ n và có tính
th c ti n cao.
H n ch
Do khó khăn trong vi c ti p c n và x lý d li u nên h th ng
cho ra k t qu chưa th t s chính xác.
Hư ng phát tri n
Hư ng phát tri n c a lu n văn có th nghiên c u thêm m t s mơ
hình m i ñ áp d ng vào bài toán khai phá d li u giáo d c như:
- 25 + S d ng cây quy t ñ nh (Decision Tree) đ d đốn k t
qu h c t p c a sinh viên
m t h c kì b t kì d a trên thơng tin tuy n
sinh ñ u vào và k t qu h c t p c a h c kì trư c đó. Ch ng h n: s
d ng các thông tin tuy n sinh ñ u vào và k t qu h c t p c a h c kì 1
đ d đốn xem k t qu h c kì 2 sinh viên ñ t lo i gì (xu t s c, gi i,
khá, trung bình…)
+ S d ng lu t k t h p (Association Rule) đ tìm ra các lu t
liên quan gi a các môn h c mà sinh viên ñã h c t t ho c chưa ñ t. Ví
d : N u SV h c mơn CSDL trong h c kỳ 1 ñ t k t qu khá thì s h c
mơn PTHT trong h c kỳ 2 s ñ t k t qu t t, ho c n u SV h c môn
CSDL trong h c kỳ 1 chưa đ t thì s h c mơn PTHT trong h c kỳ 2
s chưa ñ t…
Nghiên c u thêm m t s thu t tốn đ áp d ng vào bài toán khai
phá d li u.
M r ng bài tốn cho vi c d đốn trên nhi u thu c tính khác
nhau ngồi k t qu h c t p cu i khóa c a sinh viên.
Nâng cao kh năng h tr c a ng d ng cùng v i vi c d đốn
k t qu h c t p khơng ch cho sinh viên mà cịn h tr cho giáo viên
ch nhi m, các khoa chuyên ngành, phịng đào t o và nh ng ai quan
tâm.
+ Đ i v i giáo viên ch nhi m: h tr cho giáo viên ch
nhi m có th tư v n cho sinh viên trong vi c ch n m t l trình h c
phù h p.
+ Đ i v i các khoa chun ngành và phịng đào t o: h tr
trong vi c ñánh giá ch t lư ng cho t ng l trình h c nh m nâng cao,
c i thi n hơn n a trong vi c xây d ng các l trình h c đ phù h p v i
m i ñi u ki n và năng l c c a sinh viên.