Tải bản đầy đủ (.pdf) (13 trang)

Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường cao đẳng kinh tế kỹ thuật quảng nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (521.32 KB, 13 trang )

-2-

-1-

B

GIÁO D C VÀ ĐÀO T O
Đ I H C ĐÀ N NG

M Đ U
1. Lý do ch n lu n văn
Trong nh ng năm g n đây, cơng ngh thông tin phát tri n m nh
m và vi c ng d ng công ngh thông tin trong nhi u lĩnh v c ñ i
s ng, kinh t xã h i ñã làm lư ng d li u ñư c thu th p và lưu tr

PH M C M VÂN

các h th ng thông tin tăng lên m t cách nhanh chóng. Trư c tình
hình đó, vi c khai thác và ch n l c nh ng d li u có ích t lư ng d
li u kh ng l ñó là vi c c n thi t, ñóng vai trị quy t đ nh thành cơng

NG D NG KHAI PHÁ D LI U
Đ TƯ V N H C T P T I TRƯ NG
CAO Đ NG KINH T - K THU T
QU NG NAM

trong m i ho t ñ ng. Các d li u ch t l c đó s giúp c i thi n ho t
ñ ng trong hi n t i hay ñưa ra nh ng d ñoán giúp vi c ñưa ra quy t
ñ nh trong tương lai s chính xác hơn.
V i nh ng lý do đó, nhu c u phát tri n các k thu t thu th p, lưu
tr , phân tích d li u, … đư c đ t ra và nó địi h i ph i đư c x lý


thơng minh và hi u qu hơn. T đó đã làm phát tri n k thu t m i và

Chuyên ngành: Khoa h c máy tính
Mã s : 60.48.01

v i k thu t này cho phép ta khai thác ñư c tri th c h u d ng t cơ
s d li u l n ñư c g i là các k thu t khai phá d li u (Data Mining
- DM). Các k thu t khai phá d li u ñư c ng d ng trong nhi u lĩnh
v c như: kinh t , tài chính, y t , giáo d c…

TÓM T T LU N VĂN TH C SĨ K THU T

Trong vi c ng d ng khai phá d li u vào nhi u lĩnh v c khác
nhau c a ñ i s ng, khai phá d li u trong lĩnh v c giáo d c đang d n
có ñư c s quan tâm ñúng m c. Chúng ta c n ph i nhìn nh n r ng

Ngư i hư ng d n khoa h c:TS. NGUY N TR N QU C VINH

giáo d c là nhân t quy t ñ nh s phát tri n c a ñ t nư c v nhi u
m t. M c tiêu phát tri n xã h i m t cách b n v ng ñang ñ t ra cho
giáo d c nh ng yêu c u m i. Giáo d c ñào t o có nhi m v ñ nh

Đà N ng – Năm 2012

hư ng và ho ch ñ nh chính sách cho đ i tư ng chính c a giáo d c là
th h tr , là l c lư ng k th a c a vi c xây d ng, b o v và phát
tri n ñ t nư c trong tương lai m t cách ñúng ñ n và k p th i. Chính


-3vì v y, vi c đ nh hư ng và xây d ng chính sách trong giáo d c đào

t o c n ph i ñư c h tr b i các cơng c khoa h c đ tránh nh ng sai
l m ñáng ti c. Trong s nh ng cơng c đó, khai phá d li u là m t
cơng c h u ích và có tính khoa h c cao, giúp các nhà qu n lý giáo

-42. M c đích c a lu n văn
- Nghiên c u phương pháp khai phá tìm lu t k t h p và cây
quy t ñ nh d a trên d li u giáo d c.
-

ng d ng th c hi n nghiên c u đ xây d ng mơ hình khai phá

d c có đư c nh ng tri th c quý giá ph c v cho công tác qu n lý và

d li u d a vào thông tin tuy n sinh ñ u vào và k t qu h c t p đã

sinh viên cũng có th s d ng nh ng k t qu h u ích t q trình

thu th p đư c c a sinh viên trư ng Cao Đ ng Kinh T K Thu t

ch t l c d li u trong khai phá d li u.

Qu ng Nam. T đó, tri n khai xây d ng h th ng ng d ng t mơ

Ngày nay, các trư ng đ i h c và cao đ ng đa s đã chuy n sang

hình đã ñư c xây d ng nh m d ñoán k t qu h c t p c a sinh viên

ñào t o theo h c ch tín ch . Vi c tư v n h c t p, ch y u liên quan

qua vi c k t h p gi a thơng tin tuy n sinh đ u vào và l trình h c, t


đ n l a ch n l trình h c phù h p nh m đ t ñư c k t qu h c t p cao

đó giúp cho sinh viên có th ch n l a đư c m t l trình h c đ t k t

nh t cho m i sinh viên ñư c đ c bi t quan tâm. Đó cũng là khó khăn

qu t i ưu nh t phù h p v i ñi u ki n và năng l c c a mình. Bên

chung khơng ch c a m i sinh viên, mà còn c a các bên tham gia tư

c nh đó, h th ng cho phép hi n th các mơ hình khai phá d li u đã

v n, t các t ch c qu n lý trong trư ng ñ i h c cho ñ n các cán b

xây d ng nh m h tr cho ngư i dùng cu i. H th ng khơng ch h

đư c phân công chuyên trách như gi ng viên ch nhi m. Các gi ng

tr cho sinh viên mà còn h tr cho phịng đào t o, các khoa chun

viên chun trách khơng th ti p c n tồn b d li u v ñi m c a

ngành, các giáo viên ch nhi m có th tư v n cho sinh viên.

sinh viên. Ngay c v i các c p qu n lý, b ng c m tính ho c suy lu n
th công t kh i d li u kh ng l ñ ñưa ra nh ng tư v n t t trong
vi c ch n l trình h c cho m i sinh viên không ph i là kh thi.
Trư c th c t đó và đư c s ñ ng ý c a TS. Nguy n Tr n Qu c


- T o ti n ñ ñ phát tri n các ng d ng khác.
3. Đ i tư ng và ph m vi nghiên c u
- Đ i tư ng nghiên c u c a lu n văn
+ K thu t khai phá d li u.

Vinh, tôi ch n lu n văn “ ng d ng khai phá d li u ñ tư v n h c

+ D li u ñào t o.

t p t i Trư ng Cao ñ ng Kinh T K Thu t Qu ng Nam”. Lu n văn

+ H th ng tư v n

th c hi n vi c khai phá d li u t thơng tin tuy n sinh đ u vào k t

- Ph m vi nghiên c u:

h p v i l trình h c nh m đ d đốn k t qu h c t p c a sinh viên.
D a vào k t qu d đốn đó, h th ng – k t qu chính c a lu n văn,
s giúp sinh viên l a ch n cho mình m t l trình h c phù h p v i
ñi u ki n và năng l c c a b n thân ñ ñ t ñư c k t qu t i ưu.

+ Các k thu t phân l p: cây quy t ñ nh (Deccision tree –
DT) và lu t k t h p (Association rules – AR).
+ Công c

h

tr


khai phá Business Intelligence

Development Studio (BIDS) 2008 R2 và các mơ-đun h tr .
+ D li u th c t i trư ng Cao ñ ng Kinh T K Thu t Qu ng
Nam g m: K t qu h c t p và thông tin cá nhân c a kho ng 2000


-5-

-6-

sinh viên v i các ngành h c như sau: K tốn, Qu n tr , Qu n lý đ t

6. Phương pháp nghiên c u

đai, Ni tr ng th y s n, Lâm nghi p.

- Phương pháp nghiên c u lý lu n: Thu th p, ñ c hi u, phân

+ Xây d ng ng d ng d đốn k t qu h c t p ñ tư v n ñào
t o t i trư ng Cao ñ ng Kinh T K Thu t Qu ng Nam.

tích thơng tin, d li u t các tài li u, giáo trình, sách liên quan ñ n
khai phá d li u.

4. Nhi m v nghiên c u

- Phương pháp nghiên c u th c ti n: Ti n hành nghiên c u các

1. Nghiên c u lý thuy t v khai phá d li u, c th là k thu t

lu t k t h p và cây quy t ñ nh.

k thu t cho phép phân l p trong khai phá d li u, ng d ng các k
thu t đó đ xây d ng mơ hình d đốn k t qu h c t p c a sinh viên

2. Xác ñ nh bài toán c th là xây d ng công c li t kê t t c các

d a vào các thơng tin đ u vào. Đ tài ti n hành so sánh k t qu c a

l trình h c cho m i ngành h c và g n l trình h c v i m i sinh viên,

các k thu t ñ l a ch n k thu t cho k t qu chính xác nh t. T đó,

chu n b ngu n d li u đ xây d ng chương trình.

xây d ng chương trình d báo k t qu h c t p cho m i sinh viên đ

3. Xây d ng mơ hình d báo k t qu h c t p c a sinh viên theo
các k thu t khác nhau như cây quy t ñ nh, lu t k t h p,

ng d ng

cơng c Business Intelligence Development Studio đ xây d ng và

tư v n cho sinh viên ch n l trình h c phù h p nh t đ đ t ñư c k t
qu h c t p cao nh t. Vi c xây d ng mơ hình đư c ti n hành theo các
bư c:

ki m tra các mơ hình.


- Làm s ch và tích h p d li u

4. Đánh giá k t qu d báo c a các mơ hình đó và l a ch n mô

- L a ch n d li u và chuy n đ i d li u

hình t t nh t ñ th c hi n d báo.

- Khai thác d li u

5. Nghiên c u các thư vi n liên quan và Data Mining Extension

- Đánh giá mơ hình

(DMX) đ Xây d ng chương trình ng d ng mơ hình ñư c l a ch n

- S tr c quan hóa

đ d báo k t qu h c t p c a sinh viên d a vào các thông tin ñ u

D li u ñ u vào cho các k thu t phân l p có th là s n có như

vào, t đó th c hi n tư v n cho sinh viên trong vi c l a ch n l trình

các thơng tin cá nhân (khu v c, gi i tính, dân t c, đi m ưu tiên…),

h c nh m ñ t k t qu h c t p cao nh t.

ñi m tuy n sinh, chuyên ngành đào t o và cũng có th là l trình h c


5. Ý nghĩa khoa h c và th c ti n c a lu n văn

là k t qu th c hi n c a m t công c là m t ph n c a k t qu c a ñ

- Trư ng Cao ñ ng Kinh T K Thu t Qu ng Nam ñang th c
hi n vi c ng d ng công ngh thông tin vào công tác d y và h c r t

tài.
- Phương pháp nghiên c u tài li u: Tìm hi u ngôn ng l p

t t. Vi c xây d ng ng d ng d đốn k t qu h c t p s h tr cho

trình, h qu n tr Cơ s d li u (CSDL); Xây d ng ng d ng.

sinh viên trong vi c l a ch n phương pháp h c và môn h c (n u

7. B c c c a lu n văn

trư ng h c theo hình th c tín ch ) đ ñ t k t qu t t trong các h c kỳ
k ti p.

Ngồi ph n m đ u và k t lu n, lu n văn g m ba chương:


-7-

-8-

Chương 1: Nghiên c u t ng quan, chương này gi i thi u t ng


Lu t k t h p và cây quy t ñ nh trong khai phá d li u

1.3.

quan v quá trình khai phá d li u, các k thu t khai phá d li u, gi i

1.3.1. Cây quy t ñ nh (Decision Trees)

thi u thu t tốn xây d ng mơ hình khai phá d li u. Gi i thi u công

1.3.1.1 Gi i thi u

c xây d ng mơ hình khai phá d li u và các công c phát tri n h

1.3.1.2 Ho t đ ng c a thu t tốn

th ng.

1.3.1.3.D li u ñư c yêu c u cho vi c xây d ng mơ hình cây quy t

Chương 2: Nghiên c u xây d ng ng d ng, trong chương này
các n i dung đ c p đ n đó là: Mơ t

ng d ng, xây d ng bài tốn

li t kê l trình h c cho t ng ngành h c, phân tích thi t k h th ng,
trình bày các bư c thu th p, x lý d li u.
Chương 3: Phát tri n và Demo ng d ng, chương này trình bày

đ nh

1.3.1.4 Nh ng tham s ñư c h tr trong thu t toán cây quy t ñ nh
1.3.1.5. Xây d ng cây quy t ñ nh s d ng thu t toán C4.5
Thu t toán C4.5 đư c phát tri n và cơng b b i Quinlan vào năm
1996. Thu t toán C4.5 là m t thu t tốn đư c c i ti n t thu t toán

giao di n hi n th hai mơ hình khai phá d li u đã đư c xây d ng và

ID3 v i vi c cho phép x lý trên t p d li u có các thu c tính s

đ ng th i chương trình có th th c hi n ch c năng d đốn k t qu

(numeric attributes) và làm vi c ñư c v i t p d li u b thi u và b

h c t p c a sinh viên k t h p gi a thông tin tuy n sinh đ u vào và l

nhi u.

trình h c, t đó sinh viên có th ch n cho mình m t l trình h c phù

Mã gi thu t tốn C4.5:

h p v i ñi u ki n và năng l c ñ ñ t k t qu ñ u ra t t nh t.

Ví d minh h a cho thu t toán C4.5

CHƯƠNG 1. NGHIÊN C U T NG QUAN
1.1.

Khai phá d li u


Đ minh ho , tác gi xin trích d li u c a 10 sinh viên t d li u
s ñư c s d ng ñ nghiên c u.

1.1.1. Khái ni m
Khai phá d li u ñư c dùng đ mơ t q trình phát hi n ra tri
th c trong CSDL. Quá trình này k t xu t ra các tri th c ti m n t d
li u giúp cho vi c d báo trong kinh doanh, các ho t ñ ng s n xu t,
... Khai phá d li u làm gi m chi phí v th i gian so v i phương pháp
truy n th ng trư c kia (ví d như phương pháp th ng kê).
1.1.2. Mơ hình khai phá d li u t ng quát
1.1.3.

ng d ng c a khai phá d li u

1.2.

D báo d a vào khai phá d li u

1.2.1. Khái ni m
1.2.2. Các phương pháp d báo

Đ gi i quy t bài tốn d đốn k t qu h c t p, ngư i ta đưa ra
mơ hình cây quy t đ nh:
Theo cây quy t đ nh trên, các lu t (Series of Rules) ñư c sinh ra
t cây quy t ñ nh dùng ñ d ñoán như sau:


-9Rule 1: N u Đi m thi ñ u vào<=10 thì sinh viên s x p lo i h c

- 10 D a vào các lu t ñư c sinh ra t cây quy t đ nh trên, có th cho

bi t đư c:

l c Trung bình.
Rule 2: N u 16<Đi m thi đ u vào<=18 thì sinh viên s x p lo i
h c l c Gi i.

+ Sinh viên 1 v i Đi m thi ñ u vào là 19 đi m thì s x p
lo i h c l c Xu t s c (Rule 3).

Rule 3: N u Đi m thi đ u vào>18 thì sinh viên s x p lo i h c
l c Xu t s c.

+ Sinh viên 2 v i Đi m thi đ u vào là 15; Mã ngành là K
tốn và Mã l trình là 47 thì s x p lo i h c l c Khá (Rule 6).

Rule 4: N u 10<Đi m thi ñ u vào<=16 và Mã ngành là Lâm
nghi p thì sinh viên s x p lo i h c l c Khá.
Rule 5: N u 10<Đi m thi ñ u vào<=16; Mã ngành là K tốn và
Mã l trình là 46 thì sinh viên s x p lo i h c l c Trung bình.
Rule 6: N u 10<Đi m thi ñ u vào<=16; Mã ngành là K tốn và
Mã l trình là 47 thì sinh viên s x p lo i h c l c Khá.

1.3.1.6. Ưu ñi m c a cây quy t ñ nh
1.3.2 Lu t k t h p (Association Rules)
1.3.2.1.Gi i thi u thu t toán
Thu t toán lu t k t h p c a Microsoft là m t s th c hi n ñơn
gi n c a thu t tốn Apriori n i ti ng, m t cơng c r t h u ích cho
vi c phân tích gi th trư ng.
1.3.2.2. Ho t ñ ng c a thu t toán


BI N PH THU C: KETQUA

1.3.2.3 D li u ñư c yêu c u cho vi c xây d ng mơ hình lu t k t h p
1.3.2.4 Nh ng tham s h tr trong thu t toán lu t k t h p
1.3.2.5 Xây d ng mô hình lu t k t h p s d ng thu t tốn Apriori
Ví d minh h a cho thu t toán Apriori
Đ minh ho thu t toán Apriori, ta s d ng d li u bao g m các
thu c tính tương t như b d li u s ñư c dung ñ nghiên c u.

V i min_sup=50%; min_conf=70%
T các lu t trên, d đốn k t qu h c t p cho các sinh viên sau:

Quét t p d li u D


- 11 -

- 12 1.4.1.2. Môi trư ng phát tri n ng d ng
1.4.1.3.Các thu t toán khai phá d li u trong Microsoft SQL Server
2008 R2
1.4.2. ADOMD.NET
1.4.3.Tìm hi u ngơn ng truy v n mơ hình (DMX)
1.5.

M t s nghiên c u v khai phá d li u trong giáo d c
Khi tri th c ñã ñư c khái phá khơng ch ngư i khai phá có th s

d ng mà c ngư i s h u (sinh viên) cũng có th dùng. Vì v y, ng
d ng c a khai phá d li u trong h th ng giáo d c có th hư ng đ n
các tác nhân khác nhau v i các góc nhìn đ c trưng:

Hư ng ñ n sinh viên: Đ xu t kinh nghi m h c t p, tư v n tuy n
sinh….
Hư ng ñ n giáo viên: Đ xu t nh ng phương pháp d y thích h p
V i min_sup=50%; min_conf=70%

như phân l p các sinh viên thành các nhóm tùy theo m c h c, tìm ra
các m u thư ng và b t thư ng c a l trình h c t p c a sinh viên, tìm
ra các l i thư ng m c, tìm ra các ho t ñ ng hi u qu ñ giáo viên có
th c i thi n, t ch c l i n i dung gi ng d y ñ ñ t hi u qu t t hơn.
Hư ng ñ n nhà qu n lý: V i nh ng k t qu h c t p m i năm đ u
có nhi u lí do d n đ n. Vì v y, c n đưa ra t p lt t đó tư v n. Có

Vì support và confidence th a mãn 2 tham s min_sup = 50% và
min_conf = 70%, nên ta có lu t k t h p sau:

th có nh ng lí do t t và khơng t t như sau: sinh viên không chuyên
c n, x p l p, th i khóa bi u khơng h p lý, …

R1: DIEMTHI=16; MANGANH=KT -> KETQUA=K
Lu t k t h p R1có ñ tin c y là 100%, ñi u này có nghĩa là :
100% sinh viên v i thơng tin đ u vào DIEMTHI=16 và
MANGANH=KT thì s x p lo i h c l c Khá.
1.4.

Khai phá d li u v i Microsoft SQL Server 2008 R2

1.4.1. Microsoft SQL server 2008 Analysis Services
1.4.1.1. Gi i thi u

Hình 1.4. Qui trình ng d ng khai phá d li u trong h th ng giáo d c

CHƯƠNG 2. NGHIÊN C U XÂY D NG

NG D NG


- 13 2.1. Mô t

ng d ng

- 14 không nh vào ngành h c và l trình mà sinh viên ch n h c. Chính vì

2.1.1. Gi i thi u v Trư ng Cao Đ ng Kinh T K Thu t Qu ng

v y, thu c tính l trình h c là m t thu c tính đ u vào khơng th thi u

Nam

khi xây d ng mơ hình d ñoán k t qu h c t p cho sinh viên.

2.1.2. Yêu c u ñ i v i h th ng

V i d

2.1.2.1. Xác ñ nh yêu c u

li u g n 2000 sinh viên thu th p ñư c cùng v i

nh ng ngành h c và môn h c tương ng cho t ng h c kì c th c a

Cho m t kho d li u lưu gi các thông tin v k t qu h c t p


m i sinh viên. Lu n văn th c hi n ñư c nhi m v li t kê ra l trình

c a sinh viên đã t t nghi p. H th ng th c hi n ch c năng: tìm ra

h c cho m i sinh viên, t đó suy ra t t c l trình h c cho t ng

nh ng quy lu t d a trên nh ng mơ hình đã đư c xây d ng đ d

ngành. Trên cơ s đó, có th d đốn ñư c k t qu h c t p cho t ng

đốn k t qu h c t p cu i khóa cho sinh viên. Bên c nh đó t d li u

l trình h c theo t ng ngành c th mà sinh viên ch n h c.

ñã thu th p c n li t kê l trình h c cho t ng sinh viên và t đó suy ra

2.2.1.2. Cơng c th c hi n

l trình h c cho t ng ngành. V i thu c tính l trình h c đã đư c li t

2.2.1.3. K t qu

kê s h tr cho k t qu d đốn t t hơn.
2.1.2.2. Ph m vi bài toán

B ng 2.1. L trình h c c a m i sinh viên (B ng LoTrinhHoc)

D li u bài toán là d li u v thơng tin tuy n sinh đ u vào và k t
qu h c t p c a sinh viên trư ng Cao ñ ng Kinh t K thu t Qu ng

Nam.

B ng 2.2. B ng Nganh_LoTrinh

2.1.2.3. Yêu c u h th ng
D li u ñư c t ch c trên h qu n tr cơ s d li u Microsoft SQL
Server 2008 R2.
Công c khai phá d
Studio, s

d ng b

li u Business Intelligence Development

cơng c

Analysis Services tích h p cùng

Microsoft SQL Server 2008 R2.
Cơng c l p trình s d ng Microsoft Visual Studio 2010.

2.2.2. D đốn k t qu h c t p
2.2.2.1. Gi i thi u bài tốn
Vi c ch n cho mình m t ngơi trư ng

gi ng ñư ng ñ i h c là

m t ñi u h t s c quan tr ng. Các thí sinh ln băn khoăn và r t mu n

2.1 . Phân tích u c u h th ng


tìm ki m các thơng tin b ích v các trư ng ñ i h c, cao ñ ng trong

2.2.1. Li t kê l trình h c c a t ng sinh viên

c nư c mà mình mu n theo h c. Nhu c u thơng tin đ các thí sinh

2.2.1.1. Gi i thi u bài toán

tham kh o th t s c n thi t nh m ñ m b o phù h p v i năng l c, s

K t qu h c t p cu i khóa c a sinh viên không ch ph thu c
vào nh ng thơng tin tuy n sinh đ u vào mà cịn ph thu c m t ph n

thích, đi u ki n kinh t gia đình, đi u ki n kho ng cách ñ a lý,... ñây
là m t nhu c u r t thi t th c.


- 15 -

- 16 -

Chính vì v y, tơi quy t ñ nh ñưa ra gi i pháp xây d ng mơ hình

Vi c đưa ra nh ng quy t ñ nh s ñư c xác ñ nh t nh ng d li u

khai phá d li u d a trên m t lư ng d li u t các h sơ tuy n sinh

ñ u vào mà nh ng ngư i s d ng ñã nh p vào. H th ng s xem xét


h ng năm và k t qu h c t p ñã ñư c thu th p c a sinh viên trư ng

d a trên mô hình đã đư c xây d ng đ đưa ra nh ng d đốn chính

Cao đ ng Kinh t K thu t Qu ng Nam nh m d đốn k t qu h c

xác. Như v y, yêu c u ñ t ra

t p cu i khóa c a sinh viên. T vi c phát tri n mơ hình khai phá d

Đó chính là q trình khai phá d li u đ tìm ra tri th c ph c v nhu

li u ñã xây d ng, h th ng cũng giúp cho sinh viên ch n ñư c l

c u và m c đích lu n văn.

trình h c t i ưu nh t tương ng v i ngành h c đã ch n.

2.2.2.3. Mơ hình bài tốn

đây là mơ hình đư c phát sinh t đâu.

2.2.2.2. Phân tích quy lu t và l a ch n gi i pháp cho bài tốn
T nh ng d li u đã đư c thu th p và lưu tr ñ áp d ng cho bài
tốn d đốn k t qu h c t p mà tơi đang xây d ng, thì c n ph i tìm
ki m nh ng thơng tin gì? nh ng thơng tin đó giúp ích gì cho vi c d
đốn?
T góc đ xây d ng mơ hình d ñoán và nhu c u th c t c a
trư ng Cao ñ ng Kinh t K thu t Qu ng Nam. H th ng c n ph i
ñáp ng các câu h i ñư c t o ra m t cách t ñ ng và gi i quy t ñư c

các th c m c c a t ng thí sinh, ph huynh và nh ng ngư i quan tâm.

Hình 2.2. Mơ hình bài tốn ng d ng d ñoán k t qu h c t p
2.3 Thi t k h th ng
2.3.1. Danh sách các actor
2.3.2. Sơ ñ use case
2.3.3. Đ c t use case

Câu h i thư ng ñư c ñ t ra ñơn thu n như sau: V i nh ng thơng tin
đ u vào như: Dân t c, ñi m thi ñ u vào, khu v c, ...và v i ngành h c

2.3.4. Bi u đ tu n t

c th thì tơi nên ch n l trình h c nào phù h p đ đ t ñư c k t qu

2.3.5. Bi u ñ ho t ñ ng

h c t p t i ưu.
Các câu tr l i chính xác và đáp ng đư c nguy n v ng c n
thông tin c a các thí sinh cũng như giúp cho các nhà qu n lý ñào t o
c a trư ng nh ng cái nhìn và đánh giá chính xác, địi h i ta ph i xây
d ng vi c phân tích d a trên d li u có s n s l y đư c nh ng thơng
tin gì và có d đốn đư c v n đ gì x y ra khơng? Đó chính là m c
đích c a vi c khai phá d li u t nh ng d li u thu th p đư c mà tơi
mu n th c hi n trong lu n văn này.

Hình 2.9. Mơ hình bài tốn ng d ng d đốn k t qu h c t p
2.4. Xây d ng cơ s d li u
2.4.1. Ngu n d li u



- 17 2.4.1.1. Thu th p d li u
2.4.1.2. Đánh giá ch t lư ng d li u

- 18 3.1.2. Chu n b d li u cho mơ hình
D li u ngu n (Data Source) ñư c chia thành 2 t p d li u dùng

2.4.1.3. X lý d li u

đ hu n luy n mơ hình (Training Data) và ki m tra mơ hình (Testing

2.4.1.4. N p d li u

data).

2.4.2. Xây d ng cơ s d li u trong SQL Server

+ Data source ban ñ u g n 2000 sinh viên

2.4.2.1. Mơ hình cơ s d li u quan h

+ Training Data: 70%
+ Testing Data: 30%
3.1.3. Xây d ng mơ hình
T o DataSource
T o DataSource View
T o mơ hình khai phá d li u

Hình 2.10. Sơ đ CSDL quan h
2.4.2.2. Thi t k cơ s d li u v t lý

CHƯƠNG 3. PHÁT TRI N H TH NG
3.1.

Hình 3.1. Các thu c tính đ u vào

Qui trình xây d ng mơ hình khai phá d li u

3.1.1. Mơ t d li u
D li u ñư c dùng ñ xây d ng mơ hình là Data source g n

Sau đó, ch n Suggest ñ xem nh ng c t nào có th là nh ng c t
input

2000 sinh viên c a trư ng Cao Đ ng Kinh t - K thu t Qu ng Nam,
g m 12 thu c tính:
B ng 3.1. D li u xây d ng mơ hình khai phá d li u
Hình 3.2. K t qu tính entropy
D a vào k t qu tính entropy trên, ta th y ñi m s Score c a 4
thu c tính: DIEMTHI, MALOTRINH, KHOITHI, MANGANH cao
hơn so v i nh ng thu c tính cịn l i, t c là nh ng thu c tính này có
V i m c đích xây d ng mơ hình cây quy t đ nh và lu t k t h p
nh m d ñoán k t qu h c t p cu i khóa c a sinh viên.

tác đ ng m nh đ n thu c tính d đốn (k t qu h c t p). Các thu c
tính cịn l i có m c đ

nh hư ng đ n mơ hình là khơng đáng k .


- 19 Chính vì v y, đ tăng hi u qu c a q trình hu n luy n mơ hình, có

th lo i b các thu c tính này và ch ch n 4 thu c tính có score cao
làm thu c tính input đ xây d ng các mơ hình d đốn k t qu h c

- 20 K t qu như sau
T nhi u thu c tính ñ u vào như ban ñ u, ñ ki m tra m c ñ
nh hư ng gi a thu c tính input và thu c tính d đốn, lu n văn th c
hi n vi c xây d ng mô hình bao g m t t c các thu c tính đ u vào

t p.
Sau đó, ch n ki u d li u và ki u n i dung cho m i thu c tính.

s n có và xây d ng mơ hình đã b đi t t c nh ng thu c tính ít nh

+ Discrete: Đ i v i nh ng thu c tính có giá tr r i r c.

hư ng nh t ñ n thu c tính d đốn (t c là ngồi 4 thu c tính có đi m

+ Continuous: Đ i v i nh ng thu c tính có giá tr liên

s score cao nh t như trên). Qua k t qu thu ñư c t vi c xây d ng

t c.

nh ng mô hình như trên, ta th y có hay khơng có vi c lo i b nh ng
+ Discretized: Đ i v i nh ng thu c tính đư c r i r c

thu c tính khơng quan tr ng t vi c xây d ng mơ hình khác nhau thì

hóa.
Ho c: ch n Detect đ thu t tốn t đ ng ch n l a ki u t t nh t


m c ñ tác ñ ng c a các thu c tính đ u vào v i thu c tính d đốn
v n s khơng thay đ i.

cho m i thu c tính.
Tab Mining Models,
Hai mơ hình tương ng v i hai thu t toán cho trư ng h p ch n
t t c các thu c tính đ u vào: phái, dân t c, khu v c, huy n, ñi m thi,
kh i thi, ngành và l trình h c.
Hai mơ hình tương ng v i hai thu t toán cho trư ng h p ch n
t t c các thu c tính đ u vào khơng bao g m l trình h c.
Hai mơ hình cho thu t toán Decision v i trư ng h p ch ch n

Hình 3.7. Mơ hình Dependency Network
3.1.4. Ki m đ nh mơ hình
Lift Chart

các thu c tính đ u vào đi m thi, kh i thi, ngành và l trình h c, bao
g m và khơng bao g m l trình h c.

Hình 3.8. Bi u đ Lift Chart (có ch n giá tr d đốn)
Hình 3.4. Các mơ hình đư c xây d ng
Sau đó, kích ph i vào Project và ch n Deploy.

V i trư ng h p không ch n giá tr d đốn, dùng bi u đ Lift
Chart đ ki m tra đ chính xác c a m i mơ hình. K t qu cho th y:


- 21 -


- 22 Sau khi th c hi n hu n luy n mơ hình và ch n mơ hình phù h p
v i u c u bài tốn (mơ hình s d ng thu t tốn cây quy t đ nh v i
t l d đốn cao nh t), ta s dùng mơ hình này đ d đốn k t qu
h c t p cho sinh viên. Quá trình đó đư c th c hi n như sau:
Thơng tin v sinh viên c n d đốn k t qu h c t p cu i khóa
đư c lưu vào b ng Dudoanketqua. Lúc này b ng DuDoanKetQua s

Hình 3.9. Bi u đ Lift Chart (khơng ch n giá tr d đốn)
K t qu th ng kê t l d báo c a 6 mơ hình như sau:
STT

Tên mơ hình

T l d đốn

có c t k t qu cịn ñ tr ng vì h th ng chưa th c hi n q trình d
đốn:
B ng 3.2. Thu c tính ñ u vào lưu vào b ng DuDoanKetQua (B ng

1

Lu t k t h p

62,54%

2

Cây quy t ñ nh

96,22%


3

Cây quy t đ nh (khơng ch n Lotrinh)

95,88%

4

Lu t k t h p (Khơng ch n Lotrinh)

83,34%

5

Cây quy t đ nh (ch n 4 thu c tính quan trong)

97,23%

th c hi n truy v n thơng qua mơ hình do ngư i qu n tr ch n s

Cây quy t ñ nh (ch n thu c tính quan trong lo i b

95,83%

d ng. Dư i đây là ví d truy v n cho trư ng h p mơ hình Decision

6
Lotrinh)


H th ng s chuy n ti p d li u v a lưu ñ n BI và BI s t ñ ng

tree v i đ y đ các thu c tính ñ u vào.

- N u k t h p v i l trình h c, vi c d đốn k t qu h c t p c a
sinh viên s chính xác hơn.
- Mơ hình cây quy t đ nh cho t l d

DuDoanKetQua)

Code sinh ra t quá trình truy v n:
Sau khi th c hi n truy v n, d li u d đốn đư c sinh ra và ñư c

báo ñúng cao nh t –

h th ng lưu vào c t k t qu trong b ng DuDoanKetQua. Và t đây

97,23%, trong khi đó mơ hình lu t k t h p cho t l d báo ñúng th p

h th ng s l y k t qu trong b ng DuDoanKetQua cùng c t k t qu

nh t – 83,34%.

m i ñư c lưu vào ñ xu t ra màn hình cho ngư i dùng.

- Vi c ñưa các thu c tính: dân t c, khu v c, ưu tiên, phái, mã

Result

huy n vào mơ hình khơng có ý nghĩa. Thu t tốn cây quy t đ nh lo i

b các thu c tính này hồn tồn và cho k t qu hoàn toàn trùng v i

Sau khi th c hi n truy v n, d li u s lưu vào b ng
DuDoanKetQua
B ng 3.3. K t qu sau khi truy v n

k t qu trong trư ng h p mơ hình khơng bao g m các thu c tính này.
3.1.5. S d ng mơ hình đ d đốn
Tab Mining Model Prediction

3.2

K t qu th nghi m


- 23 3.2.1. Mô t h th ng
H th ng:
Mô hình:
Hi n th các mơ hình khai phá d li u đã xây d ng.
D đốn k t qu :
Cho phép ngư i dùng nh p vào nh ng thông tin c n thi t cho
vi c d đốn, sau ñó h th ng th c hi n ch c năng d đốn và tr v
k t qu h c t p cho ngư i dùng.
3.2.2. Demo h th ng
3.2.2.1. Giao di n chính c a chương trình

Hình 3.10. Giao di n chính c a chương trình
3.2.2.2. C a s ñăng nh p
3.2.2.3. C a s ñăng ký
3.2.2.4. Menu mô hình

3.2.2.5. Giao di n d đốn k t qu h c t p
3.3 B o trì mơ hình
K T LU N
Đánh giá k t qu lu n văn
V lý thuy t, lu n văn đã trình bày đư c cơ s lý thuy t liên quan
ñ n hai thu t tốn cây quy t đ nh, lu t k t h p. Nghiên c u quy trình
tri n khai ng d ng khai phá d li u. Ngoài ra, lu n văn cũng tìm
hi u các v n đ cơ b n v công c Microsoft SQL Server 2008 R2
Analysis Services và các công c liên quan.

- 24 Đ i v i bài tốn d đốn k t qu h c t p cu i khóa c a sinh viên,
lu n văn ñã ñ xu t xây d ng sáu mơ hình d đốn d a trên thu t
tốn cây quy t ñ nh, lu t k t h p, t đó so sánh sáu mơ hình v i nhau
đ ch n ra mơ hình t i ưu. V i d li u hu n luy n ban ñ u, mơ hình
cho phép phân tích các y u t nh hư ng ñ n k t qu h c t p c a
sinh viên, m c ñ tác ñ ng c a t ng y u t ñ u vào, ngồi ra cịn truy
v n đư c l trình h c thơng qua d li u ban đ u, t đó d đốn đư c
k t qu h c t p cu i khóa c a sinh viên qua vi c k t h p thơng tin
đ u vào và l trình h c. Bên c nh đó, lu n văn cịn xây d ng đư c
chương trình demo hi n th mơ hình cây quy t đ nh, lu t k t h p ñã
xây d ng ñ n ngư i dùng cu i.
V i vi c tri n khai h th ng th nghi m cho th y kh năng ng
d ng k t qu này trong vi c d đốn k t qu h c t p c a sinh viên.
H th ng giúp cho sinh viên l a ch n cho mình m t l trình h c phù
h p v i ñi u ki n và năng l c c a b n thân ñ ñ t ñư c k t qu h c
t p t i ưu.
Nhìn chung, lu n văn đã cơ b n hồn thành các m c tiêu đ ra.
Đ đưa mơ hình d đốn vào ng d ng m t cách hi u qu hơn thì c n
ti p t c ñ u tư thu th p d li u sinh viên nhi u hơn n a. Tri n khai
d ñoán, ki m ch ng th c t và ñánh giá k t qu m t cách thư ng

xuyên. B n thân nh n th y ñây là hư ng ti p c n đúng đ n và có tính
th c ti n cao.
H n ch
Do khó khăn trong vi c ti p c n và x lý d li u nên h th ng
cho ra k t qu chưa th t s chính xác.
Hư ng phát tri n
Hư ng phát tri n c a lu n văn có th nghiên c u thêm m t s mơ
hình m i ñ áp d ng vào bài toán khai phá d li u giáo d c như:


- 25 + S d ng cây quy t ñ nh (Decision Tree) đ d đốn k t
qu h c t p c a sinh viên

m t h c kì b t kì d a trên thơng tin tuy n

sinh ñ u vào và k t qu h c t p c a h c kì trư c đó. Ch ng h n: s
d ng các thông tin tuy n sinh ñ u vào và k t qu h c t p c a h c kì 1
đ d đốn xem k t qu h c kì 2 sinh viên ñ t lo i gì (xu t s c, gi i,
khá, trung bình…)
+ S d ng lu t k t h p (Association Rule) đ tìm ra các lu t
liên quan gi a các môn h c mà sinh viên ñã h c t t ho c chưa ñ t. Ví
d : N u SV h c mơn CSDL trong h c kỳ 1 ñ t k t qu khá thì s h c
mơn PTHT trong h c kỳ 2 s ñ t k t qu t t, ho c n u SV h c môn
CSDL trong h c kỳ 1 chưa đ t thì s h c mơn PTHT trong h c kỳ 2
s chưa ñ t…
Nghiên c u thêm m t s thu t tốn đ áp d ng vào bài toán khai
phá d li u.
M r ng bài tốn cho vi c d đốn trên nhi u thu c tính khác
nhau ngồi k t qu h c t p cu i khóa c a sinh viên.
Nâng cao kh năng h tr c a ng d ng cùng v i vi c d đốn

k t qu h c t p khơng ch cho sinh viên mà cịn h tr cho giáo viên
ch nhi m, các khoa chuyên ngành, phịng đào t o và nh ng ai quan
tâm.
+ Đ i v i giáo viên ch nhi m: h tr cho giáo viên ch
nhi m có th tư v n cho sinh viên trong vi c ch n m t l trình h c
phù h p.
+ Đ i v i các khoa chun ngành và phịng đào t o: h tr
trong vi c ñánh giá ch t lư ng cho t ng l trình h c nh m nâng cao,
c i thi n hơn n a trong vi c xây d ng các l trình h c đ phù h p v i
m i ñi u ki n và năng l c c a sinh viên.



×