Tải bản đầy đủ (.pdf) (26 trang)

Ứng dụng kỹ thuật khai phá dữ liệu để tư vấn học tập cho sinh viên tại trường Đại học Quảng Bình

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (532.59 KB, 26 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

LÊ QUỐC HOÀNG

ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU
ĐỂ TƯ VẤN HỌC TẬP CHO SINH VIÊN
TẠI TRƯỜNG ĐẠI HỌC QUẢNG BÌNH

Chuyên ngành: Khoa học máy tính
Mã số: 8480101

TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2018


Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC BÁCH KHOA

Người hướng dẫn khoa học: TS. PHẠM XUÂN HẬU

Phản biện 1: TS. NGUYỄN VĂN HIỆU

Phản biện 2: TS. ĐẬU MẠNH HOÀN

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp
thạc sĩ chuyên ngành Khoa học máy tính họp tại Trường Đại học
Bách khoa Đà Nẵng vào ngày 05 tháng 01 năm 2019

Có thể tìm hiểu luận văn tại:


- Trung tâm Học liệu và Truyền thông Trường Đại học Bách khoa
Đại học Đà Nẵng tại
- Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa


1
MỞ ĐẦU
1. Lý do chọn đề tài.
Trong nh ng năm g n đây, khi công nghệ thông tin đang ngày
càng phát tri n mạnh mẽ thì vấn đề khai phá d liệu đ và đang tr
thành một trong nh ng hướng nghiên c u chính trong lĩnh v c khoa
học máy tính và công nghệ tri th c Khai phá d liệu được ng d ng
thành công vào rất nhiều các lĩnh v c khác nhau như thương mại, tài
chính, th trường ch ng khoán, y học, sinh học, giáo d c và vi n
thông,...
Hình th c đào tạo tín chỉ là một phương pháp đào tạo tiên tiến
trên thế giới và đang được áp d ng rộng r i tại một số trường đại học
của Việt Nam hiện nay Ưu đi m của hình th c đào tạo này là tính
liên thông gi a các hệ đào tạo, gi a các trường đ tạo điều kiện cho
việc hội nhập với giáo d c thế giới Vì lý do đó mà chủ trương của
nhà nước là m rộng áp d ng hình th c đào tạo tín chỉ trong mạng
lưới các trường đại học, cao đẳng trong nước giai đoạn 2001- 2010.
Trường Đại học Quảng Bình đ áp d ng hình th c học theo tín
chỉ từ năm học 2008 đến nay Theo tinh th n của học chế tín chỉ
sinh viên có th t xây d ng kế hoạch học tập cho cả quá trình học
của mình suốt khóa học Có nghĩa là tùy theo năng l c và điều kiện
của bản thân sinh viên sẽ đăng ký học ph n nhiều hay ít trong mỗi
học kỳ nhưng vẫn đảm bảo đúng thời hạn đào tạo theo qui đ nh của
Nhà trường Nhưng th c trạng hiện nay là h u hết sinh viên vẫn đăng
ký học ph n theo kế hoạch đào tạo của chương trình khung theo học

kỳ mà chưa có một s đ nh hình riêng con đường học tập của bản
thân Trường hợp nh ng sinh viên giỏi có th đăng ký đ đẩy nhanh
tiến độ học tập và rút ngắn thời gian đào tạo mà vẫn đảm bảo kết quả


2
học tập tốt, phù hợp với điều kiện thời gian và năng l c Trường hợp
nh ng sinh viên có năng l c yếu hơn có th đăng ký dàn trải hơn sao
cho kết quả học tập được gi

m c tốt nhưng vẫn tuân thủ thời gian

đào tạo tại trường Việc t xây d ng một lộ trình tối ưu phù hợp với
năng l c học tập của từng sinh viên theo tinh th n học chế tín chỉ h u
như vẫn chưa th hiện được tính hiệu quả của nó Do đó việc xây
d ng một công c hỗ trợ đề xuất cho sinh viên các lộ trình học tập
phù hợp theo năng l c và điều kiện thời gian trong suốt khóa học là
một nhu c u c n thiết và h a hẹn sẽ là công c đắc l c giúp cho sinh
viên quản lý kế hoạch học tập một cách hiệu quả đ chủ động hơn
trong việc chuẩn b hành trang cho tương lai của mình.
Trước nh ng thách th c đặt ra về khai phá d liệu, đ hỗ trợ
tốt nhất cho sinh viên và tăng cường ng d ng công nghệ thông tin
trong hoạt động và quản lý đào tạo nhằm tăng hiệu quả và nâng cao
chất lượng đào tạo tại Trường Đại học Quảng Bình thì việc xây d ng
các hệ thống ph c v sinh viên là rất c n thiết Vì vậy tôi quyết đ nh
l a chọn chọn đề tài “Ứng d ng kỹ thuật khai phá d liệu đ tư vấn
học tập cho sinh viên tại Trường Đại học Quảng Bình” làm đề tài tốt
nghiệp luận văn cao học
2. Tính cấp thiết của đề tài
Với th c trạng đ nêu


trên, việc xây d ng một công c hỗ

trợ đề xuất cho sinh viên các lộ trình học tập phù hợp theo năng l c
và điều kiện thời gian trong suốt khóa học là một nhu c u c n thiết
và h a hẹn sẽ là công c đắc l c giúp cho sinh viên quản lý kế hoạch
học tập một cách hiệu quả, chủ động hơn trong việc chuẩn b hành
trang cho tương lai của mình


3
Đối với hình th c đào tạo tín chỉ sinh viên phải đăng ký học
ph n bắt buộc và t chọn dưới s tư vấn của CVHT Vậy làm sao đ
đảm bảo sinh viên chọn được nh ng học ph n phù hợp với năng l c
bản thân và sắp xếp lộ trình học sao cho đạt hiệu quả nhất ? Liệu
CVHT có th tư vấn cho sinh viên cả lớp chọn kế hoạch học tập phù
hợp trong khi không th tiếp cận toàn bộ d liệu đi m của sinh viên?
Đ giải quyết các vấn đề nêu trên, chúng tôi tiến hành nghiên
c u th c hiện đề tài Ứng d ng kỹ thuật khai phá d liệu đ tư vấn
học tập cho sinh viên tại Trường Đại học Quảng Bình
3. Mục tiêu đề tài
- Hi u được các vấn đề liên quan đến khai phá d liệu
- Nghiên c u lý thuyết mạng nơron
- Áp d ng thuật toán mạng nơron tư vấn chọn học ph n cho
sinh viên.
- Hỗ trợ phòng Đào tạo, các Khoa chuyên ngành và các
CVHT, giáo viên chủ nhiệm có th tư vấn cho sinh viên
trong việc chọn học ph n
- Nâng cao chất lượng đào tạo tại Trường Đại học Quảng
Bình.

N i ung nghiên c u
- Nghiên c u lý thuyết về kỹ thuật phát hiện tri th c và khai
phá d liệu
- Chuẩn b nguồn d liệu, bao gồm d liệu đi m kết quả học
tập của sinh viên
- Cài đặt thử nghiệm mô hình khai phá d liệu: Mạng nơron
nhân tạo (Neural Network)
-

Áp d ng mô hình đ giải quyết bài toán


4
5 Đối tượng và phạm vi nghiên c u
- Đối tượng nghiên c u của đề tài là khai phá d liệu đi m
sinh viên, thuật toán mạng nơron nhân tạo và lan truyền
ngược
- Trong khuôn khổ của một luận văn, tôi chỉ giới hạn th c
nghiệm tạo ng d ng tư vấn môn học t chọn cho sinh viên
ngành Giáo d c m m non – Khoa Sư phạm Ti u học M m
non - Trường Đại học Quảng Bình
6 Phư ng pháp nghiên c u
- Thu thập, đọc hi u, phân tích thông tin, d liệu từ các tài
liệu, giáo trình, sách liên quan đến khai phá d liệu
- Tiến hành nghiên c u và áp d ng thuật toán mạng nơron đ
xây d ng ng d ng tư vấn học ph n t chọn cho sinh viên
tại Trường Đại học Quảng Bình phù hợp nhất
7 Ý nghĩa khoa học, tính khả thi của đề tài
Trường Đại học Quảng Bình đang th c hiện việc ng d ng
công nghệ thông tin vào công tác dạy và học rất tốt Việc xây d ng

ng d ng t vấn môn t chọn sẽ hỗ trợ cho sinh viên trong việc l a
chọn phương pháp học và môn học đ đạt kết quả tốt trong các học
kỳ kế tiếp
Ý tư ng xuất phát từ nhu c u th c tế của Nhà trường nên đề
tài mang tính ng d ng cao, thiết th c hỗ trợ nâng cao hoạt đào tạo
của nhà trường
8. Bố cục của luận văn
Ngoài ph n m đ u và kết luận, luận văn gồm ba chương:
Chư ng 1: Chương này chủ yếu nghiên c u tổng quan về khai
phá d liệu c th là các phương pháp, kỹ thuật trong khai phá d


5
liệu và ng d ng của khai phá d liệu, l a chọn phương pháp đ

ng

d ng cho đề tài.
Chư ng 2: Nghiên c u và đi sâu vào tìm hi u thuật toán mạng
nơron nhân tạo, các hình th c học và một số phương pháp huấn
luyện mạng nơron nhân tạo

ng d ng thuật toán lan truyền ngược

cho mô hình mạng nơron
Chư ng 3: Nghiên c u xây d ng ng d ng, trong chương này
các nội dung đề cập đến đó là: Mô tả bài toán, đề xuất mô hình áp
d ng thuật toán lan truyền ngược đ xây d ng ng d ng Phát tri n
xây d ng demo ng d ng th c hiện ch c năng tư vấn học ph n cho
sinh viên d a vào kết quả học tập các kỳ Và từ đó tư vấn cho giảng

viên, CVHT có th chọn cho sinh viên hoặc SV t chọn cho mình
môn tư chọn đạt kết quả cao nhất từ đó chọn được học ph n t chọn
phù hợp nhất với sinh viên

Chư ng 1: TỔNG QUAN KHAI PHÁ DỮ LIỆU
1.1. Giới thiệu
Khai phá d liệu được dùng đ mô tả quá trình phát hiện ra tri
th c trong CSDL Quá trình này là việc tính toán đ tìm ra các mẫu
trong các bộ d liệu liên quan đến các bộ d liệu lớn giúp cho việc
d báo trong máy học, thống kê và các hệ thống cơ s d liệu
Tùy vào cách tiếp cận, m c tiêu khai phá d liệu mà các Nhà
khoa học đ đưa ra một số đ nh nghĩa như sau [1]:
Định nghĩa của Ferruzza: “Khai phá d liệu là tập hợp các
phương pháp được dùng trong tiến trình khám phá tri th c đ chỉ ra
s khác biệt các mối quan hệ và các mẫu chưa biết bên trong d
liệu”


6
Định nghĩa của Parsaye: “Khai phá d liệu là quá trình trợ
giúp quyết đ nh, trong đó chúng ta tìm kiếm các mẫu thông tin chưa
biết và bất ngờ trong CSDL lớn”
Định nghĩa của Fayyad: “Khai phá tri th c là một quá trình
không t m thường nhận ra nh ng mẫu d liệu có giá tr , mới, h u
ích, tiềm năng và có th hi u được”
1.2. Các ng ụng của khai phá ữ liệu
1.3. Các bước của quá trình khai phá ữ liệu
1.4. Các phư ng pháp trong khai thác ữ liệu
1.4.1. Phân lớp (classification)
1.4.2. Hồi qui (regression)

1.4.3. Phân nhóm (clustering)
1.4.4. Tổng hợp (summarization)
1.4.5. Mô hình hoá sự phụ thuộc (dependency modeling)
1.4.6. Phát hiện sự biến đổi và độ lệch (change and deviation
dectection)
1.5. Các Kỹ thuật khai phá ữ liệu
1.5.1. Các thành phần của quá trình khai phá dữ liệu
a. Biểu diễn mô hình:
b. Đánh giá mô hình:
c. Phương pháp tìm kiếm:
1.5.2. Kỹ thuật suy diễn/quy nạp
1.5.3. Kỹ thuật ứng dụng K-láng giềng gần
1.5.4. Kỹ thuật sử dụng cây quyết định và luật
1.5.5. Kỹ thuật phát hiện luật kết hợp
1.6. Những thách th c trong nghiên c u và ng ụng kỹ thuật
khai phá ữ liệu


7
1.7. M t số vấn đề thách th c của khai phá ữ liệu
Kết luận chư ng 1: Chương này chủ yếu nghiên c u tổng
quan về khai phá d liệu c th là các phương pháp, kỹ thuật trong
khai phá d liệu và ng d ng của khai phá d liệu, l a chọn phương
pháp đ

ng d ng cho đề tài.

Chư ng 2: NGHIÊN CỨU MẠNG NƠRON NHÂN TẠO VÀ
XÂY DỰNG MÔ HÌNH DỰA TRÊN MẠNG NƠRON
2.1. Giới thiệu về mạng n ron nhân tạo

2.1.1. Khái niệm
Mạng nơron nhân tạo, Artificial Neural Network (ANN) gọi
tắt là mạng nơron Mạng nơron là một mô hình xử lý thông tin phỏng
theo cách th c xử lý thông tin của các hệ nơron sinh học Nó được
tạo lên từ một số lượng lớn các ph n tử (gọi là ph n tử xử lý hay
nơron) kết nối với nhau thông qua các liên kết (gọi là trọng số liên
kết) làm việc như một th thống nhất đ giải quyết một vấn đề c th
nào đó
Một mạng nơron nhân tạo được cấu hình cho một ng d ng c
th (nhận dạng mẫu, phân loại d liệu, d báo) thông qua một quá
trình học từ tập các mẫu huấn luyện Về bản chất học chính là quá
trình hiệu chỉnh trọng số liên kết gi a các nơron
2.1.2. Lịch sử phát triển của mạng nơron nhân tạo
2.2. Mạng n ron nhân tạo
2.2.1. Mô hình mạng nơron nhân tạo


8
Một nơron là một đơn v xử lý thông tin và là thành ph n cơ
bản của một mạng nơron Cấu trúc của một nơron được mô tả như
hình 2.1.

Hình 2.1. Mô hình mạng nơron nhân tạo [4].
Các thành ph n cơ bản của một nơron nhân tạo bao gồm:
+

Tập các đầu vào: Là các tín hiệu vào (input signals) của
nơron, các tín hiệu này thường được đưa vào dưới dạng một
vector N chiều


+

Tập các liên kết: Mỗi liên kết được th hiện b i một trọng
số (gọi là trọng số liên kết – Synaptic weight) Trọng số liên
kết gi a tín hiệu vào th j với nơron k thường được kí hiệu là
wkj Thông thường, các trọng số này được kh i tạo một cách
ngẫu nhiên

thời đi m kh i tạo mạng và được cập nhật liên

t c trong quá trình học mạng
+

B tổng (Summing function): Thường dùng đ tính tổng
của tích các đ u vào với trọng số liên kết của nó

+

Ngưỡng (còn gọi là m t đ

lệch - bias): Ngưỡng này

thường được đưa vào như một thành ph n của hàm truyền


9
+

Hàm truyền (Transfer function): Hàm này được dùng đ
giới hạn phạm vi đ u ra của mỗi nơron Nó nhận đ u vào là

kết quả của hàm tổng và ngưỡng đ cho Thông thường,
phạm vi đ u ra của mỗi nơron được giới hạn trong đoạn [0,1]
hoặc [-1, 1] Các hàm truyền rất đa dạng, có th là các hàm
tuyến tính hoặc phi tuyến Việc l a chọn hàm truyền nào là
tùy thuộc vào từng bài toán và kinh nghiệm của người thiết
kế mạng

+

Đầu ra: Là tín hiệu đ u ra của một nơron, với mỗi nơron sẽ
có tối đa là một đ u ra

2.2.2. Phân loại cấu trúc mạng nơron nhân tạo
Mạng nơron nhân tạo là một mạng gồm một tập các đơn v
(unit) được kết nối với nhau bằng các cạnh có trọng số
Trong một mạng nơron có ba ki u đơn v :
+

Các đơn v đ u vào, nhận tín hiệu từ bên ngoài

+

Các đơn v đ u ra, gửi d liệu ra bên ngoài

+

Các đơn v ẩn, tín hiệu vào của nó được truyền từ các
đơn v trước nó và tín hiệu ra được truyền đến các đơn
v sau nó trong mạng


Khi nhận được các tín hiệu đ u vào, một đơn v sẽ nhận mỗi
tín hiệu với trọng số tương ng rồi lấy tổng các giá tr vừa nhận
được Kết quả sẽ được đưa vào một hàm số gọi là hàm kích hoạt
(activation function) đ tính toán tín hiệu đ u ra Các đơn v khác
nhau có th có các hàm kích hoạt khác nhau
Các đ u ra của nơron sinh học là các xung, có giới hạn chặn
Trong mô phỏng, đ đảm bảo hệ ổn đ nh đ u ra, người ta gán hàm
chặn

lối ra cho các tín hiệu Đ đặc trưng cho điều đó,

đ u ra của


10
mỗi nơron phải đặt một hàm chặn, thường

dạng phi tuyến Kết quả

của hàm này là một giá tr đặc trưng cho m c độ kích hoạt của
nơron
+ Hàm sigmoid (Sigmoid Function)

g ( x)

1
1 e

x


Hàm này sử d ng cho các mạng được huấn luyện (trained) b i
thuật toán lan truyền ngược (Back – Propagation), b i vì nó d lấy
đạo hàm, do đó giảm đáng k các phép tính trong quá trình huấn
luyện mạng Hàm này được sử d ng cho nh ng ng d ng mà giá tr
đ u ra nằm trong khoảng [0 , 1]

Hình 2.2. Hàm sigmoid
Các hàm chuy n đối với các nơron lớp ẩn là c n thiết đ bi u
di n s phi tuyến vào trong mạng Lý do là hợp thành của các hàm
đồng nhất là một hàm đồng nhất Mặc dù vậy nhưng nó mang tính
chất phi tuyến (nghĩa là, khả năng bi u di n các hàm phi tuyến) làm
cho các mạng nhiều lớp có khả năng rất tốt trong bi u di n các ánh
xạ phi tuyến Tuy nhiên, đối với luật học lan truyền ngược, hàm phải
khả vi (differentiable) và sẽ có ích nếu như hàm được gắn trong một
khoảng nào đó Do vậy, hàm sigmoid là l a chọn tốt nhất


11
Đối với các đơn v đ u ra, các hàm chuy n được chọn sao cho
phù hợp với s phân phối của các giá tr đích mong muốn Nếu giá
tr ra trong khoảng [0;1] thì hàm sigmoid là phù hợp nhất
+ Mạng truyền thẳng (Multilayered Feedforward Neural
Network - MFNN)
Trong mạng nơron truyền thẳng, các liên kết đi theo một
hướng nhất đ nh từ lớp vào tới lớp ra, không tạo thành đồ th có chu
trình với các đỉnh là các nơron, các cung là các liên kết gi a chúng

Hình 2.3. Mạng nơron truyền thẳng nhiều lớp.
2.3. Các hình th c học của mạng n ron nhân tạo
2.3.1. Khái niệm

Học là quá trình thay đổi hành vi của các vật theo một cách
nào đó làm cho chúng có th th c hiện tốt hơn trong tương lai
Một mạng nơron được huyấn luyện sao cho với một tập các
vector đ u vào X, mạng có khả năng tạo ra tập các vector đ u ra
mong muốn Y của nó Tập X được sử d ng cho huấn luyện mạng
được gọi là tập huấn luyện (training set) Các ph n tử x thuộc X được
gọi là các mẫu huấn luyện (training example) Quá trình huấn luyện
bản chất là s thay đổi các trọng số liên kết của mạng Trong quá


12
trình này, các trọng số của mạng sẽ hội t d n tới các giá tr sao cho
với mỗi vector đ u vào x từ tập huấn luyện, mạng sẽ cho ra vector
đ u ra y như mong muốn
Có ba hình th c học học phổ biến: Học có giám sát
(supervised learning), Học không giám sát (unsupervised learning),
Học tăng cường (Reinforcement learning) [4]:
2.3.2. Học có giám sát
. Học có giám sát trong các mạng nơron thường được th c
hiện theo các bước sau:
+ Bước 1: Xây d ng cấu trúc thích hợp cho mạng nơron,
chẳng hạn có (n + 1) nơron vào (n nơron cho biến vào và 1
nơron cho ngưỡng x0), m nơron đ u ra, và kh i tạo các
trọng số liên kết của mạng
+ Bước 2: Đưa một vector x trong tập mẫu huấn luyện X vào
mạng
+ Bước 3: Tính vector đ u ra o của mạng
+ Bước : So sánh vector đ u ra mong muốn y (là kết quả
được cho trong tập huấn luyện) với vector đ u ra o do
mạng tạo ra; nếu có th thì đánh giá lỗi

+ Bước 5: Hiệu chỉnh các trọng số liên kết theo một cách nào
đó sao cho

l n tiếp theo khi đưa vector x vào mạng,

vector đ u ra o sẽ giống với y hơn
+ Bước 6: Nếu c n, lặp lại các bước từ 2 đến 5 cho tới khi
mạng đạt tới trạng thái hội t

Việc đánh giá lỗi có th th c

hiện theo nhiều cách, cách dùng nhiều nhất là sử d ng lỗi
t c thời: Err = (o - y), hoặc Err = |o - y|; lỗi trung bình
bình phương (MSE: mean-square error): Err = (o- y)2/2.


13
Có hai loại lỗi trong đánh giá một mạng nơron Th nhất, gọi
là lỗi rõ ràng (apparent error), đánh giá khả năng xấp xỉ các mẫu
huấn luyện của một mạng đ được huấn luyện. Th hai, gọi là lỗi
ki m tra (test error), đánh giá khả năng tổng quá hóa của một mạng
đ được huấn luyện, t c khả năng phản ng với các vector đ u vào
mới Đ đánh giá lỗi ki m tra chúng ta phải biết đ u ra mong muốn
cho các mẫu ki m tra.
Thuật toán tổng quát

trên cho học có giám sát trong các

mạng nơron có nhiều cài đặt khác nhau, s khác nhau chủ yếu là
cách các trọng số liên kết được thay đổi trong suốt thời gian học.

Trong đó tiêu bi u nhất là thuật toán lan truyền ngược.
2.3.3. Học không có giám sát
2.3.4. Học tăng cường
* Thuật toán lan truyền ngược:
2.4. M t số phư ng pháp huấn luyện mạng n ron nhân tạo
2.5. Mô tả bài toán đào tạo tại Trường Đại học Quảng Bình
Ngày nay các chương trình đào tạo tại trường Đại học Quảng
Bình đang được th c hiện theo học chế tín chỉ nhằm tạo điều kiện
thuận lợi cho quá trình học tập của sinh viên cũng như tăng cường
khả năng t học.
Trong đó việc l a chọn học ph n phù hợp với thời gian, điều
kiện đối với các môn bắt buộc theo chương trình đào tạo đ tạo ra
một kết quả khả quan trong thời gian qua giúp sinh viên chủ động
hơn trong việc học tập.
Sau khi kết thúc mỗi học ph n nhà trường th c hiện nhập đi m
học ph n vào ph n mềm theo chương trình đào tạo của từng học kỳ


14
Bảng 2.1. Chương trình đào tạo học kỳ 1

Tuy nhiên bên cạnh đó cũng phát sinh một số boăn khoăn
trong việc đăng ký học ph n t chọn của sinh viên trong học kỳ tiếp
theo trong đó có 3 vấn đề chính đó là:
+ Chọn học ph n nào đ phù hợp với năng l c?
+ Chọn học ph n nào đ phù hợp với nghề nghiệp tương lai?
+ Chọn học ph n nào đ đạt được kết quả tốt nhất với năng
l c học tập hiện tại của từng sinh viên?
Việc hỗ trợ tư vấn cho sinh viên chọn học ph n t chọn phù
hợp là công việc đòi hỏi người tư vấn phải theo dõi giám sát kết quả

học tập của sinh viên trong một thời gian dài
Việc tư vấn hỗ trợ sinh viên chọn học ph n t chọn phù hợp
mang lại nhiều lợi ích khác nhau:
+ Lợi ích cho sinh viên: Giúp sinh viên l a chọn học ph n
phù hợp với năng l c của bản thân
+ Lợi ích cho giảng viên: Tiếp cận nhóm sinh viên có đ y đủ
năng l c học tốt học ph n giúp giảng viên truyền tải kiến


15
th c học ph n tốt nhất nhanh nhất đến đối tượng có năng
l c phù hợp
+ Lợi ích cho Nhà trường: Nâng cao chất lượng học ph n,
ngành học Tạo nhiều thuận lợi trong công tác phân luồng
người học Tạo s thích thú học trong học tập khi năng l c
của sinh viên phù hợp với học ph n
Một trong các tiêu chí quan trọng làm cơ s cho việc tư vấn
chọn học ph n t chọn là kết quả học tập của sinh viên trong các học
kỳ trước khi l a chọn học ph n Các kết quả học tập của các học kỳ
trước đó là số liệu quan trọng trong việc tư vấn l a chọn học ph n
cho sinh viên.
Với t m quan trọng của việc tư vấn chọn học ph n cho sinh
viên nên việc đưa ra một tư vấn càng sớm càng tốt nhằm hỗ trợ cho
việc ra quyết đ nh l a chọn học ph n trước lúc sinh viên đăng ký học
ph n Do đó vấn đề hỗ trợ tư vấn cho sinh viên đăng ký môn t chọn
là một vấn đề hết s c quan trọng, b i nhờ vào việc l a chọn đăng ký
học ph n chính xác sẽ giải quyết các khó khăn nêu trên mang lại
nhiều lợi ích thiết th c
Việc xây d ng một công c hỗ trợ đề xuất cho sinh viên các lộ
trình học tập phù hợp theo năng l c và điều kiện thời gian trong suốt

khóa học là một nhu c u c n thiết và h a hẹn sẽ là công c đắc l c
giúp cho sinh viên quản lý kế hoạch học tập một cách hiệu quả, chủ
động hơn trong việc chuẩn b hành trang cho tương lai của mình
Có nhiều phương pháp đ tư vấn chọn học ph n Tuy nhiên,
với nh ng ưu đi m về khả năng học và đưa ra quyết đ nh từ nh ng
điều đ học được của mạng nơron thì việc ng d ng mạng nơron đ
tư vấn là một phương pháp tiếp cận phù hợp Chính vì vậy, luận văn


16
đ nghiên c u xây d ng và huấn luyện bằng mạng nơron giúp quá
trình tư vấn chọn học ph n được nhanh chóng chính xác hơn
2.6. Áp ụng mô hình để tư vấn chọn môn học tự chọn CCNN
ựa trên ANN
Sau thời gian nghiên c u về quá trình tư vấn chọn học ph n
t chọn với nhiều học ph n khác nhau tác giả nhận thấy rằng kết quả
các học ph n trong các học kỳ trước đều có ảnh hư ng lớn trong
việc l a chọn môn t chọn cho học kỳ tiếp theo Ví d đối với học
kỳ I của một ngành học có 06 môn thành ph n là: { inh l tr em
gh thuật tạ hình

án cơ s

iếng i t

m nhạc

in h c}.

Sau quá trình học có kết quả của học kỳ I sinh viên đăng ký học kỳ

II sinh viên chọn một học ph n trong các học ph n như sau: { ăn
h c, Mỹ h c và giá dục thẩm mỹ ch tr

iá dục d n s và môi

trư ng}.
2.7. Phân tích bài toán
2.8. Áp ụng mô hình để tư vấn môn tự chọn cho sinh viên Đại
học Quảng Bình
Từ phân tích mô hình bài toán

ph n trên chúng ta c n có một

hệ suy luận gồm 6 đặc trưng của các học ph n bắt buộc của học kỳ 1
{ inh l tr em
nhạc

gh thuật tạ hình

án cơ s

iếng

i t

m

in h c} và d a trên năng l c này hệ thống sẽ đánh giá tư vấn

kết quả ngưỡng đi m có th đạt được với môn t chọn D a trên đặc

trưng đó đ đề xuất mô hình áp d ng tư vấn môn t chọn cho sinh
viên Đại học Quảng Bình như sau:


17

Hình 2.4. Mô hình dự báo chọn môn tự chọn
2.9. Huấn luyện mô hình bằng thuật toán lan truyền ngược
Nguyên tắc huấn luyện mạng Nơron đa lớp sử d ng thuật toán
lan truyền ngược gồm hai giai đoạn chính: lan truyền thẳng (tính
toán đ u ra của các Nơron) và lan truyền ngược qua mạng Áp d ng
thuật toán lan truyền ngược như sau:
Bước 1: Kh i tạo trọng số (thường là kh i tạo ngẫu nhiên)
Bước 2: Đối với mỗi mẫu d liệu e trong tập huấn luyện
+ Lan truyền thẳng: tính O = giá trị đầu ra của mạng;
+ Với T = giá trị đầu ra m ng mu n của e, tính toán lỗi tại đơn v
đ u ra (T – O)
+ Lan truyền ngược:
- Tính giá tr delta_wi cho tất cả các trọng số từ lớp ẩn đến lớp ra;
- Tính giá tr delta_wj cho tất cả các trọng số từ lớp vào đến lớp ẩn;
+ Cập nhật trọng số của mạng
Bước 4: Kết thúc thuật toán
Các thông số được dùng đ huấn luyện mạng bao gồm:
- LookBack: Số nơron đ u vào
- T ng ẩn Hidden Node: Số nơron lớp ẩn


18
- Predict: D đoán
- Sigmoid Alpha: hệ số điều chỉnh tr c tiếp tốc độ hội t của hàm tối

ưu độ lỗi
- Hệ số học (Learning Rate): có vai trò điều tiết m c độ thay đổi của
trọng số trong các bước cập nhật
- Hệ số quán tính (Momentum): Hệ số này có tác d ng giúp cho giải
thuật không b dừng

tối ưu c c bộ

2.10. Kết luận
Kết luận chư ng 2: Nghiên c u và đi sâu vào tìm hi u thuật
toán mạng nơron nhân tạo, các hình th c học, thuật toán lan truyền
ngược cho mô hình mạng nơron nhiều lớp và một số phương pháp
huấn luyện mạng nơron nhân tạo từ đó mô tả bài toán, đề xuất mô
hình áp d ng thuật toán lan truyền ngược đ xây d ng ng d ng cho
bài toán tư vấn môn t chọn cho sinh viên

Chư ng 3: PHÁT TRIỂN ỨNG DỤNG
3.1.
3.1.1.

Thiết kế hệ thống
Chức năng Quản lý User
a. Kịch bản “Quản l User”
b. Biểu đồ tuần tự của chức năng Quản l user
c. Biểu đồ tuần tự của cộng tác Quản l user

3.1.2.

Chức năng xây dựng tập dữ liệu
a. Kịch bản “x y dựng tập dữ li u”

b. Biểu đồ tuần tự của chức năng xử l dữ li u
c. Biểu đồ cộng tác của chức năng xử l dữ li u

3.1.3.

Chức năng dự báo kết quả
a. Kịch bản “dự bá kết quả”
c. Biểu đồ tuần cộng tác chức năng dự bá


19
3.2.

Công nghệ ng dụng trong đề tài

3.3.

Chư ng trình thực nghiệm và kết quả

3.3.1.

Môi trường cài đặt

3.3.2.

Cấu trúc tập tin
Tác giả đ th c nghiệm trên 3 file d liệu của 03 môn t chọn,

d liệu được chia thành hai ph n: một ph n dùng đ huấn luyện và
một ph n đ d báo. Nguồn d liệu được sử d ng từ kết quả th c

ti n tại Trường Đại học Quảng Bình Do quy đ nh bảo mật của nhà
trường một số thông tin khác không được công bố.
Tập d liệu mẫu: GiaoDucDanSo, MyHoc, VanHoc.
D liệu GiaoDucDanSo 133, MyHoc 158 dòng, VanHoc 470
dòng, mỗi dòng ch a 6 thành ph n d liệu của kết quả học tập kỳ
trước: { inh l tr em
m nhạc

gh thuật tạ hình

án cơ s

iếng i t

in h c} và 1 thành ph n của môn t chọn tương ng.

3.3.3. Một số giao diện chính của hệ thống
Sau khi đăng nhập chọn file d liệu và tải d liệu vào chương trình

Hình 3.1. Chức năng xử lý dữ liệu
Chọn các thông số mạng theo các chỉ số sau:


20
LookBack: Số nơron đ u vào mặc đ nh là 1
T ng ẩn Hidden Node: Số nơron lớp ẩn mặc đ nh là 14
Sigmoid Alpha mặc đ nh là 2
Hệ số học (Learning Rate): có vai trò điều tiết m c độ thay
đổi của trọng số trong các bước cập nhật có giá tr mặc
đ nh là 0 001

Hệ số quán tính (Momentum): Hệ số này có tác d ng giúp
cho giải thuật không b dừng

tối ưu c c bộ giá tr mặc

đ nh là 0

Hình 3.2. Thông số mạng
Chọn số l n lặp khi huấn luyện mạng và bắt đ u huấn luyện
cho đến khi nào sai số chấp nhận được thì cho dừng huấn luyện hoặc
lặp đúng số l n lặp thì thuật toán dừng


21

Hình 3.3. Huấn luyện mạng
Khi huấn luyện xong chuy n sang thẻ Ki m tra chọn ch c
năng ki m thử chương trình sẽ hi n th d liệu ki m thử các mẫu tin
được chọn từ lúc xử lý d liệu cho chúng ta kết quả d báo của
chương trình

Hình 3.4. Kiểm thử dữ liệu
3.3.4.

Kết quả thực nghiệm
Kết quả th c nghiệm cho học ph n “Giáo d c dân số” số mẫu

d liệu 133 theo tỷ lệ chọn mẫu ngẫu nhiên



22
133 mẫu d liệu; Tập huấn luyện 90%; Ki m thử 10%
Số l n lặp

600000

Sai số huấn luyện

0.0627361422601427

Sai số ki m thử

0.141675095588177

133 mẫu d liệu; Tập huấn luyện 80%; Ki m thử 20%
Số l n lặp

600000

Sai số huấn luyện

0.0502093426737489

Sai số ki m thử

0.171844880380824

Với kết quả như trên hoàn toàn chấp nhận được trong quá trình
tư vấn đi m học ph n cho sinh viên Như vậy tư vấn học ph n t
chọn dùng mạng nơron cho kết quả tốt nhất trong các thuật toán

được ki m thử
Kết luận: Th c nghiệm chương trình đ phân tích được t m
quan trọng của đánh giá d báo đi m đ từ đó có th tư vấn môn t
chọn cho sinh viên và s khó khăn trong việc đánh giá l a chọn môn
t chọn bằng th c nghiệm thủ công Nghiên c u các đi m mạnh,
đi m yếu của mạng nơron đ giải quyết bài toán đánh giá đi m môn
t chọn cho sinh viên Việc ng d ng mạng nơron đ giải bài toán tư
vấn môn t chọn là một phương pháp mới mang tính khả quan cao
Quá trình cài đặt chương trình đánh giá đ thu được một số kết quả
nhất đ nh
Đồng thời qua việc tiến hành thử nghiệm thu được nh ng giá
tr d báo có độ chính xác khá cao Cho thấy tính ưu việt của việc
ng d ng kỹ thuật mạng nơron đ đánh giá tư vấn chọn môn t
chọn M ra một hướng đi khả quan cho việc ng d ng máy học vào
giải quyết bài toán tư vấn cho sinh viên trong nhiều vấn đề khác của
nhà trường


23
Kết luận chư ng 3: Nghiên c u xây d ng ng d ng, trong
chương này các nội dung đề cập đến đó là: Phát tri n xây d ng demo
ng d ng th c hiện ch c năng tư vấn môn t chọn cho sinh viên d a
vào kết quả học tập các kỳ trước Và từ đó tư vấn cho giảng viên,
CVHT có th chọn cho sinh viên hoặc SV t chọn cho mình môn tư
chọn đạt kết quả cao nhất, từ đó chọn được học ph n t chọn phù
hợp nhất với sinh viên
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Khai phá d liệu là một lĩnh v c quan trọng, bao gồm nhiều
lĩnh v c và nhiều kỹ thuật khác nhau Đề tài tập trung nghiên c u về
phát hiện tri th c và khai phá d liệu đi m của sinh viên Trường Đại

học Quảng Bình
Đề tài đ nghiên c u cơ s lý thuyết liên quan đến phát hiện tri
th c và khai phá d liệu, tập trung vào kỹ thuật khai phá d liệu sử
d ng mạng nơron nhân tạo, nghiên c u quy trình tri n khai ng d ng
khai phá d liệu Ngoài ra, đề tài cũng tìm hi u các vấn đề cơ bản về
Microsoft Visual Studio và các công c liên quan
Đối với bài toán tư vấn môn học t chọn cho sinh viên, đề tài
đ đề xuất xây d ng mô hình tư vấn d a trên kỹ thuật mạng nơron
nhân tạo truyền thẳng với d liệu đ u vào bao gồm thông tin cá nhân,
đi m học ph n bao gồm hoặc không bao gồm lộ trình học Với d
liệu huấn luyện ban đ u, mô hình cho phép phân tích các yếu tố ảnh
hư ng đến kết quả học tập của sinh viên, m c độ tác động của từng
yếu tố đ u vào, từ đó tư vấn cho sinh viên chọn học ph n t chọn
phù hợp với khả năng, đạt kết quả cao trong học tập Nhìn chung, đề
tài đ cơ bản hoàn thành các m c tiêu đề ra Đ đưa mô hình d đoán
vào ng d ng một cách hiệu quả hơn thì c n tiếp t c đ u tư thu thập


×