Tải bản đầy đủ (.pdf) (75 trang)

Hệ thống dự đoán kết quả và gợi ý lựa chọn môn học dùng giải thuật phân rã ma trận

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.01 MB, 75 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƢỜNG ĐẠI HỌC CẦN THƠ

HUỲNH LÝ THANH NHÀN

HỆ THỐNG DỰ ĐOÁN KẾT QUẢ
VÀ GỢI Ý LỰA CHỌN MÔN HỌC
N

Ả T U TP

NR

TR N

LU N VĂN T ẠC SĨ CÔNG NGHỆ THÔNG TIN

Cần Thơ – 2013


BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƢỜN

ĐẠI HỌC CẦN T Ơ

HUỲNH LÝ THANH NHÀN

HỆ THỐNG DỰ ĐOÁN KẾT QUẢ
VÀ GỢI Ý LỰA CHỌN MÔN HỌC


N

Ả T U TP

NR

TR N

Chuyên ngành: HỆ THỐNG THÔNG TIN
Mã số: 60 48 05

LU N VĂN T ẠC SĨ CÔN

N

Ệ THÔNG TIN

Ngƣời hƣớng dẫn khoa học
TS. NGUYỄN THÁI NGHE

Cần Thơ - 2013


Ờ C

ĐO N

Tôi xin cam đoan luận văn với đề tài “Hệ thống
” đƣợc hoàn thành là kết
quả nghiên cứu và quá trình thực hiện của tôi.

Công việc nghiên cứu và nội dung trong luận văn chƣa từng đƣợc nộp để lấy
bằng cấp từ một trƣờng nào, ngoại trừ phần lý thuyết và các kết quả từ các công
trình nghiên cứu đƣợc trích dẫn ở tài liệu tham khảo.

Cần Thơ, ngày 07 tháng 11 năm 2013
Học viên cam đoan
Ký tên

u nh

Thanh Nh n

Trang i


LỜI CẢ

ƠN

Trƣớc tiên, tôi xin gửi lời cảm ơn ch n thành và lòng biết ơn s u sắc nhất đến
thầy TS Nguy n Th i Ngh , ngƣời đã tận tình hƣớng dẫn, chỉ bảo, đ ng g p
iến
c ng nhƣ động vi n cho tôi trong suốt quá trình thực hiện luận văn này Tuy thời
gian một năm là rất ngắn nhƣng tôi rất vui khi đƣợc làm việc với thầy và mong
muốn sau này s đƣợc làm việc với thầy trong nh ng nghi n cứu s u hơn về hệ
thống gợi trong gi o ục
Tôi xin gửi lời cảm ơn ch n thành đến c c thầy cô trong Khoa CNTT
Truyền Thông đã trực tiếp c ng nhƣ gi n tiếp hƣớng ẫn giảng ạy cho tôi c đƣợc
nh ng iến thức qu
o để hoàn thành luận văn và đủ hành trang trong nghi n cứu

hoa h c sau này
Tôi c ng xin gửi lời cảm ơn đến anh ch trong lớp cao h c HTTT-K18 đã chia
s và giúp đỡ tôi trong qu trình h c tập. Tôi c ng xin gửi lời cảm ơn ch n thành
đến c c ạn trong nh m thiết ế w về lập ế hoạch h c tập và chƣơng trình đào
tạo đã giúp đỡ và cung cấp cho tôi nh ng tài liệu tham hảo h u ch Đ c iệt tôi
xin cảm ơn anh Nguy n H ng ng ngƣời đã giúp đỡ động vi n và chia s với tôi
trong suốt qu trình h c tập làm việc nh m, c ng nhƣ nghi n cứu và thực hiện luận
văn
n cạnh tôi c ng xin gửi lời cảm ơn đến cộng đ ng MyM iaLit N t đã
ph t hành ngu n mở với nh ng thƣ viện h u ch giúp tôi giải quyết nhiều vấn đề
trong luận văn. Tôi c ng xin cảm ơn các thầy cô trong phòng đào tạo trƣờng Đại
h c Cần Thơ đã cung cấp d liệu điểm để tôi đƣa vào ứng ụng.
Tôi xin cảm ơn Ban giám hiệu trƣờng Đại h c An Giang, Ban chủ nhiệm khoa
Kỹ thuật – Công nghệ - Môi trƣờng đã tạo điều kiện, h trợ nhiều m t cho tôi đƣợc
h c tập h a cao h c 2011-2013 và thực hiện luận văn này
Cuối c ng tôi xin cảm ơn ch n thành với lòng iết ơn s u sắc đến ông à cha
m đã nuôi ƣỡng và ạy ảo tôi n n ngƣời và tạo cho tôi c điều iện tốt để đƣợc
h c tập và ph t triển.
Tuy đã n lực để hoàn thành luận văn nhƣng sai s t là hông thể tránh khỏi
kính mong quý thầy cô thông cảm và tận tình chỉ bảo nh ng sai s t đ Mong nhận
đƣợc ý kiến đ ng g p của quý thầy cô và các bạn.
H c vi n u nh
Thanh Nh n

Trang ii


LỜI MỞ ĐẦU
Hiện nay, việc giải quyết bài toán dự đo n năng lực của sinh vi n đang đƣợc
quan tâm bởi các nhà quản lý giáo dục và cả các nhà khoa h c. Sự quan tâm ngày

càng tập trung c ng vì nghĩa thực ti n của bài toán.
Nhiều hƣớng nghiên cứu đã ph t triển nhƣ ph n loại sinh viên, nh ng môn h c
mang yếu tố quan tr ng, dự đo n từ quy luật,... Tuy nhiên, nh ng hƣớng tiếp cận
này thƣờng là gom cụm, phân lớp, tìm quy luật từ nh ng d liệu trong quá khứ để
c đƣợc nh ng phân tích h u ích và gợi chung chung mà chƣa c nh ng dự đo n
cụ thể cho một quyết đ nh ở tƣơng lai
Để đủ cơ sở tri thức dự đo n cụ thể đòi hỏi chúng ta thu thập nhiều d liệu bổ
sung (m ta ata) nhƣ: qu qu n ỹ năng mềm, sở thích, hoàn cảnh gia đình …mà
qu trình này đòi hỏi tốn nhiều thời gian và công sức Đ y là một vấn đề rất h
hăn cho nh ng nghiên cứu giải quyết bài toán dự đo n năng lực của sinh viên.
Bên cạnh đ chúng tôi đã thấy đƣợc sự tƣơng đ ng gi a bài toán dự đo n ết
quả sinh viên với bài toán xếp hạng trong hệ thống gợi nên tôi đã quyết đ nh ứng
dụng công nghệ gợi ý vào giải quyết vấn đề mới chƣa đƣợc giải quyết theo cách
này Tuy nhi n đ y c ng là hƣớng giải quyết mới cho bài toán nên luận văn c thể
là ƣớc khởi đầu cho hƣớng giải quyết bài toán dự đo n ết quả h c tập sinh viên
và gợi ý lựa ch n môn h c.

Trang iii


T

T T

Gần đ y số lƣợng sinh viên b cảnh báo h c vụ và buộc thôi h c có chiều
hƣớng gia tăng Một trong nh ng nguyên nhân là do sinh viên không tự đo n trƣớc
đƣợc năng lực của mình c ng nhƣ lựa ch n môn h c hông hợp l để có kế hoạch
h c tập phù hợp theo khả năng của h Đ y là một tổn thất lớn cho sinh vi n gia
đình nhà trƣờng và xã hội Nhằm giải quyết vấn đề cấp thiết này chúng tôi đề xuất
xây dựng “Hệ thống ự đo n ết quả h c tập của sinh vi n và gợi lựa ch n môn

h c ng giải thuật ph n rã ma trận” Với tƣởng ựa tr n cơ sở
liệu điểm thu
thập đƣợc từ hệ thống quản lý kết quả h c tập của trƣờng Đại h c Cần Thơ chúng
tôi sử ụng ỹ thuật ias Matrix actorization ( M ) để ự đo n ết quả h c tập
của sinh viên từ đ làm cơ sở cho h lựa ch n môn h c ph hợp
n cạnh đ
chúng tôi c ng sử ụng thƣ viện mã ngu n mở MyM iaLit để t ch hợp vào hệ
thống đã đề xuất nhằm giảm ớt đ ng ể thời gian cài đ t giải thuật Hệ thống này
s giúp sinh vi n lựa ch n đƣợc nh ng môn h c th o đúng ràng uộc của chƣơng
trình đào tạo và phù hợp với năng lực của h . Hệ thống đƣợc chia làm phần:
chƣơng trình ự đo n ết quả h c tập sinh vi n đƣợc x y ựng tr n nền s top và
chƣơng trình lập ế hoạch h c tập cho sinh vi n c t ch hợp hệ thống gợi đƣợc
x y ựng trên nền w

Trang iv


ABSTRACT
Recently the number of probation and expelled students seem to be increased.
One of the reasons is that the students could not predict their performance as well as
select inappropriate subjects to establish their learning plan which is suitable for
their ability. This is a heavy loss for the students, their families, schools and society.
In order to mitigate this critical issue, we propose "A system for course result
prediction and recommendation using matrix factorization". The idea is based on
the grading data that is collected from grading management system, we use Biased
Matrix Factorization (BMF) technique to predict the student results which acts as
the basis for selection of appropriate subjects. Besides, we also use MyMediaLite
(an open source recommendation library) for integrating into the proposed system.
The system is divided into two main parts: the course result prediction program
should be built on the desktop application and academic planning for students with

integrated recommeder system should be built on the web application.

Trang v


C

C

Ờ C

ĐO N ................................................................................................................ i

LỜI CẢ

ƠN .................................................................................................................... ii

LỜI MỞ ĐẦU .................................................................................................................... iii
T

T T ........................................................................................................................ iv

ABSTRACT....................................................................................................................... v
C

C ........................................................................................................................ vi

DANH M C HÌNH .......................................................................................................... viii
DANH M C BẢNG .......................................................................................................... ix
DANH M C TỪ VIẾT T T .............................................................................................. x

DANH M C KÝ HIỆU ..................................................................................................... xi
C ƢƠN

1.

ỚI THIỆU TỔNG QUAN .......................................................................... 1

iới thiệu t ng quan v

1.1.

o chọn đ t i .............................................................. 1

1.1.1.

iới thiệu t ng quan ..................................................................................... 1

1.1.2.

Đ t v n đ v hƣớng gi i qu t...................................................................... 2

1.1.3.

o chọn đ t i........................................................................................... 4

1.2.

c đ ch ............................................................................................................. 5

1.3.


Đối tƣ ng v ph m vi nghiên c u ......................................................................... 5

1.4.

ngh a hoa học v thực tiễn c a đ t i ............................................................... 5

1.5.

ố c c u n v n.................................................................................................... 6

C ƢƠN
2.1.

2.

Ệ THỐNG GỢI Ý VÀ NHỮNG NGHIÊN CỨU LIÊN QUAN ...................... 7

Hệ thống g i ý...................................................................................................... 7

2.1.1.

Giới thiệu hệ thống g i ............................................................................... 7

2.1.2.

Gi i thu t dự đoán cơ sở ............................................................................... 9

2.1.3.


Gi i thu t Matrix Factorization ..................................................................... 9

2.1.4.

i i thu t Biased – Matrix Factorization ..................................................... 11

2.2.

Thƣ viện m ngu n mở

2.3.

Các hƣớng nghiên c u iên quan......................................................................... 15

C ƢƠN

3. CÀ ĐẶT VÀ ĐÁN

............................................................................ 13
Á

ẢI THU T ..................................................... 16

3.1.

C i đ t gi i thu t ............................................................................................... 16

3.2.

Đánh giá gi i thu t ............................................................................................. 17


3.2.1.

Các phƣơng pháp đánh giá gi i thu t .......................................................... 17

3.2.2.

Tìm ki m siêu tham số ................................................................................ 17

Trang vi


3.3.

K t qu v đánh giá gi i thu t ............................................................................ 18

3.3.1.

K t qu ....................................................................................................... 18

3.3.2.

Đánh giá ..................................................................................................... 19

C ƢƠN 4. X Y ỰNG HỆ THỐNG DỰ ĐOÁN KẾT QUẢ HỌC T P VÀ GỢI Ý LỰA
CHỌN MÔN HỌC ........................................................................................................... 20
4.1.

Xử lý dữ liệu ...................................................................................................... 20


4.1.1.

Khử nhiễu .................................................................................................. 20

4.1.2.

Chuyển đ i dữ liệu ...................................................................................... 20

4.1.3.

Đƣa ữ liệu v định d ng c a thu t toán ...................................................... 21
ệ thống ự đoán

4.2.

t qu học t p c a sinh viên .................................................. 21

4.2.1.

Bài toán dự đoán

4.2.2.

Tích h p thƣ viện MYMEDIALITE vào bài toán ......................................... 23

4.3.

Hệ thống g i ý lựa chọn môn học ........................................................................ 25

4.3.1.

4.3.2.
4.4.

t qu học t p sinh viên .................................................. 21

ệ thống

p

ho ch học t p ..................................................................... 25

Tích h p hệ thống g i ý vào website l p k ho ch học t p ............................. 27

Ph n t ch v thi t

hệ thống ............................................................................. 28

4.4.1.

Ph n t ch hệ thống ...................................................................................... 28

4.4.2.

Thi t

C ƢƠN
5.1.

v c i đ t hệ thống ......................................................................... 46


5. KẾT LU N VÀ

ƢỚNG PHÁT TRIỂN ..................................................... 56

K t u n............................................................................................................. 56

5.1.1.

K t qu đ t đƣ c ........................................................................................ 56

5.1.2.

Những việc chƣa

5.1.3.
5.1.4.
5.2.

m đƣ c .......................................................................... 56

ƣớng gi i qu t v n đ chƣa

m đƣ c ...................................................... 56

K t u n...................................................................................................... 57
ƣớng phát triển ............................................................................................... 57

Tài liệu tham khảo ............................................................................................................. 59

Trang vii



DANH M C HÌNH
Hình - : Sự tƣơng đ ng gi a hệ thống RS và hệ thống ự đo n ết quả h c tập ........................... 8
Hình - : Mô hình ph n rã ma trận .................................................................................................... 9
Hình - : C ch ự đo n cho sinh vi n h c môn n ...................................................................... 13
Hình - : ng ụng mo của MyMediaLite 3.09.......................................................................... 14
Hình - : ảng so s nh độ l i RMS của c c giải thuật ự đo n ................................................... 19
Hình - : Sơ đ lớp li n quan đến
liệu điểm (ratings)................................................................ 21
Hình - :
liệu điểm với a môn cần ự đo n của sinh vi n sv ................................................ 22
Hình - : ảng điểm sau hi ự đo n và hƣớng gợi ................................................................... 22
Hình - : Kiến trúc của thƣ viện MML ........................................................................................... 24
Hình - : Sơ đ li n quan đối tƣợng ratings .................................................................................. 24
Hình - : C c đối tƣợng li n quan đối tƣợng giải thuật M ....................................................... 25
Hình - : Sơ đ us cas hệ thống ự đo n ................................................................................... 28
Hình - : Sơ đ us hệ thống gợi lựa ch n môn h c .................................................................. 28
Hình - : Sơ đ tuần tự ự đo n ết quả ....................................................................................... 37
Hình - : Sơ đ tuần tự sửa ế hoạch h c tập ............................................................................... 38
Hình - : Mô hình
liệu mức luận l của chƣơng trình đào tạo ................................................. 39
Hình 4- : Sơ đ tổng thể của hệ thống........................................................................................... 47
Hình - : Sơ đ tƣơng t c gi a c c thành phần (sit map) ............................................................. 48
Hình - : Giao iện chƣơng trình huấn luyện và ự đo n ............................................................. 49
Hình 4-20: Giao diện đăng nhập ...................................................................................................... 50
Hình 4-21: Giao diện quản lý môn h c ............................................................................................ 50
Hình 4-22: Quản lý môn h c bắt buộc ............................................................................................. 51
Hình 4-23: Quản l chƣơng trình đào tạo và chƣơng trình giảng dạy của khóa tuyển sinh............. 51
Hình 4-24: Lập kế hoạch h c tập và tạo kế hoạch h c tập mẫu từng h c kỳ ................................... 52

Hình 4-25: Thêm mới kế hoạch h c tập h c kỳ ............................................................................... 52
Hình 4-26: Thêm môn h c vào kế hoạch h c tập h c kỳ ................................................................. 53
Hình 4-27: Giao diện xem kế hoạch h c tập .................................................................................... 53
Hình 4- : Đ ng mở thời gian lập kế hoạch h c tập ....................................................................... 54
Hình 4- : Qui đ nh số tín chỉ tối đa tối thiểu trong cho từng sinh viên. ....................................... 54
Hình 4- : Qui đ nh sô tín chỉ tối đa và tối thiểu cho h c kỳ tất cả sinh viên ................................. 55

Trang viii


DANH M C BẢNG
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng

ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng
ảng

- : Mô tả thông tin ảng ADMIN ......................................................................................... 40
- : Mô tả thông tin ảng BAC_DAO_TAO ......................................................................... 40
- : Mô tả thông tin ảng C N O QU N LY.................................................................. 40
- : Mô tả thông tin ảng CO_VAN_HOC_TAP .................................................................. 40
-5: Mô tả thông tin ảng CON NGUOI ............................................................................... 40
- : Mô tả thông tin ảng CT T (Chƣơng trình đào tạo) ...................................................... 40
- : Mô tả thông tin ảng CTG (Chƣơng trình giảng ạy) .................................................. 41
- : Mô tả thông tin ảng DON_VI_QUAN_LY ................................................................... 41
- : Mô tả thông tin ảng DON_VI_TC ................................................................................ 41
- : Mô tả thông tin ảng HOC_KY_KHHT ....................................................................... 41
- : Mô tả thông tin ảng HOC KY KHHT CO MON HOC .......................................... 42
- : Mô tả thông tin ảng HOCKY NI NKHO ............................................................... 42
- : Mô tả thông tin ảng K HO CH HOC T P ........................................................... 42
- : Mô tả thông tin ảng KHHT M U .............................................................................. 42

- : Mô tả thông tin ảng KHO TS .................................................................................. 42
- : Mô tả thông tin ảng KHOI KI N THUC .................................................................. 43
- : Mô tả thông tin ảng LO I ON VI TC ................................................................... 43
- : Mô tả thông tin ảng LO I KHOI KI N THUC ...................................................... 43
- : Mô tả thông tin ảng LO I NHOM MON HOC ....................................................... 43
- : Mô tả thông tin ảng LOP QU N LY ........................................................................ 43
- : Mô tả thông tin ảng MON HOC................................................................................. 44
- : Mô tả thông tin ảng ..................................................................................................... 44
- : Mô tả thông tin ảng MON HOC NHOM TU CHON .............................................. 44
- : Mô tả thông tin ảng MON HOC TI N QUY T ...................................................... 44
- : Mô tả thông tin ảng NG NH ...................................................................................... 44
- : Mô tả thông tin ảng NGUOI UNG .......................................................................... 45
- : Mô tả thông tin ảng NHOM MON HOC .................................................................. 45
- : Mô tả thông tin ảng NHOM MON TU CHON ........................................................ 45
- : Mô tả thông tin ảng NHU C U HOC ....................................................................... 45
- : Mô tả thông tin ảng NI N KHO HOC KY ........................................................... 45
- : Mô tả thông tin ảng PH N QUY N.......................................................................... 46
- : Mô tả thông tin ảng R NG UOC HOC.................................................................. 46
- : Mô tả thông tin ảng SINH VI N ............................................................................... 46
- : Mô tả thông tin ảng THOI H N ................................................................................ 46

Trang ix


DANH M C TỪ VIẾT T T
BMF: Biased Matrix Factorization
CB: Content-based filtering
CF: collaborative filtering
CSDL: Cơ sở d liệu
CT T: Chƣơng trình đào tạo

ECMA: (European Computer Manufacturers Association)
KHHT: Kế hoạch h c tập
KHGD: Kế hoạch giảng dạy
MAE: Mean Absolute Error
MF: Matrix Factorization
MML: MyMediaLite
RBTV: Ràng buộc toàn v n
RMSE: Root Mean Square Error
RS: Recommender System
SotA: State of the art (tuyệt t c)

Trang x


DANH M C KÝ HIỆU
Luận văn này s tuân thủ các quy ƣớc ký hiệu sau đ y:
S: tập hợp sinh vi n (users)
s: sinh viên s
I: tập hợp môn h c (items)
i: môn h c i
P tập hợp điểm (ratings)
p hay psi điểm số của sinh vi n s cho môn h c i
^ p hay ^ psi điểm ự đo n của sinh vi n s cho môn h c i
X hay W: ma trận
XT hay WT: ma trận chuyển
K: số phần tử tiềm n
: tốc độ h c
: hệ số điều chỉnh (regularization)

Trang xi



C ƢƠN

1. GIỚI THIỆU TỔNG QUAN

1.1. iới thiệu t ng quan v
1.1.1.
iới thiệu t ng quan

o chọn đ t i

Hiện nay nhiều trƣờng cao đẳng, đại h c trên cả nƣớc đã chuyển qua hình thức
đào tạo theo h c chế tín chỉ. Với hình thức này, nhiều trƣờng đại h c nói chung và
Đại h c Cần Thơ n i ri ng đã g p rất nhiều h hăn c ng nhƣ tốn rất nhiều thời
gian và công sức trong công tác cố vấn h c tập cho sinh viên.
Đại h c Cần Thơ c hoảng 200 sinh viên b buộc thôi h c trên một năm số
lƣợng sinh viên buộc thôi h c này ngày càng tăng và thƣờng tập trung vào nh ng
sinh vi n năm thứ a và năm cuối. Nh ng sinh viên h c ở năm thứ nhất và năm thứ
hai thƣờng ít b buộc thôi h c o chƣa c nhiều môn lựa ch n Khi sinh vi n ƣớc
vào năm h c thứ ba ho c thứ tƣ thì số lƣợng môn lựa ch n ngày càng nhiều, nếu lựa
ch n nh ng môn h c không phù hợp với từng sinh viên thì s dẫn đến kết quả xấu
và dần dần ảnh hƣởng đến kết quả của toàn khóa h c. Với kết quả b buộc thôi h c
ở nh ng sinh vi n năm a và năm cuối là một tổn thất lớn của sinh vi n gia đình và
còn là gánh n ng của nhà trƣờng, của toàn xã hội. Nhu cầu cấp thiết nhất đ t ra là
cần có sự tƣ vấn tốt cho sinh vi n c đƣợc nh ng lựa ch n môn h c phù hợp với
từng sinh viên.
Vai trò của cố vấn h c tập ngày càng đƣợc chú tr ng đòi hỏi nhiều thông tin
và inh nghiệm ở cố vấn h c tập. M i nhóm sinh viên thì cần một cố vấn h c tập.
Công việc của cố vấn h c tập phải thƣờng xuy n th o õi và đ nh gi năng lực,

c ng nhƣ thƣờng xuy n th o õi điểm số của sinh vi n chƣơng trình đào tạo đ ng
thời gợi ý nh ng môn h c tự ch n phù hợp cho từng sinh vi n th o từng h c ỳ
từng năm h c Công việc này đòi hỏi tốn nhiều tiền của, thời gian và công sức, cố
vấn h c tập phải nghiên cứu, theo dõi, thống
điểm số của từng sinh vi n th o
từng h c ỳ năm h c đ nh gi năng lực và quan t m nh ng vấn đề sƣ phạm trƣớc
hi đƣa ra gợi ý lựa ch n môn h c Đôi hi sinh viên nhận đƣợc gợi ý thiếu chính
xác vì phụ thuộc chủ quan của cố vấn h c tập.
Th m vào đ hiện nay hệ thống gợi c ng đƣợc ứng dụng rộng rãi trong
nhiều lĩnh vực đ c biệt là thƣơng mại điện tử. Tuy nhiên, gần đ y nhiều nhà nghiên
cứu bắt đầu quan tâm ứng dụng trong lĩnh vực giáo dục. Nhiều hƣớng nghiên cứu
ứng dụng khai thác d liệu giáo dục c ng ần mở rộng. Nhiều nƣớc trên thế giới đã
nghiên cứu và phát triển hệ thống gợi và đ nh gi năng lực của sinh viên nhằm
nâng cao chất lƣợng giáo dục. Với xu thế phát triển nhanh chóng của hệ thống gợi ý

- Trang 1 -


(Recommender System) và nhu cầu ứng dụng hệ thống gợi ý trong giáo dục nói
chung và đào tạo theo h c chế tín chỉ nói riêng ngày càng cấp thiết.
1.1.2. Đ t v n đ v hƣớng gi i qu t
1.1.2.1. Đ t v n đ
Đào tạo theo h c chế tín chỉ là một thách thức cho nhà trƣờng, giảng viên và
kể cả sinh viên. Nhà trƣờng cần có giảng viên có nhiều kinh nghiệm, thời gian, và
tâm huyết để tổng hợp thống điểm số của sinh vi n ph n t ch đ nh gi năng lực,
nghiên cứu chƣơng trình đào tạo và cuối c ng là đƣa ra môn h c phù hợp nhất cho
sinh viên. Với nhu cầu này c c trƣờng đại h c đã c sẵn d liệu điểm môn h c của
c c sinh vi n trong toàn trƣờng. Vấn đề thứ nhất đ t ra là chúng ta phải sử dụng
ngu n d liệu điểm sinh vi n để hai th c ph n t ch và đƣa ra đ nh gi sinh vi n để
có thể gợi ý cho sinh viên lựa ch n môn h c tự ch n một cách hiệu quả bằng hệ

thống tin h c. Nếu ứng dụng thành công hệ thống này s tiết kiệm đƣợc nhiều thời
gian, công sức cho cố vấn h c tập và kể cả sinh viên.
Vấn đề thứ hai đ t ra là chúng ta phải làm sao đ nh gi ch nh x c năng lực của
sinh viên một cách khách quan. Nh ng đ nh gi đòi hỏi phải đƣợc xem xét nhiều
khía cạnh, nhiều đối tƣợng sinh viên, nhiều môn h c, nhiều giảng viên giảng dạy.
Thật vậy, nếu chúng ta dựa trên d liệu của nhóm sinh viên có sở trƣờng về một
môn h c nào đ thì s đƣợc đ nh gi cao còn nh ng nhóm sinh viên khác s g p
h hăn C ng nhƣ sự phụ thuộc vào môn h c c nh ng môn h c y u cầu cao, có
nh ng môn h c y u cầu thấp đối với sinh viên.
Vấn đề thứ ba là phải xử lý các d liệu có sẵn của trƣờng đại h c và xử lý các
d liệu đ th o đ nh dạng có thể hai th c đƣợc. Hiện nay, d liệu điểm của các
trƣờng đại h c đều sẵn c nhƣng chƣa đƣợc khai thác tốt Trƣớc quá trình khai thác,
chúng ta cần xử lý nhi u và đƣa về dạng phù hợp để sẵn sàng triển khai hệ thống
gợi ý.
Vấn đề thứ tƣ là o c c trƣờng đại h c có số lƣợng lớn sinh vi n đăng
môn
h c trong thời gian ngắn và cần sự cố vấn, gợi ý lựa ch n nhanh chóng và phải
chính x c đến từng sinh vi n o đ chúng ta phải xây dựng hệ thống này trên một
website với giao diện đơn giản, tiện lợi cho sinh viên tham khảo nhƣng đảm bảo
yếu tố chính xác của gợi ý.
Vấn đề thứ năm là sinh vi n mới vào trƣờng ở h c kỳ trong năm h c đầu
ti n C c trƣờng đại h c đã lập sẵn kế hoạch h c tập cho h c kỳ 1 của sinh vi n năm
nhất n n đề tài này không g p phải vấn đề sinh viên mới (new user).

- Trang 2 -


Vấn đề thứ s u là ph t sinh môn h c mới trong chƣơng trình đào tạo vấn đề
này c ng rất ít xảy ra. Do không phải là mục ti u ch nh đề tài s giải quyết vấn đề
này bằng phƣơng ph p nền (baseline) [29].

Vấn đề thứ ảy là tự cập nhật cho hệ thống gợi Qu trình đăng
môn h c
và cần gợi của cố vấn h c tập chỉ xảy ra trong hoảng thời gian nhất đ nh mà nhà
trƣờng thông o n n hệ thống chỉ cần cập nhật một lần trƣớc thời gian đăng
h c
phần o hệ thống cơ sở
liệu quản l điểm của Đại h c Cần Thơ chƣa cho ph p
ết nối trực tiếp từ hệ thống h c n ngoài, hiện tại chúng tôi phải sử ụng điểm số
tr n nh ng tệp
( ata as il - oxPro) đƣợc tr ch xuất ra sau m i lần nhà
trƣờng cập nhật điểm
1.1.2.2.

ƣớng gi i qu t

Luận văn s tập trung hai th c thông tin điểm số của sinh viên từ đ đƣa ra
kết quả dự đo n cho sinh vi n th o từng h c kỳ trƣớc hi sinh vi n tham gia đăng
ký h c phần ở đầu m i h c kỳ. Từ nh ng dự đo n ết quả của sinh viên cho tất cả
các môn h c của h c kỳ, luận văn s cung cấp nh ng gợi ý nên ch n môn h c nào
trong nh ng môn tự ch n áp dụng đúng cho từng chƣơng trình đào tạo.
Luận văn s mô tả đƣợc hệ thống cơ sở
liệu th o hệ thống t n chỉ ( ao g m
nh ng môn h c ti n quyết môn h c trƣớc môn h c ắt uộc số môn h c tự
ch n…) c ng với nh ng ràng uộc toàn v n Luận văn s x y ựng đƣợc hệ thống
gợi ph hợp th o chƣơng trình đào tạo và ph hợp t nh sƣ phạm
Th m vào đ luận văn c ng s giải quyết đƣợc vấn đề ph t sinh môn h c mới
trong chƣơng trình đào tạo và hệ thống s đ p ứng đƣợc nhu cầu gợi cho nh ng
môn h c mới này
Bên cạnh đ luận văn s giải quyết vấn đề d liệu khách quan nhằm đƣa ra
gợi ý chính xác nhất cho sinh viên. Giảm bớt sự ch nh lệch gi a nh ng y u cầu cao

thấp h c nhau của c c môn h c C ng nhƣng giảm thiểu sự gợi ý sai lệch do nhìn
nhận từ nh ng sinh viên có sở trƣờng hay sở đoản đối với môn h c nào đ
Và cuối cùng, luận văn s cung cấp cho sinh viên một hệ thống w sit đơn
giản và phối hợp nhiều gợi để sinh viên có thể lựa ch n môn h c tự ch n thích
hợp để giảm bớt áp lực, thời gian, công sức của cố vấn h c tập và sinh vi n c ng
nhƣ của cả nhà trƣờng.
Cụ thể luận văn cần đạt các yêu cầu sau:
-

Xử lý d liệu điểm trƣớc khi áp dụng vào hệ thống gợi ý.

-

Xây dựng giải thuật Biased – Matrix Factorization
- Trang 3 -


-

Tìm kiếm siêu tham số (Hyper Parameters).

-

Giải quyết bài toán môn h c mới (New Item).

-

Dự đo n ết quả của sinh vi n đối với môn lựa ch n đ

-


Đ nh gi

-

X y ựng cơ sở

-

Xây dựng website gợi ý tổng hợp cho sinh vi n trƣớc hi đăng
phần.
o chọn đ t i

1.1.3.

ết quả thực nghiệm.
liệu hệ thống gợi

lựa ch n môn h c
h c

Việc sinh vi n đƣợc lựa ch n nh ng môn h c mình y u th ch, tạo ra một
không gian rộng rãi cho phép giảng viên và sinh viên tập trung vào nh ng chuyên
ngành h p và sâu, vốn là m i nh n của nghiên cứu khoa h c trong m i lĩnh vực.
Đ y c ng là điểm mạnh và c ng là điểm yếu hi sinh vi n thƣờng lựa ch n sai môn
h c ẫn đến ết quả thấp thậm ch ẫn đến
uộc thôi h c. Với kết quả b buộc
thôi h c là một tổn thất lớn của sinh vi n gia đình và còn là g nh n ng của nhà
trƣờng, xã hội. Để giải quyết nguy n nh n chủ yếu này là cần có sự gợi tốt cho
m i sinh vi n c đƣợc nh ng lựa ch n môn h c phù hợp.

Hệ thống gợi ý (Recommender System - RS) hiện đang đƣợc ứng dụng rộng
rãi trong nhiều lĩnh vực đ c biệt là thƣơng mại điện tử. Gần đ y nhiều nhà nghiên
cứu bắt đầu quan tâm việc ứng dụng RS vào lĩnh vực giáo dục. Đ c iệt hƣớng tiếp
cận ias Matrix actorization ( M ) đang là một trong nh ng stat -of-the-arts
(tuyệt tác) của RS.
n cạnh đ ở một số trƣờng đại h c đã x y ựng c c hệ thống lập ế hoạch
h c tập thu thập đƣợc nhu cầu h c từ hệ thống này làm cơ sở cho phòng đào tạo sắp
xếp thời h a iểu tuy nhi n c c hệ thống này lại chƣa c t ch hợp chức năng gợi
(một trong nh ng nguy n nh n g y lựa ch n sai môn h c)
n cạnh nh ng nghi n
cứu hệ thống gợi về gi o ục hiện nay chỉ ừng lại ở đ nh gi giải thuật mà chƣa
t ch hợp vào một hệ thống lập ế hoạch h c hay hệ thống đăng
h c phần nào.
Th m vào đ , cơ sở
liệu về ết quả h c tập của sinh vi n ở c c trƣờng đại h c
đang đƣợc lƣu tr rất lớn nhƣng chƣa đƣợc hai th c tốt.
Từ nhu cầu cấp thiết về việc ự đo n ết quả h c tập sinh vi n gợi lựa ch n
môn h c và nh ng thực trạng h hăn hiện nay trong công t c quản l gi o ục.
Với mong muốn của luận văn s giải quyết vấn đề t nh cấp thiết trong hoàn cảnh
hiện nay và nhằm giúp hệ thống tƣ vấn cho sinh vi n ngày càng tốt hơn. Đ y c ng
là l o tôi ch n đề tài này

- Trang 4 -


1.2.

c đ ch

Luận văn tập trung hai th c thông tin điểm số của sinh viên từ đ đƣa ra đƣợc

kết quả dự đo n Từ nh ng kết quả dự đo n này làm cơ sở cho sinh viên lựa ch n
môn h c ph hợp
Luận văn s xây ựng cơ sở
liệu quản l ế hoạch h c tập c t ch hợp hệ
thống gợi nhằm giúp hệ thống đã đề xuất ph hợp với ràng uộc của chƣơng trình
đào tạo.
Bên cạnh đ luận văn s giải quyết vấn đề d liệu khách quan nhằm đƣa ra
gợi ý chính xác cho sinh viên, giảm bớt sự ch nh lệch gi a nh ng y u cầu cao thấp
h c nhau của c c môn h c, c ng nhƣ giảm thiểu sự gợi ý sai lệch do nhìn nhận từ
nh ng sinh viên có sở trƣờng hay sở đoản đối với môn h c nào đ
Và cuối cùng, luận văn s cung cấp một hệ thống w sit đơn giản để gợi ý
cho sinh viên lựa ch n môn h c tự ch n thích hợp, nhằm giảm bớt áp lực, thời gian,
công sức của sinh viên, cố vấn h c tập và nhà trƣờng.
1.3. Đối tƣ ng v ph m vi nghiên c u
-

Đối tƣợng (vấn đề) nghi n cứu:
o

ài to n ự đo n ết quả h c tập của sinh vi n

o Tìm hiểu và ứng ụng giải thuật ự đo n của RS
o X y ựng hệ thống gợi
-

Phạm vi:
o

liệu hai th c là ựa tr n điểm số


o

liệu thu thập của khoa CNTT&TT, Đại h c Cần Thơ

o Thời gian của
1.4.

lựa ch n môn h c

liệu điểm số: từ năm

-2004.

ngh a hoa học v thực tiễn c a đ t i

Đề tài c
nghĩa khởi đầu cho việc ứng ụng công nghệ gợi vào giải quyết
vấn đề mới chƣa đƣợc giải quyết th o c ch này. Hƣớng giải quyết gợi cụ thể ở
tƣơng lai hông ừng lại ở ph n t ch năng lực của h trong qu hứ
Về nghĩa thực ti n khi x y ựng thành công hệ thống đề xuất, số lƣợng sinh
vi n
cảnh c o h c vụ và uộc thôi h c s đƣợc giảm ớt nhà trƣờng s giảm
đƣợc nhiều chi ph và công sức cho sinh vi n cố vấn h c tập và nhà trƣờng Hƣớng
sinh vi n ph t triển đƣợc năng lực tr n sở th ch của h

- Trang 5 -


1.5.


ốc c u nv n

Chƣơng : L do và tính cấp thiết để thực hiện đề này Đề tài mang nghĩa
khoa h c và thực ti n nhƣ thế nào đề tài nhằm mục đ ch gì và nh ng mục tiêu cần
đạt đƣợc trong luận văn
n cạnh đ trong chƣơng này còn trình ày nh ng vấn đề
cụ thể cần giải quyết và hƣớng giải quyết vấn đề.
Chƣơng : Giới thiệu hệ thống gợi ý và nh ng giải thuật dự đo n c li n quan
nhƣ: c c giải thuật dự đo n cơ sở, phân rã ma trận (Matrix Factorization) và BiasedMatrix Factorization (BMF) và luận văn s sử dụng giải thuật BMF này làm giải
thuật ứng dụng chính cho hệ thống đã đề xuất. Bên cạnh đ chúng tôi còn giới
thiệu nh ng t nh năng ƣu việt của thƣ viện ngu n mở MyMediaLite (MML), khi sử
dụng MML s giảm đ ng ể thời gian cài đ t giải thuật dự đo n trong RS
Chƣơng : Cài đ t giải thuật Biased-Matrix Factorization, c c phƣơng ph p
đ nh gi giải thuật phù hợp cho bài toán ratings prediction (bài toán dự đo n từ
nh ng phản h i tƣờng minh) Trong c c phƣơng ph p đ phƣơng ph p đo độ l i
RMS để đ nh gi giải thuật là phù hợp nhất. Khi chạy giải thuật thì chúng ta cần
tìm các tham số đầu vào thích hợp để đ p ứng nhu cầu này nh ng phƣơng ph p tìm
tham số c ng đƣợc trình ày trong chƣơng này.
Chƣơng : Sau khi tìm hiểu hệ thống gợi ý và các nghiên cứu liên quan, hệ
thống dự đo n ết quả h c tập và gợi ý lựa ch n môn h c đƣợc đề xuất trong
chƣơng này ao g m cả phần phân tích và thiết kế hệ thống.
Chƣơng : Nh ng kết quả đạt đƣợc, thảo luận nh ng vấn đề h hăn thuận
lợi và cuối c ng đƣa ra nh ng hƣớng phát triển trong tƣơng lai từ nh ng t n tại
chƣa đƣợc giải quyết trong luận văn này

- Trang 6 -


C ƢƠN
QUAN


2. HỆ THỐNG GỢI Ý VÀ NHỮNG NGHIÊN CỨU LIÊN

2.1. Hệ thống g i ý
2.1.1. Giới thiệu hệ thống g i
Hiện nay h ch hàng thƣờng qu tải khi lựa ch n nh ng sản ph m đƣợc
cung cấp tr n int rn t Nh ng nhà inh oanh trực tuyến hay nh ng nhà cung cấp
thông tin trực tuyến đã đƣa ra một số lƣợng sản ph m, tin tức hổng l Đ y là một
cơ hội để nh ng nhà inh oanh này đ p ứng y u cầu và sở th ch của h ch hàng
Kết nối h ch hàng đến nh ng sản ph m ph hợp là chìa h a để n ng cao sự hài
lòng của h ch hàng c ng nhƣ sự trung thành của h ch hàng với thƣơng hiệu và
sản ph m của h Vì vậy nhiều nhà inh oanh trực tuyến đã trở n n th ch thú với
hệ thống RS này, vì n c thể ph n t ch đƣợc đ c điểm nhu cầu của h ch hàng để
c nh ng tƣ vấn ph hợp với sở th ch của h
ởi vì sự tƣ vấn tốt s mở ra hƣớng
mới cho ngƣời ng c inh nghiệm c
p để thỏa sức h m ph .
Ngƣời ta nhận thấy có sự quan tâm ngày gia tăng về các hệ thống gợi
(Recommender Systems - RS) trong hai thập kỷ qua [6], kể từ khi xuất hiện bài báo
đầu tiên về chủ đề này vào gi a thập niên 1990 [24] RS đƣợc ph t triển rộng rãi ở
nhiều lĩnh vực đ c iệt là thƣơng mại điện tử Tuy vậy RS vẫn hông ngừng ph t
triển và đƣợc nhiều nhà nghi n cứu quan t m ởi vì c rất nhiều vấn đề cần nghi n
cứu đƣợc đ t ra và sự phong phú của nh ng ứng ụng RS trong thực tế nhằm giúp
con ngƣời ra quyết đ nh trƣớc sự qu tải thông tin và nhận đƣợc lời tƣ vấn ph hợp
với h V ụ về nh ng ứng ụng hệ thống gợi ý nhƣ: giới thiệu s ch C c c loại
sản ph m tại amazon com nh ng ộ phim tại movi l ns tin tức tại V RSI I
Technologies (versifit.com), nh ng vi o ở youtu com …
Các tài nguyên có thể là bất kỳ kiểu gì nhƣ phim m nhạc, sách, trang web,
tin tức trực tuyến, truyện cƣời, nhà hàng, đ a điểm u l ch thậm chí là phong cách
sống,... Các hệ thống gợi h trợ ngƣời dùng tìm thấy đúng tài nguy n mà h quan

tâm dựa trên các thông tin cá nhân của h ho c nh ng đ nh gi phản h i
(f
ac s) đƣợc thu thập theo hình thức tƣờng minh (explicit) ằng c ch yêu cầu
ngƣời dùng đ nh gi ho c hông tƣờng minh (implicit) ằng sự tự động suy luận
dựa trên nh ng tƣơng t c của ngƣời dùng với hệ thống nhƣ: clic chuột, thời gian
quan sát, việc đ t hàng,...
Có hai cách tiếp cận chính trong các hệ thống tƣ vấn [24][10][19]:
-

L c dựa trên nội dung (content-based filtering - CB).
L c cộng tác (collaborative filtering - CF).

- Trang 7 -


Các hệ thống CB thực hiện việc tƣ vấn một tài nguy n đến ngƣời dùng dựa
trên việc so s nh độ tƣơng đ ng gi a nội dung tài nguyên và các đ c trƣng của
ngƣời dùng, nh ng tài nguy n c độ tƣơng đ ng cao s đƣợc ch n để tƣ vấn. Ví dụ,
một ngƣời thích phim khoa h c vi n tƣởng thì nh ng phim có nội dung liên quan
đến khoa h c vi n tƣởng s đƣợc tƣ vấn đến ngƣời ng đ
Các hệ thống CF thực hiện việc tƣ vấn một tài nguy n đến một ngƣời dùng
dựa trên sở thích của nh ng ngƣời ng tƣơng đ ng với ngƣời dùng đ . Nếu phần
lớn nh ng ngƣời ng tƣơng đ ng với ngƣời ng u th ch tài nguy n i thì i c ng s
đƣợc tƣ vấn đến u. Tập hợp nh ng ngƣời ng tƣơng đ ng nhau tạo thành cộng
đ ng
Gần đ y việc p ụng RS vào gi o ục đ c biệt là trong dự đo n ết quả h c
tập của sinh vi n c ng đƣợc đầu tƣ nghi n cứu và ph t triển ởi sự tƣơng đ ng gi a
bài toán dự đo n ết quả h c tập của sinh vi n trong hệ thống e-learning và bài toán
dự đo n xếp hạng trong trong hệ thống gợi Sinh vi n h c tập c c môn h c s c
điểm số ngƣời ng mua sản ph m s c đ nh gi sản ph m ình ch n sản ph m

th ch ộ phim hay ài h t v v X m h nh 2-1 thể hiện việc tƣơng đ ng gi a hai hệ
thống -l arning và hệ thống gợi c ng nhƣ hai ài to n ự đo n ết quả h c tập và
ài to n xếp hạng sản ph m Đ y là cơ sở điều iện để chúng ta ứng ụng RS vào
hai th c
liệu gi o ục nhằm giải quyết vấn đề cấp thiết hiện nay hi sinh vi n
lựa ch n môn h c ở m i h c ỳ

nh 2-1 Sự tƣơng đ ng giữa hệ thống RS v hệ thống ự đoán

- Trang 8 -

t qu học t p.


2.1.2.

Gi i thu t dự đoán cơ sở

C ch đơn giản đầu ti n mà chúng ta c thể ự đo n đƣợc đ là phƣơng ph p
t nh trung ình toàn cục (Glo al Average) [29 Thật vậy phƣơng ph p này t nh
trung ình tất cả c c us r đ nh gi tr n tất cả cả c c sản ph m và sau đ lấy gi tr
trung ình này làm gi tr ự đo n cho tập iểm tra
Phƣơng ph p thứ hai đƣợc cải tiến hơn trong nh m c c phƣơng ph p ự đo n
cơ sở là Us r v rag phƣơng ph p này c ng gần giống với phƣơng ph p trung
ình toàn cục nhƣng đƣợc cải iến hơn mô hình toàn cục là t nh gi tr trung ình
tr n từng ngƣời ng th o công thức sau:

pˆ s 




s,i , p D train s  s

s, i, p  D

train

p



s  s

(1)

Tƣơng tự nhƣ t nh gi tr trung ình tr n từng us r phƣơng ph p tiếp cận thứ
a là It m v rag phƣơng ph p này lại t nh trung ình tr n từng it m.

pˆ i 
2.1.3.



s , i ', p D train i '  i

s, i', p  D

train

p




i'  i

(2)

Gi i thu t Matrix Factorization

nh 2-2

h nh ph n r ma tr n

Phân rã X thành 2 ma trận nhỏ hơn W và H [Kor n t al
thể xây dựng lại X từ 2 ma trận con này.

Với W và H là 2 ma trận con.

- Trang 9 -

sao cho ta có


W 

S K

, H 

I K


K: là số nhân tố tiềm n (latent factors) K << |S|; K << |I |.
Công thức dự đo n và đo độ l i là:
K

pˆ si   wsk hik  ws hiT
k 1

(3)

1
2
ˆ


p

p

si
si
| D test | s,i,pD test

RMSE 

(4)

Trong giải thuật ph n rã ma trận (Matrix actorization) chúng ta thực hiện
huấn luyện sao cho tìm đƣợc hai ma trận W và H đƣợc tối ƣu theo một điều kiện
nào đ (chẳng hạn nhƣ RMS ). Phƣơng ph p thực hiện là chúng ta hởi tạo ma

trận với c c gi tr trong ma trận này là ngẫu nhi n th o ph n phối chu n với độ
lệch chu n là
. Ở đ y hàm mục tiêu cần tối ƣu là:
2
e
 si

 MF 

( s , i , p )D train

(5)
K

Với:

e  ( psi  pˆ si )  ( psi   wsk hik ) 2
2
si

2

k 1

(7)

 2
esi  2esihik  2( psi  pˆ si )hik
wsk


(8)

 2
esi  2esi wsk  2( psi  pˆ si ) wsk
hik

(9)

Tiếp th o chúng ta cần giảm thiểu tối đa độ l i này và cập nhật gi tr lại cho
Wsk và Hik đƣợc l p đi l p lại (tối ƣu hóa bằng kỹ thuật stochastic gradient descent
[Bottou, 2004]).

w'sk  wsk  

 2
esi  wsk  2esi hik  wsk  2 ( psi  pˆ si )hik
wsk

- Trang 10 -

(10)


h' ik  hik  

 2
esi  hik  2esi wsk  hik  2 ( p si  pˆ si ) wsk
hik

(11)


: tốc độ h c (learning rate). Sau quá trình tối ƣu ta c đƣợc giá tr của W và
H.
“H c v t” xảy ra khi mô hình dự đo n cho ết quả tốt trên d liệu huấn luyện,
nhƣng cho ết quả kém trên d liệu thử nghiệm Để giảm bớt việc h c v t ngƣời ta
thêm vào hàm mục tiêu một đại lƣợng g i là Regularization.
Hàm mục tiêu cần tối ƣu



BMF





( s ,i , p )D

y giờ là:



K

train

( psi    sk hik ) 2   W
k 1

2

F

 H

2
F


(12)

Và giá tr W và H sau tối ƣu với hàm mục tiêu mới ta đƣợc:

w' sk  wsk   (2esi hik  wsk )

(13)

h'ik  hik   (2esi wsk  hik )

(14)

Sau hi c đƣợc gi tr gra i nt chúng ta cập nhật lại gi tr của Wsk và Hik
với tốc độ h c là .
Chúng ta l p lại qu trình cập nhật gi tr của W và H cho đến hi đạt độ l i
chấp nhận ɛ ho c l p lại đến số lần qui đ nh trƣớc.
Quá trình dự đo n: Sau qu trình huấn luyện ta đƣợc ma trận W và H đã tối
ƣu thì qu trình ự đo n đƣợc thực hiện Qu trình ự đo n đƣợc t nh và iểu i n
nhƣ sau:
K

pˆ si   wsk hik

k 1

2.1.4.

(15)

i i thu t iased – Matrix Factorization

ựa vào c c h i niệm cơ sở của giải thuật Matrix actorization (M ) và th m
gi tr lệch ( ias) vào M để đƣợc giải thuật M [
Để ự đo n đƣợc năng lực
của sinh vi n s cho môn h c i đƣợc iểu i n với công thức sau:

- Trang 11 -


K

pˆ si    bs  bi   sk hik
k 1

(16)

Với gi tr là gi tr trung ình toàn cục là năng lực trung ình của tất cả c c
sinh vi n tr n tất cả c c môn h c với tập
liệu huấn luyện.

 ( s, i, p )  D

trainP




train

D

(17)

Gi tr s là độ lệch của sinh vi n (là gi tr lệch trung ình của năng lực một
sinh vi n so với gi tr trung ình toàn cục).

b

s

 (s, i, p)  D


train

(s, i, p)  D

s  s ( p   )

train



s  s


(18)

Gi tr i là độ lệch của môn h c (là gi tr lệch trung ình của y u cầu môn
h c so với gi tr trung ình toàn cục).

b

i

( s, i, p)  D


train

(s, i, p)  D

i  i ( p   )

train



i  i

(19)

o c thay đổi gi tr lệch của sinh vi n và môn h c n n độ l i c ng thay đổi
th o công thức sau:




BMF





( s ,i , p )D train



K

( psi    bs  bi   sk hik ) 2   W
k 1

2
F

 H

2
F

 bs2  bi2



(20)

Cập nhật gi tr
mới ta đƣợc:

i,bs

giá tr để cập nhật W và H sau tối ƣu với hàm mục tiêu

      esi

bs s  bs s    esi    bs s ;

bi i   bi i     esi    bi i  ;

- Trang 12 -

(21)
(22)
(23)


×