Tải bản đầy đủ (.pdf) (79 trang)

Khóa luận tốt nghiệp khai khoán dữ liệu: Xây dựng hệ thống hỗ trợ tự đánh giá năng lực trực tuyến bằng giải thuật luật kết hợp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.53 MB, 79 trang )

TRƯỜNG ĐẠI HỌC AN GIANG
KHOA KỸ THUẬT - CÔNG NGHỆ - MÔI TRƯỜNG

LÊ NGUYÊN ĐỨC – DTH092032
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH CỬ NHÂN TIN HỌC

XÂY DỰNG HỆ THỐNG HỖ TRỢ TỰ ĐÁNH
GIÁ NĂNG LỰC TRỰC TUYẾN BẰNG GIẢI
THUẬT LUẬT KẾT HỢP

An Giang, 04/2013


TRƯỜNG ĐẠI HỌC AN GIANG
KHOA KỸ THUẬT - CÔNG NGHỆ - MÔI TRƯỜNG

LÊ NGUYÊN ĐỨC – DTH092032
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH CỬ NHÂN TIN HỌC

XÂY DỰNG HỆ THỐNG HỖ TRỢ TỰ ĐÁNH
GIÁ NĂNG LỰC TRỰC TUYẾN BẰNG GIẢI
THUẬT LUẬT KẾT HỢP

Giảng viên hướng dẫn:
Huỳnh Lý Thanh Nhàn

An Giang, 04/2013


NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN


.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................

Giảng viên hướng dẫn
(Ký và ghi rõ họ tên)

Nội dung nhận xét:
-

Đồng ý hay không đồng ý cho sinh viên báo cáo KLTN; Nếu không đồng ý cần ghi rõ lý do.
Kết quả đạt được so với yêu cầu;
Ý kiến khác (nếu có)


TRƯỜNG ĐẠI HỌC AN GIANG
KHOA KỸ THUẬT - CÔNG NGHỆ - MÔI TRƯỜNG

THỰC TẬP CUỐI KHÓA NGÀNH CỬ NHÂN TIN HỌC


XÂY DỰNG HỆ THỐNG HỖ TRỢ TỰ ĐÁNH
GIÁ NĂNG LỰC TRỰC TUYẾN BẰNG GIẢI
THUẬT LUẬT KẾT HỢP
Đơn vị thực tập: Khoa Kỹ thuật – Công nghệ - Môi trường

Giảng viên hướng dẫn:

Sinh viên thực hiện:

Huỳnh Lý Thanh Nhàn

Lê Nguyên Đức – DTH092032

An Giang, 04/2013


TRƯỜNG ĐẠI HỌC AN GIANG
KHOA KỸ THUẬT - CÔNG NGHỆ - MÔI TRƯỜNG

THỰC TẬP CUỐI KHÓA NGÀNH CỬ NHÂN TIN HỌC

XÂY DỰNG HỆ THỐNG HỖ TRỢ TỰ ĐÁNH
GIÁ NĂNG LỰC TRỰC TUYẾN BẰNG GIẢI
THUẬT LUẬT KẾT HỢP
Đơn vị thực tập: Khoa Kỹ thuật – Công nghệ - Môi trường

Giảng viên hướng dẫn:

Sinh viên thực hiện:


Huỳnh Lý Thanh Nhàn

Lê Nguyên Đức – DTH092032

An Giang, 04/2013


NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN
M-TT-05

.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................

Giảng viên hướng dẫn
(Ký và ghi rõ họ tên)

Nội dung nhận xét:
-


Đồng ý hay không đồng ý cho sinh viên báo cáo TTCK; Nếu không đồng ý cần ghi rõ lý do.
Kết quả đạt được so với yêu cầu;
Ý kiến khác (nếu có)


LỜI CẢM ƠN
Em chân thành cảm ơn:
Ban giám hiệu trường Đại học An Giang, Ban chủ nhiệm khoa Kỹ thuật – Công
nghệ - Môi trường, Bộ môn Tin học cùng quý thầy cô trong khoa Kỹ thuật – Công
nghệ - Môi trường đã tạo điều kiện cho em được học tập và thực hiện khóa luận này.
Quý thầy cô đã trực tiếp cũng như gián tiếp cung cấp các kiến thức nền tảng cho
em thực hiện khóa luận.
Phòng đào tạo, các thầy cô trong khoa đã tạo điều kiện thuận lợi cho em trong
việc thu thập dữ liệu (cơ sở dữ liệu điểm của sinh viên, chương trình đào tạo các
ngành) cũng như phân tích và thực hiện đề tài.
Thầy Huỳnh Lý Thanh Nhàn, người hướng dẫn trực tiếp đã đóng góp ý kiến và
giúp đỡ em trong suốt quá trình thực hiện đề tài.
Anh Nguyễn Văn Vũ đã khích lệ, động viên, giúp đỡ em trong quá trình thực
hiện khóa luận này.
Xin cảm ơn gia đình đã tạo điều kiện cho em an tâm học tập, cảm ơn các bạn lớp
DH10TH đã chia sẽ giúp đỡ trong quá trình học tập những năm qua. Đặc biệt gởi lời
cảm ơn đến các bạn thuộc nhóm Profit đã gắn bó và tận tình giúp đỡ trong suốt 4 năm
học.
Tuy đã nỗ lực để hoàn thành luận văn nhưng sai sót là không thể tránh khỏi kính
mong quý thầy cô thông cảm và tận tình chỉ bảo những sai sót đó. Mong nhận được ý
kiến đóng góp của quý thầy cô và các bạn.
Sinh viên Lê Nguyên Đức


TÓM TẮT

Hiện trường Đại học An Giang đang áp dụng hình thức đào tạo học chế tín chỉ.
Theo hình thức đào tạo này, sinh viên đều phải tự đăng ký học phần ở mỗi học kỳ. Để
có thể ra quyết định lựa chọn môn tự chọn cho mình sinh viên thường nhờ đến sự tư
vấn của cố vấn học tập. Muốn đánh giá được năng lực và đưa ra lời tư vấn phù hợp
cho từng sinh viên, cố vấn học tập phải xem xét kết quả học tập (điểm) của sinh viên ở
những học kỳ trước rồi đưa ra lời tư vấn. Để làm được việc này hệ thống cố vấn học
tập phải vô cùng vất vã, sinh viên phải chờ đợi được tư vấn. Một thực tế nữa, điểm số
của sinh viên đều được lưu trữ lại. Vậy tại sao không xây dựng một hệ thống cũng dựa
vào điểm của sinh viên rồi làm công việc tư vấn thay cho cố vấn học tập. Làm được
như thế sẽ hỗ trợ rất nhiều cho hoạt động của hệ thống cố vấn học tập của trường và
tiết kiệm được thời gian chờ đợi được tư vấn của sinh viên.
Để giải quyết bài toán mang tính chất suy diễn, dự đoán dựa vào lịch sử như thế
này thì luật kết hợp là lựa chọn hợp lý nhất. Vì thế đề tài sẽ sử dụng các giải thuật khai
phá luật kết hợp cụ thể là charm (tìm tập đóng/tập đóng tối đại) và apriori (sinh luật).
Sử dụng kết quả thu được từ charm và apriori tiến hành dự đoán cho từng sinh viên
cuối cùng sử dụng kết quả dự đoán này để tư vấn cho từng sinh viên cụ thể trong môi
trường web.
Kết quả thực nghiệm cho thấy charm hiệu quả hơn apriori và fp-growth trên tập
dữ liệu lớn. Mặt khác, phương pháp mà đề tài đã áp dụng cũng cho kết quả khá khả
quan, luật tìm được có độ chính xác tương đối cao.


MỤC LỤC
Danh sách hình ............................................................................................................ iii
Danh sách bảng .............................................................................................................. v
Danh sách ký hiệu ......................................................................................................... vi
Danh sách từ viết tắt ....................................................................................................vii
Chương 1: Tổng quan ................................................................................................... 1
I. Đặt vấn đề .............................................................................................................. 1
II. Lịch sử giải quyết vấn đề ...................................................................................... 1

III. Phạm vi của đề tài ................................................................................................. 2
IV. Hướng giải quyết vấn đề ....................................................................................... 2
Chương 2: Cơ sở lý thuyết ............................................................................................ 4
I. Tổng quan về khai phá tri thức và khai phá dữ liệu .............................................. 4
1. Phát hiện tri thức và khai phá dữ liệu ................................................................. 4
2. Quá trình phát hiện tri thức từ cơ sở dữ liệu ...................................................... 6
3. Khai phá dữ liệu ................................................................................................. 8
II. Luật kết hợp trong khai phá dữ liệu .................................................................... 12
1. Các định nghĩa về luật kết hợp ......................................................................... 12
2. Một số hướng tiếp cận trong khai phá luật kết hợp .......................................... 14
III. Tìm siêu tham số (search hyper parameters) ....................................................... 14
Chương 3: Giải thuật charm ...................................................................................... 16
I. Giới thiệu giải thuật ............................................................................................. 16
II. Tìm tập mục thường xuyên ................................................................................. 16
1. Các khái niệm liên quan ................................................................................... 17
2. Tìm tập phổ biến đóng trên it-tree .................................................................... 20
Chương 4: Độ đo hấp dẫn khách quan của luật kết hợp ......................................... 27
I. Giới thiệu ............................................................................................................. 27
II. Các tiêu chí đánh giá ........................................................................................... 27
1. Biến thiên giá trị ............................................................................................... 27
2. Tình huống cá biệt ............................................................................................ 28
3. Hiện tượng nghịch lý ........................................................................................ 29
4. Đếm được ......................................................................................................... 29
5. Đa dạng hóa ...................................................................................................... 29
6. Khả năng phân biệt ........................................................................................... 29
i


7. Có thể giải thích ............................................................................................... 29
8. Không cân bằng ................................................................................................ 29

9. Thuộc tính lợi ích ............................................................................................. 30
10. Biến thiên giá trị ............................................................................................... 30
Chương 5: Xây dựng hệ thống hỗ trợ tự đánh giá năng lực trực tuyến bằng
giải thuật luật kết hợp ................................................................................................. 31
I. Tổng quan hệ thống ............................................................................................. 31
1. Phân hệ khai phá ............................................................................................... 31
2. Phân hệ hỗ trợ đánh giá .................................................................................... 31
II. Mô tả chi tiết phân hệ khai phá ........................................................................... 32
1. Nhập chương trình đào tạo từ tập tin excel ...................................................... 32
2. Nhập điểm từ tập tin excel và chuyển đổi điểm ............................................... 34
3. Chuyển đổi và tích hợp dữ liệu giao tác ........................................................... 36
4. Tìm tập đóng tối đại từ cơ sở dữ liệu giao tác .................................................. 43
5. Sinh luật từ tập đóng tối đại ............................................................................. 44
6. Tìm siêu tham số .............................................................................................. 47
7. Đánh giá độ hấp dẫn của luật ........................................................................... 53
8. Tạo tài khoản và dự đoán ................................................................................. 54
9. Đồng bộ dữ liệu ................................................................................................ 55
III. Mô tả phân hệ hỗ trợ đánh giá ............................................................................. 56
Chương 6: Đánh giá ba giải thuật apriori, fp-growth và charm từ kết quả
thực nghiệm .................................................................................................................. 57
I. So sánh ba giải thuật ............................................................................................ 57
1. Trường hợp tập dữ liệu lớn............................................................................... 57
2. Trường hợp tập dữ liệu nhỏ .............................................................................. 58
3. Nhận xét và giải thích kết quả .......................................................................... 59
II. Chọn giải thuật cho đề tài .................................................................................... 60
Kết luận và kiến nghị .................................................................................................. 61
Phụ lục ..............................................................................................................................
Tài liệu tham khảo ...........................................................................................................

ii



DANH SÁCH HÌNH
Hình 2.1. Bảng số lượng sinh viên bậc Đại học và Cao đẳng Việt Nam giai đoạn
2000 -2011 ....................................................................................................................... 4
Hình 2.2. Biểu đồ số lượng sinh viên bậc Đại học và Cao đẳng Việt Nam giai
đoạn 2000 -2011 .............................................................................................................. 5
Hình 2.3. Quá trình khám phá tri thức từ cơ sở dữ liệu .................................................. 6
Hình 2.4. Kiến trúc của hệ thống khai phá dữ liệu ....................................................... 11
Hình 2.5. Quá trình khai phá dữ liệu ............................................................................ 11
Hình 3.1. Lớp thứ 1 của IT-Tree................................................................................... 18
Hình 3.2. Lớp thứ 2 của IT-Tree................................................................................... 19
Hình 3.3. Lớp thứ 3 của IT-Tree................................................................................... 19
Hình 3.4. Lớp thứ 4 của IT-Tree................................................................................... 20
Hình 3.5. Diffset P(tiền tố) và các lớp thành viên X, Y ............................................... 22
Hình 3.6. IT-Tree dùng Diffset với minsup là 50%...................................................... 22
Hình 3.7. Minh họa xây dựng IT-Tree bằng charm với minsup là 50% ...................... 25
Hình 4.1. Bản số của luật kết hợp XY ...................................................................... 27
Hình 4.2. Biến thiên “tốt” của giá trị hấp dẫn .............................................................. 28
Hình 5.1. Mô hình tổng quan hệ thống hỗ trợ tự đánh giá năng lực trực tuyến ........... 31
Hình 5.2. Quy trình khai phá ........................................................................................ 32
Hình 5.3. Cấu trúc tập tin excel chứa chương trình đào tạo ......................................... 33
Hình 5.4. Danh sách môn học thu được sau khi nhập chương trình đào tạo của
ngành Đại học Việt Nam học ........................................................................................ 34
Hình 5.5. Danh sách ngành học thu được sau khi nhập chương trình đào tạo của
ngành Đại học Việt Nam học ........................................................................................ 34
Hình 5.6. Chương trình đào tạo của ngành Đại học Việt Nam học trong phân hệ
khai phá.......................................................................................................................... 34
Hình 5.7. Kết quả nhập và chuyển điểm của ngành Đại học Việt Nam học từ tập
tin excel.......................................................................................................................... 35

Hình 5.8. Kết quả chuyển mã môn học......................................................................... 36
Hình 5.9. Kết quả chuyển mã nhóm ngành của ngành Đại học Việt Nam học ............ 37
Hình 5.10. Tập dữ liệu điểm phục vụ cho việc tổng hợp cơ sở dữ liệu giao tác
ngành Đại học Việt Nam học học kỳ 2.......................................................................... 42
Hình 5.11. Cơ sở dữ liệu giao tác của ngành Đại học Việt Nam học ở học kỳ 2 ......... 43
Hình 5.12. Quy trình tìm tập đóng ................................................................................ 43
Hình 5.13. Mô hình một tập đóng tối đại...................................................................... 45
Hình 5.14. Tập đóng tối đại được chia thành tập tiền đề (các ô màu trắng) và tập
kết luận (các ô màu đỏ) ................................................................................................. 45
Hình 5.15. Các ứng viên ở tập tiền (vùng màu xanh) đề và tập kết luận (vùng màu
đỏ) .................................................................................................................................. 46
iii


Hình 5.16. Mô hình xử lý sinh và chọn luật ................................................................. 47
Hình 5.17. Tập luật của ngành Đại học Việt Nam học (học kỳ 2) ............................... 47
Hình 5.18. Tập luật, tập Ssupp và tập Cconf ..................................................................... 49
Hình 5.19. Tập luật và độ chính xác khi supp là 20% và conf là 50% ......................... 49
Hình 5.20. Tập luật và độ chính xác khi supp là 20% và conf là 60% ......................... 50
Hình 5.21. Tập luật và độ chính xác khi supp là 30% và conf là 50% ......................... 50
Hình 5.22. Tập luật và độ chính xác khi supp là 30% và conf là 60% ......................... 51
Hình 5.23. Cặp tham số tìm được ................................................................................. 51
Hình 5.24. Kết quả tìm siêu tham số cho tập luật của ngành Đại học Việt Nam học
ở học kỳ 2 ...................................................................................................................... 52
Hình 5.25. Tập luật thỏa cặp tham số tìm được (10% - 100%) .................................... 52
Hình 5.26. Tập luật ở học kỳ 2 của ngành Đại học Việt Nam học sau khi đánh giá
độ hấp dẫn ...................................................................................................................... 53
Hình 5.27. Kết quả tư vấn ngành Đại học Việt Nam học ở học kỳ 2 ........................... 55
Hình 5.28. Mô hình trao đổi dữ liệu giữa phân hệ khai phá và phân hệ tư vấn ........... 55
Hình 5.29. Kết quả tư vấn cho một tài khoản sinh viên ngành Đại học Việt Nam

học ở học kỳ 2................................................................................................................ 56
Hình 5.30. Kết quả tư vấn cho một sinh viên tại phân hệ hỗ trợ đánh giá ................... 56
Hình 6.1. Giao diện Sequential Pattern Mining Framework ........................................ 57
Hình 6.2. Biểu đồ sự phụ thuộc của thời gian vào giải thuật trên tập dữ liệu lớn
(đơn vị tính mili giây) .................................................................................................... 58
Hình 6.3. Biểu đồ sự phụ thuộc của thời gian vào giải thuật trên tập dữ liệu nhỏ
(đơn vị tính mili giây) .................................................................................................... 59

iv


DANH SÁCH BẢNG
Bảng 2.1. Các nhóm kỹ thuật khai phá dữ liệu ............................................................... 9
Bảng 3.1. Các ký hiệu dùng trong thuật toán tìm tập mục thường xuyên ................... 16
Bảng 3.2. Cơ sở dữ liệu minh họa xây dựng IT-Tree ................................................... 17
Bảng 3.3. Định dạng dữ liệu dọc của các mục (Items) ................................................. 17
Bảng 5.1. Danh sách môn học (khóa: 1, không khóa: 0) .............................................. 38
Bảng 5.2. Danh sách các môn học trong chương trình đào tạo của ngành Đại học
Việt Nam học trong học kỳ 1 và 2 (tự chọn: 1,bắt buộc: 0) .......................................... 40
Bảng 5.3. Nội dung tập SV1 .......................................................................................... 41
Bảng 5.4. Tập luật khi kết ứng viên của tập tiền đề và tập kiểm tra ............................. 46
Bảng 6.1. Thông số của tập dữ liệu lớn và độ hỗ trợ nhỏ nhất ..................................... 57
Bảng 6.2. Kết quả thực nghiệm trên tập dữ liệu lớn ..................................................... 58
Bảng 6.3. Thông số của tập dữ liệu nhỏ và độ hỗ trợ nhỏ nhất .................................... 58
Bảng 6.4. Kết quả thực nghiệm trên tập dữ liệu nhỏ .................................................... 59
Bảng 6.5. So sánh giải thuật Apriori, FP-Growth và Charm ........................................ 60
Bảng 7.1. Kết quả thực nghiệm với dữ liệu của ngành Đại học Việt Nam học từ
học kỳ 2 đến học kỳ 5 .................................................................................................... 61

v



DANH SÁCH KÝ HIỆU
Ck
Conf
D
FCI
FI
Lk
MFI
minconf
minsup
Supp
T
TID

Tập ứng cử viên k mục
Độ tin cậy
Cơ sở dữ liệu giao tác
Tập phổ biến đóng
Tập mục thường xuyên
Tập mục thường xuyên k mục
Tập phổ biến đóng tối đại
Độ tin cậy nhỏ nhất
Độ hỗ trợ nhỏ nhất
Độ hỗ trợ thông tin
Là tập hợp các tid
Là định danh của mỗi giao tác trong cơ sở dữ liệu và tid này là duy
nhất


vi


DANH SÁCH TỪ VIẾT TẮT
Cơ sở dữ liệu
Knowledge Discovery and Data Mining
Mã số sinh viên
NNLCBCCN Những nguyên lý cơ bản của chủ nghĩa
GDQP-AN
Giáo dục quốc phòng – an ninh
VH
Văn hóa
ĐNA
Đông Nam Á
TT
Thực tập
NH – KS
Nhà hàng – khách sạn
PPNCKH
Phương pháp nghiên cứu khoa học
ĐLCMCĐCS Đường lối cách mạng của Đảng cộng sản
KN
Kỹ năng
CSDL
KDD
MSSV

vii



Khóa luận tốt nghiệp đại học ngành Cử nhân Tin học.
Đề tài: Xây dựng hệ thống hỗ trợ tự đánh giá năng lực trực tuyến bằng giải thuật luật kết hợp.

CHƯƠNG 1: TỔNG QUAN
I.

ĐẶT VẤN ĐỀ
Kể từ năm học 2009 – 2010, trường Đại học An Giang chuyển từ đào tạo theo
niên chế sang đào tạo theo học chế tín chỉ [1]. Đi theo sự thay đổi đó là nhu cầu
được tư vấn trong việc chọn môn học tự chọn nào cho phù hợp với từng sinh viên
cụ thể là rất cần thiết của sinh viên. Theo một cách thông thường thì việc tư vấn
này sẽ do cố vấn học tập hoặc giáo viên chủ nhiệm phụ trách. Để đưa ra lời
khuyên hợp lý cho sinh viên các cố vấn học tập phải xem xét kết quả học tập của
sinh viên mà mình đang tư vấn sau đó mới đưa ra lời khuyên cho sinh viên đó. Mà
mối quan hệ tư vấn giữa cố vấn học tập và sinh viên không phải là mối quan hệ 11 mà là mối quan hệ 1-nhiều. Vì thế công việc của cố vấn học tập, giáo viên chủ
nhiệm trong việc tư vấn cho sinh viên là khá cực nhọc và tốn nhiều thời gian.
Một thực tế trong năm học 2011-2012, Đại học An Giang có 19 sinh viên bị
buộc thôi học một năm [11] và 127 sinh viên bị cảnh báo học vụ [10], số lượng
sinh viên buộc thôi học này ngày càng tăng và thường tập trung vào những sinh
viên năm thứ ba và năm cuối. Những sinh viên học ở năm thứ nhất và năm thứ hai
thường ít bị buộc thôi học do chưa có nhiều môn lựa chọn. Khi sinh viên bước vào
năm học thứ ba hoặc thứ tư thì số lượng môn lựa chọn ngày càng nhiều, nếu lựa
chọn những môn học không phù hợp với từng sinh viên thì sẽ dẫn đến kết quả xấu
và dần dần ảnh hưởng đến kết quả của toàn khóa học. Với kết quả bị buộc thôi học
ở những sinh viên năm ba và năm cuối là một tổn thất lớn của sinh viên, gia đình
và còn là gánh nặng của nhà trường, của toàn xã hội. Thật vậy, khi sinh viên bị rớt
một môn học nào đó thì sinh viên đó sẽ phải học lại. Việc học lại rất mất thời gian,
công sức của sinh viên, hao tốn thêm về vấn đề tài chính của gia đình sinh viên đó
và làm giảm chất lượng đào tạo chung của toàn trường.
Theo từng học kỳ, theo từng năm học, điểm của tất cả sinh viên học tập tại

trường đều được lưu trữ lại. Do đó, kho dữ liệu này là vô cùng to lớn. Vậy vấn đề
đặt ra là kho dữ liệu khổng lồ này có giúp ích gì trong việc hỗ trợ cho hệ thống cố
vấn học tập của trường. Cụ thể là nó có giúp giảm tải công việc tư vấn của các cố
vấn học tập hay không? Đây cũng chính là lý do em chọn và thực hiện đề tài “Xây
dựng hệ thống hỗ trợ tự đánh giá năng lực trực tuyến bằng giải thuật luật kết
hợp”.

II. LỊCH SỬ GIẢI QUYẾT VẤN ĐỀ
Đây không phải là vấn đề mới. Năm 2008, trong khóa luận tốt nghiệp của
mình thầy Huỳnh Lý Thanh Nhàn cũng đã giải quyết vấn đề tương tự là dự đoán
kết quả học tập của sinh viên cũng bằng giải thuật luật kết hợp [6]. Đề tài của thầy
Huỳnh Lý Thanh Nhàn đã xây dựng thành công phần mềm sinh luật và tiến hành
dự đoán kết quả học tập của sinh viên dựa vào luật tìm được [6]. Tuy nhiên, vẫn
còn một số vấn đề chưa được giải quyết: Một là, chưa áp dụng chương trình đào
tạo theo học chế tín chỉ (vì khi xây dựng đề tài trường vẫn còn đào tạo theo niên
chế) điều này làm cho đề tài không còn phù hợp với nhu cầu hiện nay nữa. Hai là,
chưa thử nghiệm và so sánh các giải thuật để tìm ra giải thuật phù hợp với yêu cầu
mà đề tài thực hiện, chưa thể áp dụng thực tế. Ba là, chưa có thao tác đánh giá tri
Sinh viên thực hiện: Lê Nguyên Đức – MSSV: DTH092032

Trang 1


Khóa luận tốt nghiệp đại học ngành Cử nhân Tin học.
Đề tài: Xây dựng hệ thống hỗ trợ tự đánh giá năng lực trực tuyến bằng giải thuật luật kết hợp.

thức mà cụ thể là việc đo độ hấp dẫn của luật. Bốn là, việc xây dựng website dự
đoán kết quả học tập cho sinh viên trường Đại học An Giang còn nằm trong hướng
phát triển của đề tài. Và phạm vi của đề tài chỉ áp dụng trong Khoa Kỹ thuật –
Công nghệ - Môi trường.

III. PHẠM VI CỦA ĐỀ TÀI
Trong đề tài sẽ tập trung trình bày một cách khái quát về khai phá tri thức và
khai khá dữ liệu.
Dựa trên các lý thuyết đã tổng hợp tiến hành nghiên cứu sâu hơn về luật kết
hợp.
Cuối cùng là xây dựng một hệ thống để khai phá luật kết hợp dựa trên cơ sở
dữ liệu điểm của trường để giúp cho sinh viên đánh giá năng lực của mình. Đánh
giá năng lực là xét xem với điểm hiện tại của sinh viên thì thích hợp để học những
môn tự chọn nào. Từ đó đưa ra sự tư vấn cho sinh viên trong việc lựa chọn môn
học tự chọn nào trong lúc đăng ký học phần.
Thông thường trước khi sinh viên đăng ký học phần ở mỗi học kỳ sinh viên
phải đứng trước việc quyết định chọn học môn nào và không học môn nào giữa
các môn tự chọn. Để đi đến quyết định cuối cùng sinh viên thực hiện ít nhất 4
công việc sau:
- Tự đánh giá năng lực của mình xem phù hợp để học môn tự chọn nào và không
phù hợp với môn tự chọn nào? (Có thể tham khao ý kiến của cố vấn học tập).
- Xét sở trường, sở đoản, sở thích của mình là gì?
- Điều kiện và hoàn cảnh gia đình có phù hợp không?
- Môn học có được mở hay không?
Hệ thống mà đề tài hướng đến xây dựng sẽ giúp giải quyết công việc thứ nhất
mà sinh viên phải thực hiện như đã trình bày. Tức là giúp sinh viên đánh giá năng
lực của sinh viên xem phù hợp hay không phù hợp với từng môn học tự chọn trong
từng học kỳ chứ không ra quyết định thay cho sinh viên. Đều này phần nào đã giải
thích được chữ “tự” trong tên đề tài. Tự ở đây có nghĩa là sinh viên phải tự ra
quyết định, tự chọn môn học và tự chịu trách nhiệm về quyết định của mình lựa
chọn.
IV. HƯỚNG GIẢI QUYẾT VẤN ĐỀ
Sử dụng thuật toán khai phá luật kết hợp để sinh ra các luật kết hợp. Tiến hành
đánh giá độ hấp dẫn của luật trước khi sử dụng các luật đó làm cơ sở để tư vấn cho
sinh viên trong việc chọn môn học tự chọn phù hợp với khả năng của sinh viên.

Tuy nhiên, quá trình tìm luật tương đối phức tạp và tốn thời gian. Nên đề tài sẽ
chia làm 2 phần thực hiện đó là: phần sinh luật từ cơ sở dữ liệu và phần sử dụng
kết quả của phần 1 để tư vấn cho sinh viên. Do quá trình thực hiện để sinh ra luật
và đánh giá luật tốn nhiều thời gian và phức tạp nên được thực hiện ở môi trường
ứng dụng application ở máy tính cục bộ (phân hệ khai phá). Sau khi tìm được luật
sẽ đưa chúng lên internet dưới dạng một website để phục vụ cho sinh viên tự đánh
giá năng lực của mình (phân hệ hỗ trợ đánh giá). Đánh giá xem khả năng của sinh

Sinh viên thực hiện: Lê Nguyên Đức – MSSV: DTH092032

Trang 2


Khóa luận tốt nghiệp đại học ngành Cử nhân Tin học.
Đề tài: Xây dựng hệ thống hỗ trợ tự đánh giá năng lực trực tuyến bằng giải thuật luật kết hợp.

viên phù hợp với môn tự chọn nào và không phù hợp với môn tự chọn nào. Việc
sử dụng thêm phân hệ tư vấn sẽ giúp tư vấn cho nhiều sinh viên trong một thời
gian ngắn và phần nào giải thích yếu tố “trực tuyến” của đề tài.

Sinh viên thực hiện: Lê Nguyên Đức – MSSV: DTH092032

Trang 3


Khóa luận tốt nghiệp đại học ngành Cử nhân Tin học.
Đề tài: Xây dựng hệ thống hỗ trợ tự đánh giá năng lực trực tuyến bằng giải thuật luật kết hợp.

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
I. TỔNG QUAN VỀ KHAI PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU

1. PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU
Trong thời đại công nghệ thông tin hiện nay, nếu không muốn nói là tất cả thì
hầu như các cơ quan, tổ chức, doanh nghiệp đều xây dựng kho lưu trữ dữ liệu cho
riêng mình. Theo thời gian thì các kho dữ liệu đó ngày càng trở nên khổng lồ. Nó
khổng lồ đến nỗi người ta phải dùng đến đơn vị tính là terabytes để đo đếm lượng
thông tin đó. Và sau đây là một vài ví dụ minh chứng cho sự bùng nổ thông tin
trong lưu trữ và cần phân tích:
Cơ sở dữ liệu khoa học thiên văn: Europe’s Very Long Baseline
interforometry (VLBI) có 16 kính thiên văn dữ liệu mỗi kính thu được trong 1 giây
là 1 Gigabits người ta tiến hành phân tích dữ liệu trong 25 ngày thu được nên dữ
liệu cần phân tích trong 25 ngày là quá lớn, nó lên đến vài Terabytes [5].
Cơ sở dữ liệu truyền thông: AT&T lưu trữ 26 Terabytes thông tin khách hàng
để phục vụ cho kế hoạch đầu tư và phát triển. Còn France telecom có đến 30
Terabytes lưu trữ thông tin khách hàng [5].
Dữ liệu world wide: Google tiếp nhận hơn 4 tỉ yêu cầu tìm kiếm mỗi ngày lưu
trữ hàng trăm Terabytes dữ liệu [5].
Dữ liệu giáo dục Việt Nam: Chỉ tính ở 2 bậc học là bậc Cao đẳng và bậc Đại
học số lượng sinh viên lên đến con số 2.208.100 sinh viên vào năm 2011 [18]. Và
hằng năm, số lượng sinh viên không ngừng gia tăng. Sự gia tăng này dễ dàng nhận
thấy từ hình 2.1 và hình 2.2.

Hình 2.1. Bảng số lượng sinh viên bậc Đại học và Cao đẳng Việt Nam giai
đoạn 2000 -2011

Sinh viên thực hiện: Lê Nguyên Đức – MSSV: DTH092032

Trang 4


Khóa luận tốt nghiệp đại học ngành Cử nhân Tin học.

Đề tài: Xây dựng hệ thống hỗ trợ tự đánh giá năng lực trực tuyến bằng giải thuật luật kết hợp.

Hình 2.2. Biểu đồ số lượng sinh viên bậc Đại học và Cao đẳng Việt Nam giai
đoạn 2000 -2011
Với hơn 2 triệu sinh viên thì rõ ràng cơ sở dữ liệu chứa thông tin cá nhân cũng
như điểm của sinh viên trong suốt quá trình học tập là không hề nhỏ. Tất nhiên, xu
hướng cơ sở dữ liệu để lưu trữ những thông tin của sinh viên ngày càng lớn theo
thời gian là tất yếu. Nhất là đối với cơ sở dữ liệu điểm được lưu trữ lại là vô cùng
quý, nếu được khai phá sẽ hỗ trợ rất nhiều trong lĩnh vực giáo dục.
Khi lưu trữ dữ lượng dữ liệu lớn như vậy thì chắc chắn rằng những dữ liệu đó
bản thân nó phải mang những giá trị nhất định. Nhưng theo thống kê thì chỉ
khoảng từ 5% đến 10% của dữ liệu khổng lồ đó được phân tích, số dữ liệu còn lại
họ không biết phải làm gì với nó nhưng họ vẫn quyết định thu thập và lưu trữ cho
dù rất tốn kém. Sở dĩ họ chấp nhận đánh đổi để làm điều này vì họ sợ bỏ qua dữ
liệu quan trọng đến khi cần thì không có. Đặc biệt trong thời đại bùng nổ công
nghệ thông tin hiện nay thì người ta cần dùng nguồn dữ liệu khổng lồ đó để hỗ trợ
cho việc ra quyết định trong kinh doanh, bán hàng,… Vì thế để tìm ra câu trả lời
mang tính chất định tính từ kho dữ liệu khổng lồ đó thì cách khai thác và quản trị
dữ liệu truyền thống tỏ ra không hiệu quả. Cũng vì lý do đó đã làm phát triển một
khuynh hướng kỹ thuật mới đó là kỹ thuật phát hiện tri thức và khai phá dữ liệu
(KDD - Knowledge Discovery and Data Mining).
Quá trình phát hiện tri thức trong cơ sở dữ liệu là quá trình nhận biết các mẫu
hay các mô hình dữ liệu trong cơ sở dữ liệu với các tính năng: hợp thức, mới, khả
ích và có thể hiểu được [7].
Khai thác dữ liệu là một bước trong qui trình phát hiện tri thức gồm có các
thuật toán khai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quả tính
toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu [7].

Sinh viên thực hiện: Lê Nguyên Đức – MSSV: DTH092032


Trang 5


Khóa luận tốt nghiệp đại học ngành Cử nhân Tin học.
Đề tài: Xây dựng hệ thống hỗ trợ tự đánh giá năng lực trực tuyến bằng giải thuật luật kết hợp.

2. QUÁ TRÌNH PHÁT HIỆN TRI THỨC TỪ CƠ SỞ DỮ LIỆU
Quá trình phát hiện tri thức bao gồm các bước sau:
Làm sạch dữ liệu (Data cleaning): Quá trình loại bỏ dữ liệu nhiễu, dữ liệu
không thích hợp.
Tích hợp dữ liệu (Data integration): Quá trình tích hợp dữ liệu từ nhiều nguồn
dữ liệu khác nhau.
Chọn dữ liệu (Data selection): Chọn dữ liệu liên quan trực tiếp đến nhiệm vụ
khai phá.
Chuyển đổi dữ liệu (Data transformation): Chuyển đổi dữ liệu về dạng có thể
khai phá trực tiếp được từ những dạng dữ liệu này.
Khai phá dữ liệu (Data mining): Sử dụng các kỹ thuật, thuật toán khai phá để
tìm mẫu điển hình trong cơ sở dữ liệu, các thông tin có ích cho người dùng.
Đánh giá mẫu tri thức (Pattern evaluation): Đánh giá độ hấp dẫn, độ lợi ích
của thông tin thu được.
Trình diễn dữ liệu (Knowledge presentatoin): Trình bày kết quả tri thức thu
được dưới dạng hình ảnh, biểu đồ hay dạng nào đó mà người dùng có thể hiểu
được.

Hình 2.3. Quá trình khám phá tri thức từ cơ sở dữ liệu
2.1.Xác định vấn đề
Đây là vấn đề mang tính chất định hướng. Xác định được lĩnh vực yêu cầu
phát hiện tri thức và xây dựng bài toán tổng quát. Trong thực tế các cơ sở dữ
liệu được phân hóa theo từng chuyên môn khác nhau như: y tế, bán hàng, kinh
doanh, tài chính,… Với mỗi tri thức phát hiện được có thể có giá trị trong lĩnh

vực này nhưng lại không có giá trị trong lĩnh vực khác. Vì thế công việc xác
định được lĩnh vực và định nghĩa được bài toán tổng quát ban đầu là cơ sở định
hướng cho giai đoạn “thu thập và tiền xử lý dữ liệu” tiếp theo.
2.2.Thu thập và tiền xử lý dữ liệu
Thông thường dữ liệu trong các cơ sở dữ liệu nhiều thuộc tính nhưng không
thuần nhất, không đầy đủ, có nhiều lỗi và các giá trị đặc biệt. Vì thu thập và tiền
xử lý dữ liệu là giai đoạn vô cùng quan trọng trong quá trình phát hiện tri thức

Sinh viên thực hiện: Lê Nguyên Đức – MSSV: DTH092032

Trang 6


Khóa luận tốt nghiệp đại học ngành Cử nhân Tin học.
Đề tài: Xây dựng hệ thống hỗ trợ tự đánh giá năng lực trực tuyến bằng giải thuật luật kết hợp.

từ cơ sở dữ liệu. Giai đoạn này chiếm từ 70% đến 80% giá thành của bài toán
khai phá dữ liệu.
Người ta chia giai đoạn thu thập và tiền xử lý dữ liệu thành các giai đoạn
nhỏ hơn: Chọn lọc dữ liệu, đây là bước chọn lọc dữ liệu có liên quan từ nhiều
nguồn dữ liệu khác nhau. Những dữ liệu được chọn lọc phải chứa nhiều thông
tin liên quan tới lĩnh vực cần thiết đã xác định trong giai đoạn xác định vấn đề.
Làm giàu dữ liệu, là quá trình chuyển đổi tích hợp dữ liệu từ nhiều nguồn khác
nhau thành một kho thống nhất. Các dạng dữ liệu khác nhau cũng được tính
toán và quy đổi thành một dạng thống nhất, giúp cho quá trình phân tích được
dễ dàng. Đôi khi phải xây dựng các thuộc tính mới từ các thuộc tính sẵn có. Mã
hóa dữ liệu, việc mã hóa dữ liệu là sử dụng các phương pháp chọn lọc, làm
sạch, làm giàu dữ liệu với dạng các hàm, tiện ích… Nhằm tự động hóa trong
việc kết xuất, di chuyển dữ liệu. Các hàm, chương trình tiện ích đó được sử
dụng khi muốn làm tươi dữ liệu để phục vụ cho việc khai thác. Làm sạch dữ

liệu, dữ liệu được thu thập từ nhiều nguồn khác nhau nên dẫn đến tình trạng dữ
liệu không đồng nhất. Vì vậy, cần có phương pháp đưa những dữ liệu không
đồng nhất ấy về cùng một dạng để phục vụ cho khai thác. Nhiệm vụ làm sạch
dữ liệu bao gồm:

- Điều hòa dữ liệu: Là làm nhất quán dữ liệu không thống nhất của dữ liệu đã
thu thập được từ nhiều nguồn khác nhau. Phương pháp thường sử dụng là
khử những dòng dữ liệu trùng lặp và thống nhất các ký hiệu. Ví dụ trong cơ
sở dữ liệu bán hàng của một siêu thị thì trong quá trình cập nhật thông tin của
khách hàng thì phát sinh những dòng dữ liệu của 1 khách hàng nhưng làm
cho chúng ta lầm tưởng đó là dữ liệu của nhiều khách hàng khác nhau.

- Xử lý dữ liệu khuyết: Trong một cơ sở dữ liệu thường có nhiều đến rất nhiều
thuộc tính và hiện tượng khuyết một hay nhiều thuộc tính trong một hay
nhiều dòng dữ liệu là điều chắc chắn sẽ gặp phải trong mọi cơ sở dữ liệu.
Phương pháp có thể áp dụng khắc phục trong trường hợp này là bỏ qua dòng
bị khuyết dữ liệu, điền dữ liệu bị khuyết bằng tay, điền giá trị trung bình của
các thuộc tính cho những ô bị khuyết, dùng một hằng chung để điền cho
những chỗ bị khuyết dữ liệu,…

- Xử lý dữ liệu nhiễu và các ngoại lệ: Dữ liệu bị nhiễu có thể là do ngẫu nhiên
hay cũng có thể là có chứa giá trị bất thường. Để làm sạch dữ liệu nhiễu
người ta thường làm trơn nhiễu và dùng các giải thuật để phát hiện các ngoại
lệ gây ra nhiễu dữ liệu để xử lý.
2.3.Khai thác dữ liệu
Sau khi đã có được dữ liệu từ giai đoạn “thu thập và tiền xử lý dữ liệu” sẽ
tiến hành xác định bài toán khai thác dữ liệu, lựa chọn phương pháp khai thác
phù hợp với dữ liệu hiện có và tách ra những tri thức cần thiết.
Thường thì, bài toán khai thác dữ liệu có hai dạng: Các bài toán mang tính
chất mô tả - đưa ra những tính chất chung nhất của dữ liệu và các bài toán khai

thác dự báo – suy diễn trên dữ liệu. Tùy theo yêu cầu của bài toán mà chọn
phương pháp khai thác dữ liệu thích hợp.

Sinh viên thực hiện: Lê Nguyên Đức – MSSV: DTH092032

Trang 7


Khóa luận tốt nghiệp đại học ngành Cử nhân Tin học.
Đề tài: Xây dựng hệ thống hỗ trợ tự đánh giá năng lực trực tuyến bằng giải thuật luật kết hợp.

2.4.Minh họa và đánh giá tri thức
Tri thức khai thác được sẽ được minh họa dưới dạng báo cáo, hình ảnh,
biểu đồ,… phục vụ cho nhiều mục đích khác nhau.
Không phải các tri thức khai thác được đều tốt hay đều xấu nên việc đánh
giá tri thức thu được là rất cần thiết. Việc đánh giá này giúp tạo ra những quyết
định chiến lược.
2.5.Đưa kết quả vào thực tế
Kết quả của quá trình khai thác và đánh giá tri thức có thể được đưa vào
ứng dụng trong nhiều lĩnh vực khác nhau. Kết quả đó có thể là dự báo cũng có
thể là mô tả nên chúng có thể được đưa vào các hệ thống ra quyết định hoặc hỗ
trợ ra quyết định một cách tự động hóa.
Quá trình phát hiện tri thức có thể được tiến hành theo các bước trên. Ngoài ra
cũng có thể được nâng cấp cải tiến, thay đổi cho phù hợp với tình hình thực tế.
3. KHAI PHÁ DỮ LIỆU
3.1.Các quan niệm về khai phá dữ liệu
Khai phá dữ liệu là tập hợp các thuật toán nhằm chiết xuất những thông tin
có ích từ kho dữ liệu khổng lồ [7].
Khai phá dữ liệu giống như quá trình tìm ra và mô tả mẫu dữ liệu. Dữ liệu
như là một tập hợp của các vật hay sự kiện, còn đầu ra của quá trình khai phá

dữ liệu như là những dự báo của các vật hay sự kiện mới [7].
Vậy nhiệm vụ của khai phá dữ liệu và phát hiện tri thức là tìm ra các mẫu
mô hình dữ liệu hữu ích bị che khuất trong kho cơ sở dữ liệu khổng lồ.
3.2.Nhiệm vụ của khai phá dữ liệu
Trong các kho dữ liệu lớn thì đòi hỏi việc thu thập, xử lý dữ liệu phát hiện
tri thức phải được tự động hóa tuy nhiên giai đoạn cuối cùng là phân tích kết
quả thu được luôn do con người đảm nhiệm.
Sau đây là những nhiệm vụ cơ bản nhất của khai phá dữ liệu:
Phân cụm, phân loại, phân nhóm, phân lớp: Nhiệm vụ là trả lời cho câu hỏi
“Một mẫu dữ liệu mới thu thập sẽ thuộc về lớp nào?”. Quá trình này được thực
hiện một cách tự động.
Khai phá luật kết hợp: Tìm ra các luật kết hợp có dạng XY. Tức là tìm ra
mối quan hệ của các thuộc tính có trong tập X và các thuộc tính có trong tập Y.
Xem xét sự hỗ trợ giữa các thuộc tính với nhau.
Lập mô hình dự báo: Có hai nhiệm vụ hoặc phân lớp 1 mẫu dữ liệu vào một
hay nhiều lớp đã được xác định trước, hoặc là sử dụng các trường trong cơ sở
dữ liệu để dự báo sự xuất hiện hay không xuất hiện các trường hợp khác.
Phân tích các đối tượng ngoài cuộc: Đôi khi trong cơ sở dữ liệu xuất hiện
các đối tượng không thuộc mô hình dữ liệu đã định sẵn. Theo một cách thông
thường thì xem các đối tượng đó là dữ liệu nhiễu và chúng sẽ bị loại bỏ. Tuy
nhiên trong một số trường hợp thì dữ liệu nhiễu đó đem lại tri thức bất ngờ và
Sinh viên thực hiện: Lê Nguyên Đức – MSSV: DTH092032

Trang 8


Khóa luận tốt nghiệp đại học ngành Cử nhân Tin học.
Đề tài: Xây dựng hệ thống hỗ trợ tự đánh giá năng lực trực tuyến bằng giải thuật luật kết hợp.

quý giá cho người sử dụng. Sự phân tích các dữ liệu ngoài cuộc được gọi là

khai phá các đối tượng ngoài cuộc. Và đây là một số phương pháp phát hiện đối
tượng ngoài cuộc: kiểm tra mang tính thống kê trên cơ sở phân phối dữ liệu hay
mô hình xác suất dữ liệu, dùng các độ đo khoảng cách để phát hiện các đối
tượng ngoài cuộc (các đối tượng ngoài cuộc có khoảng cách khá lớn đến bất cứ
cụm nào), kiểm tra đặc trưng của đối tượng ngoài cuộc so với đặc trưng của các
cụm trong mô hình dữ liệu.
Phân tích sự tiến hóa: Phân tích sự tiến hóa thực hiện việc mô tả và mô
hình hóa các quy luật hay khuynh hướng của những đối tượng mà ứng xử của
chúng thay đổi theo thời gian [7].
3.3.Triển khai khai phá dữ liệu
Việc triển khai khai phá dữ liệu được thực hiện qua 5 bước:
Bước 1: Xác định mục tiêu cần khai phá.
Bước 2: Chuẩn bị dữ liệu phục vụ cho việc khai phá (Thu thập, tiền xử lý,
chuyển đổi dữ liệu).
Bước 3: Khai phá dữ liệu (Chọn giải thuật thích hợp để khai phá dữ liệu).
Bước 4: Phân tích đánh giá kết quả thu được (Xem tri thức đó có gì thú vị hay
không?).
Bước 5: Tiêu hóa tri thức thu được (Đề ra kế hoạch khai thác các thông tin
mới).
3.4.Các kỹ thuật khai phá dữ liệu
Kỹ thuật khai phá dữ liệu được chia làm 2 nhóm chính.
Bảng 2.1. Các nhóm kỹ thuật khai phá dữ liệu

Nhiệm vụ

Các kỹ thuật
trong nhóm

Nhóm kỹ thuật khai phá dữ liệu
Mô tả

Dự đoán
Đưa ra các dự
Mô tả về tính chất hoặc các đặc tính chung đoán dựa trên các
của dữ liệu trong cơ sở dữ liệu.
suy diễn từ dữ
liệu hiện thời.
Phân cụm (clustering), Tóm tắt
Phân lớp
(sumerization), Trực quan hóa
(classification),
(visualiztation), Phân tích sự phát triển và Hồi quy
độ lệch (evolution and deviation analyst), (regession)…
Luật kết hợp (assocition rules),…

Trong đó có một số phương pháp thông dụng nhất là: phân cụm dữ liệu, phân
lớp dữ liệu, phương pháp hồi quy và khai phá luật kết hợp.
3.4.1. Phương pháp phân cụm dữ liệu
Nhóm các dữ liệu tương đồng về mặt thuộc tính của dữ liệu vào một
cụm sao cho tính chất của những cụm khác nhau là khác nhau. Phân cụm
là một ví dụ điển hình cho quá trình học mà không có thầy. Phân cụm

Sinh viên thực hiện: Lê Nguyên Đức – MSSV: DTH092032

Trang 9


Khóa luận tốt nghiệp đại học ngành Cử nhân Tin học.
Đề tài: Xây dựng hệ thống hỗ trợ tự đánh giá năng lực trực tuyến bằng giải thuật luật kết hợp.

không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Phân

cụm là quá trình học bằng quan sát (learning by observation) trong khi
phân lớp là quá trình học bằng ví dụ (learning by example). Trong
phương pháp phân cụm chúng ta không thể biết trước được kết quả thu
được sẽ như thế nào.
Phân cụm dữ liệu được dùng nhiều cho các ứng dụng phân đoạn thị
trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang
web,…Ngoài ra, phân cụm còn được sử dụng trong giai đoạn tiền xử lý
của các thuật toán khai phá dữ liệu khác.
3.4.2. Phương pháp phân lớp dữ liệu
Phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu từ các mô hình
xây dựng sẵn. Vì thế quá trình phân lớp dữ liệu thường trải qua 2 bước:
Bước 1: Xây dựng mô hình dữ liệu dùng cho việc huấn luyện
(training dataset). Việc xây dựng được tiến hành như sau: các dữ liệu
tương đồng với nhau về thuộc tính của chúng được gom lại chung 1
lớp và gán nhãn cho các lớp đó. Các lớp phải được xây dựng trước
khi xây dựng mô hình.
Bước 2: Sử dụng mô hình để phân lớp dữ liệu. Trước hết phải tính
độ chính xác của dữ liệu nếu độ chính xác này là chấp nhận được thì
dữ liệu được giữ lại để sử dụng trong việc dự đoán nhãn cho các mẫu
tin trong tương lai.
3.4.3. Phương pháp hồi quy
Nếu phương pháp phân lớp dữ liệu dự đoán trên dữ liệu rời rạc thì
phương pháp hồi quy dự đoán trên dữ liệu liên tục.
Hồi quy là một hàm học ánh xạ mục dữ liệu thành một biến dự đoán
có giá trị thực [7].
3.4.4. Phương pháp khai phá luật kết hợp
Mục tiêu của phương pháp này là tìm ra mối liên hệ giữa các thuộc
tính trong cơ sở dữ liệu. Mẫu tri thức đầu ra là luật kết hợp với độ hỗ trợ
thông tin và độ tin cậy của luật. Ví dụ: Khách hàng mua đường  mua
sữa với độ hỗ trợ và độ tin cậy là 50%.

Quá trình khai phá luật kết hợp được thực hiện qua 2 bước:
Bước 1: Tìm tất cả các tập phổ biến. Tập phổ biến là tập thỏa độ hỗ
trợ cực tiểu.
Bước 2: Sinh ra các luật thỏa độ hỗ trợ và độ tin cậy cực tiểu cho
trước.
Phương pháp này tỏ ra khá hiệu quả trong các lĩnh vực maketing có
chủ đích, phân tích quyết định, quản lý kinh doanh,…
3.5.Kiến trúc của hệ thống khai phá dữ liệu
Như đã trình bày trong mục 2 của mục I chương này ta thấy rằng các bước
trong quá trình có sự tương tác lẫn nhau giữa người sử dụng hoặc cơ sở dữ liệu

Sinh viên thực hiện: Lê Nguyên Đức – MSSV: DTH092032

Trang 10


×