Tải bản đầy đủ (.pdf) (125 trang)

Ứng dụng khai phá dữ liệu trong việc dự đoán kết quả tốt nghiệp trường cao đẳng du lịch vũng tàu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.75 MB, 125 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM
---------------------------

NGUYỄN THỊ THUỲ OANH

ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC
DỰ ĐOÁN KẾT QUẢ TỐT NGHIỆP TRƯỜNG
CAO ĐẲNG DU LỊCH VŨNG TÀU

LUẬN VĂN THẠC SĨ
Chuyên ngành : Công nghệ thông tin
Mã số ngành: 60480201

TP. HỒ CHÍ MINH, tháng 6 năm 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM
---------------------------

NGUYỄN THỊ THUỲ OANH

ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC
DỰ ĐOÁN KẾT QUẢ TỐT NGHIỆP TRƯỜNG
CAO ĐẲNG DU LỊCH VŨNG TÀU

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201
CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS.VŨ THANH HIỀN



TP.HỒ CHÍ MINH, tháng 6 năm 2018


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

Cán bộ hướng dẫn khoa học :

TS. Vũ Thanh Hiền

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM
ngày 17 tháng 6 năm 2018
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
Họ và tên

TT

Chức danh Hội đồng

1

PGS.TS Quách Thành Thơ

Chủ tịch

2

PGS.TS Võ Đình Bày


Phản biện 1

3

TS. Nguyễn Duy Hàm

Phản biện 2

4

TS. Nguyễn Thị Thúy Loan

Ủy viên

5

TS. Lê Thị Ngọc Thơ

Ủy viên, Thư ký

Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được
sửa chữa (nếu có).
Chủ tịch Hội đồng đánh giá LV


TRƯỜNG ĐH CÔNG NGHỆ TP. HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

VIỆN ĐÀO TẠO SAU ĐẠI HỌC


Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày 17 tháng 6 năm 2018

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Thị Thuỳ Oanh

Giới tính:

Nữ

Ngày, tháng, năm sinh: 09-07-1988

Nơi sinh: Vũng Tàu

Chuyên ngành: Công nghệ thông tin

MSHV: 1541860020

I- Tên đề tài:
Ứng dụng khai thác dữ liệu vào việc dự đoán kết quả tốt nghiệp tại trường Cao
đẳng Du lịch Vũng Tàu
II- Nhiệm vụ và nội dung:


Tìm hiểu, phân tích hiện trạng chất lượng học tập của sinh viên để đề ra giải pháp
hợp lý trong việc xây dựng và triển khai hệ thống.




Nghiên cứu lý thuyết về KTDL, lựa chọn phương pháp KTDL thích hợp



Nghiên cứu các thuật toán của cây quyết định, từ đó phân tích, đánh giá, triển
khai và áp dụng thuật toán C4.5, CART và SVM trong dự báo kết quả.
III- Ngày giao nhiệm vụ: 9/2016
IV- Ngày hoàn thành nhiệm vụ: 6/1018
V- Cán bộ hướng dẫn: TS.Vũ Thanh Hiền

CÁN BỘ HƯỚNG DẪN

KHOA QUẢN LÝ CHUYÊN NGÀNH


LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả
nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình
nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.
Học viên thực hiện Luận văn

Nguyễn Thị Thùy Oanh

--1--


LỜI CẢM ƠN
Đầu tiên tôi xin bày tỏ lòng cảm ơn sâu sắc tới thầy TS. Vũ Thanh Hiền là người

hướng dẫn khoa học đã giúp tôi định hướng, hỗ trợ tôi về mọi mặt trong thời gian qua
và cung cấp tài liệu khoa học giúp tôi hoàn thành luận văn này.
Tôi cũng xin được gởi lời cảm ơn đến các Thầy, Cô lớp Cao học trường Công
Nghệ Hutech TP. HCM đã giảng dạy và cung cấp những kiến thức quý báu cho tôi
trong suốt quá trình học tập và nghiên cứu tại trường
Do thời gian có hạn và chưa có nhiều kinh nghiệm trong nghiên cứu nên luận văn
này không thể tránh khỏi những hạn chế và thiếu sót. Tôi kính mong nhận được sự góp
ý, bổ sung ý kiến của quý Thầy, Cô và các bạn học viên.
Tôi xin chân thành cảm ơn.

Nguyễn Thị Thùy Oanh

--2--


TÓM TẮT
Ngày nay công nghệ thông tin luôn phát triển và không ngừng đổi mới, lượng dữ
liệu thu thập được ngày càng nhiều đòi hỏi chúng ta phải rút trích ra những thông tin
tiềm ẩn nhằm đưa ra các quyết định đúng đắn trong công việc. Do đó ứng dụng của
lĩnh vực khai thác dữ liệu được phát triển giúp người sử dụng thu được những tri thức
hữu ích từ những cơ sở dữ liệu hoặc các kho dữ liệu khổng lồ, trong đó đã có nhiều
công trình nghiên cứu trong các lĩnh vực của đời sống như: tài chính, ngân hàng,
marketing,bảo hiểm, giáo dục, y tế và an ninh…v.v.
Trong việc ứng dụng khai thác dữ liệu vào nhiều lĩnh vực khác nhau, khai phá dữ
liệu trong lĩnh vực giáo dục đang dần trở thành công cụ hữu ích và có tính khoa học
cao, giúp các nhà nhà quản lý giáo dục có được những tri thức quý giá phục vụ cho
công tác quản lý của mình và sinh viên cũng có thể sử dụng những kết quả hữu ích từ
quá trình chắt lọc dữ liệu trong khai phá dữ liệu, từ đó nhằm nâng cao chất lượng đào
tạo của nhà trường và kết quả học tập của sinh viên.
Từ nhu cầu thực tế, luận văn “ Ứng dụng khai thác dữ liệu vào việc dự đoán

kết quả học tập của sinh viên trường Cao đẳng Du lịch Vũng Tàu” đã ứng dụng
các thuật toán trong việc đưa ra những quyết định hỗ trợ dự đoán kết quả học tập của
sinh viên, hỗ trợ nhằm nâng cao chất lượng hiệu quả hoạt động giáo dục và đào tạo của
nhà trường

--3--


ABSTRACT
Today, information technology is constantly evolving and constantly innovating,
and the amount of data collected increasingly requires us to extract the hidden
information to make the right decisions in the workplace. Thus the application of the
field of data mining has helped users gain useful knowledge from the database or the
huge data warehouse. There are many research projects in areas such as finance,
banking, marketing, insurance, education, health and security, etc.
In the application of data mining in many different areas of life, data mining in
the education sector is gradually becoming a useful and scientific tool for educators.
There is valuable knowledge for management and students can also use the results of
data mining in the data mining to improve the quality of training. School and student
learning outcomes.
From the practical needs, the dissertation "Application of data mining to predict
the learning outcomes of students at Vung Tau Tourism College" has applied
algorithms in making decision according to improve the quality of education and
training activities of the school.

--4--


MỤC LỤC
CHƯƠNG 1: TỔNG QUAN .......................................................................................... 11

1.1. LÝ DO CHỌN ĐỀ TÀI: ....................................................................................... 11
1.2. MỤC TIÊU NGHIÊN CỨU ĐỀ TÀI .................................................................... 12
1.2.1. Mục tiêu tổng quát: ..................................................................................... 12
1.2.2. Mục tiêu cụ thể ........................................................................................... 12
1.3. ĐỐI TƯỢNG, PHẠM VI VÀ HƯỚNG NGHIÊN CỨU ..................................... 13
1.3.1. Đối tượng nghiên cứu ................................................................................. 13
1.3.2. Phạm vi nghiên cứu .................................................................................... 13
1.3.3. Phương pháp nghiên cứu ............................................................................ 13
1.4. Ý NGHĨA KHOA HỌC THỰC TIỄN .................................................................. 14
1.4.1. Về mặt khoa học ......................................................................................... 14
1.4.2. Về mặt thực tiễn ......................................................................................... 14
1.5. BỐ CỤC LUẬN VĂN .......................................................................................... 14
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ............................................................................... 15
2.1. TỔNG QUAN VỀ KỸ THUẬT KHAI THÁC DỮ LIỆU .................................... 15
2.1.1. Khái niệm khám phá tri thức và khai thác dữ liệu ..................................... 15
2.1.2. Các ứng dụng của khai phá dữ liệu ............................................................ 16
2.1.3. Các bước trong quá trình phát hiện tri thức................................................ 17
2.2. NHỮNG THÁCH THỨC TRONG KỸ THUẬT KTDL...................................... 19
2.2.1. Các vấn đề về cơ sở dữ liệu ........................................................................ 20
2.2.2. Một số vấn đề khác ..................................................................................... 22
2.3. CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU ......................................................... 23
2.4. CÁC VẤN ĐỀ LIÊN QUAN ĐẾN PHÂN LỚP VÀ DỰ ĐOÁN ........................ 25
2.4.1. Chuẩn bị dữ liệu cho việc phân lớp ............................................................ 25
--5--


2.4.2. So sánh các mô hình phân lớp. ................................................................... 41
2.4.3. Các phương pháp đánh giá độ chính xác. ................................................... 42
2.5. KỸ THUẬT KTDL SỬ DỤNG CÂY QUYẾT ĐỊNH ......................................... 43
2.5.1. Cây quyết định ............................................................................................ 43

2.5.2. Các thuật toán khai phá dữ liệu bằng cây quyết định ................................. 45
2.5.3. Cắt tỉa cây quyết định ................................................................................. 61
2.5.4. Đánh giá và kết luận về các thuật toán xây dựng cây quyết định .............. 63
CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG ...................................................................... 66
3.1. GIỚI THIỆU SƠ LƯỢC TRƯỜNG CĐ DU LỊCH VŨNG TÀU ........................ 66
3.1.1. Giới thiệu chung ......................................................................................... 66
3.1.2. Chương trình khung các ngành học ............................................................ 67
3.1.3. Cách tính điểm, xếp hạng, tốt nghiệp và hạ bậc ......................................... 67
3.1.4. Quy trình quản lý điểm ............................................................................... 67
3.2. THIẾT KẾ HỆ THỐNG VÀ XÂY DỰNG ỨNG DỤNG .................................... 68
3.2.1. Giới thiệu bài toán ...................................................................................... 68
3.2.2. Mô hình cấu trúc hệ thống .......................................................................... 69
3.2.3. Mô tả đầu vào/ đầu ra ................................................................................. 70
3.2.4. Phương pháp xây dựng ............................................................................... 70
3.2.5. Thu thập dữ liệu- Tiền xử lý dữ liệu .......................................................... 70
3.2.6. Cấu trúc lưu trữ........................................................................................... 71
3.2.7. Xây dựng hệ thống dự đoán ....................................................................... 82
3.3. Thực nghiệm và đánh giá kết quả.......................................................................... 82
3.3.1. Dữ liệu thực nghiệm ................................................................................... 82
3.3.2. Công cụ thực hiện ....................................................................................... 82
3.3.3. Kiến trúc thực tế của hệ thống .................................................................... 83
3.3.4. Sơ đồ giao tác giữa các lớp trong hệ thống ................................................ 84
3.3.5. Kết quả của các lần chạy thực nghiệm. ...................................................... 84
--6--


3.3.6. Các phương pháp đánh giá độ sai số .......................................................... 92
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................... 98
4.1. Kết quả thực hiện của luận văn ............................................................................. 98
4.2. Hạn chế .................................................................................................................. 98

4.3. Hướng phát triển. ................................................................................................... 99

--7--


DANH MỤC CÁC TỪ VIẾT TẮT
Ký hiệu

Ý nghĩa

CSDL

CƠ SỞ DỮ LIỆU

CNTT

CÔNG NGHỆ THÔNG TIN

KTDL

KHAI THÁC DỮ LIỆU

KDD

KHÁM PHÁ DỮ LIỆU

TN

TỐT NGHIỆP


--8--


DANH MỤC CÁC BẢNG
Bảng 3-1: Thông tin mã từng ngành học theo từng hệ .................................................. 71
Bảng 3-2: Thông tin mã môn học của tất cả các ngành ................................................ 72
Bảng 3-3: Bảng tỉ lệ dự đoán đúng kết quả ĐẬU/RỚT TN với số lượng 10 môn học... 84
Bảng 3-4: Bảng tỉ lệ dự đoán đúng kết quả ĐẬU/RỚT TN với số lượng 20 môn học... 85
Bảng 3-5:Bảng tỉ lệ dự đoán đúng kết quả ĐẬU/RỚT TN với số lượng 30 môn học.... 86
Bảng 3-6: Bảng tỉ lệ dự đoán đúng kết quả ĐẬU/RỚT TN với tất cả môn học............. 87
Bảng 3-7: Bảng tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với số lượng 10 môn học .. 88
Bảng 3-8: Bảng tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với số lượng 20 môn học .. 89
Bảng 3-9:Bảng tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với số lượng 30 môn học ... 90
Bảng 3-10:Bảng tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với tất cả môn học .......... 91
Bảng 3-11: Độ chính xác của XẾP LOẠI TN với số lượng 10 môn học........................ 93
Bảng 3-12: Độ chính xác của XẾP LOẠI TN với số lượng 20 môn học........................ 93
Bảng 3-13:Độ chính xác của XẾP LOẠI TN với số lượng 30 môn học......................... 94
Bảng 3-14:Độ chính xác của XẾP LOẠI TN với tất cả môn học ................................... 94
Bảng 3-15:Độ bao phủ của XẾP LOẠI TN với số lượng 10 môn học ........................... 94
Bảng 3-16: Độ bao phủ của XẾP LOẠI TN với số lượng 20 môn học .......................... 94
Bảng 3-17: Độ bao phủ của XẾP LOẠI TN với số lượng 30 môn học .......................... 95
Bảng 3-18: Độ bao phủ của XẾP LOẠI TN với số lượng 30 môn học .......................... 95
Bảng 3-19: Độ chính xác của kết quả ĐẬU/RỚT TN với số lượng 10 môn học ........... 96
Bảng 3-20: Độ chính xác của kết quả ĐẬU/RỚT TN với số lượng 20 môn học ........... 96
Bảng 3-21: Độ chính xác của kết quả ĐẬU/RỚT TN với số lượng 30 môn học ........... 96
Bảng 3-22: Độ chính xác của kết quả ĐẬU/RỚT TN với số lượng tất cả môn học ...... 96
Bảng 3-23: Độ bao phủ của kết quả ĐẬU/RỚT TN với số lượng 10 môn học .............. 97
Bảng 3-24: Độ bao phủ của kết quả ĐẬU/RỚT TN với số lượng 20 môn học .............. 97
Bảng 3-25: Độ bao phủ của kết quả ĐẬU/RỚT TN với số lượng 30 môn học .............. 97
--9--



DANH MỤC CÁC HÌNH

Hình 2-1: Khai phá dữ liệu - Tìm kiếm tri thức từ dữ liệu được khai thác .................... 15
Hình 2-2: Các bước trong quá trình phát hiện tri thức ................................................. 18
Hình 2-3: Các bước tiền xử lý dữ liệu ........................................................................... 26
Hình 2-4: Phân cụm dữ liệu khách hàng dựa trên thông tin địa chỉ ............................. 29
Hình 2-5: Dữ liệu bán hàng ........................................................................................... 38
Hình 2-6: Dữ liệu tổng hợp ............................................................................................ 38
Hình 2-7: Phương pháp Cross- Validation .................................................................... 43
Hình 2-8: Cấu trúc cây quyết định ................................................................................. 44
Hình 2-9: Cây quyết định phân lớp mức lương ............................................................. 45
Hình 2-10: Mô hình Support Vector Machine ............................................................... 54
Hình 2-11: Mô hình phân hai lớp SVM ......................................................................... 56
Hình 3-1: Quy trình quản lý điểm .................................................................................. 67
Hình 3-2: Mô hình cấu trúc hệ thống dự báo xếp loại tốt nghiệp ................................. 70
Hình 3-3:Mô hình kiến trúc hệ thống dự báo kết quả tốt nghiệp................................... 83
Hình 3-4: Giao tác giữa các lớp trong hệ thống ........................................................... 84
Hình 3-5: Tỉ lệ dự đoán đúng kết quả Đậu/Rớt TN với số lượng 10 môn học............... 85
Hình 3-6: Tỉ lệ dự đoán đúng kết quả Đậu/Rớt TN với số lượng 20 môn học............... 86
Hình 3-7:Tỉ lệ dự đoán đúng kết quả Đậu/Rớt TN với số lượng 30 môn học................ 87
Hình 3-8: Tỉ lệ dự đoán đúng kết quả Đậu/Rớt TN với tất cả môn học......................... 88
Hình 3-9: Tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với số lượng 10 môn học ........... 89
Hình 3-10: Tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với số lượng 20 môn học ......... 90
Hình 3-11: Tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với số lượng 30 môn học ......... 91
Hình 3-12:Tỉ lệ dự đoán đúng kết quả XẾP LOẠI TN với tất cả môn học .................... 92

--10--



CHƯƠNG 1:

TỔNG QUAN

1.1. LÝ DO CHỌN ĐỀ TÀI:
Trong kỉ nguyên kinh tế tri thức, hội nhập quốc tế sâu sắc về tất cả các lĩnh vực,
lĩnh vực giáo dục cần được quan tâm và đầu tư đúng mức. Những sản phẩm công nghệ
thông tin đang được sử dụng trong các trường học để cải thiện hiệu quả việc quản lý và
chất lượng đào tạo của nhà trường ngày càng phổ biến.
Bên cạnh đó với thực tế hiện nay các trường Cao đẳng Trung cấp lại gặp nhiều
khó khăn trong công tác tuyển sinh, do đó yếu tố về đội ngũ giáo viên, cơ sở vật chất
và trong đó quan trọng là chất lượng đào tạo để khẳng định thương hiệu Trường là một
trong những việc làm cần thiết và quan trọng.
Chất lượng đào tạo được đánh giá rõ nhất từ kết quả học tập của sinh viên, việc
kiểm tra đánh giá này không chỉ là mục đích đánh giá kết quả quá trình học của người
học mà còn là nguồn thông tin phản hồi, giúp giáo viên nắm được chất lượng, phương
pháp giảng dạy, để từ đó có những điều chỉnh thích hợp cho công tác giảng dạy của
mình.
Vì vậy, việc đánh giá kết quả học tập của sinh viên có mối quan hệ mật thiết với
quá trình giảng dạy của giáo viên. Hiện nay, đa số sinh viên bậc cao đẳng trung cấp có
chất lượng đầu vào thấp, các sinh viên ít chịu khó tư duy, sáng tạo. Ngược lại, yêu cầu
chất lượng đầu ra của sinh viên ra trường ngày càng cao. Một câu hỏi dặt ra ở đây là
bao nhiêu sinh viên đạt được kết quả học tập đúng với chất lượng kiến thức các em đạt
được? Do vậy, làm thế nào để đánh giá được kết quả học tập của sinh viên một cách
trung thực, chính xác, đầy đủ những kiến thức mà người học tiếp thu? Làm thế nào để
có phương pháp đánh giá kết quả học tập của sinh viên thích hợp nhất?
Như vậy, cần phải có những thông tin cụ thể, chính xác, và có tính thuyết phục,
có cơ sở khoa học, để đưa ra các giải pháp kịp thời. Dựa trên cơ sơ đó, luận văn “ Ứng
--11--



dụng khai thác dữ liệu vào việc dự báo kết quả học tập của sinh viên trường CĐN
Du Lịch Vũng Tàu” là công cụ hỗ trợ trong việc đánh giá và dự báo kết quả học tập
của sinh viên dựa vào điểm số kết quả đã đạt được. Và qua ứng dụng này nhằm tiến
hành các thực nghiệm đánh giá mức độ đạt được chính xác của ứng dụng.
1.2. MỤC TIÊU NGHIÊN CỨU ĐỀ TÀI
1.2.1.

Mục tiêu tổng quát:

Mục tiêu mà đề tài hướng đến là xây dựng và áp dụng có hiệu quả việc trợ giúp ra
quyết định trong dự báo kết quả học tập của sinh viên trường cao đẳng Du Lịch Vũng
Tàu. Từ nhu cầu thực tế và dựa vào số liệu điểm nhiều năm của trường với hơn 4.000
record thể hiện thông tin về điểm và các yếu tố giới tính, vùng miền, kết quả tốt
nghiệp… Dựa vào thông thông tin kết quả học tập thu nhập của sinh viên trường, xây
dựng một công cụ có khả năng phân tích, cảnh báo, hỗ trợ các thông tin về kết quả học
tập của sinh viên dựa trên dữ liệu sẵn có. Nhờ đó ứng dụng hỗ trợ cố vấn học tập trong
việc tư vấn, cảnh báo học vụ trong quá trình quản lý sinh viên.
1.2.2.

Mục tiêu cụ thể
Để thực hiện được mục tiêu ý tưởng đề ra, đề tài cần tập trung nghiên cứu và tiến

hành triển khai các các mục tiêu cụ thể sau:
-

Tìm hiểu, phân tích hiện trạng chất lượng học tập của sinh viên để đề ra giải pháp
hợp lý trong việc xây dựng và triển khai hệ thống.


-

Nghiên cứu lý thuyết về KTDL, lựa chọn phương pháp KTDL thích hợp

-

Nghiên cứu các thuật toán của cây quyết định, từ đó phân tích, đánh giá, triển
khai và áp dụng thuật toán C4.5, CART và SVM trong dự báo kết quả.

-

Áp dụng cơ sở lý thuyết làm nền tảng để xây dựng và triển khai ứng dụng dự
đoán kết quả tốt nghiệp của sinh viên.

--12--


1.3. ĐỐI TƯỢNG, PHẠM VI VÀ HƯỚNG NGHIÊN CỨU
1.3.1.

Đối tượng nghiên cứu

Tìm hiểu xếp hạng tốt nghiệp của các sinh viên đã tốt nghiệp các khoá từ năm
2008 đến năm 2017 thông qua bộ dữ liệu thực tế.
Nghiên cứu lý thuyết về KTDL bằng phương pháp cây quyết định sử dụng thuật
toán C4.5.
1.3.2.

Phạm vi nghiên cứu


Các phương pháp phân lớp, ứng dụng các hệ hỗ trợ quyết định vào bài toán.
Nghiên cứu sâu thuật toán C4.5 trong cây quyết định để xây dựng ứng dụng dự
đoán kết quả tốt nghiệp của sinh viên trường Cao đẳng Du Lịch Vũng Tàu.
1.3.3.

Phương pháp nghiên cứu

Luận văn kết hợp 2 phương pháp nghiên cứu là lý thuyết và thực nghiệm
Phương pháp nghiên cứu lý thuyết
-

Tìm hiểu và lựa chọn phương pháp KPDL thích hợp.

-

Tìm hiểu ngôn ngữ lập trình và cơ sở dữ liệu xây dựng ứng dụng

-

Tổng hợp, thu thập các tài liệu liên quan đến việc đánh giá kết quả tốt nghiệp theo
Quy chế đào tạo Cao đẳng
Phương pháp nghiên cứu thực nghiệm:

-

Tổng hợp và phân tích dữ liệu điểm của Trường Cao đẳng Du Lịch Vũng Tàu.

-

Phân tích thiết kế hệ thống, triển khai xây dựng ứng dụng.


-

Thử nghiệm chương trình và đưa ra đánh giá, đề xuất giải pháp

--13--


1.4. Ý NGHĨA KHOA HỌC THỰC TIỄN
1.4.1.
-

Về mặt khoa học

Áp dụng các thuật toán KPDL trên dữ liệu điểm dự đoán kết quả học tập (Dữ liệu
được thu thập tại trường từ 2008 đến nay)

1.4.2.

Về mặt thực tiễn

Luận văn ứng dụng KTDL dự báo kết quả tốt nghiệp của sinh viên đóng góp như
là một công cụ trong việc hỗ trợ đánh giá kết quả quá trình học của từng ngành, từ đó
làm nguồn thông tin phản hồi, giúp đội ngũ giáo viên và nhà trường nắm được chất
lượng học tập của sinh viên để từ đó có những điều chỉnh thích hợp cho công tác giảng
dạy và quản lý của mình nhằm nâng cao, cải thiện hơn nữa chất lượng đào tạo để phù
hợp với điều kiện và năng lực của sinh viên.
1.5. BỐ CỤC LUẬN VĂN
Luận văn gồm 4 chương
CHƯƠNG 1: TỔNG QUAN

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

--14--


CHƯƠNG 2:

CƠ SỞ LÝ THUYẾT

2.1. TỔNG QUAN VỀ KỸ THUẬT KHAI THÁC DỮ LIỆU
2.1.1.

Khái niệm khám phá tri thức và khai thác dữ liệu

Hình 2-1: Khai phá dữ liệu - Tìm kiếm tri thức từ dữ liệu được khai thác
Khai thác dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức trong CSDL.
Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho việc dự báo trong
kinh doanh, các hoạt động sản xuất, ... Khai phá dữ liệu làm giảm chi phí về thời gian
so với phương pháp truyền thống trước kia (ví dụ như phương pháp thống kê).
Sau đây là một số định nghiã mang tính mô tả của nhiều tác giả về khai phá dữ
liệu.
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phương pháp được
dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các
mẫu chưa biết bên trong dữ liệu”

--15--



Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn”
Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình không tầm thường
nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu được”.
“Khám phá tri thức (KDD) là quá trình tìm ra những tri thức, đó là những mẫu
tìm ẩn, trước đó chưa biết và là thông tin hữu ích đáng tin cậy”. Còn khai thác dữ liệu
(KTDL) là một bước quan trọng trong quá trình khám phá tri thức, sử dụng các thuật
toán KTDL chuyên dùng với một số qui định về hiệu quả tính toán chấp nhận được để
chiết xuất ra các mẫu hoặc các mô hình có ích trong dữ liệu. Nói một cách khác, mục
đích của KDD và KTDL chính là tìm ra các mẫu hoặc mô hình đang tồn tại trong các
cơ sở dữ liệu (CSDL) nhưng vẫn còn bị che khuất bởi hàng núi dữ liệu.
Nếu quan niệm tri thức là mối quan hệ của các mẫu giữa các phần tử dữ liệu thì
quá trình phát hiện tri thức chỉ toàn bộ quá trình triết xuất tri thức từ cơ sở dữ liệu,
trong đó trải qua nhiều giai đoạn khác nhau như: Tìm hiểu và phát hiện vấn đề, thu
thập và tiền xử lý dữ liệu, phát hiện tri thức, minh hoạ và đánh giá tri thức đã phát hiện
và đưa kết quả vào thực tế.
Khai thác dữ liệu có những điểm khác nhau về mặt ngữ nghĩa so với phát hiện tri
thức từ cơ sở dữ liệu nhưng thực tế ta thấy khai thác dữ liệu là chỉ một giai đoạn phát
hiện tri thức trong một chuỗi các giai đoạn quá trình phát hiện tri thức trong cơ sở dữ
liệu. Tuy nhiên đây là giai đoạn đóng vai trò chủ chốt và là giai đoạn chính tạo nên tính
đa ngành của phát hiện tri thức trong cơ sở dữ liệu.
2.1.2.

Các ứng dụng của khai phá dữ liệu

Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực:
thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song song và tốc độ cao,
thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu... Đặc biệt phát hiện tri thức
--16--



và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống
kê để mô hình dữ liệu và phát hiện các mẫu, luật ... Ngân hàng dữ liệu (Data
Warehousing) và các công cụ phân tích trực tuyến (OLAP- On Line Analytical
Processing) cũng liên quan rất chặt chẽ với phát hiện tri thức và khai phá dữ liệu.
Khai phá dữ liệu có nhiều ứng dụng trong thực tế, ví dụ như:


Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài chính và
dự báo giá của các loại cổ phiếu trong thị trường chứng khoán. Danh mục vốn và
giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận, ...



Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định trong ngành giáo dục



Điều trị y học và chăm sóc y tế: một số thông tin về chuẩn đoán bệnh lưu trong
các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu chứng bệnh,
chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc, ...)



Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố.



Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm tắt văn
bản,...




Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm
kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số
bệnh di truyền, ...



Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, sự
cố, chất lượng dịch vụ, ...

2.1.3.

Các bước trong quá trình phát hiện tri thức

--17--


Hình 2-2: Các bước trong quá trình phát hiện tri thức
Phát hiện tri thức bao gồm nhiều giai đoạn được lặp đi lặp lại nhiều lần mà không
cần phân biệt từng bước trong quá trình thực hiện.
Giai đoạn 1: Hình thành, xác định và định nghĩa bài toán. Là việc tìm hiểu lĩnh
vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải hoàn thành.
Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các
phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng cùng với bản chất của
dữ liệu.
Giai đoạn 2: Thu thập và tiền xử lý ( xử lý thô). Bước này còn được gọi là tiền xử
lý dữ liệu nhằm loại bỏ nhiễu (dữ liệu dư thừa), làm sạch dữ liệu, xử lý và khắc phục
vấn đề thiếu hoặc thừa dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết. Bước

này thường chiếm nhiều thời gian nhất (bước quan trọng) trong toàn bộ quy trình phát
hiện tri thức.

--18--


Giai đoạn 3: Biến đổi dữ liệu. Chọn lựa một số phương pháp. Phân loại
(Classification), hồi quy (Regression), phân nhóm (Clustering), quy nạp, tổng hợp kết
quả (Summarization).
Giai đoạn 4: Khai phá dữ liệu, rút ra các tri thức. Là khai phá dữ liệu, hay nói
cách khác là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu. Giai đoạn này
rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ và mục đích của khai
phá dữ liệu, dùng phương pháp khai phá nào? Thông thường, các bài toán khai phá dữ
liệu bao gồm: các bài toán mang tính mô tả - đưa ra tính chất chung nhất của dữ liệu,
các bài toán dự báo - bao gồm cả việc phát hiện các suy diễn dựa trên dữ liệu hiện có.
Tuỳ theo bài toán xác định được mà ta lựa chọn các phương pháp khai phá dữ liệu cho
phù hợp.
Giai đoạn 5: Sử dụng các tri thức phát hiện được. Là hiểu tri thức đã tìm được,
đặc biệt là làm sáng tỏ các mô tả và dự đoán. Các bước trên có thể lặp đi lặp lại một số
lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện. Các kết
quả của quá trình phát hiện tri thức có thể được đưa và ứng dụng trong các lĩnh vực
khác nhau. Do các kết quả có thể là các dự đoán hoặc các mô tả nên chúng có thể được
đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá quá trình này.
Tóm lại: Quá trình phát hiện tri thức từ trong kho dữ liệu (KDD – Knowledge
Discovery Database) là quá trình chiết xuất ra tri thức từ kho dữ liệu mà trong đó khai
phá dữ liệu là công đoạn quan trọng nhất.
2.2. NHỮNG THÁCH THỨC TRONG KỸ THUẬT KTDL
Ở đây, ta đưa ra một số khó khăn trong việc nghiên cứu và ứng dụng kỹ thuật
khai phá dữ liệu. Tuy nhiên, thế không có nghĩa là việc giải quyết là hoàn toàn bế tắc
mà chỉ muốn nêu lên rằng để khai phá được dữ liệu không phải đơn giản, mà phải xem

xét cũng như tìm cách giải quyết những vấn đề này. Ta có thể liệt kê một số khó khăn
như sau:
--19--


2.2.1.

Các vấn đề về cơ sở dữ liệu

Đầu vào chủ yếu của một hệ thống khai thác tri thức là các dữ liệu thô trong cơ sở
phát sinh trong khai phá dữ liệu chính là từ đây. Do các dữ liệu trong thực tế thường
động, không đầy đủ, lớn và bị nhiễu. Trong những trường hợp khác, người ta không
biết cơ sở dữ liệu có chứa các thông tin cần thiết cho việc khai thác hay không và làm
thế nào để giải quyết với sự dư thừa những thông tin không thích hợp này.
 Dữ liệu lớn: Cho đến nay, các cơ sở dữ liệu với hàng trăm trường và bảng, hàng

triệu bản ghi và với kích thước đến gigabytes đã là chuyện bình thường. Hiện nay đã
bắt đầu xuất hiện các cơ sở dữ liệu có kích thước tới terabytes. Các phương pháp giải
quyết hiện nay là đưa ra một ngưỡng cho cơ sở dữ liệu, lấu mẫu, các phương pháp xấp
xỉ, xử lý song song (Agrawal et al, Holsheimer et al).
 Kích thước lớn: không chỉ có số lượng bản ghi lớn mà số các trường trong cơ

sở dữ liệu cũng nhiều. Vì vậy mà kích thước của bài toán trở nên lớn hơn. Một tập dữ
liệu có kích thước lớn sinh ra vấn đề làm tăng không gian tìm kiếm mô hình suy diễn.
Hơn nữa, nó cũng làm tăng khả năng một giải thuật khai phá dữ liệu có thể tìm thấy
các mẫu giả. Biện pháp khắc phục là làm giảm kích thước tác động của bài toán và sử
dụng các tri thức biết trước để xác định các biến không phù hợp.
 Dữ liệu động: Đặc điểm cơ bản của hầu hết các cơ sở dữ liệu là nội dung của

chúng thay đổi liên tục. Dữ liệu có thể thay đổi theo thời gian và việc khai phá dữ liệu

cũng bị ảnh hưởng bởi thời điểm quan sát dữ liệu. Ví dụ trong cơ sở dữ liệu về tình
trạng bệnh nhân, một số giá trị dữ liệu là hằng số, một số khác lại thay đổi liên tục theo
thời gian (ví dụ cân nặng và chiều cao), một số khác lại thay đổi tùy thuộc vào tình
huống và chỉ có giá trị được quan sát mới nhất là đủ (ví dụ nhịp đập của mạch). Vậy
thay đổi dữ liệu nhanh chóng có thể làm cho các mẫu khai thác được trước đó mất giá
trị. Hơn nữa, các biến trong cơ sở dữ liệu của ứng dụng đã cho cũng có thể bị thay đổi,
bị xóa hoặc là tăng lên theo thời gian. Vấn đề này được giải quyết bằng các giải pháp
--20--


tăng trưởng để nâng cấp các mẫu và coi những thay đổi như là cơ hội để khai thác
bằng cách sử dụng nó để tìm kiếm các mẫu bị thay đổi.
 Các trường không phù hợp: Một đặc điểm quan trọng khác là tính không thích

hợp của dữ liệu, nghĩa là mục dữ liệu trở thành không thích hợp với trọng tâm hiện tại
của việc khai thác. Một khía cạnh khác đôi khi cũng liên quan đến độ phù hợp là tính
ứng dụng của một thuộc tính đối với một tập con của cơ sở dữ liệu. Ví dụ trường số tài
khoản Nostro không áp dụng cho các tác nhân.
 Các giá trị bị thiếu: Sự có mặt hay vắng mặt của giá trị các thuộc tính dữ liệu

phù hợp có thể ảnh hưởng đến việc khai phá dữ liệu. Trong hệ thống tương tác, sự
thiếu vắng dữ liệu quan trọng có thể dẫn đến việc yêu cầu cho giá trị của nó hoặc kiểm
tra để xác định giá trị của nó. Hoặc cũng có thể sự vắng mặt của dữ liệu được coi như
một điều kiện, thuộc tính bị mất có thể được coi như một giá trị trung gian và là giá trị
không biết.
 Các trường bị thiếu: Một quan sát không đầy đủ cơ sở dữ liệu có thể làm cho

các dữ liệu có giá trị bị xem như có lỗi. Việc quan sát cơ sở dữ liệu phải phát hiện
được toàn bộ các thuộc tính có thể dùng để giải thuật khai phá dữ liệu có thể áp dụng
nhằm giải quyết bài toán. Giả sử ta có các thuộc tính để phân biệt các tình huống đáng

quan tâm. Nếu chúng không làm được điều đó thì có nghĩa là đã có lỗi trong dữ liệu.
Đối với một hệ thống học để chuẩn đoán bệnh sốt rét từ một cơ sở dữ liệu bệnh nhân
thì trường hợp các bản ghi của bệnh nhân có triệu chứng giống nhau nhưng lại có các
chẩn đoán khác nhau là do trong dữ liệu đã bị lỗi. Đây cũng là vấn đề thường xảy ra
trong cơ sở dữ liệu kinh doanh. Các thuộc tính quan trọng có thể sẽ bị thiếu nếu dữ
liệu không được chuẩn bị cho việc khai phá dữ liệu.
 Độ nhiễu và không chắc chắn: Đối với các thuộc tính đã thích hợp, độ nghiêm

trọng của lỗi phụ thuộc vào kiểu dữ liệu của các giá trị cho phép. Các giá trị của các
thuộc tính khác nhau có thể là các số thực, số nguyên, chuỗi và có thể thuộc vào tập
--21--


×