Tải bản đầy đủ (.pdf) (12 trang)

Ứng dụng khai phá dữ liệu để xây dựng hệ thống tư vấn học tập tại trường đại học công nghiệp hà nội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (406.14 KB, 12 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ THANH HƢƠNG

ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC TẬP
TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ THANH HƢƠNG

ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC TẬP
TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thơng tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CƠNG NGHỆ THƠNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM

Hà Nội - 2015




LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS.Nguyễn Hà Nam, Trƣờng Đại học
Công nghệ - Đại học Quốc gia Hà Nội, ngƣời thầy đã dành nhiều thời gian tận tình
chỉ bảo, hƣớng dẫn, giúp đỡ tơi trong suốt quá trình tìm hiểu, nghiên cứu.Thầy là
ngƣời đinh
̣ hƣớng và đƣa ra nhiều góp ý quý báu trong q trình tơi thƣ̣c hiện l ̣n
văn.
Tơi xin chân thành cảm ơn các thầy, cô ở khoa Công nghệ thông tin – Trƣờng Đại
học Công nghệ - ĐHQGHN đã cung cấp cho tôi những kiến thức và tạo cho tôi những
điều kiện thuận lợi trong suốt q trình tơi học tập tại trƣờng.
Tơi cũng bày tỏ lịng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng nghiệp đã
cung cấp dữ liệu, tài liệu và cho tôi những lời khun q báu. Tơi xin cảm ơn gia đình,
ngƣời thân, bạn bè và các thành viên trong nhóm nghiên cứu luôn động viên và tạo mọi
điều kiện tốt nhất cho tôi.
Tôi xin chân thành cảm ơn!
Hà Nội, tháng 1 năm 2016
Họ và tên

Nguyễn Thị Thanh Hƣơng

1


LỜI CAM ĐOAN
Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi, thực hiện dƣới sự hƣớng
dẫn của PGS.TS. Nguyễn Hà Nam.
Các kết quả nêu trong luận văn là trung thực và chƣa đƣợc ai công bố trong bất cứ
cơng trình nào khác.

Hà Nội, tháng 1 năm 2016
Họ và tên

Nguyễn Thị Thanh Hƣơng

2


MỤC LỤC
LỜI CẢM ƠN ...................................................................................................................... 1
LỜI CAM ĐOAN ................................................................................................................ 2
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ......................................................... 5
DANH MỤC CÁC BẢNG .................................................................................................. 6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................................. 6
Chƣơng 1. Giới thiệu tổng quan ........................................................................................ 8
1.1.Bài toán ứng dụng KPDL để xây dựng hệ thống tƣ vấn tại trƣờng ĐHCNHN ......... 8
1.2. Một số hƣớng nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục hiện nay
Error! Bookmark not defined.
1.3. Hƣớng tiếp cận của luận văn ................................... Error! Bookmark not defined.
1.4. Kết luận chƣơng 1 ................................................... Error! Bookmark not defined.
Chƣơng 2. Các kiến thức cơ sở liên quan ....................... Error! Bookmark not defined.
2.1. Khai phá dữ liệu ...................................................... Error! Bookmark not defined.
2.1.1. Khái niệm KPDL .............................................. Error! Bookmark not defined.
2.1.2. Những nhóm bài tốn của KPDL ..................... Error! Bookmark not defined.
2.1.3. Các bƣớc xây dựng một giải pháp về KPDL .... Error! Bookmark not defined.
2.1.4. Ứng dụng KPDL trong giáo dục ....................... Error! Bookmark not defined.
2.2. Một số kỹ thuật KPDL trong phân lớp, dự báo....... Error! Bookmark not defined.
2.2.1 Cây quyết định ................................................... Error! Bookmark not defined.
2.2.2 Phân lớp Naïve Bayes ........................................ Error! Bookmark not defined.
2.2.3 Mạng nơ ron nhân tạo ........................................ Error! Bookmark not defined.

2.2.4 Luật kết hợp ....................................................... Error! Bookmark not defined.
2.3. KPDL với hệ quản trị CSDL SQL Server ............... Error! Bookmark not defined.
2.3.1. Giới thiệu chung ............................................... Error! Bookmark not defined.
2.3.2. Ngôn ngữ truy vấn KPDL DMX (Data Mining Extensions). Error! Bookmark
not defined.
2.3.3. Bộ công cụ SQL Server Business Intelligence Development Studio ........ Error!
Bookmark not defined.
2.3.4. Lập trình KPDL với Analysis Services APIs ... Error! Bookmark not defined.
2.3.5 Đánh giá hiệu quả của các mơ hình KPDL ....... Error! Bookmark not defined.
2.4. Kết luận chƣơng 2 ................................................... Error! Bookmark not defined.
3


Chƣơng 3. Phƣơng pháp giải quyết bài toán ................... Error! Bookmark not defined.
3.1.

Tìm hiểu và thu thập dữ liệu điểm ....................... Error! Bookmark not defined.

3.2. Xây dựng mơ hình ................................................... Error! Bookmark not defined.
3.3. Lập trình KPDL với Analysis Services APIs.......... Error! Bookmark not defined.
3.4.

Đánh giá mơ hình ................................................. Error! Bookmark not defined.

3.4.1 Đánh giá các mơ hình dự báo với Lift Chart ..... Error! Bookmark not defined.
3.4.2 Đánh giá các mơ hình dự báo với Classification Matrix .. Error! Bookmark not
defined.
3.5. Kết luận chƣơng 3 .................................................. Error! Bookmark not defined.
Chƣơng 4. Xây dựng hệ thống tƣ vấn học tập tại trƣờng ĐHCNHN .. Error! Bookmark
not defined.

KẾT LUẬN ....................................................................... Error! Bookmark not defined.
HƢỚNG PHÁT TRIỂN .................................................... Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO ................................................................................................... 9

4


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Ý nghĩa

Chữ viết tắt
BIDS

Bussiness Intelligence Development Studio

CSDL

Cơ sở dữ liệu

DMX

Data Mining Extensions

DMM

Data Mining Model

KPDL


Khai phá dữ liệu

SOM

Self-Organizing Map

MS
ĐHCNHN

Microsoft
Đại học Công Nghiệp Hà Nội

5


DANH MỤC CÁC BẢNG
Bảng 2.4: Lựa chọn các thuật toán khai phá dữ liệu theo mục đích.................................. 23
Bảng 3.1: Bảng dữ liệu xây dựng hệ thống tƣ vấn học tập ............................................... 34

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Các bƣớc xây dựng một hệ thống KPDL .......... Error! Bookmark not defined.
Hình 2. 1: Biểu diễn cây quyết định cơ bản ...................... Error! Bookmark not defined.
Hình 2. 2: Cây quyết định cho việc chơi Tennis ............... Error! Bookmark not defined.
Hình 2. 3: Mơ hình mạng nơron nhiều lớp ........................ Error! Bookmark not defined.
Hình 2. 4: Tiến trình học ................................................... Error! Bookmark not defined.
Hình 2. 5: Hình ảnh tổng quan về KPDL với SQL 2008 .. Error! Bookmark not defined.
Hình 3. 1: Mơ hình CSDL quan hệ đƣợc thu thập để xây dựng hệ thống .................. Error!
Bookmark not defined.
Hình 3. 2: Một phần bảng các lộ trình học theo ngành ..... Error! Bookmark not defined.
Hình 3. 3: Một phần dữ liệu xây dựng hệ thống ............... Error! Bookmark not defined.

Hình 3. 4: Tạo 04 Mining Models cho một Mining Structure ......... Error! Bookmark not
defined.
Hình 3. 5: Kết quả tạo viewer cho mơ hình Cây quyết định ............ Error! Bookmark not
defined.
Hình 3. 6: Kết quả tạo viewer cho mơ hình Luật kết hợp . Error! Bookmark not defined.
Hình 3. 7: Kết quả tạo viewer cho mơ hình Nạve Bayes . Error! Bookmark not defined.
Hình 3. 8: Kết quả tạo viewer cho mơ hình mạng nơ ron nhân tạo . Error! Bookmark not
defined.
Hình 3. 9: Biểu đồ Lift Chart cho 04 mơ hình .................. Error! Bookmark not defined.
Hình 3. 10: Kết quả của ma trận Classification Matrix của 04 mơ hình Error! Bookmark
not defined.
Hình 3. 11: Thiết kế một truy vấn DMX với mơ hình đƣợc chọn.... Error! Bookmark not
defined.
Hình 3. 12: Kết quả truy vấn với mơ hình đƣợc chọn ....... Error! Bookmark not defined.
Hình 3. 13: Sự phụ thuộc của thuộc tính dự đốn vào các thuộc tính khác ............... Error!
Bookmark not defined.
Hình 3. 14: Lựa chọn Lift Chart với Predict Value=”K” .. Error! Bookmark not defined.
Hình 3. 15: Kết quả Lift Chart khơng xác định giá trị thuộc tính dự đốn ................ Error!
Bookmark not defined.
Hình 3. 16: Classification Matrix của 04 mơ hình ............ Error! Bookmark not defined.

6


Hình 3. 17: Biểu đồ so sánh mức độ chính xác các mơ hình ........... Error! Bookmark not
defined.
Hình 4. 1: Sơ đồ hoạt động của hệ thống .......................... Error! Bookmark not defined.
Hình 4. 2: Kết quả tƣ vấn học tập với mơ hình Nạve Bayes ........... Error! Bookmark not
defined.
Hình 4. 3: Kết quả tƣ vấn học tập với mơ hình Cây quyết định ....... Error! Bookmark not

defined.
Hình 4. 4: Kết quả tƣ vấn học tập với mơ hình Luật kết hợp ........... Error! Bookmark not
defined.
Hình 4. 5: Kết quả tƣ vấn học tập với mơ hình Neural Network ..... Error! Bookmark not
defined.
Hình 4. 6: Kết quả tƣ vấn học tập với sinh viên nam ........ Error! Bookmark not defined.
Hình 4. 7: Kết quả tƣ vấn học tập với sinh viên nữ ........... Error! Bookmark not defined.
Hình 4. 8: Xem chi tiết một lộ trình học............................ Error! Bookmark not defined.

LỜI MỞ ĐẦU
Trƣờng ĐHCNHN là một trƣờng nằm trong hệ thống các trƣờng chuyên nghiệp
trực thuộc Bộ công thƣơng. Một vấn đề cấp thiết đặt ra trong công tác quản lý và đào tạo
của nhà trƣờng là xây dựng các mục tiêu, chiến lƣợc nhằm mở rộng quy mô đào tạo, thu
hút đƣợc nhiều sinh viên, bên cạnh đó là việc nâng cao chất lƣợng giảng dạy, đảm bảo
đào tạo những sinh viên ra trƣờng đáp ứng đƣợc yêu cầu công việc. Công nghệ thông tin
đã đƣợc ứng dụng trong công tác quản lý của nhà trƣờng, song việc khai thác vẫn còn
nhiều hạn chế.
Xuất phát từ yêu cầu đặt ra đối với đơn vị mình, tơi đã thực hiện đề tài luận văn
“ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC
TẬP TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI”. Luận văn đi sâu vào việc
khai phá dữ liệu từ thông tin cá nhân, điểm tuyển sinh đầu vào kết hợp với lộ trình học để
dự đốn kết quả học tập của sinh viên, hỗ trợ tƣ vấn cho sinh viên lựa chọn lộ trình học
phù hợp để đạt đƣợc kết quả học tập cao nhất.
Luận văn gồm có phần mở đầu, kết luận và 04 chƣơng, cụ thể nhƣ sau:
Chƣơng 1: Giới thiệu tổng quan
Giới thiệu bài toán ứng dụng KPDL để xây dựng hệ thống tƣ vấn tại trƣờng
ĐHCNHN, trình bày một số hƣớng nghiên cứu về KPDL trong giáo dục và hƣớng tiếp
cận của luận văn.
Chƣơng 2: Các kiến thức cơ sở liên quan


7


Nghiên cứu các cơ sở lý thuyết KPDL, các vấn đề liên quan đến KPDL trong lĩnh
vực giáo dục. Tìm hiểu các kỹ thuật khai phá dữ liệu sử dụng trong bài toán phân lớp, dự
báo (cây quyết định, phân lớp Naïve Bayes, mạng nơ ron nhân tạo, luật kết hợp) và kỹ
thuật KPDL trên hệ quản trị CSDL MS SQL Server.
Chƣơng 3. Phƣơng pháp giải quyết bài tốn
Mơ tả ứng dụng, xây dựng bài tốn liệt kê lộ trình học cho từng ngành học để tƣ
vấn cho sinh viên chọn lộ trình phù hợp với ngành mình đang theo học. Thu thập và xử lý
các dữ liệu liên quan để phát triển hệ thống. Xây dựng 4 mơ hình: Cây quyết định, Naïve
Bayes, Neural Networks, Luật kết hợp và đƣa ra đánh giá các mơ hình tƣơng ứng.
Chƣơng 4: Xây dựng hệ thống tƣ vấn học tập tại trƣờng ĐHCNHN
Dựa trên những đánh giá về mơ hình, lựa chọn mơ hình cho kết quả tốt nhất. Xây
dựng chƣơng trình thực nghiệm để tƣ vấn cho sinh viên.

Chƣơng 1.Giới thiệu tổng quan
1.1. Bài toán ứng dụng KPDL để xây dựng hệ thống tƣ vấn tại trƣờng ĐHCNHN
Trƣờng Đại học Công nghiệp Hà Nội cung cấp dịch vụ giáo dục - đào tạo nhiều
ngành, nhiều trình độ, chất lƣợng cao, đáp ứng nguồn nhân lực cho cơng nghiệp hóa, hiện
đại hóa đất nƣớc và xuất khẩu lao động, tạo cơ hội học tập thuận lợi cho mọi đối tƣợng.
Về ngành, nghề đào tạo: Trong những năm qua nhà trƣờng đã xây dựng đƣợc chƣơng
trình và triển khai đào tạo 21 chuyên ngành đại học chính quy, 18 chuyên ngành đào tạo
cao đẳng chính quy, 14 chuyên ngành Trung cấp chuyên nghiệp và nhiều chƣơng trình
đào tạo trình độ khác nhau.
Về qui mô đào tạo: Trên 50.000 học sinh, sinh viên.
Các lĩnh vực đào tạo: Công nghệ, kỹ thuật, Kinh tế, May, Thời trang, Sƣ phạm, Du lịch
Các loại hình đào tạo: Chính qui, Vừa làm vừa học, Liên thơng, Liên kết nƣớc ngoài,
Nâng bậc thợ, Đào tạo lao động xuất khẩu, Bồi dƣỡng ngắn hạn và dài hạn theo nhu cầu
xã hội quan tâm.

Một thực tế đặt ra đối với trƣờng ĐHCNHN là làm sao thu hút đƣợc nhiều sinh
viên dựa trên “thƣơng hiệu” của nhà trƣờng, để đáp ứng chỉ tiêu đào tạo. Tuy nhiên, yêu
cầu đặt ra về số lƣợng cũng phải kèm theo yêu cầu về chất lƣợng đào tạo. Vấn đề nâng
cao chất lƣợng đào tạo là một vấn đề luôn đƣợc nhà trƣờng quan tâm.
Nhằm đổi mới giáo dục đại học ở Việt Nam, Bộ Giáo dục và Đào tạo đã yêu cầu
chuyển đổi từ việc thực hiện chƣơng trình đào tạo theo hệ thống niên chế thành đào tạo
8


theo hệ thống tín chỉ kiểu Hoa Kỳ, bắt đầu từ năm học 2008-2009 và địi hỏi phải hồn tất
việc chuyển đổi này trƣớc năm 2012.
Trƣờng Đại học Công nghiệp Hà Nội đã triển khai đào tạo theo học chế tín chỉ bắt
đầu từ năm học 2008 – 2009. Đào tạo tín chỉ có ƣu điểm giúp sinh viên có thể tự quản lý
quỹ thời gian và tùy theo khả năng của mình để tự quyết định các mơn học theo từng kỳ.
Vì vậy, việc tƣ vấn học tập, chủ yếu liên quan đến lựa chọn lộ trình học phù hợp nhằm
đạt đƣợc kết quả học tập cao nhất cho mỗi sinh viên đƣợc đặc biệt quan tâm. Đó cũng là
khó khăn chung khơng chỉ của sinh viên, mà cịn của các cố vấn học tập, giáo viên chủ
nhiệm và các tổ chức quản lý trong trƣờng. Các giảng viên chun trách, cố vấn học tập
khơng thể tiếp cận tồn bộ dữ liệu về điểm của sinh viên.
Đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phù hợp theo đúng
quy trình đào tạo là một việc hết sức khó khăn, đặc biệt là với các sinh viên mới vào
trƣờng, khi mà kinh nghiệm học tập ở bậc đại học và hình thức đào tạo tín chỉ cịn rất mới
mẻ. Xuất phát từ thực tế đó, việc tƣ vấn lựa chọn lộ trình học cho sinh viên theo ngành
học đã đăng ký là một việc làm hết sức thiết thực và ý nghĩa.

TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Phan Xuân Hiếu (2013), Bài giảng môn học KPDL và kho dữ liệu, Trƣờng Đại học
Công nghệ, Đại học Quốc gia Hà Nội.
[2] Hà Quang Thụy (2010), Bài giảng môn học Kho dữ liệu và KPDL, Trƣờng Đại học

Công nghệ, Đại học Quốc gia Hà Nội.
[3] Đỗ Phúc, Giáo trình khai thác dữ liệu, NXB Đại học Quốc gia TP HCM, 2005.
[4] Nguyễn Thái Nghe, Paul Janecek, Peter Haddawy, Một phân tích giữa các kỹ thuật
trong dự đốn kết quả học tập, Khoa Công nghệ thông tin và Truyền thông, Đại học
Cần Thơ.

Tiếng Anh
[5] JamieMacLennan, ZhaoHui Tang, Bogdan Crivat. Data Mining with Microsoft SQL
Server 2008. Published by Wiley Publishing, Inc., Indianapolis, Indiana. 2008.
[6] Jiawei Han and Micheline Kamber. Data Mining Concepts and Techniques, Second
Edition. Published by Elsevier Inc. 2006.
9


[7] Brian Knight, Devin Knight, Adam Jorgensen, Patrick LeBlanc, Mike Davis. Knight's
Microsoft Business Intelligence 24-Hour Trainer. Published by Wiley Publishing, Inc.
2010.
[8] Tang, Z. H., MacLennan, J.: “Data Mining with SQL Server 2005”, Indianapolis:
Wiley, 2005.
[9] Usama M.Fayyad, Gregory Piatesky-Shaporo, Padhraic Smyth and Ramasamy
Uthurusamy (1996), Advances in Knowledge Discovery and Data Mining, AAAI
Press.

10



×