Tải bản đầy đủ (.pdf) (86 trang)

Xây dựng hệ thống hỗ trợ ra quyết định trong tư vấn chọn ngành nghề cho học sinh trung học phổ thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.6 MB, 86 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

TRẦN XN OANH

XÂY DỰNG HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH
TRONG TƯ VẤN CHỌN NGÀNH NGHỀ CHO HỌC
SINH TRUNG HỌC PHỔ THÔNG

LUẬN VĂN THẠC SỸ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2022


HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

TRẦN XN OANH

XÂY DỰNG HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH
TRONG TƯ VẤN CHỌN NGÀNH NGHỀ CHO HỌC
SINH TRUNG HỌC PHỔ THÔNG

CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH
Mã số: 8.48.01.01

LUẬN VĂN THẠC SỸ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. LÊ HỮU LẬP

HÀ NỘI – 2022




i

LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu và tìm hiểu của riêng tơi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai cơng
bố trong bất kỳ cơng trình nào khác.
Tác giả luận văn

Trần Xuân Oanh


ii

LỜI CẢM ƠN
Để thực hiện và hoàn thành đề tài nghiên cứu khoa học này, em đã nhận được
rất nhiều sự hỗ trợ, giúp đỡ. Nghiên cứu khoa học cũng được hoàn thành dựa trên sự
tham khảo, học tập kinh nghiệm từ các kết quả nghiên cứu liên quan. Đặc biệt hơn
nữa là sự hợp tác của cán bộ, thầy cô và học sinh của trường trung học phổ thông Mỹ
Đức B thành phố Hà Nội.
Trước tiên, em xin gửi lời cảm ơn sâu sắc đến Thầy PGS. TS Lê Hữu Lập,
người trực tiếp hướng dẫn khoa học đã luôn dành nhiều thời gian, công sức hướng
dẫn em trong suốt q trình thực hiện nghiên cứu và hồn thành đề tài nghiên cứu
khoa học.
Em xin trân trọng cảm ơn ban giám hiệu nhà trường. Khoa sau đại học và quan
hệ Quốc tế cùng tồn thể các thầy cơ khoa Cơng nghệ thơng tin, trường Học Viện
Cơng Nghệ Bưu Chính Viễn Thơng cơ sở I- Hà Nội đã tận tình truyền đạt những kiến
thức quý báu, giúp đỡ em trong quá trình học tập và nghiên cứu.
Tuy có nhiều cố gắng, nhưng trong đề tài nghiên cứu khoa học này không

tránh khỏi những thiếu sót. Em kính mong Q thầy cơ, các chuyên gia, đồng nghiệp
và bạn bè những người quan tâm đến đề tài, tiếp tục có những ý kiến đóng góp, giúp
đỡ để đề tài được hồn thiện hơn.
Trân trọng cảm ơn!
Tác giả

Trần Xuân Oanh


iii

MỤC LỤC
BẢNG KÝ HIỆU VIẾT TẮT -------------------------------------------------------- v
DANH MỤC HÌNH VẼ ------------------------------------------------------------- vi
DANH MỤC CÁC BẢNG --------------------------------------------------------- vii
MỞ ĐẦU ------------------------------------------------------------------------------- 1
1. Lý do chọn đề tài -------------------------------------------------------------- 1
2. Tổng quan ---------------------------------------------------------------------- 3
2.1 Tổng quan về vấn đề nghiên cứu------------------------------------- 3
2.2 Mục đích nghiên cứu -------------------------------------------------- 5
2.3 Đối tượng và phạm vi nghiên cứu ----------------------------------- 5
CHƯƠNG I. HỆ THỐNG TRỢ GIÚP RA QUYẾT ĐỊNH --------------------- 7
1.1 Tổng quan về hệ thống trợ giúp ra quyết định --------------------------- 7
1.1.1 Khái niệm ------------------------------------------------------------- 7
1.1.2 Các thành phần của hệ thống hỗ trợ đưa ra quyết định --------- 7
1.1.3 Phương pháp xây dựng---------------------------------------------- 8
1.2 Khai phá dữ liệu ------------------------------------------------------------ 12
1.2.1 Tổng quan về khai phá dữ liệu ------------------------------------ 12
1.2.2 Quy trình khai phá tri thức trong CSDL ------------------------------------ 13
1.2.3 Các kỹ thuật khai phá dữ liệu ------------------------------------------------ 16

CHƯƠNG II. XÂY DỰNG HỆ HỖ TRỢ TƯ VẤN HƯỚNG NGHIỆP CHO
HỌC SINH THPT -------------------------------------------------------------------- 19
2.1 Cơ sở lý luận John Holland ----------------------------------------------- 19
2.2 Phân lớp dữ liệu với cây quyết định ------------------------------------- 21
2.2.1 Mô tả bài tốn ------------------------------------------------------- 21
2.2.2 Q trình phân lớp dữ liệu ----------------------------------------- 21
2.3 Cây quyết định -------------------------------------------------------------- 22
2.3.1 Khái niệm ------------------------------------------------------------ 22
2.3.2 Các bước dựng cây quyết định ------------------------------------ 24
2.4 Thuật toán Iterative Dichotomiser 3 (ID3) ------------------------------ 24


iv

2.4.1 Tổng quan------------------------------------------------------------ 24
2.4.2 Mô tả giải thuật ----------------------------------------------------------- 25
2.4.4 Độ pha trộn Entropy ------------------------------------------------ 26
2.4.5 Độ lợi thông tin (information gain)------------------------------- 27
2.4.6 Tỷ suất độ lợi thông tin (Information Gain Ratio)-------------- 28
2.4.7 Ví dụ tính tốn ------------------------------------------------------ 29
2.5 Xây dựng hệ thống hỗ trợ dựa trên cây quyết định -------------------- 33
2.5.1 Yêu cầu cơ bản của hệ thống -------------------------------------- 33
2.5.2 Phần mềm Weka Explorer ----------------------------------------- 35
CHƯƠNG III. THIẾT LẬP HỆ THỐNG VÀ THỬ NGHIỆM ---------------- 39
3.1 Xác định mục tiêu của hệ thống và vấn đề cần giải quyết ------------ 39
3.2 Quy trình giải quyết bài tốn ---------------------------------------------- 40
3.2.1 Thu thập, trích lọc dữ liệu ----------------------------------------- 40
3.2.2. Tạo kho dữ liệu tư vấn hướng nghiệp --------------------------- 45
3.2.3 Tạo kho dữ liệu tư vấn hướng nghiệp ---------------------------- 45
3.2.4 Khai phá dữ liệu phát hiện tri thức ------------------------------- 47

3.3 Cài đặt và thử nghiệm ------------------------------------------------------ 67
3.3.1 Mơ hình hệ hỗ trợ tư vấn hướng nghiệp ------------------------- 67
3.3.2 Chức năng của hệ hỗ trợ tư vấn hướng nghiệp------------------ 69
3.3.3 Chuẩn bị và thiết kế CSDL ---------------------------------------- 69
3.3.4 Công nghệ sử dụng ------------------------------------------------ 70
3.3.5 Giao diện hệ hỗ trợ tư vấn hướng nghiệp ------------------------ 70
3.3.6 Đánh giá ưu, nhược điểm của hệ thống -------------------------- 72
3.3.7 Đánh giá kết quả thử nghiệm -------------------------------------- 73
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN----------------------------------------- 74
DANH MỤC CÁC TÀI LIỆU THAM KHẢO ------------------------ 75


v

BẢNG KÝ HIỆU VIẾT TẮT
GIẢI NGHĨA

STT

KÝ HIỆU

1

CSDL

2

DSS

3


EI

Environment Information (Thông tin mơi trường)

4

EM

Expectation - Maximization (Tối ưu hóa kỳ vọng)

5

GT

Goal Tree (Cây mục tiêu)

6

ID3

Iterative Dichotomizer 3

7

PAM

Partition Around Medoids (Phân vùng quanh medoid)

8


SQL

Structured Query Language (Ngơn ngữ truy vấn có cấu trúc)

9

THPT

Trung học phổ thông

10

UI

Cơ sở dữ liệu
Decision Support System (Hệ thống hỗ trợ ra quyết định)

User Interface (Giao diện người dùng)


vi

DANH MỤC HÌNH VẼ
Hình 1.1: Các mức trừu tượng của DSS ................................................................... 11
Hình 1.2 Các bước trong quy trình khai phá dữ liệu ................................................ 13
Hình 2.1: 6 nhóm mơi trường làm việc ..................................................................... 20
Hình 2.2: Tạo mơ hình huấn luyện............................................................................ 21
Hình 2.3 Ứng dụng mơ hình phân lớp vào bài tốn .................................................. 22
Hình 2.4 Cây quyết định ........................................................................................... 23

Hình 2.5: Mơ tả thuật tốn ID3 ................................................................................. 26
Hình 2.6 Cây quyết định ........................................................................................... 33
Hình 2.7 Lưu đồ mơ tả chức năng hệ thống hỗ trợ tư vấn hướng nghiệp ................. 34
Hình 2.8 Yêu cầu kiến trúc hệ thống hỗ trợ tư vấn ................................................... 34
Hình 2.9 Giao diện phần mềm Weka ........................................................................ 36
Hình 3.1 Mơ hình hệ hỗ trợ tư vấn hướng nghiệp .................................................... 40
Hình 3.2 Thiết lập thơng số cho giá trị mới trong weka ........................................... 46
Hình 3.3 Thêm giá trị mới cho thuộc tính rời rạc ..................................................... 46
Hình 3.4 Thuộc tính “toan” sau khi rời rạc ............................................................... 47
Hình 3.5 Mơ hình dự đốn thi đại học ...................................................................... 48
Hình 3.6 Cây quyết định đầy đủ với thuộc tính Thidh............................................. 57
Hình 3.7 Nhánh trái cây quyết định Thidh................................................................ 57
Hình 3.8 Mơ hình dự đốn khối thi, ngành nghề ...................................................... 58
Hình 3.9 Cây quyết định đầy đủ................................................................................ 58
Hình 3.10 Mơ hình hệ hỗ trợ tư vấn hướng nghiệp .................................................. 67
Hình 3.11 Kho dữ liệu ............................................................................................... 67
Hình 3.12 Khai phá dữ liệu ....................................................................................... 68
Hình 3.13 Dữ liệu cây quyết định ............................................................................. 68
Hình 3.14 Tập luật và hệ thống suy diễn .................................................................. 69
Hình 3.15 Giao diện màn hình trước khi tư vấn ....................................................... 70
Hình 3.16 Giao diện màn hình nhập dữ liệu ............................................................. 71
Hình 3.17 Giao diện màn hình sau khi trả về kết quả ............................................... 71
Hình 3.18 Giao diện màn hình test dữ liệu ............................................................... 72


vii

DANH MỤC BẢNG

Bảng 2.1 Dữ liệu xếp loại học sinh ........................................................................... 29

Bảng 2.2 Thơng tin thuộc tính “toan” ....................................................................... 29
Bảng 2.3 Thơng tin thuộc tính “ly” ........................................................................... 30
Bảng 2.4 Thơng tin thuộc tính “hoa” ........................................................................ 30
Bảng 2.5 Thơng tin thuộc tính “sinh” ....................................................................... 31
Bảng 2.6 Thơng tin thuộc tính “su” .......................................................................... 31
Bảng 2.7 Thơng tin thuộc tính “dia” ......................................................................... 31
Bảng 2.8 Thơng tin thuộc tính “nguvan” .................................................................. 32
Bảng 2.9 Thơng tin thuộc tính “ngoaingu” ............................................................... 32
Bảng 2.10 Bảng thống kê các môn học của học sinh ................................................ 33
Bảng 3.1. Bảng điểm tổng kết ................................................................................... 39
Bảng 3.2 Bảng dữ liệu Kết quả học tập của học sinh ............................................... 41
Bảng 3.3 Khối thi-môn thi ........................................................................................ 42
Bảng 3.4 Dữ liệu ngành nghề .................................................................................... 43
Bảng 3.5. Dữ liệu trường đại học, cao đẳng trên cả nước......................................... 44
Bảng 3.6. Dữ liệu trường cao đẳng nghề tại Hà Nội ................................................. 44


1

MỞ ĐẦU
1. Lý do chọn đề tài
Trong đời sống, đối với mỗi người, nghề nghiệp là điều có ý nghĩa vơ cùng
quan trọng. Do đó, trong thời điểm hiện tại, giáo dục hướng nghiệp ngày càng đóng
vai trò to lớn trong việc giúp các học sinh có nhận thức đúng đắn về nghề nghiệp, qua
đó, có được sự lựa chọn nghề nghiệp phù hợp với năng lực bản thân, đồng thời đáp
ứng nhu cầu bức thiết của xã hội về nhân lực, góp phần sử dụng và phân luồng nguồn
lao động hợp lý, giúp kinh tế, xã hội phát triển bền vững. Trong Văn kiện của Đảng
có viết: “Coi trọng công tác hướng nghiệp và phân luồng học sinh trung học, chuẩn
bị cho thanh niên, thiếu niên đi vào lao động nghề nghiệp phù hợp với sự chuyển dịch
cơ cấu kinh tế trong cả nước và từng địa phương”. Trong thời gian qua, hoạt động

trong công tác giáo dục hướng nghiệp tại các trường trung học phổ thông còn tồn tại
nhiều khiếm khuyết. Các chủ điểm nội dung trong giáo dục hướng nghiệp tại nhà
trường vẫn còn thiếu sót: phiến diện, bản chất của các nghề chưa được làm rõ, những
yêu cầu về năng lực, phẩm chất, của cá nhân chưa được xác định phù hợp với nghề
được lựa chọn. Về mặt hình thức, cách truyền đạt còn thơ cứng, nghèo nàn, mang tính
hình thức, phổ cập, đại trà, các đối tượng học sinh thì chưa được phân hóa rõ ràng.
Trong trường trung học phổ thơng có nhiều phương pháp để giáo dục hướng
nghiệp cho học sinh: qua những hoạt động dạy và học các bộ môn khoa học cơ bản,
mơn cơng nghệ. Ngồi ra, có thể thơng qua các hoạt động ngoại khóa, hoặc thơng qua
những hoạt động giáo dục hướng nghiệp chính quy, những buổi sinh hoạt hướng
nghiệp. Tuy nhiên, các biện pháp mang tính tuyên truyền bộc lộ nhiều điểm yếu:
Chưa cá nhân hóa theo đặc điểm về giới tính, gia cảnh, tơn giáo, vùng miền...
của học sinh.
Chưa thu thập nhận xét của thầy cô chủ nhiệm với học viên.
Chưa dựa trên điểm số, kết quả học tập để minh chứng cho lực học làm cơ sở.
Nhìn chung, các phương pháp trên mới chỉ nhắm tới mục tiêu cung cấp kiến
thức mà chưa đáp ứng được tiêu chí nâng cao năng lực nhận thức bản thân, qua đó,


2

phát triển năng lực chọn nghề cho các bạn học sinh và đặc biệt các phương pháp trên
không thể giúp các em giải quyết được những bối rối, băn khoăn trong quá trình chọn
ngành, chọn nghề.
Song song với sự phát triển như vũ bão của khoa học kĩ thuật, nền kinh tế tri
thức cũng là tương lai, đường hướng phát triển của kinh tế thế giới cùng với sự hỗ
trợ, đồng hành của những ngành phát triển công nghệ cao. Việt Nam cũng khơng nằm
ngồi xu hướng phát triển đó. Hòa vào tình hình chung của đất nước và thế giới, xã
hội hóa giáo dục trở thành một trong những hướng đi thiết yếu. Trong thực tế có rất
nhiều các bạn sinh viên ra trường thất nghiệp, hoặc phải làm trái ngành, trái nghề,

không đúng với chuyên môn các bạn được đào tạo sau khi tốt nghiệp, dẫn tới năng
suất lao động không cao, tỷ lệ bỏ việc nhiều. Bởi thế, vấn đề lựa chọn ngành nghề
sao cho đúng đắn, nghề nghiệp được định hướng tốt ngay từ trên ghế nhà trường là
nhu cầu vơ cùng bức thiết. Hồn cảnh khách quan đang trở nên ngày càng đa dạng và
phức tạp, công nghệ thông tin cũng đang trên đà phát triển khơng ngừng. Trong bối
cảnh đó, việc sử dụng các hệ thống trợ giúp, nhờ đó, sẽ làm thay đổi bộ mặt cũng như
phương tiện giáo dục hướng nghiệp. Hệ trợ giúp quyết định - Decision Support
System (DSS) do vậy, trở thành một công cụ hữu hiệu trong việc trợ giúp các em học
sinh trung học phổ thông xác định rõ ràng nghề nghiệp của mình trong tương lai.
Chính bởi lẽ đó, là một người thầy đã có nhiều năm trực tiếp giảng dạy hàng
ngày trong trường Trung học phổ thông (THPT), tôi quyết định chọn đề tài “Xây
dựng hệ thống hỗ trợ ra quyết định trong tư vấn chọn ngành nghề cho học sinh
trung học phổ thông” nhằm thử nghiệm công cụ hỗ trợ trong việc lựa chọn nghề
nghiệp cho các học sinh ngay từ khi còn ngồi trên ghế nhà trường THPT.
Nội dung luận văn gồm 3 chương chính:
Chương 1: Hệ hỗ trợ giúp ra quyết định
Chương 2: Xây dựng hệ hỗ trợ tư vấn hướng nghiệp cho học sinh THPT.
Chương 3: Thiết lập hệ thống và thử nghiệm.
Mặc dù có nhiều cố gắng nhưng do thời gian và trình độ cịn có hạn chế, luận


3

2. Tổng quan
a/ Tổng quan về vấn đề nghiên cứu
Nghề nghiệp là một lĩnh vực hoạt động lao động mà trong đó nhờ được đào
tạo, con người có những kiến thức, những kỹ năng chuyên môn để làm ra các sản
phẩm vật chất hay tinh thần nào đó đáp ứng được nhu cầu của xã hội.
Nghề nghiệp trong xã hội khơng phải là một cái gì cố định, cứng nhắc. Mới
nghe qua chúng ta sẽ dễ nhầm tưởng với công việc nhưng nó khơng phải là bỏ sức

lao động ra làm việc để nhận lại tiền công để trang trải cuộc sống.
Định hướng lựa chọn nghề nghiệp là sự tác động của gia đình, nhà trường, bạn
bè , xã hội và môi trường sống xung quanh vào các bạn trẻ. Từ đó các em có thể căn
cứ trên năng lực học tập, sở thích cá nhân và đam mê để đưa ra quyết định lựa chọn
nghề nghiệp trong tương lai một cách đúng đắn .
Tư vấn hướng nghiệp là một hình thức tư vấn và hỗ trợ của các cán bộ tư vấn
nghề nghiệp cho các em về nhu cầu lao động của xã hội, khuynh hướng thị trường
lao động cùng với năng lực học tập của các em nhằm giúp các em học sinh có cái
nhìn đúng và từ đó đưa ra quyết định lựa chọn phù hợp nhất cho bản thân.
Có 2 loại hình tư vấn hướng nghiệp:
 Tư vấn hướng nghiệp theo nhóm: là loại hình tư vấn hướng nghiệp mà các
học sinh trong cùng một nhóm (khối, lớp) được tư vấn cùng một lúc, trong cùng một
khơng gian. Loại hình này thường tiết kiệm chi phí và có thể lồng ghép với nhiều hoạt
động phong phú.
 Tư vấn hướng nghiệp cho từng cá nhân: là loại hình tư vấn hướng nghiệp
mà mỗi cá nhân học viên được tư vấn riêng biệt, phù hợp với đặc điểm của từng học
sinh. Loại hình này là tư vấn sâu hơn, tốn kém nhưng lại đi vào chi tiết, đôi khi có thể
dự đốn kết quả cho từng em.
Nhóm lý thuyết cá nhân là lý thuyết liệt kê ra những năng lực nhận biết và đặc
điểm phát triển của mọi người để có thể tìm kiếm cơng việc thích hợp. Lý thuyết mật
mã John Holland là một lý thuyết tiêu biểu cho nhóm lý thuyết cá nhân.


4

Tư vấn tuyển sinh là một bước trong quá trình tư vấn hướng nghiệp mà mọi
học sinh đều được cung cấp thông tin cần thiết về các cơ sở đào tạo bậc cao như:
trường trung cấp nghề, cao đẳng, đại học để các bạn có được thơng tin và quyết định
đúng đắn.
Tư vấn viên là người có đảm nhiệm việc tư vấn hướng nghiệp cho từng cá

nhân trong trường THPT. Hiện nay còn ít trường có tư vấn viên mà thường là các
thầy cô, cán bộ trong nhà trường đảm nhiệm.
Hệ thống hỗ trợ tư vấn hướng nghiệp là hệ thống hỗ trợ các tư vấn viên trong
quá trình tư vấn tuyển sinh để tư vấn được chính xác, hiệu quả cho từng cá nhân và
tối ưu hóa chi phí cho bài tốn này. Phần dưới đây sẽ tìm hiểu rõ hơn bài toán hỗ trợ
tư vấn hướng nghiệp.
b/ Giới thiệu về bài toán hệ hỗ trợ tư vấn hướng nghiệp
Hướng nghiệp ở Việt Nam hiện nay đang là vấn đề đang được đông đảo các
bộ phận quan tâm. Mà đặc biệt là công tác tư vấn hướng nghiệp trong tuyển sinh đại
học. Mục đích chính của cơng tác tư vấn tuyển sinh này là làm thế nào để giúp các
em học sinh trung học phổ thông chọn được ngành học phù hợp với năng lực của
mình.
Trong luận văn này chúng ta sẽ tập trung vào nghiên cứu,phân tích các vấn đề
liên quan đến tư vấn hướng nghiệp của các nhóm nghề dựa trên cơ sở lý luận của tiến
sĩ John Holland nhằm giúp các em thí sinh có thể lựa chọn được ngành học phù hợp
với bản thân.
Nội dung luận văn sẽ đi sâu vào thuật toán ID3 (Iterative Dichotomizer 3),
cách thức khai phá dữ liệu từ tập dữ liệu có sẵn trong trường học về kết quả học tập,
thông tin cá nhân… của học sinh. Từ tập dữ liệu huấn luyện sử dụng phần mềm Weka
để tạo cây quyết định bằng thuật tốn ID3, sau đó rút ra tập luật từ cây quyết định
này.
Để xây dựng "hệ thống hỗ trợ ra quyết định trong tư vấn chọn ngành nghề cho
học sinh trung học phổ thông", ta sẽ thu thập các dữ liệu liên quan nằm trong phạm
vi nghiên cứu đề tài như: Tổng điểm trung bình theo từng mơn học (Tốn, Vật lý,


5

Hóa học, Sinh học, Văn, Lịch sử, Địa lý, Ngoại ngữ) của lớp 10, 11, 12; thông tin cá
nhân; phiếu khảo sát học sinh; phiếu nhận xét giáo viên chủ nhiệm và tập dữ liệu huấn

luyện.
Sau khi dữ liệu được thu thập, làm sạch, hệ thống sẽ thực hiện chức năng phân
tích kho dữ liệu đã có sẵn và tìm ra quy luật nhờ mơ hình đã được xây dựng để tư vấn
cho các thí sinh sau khi tốt nghiệp THPT. Ngồi ra dữ liệu thu thập được cịn có thể
được dùng để đánh giá, dự báo nhu cầu và nguồn lao động của từng ngành học.
Để tìm hiểu về quá trình khai phá dữ liệu và phát hiện tri thức thực hiện như
thế nào và bằng những kĩ thuật gì, chúng ta sẽ phân tích kĩ ở phần sau.

3. Mục đích nghiên cứu
a/ Mục tiêu của luận văn
Sử dụng các công cụ trong khai phá dữ liệu để xây dựng hệ thống trợ giúp tư
vấn hướng nghiệp cho học sinh trung học phổ thông. Áp dụng thử nghiệm cho một
vài trường trung học phổ thông thuộc thành phố Hà Nội.
b/ Kết quả cần đạt
Đưa ra một giải pháp từ việc phân loại dữ liệu trên các phiếu khảo sát thông
tin lựa chọn ngành học, đến việc tiến hành khai thác xử lý chúng để đưa ra các tri
thức cần thiết. Các tri thức này được tối ưu hóa và đem vào sử dụng một cách hiệu
quả trong việc tư vấn chọn ngành học cho học sinh.

4. Đối tượng và phạm vi nghiên cứu
a/ Giới hạn nghiên cứu
- Về khách thể: Học sinh lớp 12 tại trường trung học phổ thông Mỹ Đức B
thành phố Hà Nội và dữ liệu được chọn từ các môn học của 3 năm học thuộc cấp 3
(năm học 2018-2019, 2019-2020, 2020-2021)
- Về đối tượng: Nhu cầu tư vấn hướng nghiệp của học sinh trung học phổ
thông.
b/ Phạm vi nghiên cứu
Đề tài tập trung nghiên cứu xây dựng hệ hỗ trợ giúp tư vấn hướng nghiệp cho
học sinh trung học phổ thông dựa trên khai phá dữ liệu.



6

c/ Phương pháp nghiên cứu
Luận văn sử dụng những phương pháp nghiên cứu sau đây:
 Phương pháp nghiên cứu tài liệu.
 Phương pháp điều tra và thu thập thông tin bằng bảng hỏi.
 Phương pháp thống kê toán học qua phiếu excel bảng điểm.
 Sử dụng ngơn ngữ lập trình Java để viết phần mềm ứng dụng.


7

CHƯƠNG I. HỆ THỐNG TRỢ GIÚP RA QUYẾT ĐỊNH
1.1 Tổng quan về hệ thống trợ giúp ra quyết định
1.1.1 Khái niệm
Hệ hỗ trợ đưa ra quyết định là hệ thống các máy tính có khả năng tương tác để
giúp con người đưa ra quyết định. Hệ thống này sử dụng dữ liệu và mơ hình để giải
quyết những vấn đề phi cấu trúc.
Các hệ thống hỗ trợ đưa ra quyết định thường có các tính chất sau:
- Là phần mềm máy tính.
- Có chức năng trợ giúp con người đưa ra quyết định.
- Giải quyết những bài toán phi cấu trúc.
- Có khả năng tương tác được với người dùng.
- Áp dụng nhiều mơ hình phân tích và mơ hình dữ liệu trong tính tốn.

1.1.2 Các thành phần của hệ thống hỗ trợ đưa ra quyết định
- Hệ thống hỗ trợ đưa ra quyết định gồm 5 thành phần chính:
- Người dùng.
- Giao diện tương tác với hệ thống.

- Mô hình cây quyết định.
- Cơ sở dữ liệu.
- Hệ thống điều phối.
Người dùng là người sẽ nhập các thông tin cần thiết và cần nhận được kết quả
từ hệ thống hỗ trợ.
Giao diện tương tác với hệ thống là cửa sổ màn hình hiện lên cho phép người
dùng nhấp chuột, nhập dữ liệu và nhìn thấy các thơng tin cần thiết. Giao diện này bao
gồm 2 vùng chính: vùng nhập dữ liệu và vùng hiển thị kết quả.
Mơ hình cây quyết định là mơ hình được sinh ra sau khi dữ liệu học máy được
làm sạch và đưa vào Weka.


8

Cơ sở dữ liệu là cấu trúc và các bản ghi được lưu trữ để đưa vào xây dựng cây
quyết định. Dữ liệu trong cơ sở dữ liệu này có thể được bổ sung thông qua các dữ liệu
người dùng nhập vào để cải thiện mơ hình cây quyết định.
Hệ thống điều phối là hệ thống kết nối, điều phối để tương tác bổ sung bản ghi
vào cơ sở dữ liệu, đưa dữ liệu vào để xây dựng mơ hình cây quyết định, ghi nhận
thông tin từ giao diện tương tác và áp dụng mơ hình cây quyết định với thơng tin ghi
nhận được đó để cho ra kết quả sau cùng.

1.1.3 Phương pháp xây dựng
Mục đích của hệ thống là hỗ trợ con người đưa ra quyết định trong bối cảnh
hoạt động và ngữ cảnh của tổ chức. Để đưa ra quyết định hiệu quả, người ra quyết
định phải tuân theo một quy trình được xác định rõ ràng. Quá trình ra quyết định là
một quá trình nhận biết tình huống, tạo ra và phân tích các hướng hành động thay thế,
lựa chọn một giải pháp thay thế và thực hiện quyết định dựa trên các mục tiêu nhất
định. Hệ thống hỗ trợ đưa ra quyết định có 5 chức năng [13]:
 Xử lý dữ liệu.

 Xây dựng mô hình.
 Phân tích mục tiêu.
 Nhận dạng và phân tích vấn đề .
 Quy trình giải pháp.
Mơ hình hệ thống hỗ trợ quyết định (DSS) là một mơ hình tích hợp cho các hệ
thống hỗ trợ quyết định dựa trên năm khía cạnh này.
Ta sẽ đi tìm hiểu cách xây dựng hệ thống DSS theo 5 chức năng này.
1.1.3.1 Xử lý dữ liệu
Quá trình ra quyết định về cơ bản là một q trình chuẩn bị và trình bày thơng
tin. Do đó, việc xử lý dữ liệu hiệu quả và tạo ra thơng tin ảnh hưởng đáng kể đến q
trình ra quyết định. Một tập hợp các cặp sự kiện có thứ tự và xác suất xảy ra của
chúng trong tương lai được gọi là: Thông tin môi trường (EI). Việc ra quyết định


9

thường được phân thành ba loại dựa trên EI: ra quyết định chắc chắn, với rủi ro hoặc
không chắc chắn. [5]
 Ra quyết định một cách chắc chắn xảy ra khi EI hoàn toàn được nắm rõ bởi
người ra quyết định.
 Ra quyết định với rủi ro là ra quyết định có cấu trúc bán phần, xảy ra khi có
yếu tố xác suất trong EI.
 Việc ra quyết định trong điều kiện không chắc chắn xảy ra ngay cả khi người
ra quyết định khơng có kiến thức về các xác suất trong EI.
DSS có thể hỗ trợ các kiểu ra quyết định này với sự trợ giúp của lý thuyết tập
hợp mở và các quy tắc quyết định, nhưng trực giác và khả năng phán đoán của người
ra quyết định đóng một vai trị lớn.
1.1.3.2 Xây dựng mơ hình
Xây dựng mơ hình là sự chuyển đổi từ mơ tả cấu trúc con người nhận biết
được sang mơ hình DSS có thể nhận biết được. Để làm được điều này cấu trúc cần

phải được biểu diễn dưới dạng cây hoặc dạng lưu trữ khác mà trí tuệ nhân tạo có thể
được lưu trữ trong cơ sở tri thức của DSS.
1.1.3.3 Phân tích mục tiêu
Trong q trình ra quyết định, các mục tiêu chỉ ra kết quả mà ta cần hướng
đến. Trên thực tế, mục tiêu đóng vai trò là cơ sở để đo lường hiệu quả của các lựa
chọn thay thế. Do đó, mục tiêu xác định thứ tự ưu tiên so với các lựa chọn thay thế.
Mục tiêu cho biết hướng thay đổi mong muốn, trong đó một thuộc tính là thơng
số hiệu suất, đặc tính, yếu tố hoặc tài sản. Ví dụ: mục tiêu “lợi nhuận” có thể được chia
thành mục tiêu “giảm chi phí” và “tăng doanh thu” (mục tiêu phụ), và sau đó, mục tiêu
“tăng doanh thu” có thể được thể hiện dưới dạng “giá cả” và thuộc tính "số lượng".
1.1.3.4 Nhận biết và phân tích vấn đề
Q trình ra quyết định có liên quan chặt chẽ đến việc giải quyết vấn đề bằng
nhận thức. Do đó, một vấn đề quyết định có thể được giải quyết bằng cách giảm bớt
và tổng hợp các mục tiêu và mục tiêu phụ [4]. Quá trình rút gọn mục tiêu và các mục


10

tiêu con có thể được biểu diễn trong một cấu trúc cây được gọi là: Cây mục tiêu (GT).
Mỗi nút của GT đại diện cho một nhiệm vụ được xử lý bởi người ra quyết định, chẳng
hạn như phân tích cuối cùng của việc ra quyết định, hoặc bởi một mơ hình, chẳng hạn
như một chức năng tiện ích đại diện cho sự đánh đổi giá trị giữa các mục tiêu hoặc
thuộc tính thay thế. Các lá của Cây mục tiêu đại diện cho các thuộc tính được sử dụng
để đánh giá một chức năng tiện ích hoặc một mơ hình ở cấp cao hơn tiếp theo của
cây. Một thuộc tính, như đã được đề cập trước đó, được xem như một tham số. Để
nhận biết và đánh giá một tham số như vậy, nó cần được coi như một bài tốn có thể
được rút gọn thành các bài tốn con.
1.1.3.5 Quy trình giải pháp
Mục tiêu chính của DSS là hỗ trợ người ra quyết định trong quá trình ra quyết
định bằng cách tạo ra một hệ thống quyết định. Chức năng chính của hệ thống là q

trình tìm giải pháp. Quy trình tìm giải pháp hỗ trợ người ra quyết định giải quyết vấn
đề bằng cách cung cấp một môi trường để tạo và đánh giá một tập hợp các giải pháp
thay thế. Quy trình giải pháp của DSS có hai giai đoạn:(1) tạo giải pháp và (2) phân
tích giải pháp. Tạo ra sự giải pháp là quá trình quét mơi trường bên trong và bên ngồi
để hình thành thông tin giải pháp thay thế phù hợp với mục tiêu [1]
Phân tích giải pháp là q trình đánh giá và phân tích hậu quả của mỗi phương
án dựa trên thơng tin, mục tiêu sẵn có cũng như trực giác và phán đốn của người ra
quyết định. Quy trình này là quy trình giải quyết vấn đề
Tồn tại nhiều mức độ trừu tượng giữa hệ thống xử lý dữ liệu thơ (hay chính
xác hơn là các bit) và người dùng cuối cùng xử lý các vấn đề trừu tượng, chẳng hạn
như giải quyết vấn đề khơng có cấu trúc và phân tích mục tiêu. Để giảm mức độ trừu
tượng, ta đưa ra hệ thống phân cấp liên quan đến ba tầng trừu tượng: tầng kiến thức,
tầng hoạt động và tầng thủ tục.


11

Người dùng

Môi trường

Tầng kiến thức

Tầng hoạt động

Tầng thủ tục

Xử lý dữ liệu

Hình 1.1: Các mức trừu tượng của DSS


Tầng kiến thức là một phần trừu tượng của thế giới thực liên quan đến một
người ra quyết định. Ở tầng kiến thức, DSS hiểu được vấn đề của người dùng, được
nêu một cách trừu tượng, bằng cách truy xuất khối kiến thức và xử lý vấn đề. DSS
phân tích kiến thức liên quan đến cấu trúc và mục tiêu của cũng như các phương pháp
tổng hợp và giảm thiểu rủi ro.
Ở tầng hoạt động, DSS vận hành với chức năng liên kết các hoạt động ở tầng
kiến thức với các hoạt động ở tầng thủ tục nhằm cung cấp môi trường phân tích quyết
định để hỗ trợ người ra quyết định. Nói cách khác, DSS ở tầng này quản lý tất cả các
hoạt động của hệ thống từ tầng kiến thức đến tầng thủ tục. Kiến trúc DSS này cung
cấp một Hệ thống điều khiển (CS) để quản lý, điều phối và kiểm soát các hoạt động
chặt chẽ.
Ở tầng thủ tục, DSS có liên quan đến thao tác và sửa đổi.
Như vậy, với kiến trúc trên, DSS thỏa mãn các mục tiêu đề ra là hỗ trợ người
dùng đưa ra quyết định dựa trên các phân tích đúng đắn với tính toán và bằng chứng
rõ ràng về tri thức và bối cảnh.


12

1.2 Khai phá dữ liệu
1.2.1 Tổng quan về khai phá dữ liệu
Trong thời đại công nghệ bùng nổ lượng thông tin trên các cơ sở dữ liệu tăng
lên đến mức chóng mặt. Sau khoảng hai năm người ta ước tính số lượng của các thông
tin trên các cơ sở dữ liệu trên tồn cầu tăng gấp đơi cả về số lượng hồ sơ dữ liệu và
số lượng các thuộc tính, các trường. Nguồn tài nguyên khổng lồ này có giá trị rất lớn
khi nó được khai phá và phát hiện ra được kiến thức tiềm ẩn. Lượng kiến thức này là
rất bé so với nguồn dữ liệu khổng lồ. Vì thế việc tìm ra chúng là việc khó khăn vì
những kiến thức tìm ẩn này thường là rất nhỏ so với lượng dữ liệu khổng lồ. Dữ liệu
thường chứa rất nhiều thơng tin có giá trị, bổ ích đối với qui trình ra quyết định, tuy

vậy với khối lượng dữ liệu rất lớn như vậy thì khơng thể phân tích bằng các phương
pháp thủ công đồng thời cũng không thể dùng để truy vấn truyền thống (SQL) bởi vì
thực ra còn nhiều kiểu truy vấn mà chúng ta quan tâm tới nó rất khó để miêu tả hay
thực hiện miêu tả bằng ngơn ngữ vấn tin, ví dụ như: tìm tất cả các bản ghi nghi là
gian lận, tìm tất cả các văn bản gần giống như văn bản A, khơng có q nhiều thơng
tin trong các trường của CSDL…Do vậy, khai phá dữ liệu trở thành giải pháp hữu
hiệu nhằm giải quyết vấn đề quá tải dữ liệu trong trong kỷ nguyên số hóa.
- Theo tiến sĩ U.M.Fayyad: “Khai phá dữ liệu, thường được xem là việc khám
phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thơng tin ẩn,
trước đây chưa biết và có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui
tắc trong cơ sở dữ liệu” [8]
- Tiến sĩ Aleksi Kallio [10] có viết: "Khai phá dữ liệu là q trình ứng dụng
các phương pháp tính tốn trên một lượng lớn dữ liệu để tìm thấy những thơng tin
mới có liên quan và khơng dễ dàng nhận thấy."
Vì thế chúng ta có thể hiểu q trình khám phá tri thức tiềm ẩn trong cơ sở dữ
liệu chính là khai thác dữ liệu. Nói một cách rõ hơn, nó là q trình lọc, nhằm tạo ra
tri thức hoặc mẫu mới nhưng có ích từ cơ sở dữ liệu lớn.


13

Như vậy có thể nói khai phá dữ liệu là q trình trích xuất và khám phá các
mẫu trong tập dữ liệu lớn liên quan đến các phương pháp kết hợp giữa học máy, thống
kê và hệ thống cơ sở dữ liệu.
Hiện nay, khai phá dữ liệu và phát hiện tri thức được ứng dụng và triển khai
trong thực tế, đem lại hiệu quả cao cho sản xuất kinh doanh và nghiên cứu khoa học.
Chẳng hạn như hệ thống SKICAT được sử dụng vào việc phân tích ảnh vệ tinh, phân
loại và sắp xếp nhóm các vật thể khơng gian từ các ảnh quan sát vũ trụ: hệ thống xử
lý sự cố CASSIOPEE được dùng để phát hiện và tiên đoán những sự cố của máy bay
Boeing, hệ thống TASA dùng để phân tích các lỗi báo động trên đường truyền trong

lĩnh vực viễn thông.
1.2.2 Quy trình khai phá tri thức trong CSDL

Hình 1.2 Các bước trong quy trình khai phá dữ liệu

 Bước 1: Xác định mục tiêu bài tốn
Trong mọi dự án, việc tìm hiểu về bài tốn cần giải quyết là nhiệm vụ tiên
quyết. Định nghĩa bài tốn sẽ quyết định cách thu thập, trích xuất dữ liệu, cách lựa
chọn thuật toán trong tất cả những bước sau này. Bởi vậy, để tạo tiền đề thuận lợi cho
q trình khai phá dữ liệu, tránh những sai sót khơng đáng có, việc mơ tả chính xác
bài tốn là vơ cùng quan trọng.
 Bước 2: Thu thập, trích xuất những đặc trưng quan trọng
Dựa trên kết quả của bước 1, khi mục tiêu đã được xác định, các dữ liệu có
liên quan cần được thu thập và bổ sung, tập hợp thành kho dữ liệu đầy đủ, sẵn sàng.
Những dữ liệu này phải đầy đủ, bao gồm những thuộc tính quan trọng cần thiết. Đây
là bước rất quan trọng, bởi dữ liệu khơng liên quan có thể gây nhiễu, dữ liệu thiếu
đầy đủ sẽ làm mơ hình bị sai, dữ liệu quá nhiều và không đủ đặc trưng sẽ làm mô


14

hình bị q khớp. Do đó, cần đặc biệt lưu ý trong q trình lựa chọn tiêu chí trích
xuất và thu thập dữ liệu.
 Bước 3: Tiền xử lý
Dữ liệu thu thập được trong bước 2 còn ở dạng thô, có thể thiếu giá trị, thiếu
thuộc tính, trùng lặp, khơng hợp lệ... Nếu đưa trực tiếp dữ liệu thô này vào huấn luyện
có thể khiến đưa ra mơ hình sai lệch rất nhiều so với những gì dữ liệu phản ánh. Vì
vậy ta cần thực hiện bước tiền xử lý trước khi đưa dữ liệu vào khai phá, huấn luyện
cho mơ hình.
Có hai dạng tiền xử lý thường gặp là rút gọn và làm sạch dữ liệu.

Rút gọn dữ liệu là việc khái quát hóa, tổng hợp, giảm số chiều dữ liệu, nén, rời
rạc hóa hoặc giảm số lượng bản ghi đưa vào.
- Để khái quát hóa và tổng hợp dữ liệu ta có thể gộp hai hay nhiều thuộc tính
làm một, đưa các dữ liệu ở mức thấp, chi tiết gom thành dữ liệu khái quát.
- Để giảm số chiều dữ liệu, ta cần loại bỏ những thuộc tính thừa, khơng liên
quan bằng những thuật tốn như Heuristic, cây quyết định, vét cạn. Đối với cây quyết
định, ta rời rạc hóa các giá trị liên tục để giảm chiều dữ liệu.
- Để nén dữ liệu, biến đổi wavelet là phương án thường dùng.
Quá trình rút gọn dữ liệu cần sự khéo léo và kỹ thuật hợp lý để việc rút gọn
không làm mất đặc trưng của tập dữ liệu.
Làm sạch dữ liệu là việc xử lý dữ liệu trong trường hợp bị nhiễu hoặc dữ liệu
bị sai, thiếu, không nhất quán...
- Khi dữ liệu bị thiếu, không nhất quán phương án xử lý thông thường là bỏ
qua mẫu bị sai hoặc thiếu nếu số lượng mẫu nhiều hơn mức tối thiểu cần thiết và quá
nhiều trường dữ liệu bị thiếu. Tuy nhiên, khi số lượng mẫu dữ liệu không đủ nhiều
thì cần cân nhắc điền bằng tay những trường bị thiếu hoặc dùng các phép toán học để
bổ sung.
- Với dữ liệu bị nhiễu thì có nhiều phương án xử lý hơn:
 Chia giỏ dữ liệu theo chiều rộng bằng cách chia miền giá trị thành N khoảng
có cùng kích thước, hoặc theo chiều sau bằng cách chia miền giá trị thành N khoảng


15

có số mẫu tương đương. Sau đó khử nhiễu bằng các phương pháp giá trị trung bình,
biên của giỏ...
 Dùng phương pháp hồi quy tuyến tính để tìm được quan hệ giữa các biến
hoặc thuộc tính, sau đó suy ra thuộc tính từ giá trị của thuộc tính khác.
 Tổ chức các giá trị tương tự nhau thành các cụm và xem xét các giá trị ở
ngoài cụm để làm mịn dữ liệu.

 Bước 4: Thực hiện những chuyển đổi cần thiết
Kiểu dữ liệu cần có để đưa vào mỗi thuật toán là khác nhau, do vậy, ta cần
chuyển đổi dữ liệu sang dạng cần thiết trước khi đưa vào khai phá, huấn luyện. Các
dạng chuyển đổi thông dụng được liệt kê sau đây:
Chuyển đổi kiểu dữ liệu từ dạng logic nhị phân (true-false) sang dữ liệu số
nguyên hoặc theo chiều ngược lại.
Rời rạc hóa: Đưa dữ liệu từ miền giá trị có tính liên tục thành các nhãn rời rạc
thay cho giá trị thực. Đây cũng là kiểu chuyển đổi cơ bản sẽ được áp dụng trong luận
văn này để thực hiện phân lớp dùng cây quyết định.
Phân giá trị trong một cột thành nhóm rồi chuyển đổi giá trị thành tên nhóm
giúp thu gọn phạm vi giá trị của mẫu.
Chuẩn hóa các giá trị theo tỷ lệ để đưa về một dải giá trị nhất định (thường là
các khoảng 0.0 đến 1.0, -1.0 đến 1.0). Kiểu chuyển đổi dữ liệu này thường được tìm
thấy trong các bài tốn liên quan đến độ sai lệch hoặc dùng mạng nơ-ron để gán nhãn
dữ liệu.
 Bước 5: Khai phá dữ liệu
Đây là bước cốt lõi trong tồn bộ q trình khai phá dữ liệu. Tại bước này, cần
áp dụng những chiến thuật khai phá dữ liệu cùng thuật toán phù hợp để tìm ra thơng
tin từ dữ liệu đã được chuẩn bị kỹ càng trong 4 bước trước đó. Kết quả của bước này
chính là mơ hình sau huấn luyện. Mơ hình sẽ khám phá ra những kiểu mẫu, quy luật
của dữ liệu để đưa ra xu hướng dự đốn. Có nhiều kỹ thuật có thể được kể đến như:
phân nhóm (clustering), luật kết hợp (Association rules), hồi quy (regression), phân
lớp (classification). Ta sẽ nói rõ hơn về các kỹ thuật này trong phần ngay sau đây.


16

 Bước 6: Đánh giá
Để thuận tiện hơn cho quá trình xem xét kết quả, đối chiếu mẫu, mơ hình trong
bước này cũng có thể được minh họa, biểu diễn bằng bảng biểu, sơ đồ. Sau đó, mơ

hình sẽ được kiểm thử, đánh giá tính đúng đắn, độ chính xác bằng những kỹ thuật
kiểm thử mơ hình. Kỹ thuật phổ biến trong việc đánh giá độ chính xác của mơ hình
là k-fold với việc chia dữ liệu ra thành k nhóm (fold), lấy ra 1 nhóm, loại bỏ nhãn của
nhóm đó rồi đưa vào mơ hình được huấn luyện từ (k-1) nhóm còn lại và đối chiếu với
nhãn ban đầu.
1.2.3 Các kỹ thuật khai phá dữ liệu
Các kỹ thuật khai phá dữ liệu thường gặp là: phân lớp, phân cụm, dự đoán, hồi
quy và mạng nơ-ron.
 Phân lớp
Phân lớp là kỹ thuật khai thác dữ liệu được áp dụng phổ biến nhất, sử dụng
một tập hợp các mẫu để tạo ra mơ hình có thể phân loại tổng thể các bản ghi. Các ứng
dụng phát hiện gian lận và tín dụng đặc biệt phù hợp với loại kỹ thuật này.
Cách tiếp cận này thường sử dụng cây quyết định hoặc các thuật tốn phân
loại dựa trên mạng nơron. Q trình phân lớp dữ liệu bao gồm huấn luyện và phân
lớp. Trong bước huấn luyện, dữ liệu huấn luyện được phân tích bằng thuật tốn phân
lớp. Tập hợp dữ liệu được sử dụng để ước tính độ chính xác của các quy tắc phân lớp.
Nếu độ chính xác là chấp nhận được thì mơ hình sẽ được áp dụng cho các bộ dữ liệu
mới.
Thuật toán huấn luyện phân lớp sử dụng các mẫu được phân loại trước để xác
định tập hợp các tham số cần thiết để phân loại thích hợp. Sau đó, thuật tốn mã hóa
các tham số này thành một mơ hình được gọi là bộ phân loại (classifier).
Các loại mơ hình phân loại: phân loại theo cây quyết định, phân loại Bayes,
mạng nơ-ron.
 Phân cụm
Phân cụm có thể nói là xác định các lớp tương tự của các đối tượng. Bằng cách
sử dụng các kỹ thuật phân cụm, ta có thể xác định thêm các vùng phân bố dày đặc


×