Tải bản đầy đủ (.pdf) (73 trang)

Xây dựng hệ hỗ trợ tư vấn hướng nghiệp cho học sinh THPT trên địa bàn nội thành thành phố hải phòng dựa trên việc phân lớp dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.97 MB, 73 trang )

BỘ GIAO THÔNG VẬN TẢI

BỘ GIÁO DỤC ĐÀO TẠO

TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

BÙI THỊ MỪNG

XÂY DỰNG HỆ HỖ TRỢ TƢ VẤN HƢỚNG NGHIỆP
CHO HỌC SINH THPT TRÊN ĐỊA BÀN HẢI PHÒNG
DỰA TRÊN PHÂN LỚP DỮ LIỆU

LUẬN VĂN THẠC SĨ KỸ THUẬT

HẢI PHÒNG – 2016


BỘ GIAO THÔNG VẬN TẢI

BỘ GIÁO DỤC ĐÀO TẠO

TRƢỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

BÙI THỊ MỪNG

XÂY DỰNG HỆ HỖ TRỢ TƢ VẤN HƢỚNG NGHIỆP
CHO HỌC SINH THPT TRÊN ĐỊA BÀN HẢI PHÒNG
DỰA TRÊN PHÂN LỚP DỮ LIỆU
LUẬN VĂN THẠC SĨ KỸ THUẬT

NGÀNH: CÔNG NGHỆ THÔNG TIN; MÃ SỐ: 60480201


CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

Ngƣời hƣớng dẫn: TS. Nguyễn Trọng Đức

HẢI PHÒNG – 2016


LỜI CAM ĐOAN
Tôi xin cam đoan đây là luận văn, công trình nghiên cứu của riêng tôi. Các
kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất
kỳ đề tài, công trình nào khác.
Tôi xin cam đoan rằng các thông tin trích dẫn trong luận văn đều đã đƣợc
chỉ rõ nguồn gốc.
Ngày 15 tháng 3 năm 2016

Bùi Thị Mừng

i


LỜI CẢM ƠN
Luận văn tốt nghiệp cao học chuyên ngành công nghệ thông tin đƣợc hoàn
thành tại Trƣờng Đại học Hàng Hải Việt Nam. Có đƣợc bản luận văn tốt nghiệp
này, tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc đến Trƣờng Đại học Hàng
Hải Việt Nam, Viện Đào tạo sau Đại học, đặc biệt là Tiến sỹ Nguyễn Trọng Đức
đã trực tiếp hƣớng dẫn, dìu dắt, giúp đỡ tôi với những chỉ dẫn khoa học quý giá
trong suốt quá trình triển khai, nghiên cứu và hoàn thành đề tài nghiên cứu của
mình.
Tôi xin chân thành cảm ơn các thầy, cô giáo đã trực tiếp giảng dạy, truyền
đạt những kiến thức khoa học chuyên ngành công nghệ thông tin cho bản thân

tôi trong toàn bộ thời gian của khóa học.
Cuối cùng, tôi muốn gửi lời cảm ơn sâu sắc đến gia đình, bạn bè đã luôn
kịp thời động viên, giúp đỡ tôi vƣợt qua những khó khăn trong cuộc sống để
hoàn thành đƣợc luận văn này.
Mặc dù có nhiều cố gắng để thực hiện đề tài một cách hoàn chỉnh nhất. Song
do mới làm quen với công tác nghiên cứu khoa học, tiếp cận với công nghệ mới
cũng nhƣ hạn chế về kiến thức và kinh nghiệm nên không thể tránh khỏi những
thiếu sót nhất định mà bản thân tôi chƣa nhận thức đƣợc. Tôi rất mong nhận đƣợc
sự góp ý chân thành của Quý thầy, cô và các bạn để đề tài đƣợc hoàn chỉnh hơn.
Xin chân thành cảm ơn!

ii


MỤC LỤC
LỜI CAM ĐOAN................................................................................................... i
LỜI CẢM ƠN ....................................................................................................... ii
MỤC LỤC ............................................................................................................ iii
DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU ........................................... v
DANH MỤC CÁC BẢNG................................................................................... vi
DANH MỤC CÁC HÌNH ................................................................................... vii
MỞ ĐẦU ............................................................................................................... 1
Chƣơng 1. TỔNG QUAN ..................................................................................... 3
1.1. Tổng quan về vấn đề nghiên cứu ................................................................... 3
1.1.1. Một số khái niệm liên quan đến tƣ vấn hƣớng nghiệp ................... 3
1.1.2. Giới thiệu về bài toán hệ hỗ trợ tƣ vấn hƣớng nghiệp .................... 3
1.2. Tổng quan về khai phá dữ liệu ....................................................................... 4
1.2.1. Khái niệm ........................................................................................ 4
1.2.3. Các giai đoạn của quá trình khai phá tri thức trong CSDL ............ 6
1.2.4. Kiến trúc hệ thống khai phá dữ liệu .............................................. 10

1.2.5. Một số kỹ thuật khai phá dữ liệu .................................................. 11
1.3. Kết luận chƣơng 1 ........................................................................................ 14
Chƣơng 2. HỆ HỖ TR RA QUYẾT Đ NH TƢ VẤN HƢỚNG NGHIỆP ...... 15
2.1. Tổng quan về hệ hỗ trợ ra quyết định .......................................................... 15
2.1.1. Khái niệm ...................................................................................... 15
2.1.2. Cấu trúc hệ hỗ trợ ra quyết định ................................................... 16
2.2. Bài toán phân lớp dữ liệu với cây quyết định .............................................. 17
2.2.1. Khái niệm phân lớp dữ liệu........................................................... 17
2.2.2. Quá trình phân lớp dữ liệu ............................................................ 18
2.2.3. Một số phƣơng pháp phân lớp dữ liệu .......................................... 19
iii


2.3. Cây quyết định ............................................................................................. 22
2.3.1. Khái niệm cây quyết định ............................................................. 22
2.3.2. Quá trình xây dựng cây quyết định ............................................... 23
2.3.3. Thuật toán ID3 xây dựng cây quyết định ..................................... 24
2.3.4. Chọn thuộc tính phân hoạch tốt nhất ............................................ 26
2.4. Ứng dụng phƣơng pháp cây quyết định để xây dựng DSS cho bài toán tƣ
vấn hƣớng nghiệp. ....................................................................................... 33
2.4.1. Giới thiệu phần mềm khai phá dữ liệu Weka Explorer 3.6.3 ....... 33
2.4.2. Xác định mục tiêu của hệ thống và vấn đề cần giải quyết............ 35
2.4.3. Mô tả hệ thống .............................................................................. 35
Hình 2.9. Mô hình hệ hỗ trợ tƣ vấn hƣớng nghiệp ................................. 36
2.4.4. Quy trình giải quyết bài toán ........................................................ 37
2.5. Kết luận chƣơng 2 ........................................................................................ 55
Chƣơng 3. CÀI ĐẶT VÀ THỬ NGHIỆM ......................................................... 56
3.1. Mô hình Hệ hỗ trợ tƣ vấn hƣớng nghiệp...................................................... 56
3.2. Chức năng của hệ hỗ trợ tƣ vấn hƣớng nghiệp ............................................ 56
3.3. Chuẩn bị và thiết kế CSDL .......................................................................... 56

3.4. Công nghệ sử dụng....................................................................................... 57
3.5. Giao diện hệ hỗ trợ tƣ vấn hƣớng nghiệp .................................................... 57
3.6. Đánh giá ƣu, nhƣợc điểm của hệ thống ....................................................... 59
3.7. Đánh giá kết quả thử nghiệm ....................................................................... 60
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN .......................................................... 61
TÀI LIỆU THAM KHẢO ................................................................................... 63

iv


DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU
Chữ viết tắt

Giải thích

CSDL

Cơ sở dữ liệu

KDD

Knowledge Discovery in Databases

THPT

Trung học phổ thông

DM

Data Mining


SQL

Structured Query Language

v


DANH MỤC CÁC BẢNG
Số
bảng

Tên bảng

Trang

2.1

Dữ liệu thi đại học

28

2.2

Thông tin thuộc tính “toan”

29

2.3


Thông tin thuộc tính “ly”

29

2.4

Thông tin thuộc tính “hoa”

29

2.5

Thông tin thuộc tính “sinh”

30

2.6

Thông tin thuộc tính “nguvan”

30

2.7

Thông tin thuộc tính “su”

30

2.8


Thông tin thuộc tính “dia”

31

2.9

Thông tin thuộc tính “ngoaingu”

31

2.10

Độ lợi thông tin của các thuộc tính

31

2.11

Bảng điểm tổng kết

35

2.12

Bảng dữ liệu Kết quả học tập của học sinh

37

2.13


Khối thi-môn thi

38

2.14

Dữ liệu ngành nghề

38

2.15

Dữ liệu trƣờng đại học, cao đẳng trên cả nƣớc

40

2.16

Dữ liệu trƣờng cao đẳng nghề tại Hải Phòng

40

vi


DANH MỤC CÁC HÌNH
Số hình
Tên hình
Quá trình khai phá tri thức trong CSDL
1.1


Trang
6

1.2

Kiến trúc tổng quát hệ thống khai phá dữ liệu

10

1.3

Một số kỹ thuật khai phá dữ liệu

11

2.1

Xây dựng mô hình phân lớp dữ liệu

18

2.2

Sử dụng mô hình phân lớp dữ liệu

19

2.3


Mô hình cây quyết định

20

2.4

Một mô hình SVM

21

2.5

Một mô hình mạng nơron

22

2.6

Ví dụ về cây quyết định

23

2.7

Kết quả cây quyết định với tập dữ liệu học trong bảng 2.1

33

2.8


Giao diện phần mềm Weka

34

2.9

Mô hình hệ hỗ trợ tƣ vấn hƣớng nghiệp

36

2.10

Thiết lập thông số cho giá trị mới trong weka

43

2.11

Thêm giá trị mới cho thuộc tính rời rạc

44

2.12

Thuộc tính “toan” sau khi rời rạc

44

2.13


Mô hình dự đoán thi đại học

45

2.14

Cây quyết định đầy đủ với thuộc tính Thidh

48

2.15

Nhánh trái cây quyết định Thidh

49

2.16

Mô hình dự đoán khối thi, ngành nghề

50

2.17

Cây quyết định đầy đủ

51

3.1


Mô hình hệ hỗ trợ tƣ vấn hƣớng nghiệp

56

3.2

Giao diện màn hình trƣớc khi tƣ vấn

58

3.3

Giao diện màn hình trƣớc khi tƣ vấn

58

3.4

Giao diện màn hình test dữ liệu

59

vii


MỞ ĐẦU
Định hƣớng nghề nghiệp tƣơng lai luôn là chủ đề thu hút đƣợc nhiều sự
quan tâm của toàn thể xã hội, các gia đình và thế hệ trẻ, đặc biệt đối với các em
học sinh lớp 12 THPT. Việc định hƣớng nghề nghiệp cho học sinh THPT đƣợc
xem là bƣớc khởi đầu quan trọng trong quá trình đào tạo và phát triển nguồn

nhân lực.
Hiện nay cả xã hội đang quan tâm đến các số liệu thất nghiệp của các sinh
viên sau tốt nghiệp đại học. Với tâm lý phải vào đại học bằng mọi giá, nhiều bậc
phụ huynh vô hình chung đã đè nặng lên vai các sỹ tử một gánh nặng và tƣ
tƣởng chỉ có con đƣờng duy nhất là học đại học. Trong khi đó các bậc phụ
huynh và chính bản thân các sỹ tử vẫn chƣa thực sự đánh giá đúng năng lực và
sở thích, nguyện vọng của bản thân mình. Do đó nhiều học sinh lớp 12 THPT đã
nộp đơn xin thi, đăng ký dự tuyển vào những ngành học không đúng với năng
lực, học lực và sở thích của mình dẫn đến nhiều trƣờng hợp bỏ học giữa chừng,
chuyển nghề hoặc không thể tiếp tục theo học vì không đáp ứng đƣợc yêu cầu
học tập, nhiều trƣờng hợp đã phải chuyển nghề vì thấy không phù hợp…, điều
này đã gây lãng phí rất lớn về thời gian và các nguồn lực cho bản thân, gia đình
và xã hội.
Mặc dù vậy vẫn khẳng định kỳ thi tốt nghiệp THPT và thi hay tham gia dự
tuyển đại học hoặc tham gia học tập nghề nghiệp sau THPT là hết sức quan
trọng và cần nhiều sự quan tâm đặc biệt của toàn thể xã hội, nhất là đòi hỏi sự
quan tâm của ngành giáo dục đào tạo.
Công tác tƣ vấn hƣớng nghiệp, định hƣớng nghề nghiệp, ngành học là công
việc hết sức quan trọng để giúp cho học sinh tự đánh giá đƣợc năng lực của bản
thân, hiểu biết thêm về các ngành nghề, giúp các em có nhiều sự lựa chọn và có
quyết định lựa chọn hợp lý cho tƣơng lai của mình. Để quyết định tƣơng lai của
mình, các học sinh THPT, đặc biệt các em học sinh lớp 12 luôn xác định rõ năng
lực bản thân, học lực của mình, tìm hiểu thêm về các ngành nghề, từ đó lựa chọn
cho mình hƣớng đi sau tốt nghiệp THPT là: Nghề nghiệp- Ngành học- Trƣờng
1


đào tạo. Đó là cách giúp các em nhanh chóng có đƣợc quyết định của mình, nhất
là trong giai đoạn cuối học kỳ 2, chuẩn bị thi tốt nghiệp, thời điểm mà các em rất
cần thời gian, tập trung cho học tập, ôn luyện. Vào thời điểm này cũng là lúc rất

nhiều các trƣờng tập trung công tác tƣ vấn hƣớng nghiệp, lƣợng thông tin tràn
ngập, thời điểm quyết định đến gần, áp lực ôn tập lớn…, và hơn nữa công tác tƣ
vấn tuyển sinh hiện nay vẫn theo mô hình của từng trƣờng, theo các ngành học
của các trƣờng đang đào tạo, dẫn đến lƣợng thông tin vẫn trải dài chƣa có hệ
thống theo mô hình: Nghề- Ngành- Trƣờng, học sinh vẫn đứng trƣớc sự phân
vân lựa chọn, và khi có quyết định lựa chọn đƣợc ngành học vẫn mất nhiều thời
gian để xác định trƣờng đào tạo, mã ngành, môn thi…
Để khắc phục các tồn tại trên và nâng cao hiệu quả cho công tác tƣ vấn
hƣớng nghiệp- tuyển sinh đào tạo, giúp cho học sinh lớp 12 và gia đình có sự
lựa chọn đúng đắn và tiết kiệm nhiều thời gian trong việc tìm hiểu thông tin để
đăng ký thi, xét tuyển tôi xây dựng đề tài: "Xây dựng hệ hỗ trợ Tƣ vấn hƣớng
nghiệp cho học sinh THPT trên địa bàn nội thành thành phố Hải Phòng
dựa trên việc phân lớp dữ liệu" cho luận văn tốt nghiệp của mình.
Luận văn gồm 3 chƣơng:
Chƣơng 1: Tổng quan
Trình bày tổng quan về bài toán xây dựng hệ hỗ trợ tƣ vấn hƣớng nghiệp và
tổng quan về khai phá dữ liệu.
Chƣơng 2: Hệ hỗ trợ ra quyết định tƣ vấn hƣớng nghiệp.
Trình bày tổng quan về hệ hỗ trợ ra quyết định. Sau đó, trình bày ứng dụng
phƣơng pháp phân lớp dữ liệu bằng cây quyết định để xây dựng hệ hỗ trợ tƣ vấn
hƣớng nghiệp.
Chƣơng 3: Cài đặt và thử nghiệm
Trình bày các bƣớc triển khai cài đặt, đƣa ra kết quả minh họa của luận văn
cùng với việc đánh giá kết quả đạt đƣợc và hƣớng phát triển của đề tài.
2


Chƣơng 1. T NG QUAN
1.1. T ng quan v vấn đ nghiên cứu
1.1.1. Một số khái niệm liên quan đến tƣ vấn hƣớng nghiệp

Nghề nghiệp là một dạng lao động đòi hỏi ở con ngƣời một quá trình đào
tạo chuyên biệt, có những kiến thức, kĩ năng, kĩ xảo chuyên môn, có phẩm chất,
đạo đức phù hợp với yêu cầu.[1]
Có thể coi nghề nghiệp là việc làm, nhƣng những việc làm không ổn định,
nhất thời, do con ngƣời bỏ sức lao động giản đơn và đƣợc trả công để sinh sống
thì không phải là nghề nghiệp.
Hƣớng nghiệp là sự tác động của nhà trƣờng, gia đình và các tổ chức xã hội
vào thế hệ trẻ, giúp các em có những hiểu biết về một số ngành nghề phổ biển
trong xã hội để khi tốt nghiệp ra trƣờng, các em có thể lựa chọn cho mình một
cách có ý thức nghề nghiệp tƣơng lai.
Tƣ vấn hƣớng nghiệp đƣợc hiểu là việc đối chiếu những yêu cầu của nghề,
của thị trƣờng lao động với hứng thú, khuynh hƣớng và năng lực của học sinh,
cùng với học sinh hình thành quyết định nên học nghề nào thì phù hợp với bản
thân.
Từ các hoạt động tƣ vấn hƣớng nghiệp, học sinh đƣợc tiếp cận những
nguồn thông tin hữu ích để từ đó có thể định hƣớng và đƣa ra những quyết định
chính xác hơn về nghề và điều chỉnh xu hƣớng nghề một cách phù hợp.
1.1. . Giới thiệu v bài toán hệ hỗ trợ tƣ vấn hƣớng nghiệp
Hiện nay, vấn đề tƣ vấn hƣớng nghiệp, tuyển sinh đại học đang nhận đƣợc
sự quan tâm rất lớn của xã hội. Tƣ vấn hƣớng nghiệp, tuyển sinh tập trung vào
nhiệm vụ chính là làm sao giúp cho các em học sinh có thể chọn đƣợc ngành
học phù hợp với năng lực của mình. Luận văn tập trung nghiên cứu kỹ thuật
phân lớp dữ liệu trong khai phá dữ liệu để xây dựng mô hình dự đoán nhằm tƣ
vấn cho thí sinh có thể chọn đƣợc ngành học phù hợp với năng lực của mình.
3


Dựa vào các tri thức phát hiện đƣợc từ mô hình dự đoán, một giao tiếp đƣợc xây
dựng để ngƣời dùng có thể tham khảo thêm các tri thức này vào việc chọn ngành
học cho mình.

Bài toán nhằm tƣ vấn cho những học sinh khá, giỏi nên thi ĐH và nên thi
nghành gì phù hợp với năng lực, nguyện vọng của bản thân, còn đối với những
học sinh có học lực trung bình khuyến khích dự thi hoặc xét tuyển vào các
trƣờng trung cấp nghề và cao đẳng nghề.
Hiện nay, trên địa bàn thành phố Hải Phòng có tất cả 40 trƣờng THPT quốc
lập và 18 trƣờng THPT dân lập. Theo thống kê thì hàng năm Hải Phòng có
khoảng 18000 học sinh tốt nghiệp THPT. Từ dữ liệu về lý lịch học sinh, kết quả
học tập của học sinh, làm thế nào để thu thập đƣợc các thông tin có ích, hỗ trợ
cho công tác tƣ vấn hƣớng nghiệp chẳng hạn nhƣ:
- Dự đoán những học sinh nào nên thi tuyển đại học, những học sinh nào
nên theo học nghề.
- Dự đoán thiên hƣớng học khối nào, ngành nghề nào, trƣờng nào phù hợp
với năng lực của các em.
Để giải quyết đƣợc các vấn đề này thì từ kho dữ liệu lƣu giữ các thông tin
về lý lịch và kết quả học tập của học sinh THPT, danh sách các ngành nghề,
danh sách các trƣờng đào tạo. Hệ thống thực hiện chức năng: khai phá kho dữ
liệu đã có và tìm ra những quy luật dựa trên những mô hình đã đƣợc xây dựng
để tƣ vấn hƣớng nghiệp cho các em sau khi tốt nghiệp THPT. Bên cạnh đó từ dữ
liệu đã thu thập cần dự báo nhu cầu nhân lực với từng ngành học cụ thể.
Nhƣ vậy để tìm hiểu quá trình khai phá dữ liệu và phát hiện tri thức thực
hiện nhƣ thế nào và bằng những kỹ thuật gì thì phần sau sẽ trình bày cụ thể hơn.
1.2. T ng quan v khai phá dữ liệu
1.2.1. Khái niệm
Trong những năm gần đây, số lƣợng thông tin đƣợc lƣu trữ trên các thiết bị
4


điện tử không ngừng gia tăng. Sự tích lũy các dữ liệu diễn ra với một tốc độ
bùng nổ. Ngƣời ta ƣớc tính rằng trên toàn cầu số lƣợng của các thông tin đƣợc
tăng gấp đôi sau khoảng hai năm và do đó cũng tăng kích thƣớc cơ sở dữ liệu

một cách nhanh chóng, cả về số lƣợng hồ sơ cơ sở dữ liệu và số lƣợng các
trƣờng, các thuộc tính [5].
Kho dữ liệu khổng lồ này là tài nguyên rất có giá trị khi nó đƣợc khai phá
và phát hiện ra kiến thức tiềm ẩn trong nó. Những kiến thức tiềm ẩn này thƣờng
là rất nhỏ so với lƣợng dữ liệu thì khổng lồ, do đó phát hiện ra chúng là một vấn
đề khó khăn.
Dữ liệu chứa rất nhiều thông tin giá trị, có lợi cho qui trình ra quyết định
nhƣng với khối lƣợng dữ liệu khổng lồ nhƣ đã kể trên thì không thể phân tích dữ
liệu bằng các phƣơng thức thủ công và cũng không thể thực hiện đƣợc với truy
vấn truyền thống (SQL) vì rất nhiều kiểu câu truy vấn mà con ngƣời quan tâm là
rất khó thực hiện hay miêu tả trong ngôn ngữ vấn tin, chẳng hạn nhƣ: tìm tất cả
các bản ghi nghi là gian lận, tìm tất cả các văn bản tƣơng tự nhƣ văn bản A,
không có nhiều thông tin trong các trƣờng của CSDL…Do đó, khai phá dữ liệu
là một giải pháp giải quyết vấn đề quá tải dữ liệu của thời đại thông tin số [6].
- Tiến sĩ U.M. Fayyad với cách tiếp cận ứng dụng đã phát biểu [7]: “Khai
phá dữ liệu, thường được xem là việc khám phá tri thức trong các cơ sở
dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa
biết và có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui tắc
trong cơ sở dữ liệu”
- Giáo sƣ T. Mitchell định nghĩa trong [12] nhƣ sau : “Khai phá dữ liệu
là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện
những quyết định trong tương lai ”...
Vì vậy, có thể hiểu quá trình khám phá tri thức tiềm ẩn trong cơ sở dữ liệu
chính là khai thác dữ liệu. Cụ thể hơn, nó là quá trình lọc, để tạo ra tri thức
hoặc mẫu mới nhƣng hữu ích từ cơ sở dữ liệu lớn.
Tóm lại, Khai phá dữ liệu là một quá trình học tri thức mới từ những
5


dữ liệu đã thu thập được [3, 8, 10].

Các thuật ngữ khác có ý nghĩa tƣơng tự thuật ngữ khai phá dữ liệu nhƣ:
khảo cổ dữ liệu (Data archaeology), phân tích dữ liệu/mẫu (Data/pattern
analysis), trích lọc dữ liệu (Knowlegde extraction), nạo vét dữ liệu (Data
dredging)...
Hiện nay, khai phá dữ liệu và phát hiện tri thức đƣợc ứng dụng và triển
khai trong thực tế, đem lại hiệu quả cao cho sản xuất kinh doanh và nghiên cứu
khoa học. Ví dụ nhƣ hệ thống SKICAT đƣợc sử dụng để phân tích ảnh vệ tinh,
phân loại và sắp xếp nhóm các vật thể không gian từ các ảnh quan sát vũ trụ; hệ
thống xử lý sự cố CASSIOPEE đƣợc dùng để phát hiện và tiên đoán các sự cố
của máy bay Boeing; hệ thống TASA dùng để phân tích các lỗi báo động trên
đƣờng truyền trong lĩnh vực viễn thông.
Theo tạp chí về công nghệ của trƣờng MIT số ra tháng 1-2 năm 2001
“Khai phá dữ liệu được xem là một trong 10 công nghệ nổi bật nhất của thế kỷ
21”.
1.2.3. Các giai đoạn của quá trình khai phá tri thức trong CSDL
Quá trình khai phá tri thức có thể phân thành các giai đoạn nhƣ hình 1.1:

Hình 1.1- Quá trình khai phá tri thức trong CSDL
6


 Giai đoạn 1: Xác định mục tiêu và nhiệm vụ
Cũng giống nhƣ bất kỳ dự án thông thƣờng nào, bƣớc đầu tiên trong quá
trình khai phá tri thức là phải tìm hiểu lĩnh vực ứng dụng, xác định rõ mục tiêu
và nhiệm vụ của bài toán. Giai đoạn này là điều kiện tiên quyết cho việc trích rút
tri thức và lựa chọn kỹ thuật khai phá dữ liệu thích hợp với mục tiêu của dụng và
đặc điểm của dữ liệu. Do đó, để khai phá dữ liệu đạt hiệu quả cao, cần phải có
một mô tả đầy đủ về mục tiêu cần đạt tới.
 Giai đoạn 2: Thu thập và trích lọc dữ liệu
Dựa trên mục tiêu bài toán tiến hành thu thập các dữ liệu liên quan. Tiến

hành thu thập những dữ liệu có sẵn, những dữ liệu cần thiết bổ sung sau đó tích
hợp tất cả các dữ liệu cho việc khám phá tri thức vào một tập hợp dữ liệu. Trích
lọc dữ liệu theo một tiêu chí nhất định nào đó dựa trên mục tiêu bài toán. Quá
trình này là rất quan trọng vì nếu một số thuộc tính quan trọng bị bỏ qua dẫn tới
toàn bộ nghiên cứu thất bại.
 Giai đoạn 3: Tiền xử lý dữ liệu
Thông thƣờng dữ liệu trong thực tế chƣa đáp ứng cho việc khai phá dữ liệu
chẳng hạn nhƣ trùng lặp hoặc thiếu dữ liệu, thiếu thuộc tính hoặc thiếu giá trị
của thuộc tính… Tình trạng đó có thể dẫn đến kết quả sai, kém tin tƣởng. Vì thế
dữ liệu để khai phá cần phải đƣợc tiền xử lý.
Giai đoạn tiền xử lý dữ liệu bao gồm làm sạch dữ liệu, rút gọn dữ liệu.
- Làm sạch dữ liệu: là quá trình xử lý dữ liệu bị thiếu, dữ liệu không nhất
quán, dữ liệu nhiễu, ...
Đối với việc xử lý dữ liệu bị thiếu có thể bỏ qua mẫu dữ liệu đó nếu mẫu
dữ liệu chứa nhiều thuộc tính thiếu giá trị hoặc điền vào các giá trị thiếu bằng
tay hoặc bằng phƣơng pháp toán học
Đối với việc xử lý dữ liệu nhiễu có một số giải pháp sau:
7


• Phƣơng pháp chia giỏ: sắp xếp và chia dữ liệu vào các giỏ theo độ rộng
(chia vùng giá trị thành N khoảng cùng kích thƣớc), hoặc theo độ sâu (chia vùng
giá trị thành N khoảng mà mỗi khoảng có chứa gần nhƣ cùng số lƣợng mẫu).
Khử nhiễu bằng giá trị trung bình, trung tuyến, biên giỏ…
• Hồi quy: Phƣơng pháp thƣờng dùng là hồi quy tuyến tính, để tìm ra đƣợc
một mối quan hệ tốt nhất giữa hai thuộc tính (hoặc các biến), từ đó một thuộc
tính có thể dùng để dự đoán thuộc tính khác.
• Gom nhóm (clustering): Các giá trị tƣơng tự nhau đƣợc tổ chức thành các
nhóm hay cụm. Các giá trị rơi ra bên ngoài các nhóm này sẽ đƣợc xem xét để
làm mịn.

- Rút gọn dữ liệu:
Quá trình này đòi hỏi phải có một kỹ thuật phù hợp sao cho dữ liệu sau khi
đƣợc rút gọn vẫn có khả năng đƣợc khai phá hiệu quả. Việc rút gọn dữ liệu bao
gồm các phƣơng pháp nhƣ tổng hợp và tổng quát hóa, giảm chiều dữ liệu, nén
dữ liệu, giảm số lƣợng các bản ghi, rời rạc hóa.
• Tổng hợp dữ liệu và tổng quát hóa: tổ hợp từ hai thuộc tính trở lên thành
một thuộc tính, tổng quát dữ liệu cấp thấp vào dữ liệu cấp cao chẳng hạn nhƣ
các thành phố tổng hợp vào vùng, khu vực, nƣớc…
• Giảm chiều dữ liệu: thực hiện trích chọn đặc trƣng, tìm ra tập các thuộc
tính có khả năng khai phá tốt nhất loại bỏ các thuộc tính không liên quan, dƣ
thừa bằng phƣơng pháp vét cạn, phƣơng pháp Heuristic, cây quyết định (các
thuộc tính nằm trong cấu trúc cây quyết định sẽ đƣợc lựa chọn. Thuộc tính nào
không đƣợc đƣa vào cây quyết định sẽ bị loại bỏ, do thuộc tính đó có ảnh hƣởng
không lớn đến kết quả.)…
• Nén dữ liệu: dùng biến đổi wavelet, phân tích thành phần cơ bản…
 Giai đoạn 4: Biến đổi dữ liệu
Một số kỹ thuật áp dụng cho quá trình biến đổi dữ liệu:
- Chuyển đổi kiểu dữ liệu: Chẳng hạn nhƣ chuyển các cột dữ liệu kiểu
8


logic sang dạng nguyên và ngƣợc lại.
- Rời rạc hóa: biến đổi miền giá trị thuộc tính liên tục thành từng khoảng,
lƣu nhãn của khoảng thay cho giá trị thực. Chẳng hạn nhƣ thay thế giá trị tuổi
bằng các nhãn nhƣ trẻ, trung niên, già.
- Nhóm: Kỹ thuật này phân loại các giá trị trong một cột thành các nhóm,
sau đó ánh xạ giá trị ban đầu sang các giá trị nhóm tƣơng ứng. Chẳng hạn cột
ngành nghề có những giá trị khác nhau nhƣ khoa học máy tính, truyền thông và
mạng máy tính, kỹ thuật phần mềm, công nghệ thông tin… thì chúng ta có thể
nhóm chúng lại thành nhóm ngành máy tính và công nghệ thông tin.

- Chuẩn hóa: Một thuộc tính đƣợc chuẩn hóa bằng cách ánh xạ một cách có
tỉ lệ dữ liệu về một khoảng xác định ví dụ nhƣ 0.0 đến 1.0. Chuẩn hóa là một
phần hữu ích của thuật toán phân lớp trong mạng noron, hoặc thuật toán tính
toán độ lệch sử dụng trong việc phân lớp hay nhóm cụm các phần tử liền kề.
 Giai đoạn 5: Khai phá dữ liệu
Giai đoạn này áp dụng những kỹ thuật khai phá và thuật toán phù hợp
nhằm khai thác dữ liệu. Bao gồm các kỹ thuật khai phá nhƣ:
 Phân lớp, phân loại (Classification)
 Hồi quy (Regression)
 Phân cụm(Clustering)
 Khai thác mẫu tuần tự (Sequential/ Temporal patterns)
 Phân tích luật kết hợp (Association Rules)
 Phát hiện sự thay đổi và độ lệch (change and deviation dectection).
Trong mỗi kỹ thuật khai phá trên có thể có nhiều thuật toán khai phá dó đó
cần lực chọn thuật toán nào có hiệu quả cao phụ thuộc vào rất nhiều yếu tố,
trong đó cấu trúc dữ liệu ảnh hƣởng rất lớn đến kết quả của các thuật toán.
Chẳng hạn nhƣ thuật toán ID3 và CART cho hiệu quả phân lớp rất cao đối với
9


các trƣờng dữ liệu số (quantitative value) trong khi đó các thuật toán nhƣ J48,
C4.5 có hiệu quả hơn đối với các dữ liệu Qualititive value (ordinal, Binary,
nominal).
 Giai đoạn 6: Đánh giá mẫu và suy diễn đưa ra tri thức
Sau giai đoạn khai phá dữ liệu sẽ phát hiện đƣợc những mẫu tin
(imformation parttems) hoặc những mối quan hệ đặc biệt sẽ đƣợc biểu diễn ở
dạng cây, luật, đồ thị, bảng biểu,.... để gần gũi với ngƣời sử dụng. Cũng trong
giai đoạn này tiến hành đánh giá tri thức dựa trên những tiêu chí nhất định tùy
theo từng bài toán.
1.2.4. Kiến trúc hệ thống khai phá dữ liệu

Một hệ thống khai phá dữ liệu có kiến trúc đƣợc thể hiện trong hình sau:

Hình 1.2- Kiến trúc hệ thống khai phá dữ liệu
- Máy chủ cơ sở dữ liệu hay kho dữ liệu (Database or warehouse
server): có nhiệm vụ lấy dữ liệu thích hợp dựa trên những yêu cầu, mục tiêu
khai phá của bài toán.
- Máy khai phá dữ liệu (Data mining engine): Tùy theo từng phƣơng
10


pháp kỹ thuật khai phá dữ liệu cần xây dựng các modun khác nhau đảm nhiệm
từng chức năng cụ thể chẳng hạn nhƣ: phân lớp, phân loại, đặc trƣng hóa, tổng
hợp, phân cụm, phân tích sự tiến hoá...
- Đánh giá mẫu (Pattern evaluation): Modun này tƣơng tác với mođun
khai phá dữ liệu để đánh giá các mẫu có ích và đáng tin cậy. Trong một số
trƣờng hợp, 2 modun đánh giá mẫu và modun khai phá dữ liệu đƣợc tích hợp
vào nhau.
- Cơ sở tri thức (Knowledge base): Đây là kho tri thức đƣợc dùng để ánh
xạ hay đánh giá độ quan trọng của các mẫu thông tin.
- Giao diện đồ họa cho ngƣời dùng (Graphical user interface): ngƣời
dùng tƣơng tác với hệ thống thông qua giao diện này.
1.2.5. Một số kỹ thuật khai phá dữ liệu
Kỹ thuật khai phá dữ liệu thƣờng đƣợc chia làm 2 nhóm chính [13]:

Hình 1.3. Một số kỹ thuật khai phá dữ liệu
 Dự đoán: là sử dụng một vài biến để dự báo giá trị chƣa biết hoặc giá
trị tƣơng lai của các biến khác. Dự đoán bao gồm các kỹ thuật:
11



- Phân lớp (classification) [7]: Là việc xác định một hàm ánh xạ từ một

mẫu dữ liệu vào một trong số các lớp đã đƣợc biết trƣớc đó dựa trên đặc trƣng
của tập dữ liệu. Ví dụ, phân lớp các bệnh nhân, phân lớp các loài thực vật, ....
Quá trình phân lớp dữ liệu thƣờng gồm các bƣớc: huấn luyện mô hình, kiểm thử
và đánh giá mô hình. Dữ liệu gốc sẽ đƣợc chia thành 2 phần là Training Set (để
xây dựng model) và Testing Set (để kiểm định model) tƣơng ứng với hai bƣớc
trên. Trong kỹ thuật phân lớp chúng ta có thể sử dụng các phƣơng pháp nhƣ: cây
quyết định, mạng noron, giải thuật di truyền, mạng Bayesian, tập mờ và tập thô.
- Phân tích hồi quy (regression analysis)[9]: Quá trình học một hàm ánh

xạ từ một tập dữ liệu thành một biến dự đoán có giá trị thực. Phân tích hồi quy
có nhiệm vụ tƣơng tự nhƣ phân lớp nhƣng khác nhau là thuộc tính dự báo là liên
tục còn thuộc tính dự báo của phân lớp phải rời rạc. Ứng dụng của hồi quy là rất
nhiều, ví dụ: bằng các thiết bị cảm biến từ xa dự báo số lƣợng sinh vật phát
quang hiện tại trong khu rừng bằng cách dò tìm vi sóng; ƣớc tính xác suất của
bệnh nhân có thể chết bằng cách kiểm tra các triệu chứng ngƣời bệnh…
- Phát hiện sự thay đổi và độ lệch (change and deviation dectection):

Phƣơng pháp này tập trung vào khám phá những thay đổi có ý nghĩa trong dữ
liệu dựa vào các giá trị chuẩn hay độ đo đã biết trƣớc, phát hiện độ lệch đáng kể
giữa nội dung của tập con dữ liệu và nội dung mong đợi. Hai mô hình độ lệch
thƣờng dùng là lệch theo thời gian và lệch theo nhóm. Độ lệch theo thời gian là
sự thay đổi có nghĩa của dữ liệu theo thời gian. Độ lệch theo nhóm là sự khác
nhau giữa dữ liệu trong hai tập con dữ liệu, tính cả trƣờng hợp tập con của đối
tƣợng này thuộc tập con kia, nghĩa là xác định dữ liệu trong một nhóm con của
đối tƣợng có khác nhau đáng kể so với toàn bộ đối tƣợng [9, 15].
- Khai thác mẫu tuần tự (Sequential/ Temporal patterns): tƣơng tự nhƣ

khai thác luật kết hợp nhƣng có thêm tính thứ tự và tính thời gian. Hƣớng tiếp

cận này có tính dự báo.
 Mô tả: là xác định các mẫu mô tả dữ liệu mà con ngƣời có thể hiểu
đƣợc. Mô tả bao gồm các kỹ thuật:
- Phân cụm (clustering/segmentation): Là việc nhóm các đối tƣợng tƣơng

12


tự nhau vào các cụm sao cho mức độ tƣơng tự nhau trong cùng một cụm là lớn
nhất và mức độ tƣơng tự nhau giữa các đối tƣợng nằm trong các cụm khác nhau
là nhỏ nhất. Các cụm có thể tách nhau hoặc phân cấp hay gối lên nhau. Có nghĩa
là một đối tƣợng có thể vừa thuộc cụm này lại vừa thuộc cụm khác. Khác với
phân lớp dữ liệu ở chỗ phân cụm dữ liệu không yêu cầu định nghĩa trƣớc các
mẫu dữ liệu huấn luyện, vì vậy có thể thấy chúng khác nhau ở chỗ nếu coi phân
lớp dữ liệu là học bằng các ví dụ thì phân cụm dữ liệu là cách học bằng quan sát.
Phân cụm dữ liệu đƣợc ứng dụng nhiều trong phân loại khách hàng, phân đoạn
thị trƣờng, nhận dạng mẫu,… Trong kỹ thuật phân cụm chúng ta có thể sử dụng
các giải thuật nhƣ: K-means, PAM, EM…
- Luật kết hợp (association rules): Phân tích dữ liệu nguồn và đƣa ra các

mối liên hệ giữa các giá trị dữ liệu biểu diễn dƣới dạng luật [14]. Chẳng hạn nhƣ
phân tích cơ sở dữ liệu điểm của sinh viên thu đƣợc thông tin những sinh viên
học giỏi toán thì có điểm tin học cao, thông tin này đƣợc biểu diễn dƣới dạng
luật kết hợp nhƣ sau: “giỏi toán  giỏi tin học”, “70% nữ giới vào siêu thị mua
phấn thì có tới 80% trong số họ cũng mua thêm son”.
Luật kết hợp thƣờng có dạng X ^ Y. Trong đó: X là tiền đề, Y là hệ quả (X,
Y là hai tập của mục). Ý nghĩa trực quan của luật là các giao tác của cơ sở dữ
liệu mà trong đó nội dung X có khuynh hƣớng đến nội dung Y.
Luật kết hợp đƣợc ứng dụng trong nhiều lĩnh vực khác nhau nhƣ y học,
kinh doanh, thị trƣờng chứng khoán, tài chính, phân tích quyết định…Trong kỹ

thuật phân tích luật kết hợp có thể sử dụng các giải thuật nhƣ: thuật toán
Apriori, thuật toán FP-Growth…
Hiện nay, các kỹ thuật khai phá dữ liệu có thể làm việc với rất nhiều kiểu
dữ liệu khác nhau, ví dụ nhƣ: CSDL đa chiều (Multidimensional Data
Structures), CSDL quan hệ, CSDL quan hệ hƣớng đối tƣợng, CSDL giao tác,
CSDL đa phƣơng tiện, dữ liệu không gian và thời gian, dữ liệu văn bản và
web,....
13


1.3. Kết luận chƣơng 1
Nhƣ vậy có thể hiểu khai phá dữ liệu là quá trình khám phá tri thức tiềm
ẩn trong các cơ sở dữ liệu lớn. Hiện nay, khai phá dữ liệu đã và đang đƣợc ứng
dụng một cách rộng rãi trong rất nhiều lĩnh vực khác nhau. Khai phá dữ liệu
trong giáo dục nói chung và trong tƣ vấn hƣớng nghiệp nói riêng là lĩnh vực còn
rất mới và đang thu hút đƣợc sự quan tâm của đông đảo cộng đồng. Khai phá dữ
liệu trong tƣ vấn hƣớng nghiệp, tuyển sinh nhằm giải đáp các câu hỏi trong
hƣớng nghiệp, tuyển sinh từ đó hỗ trợ cho học sinh, sinh viên, các bậc phụ
huynh và các nhà quản lý giáo dục trong việc ra quyết định nhằm nâng cao chất
lƣợng đào tạo.
Vấn đề lựa chọn phương pháp:
Qua phần trình bày trên, có thể thấy rằng có rất nhiều kỹ thuật để khai phá
dữ liệu. Hiện tại vẫn chƣa có một tiêu chuẩn nào trong việc quyết định sử dụng
kỹ thuật khai phá nào trong trƣờng hợp nào thì hiệu quả. Hơn nữa, lại có rất
nhiều kỹ thuật, mỗi kỹ thuật đƣợc sử dụng cho nhiều bài toán khác nhau. Vì vậy,
trả lời cho câu hỏi “Dùng kỹ thuật nào?” là một vấn đề không đơn giản. Mỗi kỹ
thuật đều có điểm mạnh và điểm yếu nhất định, nên vấn đề đối với ngƣời sử
dụng là phải lựa chọn và áp dụng các kỹ thuật một cách thật đơn giản, dễ sử
dụng và hiệu quả.
Hầu hết các kỹ thuật khai phá dữ liệu đều còn mới mẻ với lĩnh vực tƣ vấn

hƣớng nghiệp, tuyển sinh. Trong đề tài nghiên cứu, từ kho dữ liệu ban đầu là kết
quả học tập của học sinh, danh sách các ngành nghề, danh sách các trƣờng đại
học cao đẳng và các trƣờng nghề thì tác giả lựa chọn phƣơng pháp phân lớp dữ
liệu và xây dựng hệ hỗ trợ ra quyết định cho bài toán tƣ vấn hƣớng nghiệp.
Chƣơng 2 sẽ tập trung trình bày về hệ hỗ trợ ra quyết định và áp dụng vào bài
toán tƣ vấn hƣớng nghiệp.

14


Chƣơng . HỆ HỖ TRỢ RA QUYẾT ĐỊNH TƢ VẤN HƢỚNG NGHIỆP
Trong chƣơng này, luận văn sẽ trình bày về hệ hỗ trợ ra quyết định và ứng
dụng vào bài toán tƣ vấn hƣớng nghiệp, bao gồm những nội dung sau:
Tổng quan về hệ hỗ trợ ra quyết định và kỹ thuật phân lớp dữ liệu bằng cây
quyết định.
Ứng dụng vào giải quyết bài toán xây dựng hệ hỗ trợ tƣ vấn hƣớng nghiệp.
.1. T ng quan v hệ hỗ trợ ra quyết định
2.1.1. Khái niệm
Trong thập niên 1970, Scott Morton đƣa ra khái niệm đầu tiên về Hệ hỗ trợ
ra quyết định (Decision Support System - DSS). Ông định nghĩa DSS nhƣ là
những hệ thống máy tính tƣơng tác nhằm giúp những ngƣời ra quyết định sử
dụng dữ liệu và mô hình để giải quyết các vấn đề không có cấu trúc [16].
Thông thƣờng các hệ hỗ trợ quyết định có đặc trƣng gồm:

Phần mềm máy tính


Chức năng hỗ trợ ra quyết định




Làm việc với các bài toán có cấu trúc yếu



Hoạt động theo cách tƣơng tác với ngƣời dùng



Đƣợc trang bị nhiều mô hình phân tích và mô hình dữ liệu.

Ƣu thế của ngƣời ra quyết định:
- Kinh nghiệm
- Khả năng trực giác
- Có óc phán đoán
- Có tri thức

Ƣu thế của máy tính:
- Tốc độ
- Thông tin

15


- Khả năng xử lý

Kết hợp cả ƣu thế của ngƣời ra quyết định và máy tính, ta có ƣu thế của Hệ hỗ
trợ ra quyết định:
- Tăng hiệu quả
- Tăng sự hiểu biết

- Tăng tốc độ
- Tăng tính linh hoạt
- Giảm sự phức tạp
- Giảm chi phí

Hiện tại chƣa có một định nghĩa thống nhất nào về DSS. Tuy nhiên tất cả đều
đồng ý mục đích cơ bản nhất của DSS là để hỗ trợ và cải tiến việc ra quyết định.
2.1.2. Cấu trúc hệ hỗ trợ ra quyết định
Cấu trúc một hệ hỗ trợ ra quyết định gồm có bốn thành phần chính sau:
Ngƣời ra quyết định
Giao diện ngƣời máy
Mô hình phân tích
Mô hình dữ liệu
Chức năng cụ thể của từng thành phần này nhƣ sau:
Người ra quyết định: đối tƣợng chính sử dụng hệ DSS
Giao diện người máy: Đối thoại giữa ngƣời sử dụng và hệ DSS
- Cách dùng hệ DSS
- Cách vận hành
- Các chế độ hội thoại
Các yếu tố giao diện bao gồm:
- Cơ sở tri thức: Là những tri thức cung cấp cho ngƣời sử dụng biết về cách
16


×