ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-----✵-----
NGUYỄN CAO ĐỨC
ỨNG DỤNG MẠNG NƠRON NHÂN TẠO
ĐỂ TƯ VẤN GIÁO DỤC HƯỚNG
NGHIỆP CHO HỌC SINH TRUNG HỌC
CƠ SỞ HUYÊṆ BỐ TRACḤ
Chuyên ngành:
Mã số:
Khoa học máy tính
8480101
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
Ts. Đậu Mạnh Hoàn
Đà Nẵng – Năm 2019
LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn này là cơng trình do tơi tổng hợp và nghiên cứu. Trong
luận văn có sử dụng một số tài liệu tham khảo như đã nêu trong phần tài liệu tham
khảo, các số liệu thu thập và kết quả xử lý nêu trong luận văn là trung thực.
Tác giả luận văn
Nguyễn Cao Đức
LỜI CẢM ƠN
Sau thời gian học tập và rèn luyện tại Trường Đại học Bách khoa – Đại học Đà
Nẵng, bằng sự biết ơn và kính trọng, tơi xin chân thành cảm ơn Ban Giám hiệu, các
phòng, khoa thuộc Trường Đại học Bách khoa và các Giáo sư, P. Giáo sư, Tiến sĩ đã
nhiệt tình giảng dạy và tạo điều kiện thuận lợi giúp đỡ tơi trong q trình học tập và
làm Luận văn. Đặc biệt, tôi xin bày tỏ lòng biết ơn và lời cảm ơn sâu sắc tới TS. Đậu
Mạnh Hoàn, người thầy đã trực tiếp hướng dẫn, giúp đỡ tơi trong suốt q trình thực
hiện đề tài.
Xin chân thành cảm ơn các anh chị trong Ban lãnh đạo Phòng giáo dục huyện
Bố Trạch; Cán bộ quản lý, giáo viên, nhân viên cùng bạn bè, đồng nghiệp đã tạo điều
kiện thuận lợi để tơi nghiên cứu hồn thành Luận văn. Do điều kiện về năng lực bản
thân còn hạn chế, luận văn chắc chắn không tránh khỏi những thiếu sót. Kính mong
nhận được sự đóng góp ý kiến của các thầy cô giáo trong hội đồng khoa học, bạn bè
và đồng nghiệp để luận văn của tôi được hoàn thiện hơn.
Xin trân trọng cảm ơn./.
Tác giả
Nguyễn Cao Đức
MỤC LỤC
MỞ ĐẦU.................................................................................................................................................. 1
1. Lý do chọn đề tài. ................................................................................................................................
1
2. Mục đích và ý nghĩa của đề tài ............................................................................................................. 3
2.1. Mục đích ...................................................................................................................................... 3
2.2. Ý nghĩa khoa học ......................................................................................................................... 3
2.3. Ý nghĩa thực tiễn .......................................................................................................................... 3
3. Mục tiêu và nhiệm vụ đề tài ................................................................................................................. 3
3.1. Mục tiêu ....................................................................................................................................... 3
3.2. Nhiệm vụ ...................................................................................................................................... 3
4. Đối tượng, phạm vi nghiên cứu ............................................................................................................ 4
4.1. Đối tượng nghiên cứu .................................................................................................................. 4
4.2. Phạm vi nghiên cứu ...................................................................................................................... 4
5. Phương pháp nghiên cứu ...................................................................................................................... 4
5.1. Phương pháp lý thuyết ................................................................................................................. 4
5.2. Phương pháp thực nghiệm ........................................................................................................... 4
6. Cấu trúc luận văn ................................................................................................................................. 5
Chương 1 - KHAI PHÁ DỮ LIỆU VÀ NHỮNG VẤN ĐỀ LIÊN QUAN ..............................................
6
1.1. Tổng quan về khai phá dữ liệu ..........................................................................................................
6
1.1.1. Khai phá dữ liệu là gì? .............................................................................................................. 6
1.1.2. Phát hiện tri thức trong cơ sở dữ liệu ........................................................................................ 6
1.1.3. Quá trình khai phá tri thức trong cơ sở dữ liệu ......................................................................... 8
1.2. Một số phương pháp và kỹ thuật khai phá dữ liệu .......................................................................... 10
1.2.1. Các kỹ thuật khai phá dữ liệu .................................................................................................. 10
1.2.2. Các phương pháp khai phá dữ liệu .......................................................................................... 11
1.3. Ứng dụng của khai phá dữ liệu ....................................................................................................... 13
1.3.1. Ứng dụng trong bài tốn phân tích, dự báo, tư vấn: ................................................................ 13
1.3.2 Ứng dụng trong các bài toán khác................................................................................................. 13
Chương 2 - NGHIÊN CỨU VỀ GIÁO DỤC HƯỚNG NGHIỆP TRONG TRƯỜNG THCS VÀ MẠNG
NƠRON NHÂN TẠO.................................................................................................................................... 15
2.1. Giáo dục hướng nghiệp trong trường thcs............................................................................................ 15
2.1.1. Tổng quan về hướng nghiệp và giáo dục hướng nghiệp............................................................. 15
2.1.2. Hoạt động giáo dục hướng nghiệp cho học sinh THCS.............................................................. 16
2.1.3. Các con đường giáo dục hướng nghiệp cho học sinh THCS...................................................... 18
2.2. Thực trạng công tác giáo dục hướng nghiệp cho học sinh THCS huyện Bố Trạch.......................... 20
2.2.1. Đặc điểm kinh tế xã hội của địa phương...................................................................................... 20
2.2.2. Thực trạng giáo dục hướng nghiệp trên địa bàn Huyện Bố trạch.............................................. 22
2.2.3. Nghiên cứu thực trạng................................................................................................................... 23
2.2.4. Kết quả khảo sát............................................................................................................................. 24
2.3. Mạng nơron nhân tạo.............................................................................................................................. 24
2.3.1. Giới thiệu về mạng nơron nhân tạo.............................................................................................. 24
2.3.2. Một số tính chất và đặc trưng cơ bản của mạng nơron nhân tạo................................................ 25
2.3.3. Tổ chức của mạng nơron nhân tạo................................................................................................ 25
2.3.4. Cấu trúc của mạng nơron nhân tạo............................................................................................... 26
2.3.5. Phương thức hoạt động của mạng nơron và quá trình huấn luyện mạng.................................. 29
2.3.6. Mạng truyền thẳng và một số vấn đề liên quan........................................................................... 31
Chương 3 - XÂY DỰNG ỨNG DỤNG TƯ VẤN GIÁO DỤC HƯỚNG NGHIỆP CHO HỌC SINH
THCS HUYỆN BỐ TRẠCH......................................................................................................................... 35
3.1. Bài tốn và mơ hình cho bài tốn.......................................................................................................... 35
3.1.1. Mơ tả bài tốn................................................................................................................................. 35
3.1.2. Mơ hình tổng qt của bài tốn..................................................................................................... 37
3.2. Kỹ thuật xử lý bài toán........................................................................................................................... 38
3.2.1. Lựa chọn kỹ thuật........................................................................................................................... 38
3.2.2. Luyện học sử dụng mạng nơron nhân tạo.................................................................................... 40
3.2.3. Áp dụng kỹ thuật ANN để xử lý bài toán..................................................................................... 41
3.2.4. Thuật toán tư vấn hướng nghiệp cho bài toán............................................................................. 42
3.3. Mô tả dữ liệu........................................................................................................................................... 43
3.3.1. Dữ liệu huấn luyện......................................................................................................................... 43
3.3.1. Dữ liệu kiểm thử............................................................................................................................. 45
3.4. Phân tích thiết kế hệ thống..................................................................................................................... 45
3.4.1. Tác nhân.......................................................................................................................................... 45
3.4.2. Danh sách ca sử dụng.................................................................................................................... 45
3.4.3. Biểu đồ ca sử dụng......................................................................................................................... 46
3.4.4. Lớp và quan hệ giữa các lớp......................................................................................................... 47
3.4.5. Biểu đồ trạng thái........................................................................................................................... 49
3.5. Kết quả thực nghiệm............................................................................................................................... 50
3.5.1. Công cụ và môi trường thực nghiệm............................................................................................ 50
3.5.2. Một số kết quả................................................................................................................................ 51
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN................................................................................................... 56
1. Kết luận....................................................................................................................................................... 56
2. Hướng phát triển........................................................................................................................................ 57
TÀI LIỆU THAM KHẢO............................................................................................................................. 58
TÓM TẮT
ỨNG DỤNG MẠNG NƠRON NHÂN TẠO ĐỂ TƯ VẤN GIÁO DỤC
HƯỚNG NGHIỆP CHO HỌC SINH THCS HUYỆN BỐ TRẠCH
Học viên: Nguyễn Cao Đức Chuyên ngành: Khoa học máy tính Mã số:
8480101. Khóa 35. Trường Đại học Bách khoa - ĐHĐN
Tóm tắt - Quyết định lựa chọn một hướng đi cho tương lai sau khi kết thúc
khóa học Trung học cơ sở là một việc làm rất khó khăn mà đòi hỏi học sinh phải
nắm bắt được nhiều vấn đề và có sự quan tâm của gia đình cũng như nhà trường,
nếu chọn sai sẽ dẫn đến những tổn thất lớn về vật chất và tinh thần cho học sinh và
gia đình ảnh hưởng đến cân đối lao đơng của đất nước. Các con đường giáo dục
hướng nghiệp phổ biến hiện nay vẫn mang tính lý thuyết, chưa giúp được các em
lựa chọn nghề nghiệp và hướng đi của mình trong tương lai.
Trong nghiên cứu này chúng tôi xây dựng hệ tư vấn giáo dục hướng nghiệp
bằng kỹ thuật mạng nơron nhân tạo để tư vấn giáo dục hướng nghiệp cho học sinh
trên địa bàn và coi đó như là một con đường giáo dục hướng nghiệp mới. Việc
nghiên cứu để tạo ra hệ tư vấn sẽ trợ giúp cho các em học sinh, giải quyết những
khó khăn và thắc mắc của các em trong việc lựa chọn nghề nghiệp trong tương lai.
Từ khóa - Mạng nơron nhân tạo, giáo dục hướng nghiệp, hệ tư vấn, khai phá
dữ liệu, học máy.
APPLICATION OF NEURAL NETWORK TO CONSULT
PROFESSIONAL EDUCATION FOR SECONDARY SCHOOL
STUDENTS OF BO TRACH DISTRICT
Abstract - To choose a direction for the future after the end of the secondary
school is a very difficult decision that requires students to grasp many issues and
their families and schools get involved. If students choose a wrong direction for
their future, this will lead to significant physical and mental losses for them and
their families and affect the country's labor balance. The popular vocational
education ways are still theoretical, which have not helped them to choose their
right career and future direction.
In this article, we build a vocational education system by using artificial neural
network techniques to consult vocational education for students in the area and
consider it as a new vocational education way. The research to create a consulting
system will help students to solve their difficulties and questions in their future
career choices.
Keywords - Artificial neural network, vocational education, consulting system,
data mining, Machine Learning.
DANH MỤC CÁC CỤM TỪ VIẾT TẮT
Từ viết tắt
THCS
THPT
KDD
ANN
MLP
GDHN
HS
THCN
Ý nghĩa
Trung học cơ sở
Trung học phổ thông
Knowledge Discovery in Database
Artificial Neural Network
Multilayer Perceptrons Networks
Giáo dục hướng nghiệp
Học sinh
Trung học chuyên nghiệp
Ghi chú
DANH MỤC BẢNG BIỂU, HÌNH VẼ
Số hiệu
Hình 1.1
Hình 2.1
Hình 2.2
Hình 2.3
Hình 3.1.
Hình 3.2.
Hình 3.3
Hình 3.4
Hình 3.5.
Hình 3.6.
Hình 3.7
Hình 3.8.
Hình 3.9
Hình 3.10
Hình 3.11
Hình 3.12
Hình 3.13
Hình 3.14
Hình 3.15
Hình 3.16
Bảng 3.1
Bảng 3.2.
Bảng 3.3
Bảng 3.4
Tên hình vẻ
Khai phá dữ liệu là một bước trong q trình khai
phá tri thức
Mơ hình mạng nơron nhân tạo đơn giản.
Mạng nơron truyền thẳng nhiều lớp
Mạng nơron hồi quy
Mô hình bài tốn tư vấn hướng nghiệp cho học sinh
Nơron của mạng nơron nhân tạo
Sơ đồ thuật tốn q trình luyện học của ANN
Cấu trúc mạng nơron
Sơ đồ thuật toán phân lớp cho bài toán tư vấn hướng
nghiệp
Biểu đồ ca sử dụng
Quan hệ 2 lớp Training và WTraining
Các lớp Weighting và Account
Biểu đồ học sinh nhận tư vấn
Biểu đồ trạng thái Quản trị viên Training hệ thống
Màn hình chính
Màn hình đăng nhập
Màn hình dữ liệu huấn luyện
Các tiêu chí giá trị tương ứng tại Bảng 3.1
Màn hình huấn luyện hệ thống
Màn hình tư vấn hướng nghiệp cho học sinh
Những yếu tố ảnh hưởng đến việc lựa chọn nghề
nghiệp của học sinh
Trọng số của tiêu chí sử dụng trong phần mềm
Mơ tả trường dữ liệu các lớp Training, Wtraining
Kết quả huấn luyện của bài toán
Trang
8
26
28
29
37
39
40
42
43
46
48
48
49
50
51
51
52
52
53
54
36
44
47
54
1
MỞ ĐẦU
1. Lý do chọn đề tài.
Khai phá dữ liệu là lĩnh vực rất phát triển trong những năm gần đây, thu hút sự
quan tâm của nhiều tổ chức trong nước và thế giới và được ứng dụng trong nhiều lĩnh
vực khác nhau. Ngày nay với sự bùng nổ của nền cơng nghiệp 4.0 và cơng nghệ thơng
tin thì những tác động của nó đã ảnh hưởng đến mọi mặt trong đời sống xã hội từ văn
hóa, giáo dục cho đến công nghệ và các lĩnh vực khác. Công nghệ thông tin ngày càng
phát triển kéo theo các hệ thống thông tin ngày càng mở rộng để lưu trữ một lượng lớn
các dữ liệu liên quan, cùng với việc lưu trữ dữ liệu trực tuyến với dung lượng rất lớn
đã tạo ra những kho dữ liệu khổng lồ mà qua đó con người có thể khai phá các thơng
tin và tri thức phục vụ cho công việc, đời sống hàng ngày. Mục đích của khai phá dữ
liệu là tìm ra mơ hình phân loại hữu ích trong các dữ liệu phục vụ cho mục đích dự
đốn, mơ tả, phân loại, phân nhóm, rút trích và khai thác thơng tin trong các lĩnh vực
khác nhau trong đời sống xã hội. Sự ra đời và phát triển của nó đã đáp ứng và giải
quyết được nhiều vấn đề ứng dụng trong đời sống xã hội và mang lại hiệu quả cao. Kỹ
thuật khai phá dữ liệu có nhiều ưu việt, q trình lấy ra được những dữ liệu hữu ích
được gọi quá trình khai phá tri thức, những dữ liệu đó là các tri thức học được. Ứng
dụng khai phá dữ liệu vào hoạt động giáo dục là một trong những xu thế phổ biến để
nâng cao hiệu quả và chất lượng giáo dục và đào tạo.
Lựa chọn nghề nghiệp là vấn đề vô cùng quan trọng và quyết định tương lai trong
đời sống của mỗi con người. Có nghề nghiệp phù hợp với cá nhân, điều kiện mơi trường
xã hội thì con người mới có cuộc sống ổn định, mới làm ra của cải vật chất cho bản thân
và xã hội. Ngày nay việc lựa chọn nghề nghiệp là một vấn đề trăn trở của các em học sinh
và của các bậc phụ huynh khi con em đến tuổi trưởng thành. Vì vậy, Bộ giáo dục và Đào
tạo đã đưa hoạt động giáo dục hướng nghiệp vào nhà trường từ rất sớm với mục đích giúp
cho các em học sinh nhận thức đúng đắn về nghề nghiệp, có định hướng lựa chọn được
cho mình một nghề phù hợp với bản thân đồng thời đáp ứng được nhu cầu của xã hội.
Việc giáo dục nghề nghiệp tốt trong nhà trường cịn góp phần vào việc phân luồng nguồn
lao động và sử dụng hợp lí nguồn lao động trẻ một cách hiệu quả để thúc đẩy kinh tế, xã
hội đất nước phát triển bền vững. Xác định được vai trị to lớn đó của giáo dục hướng
nghiệp đối với học sinh, ngày 19 tháng 3 năm 1981, Hội đồng Chính phủ đã ban hành
quyết định 126/CP về công tác hướng nghiệp trong trường phổ thông và việc sử dụng học
sinh các cấp phổ thông cơ sở và phổ thông trung học tốt nghiệp ra trường. Trong đó đã
nêu rõ: “Coi trọng cơng tác hướng nghiệp và phân luồng học sinh trung học, chuẩn bị cho
thanh niên, thiếu niên đi vào lao động nghề nghiệp phù hợp với sự chuyển dịch cơ cấu
kinh tế trong cả nước và từng địa phương” [24].
2
Nước ta đang bước vào giai đoạn đẩy mạnh công nghiệp hóa, hiện đại hóa trong
bối cảnh khoa học – công nghệ phát triển như vũ bão. Sự phát triển kinh tế - xã hội đặt
ra yêu cầu nền giáo dục Việt Nam phải tạo ra lớp người lao động mới có khả năng làm
chủ được khoa học – cơng nghệ hiện đại. Nghị quyết TW8 về đổi mới căn bản toàn
diện giáo dục – đào tạo chỉ rõ: “Đẩy mạnh phân luồng sau trung học cơ sở; định hướng
nghề nghiệp ở trung học phổ thông”, “ đảm bảo cho học sinh có trình độ trung học cơ
sở (hết lớp 9) có tri thức phổ thơng nền tảng, đáp ứng phân luồng mạnh sau trung học
cơ sở, trung học phổ thông phải tiếp cận nghề nghiệp và chuẩn bị cho giai đoạn học
sau phổ thơng có chất lượng”. Hướng nghiệp trong giáo dục, với bản chất là hệ thống
các biện pháp tiến hành trong và ngoài nhà trường để giúp học sinh phổ thơng có kiến
thức về nghề nghiệp và có khả năng lựa chọn về nghề nghiệp trên cơ sở kết hợp
nguyện vọng, sở trường của cá nhân với nhu cầu sử dụng lao động của xã hội, đóng
vai trị quan trọng trong q trình đạt được mục tiêu đó.
Trong những năm qua hiệu quả của giáo dục hướng nghiệp đã chuyển biến rõ rệt,
số lượng học sinh theo hướng chọn nghề ngày càng nhiều. Tuy nhiên hiện nay do
nhiều nguyên nhân chủ quan và khách quan khác nhau hoạt động giáo dục hướng
nghiệp và công tác phân luồng học sinh vẫn còn hạn chế và kết quả chưa cao. Theo
thống kê của Bộ giáo dục và Đào tạo hàng năm số học sinh sau khi học xong Trung
học cơ sở (THCS) không học nghề mà vẫn học lên Trung học phổ thông (THPT), và
học xong THPT lại đăng ký thi vào cao đẳng hay đại học còn rất lớn. Kết quả thực tế
này là do rất nhiều yếu tố khách quan, chủ quan khác nhau từ phụ huynh đến học sinh
và cả hiệu quả của giáo dục hướng nghiệp. Trong thực tế chỉ một bộ phận học sinh
không đủ khả năng vào THPT thì mới học nghề hay khơng thi vào được cao đẳng, đại
học thì mới chọn vào trường dạy nghề để học.
Quyết định lựa chọn một hướng đi là một việc làm khó khăn, địi hỏi học sinh phải
hiểu và có sự quan tâm của gia đình cũng như nhà trường, nếu chọn sai sẽ dẫn đến những
tổn thất lớn về vật chất và tinh thần cho học sinh và gia đình. Do đó việc định hướng chọn
đúng ngành nghề sẽ giúp các em tránh khỏi những vấn đề nói trên. Từ thực tiễn giáo dục
hiện nay cũng như thực tế hoạt động hướng nghiệp trong trường mà tôi đang công tác, tôi
nhận thấy việc tư vấn lựa chọn hướng nghiệp cho phụ huynh và học sinh đối với đề án
giáo dục hướng nghiệp hiện nay của Bộ Giáo dục và Đào tạo là quan trọng, thông qua dữ
liệu từ phụ huynh và học sinh để từ đó có thể sử dụng các thơng tin đó để phục vụ cho
công việc tư vấn định hướng cho học sinh và các hoạt động trong giáo dục là hết sức cần
thiết và cấp bách. Vì vậy đề tài “ỨNG DỤNG MẠNG NƠRON NHÂN TẠO ĐỂ TƯ
VẤN GIÁO DỤC HƯỚNG NGHIỆP CHO HỌC SINH THCS HUYỆN BỐ TRẠCH” là
cần thiết và có ý nghĩa về mặt lý thuyết và thực tiễn.
3
2. Mục đích và ý nghĩa của đề tài
2.1. Mục đích
+ Nghiên cứu các phương pháp, các kỹ thuật khai phá dữ liệu.
+ Sử dụng kỹ thuật học máy để xử lý bài toán tư vấn trong giáo dục hướng
nghiệp cho học sinh.
+ Nghiên cứu giáo dục hướng nghiệp đối với học sinh trung học cơ sở từ đó xây
dựng ứng dụng Demo tư vấn phân luồng cho học sinh trên địa bàn huyện Bố trạch.
2.2. Ý nghĩa khoa học
+ Qua quá trình nghiên cứu sẽ nắm bắt được các kỹ thuật khai phá dữ liệu, qua
đó vận dụng để khai thác dữ liệu từ các nguồn thông tin thu thập được, thông qua dữ
liệu để tư vấn cho phụ huynh và học sinh đối với việc lựa chọn giáo dục hướng nghiệp
tốt hơn.
+ Rút ra được các kết luận có ý nghĩa trong q trình nghiên cứu bài tốn .
2.3. Ý nghĩa thực tiễn
+ Thu thập được dữ liệu của học sinh đối với việc lựa chọn nghề nghiệp trong
giáo dục hướng nghiệp hiện nay của học sinh THCS huyện Bố trạch, tỉnh Quảng Bình.
Từ đó xây dựng ứng dụng tư vấn phân luồng cho học sinh THCS trên địa bàn huyện
Bố Trạch.
3. Mục tiêu và nhiệm vụ đề tài
3.1. Mục tiêu
+ Nghiên cứu và vận dụng tốt kỹ thuật khai phá dữ liệu.
+ Sử dụng kỹ thuật học máy vào giải quyết bài toán tư vấn.
+ Xây dựng Demo ứng dụng tư vấn phân luồng nghề nghiệp trong giáo dục
hướng nghiệp hiện nay của huyện Bố Trạch. .
3.2. Nhiệm vụ
+ Nghiên cứu lý thuyết về kỹ thuật khai phá dữ liệu
+ Nghiên cứu thực tiễn về đề án giáo dục hướng nghiệp hiện nay của Bộ Giáo
dục và Đào tạo.
+ Thu thập dữ liệu về giáo dục hướng nghiệp của học sinh THCS trên địa bàn
huyện Bố Trạch, xử lý dữ liệu sau khi thu thập được.
+ Xây dựng bài toán, xử lý và xây dựng ứng dụng Demo.
4
4. Đối tượng, phạm vi nghiên cứu
4.1. Đối tượng nghiên cứu
+ Các kỹ thuật, phương pháp khai phá dữ liệu.
+ Dữ liệu thu thập được về quan điểm của học sinh THCS đối với giáo dục
hướng nghiệp hiện nay trên địa bàn huyện Bố Trạch.
+ Các công cụ và phần mềm mã nguồn mở hỗ trợ nghiên cứu, thiết kế quy trình
thực hiện
+ Quy trình tham vấn nghề trong giáo dục hướng nghiệp.
4.2. Phạm vi nghiên cứu
Trong nghiên cứu này tôi chỉ giới hạn nghiên cứu các vấn đề sau:
+ Đối tượng nghiên cứu là học sinh THCS trên địa bàn huyện Bố Trạch, tỉnh Quảng
Bình.
+ Xây dựng cơng việc tư vấn phân luồng hướng nghiệp cho học sinh lựa chọn
học lên THPT hay lựa chọn học nghề cho tương lai.
+ Xây dựng ứng dụng Demo.
5. Phương pháp nghiên cứu
Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài. Tổng hợp
các thông tin dữ liệu đã nghiên cứu. Nghiên cứu các kỹ thuật có liên quan đến bài tốn.
Nghiên cứu cơng cụ xử lý và việc ứng dụng cơng cụ cho bài tốn.
5.1. Phương pháp lý thuyết
+ Phương pháp nghiên cứu tài liệu về các vấn đề có liên quan đến đề tài, nghiên
cứu các cơng trình đã được cơng bố liên quan đến đề tài, phân tích và tổng hợp.
Nghiên cứu các kỹ thuật có liên quan đến bài tốn, nghiên cứu cơng cụ xử lý và hỗ trợ
giải quyết bài toán.
+ Phương pháp thống kê: Thống kê dữ liệu thu thập được trong q trình xử lý.
+ Phương pháp phân tích và thiết kế: Phân tích các đối tượng cần nghiên cứu để
giải quyết các vấn đề liên quan và thiết kế dữ liệu, thiết kế quy trình xử lý dữ liệu.
+ Phương pháp mơ hình hóa: Mơ hình hóa dữ liệu, mơ hình hóa quy trình xử lý
để thực hiện tư vấn trong bài toán.
5.2. Phương pháp thực nghiệm
Nghiên cứu và khai thác các công cụ, các phần mềm hỗ trợ quá trình biên tập dữ
liệu, khảo sát dữ liệu và đánh giá.
5
Xây dựng chương trình Demo tư vấn cho phụ huynh và học sinh lựa chọn định
hướng giáo dục hướng nghiệp hiện nay của Bộ Giáo dục và Đào tạo.
Kiểm tra, thử nghiệm, nhận xét và đánh giá kết quả.
6. Cấu trúc luận văn
Ngoài phần mở đầu và kết luận, luận văn gồm ba chương:
Chương 1: Chương này chủ yếu nghiên cứu tổng quan về khai phá dữ liệu và các
vấn đề liên quan đến phương pháp, kỹ thuật và ứng dụng trong khai phá dữ liệu.
Chương 2: Nghiên cứu về Giáo dục hướng nghiệp trong trường THCS và mạng
nơron nhân tạo
Chương 3: Xây dựng ứng dụng tư vấn giáo dục hướng nghiệp cho học sinh
THCS huyện Bố Trạch.
6
Chương 1 - KHAI PHÁ DỮ LIỆU VÀ NHỮNG VẤN ĐỀ LIÊN QUAN
1.1. Tổng quan về khai phá dữ liệu
1.1.1. Khai phá dữ liệu là gì?
Khai phá dữ liệu là một lĩnh vực nghiên cứu có nhiều ứng dụng vào đời sống xã
hội hiện nay, nó ra đời từ những năm của thập kỷ 80. Khai phá dữ liệu bao hàm nhiều
kỹ thuật khác nhau nhằm phát hiện ra các thơng tin có giá trị tiềm ẩn trong các kho dữ
liệu lớn. Về bản chất khai phá dữ liệu liên quan đến q trình phân tích dữ liệu và sử
dụng các kỹ thuật để tìm ra các thơng tin hữu ích trong cơ sở dữ liệu. Các giải thuật
khai phá dữ liệu và các kỹ thuật ngày càng được phát triển và ứng dụng rộng rãi, kết
quả của quá trình khai phá dữ liệu có thể tìm ra các mơ hình dữ liệu hữu ích phục vụ
cho các bài tốn dự đốn, mơ tả, phân loại, phân nhóm, rút trích và khai thác thông tin
của các lĩnh vực khác nhau trong đời sống xã hội. Chính vì những tiềm năng khoa học
của nó nên các nội dung nghiên cứu về khai phá dữ liệu càng ngày càng thu hút sự
quan tâm của nhiều tổ chức trong nước và thế giới.
Các kỹ thuật chính được áp dụng trong lĩnh vực khai phá dữ liệu được phát triển từ
các lĩnh vực cơ sở dữ liệu, học máy, xác suất thống kê, trí tuệ nhân tạo và các ngành khác,
vv, chúng đều hướng đến việc phân tích một lượng lớn các dữ liệu qua tiến trình khai phá
dữ liệu sẻ sử dụng các cơng cụ để phân tích dữ liệu và trích xuất ra các thông tin quan
trọng của các đối tượng bên trong cơ sở dữ liệu, kết quả của việc khai phá là xác định các
mẫu hay các mơ hình đang tồn tại bên trong, nhưng chúng nằm ẩn khuất ở các cơ sở dữ
liệu. Để từ đó rút trích ra được các mẫu, các mơ hình hay các thơng tin và tri thức từ các
cơ sở dữ liệu. Khai phá dữ liệu là bước chính của quy trình khai phá tri thức trong cơ sở
dữ liệu (Knowledge Discovery in Database - KDD), nó được ứng dụng trong các loại hình
cung cấp dịch vụ lưu trữ thông tin như kho dữ liệu, cơ sở dữ liệu quan hệ, cơ sở dữ liệu
giao dịch, cơ sở dữ liệu hướng đối tượng, cơ sở dữ liệu quan hệ hướng đối tượng, cơ sở dữ
liệu không gian, cơ sở dữ liệu thời gian, cơ sở dữ liệu văn bản, cơ sở dữ liệu đa phương
tiện, cơ sở dữ liệu Web, cơ sở dữ liệu tri thức, vv [3].
1.1.2. Phát hiện tri thức trong cơ sở dữ liệu
Phát hiện tri thức từ cơ sở dữ liệu là một q trình có sử dụng nhiều phương pháp
và cơng cụ khác nhau mà con người có vai trò trung tâm. Hoạt động của hệ thống bao
gồm nhiều hoạt động tương tác thường xuyên giữa con người và cơ sở dữ liệu mà có sự
trợ giúp của các công cụ khác nhau. “Tri thức” mà chúng ta đề cập đến ở đây là các tri
thức rút ra từ cơ sở dữ liệu và được sử dụng cho việc giải quyết một loạt nhiệm vụ nhất
định trong một lĩnh vực nào đó. Do đó, q trình phát hiện tri thức cũng mang tính chất
hướng nhiệm vụ, khơng phải là phát hiện mọi tri thức bất kỳ mà là phát hiện tri thức
7
nhằm giải quyết tốt công việc đề ra. Trên cơ sở đó q trình phát hiện tri thức là một
qúa trình tương tác giữa con người với các cơng cụ để thực hiện các bước cơ bản sau:
Toàn bộ tiến trình tìm kiếm và xử lý mẫu từ dữ liệu bao gồm các bước sau đây:
- Bước 1: Tìm một cách hiểu để thực hiện phạm vi ứng dụng và nhiệm vụ đặt ra,
xác định “Tri thức” được ưu tiên thích đáng, tìm ra mục đích của người sử dụng đầu
cuối.
- Bước 2: Tạo một tập dữ liệu đích thơng qua chọn một tập dữ liệu hoặc điểm
chính trên một tập con của các biến đổi, hoặc các dữ liệu mẫu sao cho nó có ý nghĩa
khi thực hiện khai phá.
- Bước 3: Chuẩn bị trước dữ liệu, tiền xử lý dữ liệu: Loại bỏ dữ liệu nhiễu hoặc
những dữ liệu không quan trọng, tập hợp lại các thông tin cần thiết để phù hợp với mơ
hình, tính tốn và kiểm sốt các dữ liệu sai lệch, tính tốn thời gian thông tin tuần tự và
những thay đổi biết trước.
- Bước 4: Thu nhỏ dữ liệu: Tìm những đặc trưng thường sử dụng để miêu tả dữ
liệu độc lập theo mục đích của cơng việc. Sử dụng việc giảm bớt chiều hoặc các
phương pháp chuyển đổi để giảm bớt số lượng biến nếu được.
- Bước 5: Chọn nhiệm vụ khai phá dữ liệu: Quyết định có hay khơng đích của
tiến trình KDD là phân loại, hồi quy, phân nhóm, vv.
- Bước 6: Chọn phương pháp khai phá dữ liệu thích hợp: Chọn một hoặc một số
phương pháp để sử dụng cho việc tìm kiếm trên các mẫu của dữ liệu. Quyết định mơ
hình và các tham số thích hợp. Biến đổi dữ liệu theo đặc trưng riêng của phương pháp
khai phá với tồn bộ tiến trình KDD.
- Bước 7: Khai phá dữ liệu: Tìm kiếm các mẫu quan trọng theo dạng trình bày riêng
biệt hoặc tập các mơ tả như các luật hoặc cây phân loại, hồi quy, phân nhóm...vv..
- Bước 8: Đánh giá, giải thích, thử lại các mẫu đã khai phá được.
- Bước 9: Cũng cố, tinh chế tri thức đã khai phá. Kết hợp các tri thức thành hệ
thống. Giải quyết các xung đột tiềm tàng trong tri thức khai thác được, sau đó, tri thức
được chuẩn bị sẳn sàng cho ứng dụng.
Nếu phát hiện tri thức là tồn bộ q trình chiết xuất tri thức từ cơ sở dữ liệu thì
khai phá dữ liệu là giai đoạn chủ yếu của q trình đó.
Theo trình bày ở trên, trong quá trình phát hiện tri thức, bước khai phá dữ liệu được
thực hiện sau các bước tinh lọc và tiền xử lý dữ liệu, tức là việc khai phá để tìm ra các
mẫu hình có ý nghĩa được tíên hành trên tập dữ liệu có cơ sở là sẽ thích hợp với nhiệm vụ
khai phá đó chứ khơng phải là khai phá hết dữ liệu với một thời gian đủ dài để lấy được
một mẫu mà khơng có ích thực sự như khái niệm trong thống kê trước đây. Do đó, khai
phá dữ liệu thường bao gồm việc tìm một mơ hình phù hợp với tập dữ liệu và tìm kiếm
các mẫu từ tập dữ liệu theo mơ hình đó. Trong số các mẫu được lấy ra từ cơ sở dữ
8
liệu thì những mẫu được xem là đáng quan tâm xét theo một phương diện nào đó mới
được coi là tri thức. Các mẫu là đáng quan tâm nếu chúng là mới, có lợi, đáng được
xem xét. Một mẫu được xem là mới phụ thuộc vào khung tham chiếu cho trước, có thể
đó là phạm vi tri thức của hệ thống hoặc là phạm vi tri thức của người dùng. Mục tiêu
của KDD là tìm kiếm tri thức từ dữ liệu, và điểm cần nhấn mạnh là các ứng dụng “bậc
cao” của các phương pháp khai phá. Nó là điều quan tâm của những người nghiên cứu
về học máy, nhận dạng, cơ sở dữ liệu, thống kê, trí tuệ nhân tạo, tri thức thu nhận cho
hệ chuyên gia, và hình dung về dữ liệu. Khai phá dữ liệu là một nhu cầu tất yếu, một
sự nhạy cảm đáp lại nhu cầu bức thiết của giới kinh doanh và cũng là những thách thức
mới của các nhà khoa học. Khai phá dữ liệu được xây dựng trên các kỹ thuật mới, nó
sử dụng các kỹ thụât thơng minh để khai phá các tri thức tiềm ẩn trong dữ liệu. Khai
phá dữ liệu được định hướng theo nhu cầu kinh doanh để có thể giải quyết tự động các
bài tốn kinh doanh bằng các kỹ thuật dễ sử dụng và hiệu quả. Các kết quả đạt được
cho thấy mặc dù kỹ thuật khai phá dữ liệu còn nhiều vấn đề cần giải quyết, nhưng với
những gì nó đã và đang mang lại cho con người thì khai phá dữ liệu cịn có một tiềm
năng to lớn trong việc tạo ra những lợi nhuận đáng kể trong nền kinh tế [2].
1.1.3. Quá trình khai phá tri thức trong cơ sở dữ liệu
Quá trình khai phá dữ liệu có thể được chia thành các giai đoạn chính như sau [1,
13]:
Đánh giá luật
Khai phá dữ liệu
Chuyển
đổi dữ liệu
Tiền xử lý và
chuẩn bị dữ liệu
Tri thức
Trích lọc dữ liệu
Mơ hình
Dữ liệu
Dữ liệu đích
Dữ liệu đã
xử lý
Dữ liệu đã
chuyển đổi
Hình 1.1: Khai phá dữ liệu là một bước trong quá trình khai phá tri thức [1, 13]
9
Một cách tổng quát quá trình khám phá tri thức có thể phân thành các cơng đoạn:
Tập hợp dữ liệu, trích lọc dữ liệu, chuẩn bị dữ liệu và tiền xử lý dữ liệu, biến đổi dữ liệu,
khai phá dữ liệu, đánh giá và biểu diễn tri thức. Trong đó quá trình khai phá tri thức được
thực hiện lặp đi lặp lại nhiều lần cùng với sự tham gia của người sử dụng. Kết quả của quá
trình khai phá dữ liệu sẽ làm cho quá trình khai phá các dữ liệu lớn trong cơ sở dữ liệu lớn
trở nên dễ dàng hơn. Trong thực tế, khai phá dữ liệu là một bước cụ thể trong quá trình
khai phá tri thức. Để giải quyết các nhiệm vụ đề ra khai phá dữ liệu sử dụng các thuật tốn
đặc biệt để trích xuất các mơ hình từ cơ sở dữ liệu, thơng qua các mơ hình và kết quả khai
phá được sẽ tiến hành giải thích và xử lý kết quả của hệ thống, chuyển đổi thông tin vào
hệ thống tri thức mà người sử dụng có thể hiểu được.
a. Tập hợp dữ liệu (Data): Đây là giai đoạn đầu tiên trong quá trình khai phá dữ
liệu. Giai đoạn này lấy dữ liệu trong một cơ sở dữ liệu, một kho dữ liệu hay dữ liệu từ
các nguồn khác.
b. Trích lọc dữ liệu (Selection): Trong giai đoạn này dữ liệu được lựa chọn hoặc
phân chia theo một số tiêu chuẩn nào đó.
c. Tiền xử lý và chuẩn bị dữ liệu (Preprocessing): Giai đoạn này rất quan trọng trong
quá trình khai phá dữ liệu. Trong thực tế quá trình thu thập dữ liệu sẽ chứa một số lỗi
thường mắc phải như thiếu thông tin, không logic... điều này dẫn đến dữ liệu chứa các giá
trị vô nghĩa, thông tin mang lại không hiệu quả và khơng có khả năng kết nối dữ liệu. Mục
đích của giai đoạn này là tiến hành xử lý những dạng dữ liệu nói trên để dữ liệu được
“sạch và có ý nghĩa” vì nếu dữ liệu khơng được tiền xử lý, làm sạch và chuẩn bị trước thì
kết quả của q trình khai phá dữ liệu sẽ khơng cao và thậm chí là sai lệch.
d. Chuyển đổi dữ liệu (Transformation): Trong giai đoạn chuyển đổi dữ liệu nay
dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó. Dữ liệu đã
được chuyển đổi phù hợp với mục đích khai thác.
e. Khai phá dữ liệu (Data Mining): Đây là giai đoạn quan trọng của q trình và
mang tính tư duy trong q trình khai phá, giai đoạn này sử dụng nhiều thuật toán khác
nhau để xuất ra các mẫu từ dữ liệu.
f. Đánh giá kết quả mẫu (Interpretation/ Evaluation): Là giai đoạn cuối trong quá
trình khai phá dữ liệu. Trong giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi
phần mềm khai phá dữ liệu, các mẫu thu được không phải mẫu dữ liệu nào cũng đều
có nghĩa cho vấn đề cần giải quyết. Vì vậy trong thực tế phải thực hiện đánh giá qua
các tiêu chuẩn để lựa chọn được mẫu phù hợp, đưa ra được các tri thức cần thiết và sử
dụng cho bài toán cụ thể.
10
1.2. Một số phương pháp và kỹ thuật khai phá dữ liệu
1.2.1. Các kỹ thuật khai phá dữ liệu
Nếu đứng trên quan điểm của học máy thì các kỹ thuật trong khai phá dữ liệu bao
gồm: Học có giám sát, học khơng có giám sát, học nửa giám sát. Phương pháp dựa vào
học máy sử dụng các giải thuật học máy nổi tiếng bằng việc sử dụng cú pháp và các đặc
trưng trong ngôn ngữ. Các giải thuật học máy đã được chứng minh là những giải thuật
khai phá dữ liệu rất hiệu quả. Học máy là một lĩnh vực có liên quan đến việc nghiên cứu
các thuật tốn và kỹ thuật cho phép các máy tính để "học hỏi" tự động từ kinh nghiệm.
+ Học có giám sát:
Các phương pháp học có giám sát phụ thuộc vào sự tồn tại của các nhãn huấn luyện
văn bản. Có rất nhiều loại học có giám sát trong phân loại văn bản, q trình phân loại
qua phương pháp học có giám sát được thực hiện qua nhiều bước khác nhau: Đầu tiên
cần xác định loại của tập dữ liệu cần huấn luyện, sau đó tiến hành thu thập dữ liệu
huấn luyện. Việc thu thập dữ liệu huấn luyện có thể thực hiện bằng nhiều cách khác
nhau. Bước tiếp theo là lựa chọn và biểu diễn các đặc trưng, bước này có vai trị quyết
định hiệu quả của q trình phân loại. Hầu hết các phương pháp máy học áp dụng cho
bài toán phân loại đều sử dụng cách biểu diễn văn bản dưới dạng vectơ đặc trưng.
Điểm khác biệt duy nhất chính là không gian đặc trưng được chọn lựa. Số lượng các
đặc trưng không được quá lớn, do sự bùng nổ dữ liệu, không được quá nhỏ sẽ không
đảm bảo thông tin, chúng phải đủ lớn để dự đốn chính xác đầu ra. Để giải quyết vấn
đề này thông thường chúng ta sẽ chọn lựa những đặc trưng được đánh giá là hữu ích,
bỏ đi những đặc trưng khơng quan trọng. Trong giai đoạn này chúng ta sử dụng các
phương pháp chọn lựa đặc trưng hiệu quả để giảm chiều của vectơ đặc trưng, chiều
của vectơ sau khi được giảm mà khơng mất đi độ chính xác phân loại. Bước cuối cùng
là xác định cấu trúc của hàm chức năng cần tìm và chọn giải thuật học tương ứng, chạy
giải thuật học từ tập huấn luyện thu thập được để cho ra kết quả. Một số phương pháp
học có giám sát phổ biến trong phân loại quan điểm như [5, 14]:
- Phân loại theo xác suất: Phân loại theo xác suất sử dụng mơ hình phân loại hỗn
hợp. Các mơ hình này giả định rằng mỗi lớp là một thành phần của hỗn hợp. Mỗi
thành phần hỗn hợp là một mô hình cung cấp xác suất lấy mẫu của một thuật ngữ cụ
thể cho các thành phần đó. Một số kỹ thuật phân loại xác suất nổi tiếng như phân loại
Naıve Bayes, Bayesian Network, Maximum Entropy.
- Kỹ thuật phân loại tuyến tính. Kỹ thuật này nổi bật với phương pháp phân loại
máy vector hỗ trợ (support vector machines), mạng nơron (neural network), cây quyết
định (decision tree), phân loại dựa vào các luật cơ bản (rule-based)
11
+ Học khơng có giám sát:
Học khơng giám sát là phương pháp nhằm tìm ra mơ hình phù hợp với các tập dữ liệu
quan sát. Nó khác biệt với học có giám sát ở chỗ là đầu ra đúng tương ứng cho mỗi đầu
vào là không biết trước. Trong học khơng có giám sát, đầu vào là một tập dữ liệu được thu
thập. Học khơng có giám sát thường xem các đối tượng đầu vào như là một tập các biến
ngẫu nhiên. Sau đó, một mơ hình mật độ kết hợp sẽ được xây dựng cho tập dữ liệu đó.
Học khơng có giám sát có thể được dùng kết hợp với suy diễn Bayes để cho ra xác suất có
điều kiện cho bất kì biến ngẫu nhiên nào khi biết trước các biến khác [4, 14].
Có nhiều thuật tốn học khơng có giám sát được ra đời và phát triển nhằm giải
quyết bài toán phân cụm phục vụ khai thác hiệu quả nguồn dữ liệu chưa gán nhãn
nhiều và rất đa dạng. Việc lựa chọn sử dụng thuật toán nào tuỳ thuộc vào dữ liệu và
mục đích của từng bài tốn. Một số thuật tốn học khơng có giám sát thường hay sử
dụng như thuật toán k-means, thuật toán Hierarchical Agglomerative Clustering- HAC,
thuật toán Self-Organizing Map-SOM,...vv.
+ Học bán giám sát
Khi cả dữ liệu huấn luyện và dữ liệu đã dán nhãn khơng có sẵn, chúng ta có thể học
nửa giám sát (học bán giám sát). Một phân loại thống kê được huấn luyện, việc huấn
luyện có thể sử dụng cả dữ liệu có nhãn và khơng có nhãn. Kết hợp các mẫu có gắn
nhãn và khơng gắn nhãn để sinh một hàm hoặc một bộ phân loại thích hợp.
1.2.2. Các phương pháp khai phá dữ liệu
Nếu dựa trên quan điểm dựa vào lớp các bài tốn cần giải quyết, thì có các phương
pháp khai phá dữ liệu sau [6]: Phân lớp và dự đoán, Luật kết hợp, Phân cụm, Hồi qui,
Tổng hợp, Mơ hình ràng buộc, Dị tìm biến đổi và độ lệch.
+ Phân lớp (classification) và dự đoán (prediction):
Phân lớp dữ liệu là tiến trình khám phá các quy luật phân loại hay tìm kiếm đặc
trưng cho các tập dữ liệu đã được xếp lớp. Với một tập dữ liệu huấn luyện có trước các
giải thuật và cơng cụ sẽ xếp các đối tượng và một trong các lớp đã biết trước. Tập dữ
liệu học bao gồm tập đối tượng đã được xác định lớp sẽ được dùng để tạo mơ hình
phân lớp dựa trên đặc trưng của đối tượng trong tập dữ liệu học. Các đặc trưng về dữ
liệu được sử dụng để xây dựng các bộ phân lớp dữ liệu. Phân lớp dữ liệu có vai trị
quan trọng trong tiến trình dự báo các khuynh hướng quy luật phát triển. Bài toán dự
đoán tương đương với bài tốn phân lớp, khi có đối tượng mới bộ dự đốn dựa trên
thơng tin đang có để đưa ra giá trị số học cho hàm cần dự đoán.
+ Luật kết hợp (Association):
Kỹ thuật của phương pháp này là phát hiện và tìm ra trong tập dữ liệu cần khai phá
những mối liên hệ giữa các giá trị với nhau qua đó tìm giá trị đầu ra thơng qua các luật kết
hợp tìm được từ tập dữ liệu ban đầu, quá trình khám phá các tập giá trị thuộc tính xuất
hiện phổ biến trong các đối tượng dữ liệu. Từ tập phổ biến có thể tạo ra các luật kết
12
hợp giữa các giá trị thuộc tính nhằm phản ánh khả năng xuất hiện đồng thời các giá trị
thuộc tính trong tập các đối tượng. Một luật kết hợp X → Y phản ánh sự xuất hiện của
tập X dẫn đến sự xuất hiện đồng thời của tập Y.
+ Phân cụm (clutering):
Kỹ thuật phân cụm với mục đích tìm ra các cụm dữ liệu có đặc điểm tương tự nhau
trong tập dữ liệu cần khai phá. Các thành viên của một cụm sẽ có các đặc điểm giống
nhau và có các đặc điểm khác nhau so với các thành viên của các cụm khác. Các đối
tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm
là cực đại và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là cực
tiểu. Kỹ thuật phân cụm sẽ nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa
được xếp lớp dựa trên mức độ tương tự giữa các đối tượng. Các cụm được đặc trưng
bằng các tính chất chung của tất cả các đối tượng trong cụm. Do vậy, khảo sát các cụm
sẽ giúp khái quát, tổng kết nhanh chóng nội dung của khối dữ liệu lớn.
+ Hồi qui (regression): Là bài toán học một hàm ánh xạ từ một mẫu dữ liệu thành
một biến dự đốn có giá trị thực. Mục đích của hồi quy tương tự như bài toán phân
lớp, điểm khác biệt ở đây là các thuộc tính dự báo trong bài tốn này là liên tục chứ
không rời rạc.
+ Tổng hợp (summarization):
Công việc liên quan đến các phương pháp tìm kiếm mơ tả chung để xác định được
các tập con dữ liệu hay các nhóm dữ liệu, trong đó các nhóm có thể chồng nhau hoặc
tách rời, điều này có nghĩa là dữ liệu có thể thuộc nhóm này và cũng có thể thuộc
nhóm khác.
+ Mơ hình ràng buộc (dependency modeling):
Là phương pháp tìm kiếm một mơ hình mơ tả sự phụ thuộc giữa các biến, thuộc tính
theo hai mức, đó là mức cấu trúc của mơ hình mơ tả biểu diễn dưới dạng đồ thị. Trong
đó sự phụ thuộc bộ phận của các biến phụ vào các biến khác. Trường hợp thứ hai đó là
mức định lượng mơ hình mơ tả mức độ phụ thuộc, thường được biểu diễn dưới dạng
luật “nếu - thì”. Trường hợp này phụ thuộc vào tiền đề để xác định kết luận, tiền đề
thường là nhóm các giá trị thuộc tính và kết luận chỉ là một thuộc tính.
+ Dị tìm biến đổi và độ lệch (change and deviation dectection):
Phương pháp này xác định giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của
tập con dữ liệu thực và nội dung mong đợi. Hai mơ hình thường hay sử dụng đó là đo độ
lệch theo thời gian và đo độ lệch theo nhóm. Đối với đo độ lệch theo thời gian thì sự thay
đổi có ý nghĩa của dữ liệu theo thời gian, còn đo độ lệch theo nhóm sẽ xác định sự khác
nhau giữa hai tập con dữ liệu, nghĩa là xác định dữ liệu trong một nhóm con của đối tượng
có khác so với tồn bộ đối tượng khơng, qua đó phát hiện những sai sót dữ liệu và sai lệch
so với giá trị thông thường. Thông thường những nhiệm vụ này yêu cầu
13
số lượng và các dạng thông tin khác nhau nên sẽ ảnh hưởng đến việc thiết kế và chọn
phương pháp khai phá dữ liệu khác nhau.
1.3. Ứng dụng của khai phá dữ liệu
Có thể nói sau khi ra đời, các kỹ thuật khai phá dữ liệu đã thu hút được rất nhiều sự
quan tâm của các nhà nghiên cứu nhờ vào tính ứng dụng trong thực tiễn của nó, và
chính ưu điểm này lại thúc đẩy khai phá dữ liệu ngày càng được nghiên cứu nhiều hơn
và trở thành nội dung nghiên cứu liên quan đến đa ngành, đa lĩnh vực trong đời sống
xã hội. Hiện nay, khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều
lĩnh vực và đã có rất nhiều cơng cụ được xây dựng và phát triển dưới dạng thương mại
và phi thương mại, các công cụ hỗ trợ cho ứng dụng trong thực tế. Khi dữ liệu số và dữ
liệu trên mơi trường web ngày càng nhiều thì khai phá dữ liệu ngày càng được phát
triển sâu rộng nhằm khai thác nguồn dữ liệu phong phú trong các hệ thống thơng tin
đó. Một số hướng ứng dụng phổ biến hiện nay của khai phá dữ liệu như:
1.3.1. Ứng dụng trong bài tốn phân tích, dự báo, tư vấn:
Đối với bài tốn này có rất nhiều lĩnh vực được ứng dụng, một số ngành điển hình
như:
+ Trong y tế: từ những thơng tin của bệnh nhân hệ thống phân tích và dự đoán bệnh
và đưa ra phác đồ điều trị, đưa ra các bài toán dự báo về nguy cơ lây nhiểm hay các bài
toán khác;
+ Trong thương mại bài toán dùng để phân tích thơng tin sản phẩm, khách hàng,
phân tích quan điểm người sử dụng, phân tích các sở thích để từ đó dự báo các chiến
lược kinh doanh, các nhu cầu của khách hàng;
+ Đối với lĩnh vực chính trị, xã hội: phân tích ý kiến, thái độ dư luận để dự báo xu
hướng phát triển, xu hướng quan điểm của dân về các chế độ chính sách;
+ Ứng dụng phân tích dự báo trong các ngành khoa học như thiên văn học, khí
tượng, sinh học…vv. Đặc biệt đối với khai phá dữ liệu sinh học là một phần rất quan
trọng của lĩnh vực Tin - Sinh học (Bioinformatics), nó được biết đến với một số ứng
dụng điển hình như lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ sở dữ liệu
Gen; xây dựng mơ hình khai phá các mạng di truyền và cấu trúc của Gen, protein; xây
dựng các công cụ trực quan trong phân tích dữ liệu di truyền.
+ Trong hoạt động giáo dục thường phát triển theo các dạng chuyên gia hỗ trợ học
tập hoặc tư vấn trong các hoạt động giáo dục, đào tạo.
1.3.2 Ứng dụng trong các bài toán khác
+ Bài tốn tìm kiếm thơng tin là bài tốn khá phát triển và phổ biến, các dạng mở rộng
trong khai phá dữ liệu được ứng dụng nhiều trên các bộ dữ liệu khác nhau, đặc biệt
14
là trên các bộ dữ liệu phân tán lớn. Một hướng ứng dụng khá phổ biến đó là khai phá
dữ liệu trên kho dữ liệu khách hàng của các bài toán ngân hàng, kinh doanh, maketing,
vv. Việc khai thác và sử dụng dữ liệu để phân tích đa chiều trên kho dữ liệu khách
hàng về doanh số bán hàng, khách hàng, sản phẩm, thời gian và khu vực cũng như các
thơng số khác.
+ Bài tốn ứng dụng trong cơng nghiệp viễn thông là một trong những hướng mới
mới nổi, với mục tiêu cung cấp các dịch vụ liên quan đến môi trường trên điện thoại di
động, môi trường Internet, môi trường trên các mạng xã hội.... Hướng khai phá dữ liệu
trong ngành công nghiệp viễn thông giúp các nhà quản lý xác định các mơ hình viễn
thơng, quản lý và phát hiện các hoạt động gian lận trong viễn thông, khai thác có hiệu
quả nguồn tài ngun viễn thơng và nâng cao chất lượng dịch vụ viễn thông cho người
dùng. Một số ứng dụng của khai phá dữ liệu trong ngành cơng nghiệp viễn thơng như:
- Phân tích nguồn dữ liệu đa chiều trong viễn thơng.
-
Xây dựng mơ hình để quản lý và phát hiện gian lận trong viễn thông.
-
Quản lý và phát hiện trong giao dịch viễn thơng.
-
Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng để tư vấn cũng
như có những chiến lược phát triển khác.
-
Phân tích dữ liệu viễn thơng thơng qua các cơng cụ trực quan.
+ Bài tốn phát hiện xâm nhập bất hợp pháp và an ninh mạng là một trong những
hướng ứng dụng quan trọng ngày nay bởi vì việc ngặn chặn và phát hiện xâm nhập bất
hợp pháp sẽ ngăn chặn được các đe dọa đến an toàn và bảo mật của tài nguyên. Trong
thế giới phẳng bảo mật đã trở thành vấn đề lớn đối với sự tồn tại của hệ thống. Với sự
phát triển của công nghệ và sự sẵn có của các cơng cụ trên web, việc kiểm soát truy
cập bất hợp pháp là vấn đề rất quan trọng cho các hệ thống hiện nay. Bài toán này
được ứng dụng qua khai phá dữ liệu để có thể phát hiện xâm nhập theo các hướng như
kỹ thuật phát hiện xâm nhập; phân tích, kết hợp, tương quan và khác biệt giữa các yếu
tố để phát hiện xâm nhập; phân tích dịng dữ liệu để phát hiện bất thường, vv.
15
Chương 2 - NGHIÊN CỨU VỀ GIÁO DỤC HƯỚNG NGHIỆP TRONG
TRƯỜNG THCS VÀ MẠNG NƠRON NHÂN TẠO
2.1. Giáo dục hướng nghiệp trong trường THCS
2.1.1. Tổng quan về hướng nghiệp và giáo dục hướng nghiệp
Việc lựa chọn nghề nghiệp có ý nghĩa quyết định đến tương lai của thế hệ học sinh,
vì vậy cơng tác hướng nghiệp cho học sinh khơng chỉ vì tương lai các em mà cịn tác động
đến gia đình và xã hội. Một thực trạng đối với nước ta là hầu hết các Bố mẹ có con đi học
đều mong muốn con thi vào đại học cho dù khả năng học tập của các em học sinh cịn
chưa tốt. Do đó đã xảy ra tình trạng đào tạo tràn lan ở tất cả các địa phương, học sinh sau
khi tốt nghiệp rất khó kiếm được việc làm, hiện tượng “thừa thầy thiếu thợ” xảy ra phổ
biến và nhiều người được đào tạo mà vẫn thất nghiệp. Chính vì vậy vấn đề quan trọng
hiện nay là làm thế nào để nâng cao nhận thức của mọi người đối với công tác hướng
nghiệp, huy động được nhiều lực lượng xã hội, đặc biệt là bố mẹ tham gia hướng nghiệp
một cách tích cực, đúng hướng và hiệu quả cho con em mình.
Thuật ngữ hướng nghiệp ra đời từ rất lâu và được hiểu theo nhiều cách khác
nhau. Có quan điểm cho rằng hướng nghiệp là hướng dẫn để quyết định việc chọn
ngành, nghề cho học sinh chuẩn bị tốt nghiệp phổ thơng; có người cho rằng đây là q
trình định hướng cho các em lựa chọn ngành, nghề cho bản thân mình trong tương lai.
Nhưng dù theo quan điểm nào đi nữa thì Giáo dục hướng nghiệp được hiểu là “Hướng
nghiệp trong giáo dục là hệ thống các biện pháp tiến hành trong và ngoài nhà trường
để giúp học sinh có kiến thức về nghề nghiệp và có khả năng lựa chọn nghề nghiệp
trên cơ sở kết hợp nguyện vọng, sở trường của cá nhân với nhu cầu sử dụng lao động
của xã hội” (trích Điều 3- Nghị định 75/2006/NĐ-CP Quy định chi tiết và hướng dẫn
thi hành một số điều Luật Giáo dục) [21]. Như vậy, hướng nghiệp là giáo dục cho các
em sự lựa chọn nghề nghiệp của mình nhằm đảm bảo và phù hợp cho các em trong lao
động nghề nghiệp để qua đó có thể phát huy và cống hiến được nhiều nhất cho xã hội.
Thực tiễn đã chứng minh rằng việc lựa chọn ngành nghề khơng phù hợp sẽ có tác
động tiêu cực và làm chậm sự phát triển kinh tế xã hội, làm mất cân đối trong cơ cấu
ngành nghề và làm sai lệch nhu cầu lao động. Tư vấn và định hướng nghề nghiệp sẽ giúp
học sinh chọn đúng nghề và qua đó điều chỉnh xu hướng phân cơng lao động xã hội để
làm cho xã hội phát triển cân bằng. Vị trí, vai trị và ý nghĩa của hoạt động này rất quan
trọng và có ý nghĩa rất lớn trong giáo dục, hoạt động hướng nghiệp sẽ giúp học sinh lựa
chọn và điều chỉnh được hướng đi, lựa chọn được nghề nghiệp phù hợp với sở trường,
năng lực của bản thân và phù hợp với nhu cầu nghề nghiệp trong xã hội tại thời điểm đó
một cách tốt nhất. Giáo dục hướng nghiệp giúp học sinh phát huy được năng
16
lực, sở trường bản thân, hứng thú và có nhận thức chọn nghề một cách đúng đắn là
việc làm hết sức quan trọng và có ý nghĩa đối với hướng nghiệp. Hoạt động hướng
nghiệp tốt sẽ cung cấp nguồn nhân lực cho xã hội một cách hợp lý.
Ngoài ra Giáo dục hướng nghiệp là một nội dung quan trọng trong chương trình
giáo dục, nó góp phần cụ thể hóa mục tiêu đào tạo trong nhà trường, trong chương
trình học sinh được tiếp cận các mơn học tích hợp nghề nghiệp và thơng qua các mơn
học đó để cung cấp cho học sinh các kiến thức cơ bản về các ngành nghề trong xã hội
để từ đó giúp học sinh định hướng được việc lựa chọn nghề tương lai cho bản thân
mình. Như vậy quá trình hướng nghiệp một mặt giáo dục ý thức lao động nghề nghiệp
cho học sinh, mặt khác thực hiện nhiệm vụ định hướng nghề nghiệp trong tương lai
cho học sinh. Giáo dục hướng nghiệp tốt sẽ tạo động lực và tạo cơ hội cho học sinh
trong việc lựa chọn nghề nghiệp phù hợp, giúp học sinh phát huy hết năng lực sau này
để phát triển ngành nghề của mình và cũng phát huy hết tính sáng tạo trong công việc,
nâng cao chất lượng hiệu quả công việc và thúc đẩy xã hội phát triển.
Trong nhà trường phổ thông, hoạt động hướng nghiệp là một nhiệm vụ cần thiết
trong tiến trình cải cách giáo dục nhằm thực hiện mục tiêu giáo dục và mục tiêu phân
bố việc làm cho xã hội. Công tác hướng nghiệp trong nhà trường phổ thơng nhằm mục
đích bồi dưỡng, hướng dẫn học sinh chọn nghề phù hợp với yêu cầu phát triển của xã
hội, đồng thời phù hợp với thể lực và năng khiếu của cá nhân. Những nhiệm vụ chính
của giáo dục hướng nghiệp trong nhà trường phổ thông là:
- Giáo dục thái độ lao động và ý thức đúng đắn về nghề nghiệp;
- Tổ chức cho học sinh thực tập, làm quen với một số nghề chủ yếu trong xã hội
và các nghề truyền thống của địa phương;
- Tìm hiểu năng khiếu, khuynh hướng nghề nghiệp của từng học sinh để khuyến
khích, hướng dẫn và bồi dưỡng khả năng nghề nghiệp thích hợp nhất;
- Động viên hướng dẫn học sinh đi vào những nghề, những nơi đang cần lao
động trẻ tuổi có văn hố. (trích: Thơng tư số 31 – TT ngày 17 tháng 11 năm 1981,
“Hướng dẫn thực hiện quyết định của Hội đồng chính phủ về Cơng tác hướng nghiệp
trong nhà trường phổ thông”) [21].
2.1.2. Hoạt động giáo dục hướng nghiệp cho học sinh THCS
Theo định hướng của đề án số 522/QĐ-TTg “Giáo dục hướng nghiệp và định hướng
phân luồng học sinh trong giáo dục phổ thông giai đoạn 2018-2025” của Thủ tướng Chính
phủ ký ngày 14 tháng 5 năm 2018 [22] thì mục tiêu đến năm 2020 của giáo dục hướng
nghiệp có khoảng 55% trường trung học cơ sở, 60% trường trung học phổ thơng có
chương trình giáo dục hướng nghiệp gắn với hoạt động sản xuất, kinh doanh, dịch vụ của
địa phương; đối với các trường ở địa phương có điều kiện kinh tế - xã hội