Tải bản đầy đủ (.pdf) (93 trang)

Phân tích định hướng nghề nghiệp thông qua các kỹ thuật khai phá dữ liệu: luận văn thạc sĩ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.9 MB, 93 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
**

NGUYỄN ĐỨC HẬU

PHÂN TÍCH ĐỊNH HƯỚNG NGHỀ NGHIỆP THÔNG QUA
CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU

Luận văn thạc sĩ Công Nghệ Thông Tin

Đồng Nai – Năm 2015



BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
***

NGUYỄN ĐỨC HẬU

PHÂN TÍCH ĐỊNH HƯỚNG NGHỀ NGHIỆP THÔNG QUA
CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU
Chuyên ngành: Công Nghệ Thông Tin
Mã số: 60480201
Luận văn thạc sĩ Công Nghệ Thông Tin

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. Trần Văn Hoài

Đồng Nai – Năm 2015





LỜI CẢM ƠN
Tôi muốn gửi lời cảm ơn đến các thầy cô giáo trường Đại học Lạc Hồng –
Đồng Nai đã quan tâm tổ chức chỉ đạo và trực tiếp giảng dạy khoá cao học của
chúng tôi. Cảm ơn cha (mẹ), thầy cô, bạn bè, đồng nghiệp và người thân gia đình,
những người đã dạy bảo và ủng hộ tôi trong suốt quá trình học tập.
Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn PGS.TS
Trần văn Hoài, người đã tận tình chỉ bảo và góp ý về mặt chuyên môn cho tôi trong
suốt quá trình làm luận văn. Nếu không có sự giúp đỡ của thầy thì tôi khó có thể
hoàn thành được luận văn này.
Cũng qua đây, tôi xin gửi lời cảm ơn đến ban lãnh đạo trường Đại Học Đồng
Nai, nơi tôi đang công tác, đã tạo mọi điều kiện thuận lợi cho tôi trong thời gian
hoàn thành các môn học cũng như trong suốt quá trình làm luận văn tốt nghiệp.
Trong suốt quá trình làm luận văn, bản thân tôi đã cố gắng tập trung tìm
hiểu, nghiên cứu và tham khảo thêm nhiều tài liệu liên quan. Tuy nhiên, do bản thân
mới bắt đầu trên con đường nghiên cứu khoa học, chắc chắn bản luận văn vẫn còn
nhiều thiếu sót. Tôi rất mong được nhận sự chỉ bảo của các Thầy Cô giáo và các
góp ý của bạn bè, đồng nghiệp để luận văn được hoàn thiện hơn.
Cuối cùng, tôi xin chúc sức khỏe cha mẹ, vợ (con), thầy (cô) và các bạn bè,
đồng nghiệp đã luôn ủng hộ, động viên để tôi yên tâm nghiên cứu và hoàn thành luận
văn.

Đồng Nai, tháng 11 năm 2015

Nguyễn Đức Hậu




LỜI CAM ĐOAN
Tôi xin cam đoan đề tài “PHÂN TÍCH ĐỊNH HƯỚNG NGHỀ NGHIỆP THÔNG
QUA CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU” là kết quả của tự bản thân tôi tìm hiểu,
nghiên cứu. Các tài liệu tham khảo được trích dẫn và chú thích đầy đủ. Tôi xin chịu
trách nhiệm về luận văn của mình.
Tác giả luận văn ký và ghi rõ họ tên

Nguyễn Đức Hậu



TÓM TẮT LUẬN VĂN
Sự bùng nổ thông tin nhất là thông tin thực và thông tin nhiễu lẫn lộn khiến ta khó
có thể tự xác định thông tin chính xác trước khi ra quyết định một vấn đề nào đó đặc
biệt là các quyết định cần có trình độ chuyên môn, mà thường phải tìm kiếm ý kiến, lời
tư vấn của các chuyên gia. Hệ tư vấn ra đời với mục đích hỗ trợ cho quá trình tư vấn tự
nhiên mang tính chất xã hội này nhằm giúp cho người được tư vấn mua một món hàng,
dịch vụ, v.v… mà họ quan tâm nhất như mua một cuốn sách, xem một cuốn phim, và
thậm chí là tìm một chuyên gia tư vấn. Tư vấn tuyển sinh đại học/cao đẳng xét trên một
khía cạnh nào đó cũng là một dịch vụ không những được sự quan tâm của các thí sinh
mà còn của các phụ huynh học sinh. Một lời tư vấn tốt không chỉ giúp các thí sinh chọn
được trường, ngành phù hợp với năng lực của mình mà còn giúp tìm kiếm nhân tài trong
các lĩnh vực để phục vụ cho đất nước sau này. Trong xây dựng một hệ tư vấn có nhiều
phương pháp như Chọn lọc cộng tác, Chọn lọc dựa trên nội dung hoặc Phương pháp lai.
Tùy vào dữ liệu có được và nhu cầu tư vấn mà ta sẽ chọn một phương pháp phù hợp.
Trong luận văn này, tác giả tập trung nghiên cứu các phương pháp xây dựng một
hệ tư vấn, đặc biệt là hệ tư vấn Chọn lọc cộng tác. Trên cơ sở một hệ tư vấn thương mại
tác giả ứng dụng chuyển sang một hệ tư vấn tuyển sinh đại học/cao đẳng bằng phương
pháp Chọn lọc cộng tác gom cụm. Tác giả cũng đã thực hiện một số thực nghiệm, sử
dụng một số chỉ số đánh giá như MAE, RMSE nhằm đánh giá ảnh hưởng của các kỹ

thuật trong thuật toán sử dụng trong hệ tư vấn.



Mục lục

Mở Đầu ........................................................................................................................ 1
1

Tổng quan đề tài ................................................................................................... 1

2

Mục tiêu của luận văn ........................................................................................... 2

3

Phạm vi và đối tượng nghiên cứu ......................................................................... 3

4

Phương pháp thực hiện ......................................................................................... 3

5

Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu ........................................... 4

6

Dự kiến tên công trình công bố trên tạp chí hoặc hội thảo khoa học ................... 4


7

Bố cục của luận văn .............................................................................................. 4

CHƯƠNG 1 Khảo sát và các giải thuật khai phá. ....................................................... 5
1.1 Khai phá dữ liệu ........................................................................................................ 5
1.1.1 Khái niệm Khai phá dữ liệu ............................................................................... 5
1.1.2 Kiến trúc của một hệ thống khai phá dữ liệu ..................................................... 8
1.2 Một số kỹ thuật khai phá dữ liệu............................................................................... 9
1.2.1 Phân lớp ............................................................................................................. 9
1.2.2 Phân cụm .......................................................................................................... 10
1.2.3 Luật kết hợp ..................................................................................................... 10
1.2.4 Lựa chọn phương pháp khai phá dữ liệu.......................................................... 11
1.3 Ứng dụng của khai phá dữ liệu ............................................................................... 14
1.4 Một số khó khăn trong khai phá dữ liệu ................................................................. 14
1.5 Kết luận chương 1 ................................................................................................... 17
CHƯƠNG 2 HỆ TƯ VẤN VÀ CÁC KỸ THUẬT LỌC CỘNG TÁC .................... 19
2.1 Khái niệm hệ tư vấn ................................................................................................ 19
2.1.1 Chức năng của các hệ tư vấn chức năng của các hệ tư vấn ............................. 20
2.1.2 Chức năng của các hệ tư vấn đối với người sử dụng ....................................... 22
2.2 Các hệ tư vấn........................................................................................................... 23
2.2.1 Hệ tư vấn xã hội ............................................................................................... 23
2.2.2 Hệ tư vấn dựa trên nội dung............................................................................. 26
2.2.3 Hệ tư vấn truyền thông..................................................................................... 27
2.3 Các kỹ thuật lọc cộng tác ........................................................................................ 29


2.3.1 Thuật toán Lọc cộng tác dựa trên sản phẩm .................................................... 33
2.3.2 Thuật toán lọc cộng tác dựa trên người dùng .................................................. 35

2.3.3 Các kỹ thuật lọc cộng tác lai ghép ................................................................... 38
2.3.4 Các kỹ thuật lọc cộng tác dựa trên mô hình ..................................................... 40
2.3.5 Đặc điểm và thách thức của Collaborative Filtering........................................ 53
2.4 Các chỉ số đánh giá thuật toán ................................................................................ 53
2.4.1 Sai số tuyệt đối trung bình (Mean Absolute Error - MAE) ............................. 53
2.4.2 Mô hình hóa nhóm ........................................................................................... 54
2.5 Kết luận chương 2 ................................................................................................... 54
CHƯƠNG 3 Cài đặt thuật toán khai phá các hệ tư vấn tuyển sinh bằng phương pháp
chọn lọc cộng tác (Collaborative Filtering). ..................................................................... 56
3.1 Giới thiệu nghề nghiệp ............................................................................................ 56
3.2 Mô tả bài toán tư vấn tuyển sinh ............................................................................. 58
3.2.1 Đặt vấn đề ........................................................................................................ 58
3.2.2 Hướng giải quyết.............................................................................................. 59
3.2.3 Dữ liệu đầu vào ................................................................................................ 59
3.2.4 Mô hình ............................................................................................................ 62
3.3 Thuật toán CF gom cụm ......................................................................................... 63
3.4 Giới thiệu chương trình ........................................................................................... 64
3.4.1 Công cụ thực nghiệm ....................................................................................... 64
3.4.2 Dữ liệu: ............................................................................................................ 64
3.4.3 Giao diện .......................................................................................................... 65
3.5 Chạy thực nghiệm ................................................................................................... 66
3.5.1 Đánh giá kết quả chạy thực nghiệm ................................................................. 66
3.5.2 Chạy thực nghiệm tư vấn khối, ngành, trường trên bộ dữ liệu 300 với 4 tổ hợp
trên. ................................................................................................................................... 67
3.5.3 Kết Quả Chạy Thực Nghiệm Khối .................................................................. 67
3.5.4 KẾT QUẢ CHẠY THỰC NGHIỆM TRƯỜNG ............................................. 68
CHƯƠNG 4 Kết luận và hướng phát triển ................................................................ 73
4.1 Đánh giá kết quả đạt được ...................................................................................... 73
4.1.1 Ưu điểm ........................................................................................................... 73
4.1.2 Hạn chế: ........................................................................................................... 73



4.2 HƯỚNG PHÁT TRIỂN LUẬN VĂN .................................................................... 73
4.2.1 Tính sai số cho trọng số trúng tuyển tư vấn cho ứng viên ............................... 73
4.2.2 Dự báo ngành ................................................................................................... 73
4.2.1.

Dự báo phổ điểm ......................................................................................... 74

4.2.2.

Phát triển thêm chức năng quản lý .............................................................. 74

4.2.3.

Đồng bộ hóa dữ liệu giữa các trường Đại học ............................................ 74

Tài liệu tham khảo


DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt

Cụm từ đầy đủ

Association Rules

Các luật kết hợp

Case-Based Reasoning (CBR)


Suy luận dựa trên trường hợp

Collaboration Filter (CF)

Chọn lọc cộng tác

community-based CF

Chọn lọc cộng tác cộng đồng

Content-base filter

Chọn lọc trên nội dung

CSDL

Cơ sở dữ liệu

Data mining engine

Bộ khai phá dữ liệu

Database or warehouse server

Kho dữ liệu

demographic-based CF

Chọn lọc cộng tác nhân khẩu học


Graphical user interface

Giao diện đồ họa cho user

Knowledge base

Cơ sở tri thức

Knowledge Discovery in Database Phát hiện tri thức từ cơ sở dữ liệu
(KDD)
knowledge-based CF

Chọn lọc cộng tác tri thức

Pattern evaluation

Modun đánh giá mẫu

PTTH

Phổ thông trung học


DANH MỤC BẢNG
Bảng 2.1 Ma trận người dùng sản phẩm .......................................................................... 31
Bảng 2.2Tóm tắt các hệ tư vấn ........................................................................................ 51
Bảng 2.3 Tóm tắt các kỹ thuật cơ bản dùng để xây dựng một hệ tư vấn. ........................ 52
Bảng 3.1 Giới thiệu một số nghề thông dụng [7] ............................................................. 57
Bảng 3.2Xữ lý tập dữ liệu theo khối thi:.......................................................................... 61

Bảng 3.3 Xữ lý tập dữ liệu theo trường thi: ..................................................................... 61
Bảng 3.4 Xữ lý tập dữ liệu theo ngành thi: ...................................................................... 61
Bảng 3.5 Kết quả tư vấn................................................................................................... 67
Bảng 3.6 Kết quả tư vấn trường khối B00 ....................................................................... 68
Bảng 3.7Kết quả tư vấn trường khối A00 ........................................................................ 68
Bảng 3.8 Kết quả tư vấn trường khối A01 ....................................................................... 68
Bảng 3.9 Kết quả tư vấn theo ngành ................................................................................ 70
Bảng 3.10 Kết quả tư vấn theo ngành .............................................................................. 70
Bảng 3.11 kết quả chạy thực nghiệm với 3 bộ dữ liệu..................................................... 72
Bảng 3.12 Bảng nhận xét đánh giá ba bộ dữ liệu ............................................................ 72
Bảng 4.1Bảng hướng xây dựng chương trình .................................................................. 74


DANH MỤC BIỂU ĐỒ
Biểu đồ 3.1 Sai số trung bình tuyệt đối MAE .................................................................. 67
Biểu đồ 3.2 Sai số căn bậc hai bình phương trung bình RMSE........................................ 67
Biểu đồ 3.3 Sai số trung bình tuyệt đối MAE trường ...................................................... 69
Biểu đồ 3.4 Sai số căn bậc hai bình phương trung bình RMSE theo trường ................... 69
Biểu đồ 3.5 Sai số trung bình tuyệt đối MAE theo ngành ............................................... 70
Biểu đồ 3.6 Sai số căn bậc hai bình phương trung bình RMSE theo ngành .................... 71


DANH MỤC HÌNH ẢNH
Hình 1.1 Quy chế tuyển sinh đại học / cao đẳng .......... 2
Hình 1.2 Chính sách ưu tiên điển cộng hệ đại học / cao đẳng ............................................ 2
Hình 1.1 Quá trình khai phá dữ liệu (trích lọc giá tác giả) [9]............................................ 7
Hình 1.2 Kiến trúc của một hệ thống khai phá dữ liệu (tác giả) ......................................... 8
Hình 1.3 Mô tả luật kế hợp (tác giả) ................................................................................. 11
Hình 2.1 Từ đồ thị người dùng sang ma trận người dùng – người dùng .......................... 25
Hình 2.2 Tư vấn dựa trên nội dung (tác giả) ..................................................................... 27

Hình 2.3 Quá trình lọc cộng tác (tác giả) .......................................................................... 28
Hình 2.4 Tư vấn dựa trên cộng tác .................................................................................... 29
Hình 2.5 Quá trình lọc cộng tác ........................................................................................ 30
Hình 2.6 Các thiết lập để xác định ranh giới các cụm ban đầu ......................................... 41
Hình 2.7Tính toán trọng tâm của các cụm mới ................................................................. 42
Hình 2.8 Sơ đồ thuật toán K - means ................................................................................ 44
Hình 2.9 các bước của thuật toán k-means ....................................................................... 45
Hình 3.1 Mô hình bài toán (tác giả) .................................................................................. 62
Hình 3.2 Giải thuật đồ bài toán (tác giả) ........................................................................... 64
Hình 3.3 Giao diện chương trình tư vấn ........................................................................... 65
Hình 3.4 Nhập thông tin tư vấn......................................................................................... 66


1
Mở Đầu
1 Tổng quan đề tài
Trong cuộc sống hàng ngày, người dân dựa trên các thông tin từ những người khác
bằng lời nói, thư giới thiệu, báo cáo tin tức từ giới truyền thông, … vv.
Hiện nay, khoa học công nghệ phát triển các phương tiện lưu trữ thông tin ngày
càng lớn, các hệ quản trị cơ sở dữ liệu cũng phát triển mạnh, cung cấp cho chúng ta
nhiều công trình nghiên cứu trong lĩnh vực khai phá dữ liệu. Con người đã khai thác
được những giá trị tri thức từ các dữ liệu được lưu trữ tích hợp vào các chương trình ứng
dụng. Hệ thống tư vấn hỗ trợ và tăng cường quá trình xã hội tự nhiên này để giúp mọi
người chọn lọc qua tài liệu nghiên cứu có sẵn, các bài báo, các trang web, phim ảnh, âm
nhạc, nhà hàng, sản phẩm thực phẩm, … vv. Để tìm thấy những thông tin thú vị nhất và
có giá trị cho họ. Các nhà phát triển của một trong những hệ thống tư vấn đầu tiên,
Tapestry [11] (hệ thống các thông tin khác bao gồm hệ tư vấn dựa trên luật và user tuỳ
biến), đặt ra cụm từ "chọn lọc cộng tác (CF)", mà đã được áp dụng rộng rãi bất kể các
sự kiện rằng hệ tư vấn có thể không hợp tác một cách rõ ràng với người nhận và các
thông tin có thể đề xuất các mặt hàng đặc biệt thú vị, ngoài việc chỉ ra những người cần

được lọc ra [22]. Các giả định cơ bản của CF là nếu user X và Y phẩm tăng n tương tự,
hoặc có những hành vi tương tự (ví dụ, mua, xem, nghe …), và sẽ đánh giá hoặc hành
động về các mặt hàng khác tương tự [21].
Việt Nam trong những năm gần đây, do sự chuyển biến của nền kinh tế từ cơ chế
kế hoạch hóa tập trung sang cơ chế thị trường. Trong cơ chế thị trường, sức lao động
cũng là một loại hàng hóa, giá trị của loại hàng hóa sức lao động này tuỳ thuộc vào trình
độ, tay nghề, kỹ năng, khả năng nhận thức về mọi mặt của người lao động.
Chọn cho mình một nghề nghĩa là chọn cho mình một tương lai. Việc chọn nghề
thực sự quan trọng và vô cùng cần thiết. Người chọn một nghề phù hợp được đào tạo
đúng với khả năng, năng khiếu, ứng với mục tiêu nhu cầu xã hội, giúp người thành công
hơn trong cuộc sống của họ. Chọn sai lầm một nghề nghĩa là đặt cho mình một tương
lai không thực sự an toàn và vững chắc.
Trong công tác tư vấn tuyển sinh ở các trường đại học, cao đẳng, trung cấp chưa
khai thác hết những dữ liệu học tập của học sinh, một cách hiệu quả, để tư vấn tốt cho


2
người học chọn một nghề (ngành học) phù hợp có hiệu quả trong quá trình học tập hay
ra trường xin việc làm tốt sau khi học xong.
Trên cơ sở hệ thống tuyển sinh của Bộ Giáo Dục và Đào Tạo năm 2015

[1]
Hình 1.1 Quy chế tuyển sinh đại học / cao đẳng


[1]
Hình 1.2 Chính sách ưu tiên điển cộng hệ đại học / cao đẳng
Với kỹ thuật khai phá dữ liệu ta đặt ra bài toán phân tích các kết quả học tập của
các môn học của kỳ thi tốt nghiệp PTTH giúp ta khai thác những tri thức chứa trong cơ
sở dữ liệu điểm của học sinh. Dự đoán được trước kế hoạch cần chọn nghề (ngành học)

cho học sinh. Từ đó tổ chức tư vấn chọn nghề của nhà trường có được những định hướng
đúng đắn hỗ trợ cho học sinh, chọn nghề phù hợp, hạn chế rơi vào những tình huống
khó khăn không mong đợi.
Nhằm hỗ trợ nâng cao chất lượng tư vấn định hướng nghề nghiệp. Giúp người học
tự định hướng chính xác hơn về nghề nghiệp phù hợp với năng lực. Đánh giá đúng tính
cách, sở thích, đúng nhu cầu bản thân, xã hội, nên tôi chọn đề tài: “PHÂN TÍCH ĐỊNH
HƯỚNG NGHỀ NGHIỆP THÔNG QUA CÁC KỸ THUẬT KHAI PHÁ DỮ
LIỆU” làm luận văn tốt nghiệp thạc sĩ.
2 Mục tiêu của luận văn
2.1

Mục tiêu 1: Xây dựng hệ tư vấn định hướng chọn nghề phù hợp năng lực, kỹ

năng và nhu cầu công việc của xã hội.


3
2.2

Mục tiêu 2: Tìm hiểu khái quát về khai phá dữ liệu trong đó đi sâu về hệ tư vấn.

Tìm hiểu các phương pháp tư vấn khách hàng (chọn lọc dựa trên nội dung (Contentbase filter) và chọn lọc cộng tác (Collaboration filter). Thu thập, tìm hiểu, phân tích các
tài liệu và thông tin liên quan đến luận văn.
2.3

Mục tiêu 3: Phân tích chương trình, nghiên cứu xây dựng hệ tư vấn bằng kỹ thuật

chọn lọc cộng tác: gom cụm kết hợp với chọn lọc cộng tác dựa trên ký ức. Đề xây dựng
một hệ thống tư vấn, cài đặt phần mềm hỗ trợ công tác tư vấn tuyển sinh trường đại học
3 Phạm vi và đối tượng nghiên cứu

3.1

Đối tượng:
 Các phương pháp xây dựng hệ tư vấn, đặt biệt là hệ tư vấn CF.
 Dữ liệu điểm nguyện vọng của sinh viên trúng tuyển vào đại học

3.2

Phạm vi nghiên cứu:
Căn cứ vào điều kiện và khả năng thực hiện đề tài, tôi đi sâu vào nghiên cứu đối

tượng học sinh, đang học và đã tốt nghiệp trực thuộc Sở giáo dục đào tạo Đồng Nai
(Những trường thuộc Tp Biên Hòa - Đồng Nai).
4 Phương pháp thực hiện
Để đạt mục tiêu nguyên cứu, luận văn sử dụng các phương pháp nghiên cứu định
tính và định lượng thông qua việc thực hiện hai bước nghiên cứu khám phá và nghiên
cứu chính thức.
4.1

Phương pháp định tính:
Nhìn tổng quan về các loại quyết định, thông tư, qui chế tuyển sinh về việc xây

dựng hệ thống.
Trao đổi với các cán bộ, công chức làm việc tại các bộ phận khác nhau của sở
thương binh lao động xã hội, sở giáo dục và đào tạo, trường đại học Đồng Nai, tìm dữ
liệu.
Tất cả các nguồn cung cấp công cụ tìm kiếm có khả năng, các phương pháp được
sử dụng để xác định sự liên quan khác. Tìm kiếm của Google được dựa trên ageRank,
tức là các trang web khác liên kết nếu có thể.



4
Nguyên cứu các hệ tư vấn và phương pháp tư vấn đưa vào ứng dụng luận văn
4.2

Phương pháp định lượng
Xây dựng hệ thống tư vấn
Đánh giá kết quả chương trình cài đặt thông qua các chỉ số đánh giá dựa trên kết

quả chạy thực nghiệm.
5 Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu
Sử dụng hệ tư vấn để chọn lọc một lượng lớn thông tin đã thu thập được từ trường
Đại học Đồng Nai, trường PTTH dân tộc nội trú tỉnh Đồng Nai, từ đó đề xuất các khối,
các trường, các ngành phù họp cho người cần được tư vấn dựa trên số điểm thi của các
môn mà học có được.
6 Dự kiến tên công trình công bố trên tạp chí hoặc hội thảo khoa học
7 Bố cục của luận văn
Luận văn gồm 4 chương:
Chương 1 Tổng quan về khai phá dữ liệu
Chương này giới thiệu quá trình khai phá dữ liệu và phát hiện tri thức, phương
pháp khai phá dữ liệu, ứng dụng và một số khó khăn trong khai phá dữ liệu.
Chương 2 Hệ tư vấn và các phương pháp xây dựng hệ tư vấn
Chương này trình bày hệ tư vấn và các phương pháp xây dựng hệ tư vấn. trình bày
kỹ thuật chọn lọc cộng tác.
Chương 3 Cài đặt và chạy thử nghiệm hệ tư vấn tuyển sinh bằng phương pháp chọn lọc
cộng tác (Collaborative Filtering)
Chương 4 Kết luận, hướng phát triển luận văn.


5


CHƯƠNG 1 Khảo sát và các giải thuật khai phá.
1.1 Khai phá dữ liệu
1.1.1 Khái niệm Khai phá dữ liệu
Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối của
thập kỷ 1980. Nó là quá trình khám phá thông tin ẩn được tìm thấy trong các cơ sở dữ
liệu và có thể xem như là một bước trong quá trình khám phá tri thức. Data Mining là
giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở dữ liệu, các tri thức
này hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh, …
Giáo sư Tom Mitchell [26] đã đưa ra định nghĩa của Khai phá dữ liệu như sau:
“Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện
những quyết định trong tương lai.” Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad
[59] đã phát biểu: “Khai phá dữ liệu, thường được xem là việc khám phá tri thức trong
các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và
có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu.” hay
nói cách khác “Khai phá dữ liệu – Data Mining là tiến trình khám phá tri thức tiềm ẩn
trong các cơ sở dữ liệu. Cụ thể hơn, đó là tiến trình trích lọc, sản sinh những tri thức
hoặc các mẫu tiềm ẩn, chưa biết nhưng hữu ích từ cơ sở dữ liệu lớn” [2].
Nói tóm lại, Khai phá dữ liệu là một quá trình học tri thức mới từ những dữ liệu
đã thu thập được. Khai phá dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ
liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến
trình ra quyết định. Khai phá dữ liệu là việc trích rút tri thức một cách tự động và hiệu
quả từ một khối dữ liệu rất lớn. Tri thức đó thường ở dạng các mẫu tin có tính chất không
đơn giản, không không rõ ràng (ẩn), chưa được biết đến và có tiềm năng mang lại lợi
ích.
Để hình dung vấn đề này ta có thể sử dụng một ví dụ đơn giản như sau: Khai phá
dữ liệu được ví như tìm một cây kim trong đống cỏ khô. Trong ví dụ này, cây kim là
một mảnh nhỏ tri thức hoặc một thông tin có giá trị và đống cỏ khô là một kho cơ sở dữ
liệu rộng lớn. Như vậy, những thông tin có giá trị tiềm ẩn trong kho cơ sở dữ liệu sẽ
được chiết xuất ra và sử dụng một cách hữu ích nhờ khai phá dữ liệu.



6
Chức năng khai phá dữ liệu gồm có gộp nhóm phân loại, dự báo, dự đoán và phân
tích các liên kết. Năm 1989, Fayyad, Smyth và Piatestsky-Shapiro đã dùng khái niệm
Phát hiện tri thức từ cơ sở dữ liệu (Knowledge Discovery in Database-KDD). Trong đó,
khai phá dữ liệu là một giai đoạn rất đặc biệt trong toàn bộ quá trình, nó sử dụng các kỹ
thuật để tìm ra các mẫu từ dữ liệu. Có thể coi khai phá dữ liệu là cốt lõi của quá trình
phát hiện tri thức.
 Quy trình khai phá dữ liệu thông thường gồm 10 bước:
(1) Lĩnh vực nghiên cứu
Ta cần nghiên cứu lĩnh vực cần sử dụng Data mining để xác định được những tri
thức ta cần chắt lọc, từ đó định hướng để tránh tốn thời gian cho những tri thức không
cần thiết.
(2) Dữ liệu đầu vào
Ta xây dựng tập tin để lưu trữ các dữ liệu đầu vào để máy tính có thể lưu trữ và xử
lý.
(3) Tiền xử lý, làm sạch, mã hóa
Ở bước này ta tiến hành bỏ bớt những dữ liệu rườm rà, không cần thiết, tinh chỉnh
lại cấu trúc của dữ liệu và mã hóa chúng để tiện cho quá trình xử lý.
(4) Tích hợp dữ liệu giảm số chiều
Thông thường một tập dữ liệu có chiều khá lớn sẽ sinh ra một lượng dữ liệu khổng
lồ, ví dụ với n chiều ta sẽ có 2^n tổ hợp. Do đó, đây là một bước quan trọng giúp giảm
đáng kể hao tổn về tài nguyên trong quá trình xử lý tri thức. Thông thường ta sẽ dùng
tập thô để giảm số chiều.
(5) Trích chọn dữ liệu chọn tác vụ khai thác dữ liệu
Trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp
cho quá trình khai thác tri thức. Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu
(noisy data), dữ liệu không đầy đủ (incomplete data), .v.v.
(6) Dữ liệu liên quan



7
Trích chọn dữ liệu (data selection): Trích chọn dữ liệu từ những kho dữ liệu và sau
đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình này bao gồm
cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data),
...v.v.
(7) Khai thác dữ liệu: Tìm kiếm tri thức
Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá
trình xử lý.
(8) Đánh giá mẫu tìm được
Khai phá dữ liệu (data mining): Là một trong các bước quan trọng nhất, trong đó
sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu.
(9) Biểu diễn tri thức
Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm được
thông qua các độ đo nào đó.
(10) Sử dụng các tri thức vừa khám phá
Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật
để biểu diễn và thể hiện trực quan cho người dùng.

Hình 1.1 Quá trình khai phá dữ liệu (trích lọc giá tác giả) [9]


8
1.1.2 Kiến trúc của một hệ thống khai phá dữ liệu
Máy chủ cơ sở dữ liệu hay máy chủ kho dữ liệu (Database or warehouse server):
Máy chủ này có trách nhiệm lấy dữ liệu thích hợp dựa trên những yêu cầu khai phá của
user.
Cơ sở tri thức (Knowledge base): Đây là miền tri thức được dùng để tìm kiếm hay
đánh giá độ quan trọng của các hình mẫu kết quả.

Máy khai phá dữ liệu (Data mining engine): Một hệ thống khai phá dữ liệu cần
phải có một tập các modun chức năng để thực hiện công việc, chẳng hạn như đặc trưng
hóa, kết hợp, phân lớp, phân cụm, phân tích sự tiến hoá…
Modun đánh giá mẫu (Pattern evaluation): Bộ phận này tương tác với các modun
khai phá dữ liệu để tập trung vào việc duyệt tìm các mẫu đáng được quan tâm. Cũng có
thể modun đánh giá mâu được tích hợp vào modun khai phá tuỳ theo sự cài đặt của
phương pháp khai phá được dùng.
Giao diện đồ họa cho user (Graphical user interface): Thông qua giao diện này,
user tương tác với hệ thống bằng cách đặc tả một yêu cầu khai phá hay một nhiệm vụ,
cung cấp thông tin trợ giúp cho việc tìm kiếm và thực hiện khai phá thăm dò trên các
kết quả khai phá trung gian.
Mô hình Kiến trúc của một hệ thống khai phá dữ liệu [9]

Hình 1.2 Kiến trúc của một hệ thống khai phá dữ liệu (tác giả)


×