Tải bản đầy đủ (.pdf) (146 trang)

Nghiên cứu độ đo tương tự hỗn hợp trong phát hiện tri thức từ dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.74 MB, 146 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-----------------

NGUYỄN TRUNG TUẤN

NGHIÊN CỨU ĐỘ ĐO TƯƠNG TỰ HỖN HỢP
TRONG PHÁT HIỆN TRI THỨC TỪ DỮ LIỆU

LUẬN ÁN TIẾN SĨ KỸ THUẬT

HÀ NỘI - 2012

-1-


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-----------------

NGUYỄN TRUNG TUẤN

NGHIÊN CỨU ĐỘ ĐO TƯƠNG TỰ HỖN HỢP
TRONG PHÁT HIỆN TRI THỨC TỪ DỮ LIỆU
Chuyên ngành: Đảm bảo toán học cho máy tính và hệ thống tính toán
Mã số: 62.46.35.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học:
1. PGS. TS Nguyễn Ngọc Bình
2. PGS. TS Huỳnh Quyết Thắng


HÀ NỘI - 2012

-2-


LỜI CẢM ƠN
Tác giả luận án xin chân thành cảm ơn đến tập thể hướng dẫn khoa học:
1. PGS. TS Nguyễn Ngọc Bình
Trường Đại học Công nghệ,
Đại học Quốc gia Hà Nội.
2. PGS. TS Huỳnh Quyết Thắng
Viện Công nghệ thông tin và truyền thông,
Trường Đại học Bách khoa Hà Nội.
Các thầy đã dành nhiều thời gian và tâm huyết để hướng dẫn và giúp đỡ tác giả
hoàn thành luận án này. Tác giả cũng xin cảm ơn các Thầy, Cô trong Viện Công
nghệ thông tin và truyền thông, Viện Sau đại học, Trường Đại học Bách Khoa Hà
Nội đã tạo điều kiện thuận lợi, giúp đỡ và có những đóng góp quí báu trong thời
gian nghiên cứu và hoàn thành luận án của tác giả.
Tác giả xin chân thành cảm ơn TS. Ngô Văn Thứ - Trưởng khoa Toán Kinh
tế, Trường Đại học kinh tế Quốc dân đã giúp đỡ về việc cung cấp các bộ dữ liệu thử
nghiệm và các góp ý về phương pháp phân tích dữ liệu mà các nhà nghiên cứu kinh
tế thường sử dụng.
Xin chân thành cảm ơn gia đình, bạn bè và đồng nghiệp đã giúp đỡ, động
viên tác giả trong suốt thời gian nghiên cứu luận án.
Hà Nội, Năm 2012
Nguyễn Trung Tuấn

-3-



Lời cam đoan
Tôi xin cam đoan đây là công trình
nghiên cứu của tôi dưới sự hướng dẫn khoa học
của PGS. TS Nguyễn Ngọc Bình và PGS. TS
Huỳnh Quyết Thắng. Các số liệu và kết quả
nghiên cứu, công bố trong luận án là trung thực
và chưa từng được ai công bố trong bất kỳ công
trình nào khác.
Nguyễn Trung Tuấn

-4-


MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, THUẬT NGỮ VÀ TỪ VIẾT TẮT ...........................9
DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ .............................................................10
DANH MỤC CÁC BẢNG BIỂU .............................................................................12
MỞ ĐẦU ...................................................................................................................14
Chương 1. NHỮNG VẤN ĐỀ LÝ LUẬN CHUNG ................................................19
1.1 Giới thiệu chương ...........................................................................................19
1.2 Phát hiện tri thức và khai phá dữ liệu .............................................................19
1.2.1 Tổng quan về phát hiện tri thức và khai phá dữ liệu ...............................19
1.2.2 Quá trình phát hiện tri thức và khai phá dữ liệu .....................................24
1.2.3 Các hệ thống phần mềm phát hiện tri thức và khai phá dữ liệu ..............26
1.2.4 Các phương pháp khai phá dữ liệu ..........................................................28
1.2.5 Các vấn đề cần nghiên cứu của phát hiện tri thức và khai phá dữ liệu ..31
1.3 Tổng quan về Lý thuyết tập thô ......................................................................34
1.3.1 Hệ thống thông tin và Hệ quyết định .......................................................34
1.3.2 Tính không phân biệt được (Indiscernibility) ..........................................36
1.3.3 Xấp xỉ tập hợp (Set Approximation).........................................................37

1.3.4 Rút gọn (Reducts) .....................................................................................41
1.3.5 Thành viên thô (Rough Membership).......................................................41
1.3.6 Vùng dương và sự phụ thuộc giữa các thuộc tính (Dependency of
attributes) ..........................................................................................................42
1.4 Tổng quan về độ đo tương tự và độ đo tương tự hỗn hợp ..............................44
1.4.1 Mô hình độ đo tương tự ...........................................................................44
1.4.2 Vai trò của độ đo tương tự .......................................................................46
1.4.3 Khoảng cách hỗn hợp và Độ đo tương tự hỗn hợp ..................................48
1.5 Tổng quan các nghiên cứu về đề tài luận án ...................................................49
1.6 Tổng kết chương 1 ..........................................................................................52
Chương 2. NGHIÊN CỨU ĐỘ ĐO TƯƠNG TỰ HỖN HỢP TRONG PHÁT HIỆN
TRI THỨC TỪ DỮ LIỆU.........................................................................................53

-5-


2.1 Giới thiệu chương ...........................................................................................53
2.2 Nghiên cứu về độ đo tương tự hỗn hợp ..........................................................53
2.2.1 Đo khoảng cách hỗn hợp theo phương pháp truyền thống ......................53
2.2.2 Độ đo tương tự hỗn hợp theo tiếp cận Goodall .......................................54
2.3 Độ đo tương tự hỗn hợp có trọng số cho thuộc tính được xác định tự động
dựa trên tiếp cận lý thuyết tập thô [CT3, CT6] .....................................................64
2.3.1 Khoảng cách giữa hai đối tượng..............................................................64
2.3.2 Tính trọng số cho các thuộc tính ..............................................................66
2.3.3 Độ đo tương tự hỗn hợp có trọng số dựa trên lý thuyết tập thô (Mixed
Similarity Measure with weights based on Rough sets theory - MSM-R).........70
2.3.4 Thuật toán xác định trọng số cho các thuộc tính trong độ đo tương tự hỗn
hợp [CT6] ..........................................................................................................70
2.3.5 Thử nghiệm tính độ đo tương tự hỗn hợp với dữ liệu ví dụ .....................72
2.3.6 Thử nghiệm thời gian tính toán của thuật toán........................................74

2.3.7 Quy trình sử dụng độ đo MSM-R trong bài toán khai phá dữ liệu dựa
trên khoảng cách ...............................................................................................76
2.4 Tổng kết chương 2 ..........................................................................................77
Chương 3. THỬ NGHIỆM ĐỘ ĐO MSM-R TRONG BÀI TOÁN PHÂN LỚP VÀ
PHÂN CỤM DỮ LIỆU .............................................................................................79
3.1 Giới thiệu chương ...........................................................................................79
3.2 Thử nghiệm phân lớp dữ liệu với thuật toán k-láng giềng gần nhất ...............79
3.2.1 Thuật toán k-láng giềng gần nhất ............................................................79
3.2.2 Phương pháp thử nghiệm phân lớp [CT6]...............................................80
3.2.3 Kết quả thử nghiệm phân lớp với các bộ dữ liệu mẫu [CT6] ..................81
3.2.4 Thử nghiệm đánh giá tác động của loại thuộc tính đến độ đo tương tự
hỗn hợp MSM-R ................................................................................................88
3.2.5 Thử nghiệm phân lớp với dữ liệu chứa thuộc tính định danh có thứ tự
[CT6] .................................................................................................................90

-6-


3.2.6 Phân lớp dữ liệu kinh tế - xã hội Việt Nam bằng kỹ thuật láng giềng gần
nhất với độ đo tương tự hỗn hợp .......................................................................91
3.2.6.1 Tổng quan về các bộ dữ liệu kinh tế - xã hội Việt Nam dùng thử
nghiệm ...........................................................................................................91
3.2.6.2 Trích lọc dữ liệu ................................................................................93
3.2.6.3 Phân lớp với bộ dữ liệu Tiểu học ......................................................93
3.2.6.4 Phân lớp với bộ dữ liệu Ngân hàng...................................................97
3.3 Bài toán phân cụm dữ liệu với thuật toán k-medoids sử dụng độ đo tương tự
hỗn hợp MSM-R ..................................................................................................105
3.3.1 Thuật toán phân cụm dữ liệu k-medoids ................................................106
3.3.2 Phân cụm dữ liệu kinh tế - xã hội Việt Nam với độ đo MSM-R .............108
3.3.2.1 Phân cụm với bộ dữ liệu Tiểu học ..................................................108

3.3.2.2 Phân cụm với bộ dữ liệu Ngân hàng ...............................................108
3.4 Tổng kết chương 3 ........................................................................................109
KẾT LUẬN .............................................................................................................110
DANH MỤC TÀI LIỆU THAM KHẢO TIẾNG ANH .........................................114
DANH MỤC TÀI LIỆU THAM KHẢO TIẾNG VIỆT .........................................117
DANH MỤC WEBSITE THAM KHẢO ...............................................................118
DANH MỤC CÔNG TRÌNH CÔNG BỐ CỦA TÁC GIẢ ....................................119
PHỤ LỤC ................................................................................................................120
Phụ lục 1. Kết quả thử nghiệm về tiên đề tam giác theo độ đo tương tự hỗn hợp
của Goodall .........................................................................................................120
Phụ lục 2. Cấu trúc file dữ liệu và các hàm tính khoảng cách đã được lập trình 122
Phụ lục 3. Kết quả phân lớp các bộ dữ liệu thử nghiệm sau khi đã rời rạc hóa các
thuộc tính số ........................................................................................................123
Phụ lục 4. Đặc điểm của dữ liệu kinh tế - xã hội và bài toán phân lớp dữ liệu ..130
Phụ lục 5. Cấu trúc và một số bản ghi ví dụ của bộ dữ liệu điều tra khả năng đọc
và làm toán của học sinh tiểu học (trích bằng phần mềm SPSS). .......................139

-7-


Phụ lục 6. Cấu trúc và một số bản ghi ví dụ của bộ dữ liệu gốc về khách hàng vay
vốn ngân hàng (trích bằng phần mềm SPSS)......................................................142
INDEX ....................................................................................................................145

-8-


DANH MỤC CÁC KÝ HIỆU, THUẬT NGỮ VÀ TỪ VIẾT TẮT
Từ viết tắt
BI


Tiếng Anh

Tiếng Việt

Business Intelligence

Kinh doanh thông minh/trí
tuệ doanh nghiệp

DA/PA

Data/Pattern analysis

Phân tích dữ liệu/mẫu

DBMS

Database Management System

Hệ quản trị cơ sở dữ liệu

IND

Indiscernibility

Quan hệ không phân biệt
được

KDD


Knowledge Discovery and Data

Phát hiện tri thức và Khai

Mining

phá dữ liệu

KE

Knowledge Extraction

Trích chọn tri thức

ML

Machine Learning

Học máy

MSM

Mixed Similarity Measure

Độ đo tương tự hỗn hợp

MSM-R

Mixed Similarity Measure based


Độ đo tương tự hỗn hợp có

on Rough sets theory

trọng số dựa trên lý thuyết
tập thô

PAM

Partitioning Around Medoids

Phân vùng quanh các tâm

RS

Rough set

Tập thô

SPSS

Statistical Package for the Social

Phần mềm thống kê chuyên

Sciences

dụng SPSS
Dẫn đến




-9-


DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
Hình 1.1 Mối quan hệ của KDD với các lĩnh vực khác [42]...................................21
Hình 1.2 Mối quan hệ của KDD và kinh doanh thông minh [42] ...........................22
Hình 1.3 Qui trình 5 bước khai phá dữ liệu.............................................................25
Hình 1.4 Mô hình hệ thống khai phá dữ liệu [42] ...................................................27
Hình 1.5 Phân lớp dựa theo mức chi tiêu và thu nhập của các hộ gia đình .............29
Hình 1.6 Mô hình Polynominal cho dân số thế giới.................................................30
Hình 1.7 Xấp xỉ trên và xấp xỉ dưới của X ...............................................................38
Hình 1.8 Xấp xỉ trên và dưới với phân lớp Tuyển dụng="Có" và thuộc tính điều
kiện là Tiếng Anh ......................................................................................................39
Hình 2.1 So sánh độ tương tự hỗn hợp của các đối tượng .......................................74
Hình 2.2 Thời gian tính trọng số theo số thuộc tính.................................................75
Hình 2.3 Thời gian tính trọng số trung bình cho một thuộc tính .............................76
Hình 2.4 Quy trình sử dụng độ đo MSM-R ..............................................................77
Hình 3.1 Độ chính xác phân lớp k-NN (%) với k=1 ................................................84
Hình 3.2 Độ chính xác phân lớp k-NN (%) với k=3 ................................................84
Hình 3.3 Độ chính xác phân lớp k-NN (%) với k=5 ................................................85
Hình 3.4 Độ chính xác phân lớp k-NN (%) với k=7 ................................................85
Hình 3.5 Độ chính xác phân lớp k-NN (%) với k=9 ................................................86
Hình 3.6 Độ chính xác phân lớp k-NN (%) với k=10 ..............................................86
Hình 3.7 So sánh độ chính xác lớn nhất của bộ phân lớp k-NN (%) và phân lớp
bằng cây quyết định ..................................................................................................88
Hình 3.8 Độ chính xác phân lớp theo số lượng các loại thuộc tính .........................89
Hình 3.9 Kết quả phân lớp với dữ liệu có thuộc tính ordinal ..................................91

Hình 3.10 Kết quả phân lớp bộ dữ liệu Ngân hàng ..................................................98
Hình 3.11 Kết quả phân lớp bộ dữ liệu Ngân hàng 1 bằng SPSS ..........................103
Hình 3.12 Kết quả phân lớp bộ dữ liệu Ngân hàng 2 bằng SPSS .........................103
Hình 3.13 Kết quả phân lớp với phương pháp leave-one-out classification ..........104

- 10 -


Hình 3.14 Kết quả phân lớp khi sử dụng toàn bộ dữ liệu để kiểm thử ..................105
Hình PL3.1 Độ chính xác lớn nhất của bộ phân lớp k-NN (%) cho dữ liệu đã rời rạc
hóa với k=1 .............................................................................................................125
Hình PL3.2 Độ chính xác lớn nhất của bộ phân lớp k-NN (%) cho dữ liệu đã rời rạc
hóa với k=3 .............................................................................................................125
Hình PL3.3 Độ chính xác lớn nhất của bộ phân lớp k-NN (%) cho dữ liệu đã rời rạc
hóa với k=5 .............................................................................................................126
Hình PL3.4 Độ chính xác lớn nhất của bộ phân lớp k-NN (%) cho dữ liệu đã rời rạc
hóa với k=7 .............................................................................................................126
Hình PL3.5 Độ chính xác lớn nhất của bộ phân lớp k-NN (%) cho dữ liệu đã rời rạc
hóa với k=9 .............................................................................................................127
Hình PL3.6 Độ chính xác lớn nhất của bộ phân lớp k-NN (%) cho dữ liệu đã rời rạc
hóa với k=10 ...........................................................................................................127
Hình PL3.7 So sánh độ chính xác lớn nhất của bộ phân lớp k-NN (%) và phân lớp
bằng cây quyết định ................................................................................................129

- 11 -


DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1 Ví dụ về hệ thống thông tin .......................................................................35
Bảng 1.2 Ví dụ về hệ quyết định ..............................................................................36

Bảng 2.1 Một số kết quả ví dụ để kiểm tra tiên đề tam giác ....................................64
Bảng 2.2 Bảng dữ liệu ví dụ về khám lâm sàng .......................................................66
Bảng 2.3 Bộ dữ liệu ví dụ .........................................................................................73
Bảng 2.4 Trọng số của các thuộc tính ......................................................................73
Bảng 2.5 Sij với phương pháp tính khác nhau .........................................................73
Bảng 2.6 Thời gian tính toán của thuật toán 2.2 (ms)...............................................75
Bảng 3.1 Mô tả đặc điểm của các bộ dữ liệu thử nghiệm ........................................82
Bảng 3.2 So sánh độ chính xác của bộ phân lớp k-NN (%) (G: Goodall, M: MSM-R)
...................................................................................................................................83
Bảng 3.3 So sánh độ chính xác lớn nhất của bộ phân lớp k-NN (%) và phân lớp
bằng cây quyết định ..................................................................................................87
Bảng 3.4 Kết quả phân lớp với các loại thuộc tính khác nhau với k=1 ...................89
Bảng 3.5 Kết quả phân lớp với dữ liệu có thuộc tính ordinal ..................................90
Bảng 3.6 Danh sách các thuộc tính của bộ dữ liệu Tiểu học ....................................93
Bảng 3.7 Bộ chỉ tiêu liên quan đến tài chính và hoạt động kinh doanh của chủ vay
...................................................................................................................................94
Bảng 3.8 Bộ chỉ tiêu liên quan thị trường và ngân hàng ..........................................95
Bảng 3.11 Kết quả phân lớp cho các tỉnh Đồng bằng sông Hồng sử dụng mô hình
phân lớp TP Hà Nội ..................................................................................................97
Bảng 3.12 Kết quả phân lớp cho bộ dữ liệu Ngân hàng 1 ......................................100
Bảng 3.13 Kết quả phân lớp cho bộ dữ liệu Ngân hàng 2 ......................................101
Bảng 3.14 Kết quả phân lớp với phương pháp leave-one-out classification .........104
Bảng 3.15 Kết quả phân lớp khi sử dụng toàn bộ dữ liệu để kiểm thử ..................104
Bảng 3.16 So sánh đặc trưng của các phương pháp ...............................................105
Bảng 3.17 Toạ độ các điểm phân cụm....................................................................107

- 12 -


Bảng 3.18 Kết quả phân cụm cho dữ liệu Tiểu học ...............................................108

Bảng 3.19 Kết quả phân cụm cho dữ liệu Ngân hàng ............................................109
Bảng PL1.1 Bộ dữ liệu theo Goodall .....................................................................120
Bảng PL2.1 Định dạng của các hàm đã cài đặt cho MSM-R.................................122
Bảng PL3.1 So sánh độ chính xác của bộ phân lớp k-NN cho dữ liệu đã rời rạc hoá
(%) (G: Goodall, M: MSM-R).................................................................................124
Bảng PL3.2 So sánh độ chính xác lớn nhất của bộ phân lớp k-NN (%) và phân lớp
bằng cây quyết định cho dữ liệu đã rời rạc hoá ......................................................128
Bảng PL5.1 Cấu trúc của bộ dữ liệu Tiểu học .......................................................139
Bảng PL5.2 Giá trị của một số biến trong bộ dữ liệu Tiểu học .............................140
Bảng PL5.3 Ví dụ một số bản ghi của bộ dữ liệu Tiểu học ...................................141
Bảng PL6.1 Cấu trúc của bộ dữ liệu Ngân hàng ....................................................142
Bảng PL6.2 Giá trị của một số trường trong bộ dữ liệu Ngân hàng ......................143
Bảng PL6.3 Ví dụ một số bản ghi trong bộ dữ liệu Ngân hàng .............................144

- 13 -


MỞ ĐẦU
1. Lý do lựa chọn đề tài
Sự phát triển mạnh mẽ của công nghệ thông tin và truyền thông đã tác động
và ảnh hưởng rất lớn đến các lĩnh vực đời sống kinh tế - xã hội. Chính vì vậy, khối
lượng dữ liệu con người thu thập được thông qua các hoạt động kinh tế - xã hội
ngày càng lớn, hình thành nên những nhà kho dữ liệu có dung lượng hàng terabyte,
các hệ thống máy tính được kết nối mạng với nhau làm cho các dữ liệu ngày càng
trở nên phong phú và phức tạp. Trong bối cảnh đó, con người được máy tính hỗ trợ
quản lý và lưu trữ dữ liệu có dung lượng khổng lồ nhưng khả năng phân tích, hiểu
được những ngữ nghĩa, tri thức ẩn chứa trong đó còn rất hạn chế. Một trong các lĩnh
vực đang được nghiên cứu, ứng dụng mạnh mẽ trong khai thác, phân tích dữ liệu
ngày nay là Phát hiện tri thức và khai phá dữ liệu.
Trong thực tế, để thể hiện thông tin của các đối tượng, các hiện tượng hay

vấn đề nào đó người ta phải sử dụng kết hợp nhiều loại dữ liệu khác nhau cùng lúc
như kiểu dữ liệu số, dữ liệu định danh, dữ liệu định danh có thứ tự. Bài toán đặt ra
là làm thế nào để kết hợp các thuộc tính lại với nhau để giải quyết tốt nhất các bài
toán cơ bản trong khai phá dữ liệu như Phân lớp, Phân cụm... Trong các bài toán đó,
điểm mấu chốt là phải xác định được một độ đo khoảng cách hoặc độ đo tương
tự/không tương tự cho các đối tượng cần xem xét. Với các dữ liệu thuần nhất hiện
đã có nhiều độ đo được đề xuất, mỗi độ đo này có một ý nghĩa riêng và tuỳ thuộc
theo lĩnh vực bài toán áp dụng cũng như đặc tính của loại dữ liệu. Việc chuyển đổi
các dạng dữ liệu khác nhau về cùng một loại trong khi tính toán độ tương tự có thể
dẫn đến sai khác về ý nghĩa hay mất mát thông tin. Đồng thời, mỗi loại dữ liệu khác
nhau sẽ có ý nghĩa khác nhau nên không thể kết hợp chúng lại trong cùng một độ đo
một cách thuần tuý.
Vì những lý do đó, đề tài của luận án này nhằm nghiên cứu độ đo tương tự
hỗn hợp hoặc độ đo khoảng cách hỗn hợp giữa các đối tượng để có thể xử lý dữ liệu

- 14 -


dưới dạng hỗn hợp mà không cần thiết phải chuyển đổi các dạng dữ liệu, như vậy sẽ
tránh được mất mát thông tin.
2. Mục đích nghiên cứu của luận án
Qua quá trình tìm hiểu, nghiên cứu về phát hiện tri thức và khai phá dữ liệu,
đặc điểm của các loại dữ liệu và đặc biệt là độ đo tương tự hỗn hợp, tác giả nhận
thấy độ đo tương tự hỗn hợp hay độ đo khoảng cách hỗn hợp đóng vai trò rất quan
trọng trong các bài toán khai phá dữ liệu dựa trên khoảng cách. Vì vậy, mục đích
của luận án là nghiên cứu nhằm tìm ra hoặc cải tiến các phương pháp, các kỹ thuật
tính toán độ đo tương tự hỗn hợp áp dụng trong bài toán phân lớp dữ liệu một cách
hiệu quả, thực hiện các thực nghiệm trên các bộ dữ liệu chuẩn dùng để nghiên cứu
phát hiện tri thức và khai phá dữ liệu, thực nghiệm trên bộ dữ liệu kinh tế - xã hội
thực tế của Việt Nam.

3. Đối tượng, phạm vi nghiên cứu
Nghiên cứu các vấn đề cơ bản của phát hiện tri thức và khai phá dữ liệu; độ
đo tương tự và độ đo tương tự hỗn hợp; bài toán phân lớp, phân cụm trong phát hiện
tri thức và khai phá dữ liệu. Các nội dung nghiên cứu sẽ được thử nghiệm trên một
số bộ dữ liệu của cộng đồng nghiên cứu phát hiện tri thức và khai phá dữ liệu trên
internet và các dữ liệu kinh tế - xã hội của Việt Nam.
4. Phương pháp nghiên cứu
Tác giả sử dụng phương pháp khảo sát các vấn đề cần nghiên cứu, so sánh,
phân tích dựa trên những lý thuyết cơ bản của các lĩnh vực như: phát hiện tri thức
và khai phá dữ liệu; phân tích và thiết kế thuật toán... Các đề xuất của tác giả sẽ
được kiểm nghiệm bằng các dữ liệu chuẩn được công bố cho cộng đồng nghiên cứu
sử dụng và các dữ liệu kinh tế - xã hội thực tế của Việt Nam.
5. Những đóng góp của luận án
Thực hiện mục tiêu nghiên cứu đã nêu ở trên, ngoài việc tổng hợp và tổng
quan các kiến thức liên quan cần thiết, luận án đưa ra các đóng góp chính sau đây:
a. Điểm mới của luận án là đưa ra phương pháp tự động xác định trọng
số cho các thuộc tính trong độ đo tương tự hỗn hợp dựa trên lý thuyết

- 15 -


tập thô, đóng góp này được thể hiện trong Chương 2 của luận án. Khi
phân tích các dữ liệu thực tế, các đối tượng thường được thể hiện
bằng một bộ các dữ liệu có nhiều kiểu khác nhau hay nói cách khác là
tồn tại dưới dạng hỗn hợp. Trong các phương pháp xử lý truyền thống
người ta thường phải chuyển đổi dữ liệu về cùng một dạng để thực
hiện phân tích, đồng thời việc xác định trọng số cho các thuộc tính dữ
liệu thường phụ thuộc vào kinh nghiệm và các yếu tố chủ quan của
người nghiên cứu, chính vì thế, tác giả đã đề xuất một phương pháp tự
động xác định trọng số cho các thuộc tính trong độ đo tương tự hỗn

hợp với tiếp cận lý thuyết tập thô để có thể áp dụng trên các dữ liệu
loại này. Ở đây, tác giả sử dụng lý thuyết tập thô để xác định trọng số
cho các thuộc tính do trong lý thuyết tập thô cho phép tìm được mối
quan hệ giữa các thuộc tính, đây cũng là một hướng ứng dụng mới
của lý thuyết tập thô trong các bài toán phát hiện tri thức và khai phá
dữ liệu. Độ đo tương tự hỗn hợp có trọng số được xác định tự động
dựa trên lý thuyết tập thô được tính toán một cách gián tiếp thông qua
một độ đo khoảng cách thoả mãn các tiên đề metric cho các đối
tượng, đây là một điểm mới của luận án, là sự khác biệt so với độ đo
tương tự hỗn hợp do Goodall đề xuất trước đây.
b. Thực hiện và đánh giá các thực nghiệm với độ đo tương tự hỗn hợp có
trọng số được xác định tự động bằng lý thuyết tập thô do tác giả đề
xuất trong bài toán phân lớp dữ liệu, so sánh các kết quả phân lớp này
với kết quả phân lớp khi dùng độ đo do Goodall đề xuất và kết quả
phân lớp bằng cây quyết định. Tác giả cũng thực hiện thử nghiệm
bước đầu cho bài toán phân cụm dữ liệu sử dụng độ đo tương tự hỗn
hợp có trọng số này. Thông qua các kết quả thử nghiệm về phân lớp
bằng thuật toán láng giềng gần nhất với các bộ dữ liệu chuẩn trên
Internet và các bộ dữ liệu thực tế kinh tế - xã hội Việt Nam, qua việc
đánh giá tác động của số lượng thuộc tính theo các kiểu dữ liệu khác

- 16 -


nhau đối với độ đo cho thấy độ chính xác phân lớp tương đương hoặc
tốt hơn so với phương pháp của Goodall và cây quyết định. Ngoài các
ưu điểm về độ chính xác phân lớp, phương pháp sử dụng độ đo tương
tự hỗn hợp có trọng số được xác định một cách tự động dựa trên lý
thuyết tập thô cho phép thực hiện phân lớp một cách tự động mà
không yêu cầu phải có sự can thiệp của chuyên gia để xác định trọng

số cho các thuộc tính cũng như không cần phải chuyển đổi dữ liệu về
cùng một dạng theo các phương pháp phân tích thông thường, đây là
điểm khác biệt so với các phương pháp truyền thống. Tuy nhiên,
nhược điểm của phương pháp này là không tận dụng được các kinh
nghiệm của chuyên gia và các yếu tố ngoại cảnh của môi trường phân
tích tác động đến ý nghĩa của kết quả phân tích. Các bài toán thứ cấp
từ bài toán phân lớp dữ liệu bằng thuật toán láng giềng gần nhất là các
bài toán dự báo trong kinh tế xã hội, bài toán xử lý dữ liệu khuyết, tìm
kiếm dữ liệu cũng có thể được thực hiện tốt khi sử dụng độ đo tương
tự hỗn hợp này.
6. Kết cấu của luận án
Luận án được trình bày trong ba chương:
Chương 1. Những vấn đề lý luận chung
Chương này trình bày các khái niệm và những vấn đề cơ bản về phát hiện tri
thức và khai phá dữ liệu, tóm lược các nội dung cơ bản của lý thuyết tập thô để làm
nền tảng lý thuyết cho các đề xuất tính toán trọng số trong độ đo tương tự hỗn hợp
của chương 2. Chương 1 cũng trình bày tổng quan những nghiên cứu về độ đo
tương tự, độ đo tương tự hỗn hợp và bài toán khai phá dữ liệu kinh tế - xã hội trong
nước và quốc tế từ đó cho thấy tính cấp thiết phải sử dụng các kỹ thuật phát hiện tri
thức và khai phá dữ liệu đồng thời với việc sử dụng độ đo tương tự hỗn hợp trong
các bài toán này.
Chương 2. Nghiên cứu độ đo tương tự hỗn hợp trong phát hiện tri thức
từ dữ liệu

- 17 -


Chương này trình bày về độ đo tương tự hỗn hợp theo phương pháp truyền
thống và độ đo tương tự hỗn hợp của Goodall. Tác giả đề xuất phương pháp tự
động xác định trọng số cho các thuộc tính trong độ đo tương tự hỗn hợp dựa trên lý

thuyết tập thô, thử nghiệm độ phức tạp tính toán của thuật toán xác định trọng số tự
động trong độ đo tương tự hỗn hợp, quy trình sử dụng độ đo tương tự hỗn hợp có
trọng số này.
Chương 3. Thử nghiệm độ đo MSM-R trong bài toán phân lớp và phân
cụm dữ liệu
Tác giả trình bày về bài toán phân lớp dữ liệu với thuật toán láng giềng gần
nhất có sử dụng độ đo MSM-R, áp dụng thử nghiệm phân lớp cho các bộ dữ liệu
mẫu trên Internet. Trong chương tác giả cũng giới thiệu tóm tắt về các đặc trưng
của dữ liệu kinh tế - xã hội, trích lọc dữ liệu, đồng thời thử nghiệm phân lớp dữ liệu
kinh tế - xã hội và so sánh kết quả với phương pháp phân lớp sử dụng độ đo
Goodall, phân lớp bằng cây quyết định và phương pháp phân lớp truyền thống bằng
phần mềm SPSS. Đối với bài toán phân cụm, tác giả cũng đã thử nghiệm và trình
bày một số kết quả bước đầu về phân cụm dữ liệu kinh tế - xã hội Việt Nam.

- 18 -


Chương 1. NHỮNG VẤN ĐỀ LÝ LUẬN CHUNG
1.1 Giới thiệu chương
Mục tiêu của chương này là nhằm trình bày về cơ sở lý luận, lý thuyết nền
tảng phục vụ cho những nghiên cứu sâu hơn trong luận án. Nội dung chính của
chương bao gồm những khái niệm, các kỹ thuật, ứng dụng và những vấn đề cần
nghiên cứu trong phát hiện tri thức và khai phá dữ liệu. Trong chương tác giả cũng
tóm lược lại những nội dung cơ bản trong lý thuyết tập thô như khái niệm về hệ
thống thông tin, hệ quyết định, quan hệ tương đương, xấp xỉ tập hợp, sự phụ thuộc
giữa các thuộc tính... để làm cơ sở cho việc đề xuất phương pháp tính trọng số cho
các thuộc tính một cách tự động trong độ đo tương tự hỗn hợp sẽ được trình bày tại
Chương 2. Những kiến thức tổng quan về độ đo tương tự, độ đo tương tự hỗn hợp
và những nghiên cứu trong và ngoài nước liên quan đến mục tiêu của luận án cũng
được tác giả trình bày tóm tắt trong chương này. Chương 1 được bố cục gồm 6 mục,

mục kế tiếp sẽ đề cập đến những vấn đề cơ bản về phát hiện tri thức và khai phá dữ
liệu. Mục 3 trong chương sẽ tóm tắt những vấn đề cốt lõi trong lý thuyết tập thô.
Mục 4 trong chương trình bày tổng quan về độ đo tương tự, mô hình độ đo tương tự
và độ đo tương tự hỗn hợp. Mục 5 sẽ trình bày về những nghiên cứu liên quan đến
đề tài của luận án. Cuối cùng là tổng kết những vấn đề đã được tác giả thể hiện
trong chương.

1.2 Phát hiện tri thức và khai phá dữ liệu
1.2.1 Tổng quan về phát hiện tri thức và khai phá dữ liệu
Cùng với sự phát triển của các ngành khoa học, các dữ liệu con người thu
nhận, lưu trữ thông qua các hoạt động kinh tế - xã hội, các hoạt động nghiên cứu
khoa học ngày một lớn, chúng được lưu trữ trên các hệ thống máy tính với dung
lượng lên đến hàng terabyte, thậm chí đến hàng petabyte. Tuy nhiên, việc hiểu và
sử dụng hết được những dữ liệu đó đối với con người rất khó khăn. Trước thực tế

- 19 -


như vậy, một hướng nghiên cứu mới về phát hiện tri thức và khai phá dữ liệu đã
hình thành và phát triển nhanh chóng trong gần 20 năm qua. Tác giả sẽ trình bày lại
một số khái niệm liên quan đến lĩnh vực Phát hiện tri thức và Khai phá dữ liệu
(KDD - Knowledge Discovery and Data mining) được đề cập trong [1], [4], [7],
[10], [11], [16], [25], [26] nhằm hệ thống hóa những kiến thức nền tảng về lĩnh vực
này.
Dữ liệu (data) là số liệu về các hiện tượng, sự vật mà người ta thu thập được
thông qua quan sát, khảo sát trực tiếp hoặc thông qua các thiết bị hỗ trợ, chúng có
thể là các con số, các chuỗi ký tự, các biểu tượng hoặc các đối tượng có ý nghĩa
nhất định. Dữ liệu có thể được đưa vào các chương trình máy tính theo một định
dạng nào đó. Thông tin (information) là các dữ liệu đã qua một quá trình xử lý, chắt
lọc và thường mang những ý nghĩa nhất định đối với những đối tượng tiếp nhận

thông tin, người ta cũng có thể coi thông tin là những dữ liệu đã được phiên dịch
theo một phương pháp nào đó. Thông tin của quá trình xử lý này có thể lại trở thành
dữ liệu cho một quá trình xử lý khác. Tri thức (knowledge) là các thông tin được
tích hợp bao gồm cả các cơ sở lập luận và những vấn đề liên quan, được nhận biết,
khám phá, phản ánh trong trí óc và tinh thần. Tri thức còn được hiểu đó là dữ liệu
đã được trừu tượng hoá và tổng quát hoá ở mức cao. Tri thức có đặc điểm là có thể
được tái tạo, phát triển qua các quá trình học, suy luận và vận dụng, tri thức sẽ
không mất đi trong quá trình sử dụng mà ngược lại nó càng gia tăng và phát triển
lên một mức độ mới nếu càng được sử dụng nhiều.
Phát hiện tri thức và khai phá dữ liệu là quá trình tự động trích rút các tri
thức (knowledge) hoặc các mẫu (pattern), mô hình (model) có đặc điểm không tầm
thường, ẩn, chưa biết trước, có khả năng sử dụng và hiểu được từ khối lượng lớn dữ
liệu [4], [16]. Phát hiện tri thức và khai phá dữ liệu là một lĩnh vực phát triển rất
nhanh chóng, là lĩnh vực giao thoa giữa nhiều lĩnh vực liên quan như: công nghệ cơ
sở dữ liệu, thống kê, học máy, thuật toán học và các lĩnh vực liên quan khác nhằm
trích rút ra những tri thức hữu ích từ những tập dữ liệu rất lớn. Người ta cũng có thể
sử dụng những tên khác cho khai phá dữ liệu và khám phá tri thức như: khám phá

- 20 -


tri thức trong cơ sở dữ liệu (Knowledge discovery in databases - KDD), trích chọn
tri thức (Knowledge extraction - KE), phân tích dữ liệu hay mẫu (Data/pattern
analysis - DA/PA) hay kinh doanh thông minh hoặc tri thức doanh nghiệp (Business
Intelligence - BI) [16]...

Công nghệ
CSDL

Học máy


Thống kê

Khai phá
dữ liệu và phát
hiện tri thức

Nhận diện mẫu
Thuật toán

Trực quan hoá

Các lĩnh vực
khác

Hình 1.1 Mối quan hệ của KDD với các lĩnh vực khác [42]
Khai phá dữ liệu (Data mining) là một khâu trong quá trình khám phá tri
thức mà trong đó ta có thể áp dụng những thuật toán khai phá dữ liệu với những
giới hạn có thể chấp nhận được về độ phức tạp tính toán để tìm ra những mẫu hoặc
mô hình trong dữ liệu [4]. Khai phá dữ liệu có hai chức năng chính là: mô tả dữ liệu
và dự báo dữ liệu, trong đó mô tả dữ liệu tập trung vào tìm kiếm các đặc tính, đặc
trưng của dữ liệu, còn dự báo dữ liệu tập trung vào việc phân tích, suy diễn dữ liệu
quá khứ, hiện tại để dự báo giá trị dữ liệu tương lai. Như vậy mục đích của phát
hiện tri thức và khai phá dữ liệu là để tìm ra những mẫu và/hoặc những mô hình tồn
tại trong cơ sở dữ liệu mà chúng có thể đang ẩn trong khối dữ liệu rất lớn.

- 21 -


Hình 1.2 Mối quan hệ của KDD và kinh doanh thông minh [42]

Phát hiện tri thức và khai phá dữ liệu được ứng dụng trong nhiều lĩnh vực
khác nhau [16]. Trong phân tích dữ liệu và hỗ trợ quyết định, phát hiện tri thức và
khai phá dữ liệu được ứng dụng vào quản trị kinh doanh và phân tích thị trường
(còn được coi là các lĩnh vực kinh doanh thông minh hay trí tuệ doanh nghiệp Hình 1.2 ) như: định hướng thị trường, quản trị quan hệ khách hàng (Customer
Relation Management - CRM), phân tích giỏ hàng, phân mảng thị trường và kinh
doanh đa chiều; quản trị và phân tích rủi ro: dự báo, duy trì khách hàng, kiểm soát
chất lượng, phân tích cạnh tranh...; phát hiện gian lận và dò tìm những mẫu không
bình thường, phân tích cá biệt (outlier). Trong các lĩnh vực khác, người ta áp dụng
vào khai phá dữ liệu văn bản (bản tin, thư điện tử, tài liệu), khai phá dữ liệu Web,
khai phá dữ liệu theo luồng và các dữ liệu sinh học...
Theo [4], người ta thường sử dụng một số tiêu chí sau để phân loại mức độ
hấp dẫn của kết quả: Tính căn cứ (Evidence) chỉ ra ý nghĩa của kết quả tìm kiếm
được và thường đo bằng các tiêu chí thống kê. Độ dư thừa (Redundancy) để chỉ sự
tương tự của kết quả tìm được so với các kết quả tìm kiếm khác và các độ đo xác
định mức độ tương tự của một kết quả với các kết quả khác. Tính hữu dụng

- 22 -


(Usefulness) để chỉ mối quan hệ giữa kết quả tìm được và mục tiêu của người dùng.
Tính mới (Novelty) để chỉ ra sự khác biệt của kết quả với những tri thức có trước
của người sử dụng hay của hệ thống, người ta còn gọi đó là tính bất ngờ. Tính đơn
giản (Simplicity) để chỉ độ phức tạp về cú pháp biểu diễn kết quả tìm kiếm và khả
năng tổng quát hoá. Ta cụ thể hoá một số các thuật ngữ như sau:
• Dữ liệu (Data): là một tập hợp các thể hiện của các đối tượng hoặc tập hợp
các giá trị của các biến (ví dụ là các bản ghi trong cơ sở dữ liệu).
• Mẫu (Pattern): là mô tả một tập con của không gian kết quả hoặc không gian
dữ liệu, các mẫu và mô hình thường được biểu diễn thông qua một hàm F(v1,
v2, ...,vn) trong đó vi là các tham số, các tham số này có giá trị là các tập con
của dữ liệu.

• Tiến trình (Process): thông thường trong tiến trình KDD là quá trình đa
bước, bao gồm chuẩn bị và tiền xử lý dữ liệu, tìm kiếm hình mẫu, đánh giá
tri thức và tinh chỉnh, được lặp đi lặp lại kèm theo sự sửa đổi nào đó, quá
trình này có thể được thực hiện một cách tự động hoặc bán tự động.
• Hợp lệ (Validity): Những mẫu hoặc mô hình được khám phá từ một tập dữ
liệu huấn luyện phải đúng trên tập dữ liệu mới với một mức độ chắc chắn
nào đó, mức độ chắc chắn này xác định khả năng đúng đắn của mẫu hoặc mô
hình tìm được, thông thường người ta xác định một ngưỡng tối thiểu cho độ
đo chắc chắn để lọc ra các kết quả phù hợp.
• Mới (Novelty): Các mẫu tìm được phải có tính mới hoặc bất ngờ (ít nhất là
đối với hệ thống). Tính mới có thể được đo đối với sự thay đổi trong dữ liệu
(bằng việc so sánh các giá trị hiện tại với các giá trị trước hoặc các giá trị
mong muốn) hoặc tri thức (kết quả tìm kiếm mới có quan hệ như thế nào đối
với kết quả cũ).
• Hữu dụng tiềm năng (Potentially Useful): Các mẫu có thể có khả năng hữu
dụng, nó thể hiện các kết quả tìm được có phù hợp với mục tiêu của người
dùng không. Tính hữu dụng thường được đo bằng các hàm tiện ích là ánh xạ
từ không gian kết quả đến không gian mục tiêu với một độ đo nào đó.

- 23 -


• Khả năng có thể hiểu được (Understandability): Mục đích của KDD là tạo ra
các mẫu mà con người có khả năng hiểu được để có thể nắm bắt tốt hơn về
dữ liệu. Điều này rất khó xác định một cách chính xác do vậy người ta sử
dụng một thông số khác là độ đo tính đơn giản (Simplicity). Có nhiều độ đo
tính đơn giản được sử dụng, từ việc đo về cú pháp (ví dụ là kích thước của
mẫu) đến ngữ nghĩa (ví dụ như con người có dễ nhận thức được không trong
một số tình huống).
Một độ đo khác rất quan trọng được gọi là mức độ hấp dẫn (Interestingness)

thường là độ đo tổng thể kết hợp các độ đo trên của các mẫu hoặc mô hình tìm
được, tuỳ theo mục đích của người sử dụng mà mỗi độ đo riêng biệt được gán một
trọng số nhất định khi kết hợp trong độ đo tổng thể.
1.2.2 Quá trình phát hiện tri thức và khai phá dữ liệu
Theo [4], quá trình phát hiện tri thức và khai phá dữ liệu được thực hiện
thông qua nhiều bước và được lặp đi lặp lại. Dưới đây là tóm tắt lại những bước cơ
bản trong quá trình này đã được mô tả chi tiết trong [4].
Bước 1: Tìm hiểu lĩnh vực áp dụng và xác định bài toán, còn được gọi là tìm
hiểu tri thức lĩnh vực. Đây là bước tiên quyết để có thể trích rút ra được
những tri thức hữu dụng và lựa chọn được các phương pháp khai phá dữ liệu
thích hợp cho bước 3 tuỳ thuộc vào mục đích sử dụng và bản chất của dữ
liệu.
Bước 2: Thu thập và tiền xử lý dữ liệu: Lựa chọn các nguồn dữ liệu, xử lý nhiễu
hoặc loại những dữ liệu dư thừa, xử lý dữ liệu khiếm khuyết, chuyển đổi dữ
liệu và rút gọn dữ liệu... Bước này thường chiếm phần lớn thời gian trong cả
tiến trình KDD.
Bước 3: Khai phá dữ liệu: Tìm kiếm các mẫu/mô hình ẩn chứa trong dữ liệu bằng
các thuật toán khai phá dữ liệu nào đó phù hợp với từng loại dữ liệu đầu vào.
Các lớp bài toán quan trọng của khai phá dữ liệu là mô hình hoá dự báo như
phân lớp và hồi qui; phân đoạn và phân cụm; mô hình hoá sự phụ thuộc như

- 24 -


các mô hình đồ thị hoặc dự tính mật độ; tổng quát hoá như tìm mối quan hệ
giữa các trường, sự liên kết, biểu diễn trực quan; mô hình hoá hoặc phát hiện
sự thay đổi và sự chênh lệch trong dữ liệu và tri thức.

1. Tìm hiểu lĩnh
vực áp dụng và

xác định bài toán
2.Thu thập và
tiền xử lý dữ liệu

3. Khai phá dữ

liệu

4. Thể hiện tri

thức đã được
phát hiện

5. Sử dụng tri

thức phát hiện
được

Hình 1.3 Qui trình 5 bước khai phá dữ liệu
Bước 4: Thể hiện tri thức đã được phát hiện: Thể hiện các tri thức đã được phát
hiện theo các phương pháp mô tả và dự báo, đây là hai đích cơ bản nhất của
các hệ thống phát hiện tri thức. Các thí nghiệm chỉ ra rằng các mẫu hoặc mô
hình phát hiện được từ dữ liệu thường không được quan tâm hoặc trực tiếp
sử dụng ngay và tiến trình KDD cần thiết phải lặp lại với sự đánh giá tri thức
được phát hiện. Để đánh giá các luật thu được, người ta thường chia dữ liệu
ra thành hai tập, huấn luyện trên một tập và kiểm tra trên tập kia. Quá trình
này có thể lặp đi lặp lại nhiều lần với những cách phân chia khác nhau, kết
quả trung bình có thể dự tính được độ mạnh của các luật. Một phương pháp
- 25 -



×