Tải bản đầy đủ (.doc) (106 trang)

Gom cụm không gian con dựa vào ràng buộc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.27 MB, 106 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

LÊ XUÂN MẠNH

GOM CỤM KHÔNG GIAN CON
DỰA VÀO RÀNG BUỘC
LUẬN VĂN THẠC SĨ
Chuyên ngành: CÔNG NGHỆ THÔNG
TIN.
Mã số ngành: 60480201.
Tp. Hồ Chí Minh, tháng 03 năm
2018
1


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

LÊ XUÂN MẠNH

GOM CỤM KHÔNG GIAN CON
DỰA VÀO RÀNG BUỘC
LUẬN VĂN THẠC SĨ
Chuyên ngành: CÔNG NGHỆ THÔNG
TIN.
Mã số ngành: 60480201.

Tp. Hồ Chí Minh, tháng 03 năm
2018
2




CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS. VÕ ĐÌNH
BẢY

Tp. Hồ Chí Minh, tháng 03 năm
2018
3


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

Cán bộ hướng dẫn khoa học: PGS. TS. VÕ ĐÌNH BẢY.
Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM
ngày 17 tháng 06 năm 2018.
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ)
TT

Họ và tên

Chức danh Hội đồng

1

PGS.TS. Quản Thành Thơ

Chủ tịch


2

TS. Nguyễn Duy Hàm

Phản biện 1

3

TS. Lê Thị Ngọc Thơ

Phản biện 2

4

TS. Vũ Thanh Hiền

Ủy viên

5

TS. Văn Thiên Hoàng

Ủy viên, Thư ký

Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn sau khi Luận văn đã được sửa
chữa (nếu có).
Chủ tịch Hội đồng đánh giá Luận văn

PGS.TS. QUẢN THÀNH THƠ


3


TRƯỜNG ĐH CÔNG NGHỆ TP. HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
PHÒNG QLKH – ĐTSĐH

Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày …. tháng …. năm 2018

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: LÊ XUÂN MẠNH

Giới tính: Nam

Ngày, tháng, năm sinh: 20-11-1984

Nơi sinh: Thanh Hóa

Chuyên ngành: Công Nghệ Thông Tin

MSHV: 1541860018

I- Tên đề tài:
Gom cụm không gian con dựa vào ràng buộc.
II- Nhiệm vụ và nội dung:
- Tìm hiểu các kỹ thuật gom cụm không gian con truyền thống. Rút ra các ưu
khuyết điểm của các thuật toán trước đây.
-

Nghiên cứu và đề xuất ý tưởng gom cụm không gian con dựa vào ràng buộc.


-

Đề xuất thuật toán gom cụm không gian con dựa vào ràng buộc.

Xây dựng và cài đặt thuật toán đề xuất.
III- Ngày giao nhiệm vụ:

…. / … / ………..

IV- Ngày hoàn thành nhiệm vụ: 17/03/2018.
V- Cán bộ hướng dẫn:

PGS. TS. VÕ ĐÌNH BẢY.

CÁN BỘ HƯỚNG DẪN

KHOA QUẢN LÝ CHUYÊN NGÀNH

(Họ tên và chữ ký)

(Họ tên và chữ
ký)

PGS. TS. VÕ ĐÌNH BẢY

4


LỜI CAM ĐOAN

Tôi xin cam đoan Luận văn Thạc sĩ “Gom cụm không gian con dựa vào
ràng buộc” này là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu
trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình
nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn
gốc.
TP. HCM, tháng 03 năm
2018
Tác giả Luận văn

LÊ XUÂN MẠNH


LỜI CÁM ƠN
Đầu tiên, tôi xin chân thành cảm ơn và biết ơn sâu sắc sự tận tình dạy dỗ và
giúp đỡ của tất cả Quý Thầy/Cô Trường Đại học Công nghệ TP. Hồ Chí Minh HUTECH.
Tôi xin gửi lời cảm ơn chân thành và sâu sắc đến Thầy Võ Đình Bảy, người
đã tận tình hướng dẫn và giúp đỡ tôi trong suốt thời gian làm luận văn.
Ngoài ra, con xin cảm ơn Cha Mẹ và người thân trong gia đình đã hết lòng
giúp đỡ, động viên và luôn tạo điều kiện cho con được hoàn thành khóa học và
luận văn này.
Tôi xin cảm ơn đến Cô Nguyễn Thị Thúy Loan, các bạn bè, đồng nghiệp,
những người luôn sát cánh động viên và tạo mọi điều kiện tốt nhất để tôi có thể
học tập và hoàn tất được luận văn này.

LÊ XUÂN MẠNH


TÓM TẮT

Một số lĩnh vực ứng dụng như sinh học và địa lý tạo ra một số lượng lớn dữ
liệu, để sử dụng được dữ liệu đó cần phải có các phương pháp khai thác dữ liệu
hiệu quả, trong đó nhiệm vụ chính là gom cụm dữ liệu. Tuy nhiên, các phương
pháp gom cụm truyền thống thường không phát hiện các cụm có ý nghĩa vì hầu hết
các bộ dữ liệu trong thế giới thực được đặc trưng bởi không gian dữ liệu có chiều
rộng, thưa thớt. Các bộ dữ liệu thường chứa các cụm thú vị được ẩn trong các
không gian con khác nhau của không gian đặc trưng ban đầu. Điều này dẫn đến
các kỹ thuật gom cụm không gian đã được đề xuất, nhằm mục đích xác định tự
động các không gian con của không gian đặc trưng, trong đó có tồn tại các cụm.
Ngoài ra, kết quả của quá trình gom cụm còn có vai trò cung cấp dữ liệu đầu vào
cho các bài toán phân lớp, trong đó một cụm được xem như là một lớp, khi đó bài
toán phân lớp chỉ có ý nghĩa khi số lớp lớn hơn từ hai lớp trở lên. Điều này dẫn
đến việc cần thiết phải đưa các ràng buộc về số cụm tối thiểu trên mỗi không gian
con tìm kiếm. Trong luận văn này, tác giả giới thiệu SUBCLU-C, một thuật toán
tìm kiếm cụm có trên các vùng không gian con của không gian dữ liệu ban đầu,
với ràng buộc số cụm tối thiểu. SUBCLU-C được đề xuất trên cơ sở cải tiến thuật
toán SUBCLU [14] và thực nghiệm chứng tỏ được hiệu quả thực thi đáng kể so
với thuật toán gốc.


ABSTRACT
Some areas of application, such as biology and geography, a large amount
of data is generated, so that data can be used in such a way that effective datamining methods are used, where clustering is one of main tasks. However,
traditional clustering methods often do not detect interesting clusters as most realworld data sets are characterized by sparse data spaces. Datasets usually contain
interesting clusters that are hidden in different subspaces of the original space.
This has led to the proposed subspace clustering techniques, which aim to
automatically determine the subspace of the data space in which clusters exist. In
addition, the result of the clustering process is to provide input for the
classification problems in which a cluster is label of a class, where the clustering
problem is meaningful only when the number of classes must be greater than two

or generalized k classes. This leads to the need provide a constraint as minimum
number of clusters on each subspace. In this essay, the author introduces the
SUBCLU-C, a algorithm search clusters that exists on the subspaces of the
original data space, with minimum clusters constraints. SUBCLU-C is proposed
based on the improvement of the SUBCLU algorithm [14] and experimentally
demonstrates significant performance compared to the original algorithm.


MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THAY THẾ ....................................................... 11
DANH MỤC CÁC BẢNG ................................................................................................ 11
DANH MỤC CÁC HÌNH ................................................................................................. 12
CHƯƠNG 1. MỞ ĐẦU..................................................................................................... 15
1.1. Giới thiệu .................................................................................................................... 15
1.2. Khai thác dữ liệu......................................................................................................... 16
1.3. Phân tích cụm ............................................................................................................. 19
1.3.1. Phân tích cụm là gì?................................................................................................. 19
1.3.2. Các yêu cầu của phân tích cụm ............................................................................... 23
1.3.3. Các phương pháp gom cụm cơ bản ......................................................................... 27
1.4. Gom cụm dữ liệu nhiều chiều..................................................................................... 30
1.4.1. Gom cụm dữ liệu nhiều chiều ................................................................................. 30
1.4.2. Một số phương pháp Gom cụm không gian con ..................................................... 32
1.5. Các thuật toán gom cụm không gian con dựa vào ràng buộc..................................... 37
1.6. Đóng góp của luận văn ............................................................................................... 38
1.7. Bố cục của luận văn.................................................................................................... 39
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT .................................................................................. 40
2.1. Gom cụm không gian con dựa trên kết nối dựa trên mật độ ...................................... 40
2.1.1. Định nghĩa sơ bộ...................................................................................................... 40
2.1.2. Các cụm là các tập các kết nối dựa trên mật độ ...................................................... 40
2.1.3. Tính đơn điệu của Tập kết nối dựa vào mật độ ...................................................... 43

2.2. Thuật toán ................................................................................................................... 45


2.3. Ví dụ minh họa ........................................................................................................... 49
Ví dụ 2.1 ............................................................................................................................ 49
2.4. Tổng kết chương ......................................................................................................... 60
CHƯƠNG 3. GOM CỤM KHÔNG GIAN CON DỰA VÀO RÀNG BUỘC ................. 61
3.1. Gom cụm dựa vào ràng buộc số cụm trên không gian con ........................................ 61
3.2. Lớp tương đương (Equivalence Class) ....................................................................... 61
3.3. Cải tiến hàm sinh không gian con ứng viên ............................................................... 62
3.4. Thuật toán ................................................................................................................... 62
3.5. Ví dụ minh họa ........................................................................................................... 64
Ví dụ 3.1 ............................................................................................................................ 64
Ví dụ 3.2 ............................................................................................................................ 65
3.6. Tổng kết chương ......................................................................................................... 69
CHƯƠNG 4. KẾT QUẢ THỰC NGHIỆM ...................................................................... 70
4.1. Môi trường và cơ sở dữ liệu thực nghiệm .................................................................. 70
4.2. Thời gian thực thi ....................................................................................................... 71
4.3. Tính mở rộng .............................................................................................................. 73
4.4. Tổng kết chương ......................................................................................................... 75
CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................. 76
5.1. Kết luận....................................................................................................................... 76
5.2. Hướng phát triển ......................................................................................................... 77
TÀI LIỆU THAM KHẢO ................................................................................................. 78
PHỤ LỤC .......................................................................................................................... 81


DANH MỤC CÁC TỪ VIẾT TẮT VÀ THAY THẾ
Ký hiệu viết tắt


Ý nghĩa tiếng việt

Ý nghĩa tiếng Anh

AL

Mức thuộc tính.

Attribute-level

BI

Kinh doanh thông minh hay
Trí tuệ doanh nghiệp

Business Intelligence

Chiều

Chiều không gian.

Space Dimension

CNTT

Công nghệ thông tin.

Information Technology

CSDL


Cơ sở dữ liệu

Database

Cụm

Cụm dữ liệu.

Cluster

DB

Cơ sở dữ liệu

Database

Gom cụm

Gom cụm dữ liệu.

Clustering

IL

Mức thực thể/đối tượng.

Instance-level

SC


Gom cụm không gian con.

Subspace clustering

DANH MỤC CÁC BẢNG
Bảng 1.1. Tổng quan một số phương pháp gom cụm dữ liệu ........................................... 29
Bảng 2.1. Cơ sở dữ liệu ví dụ DB ..................................................................................... 45
Bảng 2.2 Dữ liệu cụm (r7,r8,r9,r10,r11) trên A1A2........................................................... 50
Bảng 2.3 Dữ liệu cụm (r7,r8,r9,r10,r11,r12,r13,r14) trên A1A4........................................ 51
Bảng 2.4 Dữ liệu cụm (r15,r17,r18) trên A1A4 ................................................................. 52
Bảng 2.5. Dữ liệu cụm (r7,r8,r9,r10,r11,r12,r13,r14) trên A1A5 ....................................... 52


Bảng 2.6. Dữ liệu cụm (r15,r16,r18,r19) trên A2A4. .........................................................
53
Bảng 2.7. Dữ liệu cụm (r7,r9,r10,r11) trên A1A2A4. .........................................................
55
Bảng 2.8. Dữ liệu cụm (r7,r9,r10,r11) trên A1A2A5 .......................................................... 56
Bảng 2.9. Dữ liệu cụm (r9,r10,r13,r14) trên A1A4A5. .......................................................
57
Bảng 4.1. Một số đặc điểm của CSDL thực nghiệm .........................................................
70

DANH MỤC CÁC HÌNH
Hình 1.1. Quá trình gom cụm ............................................................................................ 15
Hình 1.2. Khai thác dữ liệu – tìm kiếm tri thức (các mẫu thú vị) trong dữ liệu................ 17
Hình 1.3. Khai thác dữ liệu là một bước của quá trình khám phá tri thức. .......................
18
Hình 1.4. Dữ liệu 2D khách hàng về vị trí ở trong một thành phố, với ba cụm................ 22

Hình 1.5. Tập dữ liệu mẫu với bốn cụm, mỗi cụm trong hai chiều với chiều thứ ba là
nhiễu. Các điểm từ hai cụm có thể rất gần nhau, gây nhầm lẫn rất nhiều thuật toán gom
cụm

truyền

thống

.................................................................................................................................. 35
Hình 1.6. Dữ liệu mẫu được vẽ theo một chiều ................................................................ 36
Hình 1.7. Dữ liệu mẫu được vẽ trong mỗi tập hai chiều ................................................... 36
Hình 2.1. Tính đơn điệu của kết nối mật độ (các vòng tròn thể hiện vùng lân cận ε, m =
4).
........................................................................................................................................... 43
Hình 2.2. Khả năng truy cập mật độ và khả năng kết nối mật độ trong gom cụm dựa trên
mật độ ................................................................................................................................ 43
12


Hình 2.3. Thủ tục SUBCLU. ............................................................................................. 47
Hình 2.4. Thủ tục sinh vứng viên trong SUBCLU ............................................................
48
Hình 2.5. Kết quả thực hiện DBSCAN((r7,r8,r9,r10,r11),A1A2,1,3). ............................... 50
Hình 2.6. Kết quả thực hiện DBSCAN ((r7,r8,r9,r10,r11,r12,r13,r14), A1A4,1,3). .......... 51

13


Hình 2.7. Kết quả thực hiện DBSCAN((r15,r17,r18), A1A4, 1, 3). ................................. 52
Hình 2.8. Kết quả thực hiện DBSCAN ((r7,r8,r9,r10,r11,r12,r13,r14), A1A5, 1, 3). ........ 52

Hình 2.9. Kết quả thực hiện DBSCAN((r15,r16,r18,r19), A2A4, 1, 3). ............................ 53
Hình 2.10. Kết quả thực hiện DBSCAN((r7,r9,r10,r11), A1A2A4,1,3), thể hiện bằng biểu
đồ 3 chiều........................................................................................................................... 55
Hình 2.11. Kết quả thực hiện DBSCAN((r7,r9,r10,r11), A1A2A4,1,3), được chiếu trên các
chiều...................................................................................................................................
56
Hình 2.12. Kết quả thực hiện DBSCAN((r7,r9,r10,r11), A1A2A5, 1, 3), thể hiện trên biểu
đồ 3 chiều........................................................................................................................... 56
Hình 2.13. Kết quả thực hiện DBSCAN((r7,r9,r10,r11), A1A2A5, 1, 3), được chiếu trên
các
chiều...................................................................................................................................
57
Hình 2.14. Kết quả thực hiện DBSCAN((r9,r10,r13,r14), A1A4A5,1,3), thể hiện trên biểu
đồ 3 chiều........................................................................................................................... 57
Hình 2.15. Kết quả thực hiện DBSCAN((r9,r10,r13,r14), A1A4A5, 1, 3), được chiếu trên
các chiều. ........................................................................................................................... 58
Hình 2.16. Kết quả thực hiện DBSCAN((r15,r16,r18,r19), A2A4A5, 1, 3), thể hiện trên
biểu đồ 3 chiều................................................................................................................... 59
Hình 2.17. Kết quả thực hiện DBSCAN((r15,r16,r18,r19), A2A4A5, 1, 3), được chiếu trên
các chiều. ........................................................................................................................... 59
Hình 3.1. Thủ tục SUBCLU-C. ......................................................................................... 63
Hình 3.2. Thủ tục sinh ứng viên cải tiến. .......................................................................... 64
Hình 4.1. Ảnh hưởng của ε khi thực thi. Giá trị lớn của ε cho kết quả vùng lân cận lớn hơn
14


của điểm và do đó, số lượng các kết hợp khả thi lớn. ....................................................... 71

15



Hình 4.2. Ảnh hưởng của của ràng buộc số cụm tối thiểu c khi thực thi. Giá trị lớn của c
cho thời gian tìm kiếm nhanh hơn và tiệm cận về một mốc thời gian gần không đổi. Bộ dữ
liệu cố định DS30 (2000×30). ........................................................................................... 72
Hình 4.3. Ảnh hưởng của của ràng buộc số cụm tối thiểu c khi thực thi. Giá trị lớn của c
làm số cụm nhỏ dần về 0. Bộ dữ liệu cố định DS30(2000×30). ....................................... 72
Hình 4.4. Biểu đồ thời gian thực thi của SUBCLU-C so với SUBCLU, với ε=0.06,
minpts=3 và c=1. Các bộ dữ liệu sử dụng là DS10, DS12, DS14, DS16, DS18, DS20, có
cùng kích thước ................................................................................................................. 73
Hình 4.5. Thời gian thực thi của SUBCLU-C so với SUBCLU khi kích thước của bộ dữ
liệu tăng lên và số chiều cố định 10d. với ε = 0.5 và minpts = 8, c = 1. Bộ dữ liệu sử dụng
S5000. ................................................................................................................................ 74
Hình 4.6. Thời gian thực thi của SUBCLU-C so với SUBCLU khi kích thước của bộ dữ
liệu tăng lên và số chiều cố định 15. với ε = 0.5 và minpts = 8, c = 1. Bộ dữ liệu sử dụng
S5000. ................................................................................................................................ 74
Hình 4.7. Biểu đồ thời gian thực thi của SUBCLU-C so với SUBCLU, với ε thay đổi từ
1.0×10-10 đến 5.0×10-10 và minpts = 8, c = 4. Bộ dữ liệu madelon. .................................. 75

16


CHƯƠNG 1. MỞ ĐẦU
1.1. Giới thiệu
Thế giới ta đang sống tràn đầy dữ liệu. Mỗi ngày, ở bất cứ đâu, ta đều gặp phải
một số lượng lớn các loại thông tin, gọi chung là dữ liệu, dùng để phân tích, xử lý
hoặc để quản lý. Một trong những cách quan trọng trong việc xử lý các dữ liệu
này là phân loại hoặc nhóm chúng thành một nhóm các loại hoặc cụm. Trên thực
tế, phân loại đóng một vai trò quan trọng và không thể thiếu trong lịch sử phát triển
của con người. Để tìm hiểu một đối tượng mới hoặc hiểu được một hiện tượng
mới, con người luôn cố gắng tìm ra các tính chất có thể mô tả nó, và so sánh nó

với các đối tượng hoặc hiện tượng khác đã được biết đến, dựa trên sự giống nhau
hoặc không giống nhau, tổng quát như là khoảng cách, theo một số tiêu chuẩn hoặc
quy tắc.
Gom cụm cung cấp sự hiểu biết tốt hơn về dữ liệu, bằng cách phân chia dữ
liệu vào các cụm mà chúng có cùng chung tính chất hoặc đặc điểm, trong khi các
đối tượng thuộc về các cụm khác nhau thì khác nhau, với một độ đo tương tự cho
trước. Các kỹ thuật gom cụm đã được nghiên cứu trong hơn hai thập kỷ qua, với
rất nhiều thuật toán được đề xuất.

Hình 1.1. Quá trình gom cụm.[24]

Tuy nhiên với sự phát triển nhanh của thế hệ dữ liệu hiện đại, tự động và
chuyển đổi tạo ra một số lượng khổng lồ các dữ liệu nhiều chiều (chiều không
gian, gọi tắt là: chiều), đặt ra những thách thức lớn cho các thuật toán gom cụm
17


thông thường. Do đó cần thiết phải đề xuất các phương pháp gom cụm phù hợp
trên dữ

18


liệu nhiều chiều, dẫn đến sự ra đời của các thuật toán khai thác gom cụm dữ liệu
không gian con.
Thách thức chủ yếu cho gom cụm dữ liệu nhiều chiều là thuộc tính (hay đặc
tính) cục bộ liên quan, nghĩa là các tập con khác nhau của các thuộc tính thì có liên
quan đến các cụm khác nhau. Mục đích của các thuật toán gom cụm dữ liệu nhiều
chiều là tìm các cụm hình thành trong các chiều tương quan của chúng. Như vậy
gom cụm dữ liệu nhiều chiều cần giải quyết hai bài toán: Đầu tiên tìm các không

gian con liên quan và thứ hai là phát hiện các cụm chính.
Người dùng thường có nền tảng kiến thức mà họ muốn tích hợp vào việc
phân tích cụm. Cũng có thể là yêu cầu ứng dụng cụ thể. Những thông tin này có
thể được mô hình hóa như là các ràng buộc gom cụm. Hiện có các loại ràng buộc
chính gồm: ràng buộc trên thực thể (đối tượng), ràng buộc trên các cụm (hay ràng
buộc trên các thuộc tính – các chiều không gian) và ràng buộc trên các độ đo
tương tự. Một ràng buộc trên các cụm chỉ định một điều kiện trên các cụm, có thể
sử dụng các thuộc tính của các cụm. Ví dụ, một ràng buộc có thể xác định số lượng
tối thiểu của các đối tượng trong một cụm, đường kính tối đa của một cụm, hoặc
hình dạng của một cụm (như, dạng lồi). Số lượng các cụm quy định cho các
phương pháp gom cụm có thể được coi là một ràng buộc trên các cụm.
1.2. Khai thác dữ liệu
Khai thác dữ liệu là quá trình phát hiện các mẫu trong các bộ dữ liệu lớn,
liên quan đến các phương pháp chung của các lĩnh vực như máy học, thống kê và
các hệ thống cơ sở dữ liệu. Đây làm một quá trình thiết yếu áp dụng các phương
pháp thông minh để trích xuất các mẫu dữ liệu. Mục tiêu tổng thể của quá trình
khai thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển nó thành một
cấu trúc dễ hiểu để sử dụng tiếp.
Ngoài bước phân tích thô, khai thác dữ liệu còn liên quan tới cơ sở dữ liệu
và các khía cạnh quản lý dữ liệu, tiền xử lý dữ liệu, suy xét mô hình và suy luận
16


thống kê, các thước đo sự thú vị, các cân nhắc phức tạp, xuất kết quả về các cấu
trúc được phát hiện, trực quan hóa và cập nhật trực tuyến.

Hình 1.2. Khai thác dữ liệu – tìm kiếm tri thức (các mẫu thú vị) trong dữ liệu [15].

17



Hình 1.3. Khai thác dữ liệu là một bước của quá trình khám phá tri thức [15].

Khai thác dữ liệu là bước thiết yếu trong quá trình khám phá tri thức. Khám
phá tri thức như một quá trình được mô tả trong Hình 2.2 và bao gồm một trình tự
lặp đi lặp lại của các bước sau:
1.

Làm sạch dữ liệu (để loại bỏ nhiễu và dữ liệu không nhất quán).

2.

Tích hợp dữ liệu (có thể kết hợp nhiều nguồn dữ liệu).
18


3.

Lựa chọn dữ liệu (trong đó dữ liệu liên quan đến nhiệm vụ phân tích được
lấy từ cơ sở dữ liệu).

4.

Chuyển đổi dữ liệu (dữ liệu được chuyển đổi hoặc hợp nhất thành các hình
thức thích hợp cho việc khai thác thông qua thực hiện các hoạt động tóm tắt
hoặc tổng hợp).

5.

Khai thác dữ liệu (một quá trình thiết yếu khi áp dụng các phương pháp

thông minh để trích xuất các mẫu dữ liệu).

6.

Đánh giá mẫu (để xác định các mô hình thực sự thú vị đại diện cho kiến
thức dựa trên một số phương pháp thú vị).

7.

Trình bày kiến thức (trong đó các kỹ thuật biểu diễn tri thức và tri thức được
sử dụng để trình bày kiến thức được khai thác cho người dùng).
Các chức năng khai thác dữ liệu bao gồm việc khám phá các mô tả khái

niệm/lớp, mối quan hệ và tương quan (luật kết hợp), phân lớp (hay phân loại), dự
đoán, gom cụm (hay phân cụm, phân nhóm), phân tích xu hướng, phân tích độ
lệch, và phân tích tương tự.
Các chức năng khai thác dữ liệu được sử dụng để xác định kiểu mẫu được
tìm thấy trong các nhiệm vụ khai thác dữ liệu. Nhìn chung, nhiệm vụ khai thác dữ
liệu có thể được phân thành hai loại: mô tả và dự đoán. Các tác vụ khai thác mô tả
tính chất chung của dữ liệu trong cơ sở dữ liệu. Các tác vụ khai thác dự đoán thực
hiện suy luận về dữ liệu hiện tại để đưa ra dự đoán.
1.3. Phân tích cụm
1.3.1. Phân tích cụm là gì?
Phân tích cụm hay đơn giản là gom cụm là quá trình phân chia một tập các
đối tượng dữ liệu (hoặc các quan sát) thành các tập con. Mỗi tập con là một cụm,
sao cho các đối tượng trong một cụm giống nhau, nhưng không giống với các đối
19


tượng trong các nhóm khác. Tập hợp các cụm từ kết quả phân tích cụm có thể

được

20


gọi là nhóm gom cụm. Trong ngữ cảnh này, các phương pháp gom cụm khác nhau
có thể tạo các cụm khác nhau trên cùng một bộ dữ liệu. Gom cụm không được
thực hiện bởi con người, mà theo thuật toán gom cụm. Do đó, việc gom cụm rất
hữu ích vì nó có thể dẫn đến việc phát hiện các cụm chưa biết trước đó trong dữ
liệu.
Phân tích cụm đã được sử dụng rộng rãi trong nhiều ứng dụng như kinh
doanh thông minh (Business Intelligence - BI), nhận diện hình ảnh, tìm kiếm
Web, sinh học và bảo mật. Trong kinh doanh thông minh (BI), việc gom cụm có
thể được sử dụng để tổ chức một số lượng lớn khách hàng thành các nhóm, trong
đó khách hàng trong một nhóm có cùng đặc điểm tương tự nhau. Điều này tạo
thuận lợi cho việc phát triển các chiến lược kinh doanh để tăng cường quản lý
quan hệ khách hàng. Hay hơn nữa, hãy xem xét một công ty tư vấn với một số
lượng lớn các dự án. Để cải thiện công tác quản lý dự án, việc gom cụm có thể
được áp dụng cho các dự án phân chia theo loại dựa trên sự tương đồng để có thể
tiến hành kiểm tra và chẩn đoán dự án (để cải thiện việc phân phối dự án và kết
quả).
Trong nhận diện hình ảnh, việc gom cụm có thể được sử dụng để khám phá
các cụm hoặc lớp con trong các hệ thống nhận dạng chữ viết tay. Giả sử chúng ta
có một bộ dữ liệu các chữ số viết tay, trong đó mỗi chữ số được dán nhãn là 1, 2,
3, v.v ... Lưu ý rằng có thể có một sự khác biệt lớn trong cách mà mọi người viết
cùng một chữ số. Lấy ví dụ số 2. Một số người có thể viết nó với một vòng tròn
nhỏ ở phần dưới cùng bên trái, trong khi một số khác thì không. Chúng ta có thể
sử dụng quá trình gom cụm để xác định các lớp con cho “2”, mỗi đối tượng trong
số đó thể hiện một biến thể trên cách viết số 2. Việc sử dụng nhiều mô hình dựa
trên các lớp con có thể nâng cao độ chính xác nhận dạng tổng thể.

Gom cụm cũng được ứng dụng nhiều trong tìm kiếm Web. Ví dụ: tìm kiếm
từ khóa thường có thể trả về số lượng kết quả rất lớn (tức là các trang có liên quan
đến tìm kiếm) do số lượng rất lớn các trang web. Gom cụm có thể được sử dụng để
21


×