Tải bản đầy đủ (.pdf) (81 trang)

Gom cụm không gian con dựa vào ràng buộc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.35 MB, 81 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM



LÊ XUÂN MẠNH

GOM CỤM KHÔNG GIAN CON
DỰA VÀO RÀNG BUỘC
LUẬN VĂN THẠC SĨ
Chuyên ngành: CÔNG NGHỆ THÔNG TIN.
Mã số ngành: 60480201.

Tp. Hồ Chí Minh, tháng 03 năm 2018
1


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM



LÊ XUÂN MẠNH

GOM CỤM KHÔNG GIAN CON
DỰA VÀO RÀNG BUỘC
LUẬN VĂN THẠC SĨ
Chuyên ngành: CÔNG NGHỆ THÔNG TIN.
Mã số ngành: 60480201.
CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS. VÕ ĐÌNH BẢY
Tp. Hồ Chí Minh, tháng 03 năm 2018


2


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

Cán bộ hướng dẫn khoa học: PGS. TS. VÕ ĐÌNH BẢY.
Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM
ngày 17 tháng 06 năm 2018.
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ)
TT

Họ và tên

Chức danh Hội đồng

1

PGS.TS. Quản Thành Thơ

Chủ tịch

2

TS. Nguyễn Duy Hàm

Phản biện 1

3


TS. Lê Thị Ngọc Thơ

Phản biện 2

4

TS. Vũ Thanh Hiền

Ủy viên

5

TS. Văn Thiên Hoàng

Ủy viên, Thư ký

Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn sau khi Luận văn đã được sửa
chữa (nếu có).
Chủ tịch Hội đồng đánh giá Luận văn

PGS.TS. QUẢN THÀNH THƠ

3


TRƯỜNG ĐH CÔNG NGHỆ TP. HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM


PHÒNG QLKH – ĐTSĐH

Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày …. tháng …. năm 2018

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: LÊ XUÂN MẠNH

Giới tính: Nam

Ngày, tháng, năm sinh: 20-11-1984

Nơi sinh: Thanh Hóa

Chuyên ngành: Công Nghệ Thông Tin

MSHV: 1541860018

I- Tên đề tài:
Gom cụm không gian con dựa vào ràng buộc.
II- Nhiệm vụ và nội dung:
-

Tìm hiểu các kỹ thuật gom cụm không gian con truyền thống. Rút ra các ưu khuyết
điểm của các thuật toán trước đây.

-

Nghiên cứu và đề xuất ý tưởng gom cụm không gian con dựa vào ràng buộc.


-

Đề xuất thuật toán gom cụm không gian con dựa vào ràng buộc.

Xây dựng và cài đặt thuật toán đề xuất.
III- Ngày giao nhiệm vụ:

…. / … / ………..

IV- Ngày hoàn thành nhiệm vụ: 17/03/2018.
V- Cán bộ hướng dẫn:

PGS. TS. VÕ ĐÌNH BẢY.

CÁN BỘ HƯỚNG DẪN

KHOA QUẢN LÝ CHUYÊN NGÀNH

(Họ tên và chữ ký)

(Họ tên và chữ ký)

PGS. TS. VÕ ĐÌNH BẢY

4


LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn Thạc sĩ “Gom cụm không gian con dựa vào ràng
buộc” này là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong

Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào
khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.
TP. HCM, tháng 03 năm 2018
Tác giả Luận văn

LÊ XUÂN MẠNH

5


LỜI CÁM ƠN
Đầu tiên, tôi xin chân thành cảm ơn và biết ơn sâu sắc sự tận tình dạy dỗ và
giúp đỡ của tất cả Quý Thầy/Cô Trường Đại học Công nghệ TP. Hồ Chí Minh HUTECH.
Tôi xin gửi lời cảm ơn chân thành và sâu sắc đến Thầy Võ Đình Bảy, người
đã tận tình hướng dẫn và giúp đỡ tôi trong suốt thời gian làm luận văn.
Ngoài ra, con xin cảm ơn Cha Mẹ và người thân trong gia đình đã hết lòng
giúp đỡ, động viên và luôn tạo điều kiện cho con được hoàn thành khóa học và luận
văn này.
Tôi xin cảm ơn đến Cô Nguyễn Thị Thúy Loan, các bạn bè, đồng nghiệp,
những người luôn sát cánh động viên và tạo mọi điều kiện tốt nhất để tôi có thể học
tập và hoàn tất được luận văn này.

LÊ XUÂN MẠNH

6


TÓM TẮT

Một số lĩnh vực ứng dụng như sinh học và địa lý tạo ra một số lượng lớn dữ
liệu, để sử dụng được dữ liệu đó cần phải có các phương pháp khai thác dữ liệu hiệu
quả, trong đó nhiệm vụ chính là gom cụm dữ liệu. Tuy nhiên, các phương pháp gom
cụm truyền thống thường không phát hiện các cụm có ý nghĩa vì hầu hết các bộ dữ
liệu trong thế giới thực được đặc trưng bởi không gian dữ liệu có chiều rộng, thưa
thớt. Các bộ dữ liệu thường chứa các cụm thú vị được ẩn trong các không gian con
khác nhau của không gian đặc trưng ban đầu. Điều này dẫn đến các kỹ thuật gom
cụm không gian đã được đề xuất, nhằm mục đích xác định tự động các không gian
con của không gian đặc trưng, trong đó có tồn tại các cụm. Ngoài ra, kết quả của
quá trình gom cụm còn có vai trò cung cấp dữ liệu đầu vào cho các bài toán phân
lớp, trong đó một cụm được xem như là một lớp, khi đó bài toán phân lớp chỉ có ý
nghĩa khi số lớp lớn hơn từ hai lớp trở lên. Điều này dẫn đến việc cần thiết phải đưa
các ràng buộc về số cụm tối thiểu trên mỗi không gian con tìm kiếm. Trong luận
văn này, tác giả giới thiệu SUBCLU-C, một thuật toán tìm kiếm cụm có trên các
vùng không gian con của không gian dữ liệu ban đầu, với ràng buộc số cụm tối
thiểu. SUBCLU-C được đề xuất trên cơ sở cải tiến thuật toán SUBCLU [14] và thực
nghiệm chứng tỏ được hiệu quả thực thi đáng kể so với thuật toán gốc.

7


ABSTRACT
Some areas of application, such as biology and geography, a large amount of
data is generated, so that data can be used in such a way that effective data-mining
methods are used, where clustering is one of main tasks. However, traditional
clustering methods often do not detect interesting clusters as most real-world data
sets are characterized by sparse data spaces. Datasets usually contain interesting
clusters that are hidden in different subspaces of the original space. This has led to
the proposed subspace clustering techniques, which aim to automatically determine
the subspace of the data space in which clusters exist. In addition, the result of the

clustering process is to provide input for the classification problems in which a
cluster is label of a class, where the clustering problem is meaningful only when the
number of classes must be greater than two or generalized k classes. This leads to
the need provide a constraint as minimum number of clusters on each subspace. In
this essay, the author introduces the SUBCLU-C, a algorithm search clusters that
exists on the subspaces of the original data space, with minimum clusters
constraints. SUBCLU-C is proposed based on the improvement of the SUBCLU
algorithm [14] and experimentally demonstrates significant performance compared
to the original algorithm.

8


MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THAY THẾ ....................................................... 11
DANH MỤC CÁC BẢNG ................................................................................................ 11
DANH MỤC CÁC HÌNH ................................................................................................. 12
CHƯƠNG 1. MỞ ĐẦU ..................................................................................................... 15
1.1. Giới thiệu .................................................................................................................... 15
1.2. Khai thác dữ liệu......................................................................................................... 16
1.3. Phân tích cụm ............................................................................................................. 19
1.3.1. Phân tích cụm là gì?................................................................................................. 19
1.3.2. Các yêu cầu của phân tích cụm ............................................................................... 23
1.3.3. Các phương pháp gom cụm cơ bản ......................................................................... 27
1.4. Gom cụm dữ liệu nhiều chiều..................................................................................... 30
1.4.1. Gom cụm dữ liệu nhiều chiều ................................................................................. 30
1.4.2. Một số phương pháp Gom cụm không gian con ..................................................... 32
1.5. Các thuật toán gom cụm không gian con dựa vào ràng buộc ..................................... 37
1.6. Đóng góp của luận văn ............................................................................................... 38
1.7. Bố cục của luận văn .................................................................................................... 39

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT .................................................................................. 40
2.1. Gom cụm không gian con dựa trên kết nối dựa trên mật độ ...................................... 40
2.1.1. Định nghĩa sơ bộ ...................................................................................................... 40
2.1.2. Các cụm là các tập các kết nối dựa trên mật độ ...................................................... 40
2.1.3. Tính đơn điệu của Tập kết nối dựa vào mật độ ...................................................... 43
2.2. Thuật toán ................................................................................................................... 45
9


2.3. Ví dụ minh họa ........................................................................................................... 49
Ví dụ 2.1 ............................................................................................................................ 49
2.4. Tổng kết chương ......................................................................................................... 60
CHƯƠNG 3. GOM CỤM KHÔNG GIAN CON DỰA VÀO RÀNG BUỘC ................. 61
3.1. Gom cụm dựa vào ràng buộc số cụm trên không gian con ........................................ 61
3.2. Lớp tương đương (Equivalence Class) ....................................................................... 61
3.3. Cải tiến hàm sinh không gian con ứng viên ............................................................... 62
3.4. Thuật toán ................................................................................................................... 62
3.5. Ví dụ minh họa ........................................................................................................... 64
Ví dụ 3.1 ............................................................................................................................ 64
Ví dụ 3.2 ............................................................................................................................ 65
3.6. Tổng kết chương ......................................................................................................... 69
CHƯƠNG 4. KẾT QUẢ THỰC NGHIỆM ...................................................................... 70
4.1. Môi trường và cơ sở dữ liệu thực nghiệm .................................................................. 70
4.2. Thời gian thực thi ....................................................................................................... 71
4.3. Tính mở rộng .............................................................................................................. 73
4.4. Tổng kết chương ......................................................................................................... 75
CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................. 76
5.1. Kết luận....................................................................................................................... 76
5.2. Hướng phát triển ......................................................................................................... 77
TÀI LIỆU THAM KHẢO ................................................................................................. 78

PHỤ LỤC .......................................................................................................................... 81

10


DANH MỤC CÁC TỪ VIẾT TẮT VÀ THAY THẾ
Ký hiệu viết tắt

Ý nghĩa tiếng việt

Ý nghĩa tiếng Anh

AL

Mức thuộc tính.

Attribute-level

BI

Kinh doanh thông minh hay
Trí tuệ doanh nghiệp

Business Intelligence

Chiều

Chiều không gian.

Space Dimension


CNTT

Công nghệ thông tin.

Information Technology

CSDL

Cơ sở dữ liệu

Database

Cụm

Cụm dữ liệu.

Cluster

DB

Cơ sở dữ liệu

Database

Gom cụm

Gom cụm dữ liệu.

Clustering


IL

Mức thực thể/đối tượng.

Instance-level

SC

Gom cụm không gian con.

Subspace clustering

DANH MỤC CÁC BẢNG
Bảng 1.1. Tổng quan một số phương pháp gom cụm dữ liệu ........................................... 29
Bảng 2.1. Cơ sở dữ liệu ví dụ DB ..................................................................................... 45
Bảng 2.2 Dữ liệu cụm (r7,r8,r9,r10,r11) trên A1A2. .......................................................... 50
Bảng 2.3 Dữ liệu cụm (r7,r8,r9,r10,r11,r12,r13,r14) trên A1A4. ....................................... 51
Bảng 2.4 Dữ liệu cụm (r15,r17,r18) trên A1A4 ................................................................. 52
Bảng 2.5. Dữ liệu cụm (r7,r8,r9,r10,r11,r12,r13,r14) trên A1A5 ....................................... 52
11


Bảng 2.6. Dữ liệu cụm (r15,r16,r18,r19) trên A2A4. ......................................................... 53
Bảng 2.7. Dữ liệu cụm (r7,r9,r10,r11) trên A1A2A4. ......................................................... 55
Bảng 2.8. Dữ liệu cụm (r7,r9,r10,r11) trên A1A2A5 .......................................................... 56
Bảng 2.9. Dữ liệu cụm (r9,r10,r13,r14) trên A1A4A5. ....................................................... 57
Bảng 4.1. Một số đặc điểm của CSDL thực nghiệm ......................................................... 70

DANH MỤC CÁC HÌNH

Hình 1.1. Quá trình gom cụm ............................................................................................ 15
Hình 1.2. Khai thác dữ liệu – tìm kiếm tri thức (các mẫu thú vị) trong dữ liệu................ 17
Hình 1.3. Khai thác dữ liệu là một bước của quá trình khám phá tri thức. ....................... 18
Hình 1.4. Dữ liệu 2D khách hàng về vị trí ở trong một thành phố, với ba cụm................ 22
Hình 1.5. Tập dữ liệu mẫu với bốn cụm, mỗi cụm trong hai chiều với chiều thứ ba là nhiễu.
Các điểm từ hai cụm có thể rất gần nhau, gây nhầm lẫn rất nhiều thuật toán gom cụm truyền
thống .................................................................................................................................. 35
Hình 1.6. Dữ liệu mẫu được vẽ theo một chiều ................................................................ 36
Hình 1.7. Dữ liệu mẫu được vẽ trong mỗi tập hai chiều ................................................... 36
Hình 2.1. Tính đơn điệu của kết nối mật độ (các vòng tròn thể hiện vùng lân cận ε, m = 4).
........................................................................................................................................... 43
Hình 2.2. Khả năng truy cập mật độ và khả năng kết nối mật độ trong gom cụm dựa trên
mật độ ................................................................................................................................ 43
Hình 2.3. Thủ tục SUBCLU. ............................................................................................. 47
Hình 2.4. Thủ tục sinh vứng viên trong SUBCLU ............................................................ 48
Hình 2.5. Kết quả thực hiện DBSCAN((r7,r8,r9,r10,r11),A1A2,1,3). ............................... 50
Hình 2.6. Kết quả thực hiện DBSCAN ((r7,r8,r9,r10,r11,r12,r13,r14), A1A4,1,3). .......... 51
12


Hình 2.7. Kết quả thực hiện DBSCAN((r15,r17,r18), A1A4, 1, 3). ................................. 52
Hình 2.8. Kết quả thực hiện DBSCAN ((r7,r8,r9,r10,r11,r12,r13,r14), A1A5, 1, 3). ........ 52
Hình 2.9. Kết quả thực hiện DBSCAN((r15,r16,r18,r19), A2A4, 1, 3). ............................ 53
Hình 2.10. Kết quả thực hiện DBSCAN((r7,r9,r10,r11), A1A2A4,1,3), thể hiện bằng biểu
đồ 3 chiều........................................................................................................................... 55
Hình 2.11. Kết quả thực hiện DBSCAN((r7,r9,r10,r11), A1A2A4,1,3), được chiếu trên các
chiều................................................................................................................................... 56
Hình 2.12. Kết quả thực hiện DBSCAN((r7,r9,r10,r11), A1A2A5, 1, 3), thể hiện trên biểu
đồ 3 chiều........................................................................................................................... 56
Hình 2.13. Kết quả thực hiện DBSCAN((r7,r9,r10,r11), A1A2A5, 1, 3), được chiếu trên các

chiều................................................................................................................................... 57
Hình 2.14. Kết quả thực hiện DBSCAN((r9,r10,r13,r14), A1A4A5,1,3), thể hiện trên biểu
đồ 3 chiều........................................................................................................................... 57
Hình 2.15. Kết quả thực hiện DBSCAN((r9,r10,r13,r14), A1A4A5, 1, 3), được chiếu trên
các chiều. ........................................................................................................................... 58
Hình 2.16. Kết quả thực hiện DBSCAN((r15,r16,r18,r19), A2A4A5, 1, 3), thể hiện trên
biểu đồ 3 chiều. .................................................................................................................. 59
Hình 2.17. Kết quả thực hiện DBSCAN((r15,r16,r18,r19), A2A4A5, 1, 3), được chiếu trên
các chiều. ........................................................................................................................... 59
Hình 3.1. Thủ tục SUBCLU-C. ......................................................................................... 63
Hình 3.2. Thủ tục sinh ứng viên cải tiến. .......................................................................... 64
Hình 4.1. Ảnh hưởng của ε khi thực thi. Giá trị lớn của ε cho kết quả vùng lân cận lớn hơn
của điểm và do đó, số lượng các kết hợp khả thi lớn. ....................................................... 71

13


Hình 4.2. Ảnh hưởng của của ràng buộc số cụm tối thiểu c khi thực thi. Giá trị lớn của c
cho thời gian tìm kiếm nhanh hơn và tiệm cận về một mốc thời gian gần không đổi. Bộ dữ
liệu cố định DS30 (2000×30). ........................................................................................... 72
Hình 4.3. Ảnh hưởng của của ràng buộc số cụm tối thiểu c khi thực thi. Giá trị lớn của c
làm số cụm nhỏ dần về 0. Bộ dữ liệu cố định DS30(2000×30). ....................................... 72
Hình 4.4. Biểu đồ thời gian thực thi của SUBCLU-C so với SUBCLU, với ε=0.06,
minpts=3 và c=1. Các bộ dữ liệu sử dụng là DS10, DS12, DS14, DS16, DS18, DS20, có
cùng kích thước ................................................................................................................. 73
Hình 4.5. Thời gian thực thi của SUBCLU-C so với SUBCLU khi kích thước của bộ dữ
liệu tăng lên và số chiều cố định 10d. với ε = 0.5 và minpts = 8, c = 1. Bộ dữ liệu sử dụng
S5000. ................................................................................................................................ 74
Hình 4.6. Thời gian thực thi của SUBCLU-C so với SUBCLU khi kích thước của bộ dữ
liệu tăng lên và số chiều cố định 15. với ε = 0.5 và minpts = 8, c = 1. Bộ dữ liệu sử dụng

S5000. ................................................................................................................................ 74
Hình 4.7. Biểu đồ thời gian thực thi của SUBCLU-C so với SUBCLU, với ε thay đổi từ
1.0×10-10 đến 5.0×10-10 và minpts = 8, c = 4. Bộ dữ liệu madelon. .................................. 75

14


CHƯƠNG 1. MỞ ĐẦU
1.1. Giới thiệu
Thế giới ta đang sống tràn đầy dữ liệu. Mỗi ngày, ở bất cứ đâu, ta đều gặp phải một
số lượng lớn các loại thông tin, gọi chung là dữ liệu, dùng để phân tích, xử lý hoặc
để quản lý. Một trong những cách quan trọng trong việc xử lý các dữ liệu này là
phân loại hoặc nhóm chúng thành một nhóm các loại hoặc cụm. Trên thực tế, phân
loại đóng một vai trò quan trọng và không thể thiếu trong lịch sử phát triển của con
người. Để tìm hiểu một đối tượng mới hoặc hiểu được một hiện tượng mới, con
người luôn cố gắng tìm ra các tính chất có thể mô tả nó, và so sánh nó với các đối
tượng hoặc hiện tượng khác đã được biết đến, dựa trên sự giống nhau hoặc không
giống nhau, tổng quát như là khoảng cách, theo một số tiêu chuẩn hoặc quy tắc.
Gom cụm cung cấp sự hiểu biết tốt hơn về dữ liệu, bằng cách phân chia dữ
liệu vào các cụm mà chúng có cùng chung tính chất hoặc đặc điểm, trong khi các
đối tượng thuộc về các cụm khác nhau thì khác nhau, với một độ đo tương tự cho
trước. Các kỹ thuật gom cụm đã được nghiên cứu trong hơn hai thập kỷ qua, với rất
nhiều thuật toán được đề xuất.

Hình 1.1. Quá trình gom cụm.[24]

Tuy nhiên với sự phát triển nhanh của thế hệ dữ liệu hiện đại, tự động và
chuyển đổi tạo ra một số lượng khổng lồ các dữ liệu nhiều chiều (chiều không gian,
gọi tắt là: chiều), đặt ra những thách thức lớn cho các thuật toán gom cụm thông
thường. Do đó cần thiết phải đề xuất các phương pháp gom cụm phù hợp trên dữ

15


liệu nhiều chiều, dẫn đến sự ra đời của các thuật toán khai thác gom cụm dữ liệu
không gian con.
Thách thức chủ yếu cho gom cụm dữ liệu nhiều chiều là thuộc tính (hay đặc
tính) cục bộ liên quan, nghĩa là các tập con khác nhau của các thuộc tính thì có liên
quan đến các cụm khác nhau. Mục đích của các thuật toán gom cụm dữ liệu nhiều
chiều là tìm các cụm hình thành trong các chiều tương quan của chúng. Như vậy
gom cụm dữ liệu nhiều chiều cần giải quyết hai bài toán: Đầu tiên tìm các không
gian con liên quan và thứ hai là phát hiện các cụm chính.
Người dùng thường có nền tảng kiến thức mà họ muốn tích hợp vào việc
phân tích cụm. Cũng có thể là yêu cầu ứng dụng cụ thể. Những thông tin này có thể
được mô hình hóa như là các ràng buộc gom cụm. Hiện có các loại ràng buộc chính
gồm: ràng buộc trên thực thể (đối tượng), ràng buộc trên các cụm (hay ràng buộc
trên các thuộc tính – các chiều không gian) và ràng buộc trên các độ đo tương tự.
Một ràng buộc trên các cụm chỉ định một điều kiện trên các cụm, có thể sử dụng
các thuộc tính của các cụm. Ví dụ, một ràng buộc có thể xác định số lượng tối thiểu
của các đối tượng trong một cụm, đường kính tối đa của một cụm, hoặc hình dạng
của một cụm (như, dạng lồi). Số lượng các cụm quy định cho các phương pháp gom
cụm có thể được coi là một ràng buộc trên các cụm.
1.2. Khai thác dữ liệu
Khai thác dữ liệu là quá trình phát hiện các mẫu trong các bộ dữ liệu lớn, liên
quan đến các phương pháp chung của các lĩnh vực như máy học, thống kê và các hệ
thống cơ sở dữ liệu. Đây làm một quá trình thiết yếu áp dụng các phương pháp thông
minh để trích xuất các mẫu dữ liệu. Mục tiêu tổng thể của quá trình khai thác dữ
liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ
hiểu để sử dụng tiếp.
Ngoài bước phân tích thô, khai thác dữ liệu còn liên quan tới cơ sở dữ liệu
và các khía cạnh quản lý dữ liệu, tiền xử lý dữ liệu, suy xét mô hình và suy luận

16


thống kê, các thước đo sự thú vị, các cân nhắc phức tạp, xuất kết quả về các cấu trúc
được phát hiện, trực quan hóa và cập nhật trực tuyến.

Hình 1.2. Khai thác dữ liệu – tìm kiếm tri thức (các mẫu thú vị) trong dữ liệu [15].

17


Hình 1.3. Khai thác dữ liệu là một bước của quá trình khám phá tri thức [15].

Khai thác dữ liệu là bước thiết yếu trong quá trình khám phá tri thức. Khám
phá tri thức như một quá trình được mô tả trong Hình 2.2 và bao gồm một trình tự
lặp đi lặp lại của các bước sau:
1.

Làm sạch dữ liệu (để loại bỏ nhiễu và dữ liệu không nhất quán).

2.

Tích hợp dữ liệu (có thể kết hợp nhiều nguồn dữ liệu).
18


3.

Lựa chọn dữ liệu (trong đó dữ liệu liên quan đến nhiệm vụ phân tích được
lấy từ cơ sở dữ liệu).


4.

Chuyển đổi dữ liệu (dữ liệu được chuyển đổi hoặc hợp nhất thành các hình
thức thích hợp cho việc khai thác thông qua thực hiện các hoạt động tóm tắt
hoặc tổng hợp).

5.

Khai thác dữ liệu (một quá trình thiết yếu khi áp dụng các phương pháp thông
minh để trích xuất các mẫu dữ liệu).

6.

Đánh giá mẫu (để xác định các mô hình thực sự thú vị đại diện cho kiến thức
dựa trên một số phương pháp thú vị).

7.

Trình bày kiến thức (trong đó các kỹ thuật biểu diễn tri thức và tri thức được
sử dụng để trình bày kiến thức được khai thác cho người dùng).
Các chức năng khai thác dữ liệu bao gồm việc khám phá các mô tả khái

niệm/lớp, mối quan hệ và tương quan (luật kết hợp), phân lớp (hay phân loại), dự
đoán, gom cụm (hay phân cụm, phân nhóm), phân tích xu hướng, phân tích độ lệch,
và phân tích tương tự.
Các chức năng khai thác dữ liệu được sử dụng để xác định kiểu mẫu được
tìm thấy trong các nhiệm vụ khai thác dữ liệu. Nhìn chung, nhiệm vụ khai thác dữ
liệu có thể được phân thành hai loại: mô tả và dự đoán. Các tác vụ khai thác mô tả
tính chất chung của dữ liệu trong cơ sở dữ liệu. Các tác vụ khai thác dự đoán thực

hiện suy luận về dữ liệu hiện tại để đưa ra dự đoán.
1.3. Phân tích cụm
1.3.1. Phân tích cụm là gì?
Phân tích cụm hay đơn giản là gom cụm là quá trình phân chia một tập các
đối tượng dữ liệu (hoặc các quan sát) thành các tập con. Mỗi tập con là một cụm,
sao cho các đối tượng trong một cụm giống nhau, nhưng không giống với các đối
tượng trong các nhóm khác. Tập hợp các cụm từ kết quả phân tích cụm có thể được
19


gọi là nhóm gom cụm. Trong ngữ cảnh này, các phương pháp gom cụm khác nhau
có thể tạo các cụm khác nhau trên cùng một bộ dữ liệu. Gom cụm không được thực
hiện bởi con người, mà theo thuật toán gom cụm. Do đó, việc gom cụm rất hữu ích
vì nó có thể dẫn đến việc phát hiện các cụm chưa biết trước đó trong dữ liệu.
Phân tích cụm đã được sử dụng rộng rãi trong nhiều ứng dụng như kinh doanh
thông minh (Business Intelligence - BI), nhận diện hình ảnh, tìm kiếm Web, sinh
học và bảo mật. Trong kinh doanh thông minh (BI), việc gom cụm có thể được sử
dụng để tổ chức một số lượng lớn khách hàng thành các nhóm, trong đó khách hàng
trong một nhóm có cùng đặc điểm tương tự nhau. Điều này tạo thuận lợi cho việc
phát triển các chiến lược kinh doanh để tăng cường quản lý quan hệ khách hàng.
Hay hơn nữa, hãy xem xét một công ty tư vấn với một số lượng lớn các dự án. Để
cải thiện công tác quản lý dự án, việc gom cụm có thể được áp dụng cho các dự án
phân chia theo loại dựa trên sự tương đồng để có thể tiến hành kiểm tra và chẩn
đoán dự án (để cải thiện việc phân phối dự án và kết quả).
Trong nhận diện hình ảnh, việc gom cụm có thể được sử dụng để khám phá
các cụm hoặc lớp con trong các hệ thống nhận dạng chữ viết tay. Giả sử chúng ta
có một bộ dữ liệu các chữ số viết tay, trong đó mỗi chữ số được dán nhãn là 1, 2, 3,
v.v ... Lưu ý rằng có thể có một sự khác biệt lớn trong cách mà mọi người viết cùng
một chữ số. Lấy ví dụ số 2. Một số người có thể viết nó với một vòng tròn nhỏ ở
phần dưới cùng bên trái, trong khi một số khác thì không. Chúng ta có thể sử dụng

quá trình gom cụm để xác định các lớp con cho “2”, mỗi đối tượng trong số đó thể
hiện một biến thể trên cách viết số 2. Việc sử dụng nhiều mô hình dựa trên các lớp
con có thể nâng cao độ chính xác nhận dạng tổng thể.
Gom cụm cũng được ứng dụng nhiều trong tìm kiếm Web. Ví dụ: tìm kiếm
từ khóa thường có thể trả về số lượng kết quả rất lớn (tức là các trang có liên quan
đến tìm kiếm) do số lượng rất lớn các trang web. Gom cụm có thể được sử dụng để
tổ chức các kết quả tìm kiếm thành các nhóm và trình bày các kết quả một cách súc

20


tích và dễ tiếp cận. Hơn nữa, các kỹ thuật gom cụm đã được phát triển để gộp các
tài liệu thành các chủ đề, thường được sử dụng trong thu thập thông tin.
Là một chức năng khai thác dữ liệu, phân tích cụm có thể được sử dụng như
một công cụ độc lập để hiểu sâu hơn về phân bố dữ liệu, để quan sát các đặc tính
của mỗi cụm và tập trung vào một tập hợp các cụm cụ thể để phân tích thêm. Ngoài
ra, nó có thể phục vụ như một bước tiền xử lý cho các thuật toán khác, chẳng hạn
như sự biểu thị đặc tính, lựa chọn tập hợp thuộc tính, và phân loại, sau đó sẽ tiếp tục
hoạt động trên các cụm được phát hiện và các thuộc tính hoặc tính năng đã chọn.
Bởi vì một cụm là một tập hợp các đối tượng dữ liệu tương tự nhau trong
cụm và khác với các đối tượng trong các cụm khác, một cụm các đối tượng dữ liệu
có thể được coi là một lớp tiềm ẩn. Theo nghĩa này, gom cụm đôi khi được gọi là
phân loại tự động. Một lần nữa, một sự khác biệt quan trọng ở đây là việc gom cụm
có thể tự động tìm các cụm. Đây là một lợi thế khác biệt của phân tích cụm.
Gom cụm còn được gọi là phân đoạn dữ liệu trong một số ứng dụng vì việc
gom cụm các tập hợp dữ liệu lớn thành các nhóm theo sự tương đồng của chúng.
Gom cụm cũng có thể được sử dụng để phát hiện các nhiễu (Outlier, hay ngoại vi),
nơi các giá trị biên (các giá trị “xa” từ bất kỳ cụm nào) có thể thú vị hơn các trường
hợp thông thường. Các ứng dụng phát hiện nhiễu bao gồm phát hiện gian lận thẻ tín
dụng và giám sát hoạt động tội phạm trong thương mại điện tử. Ví dụ, trường hợp

nhiễu (hay ngoại lệ) trong giao dịch thẻ tín dụng, chẳng hạn như mua hàng rất tốn
kém và không thường xuyên, có thể được quan tâm như là các hoạt động gian lận
khả thi.
Gom cụm dữ liệu đang được phát triển mạnh mẽ. Các lĩnh vực nghiên cứu
bao gồm khai thác dữ liệu, thống kê, học máy, cơ sở dữ liệu không gian, thu thập
thông tin, tìm kiếm web, sinh học, tiếp thị và nhiều lĩnh vực ứng dụng khác. Do số
lượng lớn các dữ liệu thu thập được trong cơ sở dữ liệu, phân tích cụm gần đây đã
trở thành một chủ đề tích cực trong nghiên cứu khai thác dữ liệu.

21


Hình 1.4. Dữ liệu 2D khách hàng về vị trí ở trong một thành phố, với ba cụm. [15]

Là một nhánh của thống kê, phân tích cụm đã được nghiên cứu rộng rãi, với
trọng tâm chính là phân tích cụm dựa trên khoảng cách. Các công cụ phân tích cụm
dựa trên k-means, k-medoids và một số phương pháp khác cũng đã được tích hợp
trong nhiều gói phần mềm phân tích thống kê hoặc các hệ thống như S-Plus, SPSS,
SAS hay R. Trong học máy, phân lớp được gọi là học tập có giám sát bởi vì thông
tin nhãn của lớp đã có, nghĩa là thuật toán học được giám sát, theo đó nó được cho
biết thành phần lớp của mỗi bộ dữ liệu đào tạo. Gom cụm thì được gọi là học tập
không được giám sát bởi vì không có thông tin nhãn lớp. Vì lý do này, sự gom cụm
là một hình thức học tập theo quan sát chứ không phải học theo các ví dụ. Trong
khai thác dữ liệu, các nỗ lực đã tập trung vào việc tìm kiếm các phương pháp để
phân tích cụm có khả năng và hiệu quả trong các cơ sở dữ liệu lớn. Các chủ đề
nghiên cứu tập trung vào khả năng mở rộng của các phương pháp gom cụm, hiệu
quả của các phương pháp để gộp các hình dạng phức tạp (ví dụ, dạng lồi) và các
loại dữ liệu (ví dụ: văn bản, đồ thị và hình ảnh), các kỹ thuật gọm cụm nhiều chiều
(ví dụ, nhóm các đối tượng với hàng ngàn thuộc tính) và các phương pháp để gộp
các số liệu hỗn hợp số và tên vào các cơ sở dữ liệu lớn.


22


1.3.2. Các yêu cầu của phân tích cụm
Gom cụm là một lĩnh vực nghiên cứu đầy thách thức. Các yêu cầu đặt ra cho gom
cụm như là một công cụ khai thác dữ liệu, cũng như các khía cạnh có thể được sử
dụng để so sánh giữa các phương pháp gom cụm khác nhau.
• Tính mở rộng: Nhiều thuật toán hoạt động tốt trên các tập dữ liệu nhỏ chứa
ít hơn vài trăm đối tượng. Tuy nhiên, với một CSDL lớn chứa hàng triệu hoặc
hàng tỷ đối tượng như trong bối cảnh của bài toán tìm kiếm Web. Gom cụm
trên duy nhất một mẫu của tập dữ liệu lớn nhất định có thể dẫn đến các kết
quả thiên vị. Suy ra, khả năng mở rộng cao của các thuật toán gom cụm là
cần thiết.
• Khả năng xử lý các thuộc tính khác nhau: Nhiều thuật toán được thiết kế
để gom cụm dữ liệu số (dựa trên thời gian). Tuy nhiên, các ứng dụng có thể
yêu cầu gom cụm các loại dữ liệu khác, chẳng hạn như dữ liệu nhị phân, tên
(phân loại) và thứ tự, hoặc các hỗn hợp của các loại dữ liệu này. Gần đây,
ngày càng nhiều ứng dụng cần kỹ thuật gom cụm cho các kiểu dữ liệu phức
tạp như đồ thị, trình tự, hình ảnh và tài liệu.
• Phát hiện các cụm với hình dạng tùy ý: Nhiều thuật toán gom cụm xác
định các cụm dựa trên các phương pháp đo khoảng cách Euclide hoặc
Manhattan. Các thuật toán dựa trên các phép đo khoảng cách này có xu
hướng tìm các cụm hình cầu có kích thước và mật độ tương tự nhau. Tuy
nhiên, một cụm có thể có hình dạng bất kỳ. Hãy xem xét ví dụ về các cảm
biến, thường được triển khai để giám sát môi trường. Việc phân tích cụm trên
các thông số cảm biến có thể phát hiện các hiện tượng thú vị. Chúng ta cũng
có thể sử dụng gom cụm để tìm thấy biên giới của một đám cháy rừng đang
hoạt động, thường không có hình cầu. Điều quan trọng này là phải phát triển
các thuật toán có thể phát hiện các cụm có hình dạng tùy ý.


23


• Yêu cầu kiến thức miền để xác định các thông số đầu vào: Nhiều thuật
toán gom cụm đòi hỏi người dùng phải cung cấp kiến thức miền dưới dạng
các tham số đầu vào như số lượng các cụm mong muốn. Do đó, các kết quả
gom cụm có thể nhạy cảm với các tham số này. Các thông số thường khó xác
định, đặc biệt đối với bộ dữ liệu có số chiều lớn và người dùng chưa hiểu biết
sâu sắc về dữ liệu của họ. Yêu cầu đặc điểm của kiến thức về miền không chỉ
là gánh nặng cho người dùng, mà còn làm cho chất lượng của gom nhóm khó
kiểm soát được.
• Khả năng xử lý dữ liệu nhiễu: Hầu hết các bộ dữ liệu trong thực tế đều chứa
các thành phần nhiễu hoặc các dữ liệu bị thiếu, không rõ hoặc có lỗi. Ví dụ,
các đầu đọc cảm biến thường có nhiễu khi đọc các thông số có thể không
chính xác do các cơ chế cảm ứng, và một số bài đọc có thể sai do nhiễu từ
xung quanh. Các thuật toán gom cụm có thể nhạy cảm với các loại nhiễu đó
và có thể tạo ra các cụm chất lượng kém. Vì vậy, chúng ta cần các phương
pháp gom cụm mạnh để giảm dữ liệu nhiễu.
• Gom cụm tăng trưởng và không nhạy cảm với thứ tự đầu vào: Trong
nhiều ứng dụng, bản cập nhật tăng trưởng (thể hiện dữ liệu mới hơn) có thể
đến bất kỳ lúc nào. Một số thuật toán gom cụm không thể kết hợp các bản
cập nhật tăng trưởng vào các cấu trúc gom cụm hiện có, và thay vào đó, phải
tính toán lại một cụm mới từ đầu. Thuật toán gom cụm cũng có thể nhạy cảm
với trật tự dữ liệu đầu vào. Tức là, với một tập hợp các đối tượng dữ liệu,
thuật toán gom cụm có thể trở lại các cụm khác nhau đáng kể tùy thuộc vào
thứ tự mà các đối tượng được trình bày. Thuật toán gom cụm tăng trưởng và
các thuật toán không nhạy cảm với thứ tự đầu vào là cần thiết.
• Khả năng gom cụm dữ liệu nhiều chiều: Tập dữ liệu có thể chứa nhiều
chiều hoặc thuộc tính. Ví dụ: khi nhóm các tài liệu, mỗi từ khóa có thể được

coi là một chiều, và thường có hàng ngàn từ khoá. Hầu hết các thuật toán
gom cụm đều tốt khi xử lý các dữ liệu chiều thấp như bộ dữ liệu chỉ có hai
24


hoặc ba chiều. Việc tìm các cụm đối tượng dữ liệu trong một không gian có
nhiều chiều là một thách thức, đặc biệt khi xem xét các bộ dữ liệu như vậy
có thể rất thưa thớt và bị lệch.
• Gom cụm dựa trên ràng buộc: Các ứng dụng trong thế giới thực có thể cần
phải thực hiện gom cụm dưới nhiều loại khó khăn. Giả sử công việc chọn vị
trí cho một số máy rút tiền tự động (ATM) nhất định trong một thành phố.
Để quyết định điều này, bạn có thể gom cụm các hộ gia đình trong khi xem
xét các ràng buộc như các con sông, mạng lưới đường cao tốc, các loại và số
lượng khách hàng trên mỗi cụm. Một nhiệm vụ đầy thách thức là tìm các
nhóm dữ liệu với phương thức gom cụm tốt đáp ứng được các ràng buộc cụ
thể.
• Tính giải thích và khả dụng: Người dùng muốn các kết quả gom cụm có
thể hiểu được, dễ hiểu và có thể sử dụng được. Tức là, việc gom cụm có thể
cần phải được gắn kết với các giải thích ngữ nghĩa và các ứng dụng cụ thể.
Điều quan trọng là nghiên cứu các mục tiêu ứng dụng có thể ảnh hưởng đến
việc lựa chọn các tính năng gom cụm và phương pháp gom cụm.
Sau đây là các khía cạnh trực giao với các phương pháp phân nhóm có thể
được so sánh:
• Các tiêu chí phân hoạch: Trong một số phương pháp, tất cả các đối tượng
được phân chia để không có sự phân cấp nào giữa các cụm. Đó là, tất cả các
cụm đều ở mức độ như nhau theo khái niệm. Một phương pháp như vậy rất
hữu ích, ví dụ, để phân chia khách hàng thành các nhóm để mỗi nhóm có
người quản lý riêng. Ngoài ra, các phương pháp phân chia dữ liệu khác theo
thứ bậc, ở đó các cụm có thể được hình thành ở các mức độ ngữ nghĩa khác
nhau. Ví dụ: trong khai thác văn bản, chúng ta có thể muốn tổ chức một tập

tài liệu thành nhiều chủ đề chung, chẳng hạn như “chính trị” và “thể thao”,
mỗi nhóm có thể có các chủ đề phụ, như: “bóng đá”, “bóng rổ”, “bóng chày”
và “khúc côn cầu” có thể tồn tại dưới dạng các chủ đề phụ của “thể thao”.
25


×