Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (802.26 KB, 43 trang )

Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHÓA LUẬN
KHAI THÁC DỮ LIỆU (DATA MINING)
ĐỀ TÀI
TÌM HIỂU GOM CỤM DỮ LIỆU
VÀ THUẬT TOÁN K-MEANS
Nguyễn Tấn – CH1101038 1
Học viên : Nguyễn Tấn
Mã số:

CH1101038
Lớp : Cao học – Khóa 6
GVHD: GS.TS Đỗ Phúc
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
MỤC LỤC
Trang
Mục lục 2
Lời mở đầu 4
Chương I: GOM CỤM DỮ LIỆU
1) Khái niệm gom cụm dữ liệu
2) Vai trò của gom cụm dữ liệu
3) Mục đích của gom cụm dữ liệu
4) Ứng dụng của gom cụm dữ liệu
5
5
6
6

6
Chương II: ĐỘ ĐO KHOẢNG CÁCH 8
1) Biến trị khoảng
2) Biến nhị phân đối xứng
3) Biến nhị phân bất đối xứng
4) Biến định danh
5) Biến thứ tự
6) Biến tỷ lệ theo khoảng
7) Biến có kiểu hỗn hợp
8
9
10
11
11
13
13
Chương III: CÁC PHƯƠNG PHÁP GOM CỤM 14
1) Các phương pháp phân hoạch
2) Các phương pháp phân cấp
3) Các phương pháp dựa trên mật độ
4) Các phương pháp dựa trên mô hình
5) Các phương pháp dựa trên lưới
14
15
17
22
22
Chương IV: THUẬT TOÁN GOM CỤM K-MEANS 26
1) Giới thiệu thuật toán
2) Thuật toán K-means

3) Ưu điểm và khuyết điểm của thuật toán
4) Các biến thể và cải tiến của thuật toán K-means
26
26
30
31
Chương V: THIẾT KẾ VÀ CÀI ĐẶT K-MEANS 34
1) Giới thiệu chương trình
2) Thiết kế và cài đặt chương trình
3) Giao diện và tính năng
4) Cách sử dụng chương trình
5) Đánh giá nhận xét
34
34
37
38
40
Chương VI: KẾT LUẬN 42
Nguyễn Tấn – CH1101038 2
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
Tài liệu tham khảo 43
Nguyễn Tấn – CH1101038 3
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
LỜI MỞ ĐẦU
Ngày nay, cùng với sự phát triển mạnh mẽ của công nghệ phần cứng và truyền
thông, các hệ thống dữ liệu phục vụ cho các lĩnh vực kinh tế - xã hội cũng không
ngừng tăng lên, lượng dữ liệu được tạo ra ngày càng lớn. Sự phong phú về dữ liệu,
thông tin cùng với khả năng kịp thời khai thác chúng đã mang đến những năng suất và

chất lượng mới cho công tác quản lý, hoạt động kinh doanh, … Nhu cầu khám phá tri
thức mới thực sự bùng nổ, theo đó, hàng loạt các lĩnh vực nghiên cứu về tổ chức các
kho dữ liệu và kho thông tin, các hệ trợ giúp quyết định, các thuật toán nhận dạng
mẫu và phân lớp mẫu, … và đặc biệt là khai phá dữ liệu (Data Mining) ra đời.
Từ đó, khai thác dữ liệu đã trở thành một trong những hướng nghiên cứu phổ biến
trong lĩnh vực khoa học máy tính và công nghệ tri thức. Nhiều kết quả nghiên cứu, ứng
dụng của khai thác dữ liệu trong các lĩnh vực khoa học, kinh tế, xã hội. Khai thác dữ
liệu bao hàm nhiều hướng nghiên cứu quan trọng, một trong số đó là gom cụm dữ liệu
(Data Clustering). Gom cụm dữ liệu là quá trình tìm kiếm và phát hiện ra các cụm hoặc
các mẫu dữ liệu tự nhiên trong cơ sở dữ liệu lớn. Các kỹ thuật chính được áp dụng
trong gom cụm dữ liệu phần lớn được kế thừa từ lĩnh vực thống liệu cho việc giải quyết
các vấn đề ở các lĩnh vực như tài chính, thông tin địa lý, sinh học, nhận dạng ảnh, …
Cùng với những kiến thức đã được cung cấp trong môn học khai thác dữ liệu
(Data Mining), em đã chọn đề tài “Tìm hiểu Gom cụm dữ liệu và thuật toán K-
means” làm nội dung nghiên cứu. Để hoàn thành khóa luận này, em xin chân thành
cảm ơn thầy GS.TS.Đỗ Phúc, người đã chỉ dẫn tận tình, cung cấp thông tin, tư liệu
cũng như những bài giảng có giá trị để giúp em hoàn thành đề tài.
Đây là đề tài không mới nhưng với thời lượng cũng như việc đầu tư nghiên cứu
còn nhiều hạn chế nên chỉ mang tính chất một bài khóa luận môn học, chỉ tìm hiểu ở
mức độ khái quát vấn đề. Do đó không thể nào tránh được những thiếu sót và hạn
chế. Kính mong sự thông cảm và chia sẻ của thầy.
Thành phố Hồ Chí Minh, tháng 11 năm 2012.

Nguyễn Tấn – CH1101038 4
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
CHƯƠNG I: GOM CỤM DỮ LIỆU
1) KHÁI NIỆM GOM CỤM DỮ LIỆU
Gom cụm dữ liệu (data clustering) là hình thức học không giám sát (unsupervised
learning), trong đó các mẫu học chưa được dán nhãn.

Gom cụm dữ liệu là một kỹ thuật trong Data Mining nhằm tìm kiếm, phát hiện các cụm,
các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin,
tri thức trong việc ra quyết định.
Gom cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu
thỏa mãn các điều kiện:
- Các đối tượng trong cùng một cụm “tương tự” nhau về một số tiêu chí nào đó.
- Các đối tượng khác cụm thì “không tương tự” nhau.
Giải quyết các vấn đề tìm kiếm, phát hiện các cụm, các mẫu dữ liệu trong một tập hợp
ban đầu các dữ liệu không có nhãn.
A: là một tập các điểm dữ liệu trước khi gom cụm
B: là các tập điểm dữ liệu sau khi gom cụm
 Ci : cụm thứ i


2) VAI TRÒ CỦA GOM CỤM DỮ LIỆU
Gom cụm dữ liệu đóng vai trò quan trọng trong các ngành khoa học :
Nguyễn Tấn – CH1101038 5
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
- Sinh học.
- Khôi phục dữ liệu
- Dự báo thời tiết
- Tâm lý học và Y học
- Kinh doanh, …
Gom cụm dữ liệu mang lại các tiện ích:
- Tổng kết
- Nén
- Tìm kiếm kết quả gần nhất
3) MỤC ĐÍCH CỦA GOM CỤM DỮ LIỆU
Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm dữ liệu. Các thuật toán

phân cụm (Clustering Algorithms ) đều sinh ra các cụm (cluster). Tuy nhiên, không có tiêu chí nào
được xem là tốt nhất để đánh giá hiệu quả của phân cụm, điều này phụ thuộc vào mục đích của
phân cụm như: data reduction, natural cluster, useful cluster, outlier detection.
4) ỨNG DỤNG CỦA GOM CỤM DỮ LIỆU
- Xem xét phân bố dữ liệu.
- Tiền xử lý cho các thuật toán khác.
- Khám phá thói quen và nhu cầu của khách hàng để có phương pháp tiếp thị thích hợp.
- Phân loại đất theo công năng hoặc thực tế sử dụng để có chính sách quy hoạch phù
hợp.
- Phân loại nhà theo vị trí, giá trị, …
- Phân loại khách hàng để có chính sách bảo hiểm hợp lý.
- Phân loại bệnh nhân.
- Phân nhóm động vật và thực vật dựa vào các thuộc tính của chúng.
- Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả.
- Phân loại tài liệu, phân loại người dùng web.
* Một phương pháp gom cụm tốt nếu đạt được các tính chất sau:
- Có độ tương tự cao trong cùng cụm (intra-class).
- Có độ tương tự thấp giữa các cụm (inter-class).
- Có khả năng phát hiện các mẫu ẩn.
Nguyễn Tấn – CH1101038 6
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
- Có khả năng làm việc hiệu quả với lượng dữ liệu lớn (scalability).
- Có khả năng làm việc với nhiều loại dữ liệu khác nhau.
- Có khả năng khám phá ra các cụm có phân bố theo các dạng khác nhau.
- Yêu cầu tối thiểu tri thức lĩnh vực nhằm xác định các tham biến nhập.
- Có khả năng làm việc với nhiễu và mẫu cá biệt.
- Không bị ảnh hưởng bởi thứ tự nhập của dữ liệu.
- Làm việc tốt trên cơ sở dữ liệu có số chiều cao.
- Chấp nhận các ràng buộc do người dùng chỉ định.

- Có thể hiểu và sử dụng được kết quả gom cụm.
* Các kỹ thuật gom cụm:
Nguyễn Tấn – CH1101038 7
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
CHƯƠNG II: ĐỘ ĐO KHOẢNG CÁCH
Để đánh giá độ tương tự giữa các điểm dữ liệu cần có một độ đo khoảng cách được định
nghĩa trong không gian dữ liệu đang xét. Không có một độ đo nào có thể dùng chung cho mọi
trường hợp. Tùy theo mục tiêu khảo sát và bản chất dữ liệu người dùng phải chọn độ đo khoảng
cách phù hợp với ứng dụng đang triển khai.
Gọi K là không gian dữ liệu, x, y, z là các điểm dữ liệu tùy ý trong K. Độ đo d là hàm số d:
K x K  R thỏa:
i) d(x,y) ≥ 0 (tính chất không âm)
ii) d(x,y) = 0 nếu x = y (tính chất điểm)
iii) d(x,y) = d(y,x) (tính chất đối xứng)
iv) d(x,y) ≤ d(x,z) + d(z,y) (tính chất bất đẳng thức tam giác)
Giá trị của độ đo d(x,y) càng nhỏ thì x và y càng gần nhau (càng tương tự nhau).
Trong cơ sở dữ liệu có thể có nhiều kiểu thuộc tính khác nhau. Một điểm dữ liệu được đặc
trưng bằng nhiều thuộc tính có kiểu cơ sở. Để xây dựng được một độ đo tốt, có thể áp dụng cho
dữ liệu tổng quát, ta cần phải xây dựng được độ đo tốt cho các kiểu cơ sở. Các kiểu cơ sở gồm trị
khoảng (interval-valued), nhị phân đối xứng (symmetric binary), nhị phân bất đối xứng
(asymmetric), định danh (nominal), thứ tự (ordinal), tỷ lệ khoảng (ratio-scaled).
1) BIẾN TRỊ KHOẢNG
Các biến trị khoảng là độ đo liên tục của các đại lượng tuyến tính đơn giản như trọng lượng,
chiều cao, nhiệt độ, tuổi, …Các đơn vị đó ảnh hưởng rất nhiều đến kết quả gom cụm. Do đó tùy
vào lĩnh vực ứng dụng và tiêu chí của phương pháp tiếp cận mà chuẩn hóa dữ liệu.
1.1) Phương pháp chuẩn hóa các độ đo
Tính sai số tuyệt đối trung bình:
S
f

=






−++−+−
mxmxmx
fnfffff
n

1
21
Với
m
f
là giá trị trung bình của các
x
if
, i=1 n
( )
n
xxx
m
nfff
f
+++
=

21
Nguyễn Tấn – CH1101038 8
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
Tính độ đo chuẩn (z-score)
S
mx
z
f
fif
if
−
=
Sai số tuyệt đối trung bình càng lớn thì hiện tượng cá biệt càng giảm. Do đó độ đo được
chọn sẽ ảnh hưởng đến kết quả phân tích mẫu các biệt.
1.2) Các độ đo thông dụng cho biến trị khoảng
a. Khoảng cách Minkowski
q
qqq
xxxxxx
jpipjiji
jid
−−−
+++=
2211
),(
(q>0)
b. Khoảng cách Euclide là khoảng cách Minkowski khi q = 2.
Khoảng cách Euclide chính là khoảng cách hình học trong không gian n chiều.
xxxxxx

jpipjiji
jid
−−−
+++=
222

2211
),(
c. Khoảng cách Manhattan là khoảng cách Minkowski khi q = 1
xxxxxx
jpipjiji
jid
−−−
+++=
2211
),(
d. Khoảng cách có trọng
q
q
p
qq
xxwxxwxxw
jpipjiji
jid
−−−
+++=
22111
),(
2
(q>0)

Khoảng cách có trọng là sự cải tiến của khoảng cách Minkowski, trong đó có tính đến ảnh
hưởng của từng thuộc tính đến khoảng cách giữa hai đối tượng. Thuộc tính có trọng số w càng
lớn thì ảnh hưởng càng nhiều đến khoảng cách d. Việc chọn trọng số tùy thuộc vào ứng dụng
và mục tiêu cụ thể.
2) BIẾN NHỊ PHÂN ĐỐI XỨNG
Biến nhị phân là biến chỉ có 2 trạng thái là 0 hoặc 1. Biến nhị phân là đối xứng nếu cả hai
trạng thái là tương đương (về mặt ý nghĩa của ứng dụng). Có nghĩa là không có xu hướng thiên
vị trạng thái 1.
Độ tương tự dựa trên biến nhị phân bất đối xứng thì được gọi là tương tự bất biến.
Bảng sự kiện (contingency table) cho biến nhị phân (cả đối xứng và bất đối xứng):
Nguyễn Tấn – CH1101038 9
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
Đối tượng j
Đối tượng i
1
0
1 0 sum
A b a + b
C d c + d
sum a + c b + d p
Hệ số đối sánh đơn giản cho biến nhị phân đối xứng
dcba
cb
jid
+++
+
=),(
3) BIẾN NHỊ PHÂN BẤT ĐỐI XỨNG
Biến nhị phân là bất đối xứng nếu có một trạng thái có ý nghĩa quan trọng hơn (thường

được mã là 1). Lúc này thường có xu hướng thiên vị trạng thái ưu tiên đó. Ví dụ trong các chẩn
đoán y khoa, người ta thường ưu tiên một hướng kết luận hơn hướng kia. Do đó những trạng
thái chưa rõ ràng (như triệu chứng bệnh chưa rõ ràng) thì cũng có thể kết luận là 1 để ưu tiên
cho bước chẩn đoán chuyên sâu hoặc cách ly theo dõi. Hệ số Jaccard cho biến nhị phân bất đối
xứng:
cba
cb
jid
++
+
=),(
Ví dụ tính khoảng cách cho biến nhị phân:
Tên Phái Sốt Ho Test-1 Test-2 Test-3 Test-4
Sơn Nam Y N P N N N
Ngọc Nữ Y N P N P N
Dũng Nam Y P N N N N
Trong đó:
1. Y (Yes): triệu chứng rõ ràng
2. N (No): hoàn toàn không có triệu chứng
3. P (Part): triệu chứng không rõ ràng hoặc ít
Phái là biến nhị phân đối xứng còn các thuộc tính còn lại là biến nhị phân bất đối xứng.
Nguyễn Tấn – CH1101038 10
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
Gán trị 1 cho Y và P, 0 cho N, ta có:
d(Sơn, Ngọc) =
33.0
102
10
=

++
+
d(Sơn, Dũng) =
67.0
111
11
=
++
+
d(Dũng, Ngọc) =
75.0
211
21
=
++
+
4) BIẾN ĐỊNH DANH
Biến định danh là biến có thể nhận nhiều hơn hai trạng thái. Ví dụ biến màu sắc có thể
nhận đỏ, vàng, xanh, lục. Có hai phương pháp để xác định khoảng cách theo biến định danh:
a. Hệ đối sánh đơn giản:
p
mp
jid
−
=),(
Trong đó m là số thuộc tính có giá trị trùng khớp giữa hai đối tượng i và j, p là tổng
số thuộc tính.
b. Đưa biến định danh về biến nhị phân bằng cách thay mỗi trạng thái định danh bằng
một biến nhị phân mới. Ví dụ biến màu sắc (đỏ, vàng, xanh, lục) có thể chuyển thành biến nhị
phân: đỏ (có/không), vàng (có/không), xanh (có/không), lục (có/không).

5) BIẾN THỨ TỰ
Biến thứ tự là biến trên một tập giá trị có xác định quan hệ thứ tự trên đó, ví dụ hạng
xếp loại huy chương vàng, bạc, đồng. Biến thứ tự có thể rời rạc hoặc liên tục.
Độ đo cho biến thứ tự được xây dựng như sau:
Giả sử ta có biến thứ tự
x
if
a. Thay thế
x
if
bởi hạng của chúng
x
if
∈
{1,…,M
f
}
b. Ánh xạ hạng của từng biến vào [0,1] bằng cách thay thế đối tượng i trong biến f
bởi:
1
1
−
−
=
M
x
z
f
if
if

Nguyễn Tấn – CH1101038 11
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
c. Tính độ phân biết theo các phương pháp đã biến đổi với biến trị khoảng
z
if
.
Ví dụ:
Biến thứ tự huy chương (vàng, bạc, đồng, không)
a. Thay thế
x
if
bởi hạng của chúng
x
if
∈
{1,2,3,4}
b. Ánh xạ hạng của từng biến vào [0,1] bằng cách thay thế đối tượng i trong
biến f bởi:
1
1
−
−
=
M
x
z
f
if
if

Ta có
z
if
∈
{0, 0.33, 0.66, 1}
c. Tính độ phân biệt theo các phương pháp đã biết đối với biến trị khoảng
z
if
.
Tên Điền kinh Bơi lội Xe đạp
Sơn Vàng Bạc Bạc
Ngọc Bạc - Đồng
Dũng - Vàng -
Bảng sau khi được chuẩn hóa (các phần tử là các
z
if
):
Tên Điền kinh Bơi lội Xe đạp
Sơn 0 0.33 0.33
Ngọc 0.33 1 0.66
Dũng 1 0 1
Chọn khoảng cách Euclide ta có:
d(Sơn, Ngọc) =
)66.033.0()01()133.0(
222
−−−
++
= 0.81
d(Ngọc, Dũng) =
)166.0()01()133.0(

222
−−−
++
= 1.23
6) BIẾN TỶ LỆ THEO KHOẢNG
Biến tỷ lệ khoảng là độ đo dương trên các tỷ lệ phi tuyến. Ví dụ: các đại lượng biểu
diễn theo hàm mũ chẳng hạn Ae
Bt
.
Trong đa số trường hợp thì không thể áp dụng trực tiếp phương pháp độ đo cho các
biến trị khoảng cho loại biến này vì có thể gây sai số lớn.
Nguyễn Tấn – CH1101038 12
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
Phương pháp tốt hơn là tiền xử lý bằng cách chuyển sang logarit y
if
= log(x
if
) sau đó
mới áp dụng trực tiếp phương pháp độ đo cho các biến trị khoảng hoặc thứ tự.
7) BIẾN CÓ KIỂU HỖN HỢP
CSDL có thể chứa cả sáu loại biến đơn nêu trên. Ta có thể dùng công thức được gán
trọng để kết hợp các hiệu quả của các biến thành phần.
∑
∑
=
=
=
p
f

ij
p
f
ijij
f
ff
jid
d
1
1
)(
)()(
),(
δ
δ
Trong đó
)( f
ij
δ
được tính như sau:

)( f
ij
δ
= 0 khi
x
if
hoặc
x
jf

không tồn tại hoặc
x
if
=
x
jf
= 0

)( f
ij
δ
= 1 trong các trường hợp khác
Ngoài ra d
ij
(f) được tính như sau:
a. Đối với các biến trị khoảng hoặc thứ tự:
d
ij
(f) là khoảng cách đã được chuẩn hóa
b. Đối với các biến nhị phân hoặc định danh:
 d
ij
(f) = 0 khi
x
if
=
x
jf
= 0
 d

ij
(f) = 1 trong các trường hợp khác
Nguyễn Tấn – CH1101038 13
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
CHƯƠNG III: CÁC PHƯƠNG PHÁP GOM CỤM
Dựa trên cách tiếp cận và thuật toán sử dụng, người ta phân các thuật toán gom cụm
theo các phương pháp chính sau:
• Các phương pháp phân hoạch.
• Các phương pháp phân cấp.
• Các phương pháp dựa trên mật độ.
• Các phương pháp dựa trên mô hình.
• Các phương pháp dựa trên lưới.
Có thể dùng ma trận dữ liệu để mô hình hóa bài toán gom cụm. Ma trận biểu diễn không
gian dữ liệu gồm n đối tượng theo p thuộc tính. Ma trận này biểu diễn mối quan hệ đối tượng
theo thuộc tính:

















npnfn
ipifi
pf
xxx
xxx
xxx

1
1
1111
Để biểu diễn khoảng cách giữa hai điểm (đối tượng) trong không gian dữ liệu gồm n đối
tượng theo p thuộc tính ta dùng ma trận phân biệt:

















0 )2,()1,(
0)2,3()1,3(
0)1,2(
0
ndnd
dd
d

với d(i,j) là khoảng cách giữa đối tượng i và đối tượng j.
1) CÁC PHƯƠNG PHÁP PHÂN HOẠCH
Đây là các phương pháp tạo phân hoạch cơ sở dữ liệu D có n đối tượng k cụm sao cho:
i) Mỗi cụm chứa ít nhất một đối tượng.
ii) Mỗi đối tượng thuộc về một cụm duy nhất
iii) K là số cụm đã được cho trước
Nguyễn Tấn – CH1101038 14
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
Đây là các tiêu chuẩn chung của các phương pháp phân hoạch truyền thống. Gần đây
xuất hiện nhiều phương pháp phân hoạch dựa trên lý thuyết tập mờ thì tiêu chuẩn (ii) là không
quan trọng mà thay vào đó là mức độ thuộc về (membership) của đối tượng vào cụm, mức độ
này có thể có giá trị liên tục từ o đến 1. Các phương pháp tiếp cận phân hoạch:
 Tối ưu toàn cục bằng vét cạn: với k cho trước có thể có (k
n
- (k-1)
n
- …- 1) khả

năng phân hoạch khác nhau. Đây là con số quá lớn nếu n là khá lớn do đó hầu như
không thể thực hiện được.
 Các phương pháp heuristic:
o K-means (MacQueen’67): mỗi cụm được đại diện bằng trọng tâm của cụm.
o K-medoids (Kaufman & Rouseau’87) còn được gọi là PAM (partition around
medoids): mỗi cụm được đại diện bởi một đối tượng cụm.
2) CÁC PHƯƠNG PHÁP PHÂN CẤP
Đây là các phương pháp tạo phân cấp cụm (hierarchical classtering) chứ không tạo phân
hoạch các đối tượng. Phương pháp này không cần phải xác định số cụm từ đầu. Số cụm sẽ do
khoảng cách giữa các cụm hoặc điều kiện dừng quyết định. Tiêu chuẩn gom cụm thường được
xác định bằng ma trận khoảng cách. Phân cấp cụm thường được biểu diễn dưới dạng đồ thị
dạng cây các cụm (dendogram). Lá của cây biểu diễn đối tượng riêng lẻ, nút trong biểu diễn
các cụm.
Các phương pháp tiếp cận để gom cụm phân cấp gồm:
Sơ đồ hai phương pháp tiếp cận phân cấp
( Gộp: AGNES – Tách: DIANA )
Nguyễn Tấn – CH1101038 15
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
 Gộp:
a. Xuất phát mỗi đối tượng và tạo một cụm chứa nó.
b. Nếu hai cụm đủ gần nhau (dưới một ngưỡng nào đấy) sẽ được gộp lại thành
một cụm duy nhất.
c. Lặp lại bước 2 cho đến khi chỉ còn một cụm duy nhất là toàn bộ không gian.
 Tách:
a. Xuất phát từ một cụm duy nhất là toàn bộ không gian.
b. Chọn cụm có độ phân biệt cao nhất (ma trận phân biệt có phần tử lớn nhất
hoặc trị trung bình lớn nhất) để tách đôi. Bước này sẽ áp dụng các phương
pháp phân hoạch đối với cụm đã chọn.
c. Lặp lại bước 2 đến khi mỗi đối tượng thuộc một cụm hoặc đạt điều kiện dừng

(đủ số cụm cần thiết hoặc khoảng cách giữa các cụm đạt ngưỡng đủ nhỏ).
Các khoảng cách giữa các cụm thường được dùng là:

Khoảng cách nhỏ nhất:
Khoảng cách này còn được gọi là khoảng cách liên kết đơn
(single link) hoặc khoảng cách người láng giềng gần nhất. Đây là loại khoảng cách
phù hợp để phát hiện các cụm có dạng chuỗi hơn là dạng khối.
d(C
i
.C
j
) = min
x
∈
Ci, y
∈
Cj
{d(x,y)}

Khoảng cách lớn nhất:
Khoảng cách này còn được gọi là khoảng cách liên kết hoàn
toàn (complete link) hoặc khoảng cách người láng giềng xa nhất. Đây là loại khoảng
cách phù hợp để phát hiện các cụm có dạng khối hơn là dạng chuỗi.
d(C
i
.C
j
) = max
x
∈

Ci, y
∈
Cj
{d(x,y)}

Khoảng cách trung bình
d(C
i
.C
j
) = avg
x
∈
Ci, y
∈
Cj
{d(x,y)}

Khoảng cách trọng tâm:
Khoảng cách giữa hai trọng tâm của hai cụm được chọn
làm khoảng cách của hai cụm đó. Khoảng cách phù hợp để phát hiện các cụm có dạng
khối và tốc độ tính toán nhanh do chỉ quan tâm đến trọng tâm nên giảm khối lượng
tính toán.
3) CÁC PHƯƠNG PHÁP DỰA TRÊN MẬT ĐỘ
Nguyễn Tấn – CH1101038 16
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
Các ký hiệu và khái niệm:
a. p, q, o là các điểm dữ liệu bất kỳ (các đối tượng).
b. Với Eps dương cho trước, tập hợp Neps(p) = {q| d(q,p) ≤ Eps} được gọi là lân cận

bán kính Eps của p.
c. p được gọi là điểm hạt nhân nếu thỏa
|Neps(p)| ≥ min Pts
trong đó min Pts: số nguyên dương cho trước. min Pts là ngưỡng tối thiểu để coi
một điểm là trù mật. Từ đây khi nói một điểm là hạt nhân thì ta hiểu là nó gắn với
một bán kính và một ngưỡng trù mật nhất định.
d. p được gọi là điểm biên nếu nó không phải là điểm nhân.
e. q được gọi là
đi tới được trực tiếp theo mật độ
từ p nếu p là một điểm nhân và q
thuộc lân cận của p.
f. p
n
được gọi là
đi tới được theo mật độ
từ p
i
nếu tồn tại một dãy các điểm p
i
(i=2, n)
sao cho p
i
liên thông mật độ trực tiếp từ p
i+1
.
g. p va q được gọi là có
kết nối theo mật độ
nếu tồn tại điểm o sao cho cả p va q đều
liên thông mật độ từ o.
min Pts=3

Eps = 1cm
p là một điểm hạt nhân với bán kính Eps 1cm và ngưỡng trù mật là min Pts là 3. Khoảng
cách được dùng là khoảng cách Euclide trong không gian hình họ hai chiều, q là một điểm
liên thông mật độ trực tiếp từ p.
q là một điểm liên thông mật độ từ p
Nguyễn Tấn – CH1101038 17

p
q
p
q
p
q
o
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
p và q là hai điểm có kết nối mật độ
Ý tưởng của các thuật toán dựa trên mật độ: Một cụm là một tập hợp tối đại các điểm có
kết nối mật độ.
Thuật toán DBSCAN có các bước sau:
a. Chọn một điểm p bất kỳ thuộc không gian dữ liệu D.
b. Tìm tập P gồm tất cả các điểm liên thông mật độ từ p với ngưỡng bán kính Eps và
ngưỡng mật độ min Pts.
c. Nếu p là một điểm hạt nhân thì:
- P chính là một cụm cần tìm
- D = D \ P (loại P ra khỏi D)
d. Quay lại bước 1 cho đến khi tất cả các điểm trong D đều đã được xét.
e. Các điểm đã xét nhưng không thuộc cụm nào thì chính là các mẫu cá biệt.
Ưu điểm của DBSCAN là tìm được các cụm có hình dạng bất kỳ co nhiễu hoặc mẫu cá biệt
gây ra.

Khuyết điểm của DBSCAN là khó chọn được các ngưỡng Eps và min Pts tốt. Do đó kết quả
gom cụm không tốt khi mật độ trong các cụm tự nhiên là chênh lệch nhau nhiều. Một điểm yếu
nữa là không phù hợp cho yêu cầu phân cấp cụm mà chỉ đáp ứng nhu cầu phân hoạch.
Bán kính lân cận và ngưỡng trù mật là các tham số quyết định đến kết quả gom cụm. Để có
kết quả gom cụm tốt ta có thể thử với một số bộ tham số và chọn ra kết quả tối ưu. Để tạo cây
phân cấp cụm thì có thể áp dụng chiến lược phân giải tằng dần như sau:
a. Đầu tiên chọn bán kính lân cận và ngưỡng trù mật thô (Eps lớn và min Pts nhỏ).
Nguyễn Tấn – CH1101038 18
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
b. Chọn cụm có độ phân biệt lớn nhất (thông qua ma trận phân biệt của cụm hoặc một
tiêu chí đánh giá tùy thuộc nhu cầu ứng dụng). Cụm được chọn ở bước này sẽ tạo
thành một nút của cây phân cấp.
c. Phân hoạch cụm được chọn bằng thuật toán DBSCAN.
d. Nếu tất cả các cụm tạo được đều có độ phân biệt nội tại đủ thấp hoặc đã đạt được
số cụm cần thiết thì dừng. Các cụm còn lại tại thời điểm kết thúc thuật toán tạo
thành các nút lá của cây phân cấp.
e. Giảm bán kính lân cận và tăng ngưỡng trù mật. Mức độ điều chỉnh tùy thuộc bản
chất dữ liệu và nhu cầu gom cụm.
f. Quay lại bước 2.
Đặc điểm của phương pháp tạo cây phân cấp cụm dựa trên thuật toán DBSCAN có thể tạo
cây đa phân.
Các thuật toán khác theo hướng tiếp cận dựa trên mật độ như: OPTICS, DENCLUE.
* Thuật toán OPTICS:
Thuật toán này là mở rộng của DBSCAN, tuy nhiên nó cải tiến bằng cách giảm bớt các
tham số đầu vào. Thuật toán này không phân cụm các điểm dữ liệu mà thực hiện tính toán và sắp
xếp trên các điểm dữ liệu theo thứ tự tăng dần nhằm tự động PCDL và phân tích cụm tương tác
hơn là đưa ra phân cụm một tập dữ liệu rõ ràng. Đây là thứ tự mô tả cấu trúc phân dữ liệu cụm
dựa trên mật độ của dữ liệu, nó chứa thông tin tương ứng với phân cụm dựa trên mật độ từ một
dãy các tham số được thiết lập và tạo thứ tự của các đối tượng trong CSDL, đồng thời lưu trữ

khoản cách lõi và khoảng cách liên lạc phù hợp của mỗi đối tượng. Hơn nữa, thuật toán được đề
xuất rút ra các cụm dựa trên thứ tự thông tin. Như vậy thông tin đủ cho trích ra tất cả các cụm
dựa trên mật độ khoảng cách ε’ bất kỳ mà nhỏ hơn khoảng cách ε được sử dụng trong sinh thứ
tự.
Việc sắp xếp thứ tự được xác định bởi hai thuộc tính riêng của các điểm dữ liệu đó là
khoảng cách nhân và khoảng cách liên lạc. Các phép đo này chính là kích thước mà có liên quan
đến quá trình của thuật toán DBSCAN, tuy nhiên, chúng được sử dụng để xác định thứ tự của các
điểm dữ liệu đã được xắp xếp. Thứ tự dựa tren cơ sở các điểm dữ liệu mà có khoảng cách nhân
nhỏ nhất và tăng dần độ lớn. Điều duy nhất về phương pháp này là người sử dụng không phải xác
định giá trị ε hoặc Min Pts phù hợp. Thuật toán này có thể phân cụm các đối tượng đã cho với các
Nguyễn Tấn – CH1101038 19
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
tham số đầu vào như ε và MinPts, nhưng nó vẫn cho phép người sử dụng tùy ý lựa chon các giá
trị tham số mà sẽ dãn đến khám phá các cụm chấp nhận được.
Các thiết lập tham số thường dựa theo kinh nghiệm tập hợp và khó xác định, đặc biệt là với các
tập dữ liệu đa chiều. Tuy nhiên, nó cũng có độ phức tạp thời gian thực hiện như DBSCAN
bởi vì có cấu trúc tương đương với DBSCAN : O(nlogn)- n là kích thước của tập dữ liệu. Thứ tự
cụm của tập dữ liệu có thể được biểu diễn bằng đồ thị, và được minh họa trong hình sau, có thể
thấy ba cụm, giá trị ε quyết định số cụm
* Thuật toán DENCLUE:
DENCLUDE đưa ra cách tiếp cận khác với các thuật toán phân cụm dựa trên mật độ
trước đó, cách tiếp cận này xem xét mô hình được sử dụng một công thức toán để mô tả mỗi
điểm dữ liệu sẽ ảnh hưởng trong mô hình như thế nào được gọi là hàm ảnh hưởng có thể xem
như một hàm mà mô tả ảnh hưởng của điểm dữ liệu với các đối tượng làng giếng của nó. Ví dụ về
hàm ảnh hưởng là các hàm parabolic, hàm sóng ngang, hoặc hàm Gaussian.
Như vậy , DENCLUDE là phương pháp dựa trên một tập các hàm phân phố mật độ và
được xây dựng ý tưởng chính như sau :
- Ảnh hưởng của mỗi điểm dữ liệu có thể là hình thức được mô hình sử dụng một
hàm tính toán, được gọi là hàm ảnh hưởng, mô tả tác động của điểm dữ liệu với các đối tượng

láng giềng của nó.
- Mật độ toàn cục của không gian dữ liệu được mô hình phân tích như là tổng các
hàm ảnh hưởng của tất cả các điểm dữ liệu.
- Các cụm có thể xác định chính xác bởi việc xác định mật độ cao (density
attractors), trong đó mật độ cao là các điểm cực đại hàm mật độ toàn cục.
Sử dụng các cells lưới không chỉ giữ thông tin về các cells lưới mà thực tế nó còn chứa
đựng cả các điểm dữ liệu. Nó quản lý các cells trong một cấu trúc truy cập dựa trên cây, và như
vậy nó nhanh hơn so với một số các thuật toán có ảnh hưởng, như DBSCAN. Tuy nhiên, phương
pháp này đòi hỏi chọn lựa kỹ lưỡng tham biến mật độ và ngưỡng nhiễu, việc chọn lựa tham số là
quan trọng ảnh hưởng tới chất lượng của các kết quả phân cụm.
Định nghĩa : Cho x, y là hai đối tượng trong không gian d chiều ký hiệu là Fd. Hàm ảnh
hưởng của đối tượng
F
d
y ∈
lên đối tượng x là một hàm
RF
f
O
d
y
B
+
→:
mà được định nghĩa dưới
dạng một hàm ảnh hưởng cwo bản
),()( yxX
ff
B
y

B
=

. Hàm ảnh hưởng có thể là một hàm bất
Nguyễn Tấn – CH1101038 20
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
kỳ; cơ bản là xác định khoảng cách của hai vecto d(x, y) trong không gian d chiều, ví dụ như
khoảng cách Euclide. Hàm khoảng cách có tính chất phản xạ và đối xứng. Ví dụ về
hàm ảnh hưởng như sau :
- Hàm ảnh hưởng sóng ngang :



=
1
0
),( yx
f
square

if
if

δ
δ
≤
>
),(
),(

yxd
yxd
Trong đó
δ
là một ngưỡng.
- Hàm ảnh hưởng Gaussian:
e
f
yxd
yx
square
δ
2
2
2
),(
),( =
Mặt khác, hàm mật độ tại điểm
F
d
x ∈

được đinh nghĩa là tổng các hàm ảnh hưởng
của tất ả các điểm dữ liệu. Cho n là các đối tượng dữ liệu được mô tả bởi một tập vecto
{ }
F
xx
d
n
D ∈= ,

1
hàm mật độ được định nghĩa như sau :
∑
=
=
n
i
ix
B
D
B
XX
FF
1
)(
)()(
Hàm mật độ được thành lập dựa trên ảnh hưởng Gauss được xác định như sau :
∑
=
=
n
i
d
D
Gause
e
F
x
i
x

d
1
2
2
2
),(
)(
δ
DENCLUE phụ thuộc nhiều vào ngưỡng nhiễu và tham số mật độ, nhưng DENCLUE có
các lợi thế chính được so sánh với các thuật toán phân cụm khác sau đây :
- Có cơ sở toán học vững chắc và tổng quát hóa các phương pháp phân cụm khác,
bao gồm các phương pháp phân cấp, dựa trên phân hoạch.
- Có các đặc tính phân cụm tốt cho các tập dữ liệu với số lượng lớn và nhiễu - Cho
phép các cụm có hình dạng bất kỳ trong tập dữ liệu đa chiều được mô tả trong công thức toán.
Độ phức tạp tính toán của DENCLUDE là O(nlogn). Các thuật toán dựa trên mật độ
không thực hiện kỹ thuật phân mẫu trên tập dữ liệu như trong các thuật toán phân cụm phân
hoạch, vì điều này có thể làm tăng thêm độ phức tạp đã có sự khác nhau giữa mật độ của các đối
tượng trong mẫu với mật độ của toàn bộ dữ liệu.
4) CÁC PHƯƠNG PHÁP DỰA TRÊN MÔ HÌNH
Nguyễn Tấn – CH1101038 21
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
Đây là các phương pháp dựa trên sự phù hợp giữa dữ liệu và các mô hình toán học. Ý tưởng
của các phương pháp này là: Dữ liệu phát sinh từ một sự kết hợp nào đó của các phân phối xác
xuất ẩn. Có hai phương pháp tiếp cận chính:
Tiếp cận thống kê (phương pháp COBWEB, CLASSIT, AUTOCLASS).
Tiếp cận mạng Nơron (học cạnh tranh, bản đồ tự cấu trúc SOM).
COBWEB là cách tiếp cận để biểu diễn các đối tượng dữ liệu theo kiểu cặp thuộc tính – giá
trị. COBWEB thực hiện bằng cách tạo cây phân lớp, tương tự như khái niệm của BIRCH, tuy nhiên
cấu trúc cây khác nhau. Mỗi nút của cây phân lớp là đại diện cho khái niệm của đối tượng dữ liệu

và tất cả các điểm mà ở dưới lớp đó là cùng thuộc một nút. COBWEB sử dụng công cụ phân loại
để quản lý cấu trúc cây. Từ đó các cụm hình thành dựa trên phép đo độ tương tự mà phân loại
giữa tương tự và phi tương tự, cả hai có thể mô tả phân chia giá trị thuộc tính giữa các nút trong
lớp. Cấu trúc cây cũng có thể mô tả phân chia giá trị thuộc tính giữa các nút trong lớp. Cấu trúc
cây cũng có thể được hợp nhất hoặc phân tách khi chèn một nút mới vào cây.
5) CÁC PHƯƠNG PHÁP DỰA TRÊN LƯỚI
Ý tưởng: dùng các cấu trúc dữ liệu dạng lưới với nhiều cấp độ phân giải. Những ô lưới có
mật độ cao sẽ tạo thành các cụm. Phương pháp này rất phù hợp với các phân tích gom cụm ứng
dụng trong không gian (phân loại sao, thiên hà, …). Ngoài ra còn có các thuật toán khác như:
STING, WaveCluster, CLIQUE.
* STING là kỹ thuật phân cụm đa phân giải dựa trên lưới, trong đó vùng không gian dữ
liệu được phân rã thành số hữu hạn các cells chữ nhât, điều này có ý nghĩa là các cells lưới được
hình thành từ các cells lưới con để thực hiện phân cụm. Có nhiều mức của các cells chữ nhật
tương ứng với các mức khác nhau của phân giải trong cấu trúc lưới, và các cells này hình thành
cấu trúc phân cấp : mỗi cells ở mức cao được phân hoạch thành các số các cells nhỏ ở mức thấp
hơn tiếp theo trong cấu trúc phân cấp. Các điểm dữ liệu được nạp từ CSDL, giá trị của các tham
số thống kê cho các thuộc tính của đối tượng dữ liệu trong mỗi ô lưới được tính toán từ dữ liệu và
lưu trữ thông qua các tham số thống kê ở các cell mức thấp hơn (điều này giống với cây CF). Các
giá trị
của các tham số thống kê gồm : số trung bình – mean, số tối đa – max, số tối thiểu – min, số
đếm –count , độ lệch chuẩn –s,…
Các đối tượng dữ liệu lần lượt được chèn vào lưới và các tham số thống kê ở trên được
tính trực tiếp thông qua các đối tượng dữ liệu này. Các truy vấn không gian được thực hiện bằng
Nguyễn Tấn – CH1101038 22
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
cách xét các cells thích hợp tại mỗi mức phân cấp. Một truy vấn không gian được xác định như là
một thông tin khôi phục lại của dữ liệu không gian và các quan hệ của chúng. STING có khả năng
mở rộng cao , nhưng do sử dụng phương pháp đa phân giải nên nó phụ thuộc chặt chẽ vào trọng
tâm của mức thấp nhất. Đa phân giải là khả năng phân rã tập dữ liệu thành các mức chi tiết khác

nhau. Khi hòa nhập các cells của cấu trúc lưới để hình thành các cụm, nó không xem xét quan hệ
không gian giữa các nút của mức con không được hòa nhập phù hợp( do chúng chỉ tương ứng với
các cha của nó) và hình dạng của các cụm dữ liệu khám phá là isothetic, tất cả ranh giới của các
cụm có các biên ngang và dọc, theo biên của các cells và không có đường biên chéo được phát
hiện ra. Các lợi thế của cách tiếp cận này so với các phương pháp phân cụm dữ
liêu khác :
- Tính toán dựa trên lưới là truy vấn độc lập vi thông tin thống kê được bảo quản trong
mỗi cells đại diện nên chỉ cần thông tin tóm tắt của dữ liệu trong cells chứ không phải là dữ liệu
thực tế và không phụ thuộc vào câu truy vấn.
- Cấu trúc dữ liệu lưới thuận tiện cho quá trình xử lý song song và cập nhật liên tục.
- Duyệt toàn bộ CSDL một lần để tính toán các đại lượng thống kê cho mỗi cells, nên
nó hiệu quả và do đó độ phức tạp thời gian để tạo các cụm xấp xỉ O(n), trong đó n là tổng số các
đối tượng. Sau khi xây dựng cấu trúc phân cấp, thời gian xử lý cho các truy vấn là O(g), trong đó
g là tổng số cells lưới ở mức thấp (g<<n).
Các hạn chế của thuật toán này :
Trong khi sử dụng cách tiếp cận đa phân giải để thực hiện phân tích cụm chất lượng
của phân cụm STING hoàn toàn phụ thuộc vào tính chất hộp ở mức thấp nhất của cấu trúc lưới.
Nếu tính chất hộp là mịn, dẫn đến chi phí thời gian xử lý tăng, tính toán trở nên phức tạp và nếu
mức dưới cùng là quá thô thì nó có thể làm giảm bớt chất lượng và độ chính xác của phân tích
cụm.
* WaveCluster là phương pháp gần giống với STING, tuy nhiên thuật toán sử dụng phép
biến đổi dạng sóng đẻ tìm ô đặc trong không gian. Đầu tiên kỹ thuật này tóm tắt dữ liệu bằng
việc tận dụng cấu trúc dạng lưới đa chiều lên trên không gian dữ liệu. Tiếp theo nó sử dụng phép
biến đổi dạng sóng để biến đổi không gian có đặc trưng gốc, tìm kiếm ô đặc trong không gian đã
được biến đổi. Phương pháp này là phức tạp với các phương pháp khác chính là ở phép biến đổi.
Ở đây, mỗi cells lưới tóm tắt thông tin các điểm của một nhóm ánh xạ vào trong cells. Đây là
thông tin tiêu biểu thích hợp đưa vào bộ nhớ chính để sử dụng phép biến đổi dạng sóng đa phân
giải và tiếp theo là phân tích cụm.
Nguyễn Tấn – CH1101038 23
Khai thác dữ liệu (Data Mining)

- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
Một phép biến đổi dạng sóng là kỹ thuật dựa trên cơ sở xử lý tín hiệu và xử lý ảnh bằng
phân tích tín hiệu với tần số xuất hiện trong bộ nhớ chính. Bằng việc thực hiện một loạt các phép
biến đổi ngược phức tạp cho nhóm này, nó cho phép các cụm trong dữ liệu trở thành rõ ràng hơn.
Các cụm này có thể được xác định bằng tìm kiếm ô đặc trong vùng mới.
Phương pháp này phức tạp, nhưng lại có những lợi thế :
- Cung cấp cụm không giám sát, khử nhiễu các thông tin bên ngoài biên của cụm.
Theo cách đó, vùng đặc trong không gian đặc trưng gốc hút các điểm ở gần và ngăn chặn các
điểm ở xa. Vì vậy, các cụm tự động nổi bật và làm sạch khu vực xung quanh nó, do đó các kết
quả tự động loại phần tử ngoại lai.
- Đa phân giải là thuộc tính hỗ trợ dò tìm các cụm có các mức biến đổi chính xác.
- Thực hiện nhanh với độ phức tạp của thuật toán là O(n), trong đó n là số đối tượng
trong CSDL. Thuật toán có thể thích hợp với xử lý song song.
- Xử lý tập dữ liệu lớn có hiệu quả, khám phá các cụm có hình dạng bất kỳ, xử lý
phần tử ngoại lai, mẫn cảm với thứ tự vào, và không phụ thuộc vào các tham số vào như số các
cụm hoặc bán kính láng giềng.
* CLIQUE là thuật toán hữu ích cho PCDL không gian đa chiều trong các CSDL lớn thành
các không gian con. Thuật toán này bao gồm các bước :
- Cho n là tập lớn của các điểm dữ liệu đa chiều; không gian dữ liệu thường là không
giống nhau bởi các điểm dữ liệu. Phương pháp này xác định những vùng gần, thưa và “đặc” trong
không gian dữ liệu nhất định, bằng cách đó phát hiện ra toàn thể phân bố mẫu của tập dữ liệu.
- Một đơn vị là dày đặc nếu phần nhỏ của tất cả các điểm dữ liệu chứa trong nó vượt
quá tham số mẫu đưa vào. Trong thuật toán CLIQUE, cụm được định nghĩa là tập tối đa liên
thông các đơn vị dày đặc.
Các đặc trưng của CLIQUE
- Tự động tìm kiếm không gian con của không gian đa chiều, sao cho mật độ đặc
của các cụm tồn tại trong không gian con.
- Mẫn cảm với thứ tự của dữ liệu vào và không phù hợp với bất kỳ quy tắc phân bố
dữ liệu nào.
- Phương pháp này tỷ lệ tuyến tính với kích thước vào và có tính biến đổi tốt khi số

chiều của dữ liệu tăng.
Nó phân hoạch tập dữ liệu thành các hình hộp chữ nhật và tìm các hình hộp chữ nhật đặc,
nghĩa là các hình hộp này chứa một số các đối tượng dữ liệu trong số các đối tượng láng giếng
Nguyễn Tấn – CH1101038 24
Khai thác dữ liệu (Data Mining)
- Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means
cho trước. Hợp các hình hộp này tạo thành các cụm dữ liệu. Tuy nhiên, CLINQUE được bắt đầu
bằng cách tiếp cận đơn giản do đó chính xác của kết quả phân cụm có thể bị ảnh hưởng dẫn tới
chất lượng của các phương pháp này có thể giảm.
Phương pháp bắt đầu nhận dạng các cells đặc đơn chiều trong không gian dữ liệu và tim
kiếm phân bố của dữ liệu, tiếp đến CLINQUE lần lượt tìm các hình chữ nhật 2 chiều, 3 chiều,….,
cho đến khi hình hộp chữ nhật đặc k chiều được tìm thấy, độ phức tạp tính toán của CLIQUE là
O(n).
Nguyễn Tấn – CH1101038 25

Tìm hiểu Gom cụm dữ liệu & thuật toán K-Means

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về