Tải bản đầy đủ (.pdf) (22 trang)

Bài giảng khai phá dữ liệu chương 5 phan mạnh thường

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (691.53 KB, 22 trang )

Chương 5

Gom cụm (Clustering)
Nội dung
1

Giới thiệu

2

Các độ đo khoảng cách

3

Phương pháp K-means

4

Bài tập lý thuyết


Chương 5 Gom cụm
Giới thiệu
 Sự bùng nổ thông tin hiện nay do tác động của các siêu
phương tiện và WWW
 Các hệ thống truy vấn thông tin dựa trên việc phân
nhóm, gom cụm (clustering) ra đời để làm tăng tốc độ
tìm kiếm thông tin.
 Do sự biến động thường xuyên của thông tin nên các
thuật toán clustering đang tồn tại không thể duy trì tốt
các nhóm, cụm (cluster) trong một môi trường như thế


 Vấn đề đặt ra là làm thế nào để cập nhật các cluster
trong hệ thống mỗi khi thông tin được cập nhật thay vì
phải thường xuyên clustering lại toàn bộ dữ liệu?
7/12/2014

www.lhu.edu.vn


Chương 5 Gom cụm
Giới thiệu

 Gom cụm (clustering) là quá trình nhóm tập đối
tượng thành các cụm (cluster) có các đối tượng
giống nhau.
 Cho CSDL D={t1,t2,…,tn} và số nguyên k, gom
cụm là bài toán xác định ánh xạ f : Dg{1,…,k}
sao cho mỗi ti được gán vào một cụm (lớp) Kj,
1 <= j <= k .
 Không giống bài toán phân lớp, các cụm không
được biết trước.
7/12/2014

www.lhu.edu.vn


Chương 5 Gom cụm
Ví dụ gom cụm các ngôi nhà

Dựa trên
Dựakhoảng

trên kích
cách
thước
điạ lý
4


Chương 5 Gom cụm
Giới thiệu
Cách biểu diễn các cụm
 Phân chia bằng các
đường ranh giới
 Các khối cầu
 Theo xác suất
 Hình cây
 …

1 2 3
I1
I2

In
5

0.5 0.2 0.3


Chương 5 Gom cụm
Tiêu chuẩn gom cụm


 Phương pháp gom cụm tốt là phương pháp sẽ
tạo các cụm có chất lượng :



Sự giống nhau giữa đối tượng trong cùng một cụm cao.
Giữa các cụm thì sự giống nhau thấp.

 Chất lượng của kết quả gom cụm dựa trên 2
yếu tố



Độ đo sự giống nhau dùng trong phương pháp gom cụm

Sự thi hành nó.

 Chất lượng của phương pháp gom cụm còn
được đo bằng khả năng phát hiện một số hay
tất cả các mẫu bị ẩn, bị dấu.
6


Chương 5 Gom cụm
Ứng dụng của gom cụm
 Tiếp thị: khám phá các nhóm khách hàng phân biệt
trong CSDL mua hàng
 Sử dụng đất: nhận dạng các vùng đất sử dụng giống
nhau khi khảo sát CSDL quả đất
 Bảo hiểm: nhận dạng các nhóm công ty có chính

sách bảo hiểm mô tô với chi phí đền bù trung bình cao
 Hoạch định thành phố: nhận dạng các nhóm nhà
cửa theo loại nhà, giá trị và vị trí địa lý.
 Dự báo động đất: dựa trên các kết quả gom cụm các
vết đứt gãy của địa tầng
 …
7


Chương 5 Gom cụm
Độ đo khoảng cách


Độ đo khoảng cách thường dùng để xác định sự
khác nhau hay giống nhau giữa hai đối tượng.
Khoảng cách Minkowski :



q

q

q

d(i, j) (|x x | | x x | ...| x x | )
i1 j1
i2 j2
ip jp
q


với i =(xi1, xi2, …, x ip) và j =(xj1, xj2, …, x jp):
hai đối tượng p-chiều và q là số nguyên dương


Nếu q=1, d là khoảng cách Manhattan :

d(i, j) | x x | | x x | ...| x x |
i1 j1 i2 j2
ip jp
8


Chương 5 Gom cụm
Độ đo khoảng cách


Nếu q=2, d là khoảng cách Euclid :

d(i, j)  (|x  x |2 | x x |2 ...| x x |2)
i1 j1
i2 j2
ip jp


Tính chất của độ đo khoảng cách






d(i,j)  0
d(i,i) = 0
d(i,j) = d(j,i)
d(i,j)  d(i,k) + d(k,j)

9


Chương 5 Gom cụm
Thuật toán gom cụm K-Means

 Không gian dữ liệu có n
điểm (đối tượng)
 Đã có độ đo khoảng cách
giữa các điểm

 k là số cụm cần phân hoạch
 1 <= k <= n


Chương 5 Gom cụm
Thuật toán gom cụm K-Means (1)

1. Chọn ngẫu nhiên k điểm làm trọng tâm ban đầu của
k cụm
2. Gán (hoặc gán lại) từng điểm vào cụm có trọng tâm
gần điểm đang xét nhất
 Nếu không có phép gán lại nào thì dừng.
• Vì không có phép gán lại nào có nghĩa là các cụm đã ổn định và

thuật toán không thể cải thiện làm giảm độ phân biệt hơn được
nữa.

3. Tính lại trọng tâm cho từng cụm
4. Quay lại bước 2


Chương 5 Gom cụm
Thuật toán gom cụm K-Means (2)



Đầu vào của thuật toán: số cụm k, và CSDL có n
đối tượng
Thuật toán gồm 4 bước:
1. Phân hoạch đối tượng thành k tập con/cụm khác
rỗng
2. Tính các điểm hạt giống làm centroid (trung bình
của các đối tượng của cụm) cho từng cụm trong
cụm hiện hành
3. Gán từng đối tượng vào cụm có centroid gần nhất
4. Quay về bước 2, chất dứt khi không còn phép
gán mới


Chương 5 Gom cụm
Thuật toán gom cụm K-Means


Chương 5 Gom cụm

Thuật toán gom cụm K-Means

 Dữ liệu
minh hoạ

Order ID
10248
10249
10250
10251
10252
10253
10254
10255
10256
10257
10258
10259
10260
10261
10262

Total
440.00
1863.40
1552.60
654.06
3597.90
1444.80
556.62

2490.50
517.80
1119.90
1614.88
100.80
1504.65
448.00
584.00

Order ID
10263
10264
10265
10266
10267
10268
10269
10270
10271
10272
10273
10274
10275
10276
10277

Total
1873.80
695.62
1176.00

346.56
3536.60
1101.20
642.20
1376.00
48.00
1456.00
2037.28
538.60
291.84
420.00
1200.80


Chương 5 Gom cụm
 Kết quả chạy
thử nghiệm
k-means

Cluster
C1
C1
C1
C2
C2
C2
C2
C2
C2
C2

C2
C2
C2
C2
C2
C2
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3
C3

Order ID Total ($) Mean
Distance To M1 Distance To M2 Distance To M3
10252 3597.90 3208.33
389.57
2111.65
3149.04
10267 3536.60
328.27
2050.35

3087.74
10255 2490.50
717.83
1004.25
2041.64
10273 2037.28 1486.25
1171.05
551.03
1588.42
10263 1873.80
1334.53
387.55
1424.94
10249 1863.40
1344.93
377.15
1414.54
10258 1614.88
1593.45
128.63
1166.02
10250 1552.60
1655.73
66.35
1103.74
10260 1504.65
1703.68
18.40
1055.79
10272 1456.00

1752.33
30.25
1007.14
10253 1444.80
1763.53
41.45
995.94
10270 1376.00
1832.33
110.25
927.14
10277 1200.80
2007.53
285.45
751.94
10265 1176.00
2032.33
310.25
727.14
10257 1119.90
2088.43
366.35
671.04
10268 1101.20
2107.13
385.05
652.34
10264
695.62
448.86

2512.71
790.63
246.76
10251
654.06
2554.27
832.19
205.20
10269
642.20
2566.13
844.05
193.34
10262
584.00
2624.33
902.25
135.14
10254
556.62
2651.71
929.63
107.76
10274
538.60
2669.73
947.65
89.74
10256
517.80

2690.53
968.45
68.94
10261
448.00
2760.33
1038.25
0.86
10248
440.00
2768.33
1046.25
8.86
10276
420.00
2788.33
1066.25
28.86
10266
346.56
2861.77
1139.69
102.30
10275
291.84
2916.49
1194.41
157.02
10259
100.80

3107.53
1385.45
348.06
10271
48.00
3160.33
1438.25
400.86


Chương 5 Gom cụm
Ví dụ về K-Means

Cho dữ liệu 1 chiều sau và k = 2 :
{2,4,10,12,3,20,30,11,25}
Gán ngẫu nhiên : m1=3, m2=4
K1={2,3}, K2={4,10,12,20,30,11,25},
m1=2.5, m2=16
K1={2,3,4},K2={10,12,20,30,11,25},
m1=3, m2=18
K1={2,3,4,10},K2={12,20,30,11,25},
m1=4.75, m2=19.6
K1={2,3,4,10,11,12},K2={20,30,25},
m1=7, m2=25
Dừng khi trung tâm cụm không thay đổi


Chương 5 Gom cụm
Vấn đề chọn số cụm k
x


Nếu k quá nhỏ,
Khoảng cách
đến
trung tâm xa

x
xx x
x x
x x x
x
xx x
x

x
x
x x
x x
x xx x
x x x
x x

x x
x x x x
x x x
x

x

17



Chương 5 Gom cụm
Vấn đề chọn số cụm k
x

Nếu k vừa đúng,
Khoảng cách đủ
ngắn

x
xx x
x x
x x x
x
xx x
x

x
x
x x
x x
x xx x
x x x
x x

x x
x x x x
x x x
x


x

18


Chương 5 Gom cụm
Vấn đề chọn số cụm k
x

Nếu k quá lớn;
Khoảng cách
trung bình cải
thiện ít

x
xx x
x x
x x x
x
xx x
x

x
x
x x
x x
x xx x
x x x
x x


x x
x x x x
x x x
x

x

19


Chương 5 Gom cụm
Ví dụ về K-Means

 Ví dụ 1: Cho tập điểm
x1={1,3} ={x11,x12}; x2={1.5 , 3.2 }={x21,x22}
x3 ={1.3 ,2.8}={x31,x32}; x4={3, 1}={x41,x42}
Dùng K-Mean để gom nhóm (K=2)

 Ví dụ 2: Cho tập điểm
X1(4,1) ; X2(5,1) ; X3(5,2) ; X4(1,4) ;
X5(1,5) ; X6(2,4) ; X7(2,5)
Dùng K-Mean để gom nhóm (K=2)


Chương 5 Gom cụm
Ưu điểm của K-means

 Tương đối nhanh
 Độ phức tạp của thuật toán là O(tkn)

• n: số điểm trong không gian dữ liệu
• k: số cụm cần phân hoạch
• t: số lần lặp (t << n)

 K-Means phù hợp với các cụm có dạng hình cầu


Chương 5 Gom cụm
Nhược điểm của K-means

 Không đảm bảo đạt được tối ưu toàn cục
 kết quả đầu ra phụ thuộc vào việc chọn k điểm khởi đầu

 Cần phải xác định trước số cụm k
 Khó xác định số cụm thực sự mà không gian dữ liệu
có thể có
 Khó phát hiện các loại cụm có hình dạng phức tạp và
nhất là các dạng cụm không lồi
 Không thể xử lý nhiễu và biệt lệ
 Chỉ có thể áp dụng khi tính được trọng tâm



×