Slide kho dữ liệu và khai phá dữ liệu chương 4 khai phá dữ liệu phần 4

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.01 MB, 21 trang )

.c
om
ng
co

ng

th

an

Chương 4
cu

u

du
o

Khai phá dữ liệu

1
CuuDuongThanCong.com

/>
1

.c
om

Nội dung
Tiền xử lý dữ liệu.

2.

Phương pháp khai phá bằng luật kết hợp.

3.

Phương pháp cây quyết định.

4.

Các phương pháp phân cụm.

5.

Các phương pháp khai phá dữ liệu phức tạp.

cu

u

du
o

ng

th

an

co

ng

1.

CuuDuongThanCong.com

/>
2

cu

u

du
o

ng

th

an

co

ng

.c
om

Gom cụm dữ liệu

CuuDuongThanCong.com

/>
3

cu

u

du
o

ng

th

an

co

ng

.c

om

Gom cụm dữ liệu

CuuDuongThanCong.com

/>
4

.c
om

Gom cụm dữ liệu
Gom cụm: Clustering



Dữ liệu phát sinh trong q trình tác nghiệp gọi

co

ng



ng

th

Để có thể khai phá các khía cạnh khác của dữ

u

du
o

liệu chúng cần phải biến đổi về dạng thích hợp,

cu



an

là dữ liệu thơ,

CuuDuongThanCong.com

/>
5

.c
om

Độ đo trong gom cụm dữ liệu

co

ri = (xi1, xi2, …, xin),

ng

Xét hai đối tượng dữ liệu (bản ghi) ri và rj , mỗi đối tượng có
n thuộc tính:

th

an

rj = (xj1, xj2, …, xjn),

ng

 Khoảng cách Euclidean

2

2

u

du
o

d (ri , rj )  ( xi1  x j1 )  ( xi 2  x j 2 )  ...  ( xin  x jn )
2

cu

 Khoảng cách Manhattan

d (ri , rj )  xi1  x j1  xi 2  x j 2  ...  xin  x jn
CuuDuongThanCong.com

/>
6

Trọng tâm cụm (mean/centroid):

.c
om

Độ đo trong gom cụm dữ liệu
ng

Cụm C có m phần tử; mỗi phần tử có n thuộc tính:

co

C = {r1, r2, …, rm},

th

an

Ri = (xi1, xi2, …, xin).

ng

Trọng tâm m của cụm C xác định như sau:

cu

u

du
o

m
m
1 m

m j    xi1 ,  xi 2 ,...,  xin 
n  i 1
i 1
i 1


CuuDuongThanCong.com

/>
7

.c
om

Một số thuật giải gom cụm dữ liệu

ng

 Hierarchical Agglomerative Clustering (HAC)

co

 Single Link

ng

th

 Centroid

an

 Complete Link

u

cu

 K-means

du
o

 Group Average

CuuDuongThanCong.com

/>
8

cu

u

du
o

ng

th

an

co

ng

.c
om

Một số thuật giải gom cụm dữ liệu

CuuDuongThanCong.com

/>
9

.c
om

Một số thuật giải gom cụm dữ liệu
 Giải thuật K-means

cu

u

du
o

ng

th

an

co

ng

Input: Tập dữ liệu D gồm m đối tượng dữ liệu (bản ghi): r1,
r2,…, rm. Số lượng cụm k.

Output: k cụm dữ liệu.
Begin
Chọn ngẫu nhiên k đối tượng làm trọng tâm cho k cụm;
Repeat
 Gán mỗi đối tượng ri cho cụm mà khoảng cách từ đối
tượng đến trọng tâm cụm là nhỏ nhất trong số k cụm;
 Xác định lại trọng tâm cho mỗi cụm dựa trên các đối
tượng được gán cho cụm;
Until Hội tụ (khơng cịn sự thay đổi);
End;
CuuDuongThanCong.com

/>
10

.c
om

Một số thuật giải gom cụm dữ liệu

du
o

ng

th

an

co

ng

 Giải thuật K-means – Điều kiện dừng:
 Giải thuật hội tụ: không còn sự phân chia lại các đối
tượng giữa các cụm, hay trọng tâm các cụm là
khơng đổi. Lúc đó tổng các tổng khoảng cách từ các
đối tượng thuộc cụm đến trọng tâm cụm là cực tiểu:
k

cu

u

J 

CuuDuongThanCong.com

 d (r , m )  min

j 1 ri C j

i

j

/>
11

.c
om

Một số thuật giải gom cụm dữ liệu

ng

 Giải thuật K-means – Điều kiện dừng:
 Giải thuật không hội tụ: trọng tâm của các cụm

co

liên tục thay đổi. Khi này có các lựa chọn:

cu

u

du
o

ng

th

an

 Dừng giải thuật khi số lượng vịng lặp vượt q một
ngưỡng nào đó định trước.

 Dừng giải thuật khi giá trị J nhỏ hơn một ngưỡng nào
đó định trước.
 Dừng giải thuật khi hiệu giá trị của J trong hai vòng
lặp liên tiếp nhỏ hơn một ngưỡng nào đó định trước:
|Jn+1 – Jn| < ε

CuuDuongThanCong.com

/>
12

.c
om

Thuật giải K-means

Weight

A

1

1

2

1

4

3

5

4

th

an

D

pHIndex

cu

u

du
o

C

ng

B

co

Medicine

ng

 Phân dữ liệu sau thành 2 cụm (K=2).

13
CuuDuongThanCong.com

/>

.c
om

Thuật giải K-means
Bước 1: Chọn tâm ban đầu

c1  A, c2  B

ng

th

an

co

ng

 Dùng cơng thức tính khoảng cách (Euclidean) để lần lượt

tính khoảng cách từ các tâm đến từng đối tượng.
 Gán đối tượng vào cụm mà khoảng cách từ đối tượng đến
tâm là gần hơn
d ( D, c1 )  (5  1) 2  (4  1) 2  5

cu

u

du
o

d ( D, c2 )  (5  2) 2  (4  1) 2  18

 D  {B}
d (C , c1 )  (4  1) 2  (3  1) 2  13
d (C , c2 )  (4  2) 2  (3  1) 2  8
 C  {B}

Bước 2: Tính lại tâm mới của cụm
Bước 3: Lặp lại các Bước 1 và Bước 2
CuuDuongThanCong.com

14
/>

.c
om

Thuật giải HAC (Hierarchical

Agglomerative Clustering)

cu

u

du
o

ng

th

an

co

ng

Ý tưởng: tích lũy từ dưới lên
1. Ban đầu, mỗi đối tượng (bản ghi) dữ liệu được coi là
một cụm.
2. Từng bước kết hợp các cụm đã có thành các cụm
lớn hơn với yêu cầu là khoảng cách giữa các đối
tượng trong nội bộ cụm là nhỏ.
3. Dừng thuật toán khi đã đạt số lượng cụm mong
muốn, hoặc chỉ còn một cụm duy nhất chứa tất cả
các đối tượng hoặc thỏa mãn điều kiện dừng nào đó.
15
CuuDuongThanCong.com

/>

.c
om

Thuật giải HAC (Hierarchical
Agglomerative Clustering)

du
o

ng

th

G = {{r} | r ∈ D}; //Khởi tạo G là tập các cụm chỉ gồm 1 đối tượng
Nếu |G| = k thì dừng thuật tốn; //Đạt số lượng cụm mong muốn
Tìm hai cụm Si , Sj ∈ G có khoảng cách d(Si, Sj) là nhỏ nhất;
Nếu d(Si, Sj) > do thì dừng thuật tốn; //Khoảng cách 2 cụm gần
nhất đã lớn hơn ngưỡng cho phép
G = G\{Si, Sj}; //Loại bỏ 2 cụm Si ,Sj khỏi tập các cụm
S = Si ∪ Sj; //Ghép Si, Sj thành cụm mới S
G = G ∪ {S}; //Kết nạp cụm mới vào G
Quay về bước 2.
16

5.
6.
7.

8.

cu

u

1.
2.
3.
4.

an

co

ng

G: tập các cụm.
D: tập các đối tượng (bản ghi) dữ liệu cần phân cụm.
k: số lượng cụm mong muốn.
d0: ngưỡng khoảng cách giữa 2 cụm.

CuuDuongThanCong.com

/>

.c
om

Thuật giải HAC (Hierarchical

Agglomerative Clustering)

cu

u

du
o

ng

th

an

co

ng

 Single Link (đo khoảng cách gần nhất):
 Khoảng cách giữa hai cụm được xác định là khoảng
cách giữa hai phần tử “gần” nhau nhất của hai cụm
đó.

d (S1 , S2 )  min d (ri , rj )
ri S1 , r j S 2

17
CuuDuongThanCong.com

/>

.c
om

Thuật giải HAC (Hierarchical
Agglomerative Clustering)

cu

u

du
o

ng

th

an

co

ng

 Complete Link (đo khoảng cách xa nhất):
 Khoảng cách giữa hai cụm được xác định là khoảng
cách giữa hai phần tử “xa” nhau nhất của hai cụm đó

d ( S1 , S 2 )  max d (ri , rj )

ri S1 , r j S 2

18
CuuDuongThanCong.com

/>

.c
om

Thuật giải HAC (Hierarchical
Agglomerative Clustering)

cu

u

du
o

ng

th

an

co

ng

 Centroid Link (đo khoảng cách trọng tâm):
 Khoảng cách giữa hai cụm được xác định là khoảng
cách giữa hai trọng tâm của hai cụm đó

d (S1 , S2 )  d (mi , m j )

19
CuuDuongThanCong.com

/>

.c
om

Thuật giải HAC (Hierarchical
Agglomerative Clustering)

cu

u

du
o

ng

th

an

co

ng

 Group Average Link (đo khoảng cách trung bình nhóm):
 Khoảng cách giữa hai cụm được xác định là khoảng
cách trung bình giữa các phần tử thuộc về hai cụm
đó

1
d ( S1 , S 2 ) 
d (ri , rj )

| S1 || S 2 | ri S1 ,r j S 2

20
CuuDuongThanCong.com

/>

.c
om

Một số thuật giải gom cụm dữ liệu

ng

 Ứng dụng:

co

 Hierarchical Agglomerative Clustering (HAC)

th

ng

phân cụm,

an

 Tạo ra cây phân cấp ngay trong quá trình

du
o

 Độ phức tạp cao (O(n2)).

cu

u

 K-means

 Tạo cây phân cấp từng bước một,
 Độ phức tạp thấp hơn HAC (O(nkt))
CuuDuongThanCong.com

/>
21

Slide kho dữ liệu và khai phá dữ liệu chương 4 khai phá dữ liệu phần 4

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về