Tải bản đầy đủ (.docx) (34 trang)

Các dạng bài tập knowledge discovery and data mining

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (501.69 KB, 34 trang )

[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG
1.

Phân Hoạch.
Câu 1: Cho price ={5, 10 ,11 ,13, 15, 35 ,50, 55 ,72, 92 ,204, 215}.Hãy
phân hoạch price thành 3 bin.
a. Dùng kỹ thuật phân hoạch equal – frequency và kỹ thuật làm trơn
(smoothing) bin medians.
 equal – frequency : Chia đều price trên thành 3 bin , mỗi bin có 4
giá trị.
Bin 1: 5, 10, 11, 13
Bin 2:15, 35, 50, 55
Bin 3:72, 92, 204, 215
 Smoothing by bin medians : mỗi bin trên có 4 giá trị nên tiến
hành tính trung bình 2 giá trị ở giữa( giá trị 2 và 3) làm medians
của từng bin.ví dụ: medians(Bin 1) = = 10.5
Bin 1: 10.5, 10.5, 10.5, 10.5
Bin 2: 42.5, 42.5, 42.5, 42.5
Bin 3:148 ,148 ,148, 148
 Smoothing by bin boundaries : tính giá trị trung bình của tất cả
các giá trị trong từng bin, cái nào bé hơn hoặc bằng giá trị trung
bình ấy thì lấy giá trị nhỏ nhất trong bin ngược lại cái nào lớn hơn
giá trị trung bình thì lấy giá trị lớn nhất của bin đó.
Ví dụ: = = 9.75 → Bin 1: 5,13,13,13
Bin 1: 5, 13, 13, 13
Bin 2: 15,15,55,55
Bin 3: 72, 72, 215, 215
b. Dùng kỹ thuật phân hoạch equal – width và kỹ thuật làm trơn
(smoothing) bin medians.
 equal – width : lấy giá trị lớn nhất của price trừ đi giá trị nhỏ nhất
của price rồi chia 3 (),từ đó suy ra 3 khoảng là ( 5→75)


(75→145)(145→215) sau đó lựa chọn các giá trị của price – giá trị
nào thuộc khoảng nào thì cho vào khoảng đó.
Bin 1: 5, 10, 11, 13 , 15, 35, 50, 55, 72
Bin 2: 92
Bin 3: 204, 215
 Smoothing by bin medians: Bin nào có tổng số giá trị lẻ thì lấy
giá trị trung tâm làm giá trị medians( Bin 1: có 9 giá trị mà giá trị
chính giữa(thứ 5) là 15 nên medians của Bin 1 :(15), bin có tổng số
giá trị chẵn thì tính trung bình 2 giá trị chính giữa chia 2.

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

Trang |1


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG



Bin 1: 15, 15 ,15, 15 ,15, 15 ,15, 15 ,15
Bin 2: 92
Bin 3: 209.5, 209.5
Smoothing by bin boundaries:
Bin 1: 5, 5, 5, 5, 5, 72, 72, 72, 72
Bin 2: 92
Bin 3: 204, 215

Câu 2: Cho price ={5, 10 ,11 ,13, 15, 35,45 ,50, 55 ,72, 92 ,204, 215}.Hãy
phân hoạch price thành 4 bin.
a.


Dùng kỹ thuật phân hoạch equal – frequency và kỹ thuật làm trơn
(smoothing) bin medians.
 equal – frequency : price có 13 giá trị mà chia thành 4 bin khi đó
mỗi bin sẽ có 3 giá trị cịn thừa 1 giá trị có thể cho vào bin nào
cũng được.
Bin 1:5,10,11,13
Bin 2:15,35,45
Bin 3:50,55,72
Bin 4:92,204,215
 Smoothing by bin medians :
Bin 1:10.5,10.5,10.5,10.5
Bin 2:35,35,35
Bin 3:55,55,55
Bin 4:204,204,204
 Smoothing by bin boundaries :
Bin 1:5,13,13,13
Bin 2:15,45,45
Bin 3:50,50,72
Bin 4:92,215,215

b.

Dùng kỹ thuật phân hoạch equal – width và kỹ thuật làm trơn
(smoothing) bin medians.
 equal – width : bài này chia làm 4 bin nên sẽ lấy giá trị
( = 52.5) , 4 khoảng (5→57.5)(57.5→110)(110→162.5)
(162.5→215) rồi chia bin tương tự câu 1:
Bin 1:5, 10 ,11 ,13, 15, 35,45 ,50, 55
Bin 2:72, 92

Bin 3:

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

Trang |2


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG

2.

x1
x2
x3
x4
x5

Bin 4:204, 215
 Smoothing by bin medians :
Bin 1:15,15,15,15,15,15,15,15,15
Bin 2:82,82
Bin 3:
Bin 4:209.5
 Smoothing by bin boundaries :
Bin 1:5,5,5,5,5,55,55,55,55
Bin 2:72,92
Bin 3:
Bin 4:204,215
 Bài toán này Bin 3 trống nên kỹ thuật phân hoạch equal – width
chỉ phù hợp khi dữ liệu nhiều và phân chia số lượng Bin nhất

định.
Ma Trận.
Câu 1: cho cơ sở dữ liệu gồm 5 điểm sau đây:
x
1.5
2
1.6
1.2
1.5
a.

y
1.7
1.9
1.8
1.5
1.0
Tính tốn ma trận khoảng cách cho 5 điểm với khoảng cách Euclide.
Áp dụng cơng thức: d(xi,xj) = ta có bảng ma trận khoảng cách giữa các
điểm sau:
x1
x2
x3
x4
x5

b.

x1
0

0.5385
0.1414
0.3606
0.7

x2
0.5385
0
0.4123
0.8944
1.03

x3
0.1414
0.4123
0
0.5
0.8062

x4
0.3606
0.8944
0.5
0
0.583

x5
0.7
1.03
0.8062

0.583
0

Cho một điểm dữ liệu mới, x = (1.4,1.6) là truy vấn, xếp hạng các điểm
cơ sở dữ liệu dựa trên sự tương đồng với truy vấn sử dụng khoảng cách
Euclidean, khoảng cách Manhattan.

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

Trang |3


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG

Cách làm: tính khoảng cách từ 5 điểm trong cơ sở dữ liệu tới điểm
truy vẫn theo khoảng cách Euclidean và khoảng cách Manhattan.
Áp dụng các công thức:
- Euclidean: d(xi,xj) =
- Manhattan: d(xi,xj) =
Ta có bảng sau:
X=(1.4,1,6
)

Euclidean distance

Manhattan distance

x1
x2
x3

x4
x5
Xếp hạng
(Rank:
Thấp
→Cao)

0.1414
0.6708
0.2828
0.2236
0.6083

0.2
0.9
0.4
0.3
0.7

x1→x4→x3→x5→x2

x1→x4→x3→x5→x2

Câu 2: cho bảng dữ liệu sau:
A1

A2

A3


A4

A5

A6

x1

1

Y

N

Y

N

N

x2

0

N

Y

Y


Y

N

x3

1

N

Y

Y

N

Y

Trong đó, thuộc tính A1 là thuộc tính nhị phân đối xứng. Các thuộc tính khác
là nhị phân bất đối xứng, với quy định Y=1, N=0.

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

Trang |4


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG
a.

Tính ma trận khoảng cách cho các đối tượng với tập thuộc tính từ A2 đến

A6.
Áp dụng tính chất: d(xi,xj) =
Ví dụ: d(x1,x2) = (ở đây, có thuộc tính A2,A3,A5 khác nhau của x1,x2
nên được gán giá trị là Y=1; Mẫu số có 2 thuộc tính giống nhau là A4,A6
nên được gán giá trị là Y = 1 tại A4 và N = 0 tại A6
Ta có bảng ma trận khoảng cách sau:
X1
0
0.75
0.75

X1
X2
X3
b.

X2
0.75
0
0.5

X3
0.75
0.5
0

Tính ma trận khoảng cách cho các đối tượng với tập thuộc tính cho tất cả
các thuộc tính.
- Tương tự câu A nhưng tính riêng cho A1:
Da1(x1,x2) = =1

Da1(x1,x3) = 0
Da1(x2,x3) = 1
-

3.

Tương tự tính tốn khoảng cách cho tất cả các tập thuộc tính từ
A1 → A6.

Luật kết hợp ( 2 thuật tốn chính là Fp – Growth và Apriori)
Câu 1: một số câu hỏi trắc nhiệm.

Transaction database sau được sử dụng cho các câu hỏi 1-3 (Một Lựa Chọn).
Tid
10
20
30
40
50

Item bought
Beer, Nuts, Diaper
Beer, Coffee, Diaper
Beer, Diaper, Eggs
Nut, Eggs, Milk
Nuts, Coffee, Diaper, Eggs, Milk

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

Trang |5



[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG
1.

2.

3.

4.

Cho X là 1-itemset {Beer} và Y là 1-itemset {Diaper}. Cho biết tập tất cả
các transaction từ bảng trên chứa itemset X U Y.
A. {10, 20, 30, 50}
B. {}
C. {10, 20, 30}
Cho trưóc minsup s = 50%, đáp án nào sau dây không phải là một
frequence pattern.
A. {Eggs}
B. {Beer}
C. {Beer, Diaper}
D. {Coffee}
Cho biết confident và support cua luật kết hợp (association rule)
{Diaper} -> {Coffee, Nuts}?
A. support s = 0.4, confident c = 0.5
B. support s = 0.8, confident c = 0.5
C. support s = 0.4, confident c = 1
D. support s = 0.1, confident c = 1
E. Các dáp án trên đều sai.
Cho bảng dưới đây chứa tất cả các frequence pattern. Cho biết frequence

pattern nào trong số chúng là closed pattern nhưng không phải max
pattern. (Nhiều lựa chọn)
Frequence Pattern
Beer, Nuts, Diaper
Beer, Coffee, Diaper
Beer, Diaper, Eggs
Beer, Nuts, Eggs, Milk
Beer, Nuts, Diaper, Eggs, Milk

Support
100
200
50
400
50

A. {Beer, Nuts, Diaper}
B. {Beer, Coffee, Nuts}
C. {Beer, Nuts, Eggs, Milk}
D. {Beer, Diaper, Eggs}

Câu 2: Dùng thuật toán Apriori thực hiện thuật tốn tìm mẫu phổ biến và
sinh ra các luật kết hợp biết minsup = 50% ; minconf = 50% ( cơ sở dữ liệu
như bảng giao dịch sau)
TID
T01
T02
T03

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN


Items
A3,A4,A5
A1,A4,A5
A1,A2,A4,A5

Trang |6


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG

T04
T05
T06
T07
T08
T09
T10

A2,A4
A2,A3,A4,A5
A3,A4,A5
A1,A2,A5
A1,A2,A3
A3,A4
A1,A2,A3,A5

Các bước thực hiện thuật tốn:
1. Duyệt (Scan) tồn bộ transaction database để có được support S của 1itemset, so sánh S với min_sup, để có được 1-itemset (L1)



2. Sử dụng Lk-1 nối (join) Lk-1 để sinh ra candidate k-itemset. Loại bỏ
các itemsets không phải là frequent itemsets thu được k-itemset
3. Scan transaction database để có được support của mỗi candidate kitemset, so sánh S với min_sup để thu được frequent k –itemset (Lk)
4. Lặp lại từ bước 2 cho đến khi Candidate set (C) trống (khơng tìm thấy
frequent itemsets)
5. Với mỗi frequent itemset I, sinh tất cả các tập con s không rỗng của I
6. Với mỗi tập con s không rỗng của I, sinh ra các luật s => (I-s) nếu độ
tin cậy (Confidence) của nó > =min_conf
 Quy trình thực hiện thuật toán:

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

Trang |7


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG

Itemsets
A4
A5

Support(A,B)
50%
50%

Support(A)
70%
70%
< A , B là A4,A5>


Confidence
71,43%
71,43%

Note : support(A,B) = = 50%
Support(A) = = 70%
Confidence = = 71,43%
 Tới đây, vì Confidence của A4,A5 đều lớn hơn minconf = 50% nên ta có
các luật kết hợp sau( với minsup =50% ; minconf = 50%)
R1: R4 => R5 ( Support = 50% ; Conf = 71,43%)
R2: R5 => R4 ( Support = 50% ; Conf = 71,43%)
Trường hợp đề bài cho minsup = n ; thì bảng quy trình xuất hiện sẽ điền số
lần xuất hiện của từng giá trị cũng như tập mục.
Thuật toán cây quyết định.
Câu 1: cho cơ sở dữ liệu sau:



4.

Sample
1

A
T

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

B

F

Class
+
Trang |8


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG

2
3
4
5
6
7
8
9
10

T
T
T
T
F
F
F
T
T

T

T
F
T
F
F
F
T
F

+
+
+
-

Thuộc tính nào mà thuật toán cây quyết định sẽ chọn để phân tách khi dùng :
Information Gain để quyết định phân tách trên thuộc tính A và B.
- Info(D) = I(4,6) = * + = 0.971
< Tính theo thơng tin cột Class : (4 +) và (6 -) >
- InfoA(D) = * I(4,3) + * I(0,3)
= *( * + * ) + * 0
= 0.69
< Tính theo cột thuộc tính A : đếm số giá trị T – F ( trong T và
F nhìn sang cột Class để chọn các giá trị (+) – (-) của
Từng giá trị T – F>
-

InfoB(D) = *I(3,1) + * I(1,5)
= * [()*log2() +(-)*log2()] + *[(- )*log2( ) +(- )*log2( )]
= 0.715


Gain (A) = Info(D) – InfoA(D) = 0.971 – 0.69 = 0.281
 Gain (B) = Info(D) – InfoB(D) = 0.971 – 0.715 = 0.256
→ Thứ tự chọn : A → B.


Câu 2: cho bảng quyết định dưới đây:
ID
1
2
3
4
5
6

A1
C
C
C
A
A
A

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

A2
A
A
C
C
A

A

A3
B
A
C
A
B
C

Class
A
C
B
A
B
C
Trang |9


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG

7
8
9
10
11
12
13
14

15
16
17
18
19
20

C
C
B
A
B
A
B
C
C
C
C
B
C
C

A
B
C
A
C
B
B
C

C
A
C
A
B
B

A
C
A
A
A
C
C
B
B
C
B
A
B
A

C
A
A
B
A
A
A
A

C
C
A
A
B
B

Thực hiện các tính tốn và đưa ra thứ tự lựa chọn các thuộc tính cho cây quyết định
sử dụng Information Gain (bao gồm cả các nhánh).
-

-

-

Info(D) = I(10,5,5) = * log2() + * log2() + * log2() = 1.5
InfoA1(D) = *I(2,2,1) + * I(4,0,0) + * I(4,3,4)
= *[- *log2() + - *log2() + - *log2() ] + 0 + *[- *log2() + *log2() + - *log2() ] = 1.245
InfoA2(D) = * I(2,2,4) + * I(3,2,0) + * I(5,1,1)
= *[- *log2() + - *log2() + - *log2() ] + *[- *log2() + - *log2()
+ - *log2() ] + *[- *log2() + - *log2() + - *log2()] = 1.2448
InfoA3(D) = * I(4,2,2) + * I(3,2,1) + * I(3,1,2)
= *[- *log2() + - *log2() + - *log2() ] + *[- *log2() + - *log2()
+ - *log2() ] + *[- *log2() + - *log2() + - *log2()] = 1.475

Ta có :
Gain (A1) = Info(D) – InfoA1(D) = 1.5 – 1.245 = 0.255
 Gain (A2) = Info(D) – InfoA2(D) = 1.5 – 1.2448 = 0.2552
 Gain(A3) = Info(D) – InfoA3(D) = 1.5 – 1.475 = 0.025
 Thứ tự chọn là: A2 → A1 → A3

Thuật toán k-nn.


5.

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

T r a n g | 10


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG

Cho tập mẫu gồm những mẫu các thuộc tính (A1, A2, Class) như sau: (1,
1,A), (1, 2,B), (2, 1,A), (2, 1.5,C), (3, 2,B), (4,1.5,C), (4, 2,A), (5, 1.5,B),
(4.5, 2,C), (4, 4,C), (4.5, 4,B), (4.5, 5,A),
(4, 5,B), (5, 5,C)
a. Hãy xác định nhãn cho đối tượng (4.2, 4.7) theo thuật toán k-NN với
k=3, với khoảng cách sử dụng là Euclide.
b. Hãy xác định nhãn cho đối tượng ở câu a) nhưng trường hợp K=4.
Áp dụng cơng thức tính khoảng cách Euclide ta có bảng sau:
x1
x2
x3
x4
x5
x6
x7
x8
x9
x1

0
x11

A1
1
2
2
4
5
4.5
4
4.5
4.5
4
5

A2
1
1
1.5
2
1.5
2
4
4
5
5
5

Class

A
A
C
A
B
C
C
B
A
B
C

d
4.89183
4.304649
3.883298
2.707397
3.298485
2.716616
0.728011
0.761577
0.424264
0.360555
0.8544

Với k = 3 nên 3 điểm gần nhất với đối tượng là : x7 – x9 – x10
→ ta có thể chọn ngẫu nhiên 1 trong 3 điểm làm nhãn dán ( vì A – B – C
khác biệt)
b. Với k = 4 thì ta có 4 điểm gần đối tượng nhất là : x7 – x8 – x9 – x10
→ta sẽ chọn nhãn dán là B ( vì B xuất hiện 2 lần tại x8 – x10 cịn A và C

chỉ xuất hiện 1 lần)
Tìm trung tập cụm của thuật toán K – means và K – Medoid.
Cho cụm gồm 5 mẫu sau đây:
X1(1,1) ; X2(1,2) ; X3(2,1) ; X4(1.6,1.4)
; X5(2,2)
a. Tìm trung tâm cụm theo thuật toán K - medoid.
Trung tâm cụm theo thuật toán K – medoid được định nghĩa là :
a.

6.

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

T r a n g | 11


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG



Áp dụng cơng thức Manhattan tính khoảng cách các điểm trong
cụm(là khoảng cách Minkowski khi q=1)
Khoảng cách Minkowski :

Ta được bảng khoảng cách sau:
X1
X2
X3
X4
X5





X1
0
1
1
1
2

X2
1
0
2
1.2
1

X3
1
2
0
0.8
1

X4
1
1.2
0.8
0

1

X5
2
1
1
1
0

Ta có :
• = 5 → arg = 1.25
• = 5.2 → arg = 1.3
• = 4.8 → arg = 1.2
• = 4 → arg = 1

= 5 → arg = 1.25
Từ trên ta suy ra Min(arg) = 1 tại → =

Tìm trung tâm cụm theo thuật tốn K – means.
Áp dụng cơng thức tính trung tâm các cụm sau:
Mean =( , ) ta có trung tâm cụm dữ liệu trên là:
C ( , ) → C(1.52 ; 1.48)
Phân cụm thuật toán K – means .
Câu 1: Cho tập dữ liệu sau : A(2,10) ;
B(2,5)
; C(8,4) ;
D(5,8) E(7,5) ; F(6,4) ;
G(1,2)
;
H(4,9)

a. Tìm các trung tâm cụm sau lần lặp thứ 1 dùng thuật toán k-mean ,
giả sử các trung tâm cụm ban đầu A , D , G.
Gọi các trung tâm cụm lần lượt là: vì đề bài cho các trung tâm cụm ban
đầu là A,D,G nên ta có: = A = (2,10) ; = D = (5,8) ; = G = (1,2)
b.

7.



TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

T r a n g | 12


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG


Áp dụng cơng thức tính khoảng cách Euclide để tính khoảng cách từ trung
tâm các cụm tới các điểm trong tập dữ liệu.



Ta có bảng sau:
x

y

LẦN 1
Cụm Cụm Cụm

1
2
3
Gần
Gần Gần

A

2

10

0

B

2

5

5

C

8

4

D


5

8

E

7

5

F

6

4

8.48528137
4
3.60555127
5
7.07106781
2
7.211102551

G

1

2


3.60555127
5
4.24264068
7
5






x
x
x

0

7.28010988
9
7.211102551

3.60555127
5
4.12310562
6
7.211102551

6.70820393
2
5.38516480

7
0

x

7.61577310
6

x

8.06225774
8
H 4 9 2.23606797 1.41421356
7
2
Sau lần lặp thứ nhất ta có các cụm sau:



8.06225774
8
3.16227766

x

x
x

Cụm 1 : A(2,10)
Cụm 2 : C(8,4) , D(5,8) , E(7,5) , F(6,4) , H(4,9)

Cụm 3 : B(2,5) , G(1,2)
Áp dụng cơng thức tính trung tâm các cụm sau:
Mean =( , )
Ta có trung tâm các cụm sau lần lặp đầu tiên là:
Cụm 1: (2,10)
Cụm 2: ( , )

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

T r a n g | 13


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG



→ (6,6)
Cụm 3: ( )

b.

Tìm các trung tâm cụm cuối cùng sau khi thực hiện xong thuật toán
k-mean với tập dữ liệu trên.

Tiếp tục lặp lần 2 với trung tâm các cụm mới : (2,10) ; (6,6) ; , ta có bảng
lần lặp 2 như sau:

x

y


LẦN 2
Cụm Cụm Cụm
1
2
3
Gần
Gần Gần

A

2

10

0

B

2

5

5

C

8

4


D

5

8

E

7

5

F
G

6
1

4
2

H

4

9

8.48528137
4

3.60555127
5
7.07106781
2
7.211102551
8.06225774
8
2.23606797
7

5.65685424
9
4.12310562
6
2.82842712
5
2.23606797
7
1.41421356
2
2
6.40312423
7
3.60555127
5

7.51664818
9
2.54950975
7

6.67083203
2
6.51920240
5
6.04152298
7
4.74341649
0.70710678
1
6.96419413
9

x
x
x
x
x
x
x
x

Sau lần lặp thứ hai ta có các cụm sau:




Cụm 1 : A(2,10) , H(4,9)
Cụm 2 : C(8,4) , D(5,8) , E(7,5) , F(6,4)
Cụm 3 : B(2,5) , G(1,2)
Áp dụng cơng thức tính trung tâm các cụm sau:


TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

T r a n g | 14


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG





Mean =( , )
Ta có trung tâm các cụm sau lần lặp lần 2 là:
Cụm 1: (,)
→ (3,9.5)
Cụm 2: ( , )
→ (6.5,5.75)
Cụm 3: ( )


Nhận thấy các trung tâm cụm vẫn thay đổi nên thay trung tâm các cụm mới tìm
được ở lần lập 2 tiến hành lặp lần 3, ta có bảng sau :

x

y

LẦN 3
Cụm Cụm Cụm

1
2
3
Gần
Gần Gần

A

2

10 1.118033989

B

2

5

C

8

4

D

5

8


E

7

5

F

6

4

G

1

2

H

4

9

4.60977222
9
7.43303437
4
2.5


6.18970920
2
4.56207189
8
2.304886114

6.02079728
9
6.26498204
3
7.76208734
8
1.118033989

2.70416345
7
0.90138781
9
1.82002747
2
6.65676347
8
4.10030486
7

7.51664818
9
2.54950975
7
6.67083203

2
6.51920240
5
6.04152298
7
4.74341649
0.70710678
1
6.96419413
9

x
x
x
x
x
x
x
x

Sau lần lặp thứ ba ta có các cụm sau:


Cụm 1 : A(2,10) , H(4,9) , D(5,8)

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

T r a n g | 15



[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG







Cụm 2 : C(8,4) , E(7,5) , F(6,4)
Cụm 3 : B(2,5) , G(1,2)
Áp dụng cơng thức tính trung tâm các cụm sau:
Mean =( , )
Ta có trung tâm các cụm sau lần lặp lần 3 là:
Cụm 1: (,)
→ (,9)
Cụm 2: ( , )
→ (7,)
Cụm 3: ( )


Nhận thấy các trung tâm cụm vẫn thay đổi nên thay trung tâm các cụm mới tìm
được ở lần lập 3 tiến hành lặp lần 4, ta có bảng sau :

x

y

A

2


10

B

2

5

C

8

4

D

5

8

E

7

5

F

6


4

G

1

2

H

4

9

LẦN 4
Cụm Cụm Cụm
1
2
3
Gần
Gần Gần
1.94650969
7
4.33461647
7
6.61429512
5
1.66400120
2

5.20469979
9
5.51623966
1
7.49192231
7
0.33

7.71083004
6
5.07512561
4
1.00841459
7
4.35624838
6
0.87
1.00841459
7
6.36685950
8
5.71986888

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

7.51664818
9
2.54950975
7
6.67083203

2
6.51920240
5
6.04152298
7
4.74341649
0.70710678
1
6.96419413
9

x
x
x
x
x
x
x
x

T r a n g | 16


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG

Sau lần lặp thứ tư ta có các cụm sau:









Cụm 1 : A(2,10) , H(4,9) , D(5,8)
Cụm 2 : C(8,4) , E(7,5) , F(6,4)
Cụm 3 : B(2,5) , G(1,2)
Áp dụng công thức tính trung tâm các cụm sau:
Mean =( , )
Ta có trung tâm các cụm sau lần lặp lần 4 là:
Cụm 1: (,)
→ (,9)
Cụm 2: ( , )
→ (7,)
Cụm 3: ( )


Ta thấy trung tâm 3 cụm không thay đổi nữa nên kết thúc tại đây:









x
1


Cụm 1 : trung tâm (,9) ; gồm các điểm {A(2,10) , H(4,9) , D(5,8)}
Cụm 2 : trung tâm (7, ; gồm các điểm {C(8,4) , E(7,5) , F(6,4)}
Cụm 3: trung tâm ; gồm các điểm {B(2,5) , G(1,2)}
Câu 2: Cho tập mẫu gồm những mẫu hai thuộc tính sau : (1,1) ; (1,2)
(2,1)
;
(2,1.5)
; (3,2)
;
(4,1.5)
; (4,2)
(5,1.5)
; (4.5,2)
; (4,4)
; (4.5 , 4) ; (4.5
, 5) ; (4,5)
(5,5) . Dùng giải thuật k-means để gom cụm tập mẫu
nêu trên với k=3 ứng với các trường hợp sau:
a. Các trung tâm ban đầu là (2,1.5) ; (4.5,2) ; (4.5 , 5).
Gọi các trung tâm cụm lần lượt là: = (2,1.5) ; = (4.5,2) ; = (4.5,5)
Áp dụng công thức tính khoảng cách Euclide để tính khoảng cách từ trung
tâm các cụm tới các điểm trong tập dữ liệu.

Với k=3 , tiến hành lặp lần 1 ta có bảng sau:
y
1

(2,1.5)
1.118033989


(4.5,2)
3.64005494

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

(4.5,5)
5.31507290

Cụm 1
Gần
x

Lần 1
Cụm 2
Gần

Cụm 3
Gần

T r a n g | 17


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG

1

2

1.118033989


2

1

0.5

2

1.5

0

3

2

1.118033989

4

1.5

2

4

2

5


1.5

2.06155281
3
3

4.5

2

4

4

4.5

4

4.5
4

5
5

5

5

2.54950975
7

3.201562119
3.53553390
6
4.301162634
4.031128874
4.60977222
9

5
3.5
2.69258240
4
2.54950975
7
1.5
0.70710678
1
0.5
0.70710678
1
0

6
4.60977222
9
4.71699056
6
4.301162634
3.35410196
6

3.53553390
6
3.04138126
5
3.53553390
6
3

x
x
x
x
x
x
x
x

2.06155281
3
2

1.118033989

x

1

x

3

3.04138126
5
3.04138126
5

0
0.5

x
x

0.5

x

Sau lần lặp thứ nhất ta có các cụm sau:







Cụm 1 : (1,1) ,(1,2) , (2,1) , (2,1.5) , (3,2)
Cụm 2 : (4,1.5), (4,2), (5,1.5), (4.5,2)
Cụm 3 : (4,4), (4.5 , 4) , (4.5 , 5) , (4,5)
Áp dụng cơng thức tính trung tâm các cụm sau:
Mean =( , )
Ta có trung tâm các cụm sau lần lặp đầu tiên là:
Cụm 1: (,)

→(1.8,1.5)
Cụm 2: ( , )

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

, (5,5)

T r a n g | 18


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG



→ (4.375,1.75)
Cụm 3: ( )

Tiếp tục lặp lần 2 với trung tâm các cụm mới : (1.8,1.5) ; (4.375,1.75) ; , ta
có bảng lần lặp 2 như sau:

x

y

(1.8,1.5)

(4.375,1.75)

1


1

0.943398113

3.457329171

1

2

0.943398113

3.384246593

2

1

2.490607356

2

1.5

0.53851648
1
0.2

3


2

1.3

1.397542486

4

1.5

2.2

0.450693909

4

2

0.450693909

5

1.5

2.25610283
5
3.2

4.5


2

0.279508497

4

4

4.5

4

4.5

5

4

5

5

5

2.74590604
4
3.33016516
1
3.67967389
9

4.42040722
1
4.13400532
2
4.74236228
1

2.388121647

0.673145601

2.281035949
2.253469547
3.252402958
3.271563082
3.309550574

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

(4.4,4.6)

4.95176736
1
4.28018691
2
4.32666153
1
3.92045915
7
2.95296461

2
3.12569992
2
2.63058928
8
3.15753068
1
2.60192236
6
0.721110255
0.60827625
3
0.41231056
3
0.56568542
5
0.721110255

Cụm
1
Gần
x

Lần 2
Cụm 2 Cụm 3
Gần

Gần

x

x
x
x
x
x
x
x
x
x
x
x
x

T r a n g | 19


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG

Sau lần lặp thứ hai ta có các cụm sau:








Cụm 1 : (1,1) ,(1,2) , (2,1) , (2,1.5) , (3,2)
Cụm 2 : (4,1.5), (4,2), (5,1.5), (4.5,2)
Cụm 3 : (4,4), (4.5 , 4) , (4.5 , 5) , (4,5)

Áp dụng cơng thức tính trung tâm các cụm sau:
Mean =( , )
Ta có trung tâm các cụm sau lần lặp đầu tiên là:
Cụm 1: (,)
→(1.8,1.5)
Cụm 2: ( , )
→ (4.375,1.75)
Cụm 3: ( )


, (5,5)

Ta thấy trung tâm của các cụm không thay đổi nên kết thúc tại lần lặp thứ 2:




Cụm 1 : trung tâm (1.8,1.5) ; gồm các điểm {(1,1) ,(1,2) , (2,1) , (2,1.5) ,
(3,2)}
Cụm 2 : trung tâm (4.375, ; gồm các điểm {(4,1.5), (4,2),
(5,1.5),
(4.5,2)}
Cụm 3: trung tâm ; gồm các điểm {(4,4), (4.5 , 4), (4.5 , 5) , (4,5)
, (5,5)}
Các trung tâm cụm ban đầu là (1,2) ; (3,2) ; (4,2).
Gọi các trung tâm cụm lần lượt là: = (1,2) ; = (3,2) ; = (4,2)
Áp dụng công thức tính khoảng cách Euclide để tính khoảng cách từ các
cụm tới các điểm trong tập dữ liệu.
b.







x
1

Với k=3 , tiến hành lặp lần 1 ta có bảng sau:
y
1

(1,2)
1

(3.2)
2.23606797
7

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

(4.2)
3.16227766

Cụm 1
Gần
x

Lần 1
Cụm 2

Gần

Cụm 3
Gần

T r a n g | 20


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG

1
2

2
1

2

0
2
1.41421356 1.41421356
2
2
1.5 1.118033989 1.118033989

3
4

2
1.5


3
2.23606797
7
2.06155281
3
1
0.5

2
0
3.04138126 1.118033989
5
4
2
3
1
0
5 1.5 4.031128874 2.06155281 1.118033989
3
4.5 2
3.5
1.5
0.5
4
4
3.60555127 2.23606797
2
5
7

4.5 4 4.031128874
2.5
2.06155281
3
4.5 5
4.60977222 3.35410196 3.04138126
9
6
5
4
5
4.24264068 3.16227766
3
7
5
5
5
3.60555127 3.16227766
5
Sau lần lặp thứ nhất ta có các cụm sau:








x
x

x
x
x
x
x
x
x
x
x
x
x

Cụm 1 : (1,1) ,(1,2) , (2,1) , (2,1.5)
Cụm 2 : (3,2)
Cụm 3 : (4,1.5), (4,2), (5,1.5), (4.5,2), (4,4), (4.5 , 4), (4.5 , 5), (4,5)
, (5,5)
Áp dụng cơng thức tính trung tâm các cụm sau:
Mean =( , )
Ta có trung tâm các cụm sau lần lặp đầu tiên là:
Cụm 1: (,)
→(1.5,1.375)
Cụm 2: (3, 2)
Cụm 3: ( )


TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

T r a n g | 21



[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG

Tiếp tục lặp lần 2 với trung tâm các cụm mới : (1.5,1.375) ; (3,2) ; , ta có
bảng lần lặp 2 như sau:
x

y

(1.5,1.375)

(3.2)

1
1
0.625
2.236067977
1
2
0.80039053
2
2
1
0.625
1.414213562
2 1.5 0.515388203 1.118033989
3
2
1.625
0
4 1.5 2.503123049 1.118033989

4
2 2.576941016
1
5 1.5 3.502231432 2.061552813
4.5 2 3.064412668
1.5
4
4
3.625
2.236067977
4.5 4
3.98630468
2.5
4.5 5 4.705382556 3.354101966
4
5 4.403478738 3.16227766
5
5 5.038911093 3.605551275
Sau lần lặp thứ hai ta có các cụm sau:








4.113514313
3.641565597
3.337813656

3.010149498
1.923798326
1.871095936
1.386001443
1.928989373
1.33454112
0.775241898
0.678969808
1.673618834
1.714934401
1.777920133

Cụm
1
Gần
x
x
x
x

Lần 2
Cụm 2

Cụm 3

Gần

Gần

x

x
x
x
x
x
x
x
x
x

Cụm 1 : (1,1) ,(1,2) , (2,1) , (2,1.5)
Cụm 2 : (3,2) , (4,1.5), (4,2)
Cụm 3 : (5,1.5), (4.5,2), (4,4), (4.5 , 4), (4.5 , 5), (4,5) , (5,5)
Áp dụng cơng thức tính trung tâm các cụm sau:
Mean =( , )
Ta có trung tâm các cụm sau lần lặp thứ hai là:
Cụm 1: (,)
→(1.5,1.375)
Cụm 2: (, )
→( , )
Cụm 3: ( )


Nhận thấy các trung tâm cụm vẫn thay đổi nên tiến hành lặp lần 3 với các trung
tâm cụm mới sau lần lặp 2, ta có bảng sau :

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

T r a n g | 22



[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG

x

y

(1.5,1.375)

(, )

Cụm
1
Gần
1
1
0.625
2.796032904 4.475946827
x
1
2
0.80039053 2.675406511 3.931170309
x
2
1
0.625
1.864886056 3.74621142
x
2 1.5 0.515388203 1.702292572 3.390294972
x

3
2
1.625
0.691230786 2.335401464
4 1.5 2.503123049 0.466690476 2.343949658
4
2 2.576941016 0.371214224 1.858520917
5 1.5 3.502231432 1.370328428 2.343949658
4.5 2 3.064412668 0.847230783
1.79
4
4
3.625
2.194948747 0.542309875
4.5 4
3.98630468 2.323316595
0.21
4.5 5 4.705382556 3.276858251
1.21
4
5 4.403478738 3.187130371 1.309236419
5
5 5.038911093 3.437702721 1.309236419
Sau lần lặp thứ ba ta có các cụm sau:









Lần 3
Cụm 2

Cụm 3

Gần

Gần

x
x
x
x
x
x
x
x
x
x

Cụm 1 : (1,1) ,(1,2) , (2,1) , (2,1.5)
Cụm 2 : (3,2) , (4,1.5), (4,2),(5,1.5), (4.5,2)
Cụm 3 : (4,4), (4.5 , 4), (4.5 , 5), (4,5), (5,5)
Áp dụng cơng thức tính trung tâm các cụm sau:
Mean =( , )
Ta có trung tâm các cụm sau lần lặp thứ ba là:
Cụm 1: (,)
→(1.5,1.375)

Cụm 2: (, )
→(4.1 , 1.8 )
Cụm 3: ( )


Nhận thấy các trung tâm cụm vẫn thay đổi nên tiến hành lặp lần 4 với các trung
tâm cụm mới sau lần lặp 3, ta có bảng sau :
x

y

(1.5,1.375)

(4.1 , 1.8 )

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

Cụm
1

Lần 4
Cụm 2

Cụm 3

T r a n g | 23


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG


1
1
0.625
3.201562119
1
2
0.80039053 3.106444913
2
1
0.625
2.247220505
2 1.5 0.515388203 2.121320344
3
2
1.625
1.118033989
4 1.5 2.503123049 0.316227766
4
2 2.576941016 0.223606798
5 1.5 3.502231432 0.948683298
4.5 2 3.064412668 0.447213595
4
4
3.625
2.202271555
4.5 4
3.98630468 2.236067977
4.5 5 4.705382556 3.224903099
4
5 4.403478738 3.201562119

5
5 5.038911093 3.324154028
Sau lần lặp thứ tư ta có các cụm sau:








4.951767361
4.280186912
4.326661531
3.920459157
2.952964612
3.125699922
2.630589288
3.157530681
2.601922366
0.721110255
0.608276253
0.412310563
0.565685425
0.721110255

Gần
x
x
x

x

Gần

Gần

x
x
x
x
x
x
x
x
x
x

Cụm 1 : (1,1) ,(1,2) , (2,1) , (2,1.5)
Cụm 2 : (3,2) , (4,1.5), (4,2),(5,1.5), (4.5,2)
Cụm 3 : (4,4), (4.5 , 4), (4.5 , 5), (4,5), (5,5)
Áp dụng công thức tính trung tâm các cụm sau:
Mean =( , )
Ta có trung tâm các cụm sau lần lặp thứ tư là:
Cụm 1: (,)
→(1.5,1.375)
Cụm 2: (, )
→(4.1 , 1.8 )
Cụm 3: ( )



Ta thấy trung tâm của các cụm không thay đổi nên kết thúc tại lần lặp thứ 4:




Cụm 1 : trung tâm (1.5,1.375) ; gồm các điểm {(1,1) ,(1,2) , (2,1) , (2,1.5)}
Cụm 2 : trung tâm (4.1, ; gồm các điểm {(3,2) , (4,1.5), (4,2), (5,1.5),
(4.5,2)}
Cụm 3: trung tâm ; gồm các điểm {(4,4), (4.5 , 4), (4.5 , 5) , (4,5)
, (5,5)}
 Nhận xét :

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

T r a n g | 24


[Các Dạng Bài Tập Knowledge Discovery and Data Mining]YANG




8.

Kết quả phân cụm của câu a và b hoàn toàn khác nhau → Tuy nhiên : việc
lựa chọn các trung tâm cụm ban đầu không ảnh hướng tới kết quả phân cụm.
→điểm (3,2) có thể phân 1 trong 2 cụm bất kỳ.
Ở lần lặp thứ nhất của câu b) tại các điểm 3 và 4 có giá trị khoảng cách tới
trung tâm cụm C1 C2 là bằng nhau → có thể gom 2 giá trị đó vào cụm nào
cũng được → không ảnh hưởng tới kết quả phân cụm.

Phân cụm thuật toán K – medoid.
Cho bảng dữ liệu sau:
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10



x
8
3
4
9
8
5
7
8
7
4

y
7
7

9
6
5
8
3
4
5
5

Hãy phân cụm bảng dữ liêu trên bằng thuật toán K-medoid.
Cách làm: đầu tiên chọn số cụm định phân ( cái này đề bài có thể cho trước).
Tiếp theo chọn trọng tâm 2 cụm( đề bài có thể cho trước , nếu khơng cho có
thể chọn ngẫu nhiên để tính tốn)
 Ở bài toán này chọn K=2 ( chia bảng dữ liệu thành 2 cụm).Và chọn X5
và X10 là trọng tâm của 2 cụm.
 Suy ra trọng tâm 2 cụm là : C1(8,5) ; C2(4,5)
 Bây giờ chúng ta tính khoảng cách những điểm còn lại tới trọng tâm của
2 cụm bằng khoảng cách Manhattan (là khoảng cách Minkowski khi q=1)

Khoảng cách Minkowski :

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

T r a n g | 25


×