Tải bản đầy đủ (.doc) (32 trang)

tieu luan ung dung cua phan tich chum

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (588.24 KB, 32 trang )

MỤC LỤC

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT...........................................................................2
1.1 GIỚI THIỆU..........................................................................................................2
1.2 KHOẢNG CÁCH GIỮA CÁC PHẦN TỬ RỜI RẠC..........................................2
1.2.1 Khoảng cách giữa hai phần tử rời rạc...........................................................2
1.2.2 Khoảng cách gữa hai nhóm dữ liệu rời rạc....................................................2
1.3 KHOẢNG CÁCH CỦA HAI HAY NHIỀU HƠN HAI HÀM MẬT ĐỘ............3
1.3.1 Khoảng cách..................................................................................................3
1.3.2 Độ rộng chùm:..............................................................................................3
CHƯƠNG 2: THUẬT TOÁN PHÂN TÍCH CHÙM.................................................4
2.1 THUẬT TOÁN XÂY DỰNG CHÙM CHO DỮ LIỆU RỜI RẠC.......................4
2.1.1 Phương pháp thứ bậc.....................................................................................4
2.1.2 Phương pháp không thứ bậc..........................................................................4
2.1.3 Ví dụ minh họa...............................................................................................4
2.2 THUẬT TOÁN XÂY DỰNG CHÙM CHO HÀM MẬT ĐỘ XÁC SUẤT........12
2.2.1 Phương pháp thứ bậc...................................................................................12
2.2.2 Phương pháp không thứ bậc........................................................................12
2.2.3 Ví dụ minh họa.............................................................................................12
CHƯƠNG 3: BÀI TOÁN ỨNG DỤNG....................................................................14
3.1 BÀI TOÁN 1......................................................................................................14
3.1.1 Phương pháp thứ bậc...................................................................................14
3.1.2 Phương pháp không thứ bậc........................................................................18
3.2 BÀI TOÁN 2........................................................................................................21
3.2.1 Phương pháp thứ bậc...................................................................................22
3.2.2 Phương pháp không thứ bậc........................................................................25
TÀI LIỆU THAM KHẢO...........................................................................................30

1



CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1.1 GIỚI THIỆU
Bài toán phân tích chùm được thực hiện dựa vào đánh giá mức độ gần xa của
các phần tử mà chúng gọi chung là sự tương tự của dử liệu. Khi dữ liệu rời rạc, sự
tương tự này được đánh giá qua đại lượng khoảng cách. Khi dữ liệu là hàm mật độ xác
suất nó được đánh giá qua nhiều khái niệm khác nhau như khoảng cách, độ rộng
chùm,...
Trong thực tế, bài toán nhận dạng thống kê có rất nhiều ứng dụng. Chẳng hạn
như ứng dụng trong y học, ứng dụng trong xã hội, tài chính, kinh tế… Trong tiểu luận
này này, chúng tôi sẽ trình bày tóm tắt kiến thức cơ bản về phân tích chùm, đưa ra
những ví dụ minh họa thuật toán và đưa ra những ứng dụng cụ thể đối với bài toán
phân tích chùm chạy bằng phần mềm SPSS và MATLAP.
1.2 KHOẢNG CÁCH GIỮA CÁC PHẦN TỬ RỜI RẠC
1.2.1 Khoảng cách giữa hai phần tử rời rạc
a) Định nghĩa
Gọi d(x,y) là khoảng cách giữa hai phần tử x và y. Khoảng cách là một metric,
tức là nó thỏa mãn các điều kiện sau:
i/ d ( x, y ) �0; d ( x, y )  0 � x  y
ii/ d ( x, y)  d ( y, x) ,
iii/ d ( x, y )  d ( y, z ) �d ( x, z ) .
b) Các loại khoảng cách phổ biến
1

n
�2
Khoảng cách Euclide: d e ( x, y)  �
( xi  yi ) 2 �.


�i 1

n

Khoảng cách city-block: d cb ( x, y )  �xi  yi .
i 1

xi  yi .
Khoảng cách Chebyshev: dch  x, y   max
i
1/ m

�n
m�
Khoảng cách Minkowski bậc m: d m ( x, y )  ��xi  yi � .
�i 1
p
xi  yi
Khoảng cách Canberra: d ca ( x, y )  �
.
i 1 ( xi  yi )
n

Khoảng cách Czekanowski: d cz ( x, y)  1 

2�min  xi , yi 
i 1
n

� x  y 
i 1


i

.

i

1.2.2 Khoảng cách gữa hai nhóm dữ liệu rời rạc
Gọi D  A, B  là khoảng cách giữa hai nhóm A và B, còn nA , nB là số phần tử của A và
B, ta có một số khoảng cách thường gặp sau:
d ( x, y ) .
Khoảng cách min: Dmin ( A, B)  x�min
A, y�B
ax d ( x, y ) .
Khoảng cách max: Dmax ( A, B )  xm
�A , y�B
1

Khoảng cách trung bình: Dave ( A, B)  n n
A B

� d ( x, y ) .

x�A , y�B

Khoảng cách trung vị: Dmedian ( A, B)  d  xm , ym  , với xm , ym là lần lượt là trung
2


vị của A và B.
Khoảng cách Ward:

Dward ( A, B ) 

x A  xB

2

1
1 .

n A nB

Khi nhóm A và B nhập lại thành một nhóm  A  B  , ta tính khoảng cách từ

nhóm  A  B  đến nhóm C như sau:

Dmin ( A  B, C )  min  D  A, C  , D  B, C   .

Dmax ( A  B, C )  max  D  A, C  , D  B, C   .
nA
nB
Dave ( A  B, C ) 
D( A, C ) 
D ( B, C ) .
nA  nB
nA  nB
1
1
1
Dmedian  A  B, C   D  A, C   D  B, C   D  A, B  .
2

2
4
nA  nC
nB  nC
nC
DWard  A  B, C  
D  A, C  
D  B, C  
D  A, B 
nA  nB  nC
nA  nB  nC
nA  nB  nC

.
Chú ý rằng: Trong các khoảng cách trên thì khoảng cách Ward đuợc định nghĩa
khác với các khoảng cách khác, bởi vì nó sử dụng phương pháp phân tích phương sai
(ANOVA) để đánh giá giữa các chùm làm giảm thiểu tổng bình phương sai số của bất
kỳ hai chùm có thể thành lập ở mỗi bước. Phương pháp phân tích chùm với khoảng
cách Ward thường được gọi là phương pháp Ward (Ward method). Đây là phương
pháp rất hiệu quả nhưng nó có xu hướng tạo ra chùm có kích thước nhỏ, gần bằng
nhau và nó đặc biệt hữu ích với quy mô lớn (mẫu n > 100).
Sau đây, chúng ta đi vào hai thuật toán phân tích chùm cho dữ liệu rời rạc.
1.3 KHOẢNG CÁCH CỦA HAI HAY NHIỀU HƠN HAI HÀM MẬT ĐỘ
1.3.1 Khoảng cách
Cho hai tập hợp chứa các hàm mật độ xác suất f i , gi
với A  {f1 , f 2,..., f m },B  {g1 , g 2,..., g n } , ta định nghĩa khoảng cách giữa hai tập hợp
A, B như sau:
d ( fi , g j ) .
Khoảng cách min: Dmin ( A, B )  f �min
A, g �B

i

j

max d ( f i , g j ) .
Khoảng cách max: Dmax ( A, B )  fi�
A, g j �B

Khoảng cách trung bình: Dave ( A, B ) 

1
 d ( f i , g j ) , f �A, g j �B .
mn

1.3.2 Độ rộng chùm: Cho k hàm mật độ xác suất  f1 ( x ), f 2 ( x ),..., f k ( x ) .
TH1: k  2 : w( f1 , f 2 ) 

�f  f
1

2

dx

Rn

TH2: k �3 : w( f1 , f 2 ,..., f k ) 

�f


max

( x ) dx  1

Rn

3


CHƯƠNG 2: THUẬT TOÁN PHÂN TÍCH CHÙM
2.1 THUẬT TOÁN XÂY DỰNG CHÙM CHO DỮ LIỆU RỜI RẠC
2.1.1 Phương pháp thứ bậc
a) Bài toán
 0
 0
 0
 0
Có n phần tử N  W1 , W2 ,..., Wn
với biến quan sát chưa biết. Chúng ta
chia những phần tử này thành những chùm với số lượng chùm giảm dần theo từng
bước. Tại mỗi bước ta ghép hai chùm thành một chùm mới với khoảng cách nhỏ nhất
so với việc ghép hai chùm khác. Trong mỗi bước chúng ta chỉ xem xét những chùm ở
bước trước đó và ghép hai chùm có khoảng cách nhỏ nhất, những chùm khác thì không
thay đổi. Tại bước cuối cùng tất cả các phần tử của N  0 được kết hợp thành một chùm
N  k 1 . Kết quả được sử dụng để thành lập một cây phân tích chùm.
b) Thuật toán
 Bước 1: Bắt đầu với n chùm, mỗi chùm chứa một đối tượng. Tính từng đôi
khoảng cách của hai phần tử. Thành lập một ma trận đối xứng của các khoảng cách
D�
dij �


�với dij là khoảng cách giữa i và j, i  1...n, j �i .
 Bước 2: Trong các ma trận khoảng cách D tìm một khoảng cách nhỏ nhất
của hai chùm khác nhau, tức là hai chùm có sự tương tác nhiều nhất.
 Bước 3: Gọi dUV là khoảng cách giữa hai chùm U và V có sự tương tác nhau
nhất. Hợp nhất chùm U và V thành chùm mới là (UV). Tính toán lại ma trận khoảng
cách theo hai bước:
i/ Xóa dòng và cột chứa chùm U và V.
ii/ Thêm dòng và cột đại diện cho chùm (UV), tìm khoảng giữa chùm (UV) với
các chùm còn lại.
 Bước 4: Lặp lại bước 2 và bước 3 (lặp lại n -1 lần) cho đến khi các đối tượng
được nhóm lại thành một chùm duy nhất.
2.1.2 Phương pháp không thứ bậc
a) Bài toán
Có n phần tử với biến quan sát đã biết cần chia những phần tử này thành k
chùm với k cho trước, sao cho một phần tử trong chùm có khoảng cách đến chùm nó
đang thuộc nhỏ hơn khoảng cách đến các chùm khác.
b) Thuật toán
 Bước 1: Chia n phần tử thành k chùm một cách ngẫu nhiên (số lượng phần tử
trong mỗi chùm là tùy ý). Tính trọng tâm của mỗi chùm.
 Bước 2: Tìm khoảng cách từ mỗi phần tử đến tất cả trọng tâm của các chùm.
Nếu khoảng cách từ một phần tử đến trọng tâm của chùm nó đang thuộc là nhỏ nhất
thì ta giữ phần tử đó trong chùm ban đầu. Nếu tồn tại một chùm khác mà khoảng cách
từ phần tử đang xét đến trọng tâm của chùm là nhỏ nhất thì ta gán phần tử đang xét
vào chùm này, bỏ phần tử trong chùm nó đang thuộc. Nếu phần tử được di chuyển đến
chùm khác thì cần phải tính lại giá trị trọng tâm của hai chùm mới có sự thay đổi.
 Bước 3: Quay lại bước 2 và dừng lại khi ta có k chùm, sao cho một phần tử
bất kỳ trong chùm có khoảng cách đến chùm nó đang thuộc nhỏ hơn khoảng cách đến
các chùm khác.
2.1.3 Ví dụ minh họa

 Phương pháp thứ bậc với khoảng cách min





4


Ví dụ 1: Giả sử có 5 phần tử 1, 2, 3, 4, 5 với ma trận khoảng cách:
1 2 3 4 5

d 
ij

D=
=
Xây dựng chùm theo phương pháp thứ bậc với khoảng cách min.
Giải
Vì khoảng cách nhỏ nhất là d53 = 2, nên ta được chùm (35).
Để thực hiển bước tiếp theo, chúng ta cần tính toán khoảng cách giữa chùm
(35) với các phần tử 1, 2, 4. Ta có: d (35)1  min  d31 , d51  min  3,11  3 ,
d (35)2  min  d32 , d52   min  7,10  7 , d (35)4  min  d34 , d54   min  9,8  8 .

Xóa các dòng và các cột tương ứng với phần tử 3 và 5 của ma trận D; thêm vào
một dòng và một cột của chùm (35). Ta có ma trận khoảng cách mới:
(35) 1 2 4

Khoảng cách nhỏ nhất giữa các cặp chùm là d (35)1  3 , nên hợp nhất chùm (35)


và 1 thành chùm (135). Ta có d (135)2  min  d(35)2 , d12   min  7,9  7 ,

d (135)24  min  d (35)4 , d14   min  8, 6  6 .

Ma trận khoảng cách mới tìm được là: (135) 2 4

Vì khoảng cách nhỏ nhất là d 42 = 5, nên ta hợp nhất phần tử 2 và 4 thành chùm
(24). Khoảng cách từ chùm (135) tới chùm (24) là 6 và
d (135)(24)  min  d(135)2 , d(135)4   min  7, 6  6

Nên ta có ma trận khoảng cách mới

(135) 24

Lúc này chùm (135) và (24) được hợp nhất thành một chùm duy nhất (13524)
chứa tất cả 5 phần tử.Cuối cùng ta có cây phân tích chùm:

6

3

1

2
3

5

2


4

Cây phân tích chùm thứ bậc cho 5 phần tử với khoảng cách min
 Phương pháp thứ bậc với khoảng cách max
5


Ví dụ 2: Giả sử có 5 phần tử 1, 2, 3, 4 và 5 với ma trận khoảng cách được cho
như sau:
1

2

3

4

5

d 
ij

D=
=
Xây dựng chùm cho 5 phần tử này theo phương pháp thứ bậc với khoảng cách
max.
Giải
dij )  d53 = 2, nên ta hợp nhất phần tử 3 và 5 thành chùm (35). Sử
Vì có min(
i, j

dụng khoảng cách max ta có
d (35)1  max  d31 , d51  max  3,11  11 ,
d (35)2  max  d32 , d52   max  7,10  10 ,

Ta có ma trận khoảng cách mới là:

(35) 1

2 4

Khoảng cách nhỏ nhất giữa các phần tử là d 24 = 5, nên hợp nhất 2 và 4 thành
chùm (24). Ta lại có:
d (35)(24)  max  d(35)2 , d(35)4   max  10,9  10 ,
d (24)1  max  d(35)2 , d(35)4   max  9,9  9 .

Do đó ma trận khoảng cách mới tìm được là:

(35) (24) 1

Vì khoảng cách nhỏ nhất giữa các cặp chùm là d1(24) = 9 nên ta hợp nhất (24) và
thành chùm (124). Lúc này ta có hai chùm (35) và (124), khoảng cách xa nhất của
chúng là
d (124)(35)  max  d1(35) , d (24)(35)   max  11,10  11

Lúc này chùm (35) và chùm (124) được hợp nhất thành một chùm duy nhất
(12345) chứa tất cả phần tử và khoảng cách xa nhất tìm được là 11.
Cây phân tích chùm được cho bằng hinh vẽ:
11
9
5

2
1

2

4

3

5

Cây phân tích chùm thứ bậc cho 5 phần tử với khoảng cách max
6


 Phương pháp thứ bậc với khoảng cách trung bình
Ví dụ 3: Giả sử có 5 phần tử 1, 2, 3, 4 và 5 với ma trận khoảng cách được cho
như sau:
1

2

3

4

5

d 
ij


D=
=
Xây dựng chùm cho 5 phần tử này theo phương pháp thứ bậc với khoảng cách
trung bình.
Giải
dij )  d53 = 2, nên ta hợp nhất phần tử 3 và 5 thành chùm (35).
Ta có min(
i, j
Sử dụng khoảng cách trung binh ta có
d 31  d 51 3  17

7
2.1
2
d  d52 7  10 17
d (35)2  32


2.1
2
2
d  d54 9  8 17
d (35)3  34


2.1
2
2
d (35)1 


Ta có ma trận khoảng cách mới:

(35) 1 2

4

Khoảng cách nhỏ nhất giữa các phần tử là d 24 = 5, nên hợp nhất 2 và 4 thành
chùm (24). Ta lại có:
d32  d34  d 52  d54 7  9  10  8 17


2.2
4
2
d  d 41 9  6 15
d (24)1  21


2.1
2
2
Ma trận khoảng cách mới tìm được là (35) (24) 1
d (35)(24) 

Vì khoảng cách nhỏ nhất là d1(35) = 7 nên ta hợp nhất phần tử 1 và (35) thành
chùm (135). Lúc này ta có chùm (135) và chùm (24) có khoảng cách trung bình là
d (135)(24) 

d12  d14  d32  d34  d52  d54 9  6  7  9  10  8 49



3.2
6
6

Cuối cùng chùm(135) và (24) có khoảng cách trung bình là 8.17, được kết hợp
thành một chùm duy nhất (12345).
Kết quả thực hiện cho ta có cây phân tích chùm như sau:

7


8.17
7

5

2
1

2

1

5

4

Cây phân tích chùm thứ bậc cho 5 phần tử với khoảng cách trung bình

Ví dụ 4: số liệu sau diễn tả chiều cao của 6 nhân viên nam trong công ty X
Nhân viên
1
2
3
4
5
6
Chiều cao (cm) 173
159
166
168
170
164
Bằng phươn pháp thứ bậc, khoảng cách Euclide giữa 2 phần tử , khoảng cách
trung giữa 2 phần tử, khoảng cách trung bình giữa 2 chùm hãy thành lập cây phân tích
chùm cho 6 nhân viên giữa vào biến chiều cao.
Giải
Xem mỗi phần tử (mỗi nhân viên) là một chùm riêng biệt, sử dụng khoảng cách
Euclide ta có ma trận khoảng cách giữa chúng như sau:
Vòng lặp 1.

1

2

3

4


5

6

d 
ij

D=

=

Vì khoảng cách nhỏ nhất d34  2 , nên ta hợp nhất phần tử 3 và 4 thành một
chùm (34). Khoảng cách giữa các chùm mới với các chùm còn lại được xác định như
sau:
Davg ((34),1) 

n3
1
1
D(4,1)  .7  .5  6.
n3  n4
2
2

Tương tự Davg ((34), 2)  6, Davg ((34,5)  3, Davg ((34, 6)  3
Ta có ma trận khoảng cách mới như sau:
(35)

1


2 s4

Tính tương tự vòng lặp 1, qua vòng lặp nữ ta có cây phân tính chùm như sau:

8


4

46
5

11
2

3

3
3

2
6

3

4

1

5


2

Hình Cây phân tích chùm chiều cao 6 nhân viên.
Ta thấy rằng ở vòng lặp đầu tiên có hai giá trị i,jsao cho dij là nhỏ nhất:
d34  d 45  d  2. phần trên ta đã chọn phần nhỏ nhất là d34 . Bây giờ ta chọn d 45  2 . Là
khoảng cách nhỏ nhất, nghĩa là vòng lặp 1 ta ghép hai phần tử 4 và 5 thành chùm (45).
Khi đó cũng thục hiên qua 5 vòng lặp ta có câ phân tích chùm như sau:

46

6

5

4
2
4

5

3

6

1

2

Hình Cây phân tích chùm chiều cao 6 nhân viên.

Nhận xét: cây phân tích chùm của hai hình trên là khác nhau.
Ví dụ 5: giả sử ta có hai biến quan sát x1, x2 cho hai phần tử A, B, C, D. Số liệu được
cho trong bản sau:

Phần
Các quan sát
tử
X1
X2
A
5
3
B
-1
1
C
1
-2
D
-3
-2
Hãy chia 4 phần tử trên thành 2 chùm sao cho các phần tử trong cùng 1 chùm
thì gần nhau hơn so với các phần tử trong các chùm khác.
Giải
Áp dụng thuật toán trên ta có:
Bước 1: với k=2, ta chia 4 phần tử thành 2 chùm một cách ngẫu nhiên (AB) và (CD).
Tính trọng tâm  x1 , x2  cho hai chùm ta có kết quả:
9

3



Chùm

Tọa độ của trọng tâm

AB
CD

x1

x2

5  (1)
2
2
1  (3)
 1
2

3 1
2  (2)
2
 2
2
2

Bước 2: Sử dụng phương pháp khoảng cách Euclide, Tính khoảng cách từ mỗi
phần tử đến tất cả trọng tâm của các chùm ta có kết quả:
d 2 (A, (AB))  (5  2) 2  (3  2) 2  10

d 2 (A, (CD))  (5  1) 2  (3  2) 2  61
d 2 (B,(AB))  (1  2) 2  (1  2) 2  10
d 2 (B, (CD))  (1  1) 2  (1  2) 2  9

Ta nhận thấy phần tử A gần chùm (AB) hơn chùm (CD) nếu A vẫn thuộc chùm
(AB). Riêng phần tử B gần chùm (CD) hơn chùm (AB) nên B di chuyển đến chùm
(CD), hợp nhất tạo thành chùm (BCD). Tính lại giá trị trọng tâm cho hai giá trị mới,
được kết quả:
Chùm
A
(BCD)

Tọa độ trọng tâm
x1

x2

5
-1

3
-1

Bước 3: lặp lại bước 2, kiểm tra lại các phép di chuyển của mỗi phần tử. Sử
dụng bình phương khoảng cách Euclide, ta có bảng sau đây:
Chùm
A
(BCD)
Trong đó:


Bình phương khoảng cách từ mỗi phần tử đến trọng tâm các chùm
Phần tử
A
B
C
D
0
40
41
89
52
4
5
5
d ( A, B)  (5  (1)) 2  (3  1) 2  40
d ( A, C)  (5  1) 2  (3  (2)) 2  41
d ( A, D)  (5  (3)) 2  (3  (2)) 2  89
d ( A, ( BCD))  (5  (1)) 2  (3  (1)) 2  52
d (B, (BCD))  ( 1  ( 1)) 2  (1  ( 1)) 2  4
d (C, ( BCD))  (1  ( 1)) 2  ( 2  ( 1)) 2  5
d (D, ( BCD))  (3  (1)) 2  (2  (1)) 2  5

Khi đó, khoảng cách của các phần tử B, C, đến chùm (BCD) nhỏ hơn khoảng
cách dến chùm A. Do đó thuật toán dừng lại. Như vậy ta có hai chùm là A và (BCD).
Nhận xét: Cũng giống như phương pháp thứ bậc, kết quả của phương pháp
không thứ bậc không phải la duy nhất.
Ví dụ 6: giả sử ta có hai biến quan sát x1, x2 cho hai phần tử A, B, C, D. Số liệu được
10



cho trong bản sau:

Phần
Các quan sát
tử
X1
X2
A
5
3
B
-1
1
C
1
-2
D
-3
-2
Hãy phân nhóm 6 nhân viên thành 3 chùm riêng biệt theo chiều cao.
Giải
Áp dụng thuật toán 2, ta thực hiển như sau:
Vòng lặp 1:
Chia 6 phần tử (6 nhân viên) thành 3 chùm một cách ngẫu nhiên. Tính trọng tâm của mỗi
chùm. Ta lập bảng sau:

Chùm
(1345)
2
6


Tọa độ trọng tâm

173  166  168  170
 169.25
4

159
164

Sử dụng khoảng cách Euclide để tính khoảng cách mỗi phần tử đến trọng tâm của chùm. Ta
có bảng sau:

Phần tử
1
2
3
4
5
6

khoảng cách từ mỗi phần tử đến trọng tâm các chùm
(1345)
2
6
3.75
14
9
10.25
0

5
3.25
7
2
1.25
9
4
0.75
11
6
5.25
5
0

Khoảng cách từ phần tử 3 đến trọng tâm chùm 6 nhỏ hơn khoảng cách từ phần tử 3 đến
trọng tâm của chùm (1345) nên ta di chuyển phần tử 3 từ chùm (1345) sang chùm 6.

Chùm
(145)
2
(36)

Tọa độ trọng tâm
170.33
159
165

Khoảng cách từ mỗi phần tử đến trọng tâm của 3 chùm là.

Phần tử


khoảng cách từ mỗi phần tử đến trọng tâm các chùm
(145)
2
(36)
1
2.667
14
8
2
11.333
0
6
3
4.3333
7
1
4
2.3333
9
3
5
0.3333
11
5
6
6.3333
5
1
Ta thấy khoảng cách từ các phần tử đến trọng tâm của chùm là nhỏ nhất, do đó

thuật toán kết thúc. Như vậy, ta có 3 chùm là (145), 2, (36).
2.2 THUẬT TOÁN XÂY DỰNG CHÙM CHO HÀM MẬT ĐỘ XÁC SUẤT
2.2.1 Phương pháp thứ bậc
11


a) Bài toán
 0
 0
 0
 0
Có n tổng thể N  W1 , W2 ,..., Wk





với hàm mật độ xác suất đã biết

 f1 ( x ), f 2 ( x ),..., f k ( x ) . Chúng ta chia những phần tử này thành những chùm với số
lượng chùm giảm dần theo từng bước. Tại mỗi bước ta ghép hai chùm thành một chùm
mới với khoảng cách nhỏ nhất so với việc ghép hai chùm khác. Trong mỗi bước chúng
ta chỉ xem xét những chùm ở bước trước đó và ghép hai chùm có khoảng cách nhỏ
nhất, những chùm khác thì không thay đổi. Tại bước cuối cùng tất cả các phần tử của
N  0 được kết hợp thành một chùm N  k 1 . Kết quả được sử dụng để thành lập một cây
phân tích chùm.
b) Thuật toán
 Bước 1: Bắt đầu với n chùm, mỗi chùm chứa một đối tượng. Tính độ rộng
từng đôi một theo công thức w( f i , f j ) 


�f

max

Rn

( x )dx  1 . Tìm w( f , f ) nhỏ nhất ta ghép
i
j





( f i , f j ) thành chùm, lúc này ta có k  1 chùm: N  1  W1 1 , W2 1 ,..., Wk 11 .

 Bước 2: Tiếp tục thức hiện lại bước 1, lúc này ta còn lại k  2 :

N

 2



 W1 2 , W2 2 ,..., Wk 22



 Bước 3: Lặp lại bước 1 ( k  1 lần), những tổng thể bây giờ được phân chia
vào những chùm với cấp độ khác nhau, căn cứ vào sự tăng dần lên độ rộng của chùm.

2.2.2 Phương pháp không thứ bậc
a) Bài toán
 0
 0
 0
 0
Có n tổng thể N  W1 , W2 ,..., Wk
với hàm mật độ xác suất đã biết





 f1 ( x ), f 2 ( x ),..., f k ( x ) . Chúng ta chia những phần tử này thành

m chùm với m cho

trước, sao cho tổng độ rộng của chùm là nhỏ nhất.
b) Thuật toán
 Bước 1: Chia k tổng thể N  0 thành m chùm một cách ngẫu nhiên với số phần



n

 1
 1
 1
 1
tử tương ứng trong chùm thứ i là ni , �ni  k : N  W1 , W2 ,..., Wm

i 1



 Bước 2: xét từng phần tử riêng biệt f j , Tính độ rộng từng đôi một theo công
thức w( f j , wi ) , với w( f j , f s �wi ) 

�f

Rn
(1)
s

max

( x )dx  1 . Nếu w( f , f ) nhỏ nhất ta ghép
i
j

( f i , f j ) thành chùm; nếu tồn tại w sao cho min w( f j , ws(1) )  min w( f j , wi(1) ) thì gán f j
(1)
(2)
(1)
(2)
vào chùm ws để trở thành ws và bỏ f j trong chùm wi để trở thành chùm wi . Khi đó






 2
 2
 2
 2
ta có m chùm mới N  W1 , W2 ,..., Wm
 Bước 3: Lặp lại bước 2 ( p lần), cho đến khi được

m chùm

N  p   W1 p  , W2 p  ,..., Wm p  ,

tất





sao

cho

:

w( f j , ws( p ) )  min w( f j , wi( p ) ) cho

cả

f j �w , t  1,.., m .
p
t


2.2.3 Ví dụ minh họa
Ví dụ 7: Cho 4 hàm mật độ xác suất có phân phối chuẩn với các tham số:
1  1, 2  1.4, 3  3, 4  3.4 ;  1   2   3   4  1 .
Phân loại chùm cho 4 hàm mật độ xác suất bằng phương pháp thứ bậc.
Giải:
12


a) Ta có hàm mật độ xác suất:
2

2

2

1  ( x 21)
1  ( x 1.4)
1  ( x 23)
1  ( x 3.4)
f1 ( x ) 
e
e 2 ; f3 ( x) 
e
e 2
; f2 ( x) 
; f4 ( x) 
2
2
2

2

Sử dụng công thức w( f j , f s �wi ) 
f1

f1

f2

f3

�f

max

R

n

2

( x )dx  1 ta được ma trận khoảng cách:

f3

� 0



0.1585

0


f3 �
0.6827 0.3763
0



f4 �
0.7697 0.6827 0.1585 0�
Vì min w( f i , f j )  w( f1 , f 2 )  w( f 3 , f 4 )  0.1585 , nên ta ghép ( f1 , f 2 ) thành chùm:

f2

Tiếp tục Sử dụng công thức w( f j , f s �wi ) 

�f

max

R

n

( x )dx  1 ta được ma trận khoảng

cách:
f1 f 2
f3

f4
f1 f 2
0
f 3 0.735
0
f 4 0.841 0.1585 0
Vì w( f 3 , f 4 )  0.1585 nhỏ nhất , nên ta ghép ( f 3 , f 4 ) thành chùm

Kết quả phân tích chùm:

f1

f2

f3

f4

CHƯƠNG 3: BÀI TOÁN ỨNG DỤNG
3.1 BÀI TOÁN 1: Phân nhóm người tiêu dùng trên cơ sở thái độ
13


của họ đối với việc đi mua sắm. Dựa vào các nghiên cứu trong quá
khứ, có 6 biến thái độ được chọn. Người tiêu dùng được yêu cầu diễn
tả mức độ đồng ý đối với các phát biểu sau trên thang đo 7 điểm:
Không đồng ý
Mua sắm là một thú vui
Mua sắm là tốn tiền
Mua sắm kết hợp với việc ăn uống

Tôi tìm mua những gì đáng mua nhất
Tôi không quan tâm đến việc đi mua sắm
Tiết kiệm được nhiều nhờ so sánh giá cả

1
1
1
1
1
1

2
2
2
2
2
2

3
3
3
3
3
3

Đồng ý
4
5 6
4
5 6

4
5 6
4
5 6
4
5 6
4
5 6

7
7
7
7
7
7

Từ các câu hỏi này, ta mã hóa thánh 6 biến sau:
V1: Mua sắm là một thú vui
V2: Mua sắm là tốn tiền
V3: Mua sắm kết hợp với việc ăn uống
V4: Cố gắng tìm mua những gì đáng mua nhất khi đi mua sắm
V5: Không quan tâm đến việc đi mua sắm
V6: Đi mua sắm giúp tiết kiệm được nhiều nhờ so sánh giá cả
Trong bài toán này ta sẽ xem xét một tập dữ liệu đơn giản thu thập từ câu trả lời
của 20 người tiêu dùng về thái độ đối với việc đi mua sắm. Trong thực tế, phân tích
cụm thường được tiến hành với mẫu có từ 100 quan sát trở lên.
3.1.1 Phương pháp thứ bậc
Sau đây chúng ta sẽ sử dụng tiêu chuẩn Ward để minh họa cho phân cụm thứ
bậc trên SPSS 16.0.
Stt

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

V1
6
2
7
4
1
6
5
7
2

3
1
5
2
4
6
3
4
3
4

V2
4
3
2
6
3
4
3
3
4
5
3
4
2
6
5
5
4
7

6

V3
7
1
6
4
2
6
6
7
3
3
2
5
1
4
4
4
7
2
3

V4
3
4
4
5
2
3

3
4
3
6
3
4
5
6
2
6
2
6
7

V5
2
5
1
3
6
3
3
1
6
4
5
2
4
4
1

4
2
4
2

V6
3
4
3
6
4
4
4
4
3
6
3
4
4
7
4
7
5
3
7
14


20


2

3

2

4

7

2

* Nhập dữ liệu vào SPSS với các biến như trên với tên “Phan tich cum”
* Dùng lệnh Analyze > Classify > Hierarchical Cluster > Đưa các biến từ V1
đến V6 vào khung Variable(s):

* Trong Statistics và chọn số cụm từ 2 đến 4 cụm, trong Plots ta chọn như hình
dưới đây:

* Trong Method ta chọn Ward’s method, trong ô Cluster Method và chọn
Squared Euclidean distance trong Interva:

Bảng này cho kết quả phân chùm dưới dạng sơ đồ tích tụ cho biết số quan sát
hay chùm được kết hợp ở mỗi giai đoạn. Dòng đầu tiên thể hiện giai đoạn 1 có 19
chùm vì người thứ 14 và người thứ 16 được kết hợp trong giai đoạn này (xem trong
15


hai cột thuộc phần các chùm được kết hợp – Cluster combined). Bình phương khoảng
cách Euclide giữa hai người này được thể hiện trong cột “hệ số”- coefficients. Cột

“Stage Cluster First Appears” cho biết chùm này được tạo thành trong giai đoạn nào.
Ví dụ như số 1 ở giai đoạn 6 cho biết người thứ 14 được nhóm lại thành chùm đầu tiên
trong giai đoạn 1 (hay là chùm đang chứa người thứ 14 được tạo ra trong giai đoạn 1
gồm có người thứ 14 và người thứ 16) và bây giờ trong giai đoạn 6 chùm này nhập
thêm người thứ 10. Cột cuối cùng “Next stage” cho biết ở giai đoạn nào thì có thêm
người hay chùm mới được nhập vào với chùm trong dòng này. Ví dụ như trong dòng
đầu tiên ở cột cuối cùng ta thấy số 6, có nghĩa là ở giai đoạn 6 thì có thêm người thứ
10 được kết hợp vào với chùm đã có hai người 14 và 16. Tương tự như vậy, dòng thứ 2
thể hiện giai đoạn 2 có 18 chùm vì người thứ 6 và người thứ 7 được nhập lại với nhau.
Cluster Membership
Case 4 Clusters 3 Clusters 2 Clusters
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

20

1
2
1
3
2
1
1
1
2
3
2
1
2
3
1
3
1
4
3
2

1
2
1
3
2
1
1

1
2
3
2
1
2
3
1
3
1
3
3
2

1
2
1
2
2
1
1
1
2
2
2
1
2
2
1
2

1
2
2
2

Bảng này cho kết quả phân chùm dưới dạng bảng sơ đồ cột, chú ý là bảng sơ đồ
phân chùm này phải được đọc từ dưới lên trên, cột có dấu X đại diện cho chùm còn
cột khoảng trắng đại diện cho sự tách biệt giữa các chùm. Các con số trên đầu bảng
(case) cho biết đối tượng nào được nhóm với đối tượng nào.
Trong ví dụ này đối tượng là người tiêu dùng phỏng vấn được đánh số từ 1 đến
20. Các dòng cho biết số chùm được gom theo thứ tự đi từ dưới lên.
Đầu tiên tất cả các quan sát được xem là các chùm cá thể, vì ta có 20 người nên
ta có 20 chùm. Ở bước 1, hai người gần nhau nhất là case 14 và case 16 được kết hợp
lại nên ta có 19 chùm thể hiện ở dòng cuối cùng của bảng (ứng với giai đoạn 1). Đếm
16


ngang hàng 19 thấy có 19 cột có dấu X tức 19 chùm được gom từ 20 đối tượng, giữa
chúng có cột trắng tách biệt. Trong 19 cột đó có 18 cột dấu X riêng lẻ và một nhóm 3
cột dấu X đi liền đại diện 2 đối tượng 16 và 14 được gom lại. Dòng 18 ứng với giai
đoạn tiếp theo là giai đoạn 2 còn có 18 chùm. Ở giai đoạn này người thứ 6 và thứ 7
được nhóm lại với nhau và ta có 18 cụm, trong đó có 16 chùm chỉ có một người (thể
hiện ở 2 nhóm có 3 cột X đi liền nhau).
Trong các giai đoạn tiếp theo, một chùm mới có thể được thành lập theo 3 cách:
Hai người được nhóm với nhau; Một người được nhóm với một chùm có sẵn; Hai
chùm được nhập lại với nhau.

Hình dưới đây là biểu đồ hình cây thể hiện quá trình phân chùm. Biểu đồ hình
cây này được đọc từ trái sang phải. Các đường kẻ dọc đại diện các cụm đã được nhập
lại với nhau. Vị trí của đường kẻ dọc trên thang đo (rescaled distance cluster combine)

cho biết khoảng cách giữa các chùm khi được nhập với nhau. Bởi vì trong những giai
đoạn đầu có nhiều khoảng cách có độ lớn bằng nhau nên ta khó quan sát, nhưng trong
2 giai đoạn cuối ta có thể dễ dàng nhận thấy khoảng cách giữa các chùm khi được
nhập lại với nhau khá hơn. Thông tin này rất hữu ích khi cần xác định số chùm kết
quả.

Khi xác định được số chùm rồi thì ta có thể biết kết quả phân chùm của từng
phần tử quan sát. Kết quả này được thể hiện trong hình trên, nhưng ở dưới dạng bảng
như trong bảng dưới đây ta quan sát dễ hơn. Nhìn vào bảng này ta biết được phần tử
nào thuộc chùm nào khi kết quả cuối cùng ta chấp nhận có 2, 3 hay 4 chùm.
17


Từ các kết quả trên, ta có thể có các phương án khác nhau về số chùm. Phương án
4 chùm là: 8, 6, 5 và 1, ta thấy phương án này không thích hợp vì có một chùm có quy
mô quá nhỏ. Phương án 3 chùm: 8, 6 và 6, ta thấy phương án này khá hợp lý.
Cụm số
1
2
3

V1
5.750
1.667
3.500

V2
3.625
3.000
5.833


V3
6.000
1.833
3.333

V4
3.125
3.500
6.000

V5
1.875
5.500
3.500

V6
3.875
3.333
6.000

Bảng trên trình bày các trung bình chùm các biến từ V1 đến V6 của file ví dụ với
biến phân nhóm là biến vừa được sao lưu quá trình thực hiện thủ tục phân tích chùm
cho ví dụ này (để sao lưu được biến này thì trong hộp thoại con Save của hộp thoại
phân tích chùm bạn chọn Single solution và khai báo 3 cụm).
Chùm số 1 có trị trung bình lớn đối với biến V1 (đi mua sắm là thú vui), V3 (đi
mua sắm kết hợp với ăn uống), và có trị trung bình nhỏ đối với biến V5 (không quan
tâm đến việc đi mua sắm). Do đó, chùm này có thể được đặt tên là “nhóm quan tâm và
thích thú đi mua sắm”. Chùm này gồm có các quan sát 1, 3, 6, 7, 8, 12, 15 và 17, có
thể kiểm tra điều này trên biểu đồ hình cây.

Ngược lại, chùm số 2 có trị trung bình thấp đối với biến V1, V3 và có trị trung
bình lớn đối với biến V5. Do đó, chùm này có thể được đặt tên là “nhóm thờ ơ với việc
mua sắm” . Chùm này gồm có có các quan sát 2, 5, 9, 11, 13 và 20.
Chùm số 3 có trị trung bình lớn đối với biến V2 (đi mua sắm là tốn tiền), V4
(cố gắng tìm mua những gì đáng mua nhất khi đi mua sắm) và V6 (đi mua sắm có thể
giúp tiết kiệm được tiền nhờ so sánh nhiều giá cả khác nhau). Vì vậy, chùm này có thể
được đặt tên là “nhóm mua sắm quan tâm đến kinh tế”. Chùm này gồm có các quan sát
4, 10, 14, 16, 18 và 19.
Thông thường để mô tả các chùm này, ta nên xem xét một số biến khác chưa
được sử dụng trong phân tích này như là: các dữ liệu nhân khẩu học (thu thập, giới
tính, tuổi, tình trạng việc làm, tình trạng hôn nhân gia đình, trình độ văn hóa,…), tâm
lý, mức độ sử dụng sản phẩm, thói quen sử dụng phương tiện truyền thông,… để thấy
rõ được đặc trưng của từng chùm.
3.1.2 Phương pháp không thứ bậc
Sau đây ta sẽ tiến hành phân tích cụm không thứ bậc cho dữ liệu trên với
phương pháp phân chia tối ưu (optimizing partitioning). Số chùm ta cần thực hiện là 3
để so sánh với kết quả phân chùm thứ bậc. Các hạt giống chùm là các giá trị của 3
quan sát thứ 8, 19 và 20 ở file dữ liệu. Các hạt giống chùm này chỉ là những trung tâm
chùm tạm thời dùng để phân bổ các quan sát vào các chùm. Mỗi quan sát được phân
vào chùm có trung tâm gần nó nhất. Các trung tâm chùm sẽ được cập nhật trong quá
trình này cho đến khi tiêu chuẩn phân chia tối ưu được thỏa mãn. Các trung tâm chùm
cuối cùng là các trung bình của các quan sát đối với các biến trong phương án phân
chùm đạt được.
* Dùng lệnh Analyze > Classify > K-means Cluster > Ta đưa các biến từ V1 đến
V6 vào khung Variable(s), đồng thời nhập 3 vào ô Number of Clusters.

18


* Trong mục Save và Options ta chọn như hình trên.

* Kết quả:

19


Initial Cluster Centers
Cluster
1
2
di mua sam la thu vui
4
di mua sam la ton tien
6
ket hop mua sam voi an uong
3
tim mua nhung gi dang mua nhat khi di
7
mua sam
khong quan tam viec di mua sam
2
co the tiet kiem nhieu khi so sanh gia ca 7

3

2
3
2

7
2

6

4

4

7
2

1
3

Cluster Membership
Case Number

Cluster

Distance

1
2
3
4
5
6
7
8
9
10
11

12
13
14
15
16
17
18
19
20

3
2
3
1
2
3
3
3
2
1
2
3
2
1
3
1
3
1
1
2


1.414
1.323
2.550
1.404
1.848
1.225
1.500
2.121
1.756
1.143
1.041
1.581
2.598
1.404
2.828
1.624
2.598
3.555
2.154
2.102

Bảng Cluster Membership cho thấy từng quan sát thuộc về chùm nào và khoảng
cách giữa từng quan sát với trung tâm của nó. Ta thấy rằng kết quả phân cụm trong
bảng này tương tự như trong ví dụ ở phần trên. Ngoài ra, khoảng cách giữa các chùm
trong phương án phân chùm cuối cùng cho ta thấy các cặp chùm được phân tách rất rõ.

20



Final Cluster Centers

di mua sam la thu vui
di mua sam la ton tien
ket hop mua sam voi an uong
tim mua nhung gi dang mua nhat khi di mua sam
khong quan tam viec di mua sam
co the tiet kiem nhieu khi so sanh gia ca

1

Cluster
2
3

4
6
3
6
4
6

2
3
2
4
6
3

6

4
6
3
2
4

Distances between Final Cluster Centers
Cluster
1
2
3

1
5.568
5.698

2

3

5.568

5.698
6.928

6.928

ANOVA
Cluster


Error

Mean Square df

Mean
df
Square

F

Sig.

di mua sam la thu vui
29.108
2
.608
17 47.888 .000
di mua sam la ton tien
13.546
2
.630
17 21.505 .000
ket hop mua sam voi an uong
31.392
2
.833
17 37.670 .000
tim mua nhung gi dang mua nhat
15.712
2

.728
17 21.585 .000
khi di mua sam
khong quan tam viec di mua sam 22.538
2
.816
17 27.614 .000
co the tiet kiem nhieu khi so sanh
12.171
2
1.071 17 11.363 .001
gia ca
Bảng ANOVA cho ta kết quả kiểm định F đối với từng biến của các chùm. Dựa
vào bảng này ta thấy tất cả các biến đều có giá trị sig < 0.05 nên có thể kết luận có sự
khác biệt giữa các chùm đang xét. Điều đó có nghĩa là kết quả phân tích chùm này có
thể sử dụng tốt.
3.2 BÀI TOÁN 2 (Sự tiêu thụ hàm lượng dinh dưỡng protein):
Dữ liệu về việc tiêu thụ hàm lượng dinh dưỡng protein của 25 nước châu Âu
trong 9 nhóm thực phẩm: Red Meat (thịt đỏ), White Meat (thịt trắng), Eggs (trứng),
Milk (sữa), Fish (cá), Cereals (ngũ cốc), Nuts (Các loại hạt), Starchy Foods (thực
phẩm tinh bột), và Fruits/Veg (trái cây/rau quả) được cho chi tiết trong bảng sau:
Red White
Starchy
Country
Eggs Milk Fish Cereals
Nuts Fruits/Veg
Meat Meat
Foods
Albania
10.1 1.4 0.5 8.9 0.2 42.3

0.6
5.5
1.7
Austria
8.9
14
4.3 19.9 2.1
28
3.6
1.3
4.3
Belgium
13.5 9.3 4.1 17.5 4.5 26.6
5.7
2.1
4
21


Bulgaria
7.8
6
1.6 8.3 1.2 56.7
1.1
3.7
4.2
Czech
9.7 11.4 2.8 12.5 2
34.3
5

1.1
4
Denmark
10.6 10.8 3.7 25 9.9 21.9
4.8
0.7
2.4
E. Germany
8.4 11.6 3.7 11.1 5.4 24.6
6.5
0.8
3.6
Finland
9.5 4.9 2.7 33.7 5.8 26.3
5.1
1
1.4
France
18
9.9 3.3 19.5 5.7 28.1
4.8
2.4
6.5
Greece
10.2
3
2.8 17.6 5.9 41.7
2.2
7.8
6.5

Hungary
5.3 12.4 2.9 9.7 0.3 40.1
4
5.4
4.2
Ireland
13.9 10
4.7 25.8 2.2
24
6.2
1.6
2.9
Italy
9
5.1 2.9 13.7 3.4 36.8
2.1
4.3
6.7
Netherlands
9.5 13.6 3.6 23.4 2.5 22.4
4.2
1.8
3.7
Norway
9.4 4.7 2.7 23.3 9.7
23
4.6
1.6
2.7
Poland

6.9 10.2 2.7 19.3 3
36.1
5.9
2
6.6
Portugal
6.2 3.7 1.1 4.9 14.2
27
5.9
4.7
7.9
Romania
6.2 6.3 1.5 11.1 1
49.6
3.1
5.3
2.8
Spain
7.1 3.4 3.1 8.6 7
29.2
5.7
5.9
7.2
Sweden
9.9 7.8 3.5 24.7 7.5 19.5
3.7
1.4
2
Switzerland
13.1 10.1 3.1 23.8 2.3 25.6

2.8
2.4
4.9
UK
17.4 5.7 4.7 20.6 4.3 24.3
4.7
3.4
3.3
USSR
9.3 4.6 2.1 16.6 3
43.6
6.4
3.4
2.9
W. Germany
11.4 12.5 4.1 18.8 3.4 18.6
5.2
1.5
3.8
Yugosloslavia 4.4
5
1.2 9.5 0.6 55.9
3
5.7
3.2
Bài toán đặt ra là chúng ta muốn biết rằng trong 25 nước đó thì những nước nào
tiêu thụ hàm lượng protein giống hoặc gần giống nhau. Nói một cách khác, nhóm các
nước mà trong mỗi nhóm đó thì có sự tương tự nhau về việc tiêu thụ hàm lượng dinh
dưỡng protein?
Dữ liệu bài toán 4 được nhập vào SPSS và lưu lại với tên “Protein.sav”.


3.2.1 Phương pháp thứ bậc
Xử lý trên SPSS phân tích chùm cho Bài toán 4 theo phương pháp có thứ bậc
như sau:
 Bước 1: Vào Analyze � Classify � Hierarchical Cluster. Khi đó xuất hiện hộp
thoại Hierarchical Cluster Analysis:
 Bước 2: Đưa 9 nhóm thực phẩm vào khung Variable(s), và đưa biến Country vào
khung Label cases by. Xem hình 2.9.

22


 Bước 3: Tiếp theo vào các tùy chọn Statistics, Plots, Method, Save và chọn như
sau:

 Proximily matrix: Hiện thị ma trận khoảng cách giữa các phần tử.
 Range of solutions: Số chùm cần phân tích ra. Ở đây, chúng tôi chọn số chùm nhỏ
23


nhất là 2, số chùm nhiều nhất là 6.
 Dendrogram: Vẽ cây phân loại.

Ở đây, chúng tôi chọn khoảng cách giữa các phần tử là khoảng Euclide, còn
khoảng cách giữa các chùm là khoảng cách min (Nearest neighbor).
Sau OK thì SPSS đưa ra một số kết quả phân tích sau:
 Bảng ma trận khoảng cách giữa các phần tử Proximity Matrix

Lưu ý bảng Proximily Matrix khá dài, ở đây chúng tôi chỉ hiện thị một phần.
 Bảng thể hiện các bước lặp phân tích chùm của SPSS


24


Ag g lomerat ion Sched ule

Stage
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

24

Cluster Combined
Cluster 1
Cluster 2
18
25
2
14
2
24
6
20
2
3
6
15
2
12
5
7
4
18
2
5
2
21
2
22
6

8
2
16
10
13
2
9
2
6
4
11
1
4
2
23
1
2
1
10
1
19
1
17

Coefficients
,986
1,123
1,273
1,382
1,418

1,504
1,657
1,880
1,889
1,892
1,901
1,946
2,063
2,104
2,150
2,194
2,392
2,471
2,690
2,717
2,751
2,865
2,874
2,933

Stag e Cluster First
Appea rs
Cluster 1
Cluster 2
0
0
0
0
2
0

0
0
3
0
4
0
5
0
0
0
0
1
7
8
10
0
11
0
6
0
12
0
0
0
14
0
16
13
9
0

0
18
17
0
19
20
21
15
22
0
23
0

Next Sta ge
9
3
5
6
7
13
10
10
18
11
12
14
17
16
22
17

20
19
21
21
22
23
24
0

Rõ ràng SPSS thực hiện qua 24 bước lặp (vì ta có 25 phần tử).
+ Bước lặp 1: Nhóm nước số 18 và số 25 lại, với khoảng cách 0,986 .
+ Bước lặp 2: Nhóm nước số 2 và số 14 lại, với khoảng cách 1,123 .
+ Bước lặp 3: Nhóm nước số 2 và số 24 lại, với khoảng cách 1, 273 . Lúc này, ta
có chùm 2, 14, và 24 (do bước 2).
…………….
+ Bước lặp 24: Nhóm nước số 17 với chùm có các đại diện 1, 2, 4, 10 và 19 ,
với khoảng cách 2,933 .
Cụ thể, nếu độc giả muốn chia bao nhiêu chùm thì xem bảng thành viên của
chùm (Cluster Membership) thì sẽ rõ hơn.
 Bảng thành viên của chùm

25


×