Tải bản đầy đủ (.pdf) (62 trang)

Phân tích thống kê thổ nhưỡng đất trồng trọt của huyện thanh ba phú thọ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.97 MB, 62 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
----------------

NGUYỄN THỊ HUYỀN

PHÂN TÍCH THỐNG KÊ THỔ NHƯỠNG
ĐẤT TRỒNG TRỌT CỦA HUYỆN THANH BA – PHÚ THỌ

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – Năm 2012


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
----------------

NGUYỄN THỊ HUYỀN

PHÂN TÍCH THỐNG KÊ THỔ NHƯỠNG
ĐẤT TRỒNG TRỌT CỦA HUYỆN THANH BA – PHÚ THỌ

Chuyên ngành:
Mã số:

Lý thuyết xác suất và thống kê toán học.
60 46 15.

LUẬN VĂN THẠC SĨ KHOA HỌC


NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. HỒ ĐĂNG PHÚC

Hà Nội – Năm 2012


Mục lục
Lời nói đầu
1

2

3

Một số kiến thức thống kê liên quan
1.1 Các khái niệm cơ bản . . . . . . . . . . . . . . . . . . .
1.1.1 Vectơ ngẫu nhiên . . . . . . . . . . . . . . . . .
1.1.2 Tích vơ hướng của hai vectơ . . . . . . . . . . .
1.1.3 Chuẩn của một vectơ . . . . . . . . . . . . . . .
1.1.4 Khoảng cách giữa hai vectơ . . . . . . . . . . .
1.1.5 Các loại khoảng cách thường dùng . . . . . . . .
1.2 Phân tích chùm . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Phân tích chùm là gì? . . . . . . . . . . . . . . .
1.2.2 Khái quát phân tích chùm . . . . . . . . . . . .
1.2.3 Các bước của phân tích chùm . . . . . . . . . .
1.2.4 Kiểm tra độ phù hợp của sự phân nhóm. . . . . .
1.3 Phân tích thành phần chính . . . . . . . . . . . . . . . .
1.3.1 Cấu trúc của các thành phần chính . . . . . . . .
1.3.2 Các thành phần chính của các biến đã chuẩn hóa
1.3.3 Phân tích các thành phần chính dựa trên một mẫu

1.3.4 Các kết luận thống kê dựa trên mẫu lớn . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Ứng dụng trong phân tích thổ nhưỡng đất trồng trọt của huyện Thanh
Ba - Phú Thọ
2.1 Phần mềm trợ giúp việc tính tốn . . . . . . . . . . . . . . . . . .

2.1.1 Giới thiệu chung . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Phần mềm SPSS . . . . . . . . . . . . . . . . . . . . . .
2.1.3 Sử dụng SPSS trong phân tích chùm . . . . . . . . . . . .
2.1.4 Sử dụng SPSS trong phân tích thành phần chính . . . . . .
2.2 Số liệu thổ nhưỡng đất . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Thổ nhưỡng đất . . . . . . . . . . . . . . . . . . . . . . .
1

5
5
5
10
10
11
11
13
13
14
16
26
28
28
34
36
38

40
40
40
40

41
43
46
46


MỤC LỤC

2.3
2.4

2

2.2.2 Sơ lược về điều tra đất . . . . . . . . . . . . . . . . .
2.2.3 Một số vấn đề về phẫu diện đất tại Thanh Ba - Phú Thọ
Kết quả áp dụng phương pháp phân tích chùm . . . . . . . . .
Kết quả áp dụng phương pháp phân tích thành phần chính . . .

Tài liệu tham khảo

.
.
.
.

.
.
.
.


47
47
50
54
60


LỜI NĨI ĐẦU

Phân tích chùm (Cluster Analysis - CA) là một phương pháp thống kê nhằm phân
loại các đối tượng (các biến) sao cho mỗi đối tượng (biến) là rất giống so với các
đối tượng (biến) khác trong cùng một nhóm dựa vào một vài tiêu chí đã được xác
định trước.
Phân tích thành phần chính (Principal Component Analysis - PCA) cũng là một
phương pháp thống kê nhằm rút gọn số liệu, biểu diễn và giải thích tập các số liệu
dựa trên việc biến đổi phân tích cấu trúc của một ma trận hiệp phương sai của
vectơ ngẫu nhiên thông qua việc phân tích các tổ hợp tuyến tính của các thành
phần của nó.
Trong khn khổ thời gian cho phép của luận văn Thạc sĩ, mục tiêu chính của luận
văn là tìm hiểu, hệ thống lại các kiến thức cơ bản có liên quan đến Phân tích chùm,
Phân tích thành phần chính dưới góc độ cơ sở tốn học và ứng dụng từ đó phân
tích trên một số liệu cụ thể. Luận văn được chia làm hai chương:
Chương một đề cập đến một số kiến thức thống kê liên quan. Các khái niệm cơ bản
của lý thuyết xác suất thống kê liên quan đến Phân tích chùm và Phân tích thành
phần chính như vectơ ngẫu nhiên, khoảng cách giữa hai vectơ. Sau đó là trình bày
chi tiết về Phân tích chùm và Phân tích thành phần chính, là cơ sở tốn học cho
ứng dụng của luận văn.
Chương hai đầu tiên là giới thiệu sơ lược về phần mềm trợ giúp việc tính tốn, về
thổ nhưỡng đất. Từ đó, đưa ra các kết luận cho số liệu thổ nhưỡng đất trồng trọt
của huyện Thanh Ba - Phú Thọ. Với kiến thức chuyên ngành chưa sâu sắc nên luận

văn chỉ mới đưa ra được một số kết quả ban đầu. Tuy nhiên, các kết quả có được
khá phù hợp với phân tích chun ngành và thực tế.


Lời cảm ơn
Trước tiên tơi xin bày tỏ lịng biết ơn sâu sắc tới thầy giáo hướng dẫn - Phó giáo
sư, Tiến sĩ Hồ Đăng Phúc, người thầy đã động viên, giúp đỡ và hướng dẫn tơi tận
tình trong q trình hồn thành luận văn.
Tơi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trong tổ Xác suất Thống kê đã giúp đỡ tôi rất nhiều trong quá trình học tập cũng như làm luận văn.
Đặc biệt, tôi xin gửi lời cảm ơn đến thầy giáo Lê Đức Vĩnh - Ngun trưởng bộ
mơn Tốn Trường Đại học Nơng Nghiệp Hà Nội đã nhiệt tình giúp đỡ, cung cấp
dữ liệu chính xác và một số kiến thức giúp tơi hồn thành luận văn này.
Cuối cùng là lời cảm ơn chân thành tới gia đình, bạn bè những người đã động viên,
giúp đỡ tơi trong q trình thực hiện luận văn.
Hà Nội, tháng 02 năm 2012


Chương 1
Một số kiến thức thống kê liên quan
1.1 Các khái niệm cơ bản
1.1.1 Vectơ ngẫu nhiên
Vectơ ngẫu nhiên n chiều là một ánh xạ từ không gian mẫu Ω vào Rn. Hay nói
cách khác, vectơ ngẫu nhiên X = (X1 , . . . , Xn) là một vectơ mà mỗi thành phần
X1 , . . . , Xn của nó là một biến ngẫu nhiên.
Ma trận ngẫu nhiên
Nếu X = (Xi j ) là ma trận cấp n × p mà các thành phần Xi j của nó là các biến ngẫu
nhiên sẽ được gọi là ma trận ngẫu nhiên.
Vectơ trung bình và ma trận phương sai
Cho X = (X1 , . . . , Xn)T là một ma trận ngẫu nhiên n×1. Vectơ EX = (EX1 , . . . , EXn)T =
(μ1 , . . . , μn )T được gọi là vectơ giá trị trung bình. Đại lượng σii = E(Xi − μi )2, i =

1, . . . , n được gọi là phương sai của Xi ; σi j = E(Xi −μi )(X j −μi ) với μi = E(Xi ), μ j =
E(X j ) được gọi là hiệp phương sai của hai biến Xi và X j , dễ dàng nhận thấy
σi j =

+∞ +∞
−∞ −∞

(xi − μi )(x j − μ j ) fi j (xi , x j )dxi dx j =

+∞ +∞
−∞ −∞

xi x j fi j (xi , x j )dxi dx j − μi μ j

nếu (Xi , X j ) có mật độ đồng thời là fi j (xi , x j ), còn
σi j =

xi x j

(xi − μi )(x j − μ j )pi j (xi , x j ) =

xi x j

xi x j pi j (xi , x j ) − μi μ j

nếu (Xi , X j ) là biến ngẫu nhiên rời rạc với xác suất đồng thời
P(Xi = xi , X j = x j ) = pi j (xi , x j )
trong đó tổng chạy theo tất cả các xi (tương ứng x j ) trong miền giá trị của các biến
ngẫu nhiên Xi (tương ứng X j ). Nếu i j và σi j = 0 thì các biến ngẫu nhiên Xi và
X j được gọi là không tương quan.

Xi và X j được gọi là độc lập nếu
5


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

P(Xi < xi , X j < x j ) = P(Xi < xi )P(X j < x j ), ∀xi , x j ∈ R1.
Đẳng thức đó tương đương với các đẳng thức sau
fi j (xi , x j ) = fi (xi ) f j (x j ), ∀xi , x j ,
khi Xi , X j có mật độ đồng thời fi j và các mật độ riêng là fi (xi ), f j (x j ), và
p j (xi , x j ) = pi (xi )p j (x j )
khi Xi , X j là các biến ngẫu nhiên rời rạc có xác suất đồng thời là p j (xi , x j ) và các
xác suất riêng là pi (xi ), p j (x j ).
Ta gọi EX = (EXi j ) là ma trận giá trị trung bình, trong đó







EXi j = ⎪






xi j p j (xi j ) Nếu Xi j là biến ngẫu nhiên rời rạc có hàm xác suất pi j (xi j )
xi j

+∞

xi j fi j (x)dx Nếu Xi j là biến ngẫu nhiên liên tục có hàm mật độ fi j (xi j ).
−∞

Chú ý, nếu Xi và X j độc lập thì σi j = 0, điều ngược lại cũng đúng trong trường hợp
Xi , X j có phân phối chuẩn.
Ma trận hiệp phương sai: Kí hiệu
cov(X − μ)(X − μ)T = [E(Xi − μi )(X j − μ j )]
và gọi đó là ma trận hiệp phương sai của vectơ X. Đặt = cov(X) = (σi j ) khi đó
là ma trận đối xứng xác định không âm cấp n.
σi j
; σii = 1 được
Hệ số tương quan và ma trận tương quan: Đại lượng ρi j = √
σii σ j j
gọi là hệ số tương quan của Xi và X j , còn ma trận
⎤ ⎡


⎢⎢⎢ 1 ρ12 . . . ρ1n ⎥⎥⎥ ⎢⎢⎢ 1 ρ12 . . . ρ1n ⎥⎥⎥
⎥ ⎢
⎢⎢⎢

⎢⎢⎢ ρ21 1 . . . ρ2n ⎥⎥⎥⎥⎥ ⎢⎢⎢⎢⎢ . 1 . . . ρ2n ⎥⎥⎥⎥⎥
⎥⎥
⎥⎥ = ⎢⎢
ρ = ⎢⎢⎢⎢
⎢⎢⎢ . . . . . . . . . . . . ⎥⎥⎥⎥⎥ ⎢⎢⎢⎢⎢ . . . . . . . . . . . . ⎥⎥⎥⎥⎥
⎥⎦⎥
⎥⎦⎥ ⎢⎣⎢

⎢⎣⎢
ρn1 ρn2 . . . 1
.
. ... 1
được gọi là ma trận tương quan của véc tơ X.
Ta có thể tính ma trận ρ từ ma trận như sau:


⎢⎢⎢ σ11 0 . . . 0 ⎥⎥⎥
⎢⎢⎢

⎢⎢⎢ 0 σ22 . . . 0 ⎥⎥⎥⎥⎥
⎥⎥ = diag(σ11 , σ22 , . . . , σnn ).
V = ⎢⎢⎢⎢
⎢⎢⎢ . . . . . . . . . . . . ⎥⎥⎥⎥⎥
⎢⎣⎢
⎥⎦⎥
0
0 . . . σnn
6


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

Đặt



V 1/2 = diag( σ11 , σ22 , . . . , σnn )
1

1
1
V −1/2 = diag( √ , √ , . . . , √ )
σ11 σ22
σnn
Khi đó ρ = V −1/2 ΣV −1/2 .
Vectơ giá trị trung bình và ma trận hiệp phương sai của các tổ hợp tuyến tính
của các vectơ ngẫu nhiên
Cho X1, X2 , . . . , Xn là các biến ngẫu nhiên thực, a, b, c, c1, . . . , cn là các số thực.
Khi đó ta có
E(cX1) = cE(X1 ).
var(cX1) = E(cX1 − cμ1 )2 = c2 E(X1 − μ1 )2 = c2 var(X1 ).
cov(aX1 , bX2) = E(aX1 − aμ1 )(bX2 − bμ2)
= abE(X1 − μ1 )(X2 − μ2 )
= abcov(X1 , X2).
var(aX1 + bX2 ) = E(aX1 + bX2 − aμ1 − bμ2 )2
= E[a(X1 − μ1 ) + b(X2 − μ2 )]2
= E[a2(X1 − μ1)2 + b2(X2 − μ2 )2 + 2ab(X1 − μ1 )(X2 − μ2 )]
= a2σ11 + b2σ22 + 2abσ12 .
Đặt C T = [a, b], khi đó


⎢⎢⎢ X1 ⎥⎥⎥
⎥⎥⎦ = C T X,
aX1 + bX2 = [a b] ⎢⎢⎣
X2
aEX1 + bEX2 = aμ1 + bμ2 = C T EX.
Vậy,
E(C T X) = C T EX,


⎢⎢ σ11 σ12
var(aX1 + bX2) = var(C T X) = C T ⎢⎢⎢⎣
σ21 σ22
7


⎥⎥⎥
⎥⎥⎦ C.


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

Một cách tổng quát, đối với tổ hợp tuyến tính C T X = c1 X1 + c2 X2 + . . . + cn Xn ta

E(C T X) = C T EX,
var(C T X) = C T

C.

Tổng quát hơn, nếu ta xét q tổ hợp tuyến tính
z1 = c11 X1 + c12 X2 + . . . + c1n Xn ,
z2 = c21 X1 + c22 X2 + . . . + c2n Xn ,
.........
zq = cq1 X1 + cq2 X2 + . . . + cqn Xn .
hoặc dưới dạng ma trận

⎢⎢⎢ z1
⎢⎢⎢
⎢⎢⎢ z2
Z = ⎢⎢⎢⎢

⎢⎢⎢ . . .
⎢⎢⎣
zq

⎤ ⎡
⎥⎥⎥ ⎢⎢⎢ c11
⎥⎥⎥ ⎢⎢⎢
⎥⎥⎥ ⎢⎢⎢ c21
⎥⎥⎥ = ⎢⎢⎢
⎥⎥⎥ ⎢⎢⎢ . . .
⎥⎥⎥ ⎢⎢⎢
⎦ ⎣
cq1

⎤⎡

⎥⎥⎥ ⎢⎢⎢ X1 ⎥⎥⎥
⎥⎥⎥ ⎢⎢⎢

⎥⎥⎥ ⎢⎢⎢ X2 ⎥⎥⎥⎥⎥
⎥⎥⎥ ⎢⎢⎢
⎥⎥⎥ = CX.




. . . . . . . . . ⎥⎥⎥ ⎢⎢⎢ . . . ⎥⎥⎥⎥⎥
⎥⎦
⎦⎥ ⎣⎢
cq2 . . . cqn

Xq
c12 . . . c1n
c22 . . . c2n

thì
EZ = CEX;

Z

= cov(Z) = cov(CX) = C

XC

T

.

Vectơ trung bình mẫu và ma trận hiệp phương sai mẫu
Xét véc tơ ngẫu nhiên X T = (X1 , X2, . . . , X p ). Ta thực hiện n quan sát độc lập về
X T . Giả sử quan sát lần thứ nhất ta thu được X1 = (x11 , x12 , . . . , x1p ), quan sát
lần thứ hai ta thu được X2 = (x21 , x22 , . . . , x2p ), . . . , và quan sát thứ n ta thu được
Xn = (xn1 , xn2 , . . . , xnp ). Kí hiệu
⎡ T
⎢⎢⎢ X1
⎢⎢⎢
⎢⎢⎢ X T
X = ⎢⎢⎢⎢ 2
⎢⎢⎢ . . .
⎢⎢⎣
XnT


⎤ ⎡
⎥⎥⎥ ⎢⎢⎢ x11
⎥⎥⎥ ⎢⎢⎢
⎥⎥⎥ ⎢⎢⎢ x21
⎥⎥⎥ = ⎢⎢⎢
⎥⎥⎥ ⎢⎢⎢ . . .
⎥⎥⎥ ⎢⎢⎢
⎦ ⎣
xn1

là ma trận được tạo bởi các quan sát. Đặt
8


x12 . . . x1p ⎥⎥⎥
⎥⎥⎥
x22 . . . x2p ⎥⎥⎥⎥
⎥⎥
. . . . . . . . . ⎥⎥⎥⎥
⎥⎥⎦
xn2 . . . xnp


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

x1 =

1 n
1 n

xi1 , . . . , x p =
xip .
n i=1
n i=1

Vectơ xT = (x1 , . . . , x p ) được gọi là vectơ trung bình mẫu. Ma trận


⎢⎢⎢ s11 s12 . . . s1p ⎥⎥⎥

⎢⎢⎢
⎢⎢⎢ s21 s22 . . . s2p ⎥⎥⎥⎥⎥
⎥⎥
S = ⎢⎢⎢⎢
⎢⎢⎢ . . . . . . . . . . . . ⎥⎥⎥⎥⎥
⎥⎥⎦
⎢⎢⎣
s p1 s p2 . . . s pp
được gọi là ma trận hiệp phương sai mẫu, trong đó
si j =

1 n
1 n
(xki − xi )(xk j − x j ) =
xki xk j − xi x j
n i=1
n i=1

được gọi là hiệp phương sai mẫu.
Ma trận tương quan mẫu

si j
được gọi là ma trận hệ số tương quan mẫu.
Ma trận R = (ri j ) với ri j =
(sii s j j )1/2
Như vậy


s1p
s12

⎤ ⎢⎢⎢ 1
⎥⎥
...
⎢⎢⎢ 1 r12 . . . r1p ⎥⎥⎥ ⎢⎢⎢
⎥⎥⎥
1/2
1/2 ⎥
(s
s
)
(s
s
)
11 22
11 pp
⎢⎢⎢
⎥⎥⎥
⎥⎥⎥ ⎢⎢⎢
s2p
⎢⎢⎢ r21 1 . . . r2p ⎥⎥⎥ ⎢⎢⎢ .

⎥⎥⎥
1
...
⎥⎥⎥ = ⎢⎢⎢
1/2
R = ⎢⎢⎢⎢
(s22 s pp ) ⎥⎥⎥⎥⎥
⎢⎢⎢ . . . . . . . . . . . . ⎥⎥⎥⎥ ⎢⎢⎢⎢
⎥⎥⎥
⎢⎢⎣
⎥⎥⎦ ⎢⎢⎢ . . .
...
...
...
⎥⎥⎥
⎢⎢⎣
⎥⎦
r p1 r p2 . . . 1
.
.
...
1
Cũng như ma trận tương quan ρ, nếu đặt
⎡ √
⎢⎢⎢ s11 0
⎢⎢⎢

⎢⎢⎢ 0
s22
D1/2 = ⎢⎢⎢⎢

⎢⎢⎢ . . .
...
⎢⎢⎣
0
0


⎥⎥⎥
⎥⎥⎥
⎥⎥⎥
⎥⎥⎥
. . . . . . ⎥⎥⎥⎥⎥
⎥⎦

s pp
...
...
...

thì
R = D−1/2 S D−1/2.
Chú ý rằng, nếu xét ma trận số liệu quy tâm

9

0
0


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN



⎢⎢⎢ x11 − x1
⎢⎢⎢ √
s11
⎢⎢⎢
⎢⎢⎢ x21 − x1
⎢⎢⎢ √
s11
X0 = ⎢⎢⎢⎢⎢
⎢⎢⎢
⎢⎢⎢ . . .
⎢⎢⎢ x − x
⎢⎢⎣ n1√ 1
s11

...
...
...
...

x1p − x p

s pp
x2p − x p

s pp
...
xnp − x p


s pp


⎥⎥⎥
⎥⎥⎥
⎥⎥⎥
⎥⎥⎥
⎥⎥⎥
⎥⎥⎥
⎥⎥⎥
⎥⎥⎥
⎥⎥⎥
⎥⎥⎥
⎥⎦

thì ta có
1
R = X0T X0.
n
1.1.2 Tích vơ hướng của hai vectơ
Cho V là một không gian vectơ, một ánh xạ T : V × V −→ R được gọi là tích vơ
hướng xác định trong V nếu nó thỏa mãn các tiên đề sau:
1. T (u, u) ≥ 0 ∀ u ∈ V; T (u, u) = 0 khi và chỉ khi u = θ.
2. T (u, v) = T (v, u) ∀ u, v ∈ V.
3. T (u + v, z) = T (u, z) + T (v, z) ∀ u, v, z ∈ V.
4. T (ku, v) = kT (u, v) ∀ u, v ∈ V, k ∈ R.
Tích vơ hướng của hai vectơ u, v cịn được kí hiệu là < u, v > .
Chú ý:
1. Trong một khơng gian vectơ có thể xác định nhiều tích vơ hướng khác nhau.
2. Mọi tích vơ hướng đều được sinh bởi một ma trận đối xứng xác định dương

Q nào đó. Ở đó Q là một ma trận vng cấp n, Q gọi là ma trận đối xứng xác
định dương nếu nó là ma trận đối xứng và xQxt > 0 ∀ x

θ.

1.1.3 Chuẩn của một vectơ
Cho V là một khơng gian vectơ với tích vơ hướng. Chuẩn của vectơ x ∈ V là số

||x|| = < x, x >.
Một số tính chất:
10


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

1. ||x|| ≥ 0; ||x|| = 0 ⇔ x = θ.
2. ||kx|| = |k|.||x||, ∀ k ∈ R, ∀ x ∈ V.
3. Bất đẳng thức Cauchy-Schwarz
Với hai vectơ x, y bất kỳ của V ta có: |< x, y >| ≤ ||x||.||y||.
4. Với mọi x, y ∈ V thì ||x + y|| ≤ ||x|| + ||y||.
Giả sử V là không gian vectơ với tích vơ hướng, với mọi x, y
θ thì từ BĐT
| < x, y > |
≤ 1 nên tồn tại ϕ ∈ [0; π] sao cho cosϕ =
Cauchy-Schwarz ta có
||x||.||y||
< x, y >
khi đó ta nói ϕ là góc giữa hai vectơ khác không x và y.
||x||.||y||
1.1.4 Khoảng cách giữa hai vectơ

Khoảng cách giữa hai vectơ x và y của khơng gian vectơ V với tích vơ hướng là số
d(x, y) = ||x − y||. Từ định nghĩa khoảng cách ta có ngay các tính chất sau:
1. d(x, y) ≥ 0 ∀ x, y ∈ V; d(x, y) = 0 ⇔ x = y.
2. d(x, y) = d(y, x) ∀ x, y ∈ V.
3. d(x, z) ≤ d(x, y) + d(y, z) ∀ x, y, z ∈ V.
Chú ý: Chuẩn và khoảng cách giữa các vectơ phụ thuộc vào tích vơ hướng được
xác định trong khơng gian vectơ.
1.1.5 Các loại khoảng cách thường dùng
Xét hai véc tơ x = (x1 , . . . , xn )T và y = (y1, . . . , yn )T . Sau đây là các khoảng cách
thường dùng để đo sự "gần nhau" giữa hai đối tượng.
Khoảng cách Euclid
d12(x, y) =

n
i=1 (xi

− yi )2 = (x − y)T (x − y).

Khoảng cách tổng
d2(x, y) =

n
i=1 |xi

11

− yi |.


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN


Khoảng cách max
d3(x, y) = max |xi − yi |.
i

Khoảng cách Minkowski
d4 (x, y) = (

n
i=1 |xi

1

− yi |m ) m , m = 1, 2, 3, . . .

Khoảng cách thống kê
d52 (x, y) = (x − y)T A(x − y)
trong đó A là ma trận xác định dương.
Khoảng cách Mahalanobis
d6 (x, y) =

(x − y)T

−1

(x − y)

Khoảng cách giữa các tập con rời nhau
Cho tập A = {a1 , . . . , an} với ai = (xi1 , . . . , xin ) khi đó C(A) = C 1, C2 , . . . , Cm được
gọi là phân hoạch bậc m của tập hợp A nếu thỏa mãn ba điều kiện sau:

1. Ci ⊂ A, Ci

∅ ∀i = 1, m,

2. Ci ∩ C j = ∅ ∀i
m

3.
i=1

j,

Ci = A.

Mỗi Ci ∈ C(A) còn được gọi là một lớp của phân hoạch C(A). Số phần tử ni của
lớp Ci được gọi là lực lượng của lớp Ci.
Gọi ci là trọng tâm của lớp Ci , c j là trọng tâm của lớp C j .
Ta có các khoảng cách xác định trong C(A) như sau:
1. D1 (Ci , C j ) = min d(a, b) với a ∈ C i , b ∈ C j .
2. D2 (Ci , C j ) = max d(a, b) với a ∈ C i, b ∈ C j .
3. D3 (Ci , C j ) = d(ci , c j ).
4. D4 (Ci , C j ) =

ni n j
d(ci , c j ).
ni + n j
12


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN


5. D5 (Ci , C j ) =

(c j − ci )T

−1

(c j − ci ).

Chú ý:
1. Các Di nói chung không phải là một metric mà chỉ là một siêu metric.
2. Trong định nghĩa khoảng cách giữa các tập con rời nhau thì d có thể là
d1 , d2 , d3 , d4 , d5 , d6 .

1.2 Phân tích chùm
1.2.1 Phân tích chùm là gì?
Phân tích chùm là tên của những kỹ thuật nhiều biến mà mục đích chính của chúng
là phân loại các thực thể tương tự từ những đặc trưng của chúng. Với một vài tiêu
chí lựa chọn đã được xác định trước chúng ta xác định và phân loại các đối tượng
(các biến) sao cho mỗi đối tượng (biến) là rất giống so với các đối tượng (biến)
khác trong cùng một nhóm. Việc phân nhóm như vậy sẽ chỉ ra có tính thuần nhất
cao trong mỗi nhóm, tính khác biệt cao giữa các nhóm. Như vậy, nếu phân loại là
thành công, các đối tượng trong cùng một nhóm sẽ gần nhau hơn nếu được biểu
diễn một cách hình học, trong khi các đối tượng trong các nhóm khác nhau sẽ xa
nhau hơn.
Phân tích chùm cịn được gọi là Q-phân tích, phân loại, phân tích phân loại hoặc
phân loại số học. Sự đa dạng trong tên gọi này là vì phương pháp phân nhóm được
sử dụng trong nhiều lĩnh vực khác nhau chẳng hạn như tâm lý học, sinh học, xã hội
học, kinh tế, kỹ thuật, và thương mại. Mặc dù có nhiều tên gọi khác nhau, nhưng
chúng có một đặc điểm chung đó là sự phân loại gắn liền với mối quan hệ trong

tự nhiên của các đối tượng. Đặc điểm này chính là yêu cầu cần thiết của tất cả
các cách tiếp cận phân loại nhóm. Như vậy, giá trị chính của phân loại nhóm nằm
trong đặc điểm tương đồng tự nhiên của dữ liệu.
Phân tích chùm là một cơng cụ hữu ích cho phân tích số liệu trong nhiều tình
huống khác nhau. Ví dụ, một nhà nghiên cứu người đã sưu tập số liệu với sự giúp
đỡ của một bộ câu hỏi trắc nghiệm có thể đối mặt với một số lượng lớn của những
13


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

đối tượng vô nghĩa trừ khi chúng được phân loại vào trong các nhóm có thể điều
khiển. Phân tích chùm có thể được sử dụng để thực hiện quá trình rút gọn số liệu
một cách có mục đích bởi giảm thơng tin từ một đám đông hoặc một tập lớn về
thông tin của các nhóm con cụ thể nhỏ hơn. Trong cách này, các nhà nghiên cứu
có một các diễn đạt ngắn gọn hơn, dễ hiểu hơn của những đối tượng với sự mất
mát tối thiểu của thơng tin.
Phân tích chùm cũng là hữu ích khi một nhà nghiên cứu hy vọng phát triển những
giả thuyết có liên quan đến tính tự nhiên của dữ liệu hoặc để kiểm tra những giả
thuyết đã được đề cập trước đó. Ví dụ một nhà nghiên cứu có thể tin rằng thái độ
hướng tới sự tiêu thụ của bia nhẹ so với bia nặng có thể được sử dụng để chia tách
khách hàng thành những nhóm một cách hợp logic. Phân tích chùm có thể được sử
dụng để đưa ra được thông tin hữu ích về sự giống nhau và khác nhau của các cá
thể điển hình trong mỗi nhóm.
Hai ví dụ kể trên chỉ là một phần nhỏ trong các kiểu ứng dụng của phân tích chùm.
Trong sinh học cho phép ghép nhóm tất cả các sinh vật tới sự phân loại tâm lý dựa
trên đặc tính cá nhân hay như phân tích thị phần của các nhà kinh tế, phân tích
chùm ln là một cơng cụ mạnh cho việc ghép nhóm các cá thể. Cơng cụ này có
thể được mở rộng tới phân loại các đối tượng bao gồm cấu trúc thị trường, phân
tích sự giống nhau và khác nhau giữa những sản phẩm mới và những sự đánh giá

thực thi của thương hội để xác định ghép lớp dựa vào các định hướng chiến lược.
Kết quả có thể là một sự bùng nổ các ứng dụng trong hầu hết các lĩnh vực, tạo ra
không chỉ là sự hiểu biết thành thạo về việc sử dụng phân tích chùm, mà cịn là sự
cần thiết cho một sự hiểu biết sâu hơn để giảm thiểu những sai số có thể mắc phải.
1.2.2 Khái quát phân tích chùm
Để minh họa tính tự nhiên của phân tích chùm, ta lấy một ví dụ hai biến. Giả sử
một nhà nghiên cứu thị trường phải xác định các phân khúc thị trường được kết nối
gần gũi trong một cộng đồng nhỏ. Hơn nữa, giả sử rằng một mẫu ngẫu nhiên của
đám đông đã được lựa chọn và thơng tin được xếp vào bảng theo hai tiêu chí sau:
1. Trình độ học vấn.
2. Sự trung thành đối với thương hiệu.
14


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

Tất cả những câu trả lời được đánh dấu trên đồ thị phân tán như Hình 1.1. Khảo
sát Hình 1.1 chỉ ra rằng tồn tại một mối quan hệ cụ thể nào đó. Cụ thể là, nhà

Hình 1.1:

nghiên cứu có thể vẽ một cách đơn giản một đường chia thành hai nhóm sao cho
các điểm trong mỗi nhóm là gần giống nhau. Trong thuật ngữ của phân tích nhóm,
nhà nghiên cứu đã xác định hai nhóm phân biệt với hệ số tương quan trung bình
giữa các cá thể trong mỗi nhóm khoảng 0.75. Hơn nữa, nếu nhà nghiên cứu xem
xét sự đại diện hữu ích của mỗi nhóm, có thể xác định được rằng hai nhóm là
khơng tương quan hoặc thậm chí là tương quan âm; nghĩa là, chúng là khá khác
nhau.
Trong trường hợp hai biến khái niệm này là đơn giản vì dữ liệu được xắp xếp dưới
dạng hai chiều. Tuy nhiên, trong hầu hết các nghiên cứu về thị trường, mỗi thực

thể được đo trên nhiều hơn hai biến và tình huống là phức tạp hơn nhiều.
Để minh họa một tình huống phức tạp như vậy ta có thể xét các biến có liên quan
có thể là định lượng, chẳng hạn, cân nặng, chiều cao, thu nhập, tuổi, hoặc các biến
có thể là định tính, chẳng hạn, tơn giáo, quốc tịch, chủng tộc, giới tính hoặc chúng
có thể là một vài sự kết hợp của cả hai loại trên. Nhưng bất kể là tình huống nào
thì sự sử dụng của phân tích chùm sẽ trở nên phức tạp hơn khi nhiều biến hơn được
thêm vào hoặc khi trộn các tập dữ liệu với các biến định lượng và định tính.

15


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

1.2.3 Các bước của phân tích chùm
Trong thực hành, phân tích chùm có thể được chia làm ba giai đoạn chính: tiếp
cận vấn đề, định danh các nhóm, và chứng minh tính đúng đắn và đưa ra thơng tin
hữu ích. Giai đoạn tiếp cận vấn đề là quá trình của việc xác định có hay khơng có
một cách phân nhóm và cách thức các nhóm có thể được phát triển. Giai đoạn định
danh các nhóm là q trình tìm hiểu các đặc trưng của mỗi nhóm và đưa ra một
tên hoặc nhãn mà xác định một cách chính xác tính tự nhiên của nhóm đó. Giai
đoạn thứ ba có liên quan đến việc đánh giá tính đúng đắn của việc phân nhóm (ví
dụ, xác định tính ổn định và tính tổng quát của nó) cùng với việc diễn tả các đặc
trưng của mỗi nhóm.
Bước 1: Tiếp cận vấn đề
Trong suốt bước này, bốn câu hỏi chính cần được xem xét kỹ lưỡng: Các biến được
sử dụng trong tính tốn sự giống nhau giữa các nhóm là gì? Sự giống nhau bên
trong nhóm nên được đo như thế nào? Trong các nhóm, thuật toán nào nên được
sử dụng để hoán đổi các đối tượng tương tự? Nên tạo ra bao nhiêu nhóm? Nhiều
cách tiếp cận có thể được sử dụng để trả lời những câu hỏi này, nhưng không cách
nào là tuyệt đối để đưa ra được một câu trả lời xác định cho mọi vấn đề. Hơn nữa,

những cách tiếp cận trên có thể cho ra những câu trả lời khác nhau cho cùng một
tập dữ liệu. Như vậy phân tích chùm, cùng với phân tích nhân tố giống nghệ thuật
nhiều hơn là giống khoa học. Bởi lý do này, chúng ta chỉ thảo luận những vấn đề
mang tính tổng quát nhất mà không tập trung vào những hạn chế lý thuyết cũng
như thực hành của chúng.
Lựa chọn biến trong phân tích chùm phải được hồn thành với sự xem xét cẩn thận
cả yếu tố lý thuyết lẫn thực hành. Giúp đưa ra một cách phân nhóm phù hợp nhất
đối với các đối tượng thông qua tất cả các biến. Nhà nghiên cứu phải nhận ra sự
quan trọng của việc lựa chọn chỉ những biến mà thể hiện đặc trưng các đối tượng
được phân nhóm, và gắn kết sự lựa chọn đó với các mục tiêu của phân tích chùm.
Kỹ thuật phân tích chùm khơng có nghĩa là chỉ ra sự khác nhau của các biến có
liên quan với các biến khơng liên quan. Nó chỉ phát triển từ các nhóm phù hợp
nhất của các đối tượng thông qua tất cả các biến.
Trong một cách thức thực hành cụ thể, phân tích chùm có thể bị ảnh hưởng một
16


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

cách rõ rệt bởi sự lựa chọn của chỉ một hoặc hai biến khơng thích hợp. Nhà nghiên
cứu nên xem xét các kết quả và bỏ đi các biến khơng có tác dụng phân biệt các
nhóm đã được xây dựng. Phương thức này xem xét hoặc lựa chọn các kỹ thuật
phân nhóm để xác định một cách cực đại các nhóm dựa trên chỉ những biến có thể
hiện sự khác nhau.
Tính tương đồng bên trong các nhóm có thể được đo bởi nhiều cách khác nhau.
Một cách là xem xét tính xấp xỉ hoặc gần nhau của mỗi cặp đối tượng để xác định
tính tương đồng giữa chúng. Vì khoảng cách là khái niệm đo tính khơng tương
đồng, một cách khác khoảng cách là thước đo sự khác nhau giữa các đối tượng
trong một cặp.
Thuật tốn phân nhóm

Câu hỏi thứ hai cần được trả lời trong giai đoạn tiếp cận vấn đề này là phương thức
nào nên được sử dụng để hốn đổi các đối tượng tương tự trong các nhóm? Nghĩa
là thuật tốn nhóm nào hay bộ các quy tắc nào là chính xác nhất? Đây là một vấn
đề khơng đơn giản vì đã có hàng trăm chương trình máy tính đang sử dụng các
thuật tốn khác nhau và nhiều chương trình đang được phát triển. Tuy nhiên, tiêu
chí quan trọng của tất cả các chương trình là cực đại sự khác biệt giữa các nhóm
so với sự khác biệt trong nội bộ các nhóm (Hình 1.2 minh họa điều này). Thuật
tốn nhóm được sử dụng chung nhất có thể được chia làm hai nhóm chung là phân
chùm có thứ bậc và phân chùm khơng có thứ bậc. Chúng ta sẽ thảo luận kỹ thuật
phân bậc trước.

Hình 1.2:

17


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

Phương pháp phân nhóm có thứ bậc
Phương pháp phân nhóm có thứ bậc liên quan đến sự xậy dựng một cấu trúc phân
bậc hay hình cây. Có hai kiểu cơ bản của phương pháp phân nhóm có thứ bậc là
cộng gộp và chia tách. Trong phương pháp cộng gộp, mỗi đối tượng khởi đầu với
nhóm của chính nó. Trong các bước tiếp theo, hai nhóm (cá thể) gần nhau nhất
được kết hợp vào trong một nhóm mới như vậy giảm số nhóm sau mỗi bước xuống
một đơn vị. Trong một số trường hợp, một cá thể thứ ba tham gia với hai cá thể
đầu tiên trong một nhóm. Trong một số trường hợp khác, nhóm khác của hai cá
thể tham gia cùng nhau để tạo một nhóm mới. Cuối cùng là, tất cả các cá thể được
ghép nhóm vào trong một nhóm lớn hơn; bởi lý do này, phương pháp cộng gộp
thỉnh thoảng được liên hệ tới các phương pháp xây dựng từ dưới lên. Quá trình này
được chỉ ra trong Hình 1.3; và được gọi là một biểu đồ hoặc một đồ thị cây.

Khi q trình nhóm được thực hiện theo chiều ngược lại của phương pháp cộng
gộp, nó được gọi là chia tách. Trong phương pháp này, chúng ta bắt đầu với một
nhóm lớn chứa tất cả các đối tượng. Trong các bước kế tiếp, các đối tượng mà khác
nhau nhất được phân tách và nhóm ban đầu được tách thành hai nhóm nhỏ hơn.
Q trình này kết thúc cho đến khi mỗi đối tượng trở thành một nhóm của chính
nó. Trong Hình 1.3 phương pháp thứ nhất sẽ đi từ trái qua phải và phương pháp thứ
hai đi từ phải qua trái. Vì phần lớn các phần mềm liên quan đều sử dụng phương
pháp thứ nhất nên chúng ta sẽ không thảo luận phương pháp thứ hai thêm nữa.

Hình 1.3:
18


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

Năm phương pháp cộng gộp phổ biến được sử dụng để phát triển nhóm là: Liên kết
đơn, liên kết hồn thành, liên kết trung bình, phương pháp Ward và phương pháp
điểm trung tâm. Những phương pháp này khác nhau trong cách thức tính khoảng
cách giữa các nhóm.
Phương pháp liên kết đơn được xây dựng dựa trên khoảng cách nhỏ nhất. Nó tìm
ra hai các thể tách biệt bởi khoảng cách ngắn nhất và thay thế chúng trong nhóm
thứ nhất. Tiếp theo khoảng cách ngắn nhất được tìm thấy và hoặc là một cá thể thứ
ba được tham gia vào nhóm hai cá thể kể trên để tạo thành một nhóm hoặc là một
nhóm gồm hai cá thể mới sẽ được hình thành. Quá trình này tiếp tục cho đến khi
tất cả các cá thể được ghép nhóm. Phương pháp này cịn được gọi là tiếp cận lân
cận gần nhất.
Khoảng cách của hai nhóm trong phương pháp này chính là khoảng cách bé nhất
trong các khoảng cách từ một cá thể tùy ý của nhóm này đến một cá thể tùy ý của
nhó kia. Hai nhóm được kết hợp tại bất kỳ bước nào bởi liên kết ngắn nhất (hay
mạnh nhất) giữa chúng. Tuy nhiên, vấn đề xuất hiện khi các nhóm được diễn tả,

giải thích một cách nghèo nàn. Trong những trường hợp như vậy, phương pháp liên
kết đơn tạo ra một dây chuyền dài giống hình con rắn, và cuối cùng là tất cả các
cá thể được liên kết trong một dây chuyền. Các cá thể tại các đầu mút của một dây
chuyền có thể là rất khác nhau. Một ví dụ của sự xắp xếp này được minh họa trong
Hình 1.4.

Hình 1.4:

19


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

Phương pháp liên kết hoàn toàn là gần tương tự như liên kết đơn ngoại trừ rằng
tiêu chí nhóm được xây dựng dựa trên khoảng cách cực đại. Vì lý do này, nó thỉnh
thoảng được liên hệ đến sự tiếp cận lân cận xa nhất. Đây là một phương pháp
đường kính. Khoảng cách xa nhất của bất kỳ hai cá thể trong một nhóm đại diện
hình cầu bé nhất mà chứa nhóm đó. Phương pháp này được gọi là liên kết hồn
thành bởi vì tất cả các đối tượng trong một nhóm được liên kết với đối tượng khác
tại một vài khoảng cách cực đại hoặc bởi tính tương tự cực tiểu. Chúng ta có thể
nói rằng tính tương tự trong nhóm là bằng đường kính nhóm. Phương pháp này
khử vấn đề con rắn được xác định với liên kết đơn.
Tuy nhiên vấn đề của khoảng cách độ đo giữa các nhóm vẫn nảy sinh. Hình 1.5
chỉ ra cách khoảng cách ngắn nhất và khoảng cách dài nhất có thể khơng đại diện
đúng tính tương tự giữa các nhóm.

Hình 1.5:

Sự sử dụng của khoảng cách ngắn nhất chỉ ra rằng hai nhóm là rất tương tự, trong
khi khoảng cách dài nhất chỉ ra rằng chúng là rất không tương tự.

Liên kết trung bình trong một nhóm khởi đầu giống liên kết đơn và liên kết hồn
thành nhưng tiêu chí xác định nhóm là khoảng cách trung bình trong tất cả các
khoảng cách từ một các thể của nhóm này đến một cá thể của nhóm kia. Kỹ thuật
như vậy khơng sử dụng các giá trị cực trị như hai liên kết trên mà sự xây dựng dựa
trên tất cả các phần tử. Sự tiếp cận liên kết trung bình dẫn tới sự kết hợp các nhóm
với các phương sai nhỏ.
20


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

Trong phương pháp của Ward, khoảng cách của hai nhóm là tổng của các bình
phương giữa hai nhóm được lấy tổng trên tất cả các biến. Tại mỗi bước trong
phương pháp nhóm, tổng các bình phương trong nhóm được cực tiểu trên tất cả
các phần, có thể nhận được bởi kết hợp hai nhóm từ bước trước. Phương pháp này
dẫn tới kết hợp các nhóm với một số lượng nhỏ của các đối tượng.
Trong phương pháp điểm trung tâm khoảng cách giữa hai nhóm là khoảng cách
(thường là khoảng cách Euclide) giữa các điểm trung tâm của chúng. Trong phương
pháp này, tại mỗi thời điểm mà các cá thể được ghép nhóm thì một điểm trung tâm
mới được xác định. Các điểm trung tâm nhóm di chuyển khi sự sát nhập nhóm
diễn ra. Nói một cách khác, có sự thay đổi trong một điểm trung tâm của nhóm,
tại mỗi thời điểm một cá thể mới hoặc một nhóm mới được thêm vào một nhóm
đã tồn tại. Phương pháp này là phổ biến đối với các nhà sinh học nhưng có thể đưa
ra các kết quả nhầm lẫn. Ưu điểm của phương pháp này là nó bị ảnh hưởng bởi các
yếu tố bên ngồi ít hơn so với các phương pháp phân bậc khác.
Nên được chú ý rằng phương pháp điểm trung tâm yêu cầu dữ liệu định lượng,
điều này hạn chế ứng dụng của nó trong các ngành khoa học xã hội.
Phương pháp phân nhóm khơng thứ bậc
Tương phản với phương pháp phân nhóm có thứ bậc, phương pháp phân nhóm
khơng thứ bậc khơng liên quan tới q trình xây dựng cây phân loại. Thay vào đó,

bước đầu tiên là chọn lựa tâm của nhóm, sau đó đưa tất cả các đối tượng nằm cách
xa không quá một ngưỡng khoảng cách xác định trước vào nhóm. Phương pháp
này có thể liên tưởng đến phương pháp ghép nhóm theo K-trung bình.
Kỹ thuật ghép nhóm khơng thứ bậc thường sử dụng một trong ba cách tiếp cận
sau: Phương thức ngưỡng tuần tự bắt đầu với lựa chọn một đối tượng ”hạt giống”
của nhóm, tất cả các đối tượng nằm cách điểm hạt giống không quá một khoảng
cách xác định trước được đưa vào nhóm. Tiếp đó, xác định đối tượng hạt giống của
nhóm thứ hai và đưa các đối tượng trong vòng khoảng cách đến điểm hạt giống
không vượt quá ngưỡng cho trước vào nhóm thứ hai này. Q trình trên được tiếp
tục theo nguyên tắc khi một đối tượng đã được ghép nhóm với một hạt giống thì
nó khơng được ghép nhóm với hạt giống khác nữa.
Ngược lại, phương thức ngưỡng song song lựa chọn đồng thời một số hạt giống
21


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

khi bắt đầu quy trình. Tiếp đó, các đối tượng nằm trong ngưỡng khoảng cách được
gán tới hạt giống gần nhất. Khi q trình tiến hành, ngưỡng khoảng cách có thể
thay đổi để tăng hoặc giảm số lượng các đối tượng trong mỗi nhóm. Như vậy, trong
thực hành, có thể xảy ra trường hợp một số đối tượng sẽ không được ghép nhóm
nếu chúng nằm ngồi ngưỡng khoảng cách cho trước so với bất kỳ hạt giống nhóm
nào.
Phương thức thứ ba liên quan tới mục tiêu tối ưu hóa, tương tự như hai phương
thức trên ngoại trừ việc ghép lại đối tượng từ nhóm này sang nhóm khác được thực
hiện dựa trên những tiêu chí tối ưu đã định.
Vấn đề chính mà các phương thức phân nhóm khơng thứ bậc gặp phải là cách thức
lựa chọn hạt giống hay các hạt giống nhóm. Ví dụ, với một sự lựa chọn ngưỡng
song song kết quả nhóm cuối cùng phụ thuộc vào thứ tự của các đối tượng trong
tập hợp dữ liệu và nếu như thứ tự thay đổi sẽ ảnh hưởng tới kết quả. Việc cụ thể

các hạt giống nhóm giống ban đầu trong phương thức ngưỡng song song có thể
hạn chế vấn đề này, nhưng quá trình lựa chọn hạt giống vẫn có thể ảnh hưởng tới
kết quả và do đó khơng thể khử hết được vấn đề này.
Bao nhiêu nhóm nên được kiến tạo?
Một vấn đế chính với tất cả kỹ thuật ghép nhóm là bao nhiêu nhóm nên được kiên
tạo. Có nhiều tiêu chí và hướng dẫn cho sự tiếp cận vấn đề này. Tuy nhiên, không
tiêu chuẩn, phương thức là chung cho tất cả các bài toán. Khoảng cách giữa các
nhóm tại các bước kế tiếp có thể cung cấp hướng dẫn hữu ích để lựa chọn thời điểm
dừng lại khi mà khoảng cách này đạt tới một giá trị cho trước hoặc khi khoảng cách
kế tiếp giữa các bước tạo ra một bước nhảy vọt. Cũng vậy, những hiểu biết lý thuyết
có thể gợi ý để lựa chọn số lượng các nhóm. Tuy nhiên, trong phân tích cuối, có
thể xem xét lời giải cho một vài số lượng khác nhau của các nhóm (ví dụ hai, ba,
hoặc bốn) và sau đó quyết định lựa chọn dựa trên một tiêu chí có trước, hợp lý
trong thực hành hoặc nền tảng lý thuyết.
Bước 2: Định danh các nhóm
Bước này liên quan đến kiểm tra những khẳng định đã được sử dụng để phát triển
các nhóm với mục đích đặt tên hoặc gán một nhãn mà diễn tả một cách chính xác
sự tự nhiên của các nhóm. Để làm rõ ràng quá trình này, chúng ta hãy quay trở lại
22


CHƯƠNG 1. MỘT SỐ KIẾN THỨC THỐNG KÊ LIÊN QUAN

ví dụ về bia ở trên. Giả sử rằng một thang thái độ được sử dụng mà đã chứa các
khẳng định xem xét sự tiêu dùng của bia. Các cá nhân được hỏi để đánh giá những
khẳng định này trên một thang 7 điểm. Ví dụ của các khẳng định là “Bia nhẹ có vị
dễ chịu”, hoặc là bia thơng thường có mùi mạnh, v.v . Giả sử xa hơn rằng dữ liệu
tiêu dùng và nhân khẩu đã được sưu tập.
Khi khởi động q trình định danh các nhóm, một độ đo được sử dụng một cách
thường xuyên là điểm trung tâm của nhóm (giá trị trung bình của các đối tượng

được chứa trong nhóm trên mỗi một biến). Nếu phương thức nhóm được thực hiện
trên dữ liệu nguyên bản, điều này sẽ là một sự diễn tả hợp logic. Nếu dữ liệu đã
được chuẩn hóa, hoặc nếu phân tích nhóm được thực hiện sử dụng các thành phần
phân tích nhân tố, ta sẽ phải quay trở lại tới dữ liệu ngun bản cho các giá trị gốc
và tính các thơng tin hữu ích trung bình sử dụng những giá trị này.
Bước 3: Đánh giá và đưa ra thông tin hữu ích
Đánh giá bao gồm các nỗ lực bởi những nhà phân tích để đảm bảo rằng các nhóm
là đại diện cho đám đông, tổng quát tới các đối tượng khác và ổn định trong một
thời gian. Sự tiếp cận trực tiếp nhất của hướng này là phân tách các mẫu, so sánh
lời giải nhóm và đánh giá sự tương ứng của các kết quả. Tuy nhiên cách tiếp cận
này thường là khó thực hành bởi vì thời gian, chi phí, hoặc tính sẵn có của đối
tượng cho phân tích nhóm nhiều chiều. Trong những ví dụ này một sự tiếp cận
chung là phân tách mẫu thành hai nhóm. Mỗi nhóm được phân tích nhóm một
cách tách biệt, sau đó các kết quả được đem ra so sánh. Một dạng đã chỉnh sửa là
để nhận các tâm nhóm từ một nhóm và sử dụng chúng với các nhóm cịn lại để xác
định các nhóm cần ghép, sau đó so sánh kết quả giữa hai nhóm trên.
Việc phân nhóm có thứ bậc kết nối một tập gồm N phần tử có các bước như sau:
1. Bắt đầu với N nhóm, mỗi nhóm chứa một phần tử, lập ma trận các khoảng
cách cấp N là D = (dik ).
2. Tìm một ma trận khoảng cách của các cặp các nhóm gần nhất. Giả sử khoảng
cách giữa hai nhóm gần nhất U, V là dUV .
3. Gộp nhóm U với nhóm V, kí hiệu nhóm mới là (UV). Lập các phần tử của
ma trận khoảng cách mới bằng cách.
23


×