Tải bản đầy đủ (.docx) (82 trang)

Một số kỹ thuật hiện đại trong phân tích thống kê nhiều chiều

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (520.7 KB, 82 trang )

®¹i häc quèc gia hµ néi

trêng ®¹i häc khoa häc tù nhiªn
----------------------------

Lê Thị Thanh Hà

MỘT SỐ KỸ THUẬT HIỆN ĐẠI TRONG PHÂN
TÍCH THỐNG KÊ NHIỀU CHIỀU

LuËn v¨n th¹c sÜ khoa häc

Hµ Néi-2013


đại học quốc gia hà nội

trờng đại học khoa học tự nhiên
----------------------------

Lờ Th Thanh H

MT S K THUT HIN I TRONG PHN
TCH THNG Kấ NHIU CHIU

Chuyờn ngnh: Lý thuyt xỏc sut v thng kờ toỏn hc
Mó s: 60 46 15

LUận văn thạc sĩ khoa học

Ngi hng dn khoa hc:



GS. TSKH NG HNG THNG

Hà Nội-2013


Mục lục
Lời cảm ơn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lời nói đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 Phân tích phân biệt tuyến tính
1.1

Quy tắc phân loại Bayes . . . .
1.1.1
1.1.2
1.1.3
1.1.4

1.2

Phân biệt Logistic . . . . . . . . .
1.2.1
1.2.2

2 Support Vector Machine
2.1

Support vector machine tuyến
2.1.1
2.1.2


2.2

Support vector machine phi tu
2.2.1
2.2.2
2.2.3
2.2.4

2.3

Support vector đa lớp . . . . . .
2.3.1
2.3.2
ii


3 Một số ví dụ thực tế
3.1

Minh họa về phân tích phân b

3.2

Ứng dụng SVM để phân loại e

3.3

Dữ liệu chẩn đoán ung thư vú


Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . .


iv

Lời mở đầu
Cách đây không lâu, phân tích đa biến chỉ bao gồm các phương pháp tuyến
tính minh họa trên các bộ dữ liệu nhỏ và vừa. Hơn thế nữa, tính toán thống kê
có nghĩa là xử lý hàng loạt và chủ yếu được thực hiện trên một máy tính lớn tại
cơ sở máy tính từ xa. Kể từ những năm 1970, tương tác tính toán mới chỉ bắt
đầu được khởi sắc và phân tích dữ liệu thăm dò là một ý tưởng mới. Trong các
thập kỷ tiếp sau, chúng ta đã thấy được một số phát triển đáng kể trong khả
năng tính toán địa phương và lưu trữ dữ liệu. Một số lượng lớn các dữ liệu
đang được sưu tập, lưu trữ, quản lý và tương tác với các gói phần mềm thống
kê cho phép việc phân tích dữ liệu phức tạp được thực hiện dễ dàng.

Ngày nay, các dữ liệu khổng lồ đã trở thành tiêu chuẩn để làm việc hơn
là bị đặt ở trường hợp ngoại lệ và thống kê là một môn khoa học được thay
đổi để theo kịp với sự phát triển này. Thay vì phụ thuộc quá nhiều vào kiểm
tra giả thuyết truyền thống, sự chú ý đang được tập trung vào thông tin hoặc
khám phá kiến thức. Theo đó, chúng ta thấy một số tiến bộ gần đây trong
phân tích đa biến bao gồm các kỹ thuật từ khoa học máy tính, trí thông minh
nhân tạo và lý thuyết học máy. Tuy nhiên, nhiều trong số các kỹ thuật mới
này vẫn còn đang trong giai đoạn mở đầu, chờ lý thuyết thống kê để bắt kịp
đồng thời còn chưa được phổ dụng mặc dù rất hiệu quả.
Nhằm tìm hiểu các kỹ thuật phân tích thống kê mới này, bản luận văn tập
trung vào 2 kỹ thuật đang được sử dụng rộng rãi hiện nay, đó là kỹ thuật
phân tích phân biệt và kỹ thuật Support vector machines. Ngoài phần mở
đầu, kết luận và tài liệu tham khảo, luận văn gồm có 3 chương:

Chương 1: "Phân tích phân biệt" trình bày các kỹ thuật phân loại của
phương pháp phân tích phân biệt bao gồm quy tắc phân loại Bayes và phân
biệt Logistic. Xuất phát là quy tắc phân loại cho bài toán nhị phân sau một


v

số trường hợp đặc biệt sẽ là quy tắc phân loại cho bài toán đa lớp.
Chương 2: "Support Vector Machines". Trong chương này, chúng ta sẽ
mô tả support vector machines tuyến tính và phi tuyến giống như lời giải
của bài toán phân loại nhị phân. Support vector phi tuyến kết hợp các phép
biến đổi không tuyến tính của các vectơ đầu vào và sử dụng các thủ thuật
kernel để có thể tính toán đơn giản hơn. Mặc dù phương pháp support
vector được xây dựng đặc biệt cho trường hợp phân loại nhị phân nhưng
chúng ta cũng nỗ lực để mở rộng phương pháp cho bài toán đa lớp.
Chương 3: "Một số ví dụ thực tế"
Hà nội, ngày 22 tháng 02 năm 2013


Chương 1
Phân tích phân biệt tuyến tính
Xét một tập L các quan sát nhiều chiều và giả thiết rằng mỗi quan sát được
lấy từ lớp K xác định nào đó có các tính chất đặc trưng. Các lớp này có thể
đồng nhất, ví dụ như loài thực vật, mức độ tín nhiệm của khách hàng, sự hiện
diện hay vắng mặt của 1 tình trạng y tế cụ thể, quan điểm về kiểm duyệt
Internet hoặc email spam. Để phân biệt các lớp đã biết từ nhữn g lớp khác
nhau, chúng ta sẽ liên kết 1 lớp nhãn duy nhất (hoặc 1 giá trị đầu ra) với mỗi
lớp; sau đó, quan sát sẽ được mô tả giống như là các quan sát đã gán nhãn.
Trong mỗi tình huống, chúng ta sẽ nhằm vào 2 mục đích chính


• Phân biệt: Chúng ta sẽ sử dụng thông tin trong một tập dữ liệu các

quan sát đã gán nhãn để xây dựng nên một "quy tắc phân loại" mà sẽ
tách được các lớp một cách tốt nhất có thể.
• Phân lớp: Cho sẵn một tập các thước đo trên một quan sát mới mà

chưa được gán nhãn, chúng ta sẽ sử dụng quy tắc phân loại để dự
đoán lớp của quan sát đó.
Một quy tắc phân loại là một tổ hợp của các biến đầu vào. Khi có 2 lớp (K =
2), chúng ta sẽ chỉ cần 1 quy tắc phân loại và khi có lớn hơn 2 lớp (K > 2),
chúng ta sẽ cần ít nhất là 2 và nhiều nhất là K − 1 quy tắc phân loại để phân
biệt các lớp và dự đoán lớp của quan sát mới.
Để hiểu rõ hơn, chúng ta sẽ xem xét một ví dụ về chuẩn đoán y tế sau đây.
Nếu một bệnh nhân vào phòng khẩn cấp với vấn đề đau dạ dày nghiêm trọng
1

Chương 1. Phân tích phân biệt tuyến tính


và các triệu chứng phù hợp với cả ngộ độc thực phẩm và viêm ruột thừa thì
1 quyết định đặt ra đó là " loại bệnh nào phù hợp với bệnh nhân hơn?" thì
sau đó bệnh nhân mới được điều trị. Trong bài toán này, chúng ta thấy rằng,
hướng điều trị thích hợp cho nguyên nhân gây bệnh này sẽ là phương pháp
đối lập với nguyên nhân gây bệnh còn lại: viêm ruột thừa đòi hỏi phải phẫu
thuật trong khi ngộ độc thực phẩm thì không, đồng thời việc chẩn đoán sai
có thể gây ra tử vong. Theo kết quả của các thử nghiệm lâm sàng, bác sỹ
quyết định khi một quá trình điều trị có thể tối đa hóa khả năng thành công .
Nếu tổ hợp các kết quả kiểm tra nhắm vào một hướng cụ thể thì phẫu thuật
được khuyến khích; ngược lại, các bác sỹ sẽ đề xuất điều trị không phẫu
thuật. Khi đó, một "quy tắc phân loại" sẽ được xây dựng từ các kinh nghiệm

dựa trên kết quả điều tra của các bệnh nhân điều trị trước. Quy tắc phân
loại càng đáng tin cậy thì cơ hội chẩn đoán thành công càng lớn đối với một
bệnh nhân mới trong tương lai.

1.1

Quy tắc phân loại Bayes

1.1.1

Quy tắc phân loại Bayes 2 lớp

Đầu tiên chúng ta xét bài toán phân loại 2 lớp (K = 2), trong đó chúng ta
mong muốn phân biệt giữa 2 lớp Π1, Π2.
Cho
P (X ∈ Πi) = πi, i = 1, 2,
là xác suất tiên nghiệm mà 1 quan sát ngẫu nhiên được lựa chọn X = x
thuộc Π1 hoặc Π2. Giả sử, mật độ xác xuất đa biến có điều kiện của X với
lớp thứ i là
P ({X = x|X ∈ Πi}) = fi(x), i = 1, 2
Theo định lý Bayes, chúng ta thu được xác suất hậu nghiệm

p(Πi|x) = P (X ∈ Πi|X = x) =
Như vậy, với một x cho trước, chúng ta có ý tưởng phân loại đó là gán x vào
lớp mà có xác suất hậu nghiệm cao hơn. Quy tắc này được gọi là quy tắc phân
Chương 1. Phân tích phân biệt tuyến tính


loại Bayes. Hay nói cách khác, chúng ta sẽ gán x vào Π1 nếu


và gán vào Π2 nếu ngược lại. Thay (1.3) vào (1.4), chúng ta có quy tắc phân

loại

Trên biên {x ∈
lớp.
1.1.2

Phân tích phân biệt tuyến tính Gauss

Bây giờ chúng ta sẽ làm quy tắc phân lớp Bayes chính xác hơn bằng giả
thiết Fisher rằng cả 2 mật độ xác suất nhiều chiều trong (1.2) là Gauss, có
vectơ trung bình tùy ý.
(a) Trường hợp có ma trận covariance chung. Tức là, f1( ) là 1 mật độ Nr(
1,

Σ1) và f2( ) là mật độ Nr( 2, Σ2), trong đó Σ1 = Σ2 = ΣXX . Tỷ số hai mật độ
f1(x)

f2(x)
Suy ra

loge

Như vậy
L(X) = loge{


Đặt


−1

b = ΣXX

(1−


Chương 1. Phân tích phân biệt tuyến tính

Khi đó
T

L(X) = b0 + b x.
Quy tắc phân loại
Quy tắc phân loại
r

Trên biên {x ∈ R |L(X) = 0}, phương trình kết quả là tuyến tính trong x và do
đó, xác định một siêu phẳng phân tách 2 lớp. Quy tắc (1.10) được gọi là
phân tích phân biệt tuyến tính Gauss(LDA). Biểu thức
T

T

−1

U = b x = ( 1 − 2) ΣXX x,
được gọi là hàm phân biệt tuyến tính Fisher(LDF).

Tổng xác suất phân loại sai

r

LDF chia không gian đặc trưng R thành 2 lớp rời nhau R1, R2. Nếu x rơi
vào R1, ta gán nó vào Π1 trong khi nếu x rơi vào R2, ta sẽ gán nó vào Π 2.
Bây giờ, chúng ta quan tâm tới xác suất phân loại sai x.
x sẽ bị phân loại sai nếu x được gán vào Π2 nhưng thực sự nó lại
thuộc Π1 hoặc x được gán vào Π1 nhưng thực sự nó lại thuộc vào Π2.
Khoảng cách Mahalanobis giữa Π1 và Π2 được định nghĩa là
2

T

=( 1− 2) ΣXX

−1

Ta có
T

E(U|X ∈ Πi) = b


T

var(U|X ∈ Πi) = b ΣXX b =
Đặt
Z

=


U − E(U|X ∈ Π )
i

var(U|X ∈ Πi)
Chương 1. Phân tích phân biệt tuyến tính

∼ N (0; 1)


Khi đó tổng xác suất phân loại sai là
P () = P (X ∈ R2|X ∈ Π1)π1 + P (X ∈ R1|X ∈ Π2)π2
trong đó,
P (X ∈ R2|X ∈ Π1) = P (L(X) < 0|X ∈ Π1)
=P(Z<−
(1.16)

= φ(−

P (X ∈ R1|X ∈ Π2) = P (L(X) < 0|X ∈ Π2)
(1.17)

Nhận xét 1.1.1. Nếu π1 = π2 =

P(X ∈ R2|X ∈ Π1) − P(X ∈ R1|X ∈ Π2) = φ( 2 )


và do đó P () = 2
dốc xuống. Như mong đợi, nó có giá trị 1 khi = 0 (2 phần tử là đồng nhất)
và tiến tới 0 khi
phần tử càng lớn thì càng ít có khả năng phân loại sai x.

Kịch bản lấy mẫu

Thông thường, có 2r +
chưa biết nhưng có thể được ước lượng từ tập dữ liệu trên X. Giả sử rằng
chúng ta có các mẫu độc lập từ 2 lớp Π 1, Π2. Cho {X1j } là mẫu kích thước
n1 lấy từ Π1 và cho {X2j } là mẫu kích thước n2 lấy từ Π2.
Các kịch bản khác nhau dưới đây là có khả năng khi lấy mẫu từ phần tử của
P:

Chương 1. Phân tích phân biệt tuyến tính
1. Lấy mẫu có điều kiện, trong đó 1 mẫu kích thước cố định n = n1 + n2

là được lựa chọn ngẫu nhiên từ P, và tại x cố định có n1(x) quan sát từ
Πi, i = 1, 2. Kịch bản lấy mẫu này thường xuất hiện trong sinh trắc
nghiệm.
2. Lấy mẫu hỗn hợp, trong đó 1 mẫu kích thước cố định n = n 1 + n2 là

được lựa chọn ngẫu nhiên từ P, thỏa mãn n1, n2 được lựa chọn ngẫu
nhiên. Điều này khá thông thường trong nghiên cứu sự phân biệt.
3. Lấy mẫu tách, trong đó mẫu kích thước ni cố định được lựa chọn ngẫu

nhiên từ Πi, i = 1, 2, và n = n1 + n2. Đây là kịch bản phổ biến nhất.
Trong cả 3 kịch bản, các ước lượng hợp lý nhất của b0, b có thể thu được
(Anderson, 1982).
Các ước lượng mẫu

Các ước lượng ML của
ˆi
ˆ
ΣXX

trong đó


SXX = SXX

(1)

+ SXX

(2)

ni

(i)

T

SXX =

(Xij − Xi)(Xij − Xi) , i = 1, 2; n = n1 + n2.
j=1

Nhận xét 1.1.2. Nếu chúng ta muốn ước lượng không chệch của ΣXX , chúng
ta chia SXX trong (1.20) cho bậc tự do của nó n − 2 = n1 + n2 − 2 để thu được

ΣXX .
Nếu π1, π2 chưa biết, chúng ta có thể sử dụng ước lượng
πˆi
Thay thế các ước lượng này vào L(X) trong (1.9) thu được
ˆ

L(x) = b0


Chương 1. Phân tích phân biệt tuyến tính

trong đó,
ˆ
ˆ

−1

b = ΣXX

b

1
=−

0

lần lượt là ước lượng ML của b, b0. Quy tắc phân lớp

Số hạng

ước lượng LDF Fisher.
(b) Trường hợp ma trận covariance khác nhau. Trong mục này chúng ta

sẽ tìm hiểu xem quy tắc phân lớp (1.10) sẽ thay đổi như thế nào nếu ma
trận covariance của 2 dữ liệu Gauss là khác nhau. Nghĩa là, Σ1 = Σ2.
Trong trường hợp này (1.7) trở thành


loge

f1

(x)

f2

(x)

trong đó c0, c1 là các hằng số mà chỉ phụ thuộc vào tham số 1,
số hợp lý log (1.28) có dạng 1 hàm bậc 2 của x. Trong trường hợp này, lập
T

T

Q(x) = β0 + β x + x

x,

trong đó
=

1

− 1

β =Σ 1


β
Chú ý rằng

− 1
1

− 2(Σ

−Σ

− 1
2 )

− 1
1−Σ 2 2


(1.29)

(1.30)
(1.31)
(1.32)

(1.33)


Chương 1. Phân tích phân biệt tuyến tính

Hàm Q(x) được gọi là hàm phân biệt bậc 2(QDF) và quy tắc phân lớp (1.33)
r


được gọi là phân tích phân biệt bậc 2 (QDA). Biên {x ∈ R |Q(x) = 0} mà
tách 2 lớp là một hàm bậc 2 của x.
Ước lượng hợp lý cực đại (ML)
Nếu r + 3 tham số phân biệt trong 1, 2, Σ1 và Σ2 là chưa biết và π1, π2 cũng
chưa biết (1 tham số điều kiện), chúng có thể được ước lượng bằng cách sử

dụng mẫu ở phía trên với ngoại lệ của ma trận covariance, trong đó ước lượng
của Σi là
ni

Σi =

−1
ni
j=1

Thay thế các ước lượng vào Q(x) trong (1.29), chúng ta có
T

T

Q(x) = β0 + β x + x
trong đó

=
−1
−1
β = Σ1 X1 − Σ2 X2


và c1 là ước lượng của số hạng đầu tiên trong (1.28).
Do quy tắc phân loại Q(x) phụ thuộc vào nghịch đảo của Σ1 và Σ2, nó chỉ
ra rằng nếu cả n1 hoặc n2 nhỏ hơn r thì Σi (i = 1 hoặc 2) sẽ suy biến và QDA
thất bại.

1.1.3

LDA thông qua hồi quy bội

Các kết quả phía trên cũng có thể thu được bằng cách sử dụng hồi quy bội.
Ý tưởng là chúng ta tạo ra một biến chỉ số Y biểu diễn các quan sát mà rơi

vào các lớp tương ứng, sau đó hồi quy Y trên vectơ đặc trưng X.
Cho
Y=



Chương 1. Phân tích phân biệt tuyến tính

là các nhãn lớp và cho
T

Y = (y11n
là vector hàng (1 × n), các thành phần của nó là các giá trị của Y cho toàn
bộ n quan sát. Cho
X = (X1.X2)
là ma trận (r × n), trong đó X1 là ma trận (r × n1) của các quan sát từ Π1 và
X2 là (r × n2) ma trận của các quan sát từ Π2. Cho


Xc = X − X = X H n
Yc = Y − Y = YHn,
−1

T

trong đó Hn = In − n Jn là ma trận trung tâm và Jn = 1n1n

n × n của 1.
Nếu chúng ta hồi quy vector hàng Y c trên ma trận Xc thì ước lượng OLS
của vector hệ số hồi quy bội β được cho bởi
β
ˆT
Chúng ta có
T

Xc Xc

T

Yc Xc

T

Yc Yc
trong đó
−1

−1


D = n1 X11n1 − n2 X21n2
T

SXX = X1Hn1 X1

T

+ X2Hn2 X2 ,

và k =

T

= k(y1 − y2)D S

− 1
XX

T

(Ir + kDD S



XX

1 −1

) .



(1.50)
(1.51)
Chương 1. Phân tích phân biệt tuyến tính

Chúng ta có
T

(Ir + kDD

khi đó,

ˆ

β =(

trong đó

ˆ

XX

= SXX /(n − 2) và
2

T

−1

T = kD ΣXX


D=

là thống kê Hotelling T 2, mà được sử dụng để kiểm tra giả thuyết
sử tính chuẩn tắc đa biến
(

n−r−1

2

)T ∼ Fr,n−r−1

(1.54)

r(n − 2)
2

T

khi giả thuyết này là đúng. Chú ý rằng D = D ΣX X

−1D là

tỷ lệ thuận với 1

ước lượng của 2. Từ (1.24) và (1.52), ta có
ˆ
β


(1.55)


trong đó, hằng số tỷ lệ là
nhận bởi Fisher(1936). Do đó, chúng ta có thể thu được ước lượng Fisher
LDF (1.24) thông qua hồi quy bội.

1.1.4

Quy tắc phân loại Bayes đa lớp

Bây giờ chúng ta giả sử rằng, các phần tử sẽ được chia vào K > 2 lớp
rời nhau. Xét ví dụ về phân loại văn bản. Ở mức độ đơn giản nhất của xử lý
thông tin, chúng ta cần lưu và phân loại các file, email và URL. Với mức độ
phức tạp hơn, chúng ta cần gán các mục tin tức, computer FAQs, an ninh
thông tin, xác định tác giả, nhận dạng thư rác,... để phân loại.
Cho
p(X ∈ Πi) = πi, i = 1, ..., K,


Chương 1. Phân tích phân biệt tuyến tính

là xác suất tiên nghiệm của một quan sát ngẫu nhiên được chọn X mà thuộc
vào mỗi lớp khác nhau và cho
p(X = x|X ∈ Πi) = fi(x), i = 1, ..., K,
là mật độ xác suất nhiều chiều cho mỗi lớp. Kết quả xác suất hậu nghiệm
mà 1 quan sát x thuộc lớp thứ i được cho bởi

p(Πi|x) = p(X ∈ Πi|X = x) =
Quy tắc phân loại Bayes cho K lớp là gán x vào lớp có xác suất hậu nghiệm

lớn nhất. Do mẫu số của (1.58) là như nhau với mọi Π i, i = 1, 2, ..., K, nên
chúng ta sẽ gán x vào Πi nếu
fi(x)πi = max fj (x)πj .
1≤j≤K

Nếu cực đại trong (1.59) là không xác định duy nhất 1 lớp mà x được gán
vào thì chúng ta sẽ sử dụng phép gán ngẫu nhiên để phá vỡ ràng buộc giữa
các lớp thích hợp.
Do đó, x được gán vào Πi nếu fi(x)πi > fj (x)πj, ∀j = i hoặc tương đương nếu
loge(fi(x)πi) > loge(fj(x)πj ), ∀j = i. Quy tắc phân loại Bayes có thể được xác
định ở một dạng tương đương bởi cặp so sánh các xác suất hậu nghiệm.
Chúng ta định nghĩa "log −odds" mà cho biết x sẽ được gán vào Πi chứ không

phải Πj như sau
L
Do đó, chúng ta gán x vào Πi nếu Lij (x) > 0, ∀j = i. Chúng ta xác định vùng
phân lớp R1, R2, ..., RK mà
r

Ri = {x ∈ R |Lij (x) > 0; j = 1, ..., K; j = i}, i = 1, ..., K.
Lập luận này có thể chính xác hơn bằng cách giả thiết rằng lớp thứ i Π i mà fi( )
là mật độ N ( i, Σi) trong đó i là r vector và Σi là ma trận (r × r) covariance, (i = 1,


2, ..., K). Chúng ta giả thiết sâu hơn rằng ma trận covariance cho K lớp là đồng
nhất Σ1 = = ΣK và bằng ma trận covariance chung ΣXX . Dưới giả
Chương 1. Phân tích phân biệt tuyến tính

thiết Gauss nhiều biến, log −odds của việc gán x vào Πi (phản đối Πj ) là
một hàm tuyến tính của x,

T

Lij (x) = b0ij + bij x,
trong đó
T

bij = ( i − j) ΣXX

−1

b0ij = −
Do Lij (x) là tuyến tính theo x, các Ri trong (1.61) chia không gian r chiều
bởi các siêu phẳng.
Ước lượng hợp lý cực đại
Thông thường, vector trung bình và ma trận covariance chung sẽ chưa biết.
Trong trường hợp đó, chúng ta ước lượng Kr +

r(r + 1)

tham số phân biệt 2

bằng cách lấy mẫu từ mỗi K lớp. Do đó, từ lớp thứ i, chúng ta lấy n i quan sát
Xij , j = 1, 2, ..., ni trên r vecttơ mà sau đó được lập thành ma trận dữ liệu
r×ni

Xi = (Xi1, ..., Xi,ni ), i = 1, 2, ..., K.
K

Cho n =


i=1

ni là tổng số quan sát. Do đó, Kma trận dữ liệu (1.65) là được

xếp thành 1 ma trận dữ liệu đơn X có dạng
r×nr×n1

X =(X1 .

, XK1, , XK,nK ). (1.66) được cho

= (X11,
Trung bình của mỗi biến cho lớp thứ i bởi rvector


−1

−1

Xi = ni Xi1ni = ni

Xij , i = 1, 2, ..., K,

và K vector đó được sắp xếp thành ma trận
r×n

X = (X1, ..., X1, ..., XK , ..., XK).


Cho

r×n

Xc = X − X = (X1Hn1 .


×