Tải bản đầy đủ (.pdf) (54 trang)

Phương pháp phân tích thành phần chính và ứng dụng với SPSS (2018)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.7 MB, 54 trang )

TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2
KHOA TOÁN
************

ĐOÀN THỊ THE

PHƢƠNG PHÁP PHÂN TÍCH
THÀNH PHẦN CHÍNH VÀ ỨNG DỤNG
VỚI SPSS

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán Ứng dụng

HÀ NỘI - 2018


TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2
KHOA TOÁN
************

ĐOÀN THỊ THE

PHƢƠNG PHÁP PHÂN TÍCH
THÀNH PHẦN CHÍNH VÀ ỨNG DỤNG
VỚI SPSS

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán ứng dụng

Ngƣời hƣớng dẫn khoa học
PGS.TS.TRẦN TRỌNG NGUYÊN



HÀ NỘI - 2018


LỜI CẢM ƠN
Để hoàn thành tốt khóa luận tốt nghiệp với đề tài “Phương pháp phân tích
thành phần chính và ứng dụng với spss”, tôi đã nhận được rất nhiều sự hướng dẫn,
giúp đỡ tận tình của các thầy cô, bạn bè.
Tôi chân thành cảm ơn thầy giáo – PGS.TS. Trần Trọng Nguyên. Thầy đã trực
tiếp chỉ bảo, tận tình hướng dẫn tôi trong suốt quá trình nghiên cứu, thực hiện đề tài.
Tôi chân thành cảm ơn quý Thầy, Cô trong Khoa Toán, Trường Đại học Sư
phạm Hà nội 2, đặc biệt là tổ Ứng dụng đã tạo điều kiện và thời gian cho tôi trong
suốt quá trình nghiên cứu. Thầy cô cũng là những người truyền đạt cho tôi những
kiến thức nền tảng để thực hiện khóa luận này.
Tôi xin cảm ơn những người thân, bạn bè luôn bên tôi, động viên tôi học tập và
hoàn thành khóa luận.
Do lần đầu tiên làm quen với công tác nghiên cứu khoa học hơn nữa do thời gian
và kiến thức chuyên môn còn hạn chế nên mặc dù đã có nhiều cố gắng song khóa
luận không tránh khỏi những thiếu sót, tôi rất mong sự góp ý, chỉ bảo thêm của quý
thầy cô và các bạn sinh viên.
Tôi xin chân thành cảm ơn!

Sinh viên
Đoàn Thị The


LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu độc lập của cá nhân tôi với sự cố vấn
của thầy giáo PGS.TS Trần Trọng Nguyên. Tất cả các nguồn tài liệu đã được công
bố đầy đủ, nội dung của khóa luận là trung thực.


Sinh viên
Đoàn Thị The


MỤC LỤC
LỜI MỞ ĐẦU ............................................................................................................ 1
Chƣơng 1 Kiến thức chuẩn bị ................................................................................. 3
1.1

Momen quán tính.........................................................................................3

1.1.1

Momen quán tính của chất điểm, hệ chất điểm đối với tâm ...................3

1.1.2

Momen quán tính của chất điểm, hệ chất điểm đối với đường thẳng.....3

1.2

Tích vô hƣớng của hai vectơ .......................................................................3

1.3

Biến ngẫu nhiên và các đặc trƣng của biến ngẫu nhiên ...........................4

1.3.1


Biến ngẫu nhiên ......................................................................................4

1.3.2

Các đặc trưng số của biến ngẫu nhiên ....................................................5

1.3.3

Ma trận hiệp phương sai, ma trận hệ số tương quan ..............................7

1.4

Giá trị riêng, vectơ riêng, vết của ma trận vuông ....................................7

1.4.1

Giá trị riêng, vectơ riêng của ma trận .....................................................7

1.4.2

Vết của ma trận (Trace A) ......................................................................7

Chƣơng 2 Lý thuyết phân tích thành phần chính (PCA) ..................................... 9
2.1

Mô tả số liệu .................................................................................................9

2.1.1

Số liệu và các đặc trưng ..........................................................................9


2.1.2

Không gian các cá thể ( E ) ................................................................11

2.1.3

Không gian các biến ( F ) ....................................................................12

2.2

p

n

Tạo biến – phép chiếu lên không gian tuyến tính ...................................12

2.2.1

Tạo biến mới .........................................................................................12

2.2.2

Phép chiếu lên không gian tuyến tính ...................................................13

2.3

Phƣơng pháp phân tích thành phần chính..............................................14

2.3.1


Phép chiếu lên không gian con .............................................................14

2.3.2

Trục chính, nhân tố chính và các thành phần chính .............................15

2.3.3

Xác định  và chọn số thành phần chính.............................................16

2.4

Phân tích thành phần chính với ma trận hệ số tƣơng quan ..................17

2.5

Phân tích kết quả phân tích thành phần chính.......................................18

2.5.1

Các kiểm định chung ............................................................................18

2.5.2 Tương quan của các thành phần và các biến ban đầu định danh các
thành phần chính ................................................................................................19


2.5.3

Phép quay các trục trong không gian ảnh .............................................20


2.5.4

Các hệ số phản ánh liên hệ của các cá thể và các thành phần chính ....21

2.5.5

Phân tích các biến trong R .................................................................22

2.6

n

Tiêu chuẩn chọn số thành phần chính cho một phân tích .....................23

Chƣơng 3 SPSS và ứng dụng trong phân tích thành phần chính ..................... 25
3.1

Giới thiệu phần mềm SPSS .......................................................................25

3.1.1

Tổng quan .............................................................................................25

3.1.2

Giới thiệu phần mềm SPSS ..................................................................25

3.2


Phân tích thành phần chính với SPSS .....................................................29

Bài toán 1 ...............................................................................................................29
Bài toán 2 ...............................................................................................................41
KẾT LUẬN .............................................................................................................. 47
TÀI LIỆU THAM KHẢO ...................................................................................... 48


LỜI MỞ ĐẦU
1. Lý do chọn đề tài
Trong công tác nghiên cứu thực nghiệm, ta thu thập được những bộ dữ liệu
thường được thể hiện dưới dạng bảng các giá trị số của nhiều cá thể. Chúng tạo
thành “đám mây số liệu” khá phức tạp và việc tìm hiểu thông tin từ đó gặp khó
khăn. Một trong những phương pháp hiệu quả trong xử lý số liệu nhiều chiều là
phương pháp phân tích thành phần chính – Principal component analysis (PCA). Ý
tưởng của phương pháp này là:
+ Giúp giảm số chiều của dữ liệu.
+ Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian
mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không
gian cũ.
+ Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của không gian cũ.
+ Trong không gian mới các liên kết tiềm ẩn của dữ liệu có thể được khám phá, mà
nếu đặt trong không gian cũ thì khó phát hiện hơn.
PCA được áp dụng để phân tích dữ liệu trong rất nhiều lĩnh vực như nông
nghiệp, kinh tế, y tế và các ngành khoa học khác.
Với mong muốn được tìm hiểu sâu hơn về lý thuyết phân tích thành phần chính
và cách thức phân tích dữ liệu bằng phương pháp phân tích thành phần chính trong
spss tôi đã chọn đề tài “Phương pháp phân tích thành phần chính và ứng dụng với
spss”.
2. Mục đích nghiên cứu

Tìm hiểu về một phương pháp phân tích dữ liệu thống kê nhiều chiều.
3. Nhiệm vụ nghiên cứu
Nghiên cứu về ý tưởng của phương pháp phân tích thành phần chính và ứng dụng
của mô hình này kết hợp sử dụng phần mềm thống kê SPSS để phân tích một số bộ
dữ liệu cụ thể.
4. Phƣơng pháp nghiên cứu
Một số phương pháp nghiên cứu được sử dụng trong khóa luận đó là:
1


Phân tích, tổng hợp các tài liệu về phương pháp phân tích thành phần chính.
Thu thập và xử lý dữ liệu nhiều chiều bằng phương pháp phân tích thành phần
chính trên SPSS.
5. Cấu trúc của khóa luận
Nội dung của khóa luận gồm 3 chương:
Chương 1: “Các kiến thức chuẩn bị” trình bày các khái niệm toán học, thống kê
có liên quan đến phân tích thành phần chính.
Chương 2: “ Lý thuyết phân tích thành phần chính” thể hiện ý tưởng của phương
pháp phân tích thành phần chính và phân tích kết quả phân tích thành phần chính.
Chương 3: “SPSS và ứng dụng trong phân tích thành phần chính” giới thiệu về
phần mềm SPSS và các bước thực hiện phân tích thành phần chính với một số bài
toán phân tích dữ liệu cụ thể.

2


Chƣơng 1 Kiến thức chuẩn bị
1.1 Momen quán tính
1.1.1 Momen quán tính của chất điểm, hệ chất điểm đối với tâm
Momen quán tính của chất điểm m đối với tâm O là đại lượng được định nghĩa


M m/O  md 2 ,trong đó: m là khối lượng của chất điểm, d là khoảng cách từ chất
điểm m đến tâm O.
Momen quán tính của hệ chất điểm { mi } đối với tâm O

M mi /O   mi di ,trong đó: mi là khối lượng của chất điểm thứ i, d i là
2

khoảng cách từ chất điểm mi đến tâm O.
Trọng tâm G của hệ chất điểm là vị trí thỏa mãn hệ thức

 m M G  0 , trong
i

i

i

đó: M i là vị trí chất điểm thứ i.

M mi /G   mi di 2  min
1.1.2 Momen quán tính của chất điểm, hệ chất điểm đối với đường thẳng
Momen quán tính của chất điểm m đối với đường thẳng d

M m/(d)  md 2 ,trong đó: m là khối lượng của chất điểm, d là khoảng cách từ chất
điểm m đến đường thẳng d.
Momen quán tính của hệ chất điểm mi đối với đường thẳng d

M mi /(d)   mi di ,trong đó: mi là khối lượng của chất điểm thứ i, d i là khoảng
2


cách từ chất điểm mi đến đường thẳng (d).
1.2 Tích vô hƣớng của hai vectơ
Định nghĩa 1.1 Cho hai vectơ u và v khác 0 ,  là góc hợp bởi u và v . Tích vô
hướng của hai vectơ u và v được ký hiệu là u.v là một số, được xác định bởi

u.v | u || v | cos .
Nếu u  v thì u.v  0
Nếu u || v thì u.v | u || v |

3


Biểu thức tọa độ của tích vô hướng:
+ Trong không gian 2 chiều: u (u1 ,u 2 ) , v (v1 , v2 ) thì u.v  u1v1  u2v2
Trong mặt phẳng Ox1 x2 , cho điểm M  x1 , x2  , đường thẳng  có vectơ chỉ phương

u (1 , 2 ) , || u || 1 và G là hình chiếu của M xuống 

Hình 1.1
Khi đó: OG  OM .U | OM | .cos  x11  x2 2





+ Trong không gian p chiều: M x1 , x2 ,., x p , U (1 , 2 ,...., p ) thì
OG  OM .U | OM | .cos  x11  x2 2  ....  x p p

Chú ý: Nếu 2 vectơ u và v là hai vectơ đơn vị thì u.v  cos

Do đó trong không gian p chiều với u (1 , 2 ,..., p ) và v (1 , 2 ,...,  p ) là các vectơ
đơn vị,  là góc hợp bởi giữa u và v thì cos  11   2 2  ...   p  p .
1.3 Biến ngẫu nhiên và các đặc trƣng của biến ngẫu nhiên
1.3.1 Biến ngẫu nhiên
Định nghĩa 1.2 (biến ngẫu nhiên một chiều):
Cho không gian xác suất (,P) . Một biến ngẫu nhiên với giá trị thực là một hàm số
đo được trên một không gian xác suất, X : (,P)  R .
Định nghĩa 1.3 (biến ngẫu nhiên nhiều chiều): Cho X1 , X 2 ,..., X n là các biến ngẫu
nhiên một chiều xác định trên không gian xác suất (,P) . Với mỗi   , ta có thể
làm phép tương ứng với một điểm X ( )  ( X1 (), X 2 (),..., X n ()) của không
gian Ơ-clit n chiều.
4


Ánh xạ  

n

lập bởi các vectơ ngẫu nhiên X1 , X 2 ,..., X n được gọi là một biến

ngẫu nhiên n chiều.
1.3.2 Các đặc trưng số của biến ngẫu nhiên
1.3.2.1 Kỳ vọng
Định nghĩa 1.4 (Kỳ vọng toán của biến ngẫu nhiên một chiều)
Trên không gian xác suất  , F , P  cho biến ngẫu nhiên X có hàm phân phối xác
suất F(x). Kỳ vọng toán của X là một số ký hiệu là E(X) hay  và được định nghĩa
như sau:
E  X      xdF  x 



với giả thiết là

 x dF  x  tồn tại.



Mệnh đề: Cho V (X,Y) là vectơ ngẫu nhiên,  (x, y) là hàm số liên tục. Khi đó nếu

R   (x, y) tồn tại kỳ vọng thì ER được xác định như sau:
Nếu X , Y là hai biến ngẫu nhiên rời rạc thì E  R     xi , y j  pij
i

Nếu X , Y là hai biến ngẫu nhiên liên tục thì E  R  

j

 

    x, y  f  x, y  dxdy

 

Ý nghĩa: Kỳ vọng biểu diễn giá trị trung bình của một biến.
Tính chất:

E (aX  bY )= aE(X)+bE(Y)
1.3.2.2 Phương sai, độ lệch chuẩn
Định nghĩa 1.5 Phương sai của biến ngẫu nhiên X được ký hiệu là V (X) (var(X))
hay  2 (X) và được xác định như sau:


  x  E  X  2 p  x 
i
 i


i
2
V  X    2  X   E  X  E  X    
2
  x  E  X  f  x  d  x 



Ý nghĩa: Phương sai của một biến ngẫu nhiên là thước đo sự phân tán thống kê của
biến đó.
5


Tính chất:

Var  X   E (X2 )   E ( X ) 

2

Var  ax  b   a 2var  X 

Định nghĩa 1.6 Căn bậc hai của phương sai của biến ngẫu nhiên X được gọi là độ
lệch tiêu chuẩn của biến ngẫu nhiên X, nó được ký hiệu là  (X) hay s X và
 (X)  s X  V ( X )


Ý nghĩa: Thể hiện sự chênh lệch về giá trị của từng biến so với giá trị trung bình.
Tính chất:

 (c)  0

 (X c)   (X)
 (cX) | c |  (X)
1.3.2.3 Hiệp phương sai
Định nghĩa 1.7 Hiệp phương sai của hai biến ngẫu nhiên X , Y được ký hiệu là
cov(X, Y) và được xác định như sau:





cov  X , Y   K  X ,Y   E  X  E  X   Y  E Y  





  xi  E  X    y j  E Y   pij


 i j 

   

   x  E  X   y  E Y  f ( x, y )dxdy
 






Ý nghĩa: Đo sự biến thiên cùng nhau của hai biến ngẫu nhiên.
Tính chất:

cov  X , X   var  X 
cov  X , Y   cov Y , X 
cov  aX , bY   ab cov  X , Y 
1.3.2.4 Hệ số tương quan
Định nghĩa 1.8 Hệ số tương quan tuyến tính giữa hai biến ngẫu nhiên X và Y được
ký hiệu và xác định như sau r  r (X, Y) 

cov(X, Y)
 X . Y

r nằm trong khoảng (1,1)
6


Ý nghĩa: Thể hiện độ mạnh mối quan hệ tuyến tính giữa X và Y

r  1 thì tương quan tuyến tính của hai biến thuận chặt chẽ

r  1 thì tương quan tuyến tính của hai biến nghịch chặt chẽ
r  0 thì hai biến không tương quan với nhau.
1.3.3 Ma trận hiệp phương sai, ma trận hệ số tương quan
Ma trận hiệp phương sai:


 cov(X1 , X1 ) cov(X1 , X 2 )
cov(X , X ) cov(X , X )
2
1
2
2
S X  (si , j )  

...
...

cov(X n , X1 ) cov(X n , X 2 )

... cov(X1, X n ) 
... cov(X 2 , X n ) 

...
....

... cov(X n , X n ) 

Ma trận hệ số tương quan: R  (rij ) với rij là hệ số tương quan tuyến tính của hai
biến X i và X j .
1.4

Giá trị riêng, vectơ riêng, vết của ma trận vuông

1.4.1 Giá trị riêng, vectơ riêng của ma trận
Cho ma trận vuông A  C nn

Đa thức bậc n của biến  : PA ( )  det(A  I) gọi là đa thức đặc trưng của ma
trận A.
Các nghiệm thực của đa thức đặc trưng PA ( ) gọi là các giá trị riêng của ma trận
A.
Ứng với mỗi giá trị riêng 0 ta xét hệ | A 0 I | u  0 (1).
Các vectơ khác không là nghiệm của hệ (1) gọi là các vectơ riêng của ma trận A
ứng với giá trị riêng 0 .
1.4.2 Vết của ma trận (Trace A)
Trace (A) (vết của A) được xác định bằng tổng các phần tử trên đường chéo chính
của A.
Tính chất:
+ tr (A) 

n


i 1

i

với i là các giá trị riêng của A

+ Cho A, B là các ma trận vuông cùng cấp, c là hằng số, khi đó:
7


tr (A B)  tr(A)  tr(B) ; tr (c.A)  c.tr(A)
+ tr (AB)  tr (B A) với A là ma trận n hàng, m cột, còn B là ma trận n hàng, m cột.
+ A là ma trận vuông cấp n bất kỳ, P là ma trận vuông cấp n khả nghịch. Liên hợp
của A theo P là PAP


1

thì tr (A)  tr(PAP1 ) .

+ tr (A)  tr(AT )
+ Nếu A là một ma trận đối xứng và B là ma trận phản đối xứng thì tr (AB)  0 .

8


Chƣơng 2 Lý thuyết phân tích thành phần chính
(PCA)
2.1 Mô tả số liệu
2.1.1 Số liệu và các đặc trưng
2.1.1.1 Bảng số liệu
Giả sử có n quan sát (n cá thể lập lên một mẫu i  1, n(i  I) ), mỗi quan sát có p tiêu
thức biến j  1, p,(j  I) .Ta thể hiện chúng dưới dạng ma trận:

 x11
x
21
X   X 1 | X 2 | ... | X j | ... | X n   
 ....

 xn1

.... x1 p 
.... x2 p 
.... .... 


.... xnp 
n p

x12
x22
....
xn 2

X i là dòng thứ i của X gồm các phần tử xi1 , xi 2 ,..., xip là vectơ các giá trị của các
biến quan sát được ở cá thể thứ i.
X j là cột thứ j của X bao gồm giá trị của một biến tại tất cả các cá thể.

2.1.1.2 Ma trận trọng số

 p1
0
D
 ...

0

0
p2
...
0

...
...
...

...

0
0 
... 

pn 

Trong đó pi là trọng số của mỗi cá thể đại diện cho một dòng (chúng thường là các
tần suất dòng trong bảng số liệu thô)
Nếu mỗi dòng của X tương ứng duy nhất một cá thể thì trọng số của các cá thể như
nhau có thể lấy bằng

1
.
n

9


2.1.1.3 Trung tâm của đám mây số liệu và ma trận trung tâm hóa
p

Mỗi cá thể được xem là một điểm trong không gian R , n điểm tạo nên một tập hợp
gọi là một “đám mây số liệu”. Điểm trung tâm của đám mây số liệu là g  X T Dl ,
n

l (1,1,...,1) , g   pi xij
T
j


i 1

Y  X  lgT  (yij ) là ma trận trung tâm hóa (có các cột là tọa độ của các vectơ

chênh lệch của các cá thể với vectơ g )
2.1.1.4 Ma trận hiệp phương sai và ma trận hệ số tương quan
Đây là đặc trưng quan trọng nói đến mức phân tán của mỗi biến và độ liên hệ giữa
chúng.
Ma trận hiệp phương sai (Var(X)):
n

n

V  X DX  gg , trong đó: X DX  (qij ) , qij   pk xki xkj , g   pi xij
T

T

T

k 1

T
j

i 1

Hơn nữa: V  X T DX  gg T  (X lgT )T D(X lgT )  YT DY
Ma trận hệ số tương quan:

Gọi ma trận D1/s là ma trận đường chéo với các thành phần là 1/ Se(X j )  1/ s j

0
...
0 
1 / s1


0
1
/
s
...
0
2

D1/ s  
 ...
... ... ... 


0
0 1 / s p 
 0
Ta có ma trận hệ số tương quan tuyến tính của các biến (R) được tính như sau :

R  D1/ SVD1/ S
2.1.1.5 Chuẩn hóa ma trận X
Với mỗi biến X j , j  1.. p đặt Z j 


X j  j
sj

Thì Z j được gọi là các biến đã được chuẩn hóa của biến X j
Đặt Z  (Z1 , Z2 ,..., Z p )  (zij ) thì zij 

yij
sj

hay Z  YD1/S

Ta có R  Y 1Z (YT DY) Y1 Z  Z T (Y 1 )T (YT DY) Y1 Z  Z T DZ
10


Vì Z có vectơ trung tâm là vectơ 0 nên R cũng chính là ma trận hiệp phương sai của
Z.
p

2.1.2 Không gian các cá thể ( E )
E p  {X1 ,X2 ,...,Xn },Xi (x i1 , x i 2 ,..., x ip ) , i  1..n là các cá thể.

2.1.2.1 Khoảng cách giữa hai cá thể (hai điểm X1,X2 ) trong đám mây số liệu
d 2  a1 (x11  x 21 )2  a2 (x12  x 22 )2  ...  a j (x1 j  x 2 j )2  ...  a p (x1 p  x 2 p )2

ai > 0 là trọng số của mỗi cột của X
 a1 0
0 a
2
2

T 
Hay d  (X1  X 2 )
 ... ...

0 0

... 0 
... 0 
(X  X 2 )
... ...  1

... an 

2.1.2.2 Khoảng cách M (Metric M)
Tổng quát ta có thể chọn một ma trận đường chéo dương cấp p M và khoảng cách
p

giữa hai điểm trong không gian E được xác định theo công thức:
d 2  (Xi  X j )T M (Xi  X j )

Tích vô hướng của hai vectơ:
Xi , X j

M

 X iT MX j

|| X ||M  X T MX
Nếu chỉ quan tâm đến độ phân tán của các biến có thể chọn ma trận M  D1/s2 ( đây
là ma trận có đường chéo là nghịch đảo của các phương sai của các biến )

Ta có thể biến đổi từ khoảng cách M sang khoảng cách Ơ-clit bằng cách thay

M  CT C với C là ma trận vuông cấp p (do M là ma trận xác định dương). Khi đó:
X i , X j  X iT MX j  X iT C T CX j  (CXi )T (CX j ) .
2.1.2.3 Quán tính
Tổng quán tính của đám mây với tâm của nó là tổng các khoảng cách từ các điểm
đến tâm của đám mây đó (đo bằng metric M), đại lượng này được tính như sau:
n

I g   pi (Xi  g)T M (Xi  g)
i 1

11


Nếu thay tâm g bởi một điểm a nào đó thì theo công thức Huyghens
I a  I g  (g a)T M (g a)  I g  || g a ||2
n

n

n

Đặc biệt khi g  0 ta có I g   pi X i MX i . Khi đó: 2 I g   pi p j || Xi  X j ||2
T

j 1 i 1

i 1


Mối liên hệ giữa Ig, ma trận hiệp phương sai V và M :
I g  Trace  MV   Trace VM 

Nhận xét :
- Nếu M  E thì tổng quán tính là tổng phương sai của các biến.
- Nếu M  D1/ s2 thì tổng quán tính là tổng các phần tử trên đường chéo ma trận R
hay chính bằng p
Nếu chọn khoảng cách Ơ-clit cho không gian các cá thể thì tổng quán tính là tổng
các phần tử trên đường chéo của V.
n

2.1.3 Không gian các biến ( F )
F n  {X1 ,X2 ,...,X p },X j (x j1 , x j 2 ,..., x jn ) , j  1.. p được gọi là các biến.
n

X j , X k  X j T DX k   pi x ji xki
i 1

Với M =D tích vô hướng trên chính là hiệp phương sai của các cột trong X đã được
trung tâm hóa (Skj).
Chuẩn của các vectơ cột chính là phương sai của các cột này (S2j)
Đối với các biến ta quan tâm đến quan hệ tương quan của chúng . Tương quan của
các biến có thể biểu diễn hình học bởi góc giữa các vectơ trong không gian En.

cos ku 

Xk , Xu
S
 ku
|| X k || . || Xu || Sk Su


Đây chính là hệ số tương quan tuyến tính của Xk và Xu, hệ số này có tính chất đối
xứng.
2.2 Tạo biến – phép chiếu lên không gian tuyến tính
2.2.1 Tạo biến mới

12


Trong phân tích thống kê, ta tổng hợp thông tin để theo đó có được những hiểu biết
về tổng thể mà mỗi cá thể không thể hiện được bằng cách tạo ra các biến mới là tổ
hợp tuyến tính của các biến ban đầu.
T1  a1T X  a11 X1  a12 X 2  ...  a1 p X p
T2  a2T X  a21 X1  a22 X 2  ...  a2 p X p

..........................................................
Tp  aTp X  a p1 X1  a p 2 X 2  ...  a pp X p

Ta có D(Ti )  a iT  ai
cov(Ti ,Tj )  a iT  a j

2.2.2 Phép chiếu lên không gian tuyến tính
Trong không gian các biến F, phép tổ hợp tuyến tính các vectơ X j ( j  1.. p ) tạo
nên các vectơ mới trong F. Với các vectơ này các cá thể trong E được biểu diễn
bằng các vectơ mới trong E’ có số chiều nhỏ hơn E rất nhiều, chúng chính là hình
chiếu của các vectơ ban đầu trên hệ tọa độ mới của F.
Một điểm (một dòng của X) với cá thể i: X i* có ảnh qua phép chiếu trên trục  là

f i . Trên trục  xác định vectơ chỉ phương a , || a ||M  1 lúc đó X i* tương ứng với
một giá trị ci  d (O,fi ) . Với n cá thể, ta có n giá trị c1, c2 ,...., cn lập nên một vectơ


c(a) trong F.
Như vậy: ci  aT MX i*  X i*T Ma  a, X i*

M

p

Từ đó ta có c  XMa  Xu   u j . X j
j 1

với u  Ma là một vectơ trong F, c là hình chiếu của X trên u.
Như vậy, c là tổ hợp tuyến tính của các cột trong ma trận X.
Metric của a là aT Ma thì metric của u là uT M 1u
V (c)  cT Dc  (Xu)T D(Xu)  uT X T DXu  uTVu

13


Biểu thức trên cho thấy khả năng bảo tồn sự biến động của các cá thể cũng như các
biến đã được mô tả trong X bởi vectơ c.
2.3 Phƣơng pháp phân tích thành phần chính
2.3.1 Phép chiếu lên không gian con
2.3.1.1 Phép chiếu lên không gian con
Xét P là phép chiếu các cá thể nên không gian con r chiều.
Với phép chiếu P, mỗi vectơ dòng của X sẽ được biến đổi thành một vectơ trong Fr
qua công thức fi  PX i* hay fiT  X i PT .
2.3.1.2 Phép chiếu vuông góc các cá thể lên không gian con
Xét không gian con E, p chiều của các cá thể x
P là một phép chiếu M vuông góc nếu (G là không gian con có số chiều lớn nhất

bằng p) và  Px, x  Px   0 .
P là một phép chiếu M vuông góc đến không gian con Fr thì P có các tính chất sau :
+ P 2  P ( P lũy đẳng)
+ MP  PT M
+ Giả sử P1, P2,…,Pr là các phép chiếu M- vuông góc thì

 P1  P2  Pr 

là một

phép chiếu M- vuông góc khi và chỉ khi PP
i j  0 i  j
Với mỗi phép chiếu này áp dụng cho X, ma trận hiệp phương sai của đám mây ảnh
là :  XPT  D  XPT   PVPT
T



Quán tính tổng của đám mây ảnh là Trace PVPT M



 Trace VMP 

Nhiệm vụ là ta cần tìm phép chiếu P hay tìm một không gian chiếu Fr sao cho
Trace(VMP) lớn nhất.
Xác định phép chiếu P :
Giả sử W là không gian ảnh các dòng của X, các vectơ trong W có dạng Xu.
P là một phép biến đổi tuyến tính (E :  W) nên Px  Xb
P phải thỏa mãn điều kiện  x  Px  vuông góc với mọi vectơ của W nên


 Xui , x  Px   0

với mọi i  1,.., n.

14


Từ đó ta có: uiT X T M  x  Px   0  i
Hay

X T Mx  X T MPx  X T MXb . Suy ra:
b

X

T

1
1
MX  X T Mx  Xb   X  X T MX  X T M  x



 P  X  X T MX  X T M
1

Vậy với mỗi cá thể x  X i* ta có: Px  x(xT Mx)1 xT Mx
2.3.2 Trục chính, nhân tố chính và các thành phần chính
2.3.2.1 Trục chính

Trong không gian các cá thể, ta phải tìm một đường thẳng đi qua g (vectơ trung tâm
của đám mây số liệu) sao cho quán tính của đám mây ảnh trên trục này lớn nhất.
Giả sử a là vectơ chỉ phương của đường thẳng nói trên. Phép chiếu M vuông góc lên
đường thẳng này là P  a(aT Ma)1 aT M . Quán tính của đám mây ảnh là:

Trace VMP   Trace ( VMa(aT Ma)1 aT M )=

1
Trace(a T MVMa)
T
Trace(VMaa M) 
aT Ma
aT Ma
Ma trận MVM được gọi là ma trận quán tính của đám mây, nó xác định một dạng
toàn phương với tất cả các vectơ có chuẩn theo độ đo M bằng 1.
Ta cần tìm cực đại quán tính trên với ẩn là a.

aT MVMa
 T
T
T
a Ma  (a Ma)2 MVMa  (a MVMa)2 Ma  0
a
(a T Ma)2

 MVMa 

aT MVMa
Ma (vì aTMa là một số thực)
T

a Ma

Do aTMVMa cũng là một số thực nên khi M không suy biến ta có:

aT MVMa
VMa 
a  a
aT Ma
Từ đây ta có a là vectơ riêng của ma trận VM, còn  

aT MVMa
là giá trị riêng của
aT Ma

VM. Giá trị riêng này chính là quán tính của đám mây ảnh trên trục chứa vectơ chỉ
phương a.
15


Kết luận: Không gian r chiều  Fr  cần tìm có cơ sở là r vectơ chỉ phương tương
ứng với r giá trị riêng lớn nhất (theo thứ tự giảm dần của ma trận VM)
Các vectơ riêng a của VM được gọi là các trục chính.
2.3.2.2 Nhân tố chính
Với trục chính a, ta xác định một vectơ u  Ma gọi là nhân tố chính.
Từ VMa  a ta có MVMa   Ma hay MVu  u nên u là vectơ riêng của MV
tương ứng với giá trị riêng  của MV.
2.3.2.3 Các thành phần chính:
Thành phần chính  ci  là các vectơ nhận được từ phép biến đổi (phép chiếu) X lên
các trục ui .


ci  Xui có đặc trưng V  ci   i  i  1,.., r 
Chứng minh :
Gọi c là một thành phần chính bất kỳ, theo metric M ta có :
V  c   cT Mc  uT X T MXu  uTVu  uT M 1 u  uT M 1u  

Từ MVu  u , với V  X T DX ta có MX T DXu  u  XMX T DXu   Xu
T
T
 XMX Dc  c . Biểu thức này chứng tỏ c là vectơ riêng của XMX D ứng với

giá trị riêng  .
Bảng 2.1: Mối liên hệ giữa trục chính, nhân tố chính và các thành phần chính
Thành phần phân tích

Phương trình xác định

Độ đo

Nhân tố chính

MVu  u

Chuẩn M-1

Trục chính a

VMa  a

Chuẩn M


Thành phần chính c

XMX T c  c

D - trực giao

Các liên hệ

C  Xu, u  Ma

2.3.3 Xác định  và chọn số thành phần chính
Thực tế khi phân tích một tổng thể qua một mẫu, việc chọn số thành phần chính
tùy thuộc vào yêu cầu sử dụng và phân tích kết quả. Thông thường để nhìn thấy trực
quan kết quả phân tích thành phần chính người ta thường chọn r = 2 hoặc r = 3.
16


Để tìm trục chính ta cần giải phương trình VMa=  a  (VM  E )a  0
Phương trình trên có nghiệm khác 0 khi và chỉ khi |VM-E  | = 0, định thức
|VM-E  | là đa thức bậc p của  .
Thuật toán tìm các giá trị riêng:
Tìm 1 : Đặt VM=A(1)
Cho y0 là một vectơ khác 0 bất kỳ. Tính
xi  A(1) yi 1
xi

yi 

xiT xi


Khi đó : lim yi   y (1) và 12  lim(x iT x i )
i 

i 

Tìm k :
Đặt Ak  Ak 1  k 1 y ( k 1) (y( k 1) )T
Tiếp tục thuật toán trên với A(k) sau khi đã có k  1 giá trị riêng và k  1 vectơ riêng
của phương trình đặc trưng nói trên.
2.4 Phân tích thành phần chính với ma trận hệ số tƣơng quan
Trong rút gọn đám mây số liệu hay phân tích thành phần chính với ma trận hệ số
tương quan người ta sử dụng metric M = D1/s2. Điều này tương đương với dùng
Metric M =E đối với bảng số liệu đã chuẩn hóa (Z) tương ứng với bảng số liệu ban
đầu (X)
Vì ma trận hiệp phương sai của bảng số liệu đã trung tâm hóa và chuẩn hóa chính
là ma trận hệ số tương quan R, nên các nhân tố chính sẽ là các vectơ riêng của R.
Vectơ u được xác định nhờ phương trình Ru  u , với || u || 1
Thành phần chính đầu tiên c là tổ hợp tuyến tính của các biến đã được chuẩn hóa
có độ phân tán cực đại c  Xu. Người ta chứng minh được tổng bình phương các hệ
số tương quan tuyến tính của c với các cột của ma trận X cực đại, tức là
p

r
j 1

2

(c, X j ) đạt giá trị cực đại.

Điều này có nghĩa là các vectơ thành phần chính c có liên hệ chặt chẽ nhất với

các biến ban đầu.
17


 Phân tích nhân tố bằng phương pháp thành phần chính là việc thay thế p biến
ban đầu, có quan hệ tương quan với nhau bằng một số biến mới là tổ hợp tuyến tính
của chúng. Các biến này không tương quan với nhau sao cho giữ được sự khác biệt
tối đa giữa các các thể nhưng lại đảm bảo được sự liên hệ tối đa của chính các biến
ban đầu. Đây thực chất là một cách phân tích nhân tố tuyến tính nhờ các phép biến
đổi tuyến tính.
2.5 Phân tích kết quả phân tích thành phần chính
Nếu p biến hoàn toàn độc lập thì việc phân tích nhân tố bằng phương pháp thành
phần chính không đem lại lợi ích gì vì nếu ma trận hệ số tương quan là ma trận đơn
vị thì mỗi vectơ của X là một thành phần chính và hầu như chúng vuông góc với
nhau. Mỗi biến phản ánh một mặt độc lập của các cá thể, không có gì phải phân
tích, trong trường hợp này, bỏ đi biến nào ta mất đi hoàn toàn thông tin về các cá
thể có trong biến đó. Do đó giả thuyết quan trọng của phân tích nhân tố chính là các
biến có quan hệ tương quan tuyến tính với nhau
2.5.1 Các kiểm định chung
Trong phân tích nhân tố bằng phương pháp thành phần chính người ta thực hiện
các kiểm định về sự hợp lý của các biến tham gia phân tích. Hai kiểm định thường
dùng là kiểm định khi bình phương qua thống kê Bartlett và KMO
+ Kiểm định Bartlett:
H0: Ma trận hệ số tương quan R= E
H1: Ma trận hệ số tương quan R  E
Thống kê Bartlett:

 2  (W  1 

2p 5

)ln | R |
6

Trong đó W là tổng trọng số của X, p là số biến dùng phân tích, |R| là định thức của
ma trận hệ số tương quan giữa các biến.
Thống kê này phân phối Khi bình phương với p(p-1)/2 bậc tự do.
Nếu  2   2 ( , p(p 1) / 2) (giá trị tới hạn mức  của phân phối Khi bình phương)
thì H0 bị bác bỏ.
+ Kiểm định KMO (Kaiser-Mayer-Olkin):
18


r
Với mỗi biến j: KMOj =
r  a
2
ij

i j
2
ij

i j

i j

*2
ij

p


Với p biến: KMO =

 r

2
ij

j 1 i  j

p

p

 rij2   a*2ij
j 1 i  j

j 1 i  j

Trong đó: rij là hệ số tương quan của các biến
aij* là các hệ số của ma trận hệ số tương quan riêng phần của các cặp biến trong điều

kiện của tất cả các biến khác (anti-image correlation)
Yêu cầu KMO > 0,5
 Ma trận Anti-image correlation: Đây là ma trận đóng vai trò quan trọng trong
việc lựa chọn các biến cho quá trình phân tích
*
aij  1, i  j
Anti  i, j   
 KMO(i),i  j


2.5.2 Tương quan của các thành phần và các biến ban đầu định danh các thành
phần chính
Tương quan của các biến gốc và các thành phần chính:
Để phản ánh mức tương quan này ta tính r(c,Xj) là hệ số tương quan của các thành
phần chính với các biến ban đầu.
Chọn Metric D1/s2 hay chọn metric M=E cho số liệu trung tâm hóa Z. Ta có:
r (c, X j )  r(c, Z j ) với Zj=Xj/Sj
2

2

2

cT DZ j 
cT DZ j 
cov(c, Z j ) 
2


vì V  c   
r (c, Z j ) 


V (c) V(Z j )
V (c)


 r (c, X j ) 



c  Zu

r (c, X j ) 

cT DZ j


với u là nhân tố chính tương ứng với giá trị

uT Z T DZ j





Z Tj DZu



19

 nên


×