Tải bản đầy đủ (.pdf) (48 trang)

THỐNG KÊ NHIỀU CHIỀU VÀ MỘT SỐ ỨNG DỤNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.61 MB, 48 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM

VĂN HỒ THỊ NHẤT HẠNH

THỐNG KÊ NHIỀU CHIỀU VÀ MỘT SỐ ỨNG DỤNG

Chuyên ngành: Toán Ứng Dụng
Mã số SV: 311044151113

KHÓA LUẬN CỬ NHÂN TOÁN ỨNG DỤNG

GV hướng dẫn: TS. Lê Văn Dũng

Đà Nẵng - năm 2019


1

LỜI CAM ĐOAN
Em cam đoan đây là công trình nghiên cứu của riêng em.
Các số liệu, kết quả nêu trong báo cáo khóa luận là trung thực và chưa
từng được ai công bố trong bất kỳ công trình nào khác.
Sinh viên thực hiện

Văn Hồ Thị Nhất Hạnh


2

LỜI CẢM ƠN


Bài khóa luận này được hoàn thành dưới sự hướng dẫn trực tiếp của TS.
Lê Văn Dũng - Trường Đại học Sư phạm - Đại học Đà Nẵng.
Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc về sự chỉ bảo tận tình đến
thầy chủ nhiệm và cũng là giảng viên hướng dẫn - TS. Lê Văn Dũng. Suốt thời
gian qua, thầy đã dành nhiều thời gian để chỉ bảo, giúp đỡ em với sự tận tình,
chu đáo, cẩn thận và đầy kinh nghiệm trong học tập và trong suốt quá trình tìm
hiểu, nghiên cứu để hoàn thành bài khóa luận này.
Mặc dù đã cố gắng nhưng vì kiến thức còn hạn chế, trong quá trình làm
khóa luận, sẽ không tránh khỏi những sai sót. Kính mong nhận được ý kiến
đóng góp từ thầy và tất cả quý thầy cô trong khoa Toán.
Em xin gửi lời cảm ơn sự quan tâm giúp đỡ của tất cả mọi người đã tạo
điều kiện cho em hoàn thành bài khóa luận của mình.
Em xin chân thành cảm ơn!
Đà Nẵng, ngày 26 tháng 3 năm 2019


3

MỤC LỤC
PHẦN MỞ ĐẦU .............................................................................................. 1
1. Tính cấp thiết của đề tài .............................................................................. 1
2. Mục tiêu nghiên cứu ................................................................................... 1
3. Đối tượng và phạm vi nghiên cứu .............................................................. 1
4. Phương pháp nghiên cứu ............................................................................ 1
5. Bố cục đề tài................................................................................................ 1
6. Tổng quan tài liệu nghiên cứu .................................................................... 2
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT............................................................... 3
1.1. VECTƠ NGẪU NHIÊN VÀ MA TRẬN ................................................... 3
1.1.1. Vectơ và ma trận ............................................................................... 3
a. Vectơ ..................................................................................................... 3

b. Ma trận ................................................................................................. 4
c. Căn bậc hai của ma trận ...................................................................... 5
1.1.2. Vectơ ngẫu nhiên ............................................................................... 6
a. Vectơ trung bình và ma trận hiệp phương sai ...................................... 6
b. Chia khối ma trận ................................................................................. 7
c. Hàm mật độ xác suất đồng thời ............................................................ 8
d. Vectơ trung bình và ma trận hiệp phương sai của tổ hợp tuyến tính
các vectơ ngẫu nhiên .................................................................................. 8
1.1.3. Phân bố chuẩn nhiều chiều .............................................................. 10
a. Định nghĩa .......................................................................................... 10
b. Tính chất ............................................................................................. 10


4

1.2. ƯỚC LƯỢNG VÀ KIỂM ĐỊNH.............................................................. 11
1.2.1. Vectơ trung bình mẫu, ma trận hiệp phương sai mẫu ..................... 11
1.2.2. Phân bố mẫu trung bình mẫu........................................................... 12
1.2.3. Nhận dạng phân bố chuẩn nhiều chiều............................................ 13
1.2.4. Kiểm định giả thuyết về vectơ trung bình ....................................... 13
CHƯƠNG 2. PHÂN TÍCH THÀNH PHẦN CHÍNH VÀ PHÂN TÍCH
NHÂN TỐ VỚI PHẦN MỀM MINITAB ................................................... 15
2.1. PHÂN TÍCH THÀNH PHẦN CHÍNH..................................................... 15
2.1.1. Cấu trúc của các thành phần chính .................................................. 15
2.1.2. Các thành phần chính đã chuẩn hóa ................................................ 19
2.1.3. Phân tích thành phần chính dựa trên 1 mẫu .................................... 20
2.2. PHÂN TÍCH NHÂN TỐ .......................................................................... 23
2.2.1. Mô hình phân tích nhân tố trực giao ............................................... 23
2.2.2. Phương pháp ước lượng .................................................................. 25
2.2.3. Xoay nhân tố.................................................................................... 27

2.3. ỨNG DỤNG PHẦN MỀM MINITAB .................................................... 30
2.3.1. Phân tích thành phần chính ............................................................. 30
2.3.2. Phân tích nhân tố ............................................................................. 30
KẾT LUẬN .................................................................................................... 42
TÀI LIỆU THAM KHẢO ............................................................................ 43


1

PHẦN MỞ ĐẦU
1. Tính cấp thiết của đề tài
Một vấn đề quan trọng đặt ra trong việc nghiên cứu là phân tích và xử lý
số liệu thu thập được. Nếu bảng số liệu thu thập được lớn thì việc tìm hiểu
thông tin từ đó là khá khó khăn và phức tạp.
2. Mục tiêu nghiên cứu
Phân tích một bộ dữ liệu cụ thể từ một đề tài thực tế cũng như đưa ra
nhận xét, đánh giá dữ liệu đã được xử lý.
3. Đối tượng và phạm vi nghiên cứu
Mỗi bộ dữ liệu thu thập được khi tiến hành các nghiên cứu, thí nghiệm
thường được thể hiện dưới dạng bảng các giá trị số của nhiều cá thể. Chúng tạo
thành “đám mây số liệu” khá phức tạp. Các số liệu này cần được phân tích và
xử lí để có thể rút ra được những nhận xét, đánh giá thích hợp
4. Phương pháp nghiên cứu
Hai phương pháp đơn giản là Phân tích thành phần chính và Phân tích
nhân tố được sử dụng thông qua phần mềm Minitab.
5. Bố cục đề tài
Bài báo cáo trình bày về hai phương pháp nói trên trong thống kê nhiều
chiều. Sau đó, đưa ra ví dụ phân tích cụ thể số liệu từ một đề tài khoa học. Đây
là hai phương pháp đơn giản nhưng có tính hiệu quả cao trong số nhiều phương
pháp phân tích số liệu đã được đưa ra bởi các nhà thống kê, tuy nhiên việc ứng

dụng chúng trong nghiên cứu thực nghiệm, nhất là các đề tài thuộc lĩnh vực
khoa học còn hạn chế. Bài báo cáo này phần nào giúp ta thấy được sự hữu ích
của việc áp dụng các kiến thức thống kê trong việc nghiên cứu.


2

6. Tổng quan tài liệu nghiên cứu
Phân tích thành phần chính là kĩ thuật biểu diễn số liệu dựa theo các tiêu
chuẩn về đại số và hình học mà không đòi hỏi một giả thuyết thống kê hay mô
hình đặc biệt nào. Lĩnh vực áp dụng của phân tích thành phần chính rất rộng,
như trong nông nghiệp, kinh tế, khoa học cơ bản.
Phân tích nhân tố là kĩ thuật ghép các điểm quan sát lại thành nhóm theo
một tiêu chí nào đó, tương tự như trong cách phân loại trong sinh học. Việc
phân tích có thuật toán đơn giản, đồng thời đem lại cái nhìn trực quan của phân
loại thu được nên dễ được các nhà chuyên môn trong các ngành khoa học khác
nhau chấp nhận.


3

CHƯƠNG 1. CƠ SỞ LÝ THUYẾT
1.1. VECTƠ NGẪU NHIÊN VÀ MA TRẬN
1.1.1. Vectơ và ma trận
a. Vectơ
Cho x  ( x1, x2 ,..., xn )  . Ta viết dạng ma trận của x như sau:
 x1 
x 
 2  hoặc xT  [ x1 , x2 ,..., xn ]
 ... 

 
 xn 

Các phép toán: Cho c 

và 2 vectơ
  x1 
x 
x 2 
 ... 
 
 xn 

 y1 
y 
y   2
 ... 
 
 yn 

- Phép cộng:
 x1  y1 
x  y 
2
x y   2
 ... 


 xn  yn 


- Phép nhân với 1 số:
 cx1 
cx 
cx   2 
 ... 
 
cxn 

- Tích vô hướng:
xT y  x1 y1  x2 y2  ...  xn yn

- Độ dài vectơ:
Lx  x12  x22  ...  xn2

- Góc giữa hai vectơ:


4

xT y
cos  
Lx Ly

Hệ trực chuẩn p vectơ e1 , e2 ,..., e p của không gian vectơ

p

được gọi là

hệ trực chuẩn nếu ei2  1 với mọi i và ei e j  0 với mọi i  j .

b. Ma trận
Ma trận A  [aij ]n p là một bảng số hình chữ nhật gồm n hàng và p cột
 a11
a
 21
 ...

 an1

Các phép toán: Cho c 

a12
a22
...
an 2

... a1 p 
... a2 p 
... ... 

... anp 

và các

ma trận A  [aij ]n p , B  [bij ]n p ,

C  [cij ] pq .

- Cộng hai ma trận: A  B  [aij  bij ]n p
- Tích 1 số với 1 ma trận: cA  [caij ]n p

p

- Nhân hai ma trận: AC  [dij ]nq với dij   aik ckj
k 1

- Ma trận chuyển vị của ma trận A  [aij ]nn được kí hiệu bởi AT là ma
trận xác định bởi AT  [bij ] với bij  a ji .
- Ma trận đối xứng: ma trận vuông A  [aij ]nn là ma trận đối xứng nếu
aij  a ji

- Ma trận đường chéo: A là ma trận đường chéo nếu aij  0 với mọi i  j
. Khi đó A được kí hiệu là A  diag (aii ) .
- Ma trận đơn vị là ma trận đường chéo có các phần tử trên đường chéo
chính bằng 1. Kí hiệu I n là ma trận đơn vị cấp n .
- Ma trận nghịch đảo: Nếu tồn tại ma trận A1 sao cho A. A1  A1 A  I n thì
A1 được gọi là ma trận nghịch đảo của ma trận A .


5

- Ma trận trực giao: ma trận vuông A là ma trận trực giao nếu AT  A1 .
- Giá trị riêng và vectơ riêng của ma trận vuông: Cho A là ma trận vuông
cấp n , nếu tồn tại vectơ x  0 và số thực  sao cho Ax   x thì  được gọi là
giá trị riêng và

x

được gọi là vectơ riêng ứng với  .d

- Vết của ma trận là tổng các phần tử nằm trên đường chéo chính của ma

trận vuông
- Ma trận xác định không âm xT Ann x  0 với mọi x 
- Ma trận xác định dương xT Ann x  0 với mọi x 
xT Ann x  0  x  (0,...,0) 

n

n

n

. Kí hiệu A  0 .

,

. Kí hiệu A  0 .

Định lý 1.1. Nếu A  0 thì các giá trị riêng của A là các số thực không
âm.
Định lý 1.2. Nếu ma trận Ap p có p cặp giá trị riêng - vectơ riêng (1; e1 ) ,
(2 ; e2 ) ,...,

( p ; e p )

với

e1 ,

e2 ,...,


ep



hệ

trực

chuẩn

A  1e1e1T  2e2e2T  ...  pepeTp

c. Căn bậc hai của ma trận
Cho Ap p là ma trận đối xứng, xác định không âm. Đặt
PT  [e1, e2 ,..., ep ] ,   diag (1 ,...,  p ) , 1/2  diag (  1,...,  p )

Khi đó ma trận A1/2  P1/2 PT thỏa mãn A1/2 A1/2  A .
Do đó ta gọi ma trận A1/2 là căn bậc 2 của ma trận A .
Ta có các hệ thức sau:
(1) ( A1/2 )T  A1/2
(2) ( A1/2 )1  P1/2 PT nên kí hiệu ( A1/2 )1  A1/2

thì


6

1.1.2. Vectơ ngẫu nhiên
Cho X1, X 2 ,..., X n là các biến ngẫu nhiên cùng xác định trên không gian
xác suất (, , P ) . Kí hiệu X  ( X1, X 2 ,..., X n ) được gọi là vectơ ngẫu nhiên


n

chiều. Dạng ma trận của X như sau
 X1 
X 
 2  hoặc X T  [ X1 , X 2 ,..., X n ]
 ... 
 
Xn 

Tương tự, cho X ij với i  1, 2,..., m ; j  1, 2,..., n là

mn biến ngẫu nhiên cùng

xác định trên không gian xác suất (, , P ) thì X  [ X ij ]mn được gọi là ma trận
ngẫu nhiên.
a. Vectơ trung bình và ma trận hiệp phương sai
Cho vectơ ngẫu nhiên X  ( X1, X 2 ,..., X n ) . Giả sử E( X i )  i và
cov( X i ; X j )   ij . Khi đó   [ 1 , 2 ,..., n ]T được gọi là vectơ trung bình.
11 12

 22
   21
 ... ...

 n1  n 2

Gọi ij 


 ij
 ii jj

... 1n 
...  2 n 
được gọi là ma trận hiệp phương sai.
... ... 

...  nn 

là hệ số tương quan của X i và X j . Khi đó

 11 12

22
   21
 ... ...

 n1 n 2

... 1n 
... 2 n 
được gọi là ma trận tương quan.
... ... 

... nn 


7


b. Chia khối ma trận
Chia vectơ ngẫu nhiên X  ( X1, X 2 ,..., X n ) thành hai vectơ con p chiều và
n  p chiều như sau:

X

(1)

 X1 
 
  ... 
X p 
 

X

(2)

 X p 1 
  ... 
 X n 

Khi đó ta viết
 X (1) 


X   ... 
 X (2) 



  (1) 
Với cách kí hiệu như trên ta có    ...  , với
  (2) 





(1)

 1 
  p 1 
 
(2)
  ...  ,    ...  .
 p 
 n 
 

Mặt khác
 ( X (1)   (1) )( X (1)   (1) )T

( X   )( X   )T  
( X (2)   (2) )( X (1)   (1) )T


( X (1)   (1) )( X (2)   (2) )T 


( X (2)   (2) )( X (2)   (2) )T 


trong đó
( X (1)   (1) )( X (1)   (1) )T là ma trận cấp p  p .
( X (1)   (1) )( X (2)   (2) )T là ma trận cấp p  (n  p) .
( X (2)   (2) )( X (1)   (1) )T là ma trận cấp (n  p)  p .
( X (2)   (2) )( X (2)   (2) )T là ma trận cấp (n  p)  (n  p) .

Ma trận hiệp phương sai cũng được chia khối như sau


8

 11
  
21

12 
,

22 

trong đó
11  E ( X (1)   (1) )( X (1)   (1) )T

12  E ( X (1)   (1) )( X (2)   (2) )T

21  E ( X (2)   (2) )( X (1)   (1) )T
22  E ( X (2)   (2) )( X (2)   (2) )T

c. Hàm mật độ xác suất đồng thời

Nếu X  ( X1, X 2 ,..., X n ) là vectơ ngẫu nhiên rời rạc có miền giá trị
X ()  {xi  ( x1i , x2i ,..., xni ) : i  1}

thì hàm xác suất đồng thời của X là hàm p : X () 

xác định bởi

p( xi )  P( X  xi ).

Nếu X  ( x1, X 2 ,..., X n ) gồm
số không âm f ( x) xác định trên

biến ngẫu nhiên liên tục và nếu tồn tại hàm

n
n

sao cho với mọi A  [a1; b1 ]  ...[an ; bn ] 

n

,

P( X  A)   f ( x)dx
A

thì f ( x) được gọi là làm mật độ xác suất đồng thời của X .
Định lý 1.3. Nếu X1 , X 2 ,..., X n là các biến ngẫu nhiên độc lập có hàm
mật độ xác suất lần lượt là f1 ( x1 ) , f2 ( x2 ) ,..., fn ( xn ) thì hàm mật độ xác suất đồng
thời của X là

f ( x)  f1 ( x1 ) f 2 ( x2 )... f n ( xn ), x  ( x1, x2 ,..., xn ) 

n

.

Ví dụ 1.1. Cho X1 ~ N (1;12 ) , X 2 ~ N ( 2 ;  22 ) , X1 và X 2 độc lập. Tìm
hàm mật độ xác suất đồng thời của X  ( X1; X 2 )
d. Vectơ trung bình và ma trận hiệp phương sai của tổ hợp tuyến tính
các vectơ ngẫu nhiên


9

Nếu X1 và X 2 là hai biến ngẫu nhiên,

a

và b là các số thực thì

(1) E(aX1  bX 2 )  aE( X1 )  bE( X 2 )
(2) Var (aX1  bX 2 )  a 2Var ( X1 )  b2Var ( X 2 )  2ab12
Đặt CT  [a, b] , X T  [ X1 , X 2 ] ta có
aX1  bX 2  C T X

và do đó
E (CT X )  CT E ( X )
Var (CT X )  CT cov( X )C

Một cách tổng quát, nếu CT  [c1 , c2 ,..., cn ] là vectơ các hằng số và

X T  [ X1 , X 2 ,..., X n ] là vectơ ngẫu nhiên thì

E(CT X )  CT E( X )  CT 
Var (CT X )  CT cov( X )C  CT C.

Nếu C  [cij ]mn là ma trận các hằng số thì
 c11 X1  c12 X 2  ...  c1n X n 
 c X  c X  ...  c X 
2n n 
CX   21 1 22 2


...


cm1 X1  cm 2 X 2  ...  cmn X n 

Khi đó
E (CX )  CE ( X ) , cov(CX )  Ccov( X )C T


10

1.1.3. Phân bố chuẩn nhiều chiều
a. Định nghĩa
Định nghĩa 1.1. Vectơ ngẫu nhiên X  ( X1, X 2 ,..., X p )T được gọi là có
phân bố chuẩn p chiều với tham số T  (1, 2 ,...,  p )T và   [ ij ] p p (   0 ) nếu
X có hàm mật độ xác suất đồng thời

 ( x) 


1

e
(2 ) p /2 |  |1/2

1
 ( x   )T 1 ( x   )
2

.

Kí hiệu X ~ N p (; ) .
b. Tính chất
Tính chất 1.1. Nếu X có phân bố chuẩn p chiều N p ( ; ) thì các thành
phần của X là X1 , X 2 ,..., X p có phân bố chuẩn 1 chiều.
Tính chất 1.2. Nếu X có phân bố chuẩn N p ( ; ) thì với mọi
aT  [a1 , a2 ,..., a p ] ta có

aT X  a1 X1  a2 X 2  ...  a p X p ~ N (aT ; aT a).

Ta cũng có nếu
aT X  a1 X1  a2 X 2  ...  a p X p ~ N (aT ; aT a).

với mọi aT  [a1 , a2 ,..., a p ] thì X có phân bố chuẩn N p ( ; ) .
Tính chất 1.3. Nếu X có phân bố chuẩn N p ( ; ) thì với mọi A  [aij ]n p
ta có
AX ~ N ( A; AAT ).

Tính chất 1.4. Nếu




xác định dương thì 1 tồn tại, hơn nữa nếu ( ; e)

là cặp giá trị riêng - vectơ riêng của



thì ( 1; e) là cặp giá trị riêng - vectơ

riêng của 1 .
Tính chất 1.5. Nếu X có phân bố chuẩn p chiều N p ( ; ) thì
  ( X  )T ( X  )


11

có phân bố  p2 (phân bố khi bình phương p bậc tự do. Do đó, với mức ý nghĩa


ta có
P(( X   )T ( X   )   p2 ( ))  .

1.2. ƯỚC LƯỢNG VÀ KIỂM ĐỊNH
1.2.1. Vectơ trung bình mẫu, ma trận hiệp phương sai mẫu
Giả sử x1 ., x2 ,..., xn là mẫu được chọn ngẫu nhiên từ tổng thể
X T  [ X1, X 2 ,..., X p ] , trong đó

xiT  [ xi1 , xi 2 ,..., xip ]


Kí hiệu
 x1T   x11
 T  x
x
21
x 2
 ...   ...
 T 
 xn   xn1

x12
x22
...
xn 2

... x1 p 
... x2 p 
... ... 

... xnp 

Đặt
1
x j  ( x1 j  x2 j  ...  xnj ), j  1, 2,..., p.
n
1 n
sij   ( xki  xi )( xkj  x j )
n k 1
s

rij  ij
sii s jj

- Vectơ x T  [ x1 , x2 ,..., x p ] được gọi là vectơ trung bình mẫu.
 s11 s12
s
s
- Ma trận S   11 12
 ... ...

 s p1 s p 2

... s1 p 
... s1 p 
được gọi là ma trận hiệp phương sai mẫu.
... ... 

... s pp 

 r11 r12
r
r
- Ma trận R   11 12
 ... ...

 rp1 rp 2

... r1 p 
... r1 p 
được gọi là ma trận hệ số tương quan mẫu.

... ... 

... rpp 


12

Ví dụ 1.2. Cho mẫu số liệu của X T  [ X1 , X 2 ] như sau
 4 1
 1 3


 3 5

Tìm vectơ trung bình mẫu, ma trận hiệp phương sai mẫu, ma trận hệ số
tương quan mẫu.
1.2.2. Phân bố mẫu trung bình mẫu
Định lý 1.4. Cho x  [ xij ]n p là mẫu ngẫu nhiên của tổng thể X có phân

n

bố chuẩn p chiều N p ( ; ) . Khi đó x có phân bố chuẩn N p ( ; ) .
Định lý 1.5. (Định lí giới hạn trung tâm). Cho x  [ xij ]n p là mẫu ngẫu
nhiên của tổng thể X có E ( X )   và cov( X )   . Khi đó với

n

xỉ phân bố chuẩn N p ( ; ) .

n


đủ lớn, x có xấp


13

1.2.3. Nhận dạng phân bố chuẩn nhiều chiều
Giả sử
 x1T   x11
 T  x
x
21
x 2
 ...   ...
 T 
 xn   xn1

x12
x22
...
xn 2

... x1 p 
... x2 p 
... ... 

... xnp 

là mẫu được chọn ngẫu nhiên của X T  [ X1, X 2 ,..., X p ] .
Dựa vào mẫu số liệu trên để kiểm tra xem X có phân bố chuẩn không?

Sử dụng biểu đồ xác suất chuẩn
Ta có tính chất: nếu X có phân bố chuẩn p chiều N p ( ; ) thì các thành
phần của X là X1 , X 2 ,..., X p có phân bố chuẩn 1 chiều.
Do đó nếu từ biểu đồ xác suất chuẩn của các thành phần x1 , x2 ,..., x p có
thể chấp nhận X1 , X 2 ,..., X p có phân bố chuẩn 1 chiều thì lúc đó ta có thể chấp
nhận X có phân bố chuẩn.
1.2.4. Kiểm định giả thuyết về vectơ trung bình
Định lý 1.6. Cho x  [ xij ]n p là mẫu ngẫu nhiên của tổng thể X có phân
bố chuẩn p chiều N p ( ; ) . Khi đó
T2 

n(n  p)
( x   )T S 1 ( x   )
p(n  1)

có phân bố Fisher Fp ,n  p .
Ví dụ 1.3. Cho mẫu số liệu của X T  [ X1 , X 2 ] như sau
 6 9
10 6


 8 3

Giả sử X có phân bố chuẩn 2 chiều. Với mức ý nghĩa 5% thực hiện kiểm
định H0 :   0 và H1 :   0 , trong đó 0T  [9,5]
Giải.


14


Miền bác bỏ H0 : W  [ f 2,1 (0.05); )  [18.51;  )
Giá trị kiểm định thống kê
T2 

n(n  p)
( x  0 )T S 1 ( x  0 )  0.19 
 W nên chưa có cơ sở bác bỏ H0 .
p(n 1)

Hoặc tính P-giá trị:
P-giá tri  P( F2,1  0,19)  0,85  0.05.


15

CHƯƠNG 2. PHÂN TÍCH THÀNH PHẦN CHÍNH VÀ PHÂN TÍCH
NHÂN TỐ VỚI PHẦN MỀM MINITAB
2.1. PHÂN TÍCH THÀNH PHẦN CHÍNH

2.1.1. Cấu trúc của các thành phần chính
Cho vectơ ngẫu nhiên p chiều X  ( X1 ,..., X p ) có ma trận hiệp phương
sai cov( X )   và vectơ trung bình   E ( X )  0 .
Xét p tổ hợp tuyến tính
Y1  a1T X  a11 X1  a12 X 2  ...  a1 p X p
Y2  a2T X  a21 X1  a22 X 2  ...  a2 p X p
... ... ...
Yp  aTp X  a p1 X1  a p 2 X 2  ...  a pp X p

Ta có
Var (Yi )  aiT ai cov(Yi , Yj )  aiT a j


Định nghĩa 2.1. Thành phần chính của vectơ X là các tổ hợp tuyến tính
Y1 , Y2 ,..., Yp sao cho cov(Yi , Y j )  0 với mọi i  j và các Var (Yi ) lớn nhất có thể.

Như vậy,
- Thành phần chính thứ nhất là tổ hợp tuyến tính Y1 sao cho Var (Y1 ) đạt
giá trị lớn nhất trên tập {a1 : a1T a1  1} .
- Thành phần chính thứ hai là tổ hợp tuyến tính Y1 sao cho Var(Y2 ) đạt giá
trị lớn nhất trên tập {a2 : a2T a2  1, a1T a2 )  0} .......
- Thành phần chính thứ k là tổ hợp tuyến tính Yk sao cho Var(Yk ) đạt giá
trị lớn nhất trên tập {ak : akT ak  1, a1T a j )  0,  j  k } .
Định lý 2.1. Nếu ma trận hiệp phương sai



của vectơ X có p cặp giá

trị riêng - vectơ riêng (1; e1 ) , ( p ; e p ) ,,..., ( p ; e p ) sao cho 1  2  ...   p và e1 , e2


16

,..., e p là hệ trực chuẩn thì thành phần chính thứ i xác định bởi
Yi  eiT X , i  1, 2,..., p.

Và với việc chọn như vậy ta có Var (Yi )  i , cov(Yi , Yj )  eiT e j  0 i  j.
Như vậy nếu ta xem X  ( X1; X 2 ;...; X p ) là tọa độ của điểm X trong hệ
trục tọa độ vuông góc với cơ sở trực chuẩn i1 , i2 ,... , i p với ik là vectơ có tọa độ
thành phần thứ k bằng 1 còn các tọa độ thành phần khác bằng 0


thì

Y  (Y1; Y2 ;...; Yp ) là phép biến đổi sang hệ trục tọa độ mới với hệ trực chuẩn mới

là e1 , e2 ,..., e p .
Định lý 2.2.

p

Var ( X )    ...   .
i 1

i

1

Định nghĩa 2.2. Đại lượng

p

i

1  ...   p

được gọi là tỉ lệ của phương sai

thành phần chính thứ i trong phương sai tổng thể X .
Nếu tổng

1  2  ...  m

 90% thì ta chỉ cần sử dụng m thành phần chính
1  ...   p

đầu tiên này mà thông tin về dữ liệu ban đầu mất không quá nhiều.
Định lý 2.3. cov(Yi , X k )  eij k ,  (Yi , X k ) 

eik k

 kk

, trong đó eik là tọa độ

thành phần thứ k của ei  (ei1 ,..., eik ,..., eip ) .
Ví dụ 2.1. Cho mẫu số liệu 2 chiều
𝑋1

2.5

0.5

2.2

1.9

3.1

2.3

2


1

1.5

1.1

𝑋2

2.4

0.7

2.9

2.2

3

2.7

1.6

1.1

1.6

0.9

Biểu diễn các điểm có tọa độ trên lên hệ trục tọa độ vuông góc OX1 X 2 ta




17

Hình 3.1: dg g
Phương pháp phân tích thành phần chính là hãy đổi sang hệ trục tọa độ
mới OY1Y 2 sao cho hình chiếu các điểm trên lên trục OY1 giữ được nhiều
thông tin nhất.

Hình 3.2: dg g
Ta có phép biến đổi tọa độ từ hệ trục tọa độ OX1 X 2 sang hệ trục tọa độ
mới OYY
1 2 là


18

Y1  a11 X1  a12 X 2

Y2  a21 X1  a22 X 2

Từ số liệu của X1 và X 2 ta tính được ma trận hiệp phương sai

X
 1
 X 2

X1
X2 
0.616556 0.615444

0.615444 0.716556

Hai cặp giá trị riêng và vectơ của ma trận trên là
1  1.284 e1T  (0.678;0.735)
2  0.049 e2T  (0.735; 0.678)

Vì vậy ta có
Y1  0.678 X1  0.735 X 2

Y2  0.735 X1  0.678 X 2

Với cách chọn phép biến đổi tọa độ như trên nếu ta chọn phép chiếu
vuông góc lên trục OY1 thì hình chiếu các điểm trên lên trục OY1 giữ lại được
nhiều thông tin nhất (96%).
Ví dụ 2.2. Cho X  ( X1, X 2 , X 3 ) có ma trận hiệp phương sai
 1 2 0 
 2 5 0 


 0 0 2

3 cặp giá trị riêng - vectơ riêng của  là:
1  5,83 e1T  (0,383; 0,924;0)
2  2, 00 e2T  (0;0;1)
3  0,17 e3T  (0,924;0,383;0)

Do đó 3 thành phần chính sẽ là
Y1  0,383 X1  0,924 X 2
Y2  X 3
Y3  0,924 X1  0,383 X 2


Ta có


19

1
 0,72875.
1  2  3
1  2
 0,9788.
1  2  3

Tức là nếu chỉ giữ 1 thành phần chính Y1 thì Y1 sẽ giữ lại được gần 73%
thông tin ban đầu X1, X 2 , X 3 . Còn nếu giữ 2 thành phần chính Y1 và Y2 thì Y1 và
Y2 sẽ giữa lại được gần 98% thông tin ban đầu X1, X 2 , X 3 .

2.1.2. Các thành phần chính đã chuẩn hóa
Việc tính toán với ma trận hệ số tương quan sẽ ổn định hơn so với việc
tính toán trên ma trận hiệp phương sai. Chính vì vậy ta sẽ chuẩn hóa vectơ ngẫu
nhiên X  ( X1 , X 2 ,..., X p ) :
Zi 

X i  i
.
 ii

Đặt Z  (Z1 , Z 2 ,..., Z p ) ta có
Z  (V 1/2 )1 ( X   ),


trong đó

V 1/2









11

0

0

0
...

 22
...

0 ...
.... ....

0

0


0

...

...

0 

0 
... 
 pp 

Khi đó ta có E ( Z )  0 và cov( Z )   .
Định lý 2.4. Cho Z  (Z1 ,..., Z p ) là vectơ ngẫu nhiên đã chuẩn hóa có ma
trận hệ số tương quan  . Nếu  có p cặp giá trị riêng - vectơ riêng (1; e1 ) ,...,
( p ; e p ) với 1  ....   p thì thành phần chính của Z xác định bởi
Yi  eiT Z , i  1, 2,..., p.

Hơn nữa


20

p

Var (Y )  p,
i

i 1



 (Yi , Z k )  eik i ,

trong đó eik là thành phần tọa độ thứ k của ei .
Ví dụ 2.3. Cho ma trận hiệp phương sai của X T  [ X1 , X 2 ] như sau
1 4 
 4 100 



a) Tìm thành phần chính đối với ma trận hiệp phương sai.
b) Tìm thành phần chính đối với ma trận hệ số tương quan
2.1.3. Phân tích thành phần chính dựa trên 1 mẫu
Giả sử
 x1T   x11
 T  x
x
21
x 2
 ...   ...
 T 
 xn   xn1

x12
x22
...
xn 2

... x1 p 

... x2 p 
... ... 

... xnp 

là mẫu được chọn ngẫu nhiên của X T  [ X1, X 2 ,..., X p ] .
Ta nhắc lại trung bình mẫu là x  ( x1 ,..., x p ) , hiệp phương sai mẫu là
S  ( sij ) p p .

Giả sử thành phần chính của ( X1 , X 2 ,..., X p ) là
Y1  a1T X  a11 X 1  a12 X 2  ...  a1 p X p
Y2  a2T X  a21 X 1  a22 X 2  ...  a2 p X p
... ... ...
Yp  aTp X  a p1 X 1  a p 2 X 2  ...  a pp X p

Mục đích của mục này là tìm ước lượng thành phần chính Y1 , Y2 ,..., Yp dựa
trên ước lượng vectơ trung bình E ( X ) là x và ước lượng ma trận hiệp phương
sai cov( X ) là S .


×