Tải bản đầy đủ (.pdf) (99 trang)

Phân tích thành phần chính, phân tích nhân tố và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (840.12 KB, 99 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

NGUYỄN THỊ HUYỀN MY

PHÂN TÍCH THÀNH PHẦN CHÍNH,
PHÂN TÍCH NHÂN TỐ VÀ ỨNG DỤNG

Chuyên ngành: Phƣơng pháp Toán sơ cấp
Mã số: 60.46.01.13

LUẬN VĂN THẠC SĨ KHOA HỌC

Ngƣời hƣớng dẫn khoa học: TS. LÊ VĂN DŨNG

Đà Nẵng - Năm 2016


LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứ của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng
được ai công bố trong bất kỳ cơng trình nào khác.

Ngƣời cam đoan

Nguyễn Thị Huyền My


MỤC LỤC
MỞ ĐẦU ........................................................................................................ 1
1. Lý do chọn đề tài ................................................................................. 1


2. Mục đích và nhiệm vụ nghiên cứu ...................................................... 1
3. Đối tƣợng và phạm vi nghiên cứu ....................................................... 1
4. Phƣơng pháp nghiên cứu ..................................................................... 2
5. Ý nghĩa khoa học và thực tiễn của đề tài ............................................. 2
6. Tổng quan tài liệu nghiên cứu ............................................................. 2
CHƢƠNG 1. KIẾN THỨC CHUẨN BỊ ..................................................... 4
1.1. VECTƠ VÀ MA TRẬN .......................................................................... 4
1.1.1. Vectơ .............................................................................................. 4
1.1.2. Ma trận ........................................................................................... 5
1.1.3. Căn bậc hai của ma trận ................................................................. 9
1.1.4. Các bất đẳng thức ma trận và maximum ....................................... 9
1.2. VECTƠ NGẪU NHIÊN ........................................................................ 10
1.2.1. Hàm xác suất đồng thời ............................................................... 11
1.2.2. Vectơ trung bình và ma trận hiệp phƣơng sai ............................. 12
1.2.3. Chia khối ma trận hiệp phƣơng sai .............................................. 15
1.2.4. Vectơ trung bình và ma trận hiệp phƣơng sai của tổ hợp tuyến
tính các vectơ ngẫu nhiên ...................................................................... 16
1.3. PHÂN BỐ CHUẨN NHIỀU CHIỀU .................................................... 17
1.3.1. Lấy mẫu từ phân bố chuẩn nhiều chiều ....................................... 19
1.3.2. Ƣớc lƣợng hợp lý cực đại ............................................................ 20
1.4. VECTƠ TRUNG BÌNH MẪU, MA TRẬN HIỆP PHƢƠNG SAI MẪU 21
1.5. ƢỚC LƢỢNG KHÔNG CHỆCH .......................................................... 22
1.6. PHÂN BỐ MẪU TRUNG BÌNH MẪU ................................................ 25


1.7. NHẬN DẠNG PHÂN BỐ CHUẨN NHIỀU CHIỀU ........................... 25
1.7.1. Sử dụng biểu đồ xác suất chuẩn .................................................. 25
1.7.2. Kiểm định chi bình phƣơng ......................................................... 26
1.8. KIỂM ĐỊNH GIẢ THUYẾT VỀ VECTƠ TRUNG BÌNH ................... 27
1.9. GIÁ TRỊ MẪU CỦA TỔ HỢP TUYẾN TÍNH CÁC BIẾN ................. 27

CHƢƠNG 2. PHÂN TÍCH THÀNH PHẦN CHÍNH VÀ PHÂN TÍCH
NHÂN TỐ .................................................................................................... 32
2.1. CẤU TRÚC CỦA CÁC THÀNH PHẦN CHÍNH ................................ 32
2.2. CÁC THÀNH PHẦN CHÍNH ĐÃ CHUẨN HĨA ............................... 36
2.3. THÀNH PHẦN CHÍNH ĐỐI VỚI MA TRẬN HIỆP PHƢƠNG SAI
VỚI CẤU TRÚC ĐẶC BIỆT ....................................................................... 38
2.4. PHÂN TÍCH THÀNH PHẦN CHÍNH DỰA TRÊN 1 MẪU ............... 40
2.4.1. Số lƣợng các thành phần chính .................................................... 47
2.4.2. Chuẩn hóa thành phần chính mẫu ............................................... 50
2.5. BIỂU ĐỒ THÀNH PHẦN CHÍNH ....................................................... 53
2.6. MƠ HÌNH PHÂN TÍCH NHÂN TỐ TRỰC GIAO .............................. 56
2.7. PHƢƠNG PHÁP ƢỚC LƢỢNG ........................................................... 59
2.7.1. Ƣớc lƣợng dựa trên phân tích thành phần chính ......................... 59
2.7.2. Phƣơng pháp ƣớc lƣợng hợp lý cực đại....................................... 64
2.8. ỨNG DỤNG .......................................................................................... 67
KẾT LUẬN .................................................................................................. 73
TÀI LIỆU THAM KHẢO .......................................................................... 74
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (bản sao)
PHỤ LỤC.


DANH MỤC CÁC BẢNG
Số hiệu

Tên bảng

bảng

Trang


2.1

Thống kê thu nhập ở 5 địa phƣơng

42

2.2

Điểm tổng kết các môn học của 5 học sinh

44

2.3

Thông tin về 5 biến kinh tế xã hội ở vùng Madison

45

2.4
2.5
2.6

2.7

2.8

2.9

2.10


Hệ số của các thành phần chính (thơng tin vùng
Madison)
Kích thƣớc của 24 con rùa đực
Hệ số của các thành phần chính (kích thƣớc 24 con
rùa đực)
Các thơng số (sở thích của khách hàng đối với sản
phẩm mới)
Kết quả phân tích nhân tố bằng phƣơng pháp phân
tích thành phần chính
Kết quả phân tích nhân tố bằng phƣơng pháp ƣớc
lƣợng hợp lý cực đại
Bảng hệ số tƣơng quan (điểm tổng kết trƣờng
THPT Lƣơng Văn Can )

46
48
49

62

65

66

69


DANH MỤC CÁC HÌNH
Số hiệu


Tên hình

hình

Trang

2.1

Biểu đồ Scree

47

2.2

Biểu đồ Scree cho kích thƣớc của 24 con rùa đực

50

2.3

2.4

2.5
2.6

Biểu đồ Q-Q cho thành phần chính thứ hai yˆ 2 từ
kích thƣớc của 24 con rùa đực
Biểu đồ phân tán thành phần chính yˆ1 và yˆ 2 từ
kích thƣớc của 24 con rùa đực
Biểu đồ Scree (điểm khối 12 trƣờng THPT Lƣơng

Văn Can)
Biểu đồ Scree cho năm cổ phiếu

55

55

69
72


1

MỞ ĐẦU

1. Lý do chọn đề tài
Dưới tác động của các cuộc cách mạng khoa học công nghệ đã
đem lại sự thay đổi to lớn mang tính bước ngoặt trong sự phát triển của
xã hội, cùng với đó là một lượng thông tin khổng lồ đã đặt thế giới trước
những vấn đề tìm hiểu và xử lý các thơng tin vơ cùng khó khăn và phức
tạp.
Việc phân tích và xử lý các số liệu thông tin là yêu cầu cấp thiết
hàng đầu của xã hội, đặc biệt là ngành phân tích thống kê với chức năng
nghiên cứu, phân tích, giải thích, trình bày và tổ chức dữ liệu các lĩnh vực
khác nhau như khoa học, công nghiệp, giáo dục và các vấn đề xã hội. . . .
Phương pháp phân tích thành phần chính cùng với phương pháp phân tích
nhân tố là những phương pháp xử lý dữ liệu trong phân tích thống kê được
sử dụng phổ biến.
Cùng với sự hướng dẫn của TS. Lê Văn Dũng, tôi chọn nghiên cứu
đề tài " PHÂN TÍCH THÀNH PHẦN CHÍNH, PHÂN TÍCH NHÂN TỐ

VÀ ỨNG DỤNG" cho luận văn thạc sỹ của mình.
2. Mục đích và nhiệm vụ nghiên cứu
Tìm hiểu, nghiên cứu kỹ các tài liệu từ nhiều nguồn khác nhau,
cố gắng lĩnh hội được các kiến thức về phân tích thành phần chính, phân
tích nhân tố cũng như ứng dụng của nó.
Hy vọng luận văn có thể được sử dụng như một tài liệu tham khảo
bổ ích cho sinh viên các trường Đại học, Cao đẳng.
3. Đối tượng và phạm vi nghiên cứu


2

Đối tượng nghiên cứu là: Phân tích thành phần chính, phân tích
nhân tố và ứng dụng liên quan.
Phạm vi nghiên cứu của luận văn chỉ đi sâu tìm hiểu các khái
niệm, định nghĩa, đính lý liên quan, từ đó đưa ra ứng dụng liên quan đến
phân tích thành phần chính, phân tích nhân tố.
4. Phương pháp nghiên cứu
Luận văn được nghiên cứu dựa trên phương pháp giải tích.
5. Ý nghĩa khoa học và thực tiễn của đề tài
Trong phân tích thống kê thơng thường phải nghiên cứu, tìm hiểu,
phân tích một lượng dữ liệu rất lớn. Phân tích thành phần chính cùng với
phân tích nhân tố là những phương pháp phân tích dữ liệu nhiều biến đơn
giản. Giả sử ta có các quan sát về p biến ngẫu nhiên, có thể tìm được p
biến mới khơng tương quan với nhau và được biểu diễn tuyến tính thơng
qua các biến cũ. Dĩ nhiên, sự thay đổi biến số này không làm mất thơng
tin về các biến ban đầu. Mục đích cơ bản của phân tích thành phần chính
là rút gọn số liệu, biểu diễn và giải thích tập các số liệu. Cịn mục đích cơ
bản của phân tích nhân tố là mơ tả "cái chung", nó thể hiện dưới dạng
mối quan hệ tương quan giữa nhiều biến thông qua một số biến ít hơn.

Các biến này khơng quan sát được gọi là các nhân tố.
Luận văn có thể giúp các bạn sinh viên xem như tài liệu tham
khảo những kiến thức liên quan đến phân tích thành phần chính, phân
tích nhân tố trong q trình học tập bộ mơn Phân tích thống kê.
6. Tổng quan tài liệu nghiên cứu
Ngoài phần mở đầu, kết luận, tài liệu tham khảo, luận văn được
trình bày trong hai chương:
Chương 1 trình bày các khái niệm về vectơ và ma trận, vectơ ngẫu


3

nhiên, phân bố chuẩn nhiều chiều, vectơ trung bình mẫu, ma trận hiệp
phương sai mẫu, ước lượng không chệch, phân bố mẫu trung bình mẫu,
nhận dạng phân bố chuẩn nhiều chiều, kiểm định giả thiết về vectơ trung
bình, giá trị mẫu của tổ hợp tuyến tính các biến.
Chương 2 trình bày về cấu trúc của các thành phần chính, các
thành phần chính đã chuẩn hóa, thành phần chính đối với ma trận hiệp
phương sai với cấu trúc đặc biệt, phân tích thành phần chính dựa trên
1 mẫu, biểu đồ thành phần chính, mơ hình nhân tố trực giao và phương
pháp ước lượng. Cũng trong chương này, tơi cũng trình bày ứng dụng bằng
cách đưa ra một số ví dụ liên quan đến việc phân tích thành phần chính,
phân tích nhân tố.


4

CHƯƠNG 1

KIẾN THỨC CHUẨN BỊ


1.1. VECTƠ VÀ MA TRẬN

1.1.1. Vectơ
Cho x = (x1 , x2 , ..., xn ) ∈ Rn . Ta viết dạng ma trận của x như sau:
 
x1
 x2 
x =  ..  hoặc xT = [x1 , x2 , ..., xn ]
.
xn
Các phép toán: Cho 

 
y1
 y2 
y =  ... 
yn


x1
x 
x =  ...2  ,
xn

- Phép cộng:

   
x1 + y1
y1

x1
x  y   x + y 
x + y =  ...2  +  ...2  =  2 ... 2 
xn
yn
xn + y n


- Phép nhân với 1 số:

cx1
 cx 
cx =  ...2 
cxn


- Tích vơ hướng:

xy = x1 y1 + x2 y2 + ... + xn yn
Hệ trực chuẩn. n vectơ e1 , e2 ,...,en của không gian vectơ Rn được
gọi là hệ trực chuẩn nếu e2i = 1 với mọi i và ei ej = 0 với mọi i = j .


5

1.1.2. Ma trận
Ma trận A = [aij ]n×p là một bảng số hình chữ nhật gồm n hàng và

p cột có dạng như sau



a11
 a21
A =  ...
an1

a12
a22
...
an2

...
...
...
...


a1p
a2p 
... 
anp

Các phép toán
- Cộng hai ma trận: Cho hai ma trận A = [aij ]n×p và B = [bij ]n×p
Tổng của hai ma trận A và B


a11
 a21
A + B =  ...

an1

a12
a22
...
an2



...
...
...
...

 
b11
a1p
a2p   b21
...  +  ...
anp
bn1

a11 + b11 a12 + b12
 a21 + b21 a22 + b22
=  ...
...
an1 + bn1 an2 + bn2

b12
b22

...
bn2

...
...
...
...


b1p
b2p 
... 
bnp


... a1p + b1p
... a2p + b2p 
...
... 
... anp + bnp

- Tích 1 số với 1 ma trận


a11
 a21
cA = c  ...
an1

a12

a22
...
an2

...
...
...
...

 
ca11 ca12
a1p
a2p   ca21 ca22
...  =  ...
...
can1 can2
anp


... ca1p
... ca2p 
... ... 
... canp

- Tích hai ma trận: Cho hai ma trận A = [aik ]n×p và B = [bkj ]p×m .
Tích của hai ma trận A và B, kí hiệu AB, là ma trận C = [cij ]n×m với

cij =

p

k=1 aik bkj .

Các loại ma trận
- Ma trận hàng là ma trận chỉ có một hàng, kí hiệu A = [aij ]1×n .
- Ma trận cột là ma trận chỉ có một cột, kí hiệu A = [aij ]n×1 .
- Ma trận vng là ma trận có số hàng bằng số cột, kí hiệu A =

[aij ]n×n = [aij ]n .


6

- Ma trận chuyển vị của ma trận A = [aij ]n×p , kí hiệu AT , là ma
trận được xác định: AT = [bij ]p×n với bij = aji .
- Ma trận đối xứng: Ma trận vuông A = [aij ]n là ma trận đối xứng
nếu aij = aji .
- Ma trận nghịch đảo: Cho ma trận vuông A cấp n. Nghịch đảo của
ma trận A là ma trận vuông A−1 cấp n sao cho


AA−1

1

0
= A−1 A = ...
0

0
1

...
0

...
...
...
...


0
0
... := In
1

- Ma trận chéo: Ma trận vuông A cấp n có aij = 0 với mọi i = j thì
A được gọi là ma trận chéo. Nếu các phần tử trên đường chéo là aij thì ta
kí hiệu A = diag(a11 , ..., ann ).
- Ma trận trực giao: Ma trận vuông A cấp n gọi là ma trận trực giao
nếu AT = A−1 .
Giá trị riêng và vectơ riêng: Cho A là ma trận vuông cấp n.
Vectơ x = 0 được gọi là vectơ riêng tương ứng với giá trị riêng (số thực
hoặc phức) λ của A nếu Ax = λx.
- Các giá trị riêng λ1 , ..., λn là nghiệm của phương trình

|A − λIn | = 0
- Các vectơ riêng tương ứng là nghiệm của phương trình

Ax = λx
Vết của ma trận: Cho A là ma trận vng cấp k: A = [aij ], khi
đó vết của ma trận A là đại lượng


tr(A) = a11 + ... + akk

(1.1)

Tính chất 1.1.
1. tr(BC) = tr(CB), trong đó B có cấp m × k , C có cấp k × m
2. tr(X T AX) = tr(AXX T ), trong A là ma trận cấp k × k , X là
vectơ (k × 1)


7

3. tr(A) =

k
j=1 λj ,

trong đó λj là giá trị riêng của ma trận A.

- Ma trận xác định không âm xT An×n x ≥ 0 với mọi x ∈ Rn . Kí hiệu
A ≥ 0.
- Ma trận xác định dương xT An×n x > 0 với mọi x ∈ Rn , xT An×n x =

0 ⇔ x = (0, ..., 0) ∈ Rn . Kí hiệu A > 0.
Định lý 1.1.1. Nếu A ≥ 0 thì các giá trị riêng của A là các số thực
không âm.
Định lý 1.1.2. Nếu ma trận An×n có n cặp giá trị riêng - vectơ
riêng (λ1 ; e1 ), (λ2 ; e2 ),..., (λn ; en ) với {e1 , e2 ,..., en } là hệ trực chuẩn thì
ta có phân tích phổ: A = λ1 e1 eT1 + λ2 e2 eT2 + ... + λn en eTn

Ví dụ 1.1.3. Cho ma trận đối xứng


13 −4 2



−4
13
−2
A=



2

−2 10

Ta có nghiệm của phương trình |A − λI| = 0 là

λ1 = 9, λ2 = 9, λ3 = 18
Gọi e1 , e2 , e3 là các vectơ riêng của A. Khi đó ta có Aei = λi ei , i = 1, 2, 3
Với Ae1 = λ1 e1 ta có


13 −4

 
e11


 
 
−4 13 −2 e21  = 9 e21 

 
 

2

2

−2 10



e11



e31

e31

hay

13e11 − 4e21 + 2e31 = 9e11
−4e11 + 13e21 − 2e31 = 9e21

2e11 − 2e21 + 10e31 = 9e31
Giải hệ ta được e11 = 1, e21 = 1, e31 = 0.

Suy ra
1 1
eT1 = √ , √ , 0
2 2
Tượng tự

.


8

+ Ứng với λ2 = 9 ta có

1
−1 −4
eT2 = √ , √ , √
18 18 18
+ Ứng với λ3 = 18 ta có
2 −2 1
eT3 = ,
,
3 3 3
Phân tích phổ của A:
A = λ1 e1 eT1 + λ2 e2 eT2 + λ3 e3 eT3
hay

1


 √2 

13 −4 2


 1



 √ √1
−4 13 −2 = 9 
1
0




√ 
2
2
 2


2 −2 10
0


 
1
2

 18 

 3 


 


 
 −1  1
 2 2
−1 −4
2 1
√  √


+ 9
+ 18 


− 


 18 
18
18
18
3 3
 3 3







 1 
 −4 

3
18




1
1
4
1 1

− 

18
18 
 18
 2 2 0





 1



1
4
 + 9 −

1
1
= 9

 18 18


0
18


2 2 




 4
4
16 
0 0 0

18

 18 18
4

4 2
 9 −9 9 




 4 4

2

+ 18 


 9 9

9




 2
2 1 

9
9 9



9


1.1.3. Căn bậc hai của ma trận
Cho An×n là ma trận đối xứng, xác định không âm. Đặt P T =


[e1 , e2 , ..., en ], Λ = diag(λ1 , ..., λn ), Λ1/2 = diag( λ1 , ..., λn ).
Phân tích phổ của A
n

λi ei eTi

A=
i=1

nên

A = P ΛP T
khi đó ma trận

A1/2 = P Λ1/2 P T
thỏa mãn A1/2 A1/2 = A.
Do đó ta gọi ma trận A1/2 là căn bậc 2 của ma trận A. Ta có các
tính chất sau:
(1) (A1/2 )T = A1/2
(2) (A1/2 )−1 = P Λ−1/2 P T và kí hiệu (A1/2 )−1 = A−1/2
(3) A−1/2 A1/2 = A1/2 A−1/2 = In ; A−1/2 A−1/2 = A−1 .

1.1.4. Các bất đẳng thức ma trận và maximum
Bất đẳng thức Cauchy-Schwatz
Cho b và d trong Rn . Ta có


(bT d)2 ≤ (bT b)(dT d).
Dấu "=" xảy ra khi và chỉ khi b = cd hoặc d = cb với c là hằng số nào
đấy.
Bất đẳng thức Cauchy-Schwatz mở rộng
Cho b, d ∈ Rn và B là ma trận xác định dương cấp n × n. Khi đó

(bT d)2 ≤ (bT Bb)(dT B −1 d).
Dấu "=" xảy ra khi và chỉ khi hoặc b = cB −1 d hoặc d = cBb.
Bổ đề về maximum


10

Giả sử B > 0 cấp n × n, d ∈ Rn . Khi đó ∀d ∈ Rn ta có
(xT d)2
= dT B −1 d
max T
x=0 x Bx
với giá trị max đạt được khi x = cB −1 d với bất kỳ hằng số c = 0
Maximum của dạng thức tồn phương trên hình cầu đơn vị
Giả sử B > 0 cấp n × n với các giá trị riêng λ1 ≥ λ2 ≥ ... ≥ λn ≥ 0
và e1 , e2 , ..., en là các vectơ riêng tương ứng sao cho nó tạo thành cơ sở
trực chuẩn của Rn . Khi đó
xT Bx
max T = λ1 (đạt được khi x = e1 )
x=0 x x
xT Bx
min T = λn (đạt được khi x = en )
x=0 x x


(1.2)
(1.3)

Hơn nữa

xT Bx
= λk+1 (đạt được khi x = ek+1 ), k = 1, 2, ..., n−1 (1.4)
x⊥{e1 ,...,ek } xT x
trong đó x ⊥ y nếu xT y = (x, y) = 0.
max

1.2. VECTƠ NGẪU NHIÊN
Định nghĩa 1.2.1. Một không gian xác suất là một bộ ba (Ω, F, P ),
với Ω là một tập bất kỳ, F là một σ−đại số các tập con của Ω, và P :
F → [0, 1] là một độ đo xác suất trên F thỏa mãn:
1. P (Ω) = 1 (và P (φ) = 0).
2. Với mọi A1 , ..., An , ... ∈ F sao cho Ai ∩ Aj = φ, i = j :

P

Ai
i

=

P (Ai )
i

Tập Ω được gọi là không gian mẫu, tập rỗng φ, các phần tử của F được
gọi là các biến cố, và mỗi phần tử của Ω được gọi là một biến cố sơ cấp.

Định nghĩa 1.2.2. Cho không gian xác suất (Ω, F, P ) . Ánh xạ
X : Ω → R được gọi là biến ngẫu nhiên nếu ∀a ∈ R:

X −1 ((−∞, a)) ∈ F
Định nghĩa 1.2.3. Cho X1 , X2 , ..., Xn là các biến ngẫu nhiên cùng
xác định trên không gian xác suất (Ω, F, P ). Kí hiệu X = (X1 , X2 , ..., Xn )


11

được gọi là vectơ ngẫunhiên
 n chiều. Dạng ma trận của X như sau
X1
 X2 
X =  ...  hoặc X T = [X1 , X2 , ..., Xn ]
Xn
Định nghĩa 1.2.4. Cho Xij với i = 1, 2, ..., m; j = 1, 2, ..., n là
mn biến ngẫu nhiên cùng xác định trên không gian xác suất (Ω, F, P ) thì

X = [Xij ]m×n được gọi là ma trận ngẫu nhiên.
Định nghĩa 1.2.5. X được gọi là biến ngẫu nhiên rời rạc nếu X có
hàm phân phối F là hàm bước nhảy.
Định nghĩa 1.2.6. X được gọi là biến ngẫu nhiên liên tục nếu X
có hàm phân phối F là hàm liên tục tuyệt đối với độ đo Lebesgue của
đường thẳng.

1.2.1. Hàm xác suất đồng thời
Nếu X = (X1 , X2 , ..., Xn ) là vectơ ngẫu nhiên rời rạc có miền giá trị

X(Ω) = {xi = (x1i , x2i , ..., xni ) : i ≥ 1}

thì hàm xác suất đồng thời của X là hàm p : X(Ω) → R xác định bởi

p(xi ) = P (X = xi ).
Nếu X = (X1 , X2 , ..., Xn ) gồm n biến ngẫu nhiên liên tục và nếu tồn tại
hàm số không âm f (x) xác định trên Rn sao cho với mọi A = [a1 ; b1 ] ×

...[an ; bn ] ⊂ Rn ,
P (X ∈ A) =

f (x)dx
A

thì f (x) được gọi là hàm mật độ xác suất đồng thời của X .
Định nghĩa 1.2.7. X1 , X2 , ..., Xn được gọi là các biến ngẫu nhiên
độc lập nếu P (X1 < x1 , X2 < x2 , ..., Xn < xn ) = P (X1 < x1 )P (X2 <

x2 )...P (Xn < xn ).
Định lý 1.2.8. Nếu X1 , X2 ,..., Xn là các biến ngẫu nhiên độc lập
có hàm mật độ xác suất lần lượt là f1 (x1 ), f2 (x2 ),...,fn (xn ) thì hàm mật


12

độ xác suất đồng thời của X là

f (x) = f1 (x1 )f2 (x2 )...fn (xn ), x = (x1 , x2 , ..., xn ) ∈ Rn .
Ví dụ 1.2.9. Cho X1 ∼ N (µ1 ; σ12 ), X2 ∼ N (µ2 ; σ22 ), X1 và X2 độc
lập. Tìm hàm mật độ xác suất đồng thời của X = (X1 ; X2 ).

X1 có hàm mật độ f1 (x1 ) = √


1
1 (x1 − µ1 )2
exp −
2
σ12
2πσ1

1
1 (x2 − µ2 )2
X2 có hàm mật độ f2 (x2 ) = √
exp −
2
σ22
2πσ2
Mà X1 và X2 độc lập nên X có hàm mật độ
f (x) = f1 (x1 )f2 (x2 )
1 (x1 − µ1 )2
1
1 (x2 − µ2 )2
1

exp −
exp −
=√
2
σ12
2
σ22
2πσ1

2πσ2

=

1
1
exp − 2 2 σ12 (x2 − µ2 )2 + σ22 (x1 − µ1 )2
2πσ1 σ2
2σ1 σ2

1.2.2. Vectơ trung bình và ma trận hiệp phương sai
Cho vectơ ngẫu nhiên X = (X1 , X2 , ..., Xn ). Giả sử E(Xi ) = µi là
kỳ vọng của Xi , σii = E(Xi − µi )2 là phương sai của Xi và cov(Xi ; Xj ) =
σij = E(Xi − µi )(Xj − µj ) là hiệp phương sai của biến Xi và Xj trong đó
+ Nếu (Xi , Xj ) là các biến ngẫu nhiên liên tục có hàm mật độ đồng thời
là fij (xi , xj ) thì
+∞

+∞

(xi − µi )(xj − µj )fij (xi , xj )dxi dxj

σij =
−∞
+∞

−∞
+∞

xi xj fij (xi , xj )dxi dxj − µi µj


=
−∞

−∞

+ Nếu (Xi , Xj ) là các biến ngẫu nhiên rời rạc với xác suất đồng thời

P (Xi = xi , Xj = xj ) = pij (xi xj )


13

thì

(xi − µi )(xj − µj )pij (xi , xj )

σij =
xi

xj

xi xj pij (xi , xj ) − µi µj

=
xi

xj

Khi đó


µ = [µ1 , µ2 , ..., µn ]T
được gọi là vectơ trung bình và


σ11
 σ21
Σ =  ...
σn1

σ12
σ22
...
σn2

được gọi là ma trận hiệp phương sai.
σij
Gọi ρij = √
là hệ số tương
σii σjj

ρ11 ρ12
 ρ21 ρ22
ρ =  ...
...
ρn1 ρn2

...
...
...

...


σ1n
σ2n 
... 
σnn

quan của Xi và Xj . Khi đó

...
...
...
...


ρ1n
ρ2n 
... 
ρnn

được gọi là ma trận tương quan của vectơ X. Ta có thể tính ρ từ Σ bằng
cách sau:
Đặt


σ11 0 . . . 0
V =  0 σ22 . . . 0  = diag(σ11 , σ22 , . . . , σnn )
..
.. . .

. σnn
.
.



V 1/2 = diag( σ11 , σ22 , . . . , σnn )
1
1
1
V −1/2 = diag( √ , √ , . . . , √
).
σ11 σ22
σnn
Khi đó

ρ = V −1/2 ΣV −1/2 .


14

Ví dụ 1.2.10. Cho X1 , X2 là hai biến ngẫu nhiên rời rạc với xác
suất được cho trong bảng sau:

x1 \ x2

0

p1 (x1 )


1

-1

0,24 0,06

0,3

0

0,16 0,14

0,3

1

0,40 0,00

0,4

0,8

1,0

p2 (x2 )

0,2

Ta có


E(X1 ) = −1 × 0, 3 + 0 × 0, 3 + 1 × 0, 4 = 0, 1 = à1 ,
E(X2 ) = 0 ì 0, 8 + 1 ì 0, 2 = 0, 2 = à2 ,
11 = σ12 = (−1 − 0, 1)2 × 0, 3 + (0 − 0, 1)2 × 0, 3 + (1 − 0, 1)2 × 0, 4
= 0, 69
σ22 = σ22 = (0 − 0, 2)2 × 0, 8 + (1 − 0, 2)2 × 0, 2 = 0, 16
σ12 = 21 = E(X1 X2 ) à1 à2
= (1) ì 0 × 0, 24 + (−1) × 1 × 0, 06 + 0 × 0 × 0, 16 + 0 × 1 × 0, 14
+ 1 × 0 × 0, 4 + 1 × 1 × 0 − 0, 1 × 0, 2 = −0, 08
. Vậy
0, 69 −0, 08
Σ=
−0, 08 0, 16
Ví dụ 1.2.11. Cho

4

Σ=
1

1
9

2



σ11 σ12 σ13

 
σ21 σ22 σ23 

−3
=
 


2 −3 25
Tính V 1/2 và ρ



σ31 σ32 σ33


15

Ta có


2 0 0



0
3
0
=





V 1/2

0 0 5




V

−1/2

1/2



= 0

0

0
1/3
0

0





0 


1/5

Khi đó

ρ = V −1/2 ΣV −1/2





1/2 0
0
1/2 0
0
4 1 2









=  0 1/3 0  1 9 −3  0 1/3 0 





0
0 1/5 2 −3 25
0
0 1/5


1
1/6 1/5




1
−1/5
= 1/6


1/5 −1/5
1

1.2.3. Chia khối ma trận hiệp phương sai
Chia vectơ ngẫu nhiên X = (X1 , X2 , ..., Xn )T thành hai vectơ con p
chiều và n − p chiều như sau:
X1
Xp+1
(1)
(2)
X = ... , X = ...
Xp
Xn

Khi đó ta viết


X (1)
X =  ... 
X (2)


µ(1)
Với cách kí hiệu như trên ta có µ =  ... , với
µ(2)
µp+1
µ1
µ(1) = ... , µ(2) = ... .
µn
µp


16

Mặt khác

(X − µ)(X − µ)T


.
(X (1) − µ(1) )(X (1) − µ(1) )T .. (X (1) − µ(1) )(X (2) − µ(2) )T

···
···

···
=
.
(X (2) − µ(2) )(X (1) − µ(1) )T .. (X (2) − µ(2) )(X (2) − µ(2) )T
trong đó (X (1) − µ(1) )(X (1) − µ(1) )T là ma trận cấp p × p.
(X (1) − µ(1) )(X (2) − µ(2) )T là ma trận cp p ì (n p).
(X (2) à(2) )(X (1) − µ(1) )T là ma trận cấp (n − p) ì p.
(X (2) à(2) )(X (2) à(2) )T là ma trận cấp (n − p) × (n − p).
Ma trận hiệp phương sai cũng được chia khối như sau


.
Σ11 .. Σ12
Σ = ··· ··· ···,
.
Σ21 .. Σ22
trong đó
Σ11 = E[(X (1) − µ(1) )(X (1) − µ(1) )T ]
Σ12 = E[(X (1) − µ(1) )(X (2) − µ(2) )T ]
Σ21 = E[(X (2) − µ(2) )(X (1) − µ(1) )T ]
Σ22 = E[(X (2) − µ(2) )(X (2) − µ(2) )T ]
1.2.4. Vectơ trung bình và ma trận hiệp phương sai của tổ
hợp tuyến tính các vectơ ngẫu nhiên
Nếu X1 và X2 là hai biến ngẫu nhiên, a và b là các số thực thì
(1) E(aX1 + bX2 ) = aE(X1 ) + bE(X2 )
(2) V ar(aX1 + bX2 ) = a2 V ar(X1 ) + b2 V ar(X2 ) + 2abσ12
(3) Cov(aX1 , bX2 ) = abcov(X1 , X2 )
Đặt C T = [a, b], X T = [X1 , X2 ] ta có

aX1 + bX2 = C T X

và do đó

E(C T X) = C T E(X)
V ar(C T X) = C T cov(X)C


17

Một cách tổng quát, nếu C T = [c1 , c2 , ..., cn ] là vectơ các hằng số và X T =
[X1 , X2 , ..., Xn ] là vectơ ngẫu nhiên thì

E(C T X) = C T E(X) = C T µ
V ar(C T X) = C T cov(X)C = C T ΣC.
Nếu C = [cij ]m×n là ma trận các hằng số thì


c11 X1 + c12 X2 + ... + c1n Xn
 c X + c22 X2 + ... + c2n Xn 
CX =  21 1

···
cm1 X1 + cm2 X2 + ... + cmn Xn
Khi đó E(CX) = CE(X), cov(CX) = Ccov(X)C T
1.3. PHÂN BỐ CHUẨN NHIỀU CHIỀU
Định nghĩa 1.3.1. Vectơ ngẫu nhiên X = [X1 , X2 , ..., Xp ]T được
gọi là có phân bố chuẩn p chiều với tham số µT = [µ1 , µ2 , ..., µp ] và Σ =
[σij ]p×p (Σ > 0) nếu X có hàm mật độ xác suất đồng thời
1
1
(x − µ)T Σ−1 (x − µ) .

exp

f (x) =
p/2
1/2
2
(2π) |Σ|
Kí hiệu X ∼ Np (µ; Σ).
Ví dụ 1.3.2. Xét mật độ chuẩn hai chiều với µ1 = E(X1 ), µ2 =

E(X2 ); σ11 = D(X1 ), σ22 = D(X2 ), σ12 = cov(X1 , X2 ). Khi đó ρ12 =
σ12
là hệ số tương quan của X1 và X2 và

σ11 σ22
σ11 σ12
Σ=

>0
σ21 σ22

nếu |ρ12 | < 1, σ11 > 0, σ22 > 0. Dễ dàng thấy rằng

Σ−1 =

σ22

1

2

σ11 σ22 − σ12
−σ21



=

−1
σ11

−σ12
σ11
−1/2

−ρ12 (σ11 σ22 )
1 
1 − ρ212 −ρ (σ σ )−1/2
−1
σ22
12 11 22





18

Do đó

(x − µ)T Σ−1 (x − µ) = [x1 − µ1 x2 − µ2 ]




−1
σ11

−ρ12 (σ11 σ22 )−1/2

−ρ12 (σ11 σ22 )−1/2

1
=
1 − ρ212

x1 − µ1

σ11

2

−1
σ22

1
1 − ρ212



x1 − µ1




x2 − µ2

(x1 − µ1 )(x2 − µ2 )
− 2ρ12
+
√ √
σ12 σ22

x2 − µ2

σ22

2

Vì vậy hàm mật độ chuẩn hai chiều của (X1 , X2 ) là

1
×
2π(σ11 σ22 (1 − ρ212 ))1/2
(x1 − x2 )2
(x1 − µ1 )(x2 − µ2 ) (x2 − µ2 )2
1
+
exp −


12
2(1 − ρ212 )

σ11
σ22
(σ11 σ22 )1/2

f (x1 , x2 ) =

Mệnh đề 1.3.3. Nếu Σ xác định dương thì Σ−1 tồn tại, hơn nữa

(λ; e) là cặp giá trị riêng - vectơ riêng của Σ khi và chỉ khi (λ−1 ; e) là cặp
giá trị riêng - vectơ riêng của Σ−1 .
Chứng minh. Giả sử (λ; e) là cặp giá trị riêng - vectơ riêng của Σ. Ta có
1
Σe = λe ⇔ Σ−1 Σe = λΣ−1 e ⇔ Σ−1 e = e(vì λ > 0)
λ
Tính chất 1.2. Nếu X có phân bố chuẩn p chiều Np (µ; Σ) thì các
thành phần của X là X1 , X2 ,..., Xp có phân bố chuẩn 1 chiều.
Tính chất 1.3. Nếu X có phân bố chuẩn Np (µ; Σ) thì với mọi
aT = [a1 , a2 , ..., ap ] ta có

aT X = a1 X1 + a2 X2 + ... + ap Xp ∼ N (aT µ; aT Σa).
Ta cũng có nếu

aT X = a1 X1 + a2 X2 + ... + ap Xp ∼ N (aT µ; aT Σa).
với mọi aT = [a1 , a2 , ..., ap ] thì X có phân bố chuẩn Np (µ; Σ).


19

Tính chất 1.4. Nếu X có phân bố chuẩn Np (à; ) thỡ vi mi
A = [aij ]nìp ta cú


AX ∼ N (Aµ; AΣAT ).
Mệnh đề 1.3.4. Nếu X có phân bố chuẩn p chiều Np (µ; Σ) thì

χ2 = (X − µ)T Σ−1 (X − µ)
có phân bố χ2p (phân bố khi bình phương p bậc tự do). Do đó, với mức ý
nghĩa α, ta có

P ((X − µ)T Σ−1 (X − µ) > χ2p (α)) = α.
Chứng minh. Giả sử (ei , λi ) là các cặp vectơ riêng và giá trị riêng của Σ.
Xét Y = Σ−1/2 (X − µ).
Khi đó Y = [Y1 , ..., Yp ]T có E(Y ) = Σ−1/2 E(X − µ) = 0, cov(Y ) =
Σ−1/2 cov(X − µ)Σ−1/2 = Σ−1/2 ΣΣ−1/2 = Ip .
Theo các tính chất trên ta suy ra:

• Y có phân bố chuẩn N (0, Ip );
T

−1

T

−1/2

• (X −µ) Σ (X −µ) = (X −µ) Σ

Σ

−1/2


T

p

(X −µ) = Y Y =
i

Đại lượng χ2 =

p
i

Yi2

Yi2 là tổng bình phương của p biến ngẫu nhiên độc lập

có phân bố chuẩn một chiều N (0, 1) nên χ2 có phân bố χ− bình phương
với p bậc tự do. Do đó
p

Yi2 ≤ χ2P (α)

P {X ∈ V (α)} = P

= 1 − α.

i

1.3.1. Lấy mẫu từ phân bố chuẩn nhiều chiều
Cho X = [X1 , X2 , ..., Xn ]T là một vectơ phân bố chuẩn N (µ, ),

giả sử ta tiến hành n thí nghiệm (độc lập) để quan sát X và ta được n bộ
quan sát

x1 = (x11 , ..., x1p )T ; x2 = (x21 , ..., x2p )T ; ...; xn = (xn1 , ..., xnp )T .


×