Tải bản đầy đủ (.pdf) (88 trang)

phân tích thành phần chính: principal component analysis - pca

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.38 MB, 88 trang )

Phân tích thành phần chính - Principal Component Analysis - PCA
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA TOÁN – TIN HỌC

Giảng viên : Phạm Thế Bảo






Nguyễn Thái Bình 0511002
Lê Thuận Giang 0511003
Phạm Hải Triều 0511041

Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA



Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA

SƠ LƯỢC VỀ ĐẠI SỐ TUYẾN TÍNH
§1. KHÔNG GIAN TUYẾN TÍNH
1. Định nghĩa không gian tuyến tính thực
Cho E là tập không trống và R là tập các số thực. E là không gian vector thực nếu:
a. Trong E thõa mãn một phép cộng với các tính chất:


∀x và y ∈ E: x + y ∈ E
x + y = y + x (1.1.1)
∀x, y và z ∈ E: x + (y + z) = (x + y) +z (1.1.2)
Tồn tại một phần tử 0 sao cho x + 0 = x (0 gọi là gốc) (1.1.3)
∀x ∈ E: ∃ (-x) ∈ E sao cho x + ( -x) = 0 (1.1.4)
b. Ta xác định một phép nhân khi đưa vào các phần tử của R và E thỏa mãn
các tính chất:
∀λ ∈ R và ∀x ∈ E, λ.x ∈ E (1.1.5)
Nếu λ, μ ∈ R và x, y ∈ E thì:
(λ + μ)x = λ x + μx (1.1.6)
λ (x + y) = λx + λy (1.1.7)
λ (μx) = (λ μ)x (1.1.8)
Nếu λ = 1 thì 1.x = x (1.1.9)
Các phần tử của E gọi là các vector, còn các yếu tố của R gọi là các vô hướng, tức
là các số thực.
2. Tổ hợp tuyến tính
Vector z ∈ E gọi là tổ hợp tuyến tính của các vector x
1
, x
2
, …, x
m
∈ E, nếu có các
vô hướng (các số) α
1
, α
2
,…, α
m
∈ R không ng không tất cả, sao cho: bằ








(1.1.10)
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA
3. Vector độc lập tuyến tính
Các vector x
1
, x
2
, …, x
m
gọi là độc ập tuyến tính, nếu: l







(1.1.10)’
khi và chỉ khi α
1
= α

2
= … = α
m
= 0, và gọi là phụ thuộc tuyến tính nếu (1.1.10)’ xảy ra
với ít nhất một α
j
≠ 0.
1. Cơ sở của không gian.
p vector độc lập tuyến tính e
1
, e
2
, …, e
p
∈ E là hệ cơ sở của E nếu mọi vector x ∈ E
đều là tổ hợp tuyến tính của hệ đó, tức là đều có thể biểu diễn dưới dạng:







(1.1.11)
trong đó: {a
1
, a
2
, …, a
p

} ∈ R
Nếu đặt chẳng hạn:
e
1
= (1,0,0,…,0)
e
2
= (0,1,0,…,0)
……………….
e
p
= (0,0,0,…,1)
thì viết được:
x = (a
1
, a
2
, …, a
p
),
và khi đó x được gọi là vector dòng. Nếu viết:
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA










thì x là vector cột trong không gian đã cho.
Rõ ràng rằng với phần tử 0 (vector 0) thì a
j
= 0 với mọi j = 1, 2,…, p, tức là:
0 = (0, 0,…, 0)
Không gian E có p vector cơ sở như thế không gian tuyến tính p chiều, ký hiệu là
R
p
. Nếu ký hiệu số chiều của không gian E là dimE thì ta có dimR
P
= p.
Không gian R
P
có thể có nhiều cơ sở, nhưng mọi cơ sở của nó đều gồm có p
vector. Các số thực (các vô hướng) a
1
, a
2
,…, a
p
gọi là các tọa độ của x trên hệ cơ sở e
1
,
e
2
, …, e
p

. Ta chỉ xét các không gian có số chiều hữu hạn (p < ∞).
Ví dụ 1. Thống kê công thức bón phân N, P, K cho lúa và năng suất lúa tương ứng
trên 9 mảnh ruộng tại một vùng thuộc đồng bằng sông Hồng được bảng sau:
Mảnh
ruộng
N (kg/ha) P (kg/ha) K (kg/ha) NS
(tấn/ha)
4,10 42 90 100 1
4,20 45 85 120 2
4,00 40 95 110 3
4,15 45 95 105 4
4,05 50 90 115 5
4,10 40 100 110 6
4,15 45 80 120 7
4,10 40 90 110 8
4,20 50 100 100 9

Ta có một không gian 4 chiều và 9 điểm thực nghiệm tức là có 9 vector thực
nghiệm trong không gian đó.
Nếu đặt:
e
1
= (1, 0, 0, 0), số 1 biểu thị 1kg N/ha,
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA
e
1
= (0, 1, 0, 0), số 1 biểu thị 1kg P/ha,
e

1
= (0, 0, 1, 0), số 1 biểu thị 1kg K/ha,
e
1
= (0, 0, 0, 1), số 1 biểu thị 1tấn thóc/ha
thì mỗi công thức bón phân và năng suất tương ứng được thể hiện bằng một vector x là
tổ hợp tuyến tính của hệ cơ sở e
1
, e
2
, e
3
, e
4
. Chẳng hạn, với công thức thứ nhất:
x
1
= 100e
1
+ 90e
2
+ 42e
3
+ 4,1e
4

Với công thức thứ 2:
x
2
= 120e

1
+ 85e
2
+ 45e
3
+ 4,2e
4
……………………………….
Mỗi vector 









trong không gian p chiều có điểm ngọn là (x
i1
,x
i2
,…,x
ip
).
Chẳng hạn có thể viết:
x
1
= (100; 90; 42; 4,1)
2.

Không gian con.
Cho tập con F ⊂ R
p
, F ≠ Ø.
Tập F được gọi là không gian con
của R
P
hay siêu phẳng, nếu với
mọi vector x, y ∈ F và mọi λ, μ ∈
R thì:
x = λx + μy ∈ F.
Tất nhiên dimF ≤ dỉm
p
.
Ví dụ 2. Trong bảng hình 3,
nếu chỉ quan tâm đến quan hệ giữa
đạm (N) và năng suất, ta được một
không gian hai chiều. Đó là không
gian con của không gian bốn chiều đã nêu trên.
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA
Hệ cơ sở của không gian con này là:
e
1
= (1, 0)
e
4
= (0, 1)
mà ta có thể biểu diễn bằng mặt phẳng như trên hình 3.

trong đó, với mảnh 1: x
1
= 100e
1
+ 4,1e
4
.
với mảnh 2: x
2
= 120e
1
+ 4,2e
4
với mảnh 3: x
3
= 110e
1
+ 4,0e
4.
Ví dụ 3: Dễ dàng thấy rằng hai vector x
1
và x
2
trong ví dụ một độc lập tuyến tính
với nhau. Do đó, chúng có thể lập thành một siêu phẳng trong không gian 4 chiều.
Không gian con (siêu phẳng) hai chiều này chứa mọi vector có dạng
x = (100λ + 120μ)e
1
+ (90λ + 85μ)e
2

+ (42λ + 45μ)e
3
+ (4,1λ + 4,2μ)e
4
với λ và μ
là những số thực bất kỳ.
Tất nhiên, để phù hợp với thực tế sản xuất nông nghiệp, ta cần giới hạn giá trị của
λ và μ, chẳng hạn so với bảng số liệu:
100 ≤ 100λ + 120μ ≤ 120
80 ≤ 90λ + 85μ ≤ 100
40 ≤ 42λ + 45μ ≤ 50
4,0 ≤ 4,1λ + 4,2μ ≤ 4,2
Không gian con có các tính chất sau:
1. Nếu F
1
và F
2
là hai không gian con của R
p
, thì F
1
∩ F
2
cũng là không gian
con của R
p
.
2. Cho F là không gian con của R
p
, và cho t là một vector bất kỳ ∈ R

p
. Gọi:
F
*
= {y ∈ R
p
: y = x + t, x ∈ F} (1.1.13)
thì F
*
là siêu phẳng (không gian con) afin song song với F.
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA
3. Tổng trực tiếp của các không gian con
Cho F
1
, F
2
, …, F
k
là k không gian con của R
p
. Nếu F
1
, F
2
, …, F
k
tạo thành một phân
hoạch trong R

p
, tức là:








(1.1.14)
F
i
∩ F
j
= Ø với mọi i ≠ j; i, j = 1, 2,…, k (1.1.15)
thì với mỗi vector x ∈ R
p
đều tồn tại một và chỉ một hệ vector x
1
, x
2
, …, x
k
, trong đó x
j

∈ F
j
(j = 






) sao cho:





Trong trường hợp đó không gian R
p
gọi là tổng trực tiếp của các F
j
; j = 





; và ký
hiệu là:
R
p
= F
1
⊕ F
2
⊕ … ⊕ F

k
. (1.1.16)
Nếu k = 2 thì R
p
= F
1
⊕ F
2
; F
1
và F
2
gọi là các phần bù (đối lập) của nhau.
Ví dụ 4. Trong bảng 3.1, nếu gọi F
1
là không gian con 3 chiều, mà mỗi vector phần
tử của nó là một công thức phân bón, và F
2
là không gian con một chiều mà mỗi phần tử
của nó là một mức năng suất thì F
1
là phần bù của F
2
.
§2. MA TRẬN
1. Định nghĩa ma trận
Ma trận là một bảng số gồm n dòng và p cột, n và p có thể bất kì và hữu hạn. Ký
hiệu ma trận bằng các chữ hoa A, B, X, … Đôi khi để chỉ rõ số dòng và cột của ma trận,
ta ký hiệu A
n,p

(n dòng và p cột). Như vậy,
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều


























(1.2.1)
trong đó a
ij
là phần tử nằ t j cm ở dòng i, cộ ủa A.
Cũng có thể viết: 
























hoặc





hoặc





hoặc 




Nếu n ≠ p, thì ma trận là ma trận chữ nhật
Nếu n = p, ta có ma trận vuông cấp p, A
pp

Cho ma trận A. Một ma trận gồm mọi phần tử nằm trong r dòng và r cột bất kỳ
(r<p) của A gọi là ma trận con cấp r của A.
Ví dụ 1: Trong ví dụ 1 §1 ta có một ma trận 9 dòng 4 cột (ma trận chữ nhật). Nếu
cho tương ứng với mỗi cột một vector (gọi là vector – biến) thì ta được 4 vector 9 chiều
∈ R
9
, còn nếu cho tương ứng mỗi dòng một vector (gọi là vector - cá thể) thì ta được
một không gian 4 chiều, ký hiệu R
4
.
Như vậy, mỗi vector – cá thể (vector dòng) ở đây tương ứng với một mảnh ruộng,

trên đó có các giá trị của N, P, K và NS; còn mỗi vector – biến (vector cột) tương ứng
với một biến lượng, mà mỗi phần tử của vector là một trị của biến lượng đó.
2. Cộng ma trận:
Cho hai ma trận
 












Phân tích thành phần chính - Principal Component Analysis - PCA
(Có cùng số dòng và số cột)
Tổng của hai ma trận A và B, ký hiệu là:
 (1.2.2) 




là ma trận n dòng p cột mà: cij = aij + bij với mọi 






, j






Ma trận tổng là ma trận mà mỗi phần tử của nó bằng tổng của các phần tử tương
ứng trong các ma trận thành phần.




  





Ví dụ 2:
3. Nhân ma trận với một vô hướng
Cho ma trận A và một số khác k. khi đó:
Ak=kA=(ka
ij
) (1.2.3)
Nếu ma trận A được nhân với số k thì tức là nhân mọi phần tử của nó với số k đó


  



  

Ví dụ 3:
4. Nhân hai ma trận
Cho hai ma trận A
,p
và B
p,q
(s ộ của A
n,p
b g số a B ) tức là:
n
ố c t ằn dòng củ
p,q





















































Khi đó ma trận tích:
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều
























là ma trận n dòng và q cột mà phầ tử ở dòng i, cột j là: n





















(1.2.4)
Ví dụ 4:









khi đó:
c11 = 2.2 – 1.1 + 3.1 = 6
c12 = 2.1 -1.3 + 3.2 = 5
c13 = 2.3 + (-1)(-1) + 3.4 = 19
c21 = -1.2 + 4.1 + 2.1 = 4
c22 = -1.1 + 4.3 + 2.2 = 15
c23 = -1.3 + 4.(-1) + 2.4 = 1
Vậy:




Chú ý: Phép nhân ma trận nói chung không có tính giao hoán, tức là:
AB ≠ BA
Ví dụ 5: Cho hai ma trận A và B như trong ví dụ 3 thì không tồn tại tích BA, vì số
cột của B không bằng số dòng của A.
Phân tích thành phần chính - Principal Component Analysis - PCA


 





Ví dụ 6: Cho

 


 


thì
5. Ma trận chuyển vị, vết và ma trận con phụ
Cho ma trận A
n,p
n dòng và p cột bất kỳ. Ma trận chuyển vị của A
n,p
ký hiệu A
T
p,n

ma trận trong đó dòng i 





 của A
n,p
trờ thành cột i 






 của A
T
p,n
. Nói cách
khác, nếu:





















 thì 


































Tương tự, nếu:
là vector cột trong R
n
thì vector dòng: x
T
= (x1, x2,…, xn) là vector chuyển vị của x, và
tất nhiên x
T
∈ R
n
.
Chú ý 1: Mọi tính chất đúng cho ma trận A
n,p
(cho vector x) đều đúng cho ma trận
chuyển vị A
T
p,n
(cho vector x
T
) của nó.
Do đó, từ đây trong toàn bộ trình bày, nếu không có gì đặc biệt, ta ký hiệu x, y,… là
những vector cột và x
T
, y
T
,… là những vector dòng chuyển vị của x, y,…
Chú ý 2: cho A là ma trận p dòng, n cột và B là ma trận n dòng, q cột thì tích AB là
ma trận p dòng, q cột, đồng thời tích AB có tính chất sau:

(AB)
T
= B
T
A
T
(1.2.5)
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA
Cho ma trận vuông A
p,p
. Gọi vết của A, ký hiệu là Tr(A), là tổng các phần tử trên
đường chéo chính của A. Nói ch k ác, n : cá h ếu




















 thì 








Nếu A = A
T
(tức là a
ịj
= a
ij
; 





) thì ma trận A gọi là đối xứng.
Gọi a
ij
là phần tử ở dòng i, cột j của ma trận vuông A
p,p
. Ta gọi ma trận con phụ của

a
ij
, ký hiệu A
ij
, là ma trận thu được bằng cách bỏ dòng i và cột j của ma trận A.
6. Hạng của ma trận
Hạng của ma trận A
np
là số lớn nhất những vector cột độc lập tuyến tính của ma
trận đó. Ký hiệu hạng của A là rankA.
Chứng minh được rằng nếu rankA = r thì ma trận A cũng có nhiều nhất là r dòng
độc lập tuyến tính, và dĩ nhiên là rankA ≤ min(n,p)
7. Định thức
Cho ma trận Ap,p vuông cấp p. Định thức của A, ký hiệu là |A|, là một vô hướng
tức là một phần tử của R được tính theo cong thức sau:












(1.2.6)
Nói cách khác, định thức của A bằng một tổng, trong đó mỗi số hạng là một tích
của một phần tử a

ij
của dòng i và định thức của ma trận con phụ với nó, tích này lấy dấu
cộng hay trừ tùy thuộc vào tổng (i + j) là chẵn hay lẽ. Tổng được lấy theo một cột j (hoặc
một dòng i) nào đó của A.
Ngoài xa, còn những định nghĩa tổng quát hơn về định thức
Định thức của ma trận vuông A cấp p cũng gọi là định thức cấp p
Định thức của ma trận con của A cũng gọi là định thức con
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA










Với ma trận cấp 2






















thì





















với ma trận cấp 3:
thì













  



 





































Các tính chất sau đây giúp cho việc tính định thức dễ dàng:

1. Định thức của ma trận không thay đổi qua phép chuyển vị
Nói cách khác: |A
p,p
| = |A
T
p,p
|
Từ tính chất này suy ra rằng mỗi điều đúng cho dòng (các tính chất sẽ nêu ở dưới) đều
đúng cho cột, và ngược lại
2. Thừa số chung của các phần tử của một dòng (cột) bất kỳ có thể đưa ra
ngoài dấu định thứ Nói c ch k c, c. á há































































3. Nếu tại một dòng i bất kỳ 





, mà
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA










với m i j=1, 2, …, p, thì: ọ


































































































4. |A| = 0 nếu trong đó:
- Hoặc có một dòng gồm toàn số không.
- Hoặc có một số dòng phụ thuộc tuyến tính (trường hợp đặc biệt nếu có hai dòng
tỉ lệ với nhau; trường hợp hai dòng bằng nhau là trường hợp riêng của tỉ lệ)
Từ trường hợp đặc biệt này ta có hệ quả:









với mọi k ≠ i; k, 





.
Hệ quả: Nếu rankA = r (r ≤ p) thì trong A tồn tại ít nhất một định thức con cấp r
khác không, và ngược lại. Nói cách khác hạng của A chính là cấp cao nhất của định thức

con khác 0 của A.
5. Định thức không thay đổi nếu cộng vào dòng i một dòng k bất kỳ nhân với
một số. Nói cách khác:






























































































Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA
Nhờ tính chất đó, có thể biến đổi sao cho trong dòng i của định thức mọi phần tử
đều bằng không, trừ một phần tử k c
ij
≠ 0. Khi đó: há không, giả sử a










tức là việc tính định thức A cấp p đưa về việc tính định thức cấp (p - 1). Ta hạ cấp dần
như vậy cho đến khi chỉ còn định thức cấp 3 hoặc định thức cấp 2.
6. Định thức của tích các ma trận bằng tích các định thức của các ma trận đó,
tức là:










(1.2.7)
Tất nhiên công thức (1.2.7) chỉ đúng khi A và B đều là các ma trận vuông cùng cấp
Ví dụ 7: Tính định thức ma trận

 

 
 



 

Ta có:




 

 
 



 


Biến đổi định thức trên, bằng cách:
Giữ nguyên dòng hai trong định thức
Nhân dòng 2 với 2 rồi cộng vào dòng 1, được dòng 1 mới, nhân dòng 2 với -3 rồi
cộng vào dòng 3 cũ, được dòng 3 mới, và nhân dòng 2 với -2 rồi cộng vào dòng 4 cũ,
được dòng 4 mới củ ịnh thức. K được:a đ ết quả

 

 
 



 



 
 


 
 

Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Pr ipa mpinc l Co onent Analysis - PCA
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều





  
  
  

  

  


Ví dụ 8: Cho







Tính |AB|
Theo tính chất 6 của định thức thì |AB| = |A|.|B|
Một mặt, ta có |A| = 6+4 = 10, |B| =2 + 6 = 8. Do đó |AB| = 80
Mặt khác ta có:











     
     

 
 

Do đó |AB| = 2 + 6.13 = 80
Đó là kết quả nhận được khi nhân hai định thức bằng hai cách khác nhau.
Ma trận vuông A gọi là không suy biến nếu định thức của nó khác không,
|A| ≠ 0.
8. Ma trận đơn vị
Ma trận vuông cấp k gọi là ma trận đơn vị cấp k, nếu các phần tử trên đường chéo
chính của nó (tức là các a
ii
, 





) đều bằng 1, còn mọi phần tử khác đều bằng 0. Ký
hiệu ma trận đơn vị cấp k là I
kk
(hay đơn giả n là I) thì:










 (1.2.8)
9. Ma trận nghịch đảo
Phân tích thành phần chính - Principal Component Analysis - PCA
Cho ma trận A vuông cấp k. Nếu tồn tại một ma trận B vuông cấp k, sao cho AB=I,
thì B gọi là ma trận nghịch đảo của A
Ký hiệu ma trận nghịch đảo của A là A
-1
thì ta có:
AA
-1
= A
-1
A = I
Nhận xét:
1. Chỉ có các ma trận vuông mới có nghịch đảo.
2. Cần và đủ để ma trận vuông A cấp k có ma trận nghịch đảo A
-1
là A không
suy biến, tức là |A| ≠ 0
3. Khác với phép nhân ma trận thông thường (không giao hoán hay AB≠BA),
phép nhân ma trận vuông bất kỳ A với nghịch đảo của nó luôn giao hoán (xem (1.2.9))
Cách tìm ma trận nghịch đảo
Giả sử A = [a

ij
]
pp

Đặt A
-1
= [a
ij
-1
]
pp
. Để tìm A
-1
t chỉ việc nh các a
ij
-1
sao cho: a xác đị








ớ
ớ

(1.2.10)
Theo định nghĩa của định thức và hệ quả tính chất 4 của nó, để (1.2.10) thỏa mãn,

chỉ việc cho:











(1.2.11)
trong đó A
ij
là ma trận con phụ của a
ij
, và |A| là định thức của A
Ví dụ 9:
Tìm ma trận nghịch đảo của



  

ta có |A| = (6 – 0 – 2) – (3 – 0 + 2) = -1
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA
Ng Lê Thuận Giang – Phạm Hải Triều uyễn Thái Bình –













 

A
13
= 2 + 3 = 5, A
21
= 0 + 1 = 1,
A
22
= 2 – 1 = 1, A
23
= 1 - 0 = 1,
A
31
= 0 + 3 = 3, A
32
= 2 + 2 = 4, A
33

= 3
Như vậy:







Dễ thấy rằng:









Cũng có thể tìm A
-1
bằng cách lập một bảng mà bên trái là ma trận A và bên phải là
ma trận đơn vị cùng cấp. Biến đổi theo dòng và chỉ theo dòng sao cho bên trái trở thành
ma trận đơn vị, khi đó bên phải sẽ là A
-1

Ví dụ 10:
Tìm nghịch đảo của ma trận g A đã viết ở trên, ta lập bản




  





giữ nguyên dòng 1
Nhân dòng 1 với -2 rồi cộng vào dòng 2, được dòng 2 mới, cộng dòng 1 vào dòng 3
được dòng 3 mới, kết quả ta được:






  


Phân tích thành phần chính - Principal Component Analysis - PCA
N i huậguyễn Thá Bình – Lê T n Giang – Phạm Hải Triều

Giữ nguyên dòng 1. chia dòng 2 (nhân dòng 2 với


) cho 3 được dòng 2 mới. Nhân
dòng 2 mới với (-1) rồi cộn n ới, kg với dò g 3 m ết quả là:







  
  

Chia dòng 3 cho (-1/3) được dòng 3 mới. Nhân dòng 3 mới với (-4/3) rồi cộng với
dòng 2 được dòng 2 mới. Cộng i dò g 1 ợc dòng 1 mới, kết quả cho: dòng 3 mớ với n , đư





  

  

cuối cùng ta có:







10. Ma trận trực giao
Nếu A
T
= A
-1

, tức là nếu AA
T
= A
T
A = I thì A gọi là ma trận trực giao
11. Hệ phương trình tuyến tính
Cho hệ phương trình tuyến tính
a
11
x
1
+ a
12
x
2
+ …+ a
1p
x
p
= b
1

a
21
x
1
+ a
22
x
2

+ …+ a
2p
x
p
= b
2

…………………………… (1.2.12)
a
n1
x
1
+ a
n2
x
2
+ …+ a
np
x
p
= b
n

Nếu đặt:








































Phân tích thành phần chính - Principal Component Analysis - PCA
N Bguyễn Thái ình – Lê Thuận Giang – Phạm Hải Triều

thì viết được hệ phương trình (1.2.12) dưới dạng ma trận:
AX = B (1.2.13)
Nghiệm của phương trình (1.2.12) (tức là của (1.2.13)) là vector (








sao cho khi thay x
j
bởi α
j






 thì (1.2.12) thỏa mãn (tức là cả n phương trình đều
trở thành đồng nhất thức)
Giải hệ phương trình (1.2.12) cũng là giải hệ phương trình (1.2.13), nên từ đây chỉ
nói đến phương trình (1.2.13).

Ta xét các trường hợp sau:
1. A là ma trận vuông cấp p, không suy biến, tức là n = p và |A| ≠ 0. Nhân trái
(1.2.13) với A
-1
, ta được:
A
-1
.A.X = A
-1
.B
(A
-1
.A).X = A
-1
.B (1.2.14)
X = A
-1
.B
Vector X thỏa mãn (1.2.14) chính là nghiệm của (1.2.13) và là nghiệm duy nhất.
Cũng có thể tìm nghiệm theo quy tắ
c Cramer:















(1.2.15)
trong đó A
j
là ma trận được tạo nên bằng cách thay cột thứ j của ma trận A (tất nhiên A
vuông cấp p và |A| ≠ 0) bởi cột (b
1
, b
2
,…, b
p
)
T
.
2. A là ma trận vuông cấp p, và suy biến. Ta giải bằng cách sau :
- Tìm ma trận vuông không suy biến cấp cao nhất chứa trong A. Giả sử
nó có cấp q thì đương nhiện là q < p.
- Trong (1.2.12) có thể đổi chỗ các phương trình và các biến sao các
phần tử của ma trận A
q,q
nằm tr ng q òng cột đầu của A. Vì vậy không
làm mất tính tổng quát, có thể g :
o d đầu và q
iả thuyết
|Aq,q| = 

























 ≠ 0,
Phân tích thành phần chính - Principal Component Analysis - PCA
Và với mọi k, q < k ≤ p đều có |A
k,k
| = 0.
- Loại bỏ (p - q) phương trìn à các ủa các ẩn không nằm
trong A

q,q
.
h m hệ số c
- Đưa các số hạng a
ik
x
k
; i = 





; k = 










sang vế phải của mỗi
phương trình thứ i
- Cuối cùng ta được phương r t ình:
A
q,q






(2.2.16)
Trong đó :


















































































ệm của (1.2.16) là :








    






ây giờ có thể lấy các giá trị bất kỳ, nên nghiệm của (1.2.16)
là vô định (có vô số nghiệm).
3. A là ma trận chữ nhật. Giải bằng cách hoàn toàn tương tự như phần 2. Theo
(1.2.15) dễ dàng nhận thấy rằng với A vuông :
- Nếu |A| ≠ 0 thì nghiệm là duy nhất
- Nếu |A| = 0 với mọi |A
j
| = 0; 

.





thì ng
- Nếu |A| = 0 và ít nhất một |A
j
| ≠ 0;


hiệm vô định.




thì hệ phương trình vô
nghiệm.
Chú ý rằng với A chữ nhật, nếu n ≤ p và A
n,n
không suy biến thì tìm nghiệm như
phần 2, còn nếu n > p mà |A
p,p
| ≠ 0; và trong những vector mà thành phần của chúng
không phải là phần tử của A
p,p
, có ít nhất một vector độc lập tuyến tinh với những vector
nằm trong A
p,p
thì hệ phương trình (1.2.12) là vô nghiệm.
Nói cách khác, không tồn tại hệ (α
1
, α
2
, …, α
p
) nghiệm đúng hoàn toàn (1.2.12).
Trong trường hợp đó người ta có thể tìm một siêu phẳng xấp xỉ tốt nhất hệ (1.2.12),
tức là nếu đặt:
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều


Phân tích thành phần chính - Principal Component Analysis - PCA
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

a
i1
x
1
+ …+ a
ip
x
p
–b
i
=

ε
i
; 

a
i2
x
2
+




;

thì có thể tìm giá trị của các x
j
; 












sao cho :
4. Trong trường hợp vế phải = 0, tức à: l






Thì hệ phương trình (1.2.12) trong đó A vuông cấp p (tức là n = p) bao giờ cũng có
nghiệm.
- Nếu |A| ≠ 0 thì theo (1.2.15), hệ phương trình có nghiệm tầm thường









).
- Nếu |A| = 0 thì theo hệ phương trình có nghiệm vô định. Trường hợp
này xảy ra trong đa số các phân tích nhiều chiều và là đối tượng chính mà ta
quan tâm.
§3. ÁNH XẠ TUYẾN TÍNH
1. Định nghĩa ánh xạ tuyến tính
Cho hai không gian vector R
p
và R
n
. Gọi f là ánh xạ từ R
p
vào R
n
, ký hiệu là





, nếu f làm tương ứng mỗi vector x∈R
p
một vector y = f(x)∈R
p
.
Ánh xạ f gọi là ánh xạ tuyến tính từ R

p
và R
n
nếu với mọi x
i
, x
j
∈R
p
và λ
i
, λ
j
∈R đều
có :
f(λ
i
x
i
+ λ
j
x
j
) = λ
i
f(x
i
) + λ
j
f(x

j
) ∈ R
n
(1.3.1)
Ví dụ 1:
Trong R
3
, phép vị tự và phép quay quanh gốc tọa độ đều là các ánh xạ tuyến tính từ
R
3
vào R
3
. Phép tịnh tiến không phải ánh xạ tuyến tính.
Ví dụ 2:
Các hàm sản xuất thuần nhất tuyến tính dạng Y = F(K,L) là những ánh xạ tuyến
tính từ R
2
vào R
1
nếu λ
K
= λ
L
= λ.
Thực vậy, với hàm tuyến tính thuần nhất F(λK, λL) = λF(K, L)
Phân tích thành phần chính - Principal Component Analysis - PCA
Ảnh của R
p
xác định bởi f, ký hiệu f(R
p

), là tập mọi vector y∈R
n
sao cho với mỗi
x∈R
p
đều có f(x) = y∈R
n
.

Dĩ nhiên là : f(R
p
) ⊆ R
n

gọi dimf(R
p
) là rankf (hạng của f) thì :
rankf ≤ p (1.3.2)
Nếu R
p
trùng với R
n
(p = n) thì f là ánh xạ từ R
p
vào chính nó.
Ánh xạ f gọi là song ánh nếu với mỗi y∈R
n
đều tồn tại một và chỉ một x∈R
p
sao

cho f(x) = y.
Nếu n = p và nếu f là song ánh thì f gọi là đẳng cấu. Hai không gian R
p
và R
n
khi đó
gọi là đẳng cấu v Chứng minh được rằng khi đó rankf = p. ới nhau.
Nếu ánh xạ 




là y = f(x) thì ánh xạ ngược từ R
n
vào R
p
, ký hiệu 







, là
x = f
-1
(y). Chứng minh được rằng nếu f là ánh xạ tuyến tính thì f
-1
cũng là tuyến tính.

2.
Ma trận của ánh xạ tuyến tính
Ccho e
1
, e
2
,…,e
p
là hệ vector cơ sở của R
p
, tức là :
e
1
= (1, 0, …, 0, …, 0)
e
2
= (0, 1, …, 0, …, 0)
e
j
= (0, 0, …, 1, …, 0)
e
p
= (1, 0, …, 0, …, 1)
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

Phân tích thành phần chính - Principal Component Analysis - PCA
Giả sử ánh xạ f làm tương ứng mỗ tor cơ sở e
j
∈R
p

một vector R
n
, tức là : i vec



































(1.3.3)
Khi đó, vì f là tuyến tính, nên với mỗi x∈R
p
, tức là 








đều có :

































(1.3.4)


























































(1.3.5)
Gọi:
là ma trận của ánh xạ tuyến tính f, và đặt: x
T
(a
1
, a , …, a
p
) là một vector thuộc R
p
thì: =

2










































(1.3.6)
Nguyễn Thái Bình – Lê Thuận Giang – Phạm Hải Triều

×