29
Chương 2 - MÔ TẢ CẤU TRÚC CỦA CÁC
QUÁ TRÌNH
2.1. PHƯƠNG PHÁP THÀNH PHẦN CHÍNH
Phát biểu bài toán, phương trình cơ bản
Ý tưởng của phương pháp các thành phần chính là biểu diễn một quá
trình phức tạp thành tổng của các thành phần đơn giản hơn, không phụ
thuộc nhau (các số hạng khai triển). Tuy nhiên, khác với khai triển theo
các đa thức Chebưsev hay khai triển Fourier, trong phương pháp các
thành phần chính, cấu trúc các tham số khai triển không được cho trước.
Nó được xác định đơn trị và khách quan chỉ bởi nội dung bên trong của
quá trình được nghiên cứu và mức liên hệ giữa các chuỗi quan trắc với
nhau. Vì vậy,
phương pháp các thành phần chính thường còn được gọi là
khai triển theo các hàm trực giao tự nhiên (hay thực nghiệm) [155].
Quy tắc đối với phương pháp các thành phần chính là:
mỗi số hạng
khai triển chứa đựng trong nó sự biến động tương ứng của một số biến
xuất phát. Theo nghĩa này, phương pháp các thành phần chính giống như
một công cụ nén thông tin hữu hiệu và khái quát thông tin, cho phép bằng
một số ít các tham số khai triển, phản ánh và phân tích được sự biến động
toàn diện của nhiều đặc trưng trạng thái của hệ thống tự nhiên. Theo
phương pháp này
, từ những quan trắc rời rạc khác nhau, có thể tách ra cái
chung nhất cho phép khôi phục bản chất của những biến đổi đang diễn ra,
những biến đổi này nhiều khi không trực tiếp lộ rõ ra trước mắt người
nghiên cứu.
Những số liệu quan trắc xuất phát
dùng trong phương pháp các
thành phần chính được hình thành dưới dạng các bảng số phân bố theo:
không gian
− thời gian, không gian − các biến hoặc thời gian − các biến.
Mỗi trường hợp cụ thể sẽ có một mức khái quát dữ liệu của nó.
Trong hệ tọa độ k
hông gian − thời gian, nhờ phương pháp các thành
phần chính, có thể phát hiện ra những quy mô dao động cơ bản trong
không gian và trong thời gian của biến được nghiên cứu. Trong hệ tọa độ
không gian
− các biến, người ta quan tâm mô tả phạm vi ảnh hưởng của
từng biến trong số các biến và khái quát sự biến động cùng nhau của các
biến. Trong hệ tọa độ thời gian
− các biến, mục tiêu phân tích sẽ là mô tả
tổng quát đối tượng nghiên cứu như một hệ thống phụ thuộc vào tập hợp
những tham số khác loại với nhau.
Xuất hiện câu hỏi: vậy c
huyển từ những quan trắc hiện có sang
những biến mới nào đó để làm gì? Vấn đề là ở chỗ: đối với phần lớn
những tình huống thực tế, sự biến động thấy được của các tham số chưa
cho phép người nghiên cứu thấu hiểu về bản chất của các quá trình đang
diễn ra. Trong dữ liệu luôn luôn chứa đựng những
thành phần nhiễu,
những quy mô biến động không gian, thời gian không được biết chính
xác, một bộ phận các tham số quan trắc có thể liên hệ với nhau và cùng
mô tả một quá trình. Vì vậy mà đặt ra bài toán khai triển quá trình phức
tạp thành những dao động đơn sao cho: 1) chuyển sang những biến mới
không liên hệ lẫn nhau, trong khi vẫn giữ nguyên độ chính xác của phép
mô tả; 2) từng biến trong số các biến mới chứa đựng trong nó một trong
những xu thế quan trọng n
hất của những số liệu xuất phát; 3) tất cả các
biến mới được sắp xếp theo thứ tự giảm dần mức đóng góp (mức ảnh
hưởng) của chúng vào sự biến động chung.
Điều rất quan trọng là
tất cả những nhiệm vụ quan trọng như vậy
được giải quyết một cách đơn giản về kỹ thuật
− biến đổi tuyến tính các
số liệu xuất phát, hay nói cách khác, bằng cách nhân từng phần tử của
mỗi biến với các hệ số liên hệ tuyến tính của biến đang xét với biến mới.
Vấn đề cơ bản của phương pháp các thành phần chính chính là làm sao
tìm được những hệ số liên hệ giữa các biến ban đầu và các thành phần
chính một cách tốt nhất.
30
Phát biểu toán học của mô hình phương pháp các thành phần chính
như sau: Giả sử có tập số liệu gồm
N quan trắc về
M
biến. Tập số liệu
này tương đương với
M
vectơ quan trắc dạng
{}
M
xxxx , ,,,
321
=x làm
thành ma trận số liệu
X gồm N dòng và
M
cột. Ma trận số liệu này
được đặt tương ứng với ma trận những giá trị của các thành phần chính
F , cũng có N dòng và
M
cột. Mỗi cột trong ma trận F mô tả biến
thiên của một thành phần chính
j
f , thành phần chính này được biểu diễn
dưới dạng một vectơ
{
}
jNjjjj
ffff
, ,,,
321
=f . Số biến
M
và số thành
phần chính trùng nhau. Số quan trắc
N trong số liệu xuất phát và số các
trị số của từng thành phần chính trùng nhau. Khi đó phương trình cơ bản
của phương pháp các thành phần chính có dạng
T
AFX ⋅= . (2.1)
Ở đây
ma trận A là ma trận các hệ số liên hệ giữa các biến và
các thành phần chính. Ma trận
A gồm
M
dòng và
M
cột. Mỗi cột
của ma trận
A gồm những hệ số liên hệ giữa thành phần chính đang
xét và tất cả những biến ban đầu. Theo quy tắc đại số ma trận, ma
trận
A trong phương trình (2.1) được chuyển vị thành
T
A (tức quay
90
°).
Theo phươn
g trình (2.1), công thức của phương pháp các thành
phần chính để tính quan trắc thứ
i của biến
j
trong ma trận số liệu
sẽ là:
=
=
M
k
jkkiji
fax
1
. (2.2)
Ý nghĩa hình học của phương pháp các thành phần chính
Một cách đơn giản nhất, ta xét vấn đề này qua thí dụ phân tích hai
biến xuất phát. Giả sử đó là hai chuỗi quan trắc nhiệt độ nước tại hai tầng.
Ta sẽ biểu thị đám mây quan trắc trong hệ tọa độ: trục hoành là biến thiên
nhiệt độ tại tầng thứ nhất (
1
x
), trục tung là biến thiên nhiệt độ tại tầng thứ
hai (
2
x ). Nếu đám mây biến động có dạng hình ellip (hình 2.1), thì điều
đó cho ta thấy rằng các dao động nhiệt độ nước tại hai tầng có liên quan
với nhau.
Biến động tổng cộng của các dao động ứng với trục lớn của hình
ellip có thể đánh giá theo
quy mô dao động tại mỗi tầng:
)x(σ)x(σσ
Σ 2
2
1
22
+=
.
Các thành phần chính có thể xem
như những trục của hệ tọa độ trực
giao mới. Khi đó, quá trình tìm những thành phần chính cần lý giải như là
thủ tục quay các trục tọa độ. Việc định hướng lại các trục thực hiện theo
quy tắc sau: trục thứ nhất (thành phần chính) được hướng theo trục của
tản mạn cực đại của quan trắc, trục thứ hai hướng theo hướng của tản
mạn dư cực đại sau khi đã trừ đi ảnh hưởng của thành phần trước đó và
với điều kiện trục này phải
vuông góc với trục thứ nhất.
Theo cách như vậy,
việc chuyển từ các tọa độ các biến
21
, xx
sang
tọa độ các thành phần chính
21
ff , được thực hiện bằng cách quay đơn
giản hệ tọa độ đi một góc
α ngược chiều kim đồng hồ, kết quả là hình
chiếu của các quan trắc lên các trục thành phần sẽ biến đổi. Rõ ràng,
phương sai của các hình chiếu quan trắc lên trục thành phần thứ nhất sẽ
lớn hơn nhiều so với thành phần thứ hai, mặc dù phương sai tổng cộng
không thay đổi (do tính tuyến tính của phép biến đổi hệ tọa độ, hình dạng
đám mây không thay đổi):
)()(
2
2
1
22
ff σ+σ=σ
Σ
.
Kiểu lý giải hình học đã trình bày cho phép hiểu nội hàm của các
vectơ riêng theo một cách khác. Ma trận các vectơ riêng
A chứa những
hệ số chuyển đổi từ các biến xuất phát sang các thành phần chính. Từ
quan điểm lượng giác, những hệ số chuyển đổi này thực chất là cosin và
sin của các góc quay các thành phần chính so với các biến xuất phát. Từ
đây dễ dàng viết ma trận
A dưới dạng lượng giác:
31
=
αα
α−α
=
2221
1211
cos
sin
aa
aa
sin
cos
A .
−
21
, xx các trục theo biến xuất phát
−
21
, ff
các trục theo thành phần chính
−
α
góc quay của các trục
Hình 2.1. Ý nghĩa hình học của
các thành phần chính
Sự lý giải hình học trên đây về phương pháp các thành phần chính
cho thấy rằng: trong phương pháp này đã diễn ra quá trình nén thông tin.
Điều này thể hiện ở việc định hướng các thành phần chính đầu tiên dọc
theo những trục tản mạn cực đại của đám mây quan trắc. Kết quả là một
phần lớn độ biến động của quá trình được tập trung vào những thành
phần đầu tiên, vì thế chúng có tên là các thành phần chính. Còn mỗi một
thành p
hần tiếp sau, theo định nghĩa, chỉ mô tả phần phương sai nhỏ dần,
số hiệu của thành phần càng cao, thì nó càng mang ít thông tin.
Những tính chất của các thành phần chính
Những tính chất của các thành phần chính có thể hình thành trên cơ
sở phân tích phương trình cơ bản của phương pháp và ý nghĩa hình học
của nó như sau:
1) Các thành phần chín
h không liên hệ tuyến tính với nhau (trực
giao); do đó, tương quan cặp giữa chúng bằng không:
0),cos( ,0),(
==
jiji
ffffr .
2) Các thành phần chính
mô tả độ biến động của số liệu sao cho
thành phần chính thứ nhất mô tả sự tản mạn cực đại của đám mây quan
trắc, thành phần chính thứ hai trực giao với thành phần thứ nhất và mô tả
phần tản mạn dư cực đại, thành phần thứ ba trục giao với những thành
phần trước nó và mô tả phần tản mạn dư cực đại và v.v
)()()(
n
fff
2
2
2
1
2
σ≥⋅⋅⋅≥σ≥σ
.
3) Ứng dụng
phương pháp các thành phần chính cho phép mô tả
phương sai của các biến nghiên cứu một cách tối ưu trong số tất cả những
phép biến đổi tuyến tính khác.
4) Sử dụng c
ác thành phần chính cho phép mô tả thông tin xuất phát
với một độ sai lệch cực tiểu về cấu trúc hình học của đám mây quan trắc
trong không gian các thành phần chính.
5) Phần đóng
góp của một thành phần chính vào mô tả phương sai
chung của các biến tỷ lệ với bình phương giá trị riêng của ma trận tương
quan các biến xuất phát tương ứng với thành phần chính đó.
6) Những thà
nh phần chính mô tả một cách tối ưu độ biến động của
các biến xuất phát, điều này trực tiếp suy ra từ tính chất cực đại của
phiếm hàm:
==
→=
M
k
M
j
jk
xfrV
11
2
max),(
,
ở đây
−) ,(
jk
xfr hệ số tương quan giữa biến j và thành phần chính k .
Công cụ toán học của phương pháp các thành phần chính
Như đã trình bày, phương trình cơ bản của phương pháp các thành
phần chính viết dưới dạng ma trận:
32
T
AFX ⋅= .
Bài toán phương pháp các thành phần chính đã phát biểu ở trên
là
bài toán tìm những biến đổi tuyến tính
j
f
với những tính chất:
− Mỗi thành phần ch
ính sẽ thâu tóm được tối đa phương sai:
max )(
2
→
j
f ;
− Các thành phần
chính không phụ thuộc lẫn nhau: 0),( =
kj
ff .
Để tìm
thành phần chính, trước hết phải xác định những hệ số liên hệ
từng biến j với từng thành phần k , những hệ số này lập thành ma trận
A − các tỉ trọng của những thành phần chính (hay các hệ số khai triển).
Điều này sẽ trở thành có thể, nếu chấp nhận điều kiện khôi phục hoàn
toàn tương quan của các biến xuất phát theo ma trận
A :
T
AA
R
⋅= , (2.3)
trong đó −
R
ma trận tương quan của các biến xuất phát có kích thước
M
dòng và
M
cột.
Trong trường
hợp này, toàn bộ thủ tục phương pháp các thành phần
chính thực tế quy về việc tìm những vectơ riêng của ma trận tương quan
của các biến, bởi vì điều kiện (2.3) chỉ thoả mãn trong trường hợp ma
trận
A được tạo thành từ
M
vectơ riêng của ma trận tương quan
R
.
Quá trình tìm những vectơ riêng
bắt đầu từ việc tính các giá trị riêng
của ma trận tương quan bằng cách giải phương trình đặc trưng:
0 =Λ− IR . (2.4)
Giải phương trình
ma trận (2.4) có nghĩa là tìm
M
nghiệm của
phương trình đặc trưng đối với định thức dạng
0
-
-r
321
3333231
2232221
1131211
=
λ−⋅⋅⋅⋅
⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅
⋅⋅⋅λ
⋅⋅⋅λ
⋅⋅⋅λ−
MMMMM
M
M
M
rrrr
rrrr
rrr
rrrr
.
Giai đoạn thứ hai − giải các hệ phương trình t
uyến tính để xác định
những vectơ riêng:
0)( =Λ−⋅
IRA . (2.5)
Biểu thức ma
trận (2.5) tương đương với
M
hệ phương trình, mỗi
hệ gồm
M
phương trình dạng
=λ−+⋅⋅⋅++
⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅
=+⋅⋅⋅+λ−+
=+⋅⋅⋅++λ−
.)(
,)(
,)(
0
0
0
2211
2222211
1122111
iMMiMMiMi
MiMiii
MiMiii
rarara
rarara
rarara
Mỗi hệ chứa một giá trị ri
êng tương ứng (
i
λ
) và khi giải sẽ cho
M
nghiệm − tức
M
giá trị của vectơ riêng thứ i , làm thành các cột của ma
trận
A .
Điều kiện bổ sung để tìm
các vectơ riêng là điều kiện quy chuẩn
phương sai của các phần tử của mỗi vectơ riêng:
=
=
M
j
ji
a
1
2
1
đối với từng vectơ
,i Mi , ,1= .
Lưu ý
rằng, các bài toán tính những giá trị riêng (đặc trưng) và
những vectơ riêng (đặc trưng) là những bài toán truyền thống của đại số
tuyến tính, không hề có gì phức tạp và người ta đã từng thực hiện trong
33
nhiều thập niên [3, 30, 34, 81, 86, 94].
Sau khi tìm các giá trị riên
g và các vectơ riêng A , còn phải giải hai
bài toán. Bài toán thứ nhất − đánh giá tầm quan trọng của từng thành
phần. Việc đánh giá trực tiếp suy ra từ đẳng thức: phương sai của mỗi
thành phần chính bằng giá trị riêng tương ứng với nó. Do đó, phần đóng
góp tương đối của thành phần i vào mô tả phương sai chung của các biến
bằng:
=
λ
λ
=
M
j
j
i
i
d
1
. (2.6)
Một chi tiết cuối cùng tr
ong phương pháp các thành phần chính là
ước lượng bản thân các giá trị của thành phần chính, tức các vectơ
j
f .
Theo truyền thống, bài toán này thực hiện bằng cách sử dụng hồi quy
tuyến tính kinh điển, theo đó ma trận các hệ số hồi quy (
B ) được tính
theo vectơ các giá trị riêng ( Λ ) và ma trận các vectơ riêng (
A ):
CB
1/2
Λ= ,
trong đó m
a trận
1
)(
−
=
T
AC . Nếu viết theo từng phần tử, công thức trên
đây có dạng
jijji
cb
λ= .
Dưới dạng tổng q
uát, biểu thức để khôi phục ma trận các thành phần
chính như sau:
BXF ⋅= . (2.7)
hay viết cho
từng thành phần: giá trị thứ i của thành phần j được tính
như sau:
=
=
M
k
jkkiji
bxf
1
,
trong đó −= Mk , ,1 số hiệu của biến x
uất phát.
Ứng dụng phương pháp các thành phần chính trong hải dương
học
Theo truyền thống hình thành trong hải dương học ứng dụng,
phương pháp các thành phần chính trước hết được ứng dụng khi nghiên
cứu cấu trúc không gian − thời gian của các quá trình, hay được dùng
nhất để phân tích biến động điều kiện nhiệt mặt đại dương [20, 60, 67,
105, 111, 255]. Phương pháp được ứng dụng thành công để khai triển
theo không gian và theo thời gian. Những quy luật biến động thời gian
của các thành phần chính thể hiện những xu thế c
hung trong dao động
của các trường nghiên cứu, điều này được dùng rất thành công cho các
mục đích dự báo [6, 61, 64, 71, 91]. Về những vấn đề này sẽ xét một cách
chi tiết trong chương 6.
Khu vực ứng dụng đặc biệt của phươn
g pháp các thành phần chính
kinh điển trong hải dương học liên quan tới vấn đề tìm hiểu cấu trúc
nước. Bài toán thường được xét trong hệ tọa độ không gian − các biến.
Các biến ở đây là những trị số quan trắc của những đặc trưng thủy lý và
thủy hoá. Mục tiêu ứng dụng phương pháp các thành phần chính là làm
sao thông qua các thành phần chính, mô tả được những mối liên hệ quan
trọng n
hất của các đặc trưng hải dương học và trong tọa độ địa lý xác
định cấu trúc của những trường xuất phát. Theo cách tiếp cận này, những
yếu tố cấu trúc gồm: các khối nước chính [32, 37, 99, 197], sự phân tầng
thẳng đứng của nước đại dương [149, 191], các kiểu nước và các front
[96], các thành tạo xoáy động lực [48, 49, 112] Kết quả cuối cùng của
việc ứng dụng phương pháp các thành phần chín
h có tốt hay không hoàn
toàn do cách chọn tập hợp những dấu hiệu (biến) khảo sát, vị trí của
chúng trong không gian và quy mô lấy trung bình [114, 138, 183, 184,
192, 213, 226, 231, 239, 241, 254, 261, 268].
Một trong những vấn đề hàn
g đầu được tranh cãi trong quá trình ứng
dụng phương pháp các thành phần chính là ước lượng số các số hạng khai
triển tối ưu để lý giải vật lý và mô tả định lượng những tính chất của các
trường nghiên cứu. Thường hay sử dụng nhất là phương pháp căn cứ vào
34
ước lượng sai số tiềm năng trong khi tính các tham số khai triển [59, 66,
68, 73, 114, 118, 204, 226, 230, 248]:
N
jj
/2 λ=λδ .
Chỉ những
thành phần nào mà
jj
λδ>λ mới được xem xét lý giải.
Tiêu chuẩn này nói chung tỏ ra không tồi trong nghiên cứu ứng dụng.
Tuy nhiên, trong nhiều trường hợp, nó tỏ ra kém hiệu quả, do phương sai
của những dao động nhiễu vượt hơn phương sai của thành phần tuần
hoàn. Với những trường hợp đó, người ta sử dụng cái gọi là đặc trưng
thống kê Q [81, 245, 246, 247]:
=τ
τσ
τ
=
M
r
Q
1
2
2
)(
)(
,
trong đó −)(
τ
r ước lượng hàm tự tương quan của thành phần chính
thời gian trễ
τ
, −)(
2
τσ
phương sai mẫu của ước lượng này.
Nếu so sánh
giá trị tính được của đặc trưng Q với tiêu chuẩn
2
χ của
Pierson, ta sẽ đưa vào phân tích những thành phần nào mà trong cấu trúc
của nó có chứa những dao động có nghĩa về mặt thống kê. Ý tưởng về
phân tích nội hàm những thành phần có cấu trúc mang ý nghĩa của các
hàm tự tương quan đang được sử dụng thành công khi nghiên cứu những
dao động của các đặc trưng nhiệt và băng biển [102, 128, 154, 175].
Tuy nhiên, trong khuôn khổ phương
pháp các thành phần chính kinh
điển, không thể bao quát hết những vấn đề phân tích những dao động
không gian − thời gian của các quá trình khí tượng thủy văn, chính điều
này là lý do để phát triển tiếp những căn cứ lý luận nền tảng của phương
pháp.
Kỹ thuật
các thành phần chính trong miền tần số đã là một kỹ
thuật hoàn thiện hơn so với phương pháp các thành phần chính truyền
thống [126, 260]. Kỹ thuật này dựa trên các nguyên tắc biểu diễn trực
giao ma trận các hàm hiệp phổ của một số chuỗi thời gian. Nghiệm
nhận được đã chứa đựng cấu trúc pha của những dao động sóng cơ
bản, cấu trúc này được mô tả nhờ biểu diễn các ve
ctơ riêng như là
những tập hợp các số phức.
Kỹ thuật các
thành phần chính trong miền tần số dựa trên khái niệm
ma trận hiệp biến )(
τ
C , tạo thành từ các hệ số tương quan chéo
))(),(( txtxc
jiji
τ
+= . Ma trận mật độ phổ bậc
M
M
× tính được trên
cơ sở ma trận )(
τ
C
∞
−∞=τ
τλ−τ= )exp()( icS
có
M
giá trị riêng
λ
, liên hệ với những vectơ riêng trực giao phức A .
Trong công trình [265] có một thí dụ rất h
ay về ứng dụng thành công
kỹ thuật này, ở đó đã nghiên cứu cấu trúc sóng của những dị thường chu
kỳ dài, quy mô lớn của nhiệt độ nước ở phần phía bắc Thái Bình Dương.
Nhờ kết quả phân tích thống kê, đã phát hiện và mô tả quá trình lan
truyền các dị thường nhiệt độ từ phần tây nam vùng nghiên cứu lên
hướng đông bắc.
Một trong n
hững hướng triển vọng nhất phát triển phương pháp
luận các thành phần chính là kỹ thuật các thành phần chính phức.
Nguyên nhân của điều này là do người ta muốn khắc phục một trong
những nhược điểm cơ bản của phương pháp các thành phần chính kinh
điển là nó không thể mô tả một cách tin cậy những sóng tiến chuyển
động trong không gian.
Phương pháp
các thành phần chính kinh điển cho phép khái quát một
cách tin cậy về những sóng đứng. Còn nếu như trong cấu trúc không gian
− thời gian của các quan trắc có những sóng tiến, thì phương pháp các
thành phần chính thể hiện một cách sai lệch những sóng này dưới dạng
một tập hợp các dao động đứng. Con đường tiến tới mô tả các sóng
không gian − thời gian trong phương pháp các thành phần chính là thay
đổi hệ phương pháp lập ma trận tương quan (hiệp biến)
R
. Bước đầu tiên
đã được thực hiện khi ma trận
R
được lập từ những hệ số bất đồng pha
của các hàm tương quan chéo [221, 222, 231, 263, 264].
35
Tuy nhiên, không phải lúc nào hiệu quả của hệ phương pháp này
cũng cao, vì lựa chọn những hệ số tương quan chéo tối ưu rất phức tạp.
Việc xây
dựng phương pháp luận phân tích thành phần chính phức
có lẽ hiện là một cấp phát triển cao nhất của phương pháp các thành phần
chính [109, 225]. Để ứng dụng phương pháp các thầnh phần chính phức,
phải thực hiện biến đổi Gilbert đối với các chuỗi thời gian xuất phát, sau
đó, trên cơ sở biểu diễn phức các chuỗi thời gian, tính những hàm tương
quan chéo phức của chúng và lập ra ma trận tương quan. Những vectơ
riêng phức và những thành
phần chính nhận được sau đó sẽ đặc trưng cho
cấu trúc biên độ − pha của các dao động trong không gian và thời gian mà
ta nghiên cứu.
Kinh nghiệm ứng dụng
phương pháp này trong nghiên cứu hải
dương học còn rất hạn chế, chưa cho phép đánh giá những nhược điểm
tiềm ẩn có thể có của các thành phần chính phức.
2.2. PHƯƠNG PHÁP PHÂN TÍCH NHÂN TỐ
Phát biểu bài toán và phương trình cơ bản
Tính hiệu quả khi sử dụng phương pháp các thành phần chính
nghiên cứu những quá trình tự nhiên là một trong những nguyên nhân
chính thúc đẩy phát triển những cơ sở lý thuyết của nguyên tắc khai triển
trực giao. Sự phát triển của phương pháp các thành phần chính trong
khoa học tự nhiên tiến theo con đường cập nhật dần những giai đoạn tính
toán bổ sung vào sơ đồ truyền thống của phương pháp.
Kết quả là tới nay
, trong thống kê đa chiều đã hình thành một lĩnh
vực chuyên biệt biến đổi trực giao những số liệu, có tên là phương pháp
phân tích nhân tố. Phát triển trên cơ sở phương pháp các thành phần
chính, phương pháp phân tích nhân tố hiện đại là một tập hợp phức tạp
những thủ tục tính toán có sơ đồ giống như hình cây.
Xuất phát từ những
mục tiêu và nhiệm vụ nghiên cứu, những đặc
điểm của số liệu ban đầu, trong số vô vàn những phương án giải quyết
vấn đề khai triển trực giao theo phương pháp phân tích nhân tố, nhà khoa
học sẽ chọn lấy một phương án nào đó tỏ ra tối ưu trong những điều kiện
đang xét và cho phép đạt được kết quả đơn giản nhất và dễ hiểu nhất về
phương diện vật lý.
Ý tưởng phân tích nhân tố dựa trên giả thiết rằng những đặc trưng
ghi nhận được trong tự nhiên tự nó không phải là những nguyên nhân của
những biến đổi đang diễn ra. Chúng chẳng qua chỉ là những hệ quả hay
những chỉ thị về sự ảnh hưởng của các ngoại lực và nội lực ẩn dấu đối với
người quan sát đang theo dõi động thái phức tạp của những mối liên hệ
giữa các biến.
Mỗi lực ảnh hưởng cùng một lúc đang tác động đến một số
biến quan trắc. Và mặc dù các biến phản ứng với những tác động cưỡng
bức ấy theo kiểu của mình, nhưng sự liên hệ lẫn nhau giữa chúng chứa
đựng một hạt nhân chung, hạt nhân này mô tả sự biến thiên của lực ảnh
hưởng. Ngoài những lực, hay những nhân tố (n
hư người ta quy ước gọi
như vậy trong phương pháp phân tích nhân tố) chung này, trong tự nhiên
còn tồn tại những lực cưỡng bức khác, có tính chất riêng đối với mỗi biến
quan trắc và không ảnh hưởng tới những biến khác. Những nhân tố như
vậy gọi là những nhân tố đặc thù, vì chúng phản ánh đặc thù biến thiên
của một biến cụ thể. Ngoài ra, trong các quan trắc và đo đạc luôn luôn có
thêm những lỗi, những sai số ngẫu nhiên, gọi là những nhân tố ngẫu
nhiên.
Khái quát những điều vừa
nói trên, có thể biểu diễn độ biến động
chung của các biến quan trắc dưới dạng ba số hạng:
EAFX +⋅=
T
,
trong đó −
X biến động của các biến quan trắc, −⋅
T
AF biến động của
những nhân tố chung tiềm ẩn, −
E biến động của những nhân tố đặc thù
cộng với biến động của những nhân tố ngẫu nhiên.
Trong thực tế, rất khó
tách bạch phạm vi ảnh hưởng của những nhân
tố đặc thù và ngẫu nhiên và mô tả chúng riêng rẽ. Muốn vậy đòi hỏi phải
phân tích số liệu một cách rất tinh xảo. Vì vậy, trong phương pháp phân
36
tích nhân tố kinh điển, biến động của các nhân tố đặc thù và ngẫu nhiên
cùng được xem xét như một thể duy nhất. Hạn chế này có phần nào làm
cho kết quả thô thiển, nhưng cho phép tập trung vào mô tả những nhân tố
chung cơ bản hình thành nên biến động chung của các biến.
Nhìn vào một hệ thống đa liên hệ phức tạp như đại dương thế giới, ta
có thể thấy rất nhiều thí dụ tự nhiên tương ứng với sơ đồ tương tá
c nhân
tố đã đưa ra trên đây. Chẳng hạn, trường nhiệt độ mặt đại dương toàn cầu
sẽ chịu ảnh hưởng trước hết của các lực Mặt Trời − địa vật lý hì
nh thành
biến trình ngày, mùa và thế kỷ của nhiệt độ. Vì vậy, những lực này có thể
xem như những nhân tố chung đối với toàn đại dương. Đồng thời, mỗi
điểm ở đại dương có những đặc thù địa phương về tương tác với khí
quyển và với các lớp nước nằm dưới, có thể mô tả như là những nhân tố
đặc thù.
Cuối cùng
, độ chính xác quan trắc nhiệt độ trong đại dương rất khác
nhau trong không gian và tuỳ thuộc nhiều vào loại dụng cụ đo và điều
kiện quan trắc. Nhóm nguyên nhân biến thiên nhiệt độ này có thể xem là
ảnh hưởng của các nhân tố ngẫu nhiên.
Toàn bộ nội dung
hệ phương pháp của phương pháp phân tích nhân
tố chính là nhằm làm sao: với độ chính xác và tin cậy tối đa, kiểm tra giả
thiết rằng chỉ tồn tại một số nhỏ các nhân tố ảnh hưởng và đưa ra mô tả
thống kê về những nhân tố đó. Sơ đồ hình thành độ biến động của các
biến quan trắc (
x ) dưới ảnh hưởng của các nhân tố tiềm ẩn chung đối với
một số biến (
f ) và những sai số quan trắc đặc thù, cá thể (e ) thể hiện
trên hình 2.2 [4, 73, 86].
Ảnh hưởng của các nhân tố lên các biến quan trắc được thực hiện và
được ước lượng trên cơ sở những hệ số li
ên hệ tuyến tính (
ji
a
), những hệ
số này cho thấy mức độ liên hệ của nhân tố chung i và biến j . Trên cơ
sở những lập luận ở trên, ta viết biểu thức đại số của mô hình phân tích
nhân tố:
EAFX +⋅=
T
. (2.8)
Ở đây
−X ma trận các số liệu xuất phát, gồm N quan trắc (dòng)
về
M
biến (cột), −F ma trận giá trị của các nhân tố chung, gồm N giá
trị của
K
nhân tố, −A ma trận các hệ số liên hệ giữa những nhân tố
chung và những biến xuất phát, gồm
M
dòng và
K
cột, −E ma trận
các phần dư hay các nhân tố đặc thù gồm
N giá trị quan trắc của
M
biến.
Để nhận được nghiệm
duy nhất của phương trình này, phải đưa thêm
những điều kiện về dạng của các ma trận
FA , và E . Khi hình thành
những điều kiện này, thường người ta giả thiết rằng: trong số vô vàn
những mô hình toán về các quá trình diễn ra trong tự nhiên, ta cần một
mô hình đơn giản tối đa, nhưng đồng thuận với cấu trúc tương quan của
ma trận các số liệu xuất phát [94, 95].
Những điều k
iện đó là:
− Các nhân tố chung
k
fff , , ,
21
không phụ thuộc nhau (không
tương quan):
jiffr
ji
≠= khi 0),(;
− Cá
c nhân tố chung
k
fff , , ,
21
cần được quy chuẩn (không thứ
nguyên) và dẫn về độ dài đơn vị
1
2
=σ )(
j
f ;
− Các nhân tố chung kh
ông được liên hệ với những sai số và những
nhân tố đặc thù
0),( =
ji
efr với mọi ji,;
37
b)
M
a)
x
1
x
2
x
3
x
4
x
5
x
6
e
1
e
2
e
3
e
4
e
5
e
6
f
1
f
2
a
11
a
12
a
13
a
14
a
24
a
25
a
26
X
x
1
x
2
x
3
x
4
x
5
x
6
=
F
f
1
f
2
M K
A
a
1
a
2
M
K
E
e
1
e
2
e
3
e
4
e
5
e
6
Hình 2.2. Sơ đồ li
ên hệ các biến trong mô hình phân tích nhân tố:
(a) biểu diễn th
ành phần; (b) biểu diễn ma trận
− Các sai số không tương quan với nhau:
0),( =
ji
eer khi ji ≠ ;
− Số các nhâ
n tố chung không được lớn hơn một nửa số các biến
quan trắc
2/MK ≤
;
− Một nhân tố chung phải m
ô tả được phần lớn biến động của ít nhất
hai biến.
Nếu viết lại p
hương trình cơ bản của phương pháp phân tích nhân tố,
ta có
=
+=
k
p
jijppiji
eafx
1
, (2.9)
trong đó −
ji
x
trị số quan trắc thứ i của biến
j
, −
pi
f
những trị số của
K
nhân tố chung đối với quan trắc thứ i , −
ip
a
các trị số tỷ trọng của
K
nhân tố chung lên biến −
ji
ej
, sai số quan trắc, hay nhân tố đặc thù đối
với quan trắc thứ i của biến j .
Ý nghĩa hình học của phương pháp phân tích nhân tố
Lý giải hình học của phân tích nhân tố có phần phức tạp hơn so với
phương pháp các thành phần chính, vì thủ tục tính toán của nó phức tạp
hơn. Trong phương pháp phân tích nhân tố, người ta chiếu đám mây các
quan trắc xuất phát từ không gian các biến
M
chiều lên không gian các
nhân tố chung
K
chiều (hình 2.3).
Vì
M
K
< , chắc chắn sẽ xuất hiện những sai lệch của đám mây quan
trắc trong khi chiếu nó lên không gian có chiều nhỏ hơn. Tại giai đoạn
thứ nhất của phương pháp phân tích nhân tố, sơ đồ tính thực tế tương
đương với thủ tục quay các tọa độ xuất phát để định hướng các trục
những nhân tố chung dọc theo các hướng có độ tương quan cực đại giữa
các quan trắc (chuyển từ
321
, , xxx
sang
321
, , fff
trên hình 2.3a), nói
chung tương ứng với thủ tục của phương pháp các thành phần chính.
Tiếp theo, tiến hành tối ưu hoá việc xác định nhân
tố. Muốn vậy,
người ta loại bỏ các trục nhân tố đặc thù (
3
f ), độ biến động dọc theo
những trục này nằm trong phạm vi những sai số cho phép. Đồng thời,
thực hiện chiếu đám mây quan trắc lên các trục nhân tố chung còn lại
(hình 2.3b). Nói cách khác, người ta bỏ bớt những trục tản mạn nào mà
đám mây quan trắc xuất phát chiếu lên nó chỉ còn là một vùng với tản
mạn cực tiểu. Việc giảm bớt các trục nhân tố như vậy cho phép trong khi
giữ lại các sai số quan trắc trên c
ác trục nhân tố đặc thù, vẫn bảo tồn
những quan trắc xuất phát quan trọng nhất trên các trục nhân tố chung (
1
f
38
và
2
f trên hình 2.3b).
x
2
f
1
x
1
f
2
f
3
x
3
f
1
'
f
1
f
2
'
f
2
a)
b)
a) chuyển từ các trục biến xuất phát
321
, , xxx
sang các trục nhân tố ban đầu
321
,, fff ;
b) chuyển sang các nhân tố chung
321
, , fff
′′′
sau khi quay trực g
iao các trục nhân tố ban đầu.
Hình 2.3. Ý nghĩa hình học của phương pháp phân tích nhân tố
Bây giờ ở trong không gian
K
chiều mới, người ta tìm vị trí tối ưu
của các trục nhân tố. Các trục được quay sao cho các nhân tố được bố trí
một cách chính xác tối đa dọc theo những hướng tản mạn lớn nhất, điều
này cho phép đạt được điều kiện mô tả cấu trúc các nhân tố một cách đơn
giản (xem hình 2.3b).
Trong một số trường hợp,
có thể phép quay trục trực giao không
đảm bảo đạt được cấu trúc đơn giản của các nhân tố. Nhưng bài toán sẽ
dễ dàng giải quyết bằng các phép chiếu lên các trục nhân tố không trực
giao, góc giữa chúng
90≠
β
. Kiểu mô tả các biến như vậy gọi là quay
nghiêng và nó là một phương tiện hữu hiệu để mô tả những cấu trúc nhân
tố phức tạp. Ở đây sẽ không xem xét vấn đề này, vì thủ tục tính toán của
phép quay nghiêng rất phức tạp.
Tìm nghiệm nhân tố
Quá trình tìm nghiệm nhân tố là một tập hợp những thủ tục cụ thể
phân tích ma trận nhằm giải quyết những nhiệm vụ cụ thể. Trong thực tế,
mỗi giai đoạn tính toán sẽ xét dưới đây có thể có những cách giải quyết
khác, chọn cách nào là tuỳ thuộc vào sự thành thạo của người nghiên cứu
và xu hướng tính toán chung. Ở đây sẽ chỉ xét một phương án đơn giản
và trực quan trong số những
phương án khả dĩ.
Quá trình giải bắt đầu từ việc lập m
a trận số liệu ban đầu. Trong ma
trận số liệu chỉ đưa vào những biến nào, mà theo ý kiến người nghiên
cứu, nó tiên định cho phép giải quyết vấn đề tìm những nhân tố tiềm ẩn.
Đó có thể là những đặc trưng trạng thái biển được quan trắc thực, cũng có
thể là những đặc trưng thứ sinh (như các građien, các dòng vật chất ).
Khi lập m
a trận số liệu cần nhớ rằng số quan trắc phải lớn hơn số biến ít
nhất 3−5 lần để đảm bảo nhận được những ước lượng ổn định của nghiệm
nhân tố.
Tiếp theo, tiến hành tính
những trị số trung bình và độ lệch chuẩn
của các biến. Sau đó, ma trận số liệu được chuẩn hoá [86, 95]. Từ những
trị số chuẩn hoá, tính các hệ số tương quan cặp giữa các biến, từ đó lập
ma trận tương quan
R
. Ma trận
R
là ma trận vuông, đối xứng, gồm
M
dòng và
M
cột. Toàn bộ thủ tục tính toán của phương pháp phân tích
nhân tố được xây dựng trên cơ sở khai triển ma trận tương quan này. Vì
vậy, người ta muốn rằng những ước lượng hệ số tương quan phải phản
ánh xu thế thực trong các quan trắc xuất phát.
Để thuận tiện tín
h toán, phương trình cơ bản của phương pháp phân
tích nhân tố được viết dưới dạng:
2T
UAAR +⋅=
, (2.10)
trong đó tương quan chung của c
ác biến được chia thành hai thành phần:
39
tương quan có hệ thống, biểu diễn dưới dạng tích
T
AA ⋅ , và tương quan
ngẫu nhiên, đặc trưng cho ảnh hưởng của sai số và các nhân tố đặc thù và
biểu diễn dưới dạng ma trận
2
U . Giả thiết về số nhân tố chung không
nhiều buộc ta phải giải bài toán kép: ước lượng số nhân tố tiềm ẩn và xác
định dạng của mối liên hệ giữa các nhân tố và các biến xuất phát. Trên
thực tế, việc giải các bài toán đó quy về xây dựng một thủ tục tính lặp các
vectơ tỉ trọng
{}
M
aaaaa , , , ,
321
=
, từ đó lập ra ma trận các tỉ trọng
nhân tố
A , thực hiện phép nhân ma trận
T
AA⋅ và kiểm tra một loạt các
điều kiện định ra từ trước đối với ma trận tương quan các phần dư
2
U :
T
AARU ⋅−=
2
.
Dạng của ma trận
2
U được xác định bởi những điều kiện không phụ
thuộc giữa sai số của các biến. Vì vậy 0=
ji
u
khi
j
i ≠ . Ma trận
2
U
là
ma trận đường chéo vuông bậc
M
. Trên đường chéo là các trị số phương
sai chuẩn của các phần dư:
⋅⋅⋅
⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅
⋅⋅⋅
⋅⋅⋅
⋅⋅⋅
=
0 0 0
0 0 0
0 0 0
0 0 0
2
2
33
2
22
2
11
2
MM
u
u
u
u
U .
Nếu viết thành từng p
hần tử, biểu thức (2.10) có dạng
=
+=+=
k
p
jijijijppiji
uhuaar
1
2
2
2
,
từ đây
suy ra rằng tương quan giữa hai biến
ji
r
chứa phần biến động hệ
thống (
2
h
) được lý giải bằng những nhân tố chung, và phần ngẫu nhiên
(
2
u ) được xem là phần dư và không có ý ghĩa vật lý.
Độ biến động hệ thống
xuất hiện dưới sự ảnh hưởng của các nhân tố
chung lên đối tượng nghiên cứu, vì vậy
2
ji
h
được gọi là độ đặc trưng
chung của biến
j
. Đại lượng
2
ji
u
xuất hiện do ảnh hưởng của các nhân tố
đặc thù, chỉ đặc trưng cho biến j đang xét và sai số, được gọi là độ đặc
trưng cá thể của biến j . Tỷ lệ giữa đặc trưng chung và đặc trưng cá thể là
chỉ tiêu quan trọng về tính hiệu quả của việc đưa biến đang xét vào phân
tích nhân tố. Đặc trưng chung càng gần bằng đơn vị, thì xác suất khai
triển nhân tố một c
ách có hiệu quả càng cao.
Ngược lại, k
hi tăng đặc trưng cá thể
2
u , sẽ khó tách ra được một
nhân tố chung cho một số biến và mô tả nó chính xác. Vì vậy, nên ước
lượng trước độ biến động của các biến nghiên cứu gây bởi các sai số quan
trắc, đo đạc hay tính toán ngẫu nhiên. Ước lượng này có thể được chấp
nhận làm ước lượng ban đầu trong mô hình phân tích nhân tố và được
loại khỏi quá trình tính toán các nhân tố chung bằng cách thay thế những
phần tử đường chéo trong ma trận tương quan bằng các giá trị độ đặc
trưng chung
2
iiii
hr
→ . Thủ tục này được gọi là thủ tục suy giản ma trận
tương quan:
−⋅⋅⋅−−
⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅
−⋅⋅⋅−−
−⋅⋅⋅−−
=−=
22
2h
MMMMMMMM
MM
MM
ururur
ururur
ururur
22
2
11
2
22
2
2222
2
2121
2
11
2
1212
2
1111
URR .
Tiếp theo, tiến hành giải bài toán giá trị riêng và vectơ riêng của ma
trận tương qu
an suy giản
h
R
:
− Tìm nghiệm của phương trình đặc trưng dạng
0Λ =− IR
h
(2.11)
để có ước lượng vectơ các giá trị riêng Λ ;
− Giải c
ác hệ phương trình thuần nhất tuyến tính dạng
0)Λ(
0
=− IRA
h
, (2.12)
40
tức ước lượng được các vectơ riêng
0
A .
Sau khi tính các vectơ riêng, n
hững vectơ riêng này được chấp nhận
làm những xấp xỉ ban đầu của các hệ số tỉ trọng nhân tố, người ta chuyển
sang ước lượng số nhân tố chung đủ để khôi phục ma trận tương quan
+
R
. Muốn vậy, người ta ước lượng tích ma trận :
T
0
AAR ⋅=
+
0
,
tích này cho ước lượng m
a trận tương quan khôi phục, và sau đó tính
mức khác biệt giữa tương quan quan trắc và tương quan khôi phục
D
R
R
=−
+h
.
Hai phép tính này lặp lại nhiều lần, bắt đầu từ một v
ectơ riêng trong
ma trận
)1(
0
A và mỗi lần lại tăng số vectơ riêng lên một:
)(
0
)3(
0
)2(
0
,,
M
, AAA . Chừng nào đại lượng dư D thoả mãn mức ý nghĩa
của mô hình, người nghiên cứu chấp nhận số vectơ riêng cuối cùng làm
số nhân tố chung của mô hình. Những vectơ riêng nhận được sẽ là những
hệ số chuyển đổi từ không gian
M
chiều các biến xuất phát sang không
gian
K
chiều các nhân tố chung với phương sai sai số bậc
+==
=
M
Ki
K
j
iiu
d
11
λλ
. (2.13)
Tiếp theo phải tối ưu h
oá nghiệm của phương pháp phân tích nhân tố
trong không gian nhân tố rút gọn. Giai đoạn này gọi là quay, hay tìm cấu
trúc nghiệm đơn giản. Thực chất của giai đoạn này là tiến hành thao tác
quay các trục nhân tố chung và chuyển từ ma trận
0
A sang ma trận A
sao cho tất cả những tỉ trọng nhân tố hiện có hoặc là xấp xỉ tối đa tới 1± ,
hoặc tới 0. Điều kiện này thường cho phép tránh những nghiệm nửa vời
và phác hoạ rõ nét hơn về khoảng ảnh hưởng của các nhân tố lên các
biến.
Trong thực hành, thủ tục quay
quy về phép nhân lặp nhiều lần dạng
TAA ⋅=
0
,
trong đó −T ma
trận quay kích thước
M
dòng và
M
cột với các cột
không phụ thuộc và chuẩn hoá. Ma trận vuông T thực chất chứa giá trị
cosin và sin của góc quay (
α
) của hệ tọa độ xác định bởi ma trận các tỉ
trọng ban đầu
0
A lên hệ tọa độ mới xác định bởi ma trận A . Thí dụ về
việc thành lập ma trận quay T và ý nghĩa hình học của phép nhân ma
trận có dẫn trong [86]. Thông thường, việc quay các trục thực hiện qua
một số giai đoạn bằng cách quay nhiều lần hệ tọa độ
0
A một góc nhỏ
α
,
chọn bằng 10
o
hoặc 20°. Việc quay các trục tọa độ sẽ ngừng khi đạt được
cực đại phương sai của các tỉ trọng nhân tố lên từng biến:
==
→
−=
K
j
K
j
jiji
a
K
a
K
S
1
2
1
2
2
max
1
)(
1
.
Những trị số nhận được của cá
c hệ số
ji
a
được chấp nhận làm
những hệ số tỉ trọng nhân tố mà ta cần tìm.
Giai đoạn cuối cùng của phân tích nh
ân tố thường là thủ tục tính
những trị số của các nhân tố chung và ước lượng ma trận các phần dư.
Thông thường, việc ước lượng những trị số của các nhân tố chung
F
thực hiện dựa trên sơ đồ hồi quy tuyến tính đa biến kinh điển. Phương
trình ma trận của thao tác này có dạng
T1T
)( AAAXF ⋅⋅⋅=
−
. (2.14)
Ở đây
phải chú ý tới toán tử
1T
)(
−
⋅AA , nó là ma trận tương quan
khôi phục nghịch đảo. Vấn đề là ở chỗ độ chính xác của quá trình biến
đổi trong trường hợp đang xét quyết định độ tin cậy ước lượng những trị
số của các nhân tố chung.
Tính các phần dư thực hiện theo ước lượng hiệu m
a trận
T
AFXE ⋅−= .
Sơ đồ trình bày
trên đây của phương pháp phân tích nhân tố có tên là
phương pháp các nhân tố chính và được sử dụng rộng rãi trong thực hành.
Ngày nay, người ta đã xây dựng hàng loạt những thủ tục ước lượng tỉ
trọng nhân tố và quay các nhân tố chung, độc giả có thể làm quen trong
41
các tài liệu chuyên khảo [75, 194].
Ứng dụng thực tế phương pháp phân tích nhân tố trong hải
dương học
Trong thực tiễn hải dương học, phương pháp này chỉ bắt đầu được
ứng dụng khoảng hơn chục năm gần đây, tức là muộn hơn so với tất cả
những phương pháp thống kê đa chiều khác. Những thử nghiệm đầu tiên
ứng dụng phương pháp phân tích nhân tố vào giải quyết các bài toán hải
dương học bắt đầu vào những năm bảy mươi [96, 150, 169]. Kinh nghiệm
tích luỹ được chỉ cho phép ta nêu ra n
hững xu thế chính về vấn đề sử
dụng phương pháp phân tích nhân tố trong hải dương học.
Trong quá trình áp dụng p
hương pháp phân tích nhân tố, người ta bắt
gặp ngay một số trở ngại nghiêm trọng, trở ngại chính là do không hiểu
sự khác biệt giữa phương pháp phân tích nhân tố và phương pháp các
thành phần chính ở một số công trình ứng dụng. Có những hiểu lầm là do
việc xuất bản tài liệu về phương pháp phân tích nhân tố phổ cập cho giới
ứng dụng quá chậm trễ; mãi tới những năm gần đây mới có
[73, 81, 86].
Phương pháp phân tích nhân tố được công nhận là một kỹ thuật độc lập
của thống kê đa chiều.
Song giống n
hau hay khác nhau giữa các phương pháp thành phần
chính và phân tích nhân tố cho đến gần đây vẫn là câu hỏi bỏ ngỏ đối với
các nhà khí tượng thủy văn. Có thể coi những công trình nào, mà trong đó
có phân tích so sánh các kết quả khai triển thành phần và khai triển nhân
tố đối với các tập mẫu cụ thể là những công trình có ý đồ giải đáp câu hỏi
này. Các tác giả [39, 169, 170] cũng có cách tiếp cận như vậy. Nhưng
những kết luận nhận được mâu thuẫn nhau lại buộc người ta phải
tìm tới
những tiên đề lý thuyết cơ sở của các phương pháp.
Hiện nay
thì cách lý giải sau đây về vấn đề này là cách lý giải tỏ ra
có cơ sở hơn cả: Bản thân cấu trúc của các số liệu được nghiên cứu quyết
định mức độ tương đồng giữa khai triển nhân tố và khai triển thành phần.
Hai kết quả nhận được sẽ có xác suất giống nhau cao hơn, nếu như trong
khi thoả mãn các giả thiết phân bố chuẩn đa chiều của các số liệu xuất
phát m
à ta đạt được độ hội tụ cao khi khai triển ma trận tương quan theo
các giá trị riêng. Trong trường hợp này, sự hiện diện của những hệ số
tương quan ngoài đường chéo chính với trị số lớn trong ma trận
R
sẽ
đảm bảo cho các ước lượng giá trị riêng và vectơ riêng ổn định. Khi đó
khai triển thành phần thường gần tương ứng với phương pháp nhân tố
chính.
Những khác
biệt đáng kể nhất giữa phương pháp các thành phần
chính và phương pháp phân tích nhân tố sẽ biểu lộ trong các tình huống
khi các biến khảo sát có cấu trúc bên trong phức tạp, lúc đó khai triển
thành phần có tốc độ hội tụ không cao, còn phương sai không phân bố
đơn trị theo các thành phần. Chính ở đây, các thủ tục ước lượng ổn định
của phân tích nhân tố sẽ cho phép nhận được những ước lượng tỉ trọng
ban đầu tin cậy hơn. Còn các thủ quay trực giao hoặc không trực giao các
nhân tố chung sẽ "tận thu" lấy thông tin từ nghiệm hiện có cho đến khi
nhận được cấu trúc liên hệ các biến có tính chất đơn giản và lý giải được.
Như vậy
, trong trường hợp này, người nghiên cứu sẽ tự giác chuyển
từ khai triển thành phần tuy dễ thực hiện, nhưng kết quả không thoả mãn,
sang lĩnh vực phân tích nhân tố.
Kinh nghiệm
[228, 237] cho biết rằng hệ thống các phương pháp
phân tích nhân tố truyền thống trong thời gian gần đây đang được thay
thế bằng những phương pháp hiện đại hơn, như phân tích tương tự tối đa,
phân tích phần dư cực tiểu Ngày nay, các phương pháp mới ước lượng
tỉ trọng nhân tố mở ra rất nhiều khả năng cho người nghiên cứu nhận
được nghiệm ổn định. Tr
ong công trình của Iberla C. [81] đã trình bày
hầu như tất cả những phương pháp phổ biến tính tỉ trọng nhân tố.
Hiện nay
, bài toán quay các trục nhân tố thường giải theo phương án
trực giao bảo tồn được mối liên hệ thống kê của các nhân tố [96, 210,
216, 227, 253]. Tuy nhiên, trong trường hợp phân tích những mối liên hệ
nhiều cấp phức tạp, không thể đạt được cấu trúc đơn giản mong muốn
trong không gian trực giao của các nhân tố chung. Thường thì điều này
xảy ra đối với các đám mây quan trắc có dạng quá phức tạp [195, 252].
Để đạt được lời giải tương
đương trong lớp các mô hình thống kê tuyến
42
tính, người ta thực hiện quay không trực giao các trục nhân tố, dẫn tới
không gian nghiêng của nhân tố chung. Khi đó, các nhân tố nhận được sẽ
phụ thuộc tuyến tính và tạo thành một mức mới mô tả những quá trình
nghiên cứu [122, 176].
Ma trận phần dư
E trong phân tích nhân tố có vị trí đặc biệt, vì nó
không được cho trước bằng không. Ngoài ra, không loại trừ khả năng tiến
hành phân tích nhân tố đối với chính ma trận phần dư
E và các nhân tố
đặc thù [30, 81]. Mục đích của việc phân tích như vậy là khảo sát cấu trúc
liên hệ phương sai nhỏ của các biến, điều này có thể có vai trò quan trọng
trong các hệ thống có độ nhạy chọn lọc cao.
Trong nghiên cứu hải dương học, phân
tích nhân tố được ứng dụng
thành công trong ba hướng chính. Xây dựng các mô hình vật lý thống kê
ít tham số về vận hành của các hệ tự nhiên là bài toán phân tích nhân tố
phổ biến nhất. Trong trường hợp này, đã đạt được nghiệm đầy đủ của bài
toán nhân tố, bao gồm ước lượng tin cậy những giá trị của các nhân tố và
hình thành các phương trình hồi quy liên hệ giữa các tham số quan trắc
xuất phát và các nhân tố chung tín
h được. Ngoài ra, cấu trúc đơn giản của
nghiệm làm cho người ta có thể lý giải vật lý hoàn toàn đơn trị về các
nhân tố chung.
Thí dụ về c
ách tiếp cận này có thể là các công trình của Iu. L.
Xemenov [164, 165] khảo sát những quá trình lý hoá hình thành chế độ
thủy văn biển Caxpi. Sử dụng những chuỗi các đặc trưng thủy hoá và
thủy văn truyền thống, như người ta thường làm đối với các bài toán
tương tự, Xemenov đã ứng dụng phân tích nhân tố và xây dựng được mô
hình hoàn chỉnh lôgic và có căn cứ định lượng về các quá trình.
Cách tiếp cận tương
tự sử dụng trong [219, 226] đã cho phép xây
dựng sơ đồ vật lý thống kê cục bộ cho các quá trình tương tác đại dương
và khí quyển ở đới ven bờ Đại Tây Dương.
Hướng thứ hai sử dụng p
hân tích nhân tố liên quan tới những bài
toán phân loại khí tượng thủy văn. Về phương diện này, đã sử dụng hiệu
ứng "nén" các đám mây quan trắc trong không gian nhân tố.
Vấn đề là ở chỗ: các đám
mây quan trắc có dạng lởm chởm khi
chiếu lên các trục nhân tố sẽ có cấu trúc phân bố liên hệ đơn giản, tức tập
trung các quan trắc dọc theo các trục với tương tác biến mạnh nhất. Cấu
trúc đơn giản nhận được được khảo sát bằng mắt hoặc bằng những
phương pháp chuyên dụng [82, 168]. Trong hải dương học, nội dung ứng
dụng của các
h phân loại như trên là ở chỗ tối ưu hoá việc phân vùng
không gian ở các thủy vực [2, 46, 150, 173].
Cuối cùng, hướng thứ ba sử dụng phương p
háp phân tích nhân tố
liên quan tới giá trị dự báo của khai triển nhân tố. Vì các nhân tố chung
có tính ổn định cao hơn so với các thành phần chính, nên những nhân tố
này được xem như là những tiên lượng rất triển vọng.
Về ng
uyên tắc, việc đạt tới cấu trúc đơn giản trong phân tích nhân tố đã phần
nào làm giảm bớt vấn đề nan giải về chọn các số hạng khai triển giàu thông tin để
dự báo. Song hiện nay vấn đề này còn xa mới được giải quyết trọn vẹn trong thực
hành hải dương học, mặc dù vấn đề dự báo các nhân tố chung đã từng có những
thành công trong các công trình nghiên cứu hải dương học nghề cá [96
, 103, 108].