Tải bản đầy đủ (.pdf) (130 trang)

Chẩn Đoán Và Dự Báo Thống Kê Các Quá Trình Hải Dương Học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.55 MB, 130 trang )

CHẨN ĐOÁN VÀ DỰ BÁO THỐNG KÊ
CÁC QUÁ TRÌNH HẢI DƯƠNG HỌC
Smirnov N. P., Vainovsky P. A., Titov Iu. E.

Biêndịch: Phạm Văn Huấn

NXB Đại học Quốc gia Hà Nội - Hà Nội - 2005
Từ khóa: Quá trình hải dương học, chẩn đoán, dự báo, thống kê, phương pháp hồi quy, thành phần chính, nhân tố, phương pháp phân loại, cấu
trúc, biến động, ma trận số liệu, nhận biết phân biệt, khai triển trường, mô hình tuyến tính, đa chiều, phân tích quan hệ, dự báo tổ hợp.
Tài liệu trong Thư viện điện tử Trường Đại học Khoa học Tự nhiên có thể được sử dụng cho mục đích học tập và nghiên cứu cá nhân. Nghiêm
cấm mọi hình thức sao chép, in ấn phục vụ các mục đích khác nếu không được sự chấp thuận của nhà xuất bản và tác giả.


Н. П. СМИРНОВ, П. А. ВАЙНОВСКИЙ, Ю. Э. ТИТОВ
SMIRNOV N. P., VAINOVSKY P. A., TITOV Iu. E.

СТАТИСТИЧЕСКИЙ
CHẨN ĐOÁN VÀ DỰ BÁO THỐNG KÊ
CÁC QUÁ TRÌNH HẢI DƯƠNG HỌC
BIÊN DỊCH : PHẠM VĂN HUẤN

NHÀ XUẤT BẢN ĐẠI HỌC QUỐC GIA HÀ NỘI - 2005

ДИАГНОЗ
И ПРОГНОЗ
ОКЕАНОЛОГИЧЕСКИХ
ПРОЦЕССОВ

Санкт-Петербург
ГИДРОМЕТЕОИЗДАТ - 1998



Cuốn sách Chẩn đoán và dự báo thống kê các quá trình hải
dương học tổng kết những kinh nghiệm ứng dụng các phương pháp
thống kê nhiều biến vào nghiên cứu trường các yếu tố hải dương học diễn
ra trong đại dương. Các tác giả giới thiệu tóm tắt về bản chất và ý nghĩa
của các phương pháp phân tích thống kê hiện đại, quy trình tính toán
thực tế khi áp dụng chúng vào các nhiệm vụ nghiên cứu cụ thể, không đi
sâu vào khía cạnh toán học của vấn đề. Do đó cuốn sách sẽ là một tài
liệu chỉ dẫn phù hợp cho những người không chuyên toán muốn ứng
dụng công cụ thống kê toán học vào công việc nghiên cứu của mình. Đặc
biệt, khi diễn đạt những bài toán nghiên cứu và dự báo thống kê các quá
trình hải dương, các tác giả luôn chú trọng phương diện phương pháp
luận nghiên cứu, cách đặt vấn đề, cách lý giải nội hàm của những kết quả
nhận được, nhờ đó giúp chúng ta biết cách ứng dụng công cụ thống kê
một cách khéo léo và hiệu quả.
Các phương pháp thống kê nhiều biến cho phép người nghiên cứu
phân tích toàn diện, đồng thời nhiều quá trình, nhiều đặc trưng hải
dương học, từ đó nhận được quan niệm đầy đủ về những gì đang và sẽ
diễn ra trong biển và đại dương, hình thành những mô hình về cấu trúc
và biến động của quá trình, hiện tượng mà ta quan tâm. Hiện nay ở Việt
Nam nguồn dữ liệu về các yếu tố thủy văn, thủy hoá, khí tượng, sinh học
biển ngày càng được thu thập thêm, dần dần trở nên đồng bộ, phong phú.
Với phương tiện tính toán ngày càng hiện đại, chắc chắn hướng nghiên
cứu phân tích thống kê tự động sẽ phát triển và cuốn sách này sẽ hữu ích
cho nhiều người nghiên cứu.
Người biên dịch

1



MỞ ĐẦU
MỤC LỤC
MỞ ĐẦU
2
18
Chương 1 - MÔ TẢ MỐI LIÊN HỆ CỦA CÁC QUÁ TRÌNH
1.1. PHÂN TÍCH HỒI QUY ĐA CHIỀU. HỒI QUY TUYẾN TÍNH ĐA CHIỀU
18
25
1.2. PHƯƠNG PHÁP PHÂN TÍCH TƯƠNG QUAN CHUẨN HOÁ
29
Chương 2 - MÔ TẢ CẤU TRÚC CỦA CÁC QUÁ TRÌNH
29
2.1. PHƯƠNG PHÁP THÀNH PHẦN CHÍNH
35
2.2. PHƯƠNG PHÁP PHÂN TÍCH NHÂN TỐ
43
Chương 3 - PHÂN LOẠI CÁC QUÁ TRÌNH
43
3.1. PHƯƠNG PHÁP PHÂN LOẠI TỰ ĐỘNG
51
3.2. PHƯƠNG PHÁP PHÂN TÍCH PHÂN BIỆT
Chương 4 - NỘI DUNG DỰ BÁO CỦA CÁC PHƯƠNG PHÁP PHÂN TÍCH
THỐNG KÊ ĐA CHIỀU
56
56
4.1. DỰ BÁO CẤU TRÚC CỦA CÁC QUÁ TRÌNH
59
4.2. DỰ BÁO NHỮNG LỚP TRẠNG THÁI CỦA CÁC QUÁ TRÌNH
61

4.3. KẾT HỢP CÁC MÔ HÌNH DỰ BÁO
4.4. TÍNH KHẢ BÁO THỐNG KÊ CỦA CÁC QUÁ TRÌNH HẢI DƯƠNG
HỌC
63
Chương 5 - NHỮNG KẾT QUẢ CHẨN ĐOÁN THỐNG KÊ CÁC QUÁ
TRÌNH HẢI DƯƠNG HỌC
67
68
5.1. CHẨN ĐOÁN CÁC TRƯỜNG NHIỆT Ở BẮC ĐẠI TÂY DƯƠNG
77
5.2. CHẨN ĐOÁN CẤU TRÚC NƯỚC BIỂN NA UY
5.3. CHẨN ĐOÁN CẤU TRÚC CÁC KHỐI NƯỚC Ở BIỂN
BELLINSHAUZEN
88
Chương 6 - NHỮNG KẾT QUẢ DỰ BÁO THỐNG KÊ CÁC QUÁ TRÌNH
HẢI DƯƠNG HỌC
93
94
6.1. DỰ BÁO CÁC TRƯỜNG NHIỆT Ở BẮC ĐẠI TÂY DƯƠNG
105
6.2. DỰ BÁO ĐIỀU KIỆN BĂNG BIỂN BAREN
6.3. DỰ BÁO PHÂN BỐ KHÔNG GIAN CỦA PHÙ DU SINH VẬT Ở BIỂN
NA UY
110
KẾT LUẬN
114
116
TÀI LIỆU THAM KHẢO

Tính đa chiều và ngẫu nhiên trong biến động của các quá trình đại

dương không cho phép người ta ngay tức khắc theo dõi, mô tả định lượng
và lý giải cơ chế vật lý của chúng một cách đơn trị. Các phương pháp
phân tích thống kê sẽ là một công cụ phát hiện và mô tả những mối quan
hệ tương hỗ phức tạp đó để giải quyết các bài toán chẩn đoán và dự báo
những quá trình đại dương. Độ chính xác và tin cậy của những kết luận
nhận được phụ thuộc rất nhiều vào số lượng và sự đa dạng của thông tin
ban đầu được đưa vào xử lý.
Thực tế ta thấy toàn bộ cơ sở thông tin được tích luỹ trên ba mặt
phẳng: không gian − thời gian X (l , t ) , không gian − dấu hiệu X (l , z ) ,
dấu hiệu − thời gian X ( z , t ) ; tập hợp những thông tin này làm thành một

khối lập phương dữ liệu với các trục: không gian ( l ), thời gian ( t ), các
biến số ( z ) (hình 0.1). Vậy các dữ liệu được sắp xếp trong khối lập
phương đó như thế nào? Một quan trắc riêng lẻ x về một biến số nào đó,
tại một điểm không gian, vào một thời điểm cho trước, sẽ là một ô duy
nhất trong khối lập phương dữ liệu. Một chuỗi gồm N quan trắc
{x1 , x 2 , ..., x N } sẽ là một vectơ nằm dọc theo trục tương ứng của khối lập

phương.
Thí dụ, bản ghi nhiệt độ nước ở một điểm tại những thời điểm
t1 , t 2 , ..., t N sẽ cho ta một vectơ quan trắc X(t ) , trong khối lập phương
dữ liệu nó sẽ song song với trục thời gian. Một quan trắc phân bố thẳng
đứng của nhiệt độ nước sẽ là một vectơ dữ liệu song song với trục không
gian: X(l ) . Nếu ta quan trắc liên tiếp theo thời gian về phân bố thẳng
đứng của nhiệt độ nước tại một điểm, ta sẽ nhận được một mặt phẳng dữ
liệu nằm trong khối lập phương song song với mặt phẳng các dấu hiệu:
2


X(t , l ) .


Còn nếu như đồng thời với nhiệt độ, ta quan trắc nhiều lần các tham số
trạng thái đại dương khác (độ muối, vận tốc dòng chảy, các yếu tố hoá
học), thì kết quả là ta nhận được khối lập phương dữ liệu phủ đầy tất cả
các trục tọa độ đã chọn: X(t , l , z ) .
Trong các phương pháp phân tích dữ liệu đơn chiều, người ta xét
chuỗi quan trắc trong thời gian hoặc trong không gian và nghiên cứu
được tính chất của sự biến động (tuần hoàn, ngẫu nhiên...), sự đồng nhất
của các dao động, sự liên hệ của vectơ quan trắc [104, 123, 201]. Khi đó
thực tế ta không xét tới mặt phẳng quan trắc về những tham số khác nhau.
Và mặc dù có những hiệu quả nhất định, các phương pháp thống kê đơn
chiều không cho phép phân tích một cách đầy đủ cần thiết về quá trình
phức tạp đa tham số.
X(t,l,z)

X(l,z)

X(z,t)

X(l,t)

phân tích mức độ quan hệ cặp đồng bộ hay bất đồng bộ giữa chúng. Vậy
là người ta đã nghiên cứu cấu trúc thống kê của quá trình một cách đầy
đủ hơn so với phân tích đơn chiều.
Nhưng chỉ trong các phương pháp phân tích thống kê đa chiều thì
mới thực sự có khả năng khảo sát đồng thời một tập hợp các vectơ quan
trắc. Các phương pháp phân tích thống kê đa chiều hướng tới giải quyết
các bài toán phân tích thống kê đối với những ma trận gồm N quan trắc
(các đối tượng) về M biến số (các dấu hiệu). Ở đây, những ma trận có
thể là những bảng số nhận được bằng cách cắt khối lập phương dữ liệu

dọc theo một mặt bất kỳ nào đó. Đây có thể là những ma trận quan trắc
trong các mặt phẳng: các biến số − thời gian X( z , t ) , các biến số − không
gian X( z, l ) hoặc thời gian − không gian X(t , l ) . Ta có thể đưa trục các
dấu hiệu vào phân tích thì cũng hoàn toàn như vậy, đó là ưu điểm rõ rệt
của phân tích thống kê đa chiều, nó cho phép khảo sát khối lập phương
dữ liệu một cách toàn thể. Những tập phân bố đồng thời của các đặc
trưng quan trắc được phân tích bằng các phương pháp phân tích các vectơ
và các ma trận, với chúng, bằng phép phân tích thống kê đa chiều sẽ đưa
ra sự mô tả định lượng về những mối liên hệ tương hỗ ẩn bên trong các
tham số ban đầu và phát hiện ra nội hàm của các mô hình chẩn đoán và
dự báo các quá trình hải dương đa chiều được nghiên cứu.
Khái niệm chẩn đoán

X(l)

X(z)

X(t)

X(z)

X(t)

X(l)

Hình 0.1. Khối lập phương dữ liệu hải dương học:
Các mặt phẳng và vectơ quan trắc hợp phần

Các phương pháp phân tích cặp các chuỗi (phân tích tương quan, hồi
quy, phổ) nhằm mục đích mô tả thống kê về mối liên hệ tương hỗ của hai

vectơ quan trắc trong thời gian hay trong không gian: X1 (t ) , X 2 (t ) ;
X1 (l ) , X 2 (l ) . Ở đây người ta vừa phân tích từng vectơ riêng biệt, vừa

Theo từ điển các từ nước ngoài, thì chẩn đoán là quá trình xác định
thực chất của bệnh và trạng thái của bệnh nhân trên cơ sở khám xét toàn
diện về anh ta. Áp dụng vào hải dương học thực hành, bản chất của thuật
ngữ này không có gì đổi khác nhiều lắm. Ta có thể định nghĩa như sau:
Chẩn đoán là tuần tự những thủ tục tổng kết, hệ thống hoá và lý giải về sự
biến động quan sát thấy của các đặc trưng hải dương nhằm hình thành
một mô hình tin cậy về các quá trình đang diễn ra.
Chẩn đoán đòi hỏi hai giai đoạn cơ bản: phân tích và tổng hợp. Phân
tích, tức tách bạch đối tượng nghiên cứu thành những hợp phần, là giai
3


đoạn nghiên cứu đầu tiên. Giai đoạn này có thể bao gồm nhiều phương
pháp biến đổi dữ liệu quan trắc và các tính toán để mô tả các hợp phần và
những hiện tượng riêng lẻ của các quá trình. Nội dung chính của một
phương pháp phân tích bất kỳ − phương pháp vật lý, thực nghiệm, thống
kê hay số trị − là làm sao phát hiện và mô tả những yếu tố hợp thành các
quá trình đang diễn ra.
Tổng hợp là giai đoạn kết thúc của chẩn đoán và hướng tới liên kết
những bộ phận cấu thành đơn lẻ, hay những tính chất đơn giản nhất đã
phát hiện được, thành một chỉnh thể nào đó. Nguyên tắc cơ bản của sự
liên kết này là hình thành một cách lôgic bức tranh hoàn chỉnh về các sự
kiện đang diễn ra trên cơ sở những quy luật và những mối liên hệ của các
yếu tố đã phát hiện được ở giai đoạn phân tích. Thực chất thì tổng hợp
bao gồm nhiều phương pháp trong số các phương pháp phân tích, nhưng
chúng được áp dụng với chức năng nội dung và mục tiêu khác − để liên
kết và hệ thống hoá những hợp phần đã biết. Ngoài ra, tổng hợp gồm cả

sự lý giải về hệ thống các quy luật đã thấy được. Lý giải được hiểu là sự
giải thích vật lý về những quy luật đã phát hiện, nêu ra cơ chế vật lý
chung trong sự xuất hiện và phát triển của các hiện tượng đang diễn ra
trong đại dương.
Tác giả công trình này gộp vào khái niệm chẩn đoán toàn bộ những
thủ tục biến đổi thông tin hải dương học đa dạng trong quá trình nghiên
cứu sự vận hành của hệ thống "đại dương" trong quá khứ hay hiện tại. Vì
vậy, có hai loại thủ tục chẩn đoán sau đây với tư cách là những bộ phận
cấu thành của chẩn đoán: chẩn đoán vật lý và chẩn đoán thống kê. Những
khái niệm này khác nhau về dấu hiệu kỹ thuật hay dấu hiệu tính toán.
Chẩn đoán vật lý bao gồm các thủ tục và phương pháp xác định
trạng thái đại dương, được xây dựng trên cơ sở mô tả những hiện tượng
và quá trình hải dương bằng cách tính toán và phân tích những đặc trưng
thủy vật lý. Theo nội dung, chẩn đoán vật lý có tính truyền thống. Trước
hết, nó gồm những phương pháp hải dương học tính toán những đặc
trưng trạng thái đại dương không trực tiếp quan trắc, những đặc trưng thứ

sinh. Đó là những tham số đặc trưng cho các trường vật lý, động lực,
năng lượng, ta có thể kể ra rất nhiều. May thay, tất cả những tham số đó
liên hệ với những đặc trưng nguyên sinh thông qua những quy luật vật lý
đã biết và tạo thành một tập hợp các biến đặc trưng một cách đơn trị cho
những dạng quá trình hải dương cụ thể.
Ý nghĩa của chẩn đoán vật lý còn ở chỗ nó khái quát những biến đổi
đang diễn ra trong đại dương thông qua một hệ thống những thuật ngữ và
phạm trù đã biết và chấp nhận trong hải dương học. Đó là những yếu tố
cân bằng nhiệt (entalpy, các dòng nhiệt), những yếu tố cấu trúc ngang và
thẳng đứng của nước (các khối nước, front và đới chuyển tiếp, các xoáy
nước và các hệ thống hoàn lưu) v.v... Đối với những loại thuật ngữ cụ thể
đã có những hệ phương pháp phân tích chuyên biệt.
Thông thường, hệ phương pháp phân tích vật lý là một tổ hợp gồm

những phương pháp kinh nghiệm phân tích định lượng kết hợp với những
phương pháp thực tiễn xử lý và mô tả định tính. Có sự liên kết đó là nhờ
kinh nghiệm nhiều năm nghiên cứu thực tế, thường thì không phải là kết
quả của những nghiên cứu một cách hệ thống và có định hướng, mà là do
người ta khái quát những điều đáng quan tâm từ hoạt động thực tiễn.
Thí dụ, phương pháp luận phân tích T , S đối với các khối nước
[23,125] là một thành tựu cơ bản của khoa học, cho phép hiểu và mô tả
những quá trình quan trọng nhất hình thành cấu trúc khối nước. Trong khi
đó hệ phương pháp mô tả điều kiện băng và trạng thái mặt biển theo
thang điểm là đúc rút từ những nhu cầu thực tiễn hàng hải.
Phần lớn những phương pháp phân tích vật lý các quá trình hải
dương kết hợp những cơ sở của phép phân tích định lượng các quan trắc
với những giải pháp lý luận tập hợp, chuẩn bị và xử lý thông tin hải
dương học. Những quy tắc lý thuyết đồng thời là cơ sở để lý giải tiếp theo
về những ước lượng định lượng về phương diện hải dương học.
Về toàn cục thì thực tiễn phân tích vật lý đối với những quá trình hải
4


dương là một phương pháp luận đã hình thành, hoàn chỉnh và rất hiệu quả
trong xử lý thông tin hải dương học.

Những nguyên tắc của chẩn đoán thống kê
Chẩn đoán thống kê yêu cầu sử dụng các phương pháp thống kê để
xử lý, phân tích và lý giải thông tin hải dương học đa dạng. Phương pháp
luận của chẩn đoán thống kê dựa trên nhiều phương pháp phân tích thống
kê và thể hiện dữ liệu.
Chẩn đoán thống kê có nhiều triển vọng ứng dụng thực tế trong
nghiên cứu hải dương học. Đó là do hiện nay có rất nhiều phương pháp
thống kê biến đổi thông tin. Song việc sử dụng chẩn đoán thống kê trong

thực tế hiện còn rất hạn chế. Về điều này có một số nguyên nhân.
Thứ nhất, rõ ràng rằng trong giới những người nghiên cứu ứng dụng
chưa hiểu sâu sắc về chính hệ thống các tính toán thống kê và sự liên hệ
ràng buộc bên trong của các phương pháp thống kê khác nhau. Thực chất
điều này cản trở việc sử dụng nhiều phương pháp để hình thành và kiểm
tra các giả thuyết thống kê, chấp nhận những quyết định có căn cứ thống
kê để khảo sát định lượng toàn diện về những mối liên hệ lẫn nhau giữa
các đặc trưng hải dương học. Chúng tôi cho rằng chính là sự thiếu hiểu
biết thực dụng về bản chất của phương pháp luận thống kê đã làm nảy
sinh sự hoài nghi đối với nó. Kết quả là sự chẩn đoán bị quy về ứng dụng
thực tế một số thủ pháp phương pháp luận riêng biệt, những thủ pháp này
mặc dù chưa phải là tối ưu để giải quyết các bài toán cụ thể, nhưng chúng
được dùng quen, ổn định, thành tập tục lịch sử, không gây cho nhà nghiên
cứu những bất trắc nào.
Thứ hai, áp dụng những phương pháp phân tích thống kê hiện đại
phải đi kèm với cơ sở kỹ thuật tương ứng. Những tính năng của các máy
tính hiện có đôi khi quyết định giới hạn của việc phân tích thống kê thông
tin trong thực tế. Khác với những tính toán thủy động lực, thống kê đòi
hỏi không chỉ tốc độ máy tính, mà chủ yếu là dung lượng nhớ lớn. Bộ
nhớ trong và bộ nhớ ngoài quy định khả năng áp dụng nhiều phương

pháp tiếp cận hữu hiệu, trong đó có những phương pháp phân tích thống
kê nhiều biến.
Cuối cùng, nguyên nhân thứ ba là do tình trạng lưu giữ thông tin hải
dương học vào máy tính rất chậm trễ. Như đã biết, hiệu quả của việc xử
lý những mảng dữ liệu lớn tuỳ thuộc rất nhiều vào trình độ tổ chức thông
tin. Tính tin cậy của những kết luận thống kê liên quan với độ dài tập
mẫu nghiên cứu. Vì vậy, sự tích luỹ thông tin và lưu giữ chúng một cách
có tổ chức có thể xem là con đường nhanh nhất để phát triển các phương
pháp chẩn đoán thống kê.

Bản chất của chẩn đoán thống kê là phân tích định lượng một tập
hợp những đặc trưng hải dương học, thành lập những mô hình thống kê
tối ưu về những quá trình được quan trắc, mô tả tiếp và lý giải những quy
luật và cơ chế vật lý hình thành nên tính biến động đại dương. Phương
pháp luận phân tích thống kê được phổ biến rộng rãi nhất trong phân tích
sơ bộ những chuỗi quan trắc (dựng tổ chức đồ, ước lượng các mômen
thống kê bậc thấp), mô tả quan hệ các chuỗi (tương quan cặp và hồi quy),
phát hiện quy luật biến động thời gian của các đặc trưng hải dương học
(phân tích điều hoà, phổ, hiệp phổ). Trong khi đó các phương pháp phân
tích nhiều biến nói chung hiện còn ít được dùng hơn, điều này hoàn toàn
không tương xứng với sức mạnh thực tế của các phương pháp đó.
Ta sẽ khái quát hoá những nhận xét trên đây về chẩn đoán vật lý và
thống kê dưới dạng một sơ đồ trực quan đơn giản sao cho có thể tóm lược
được những ý tưởng phương pháp luận của các hướng nghiên cứu khác
nhau (hình 0.2).
Thấy rằng khối chẩn đoán thống kê liên quan trực tiếp với ba khâu
của hệ thống xử lý: các cơ sở dữ liệu, chẩn đoán vật lý và hình thành tri
thức của người dùng. Tương ứng với những mối liên hệ qua lại đó, có thể
phát biểu những bài toán cơ bản của chẩn đoán thống kê gồm ba nhóm
sau đây.
1. Những bài toán về xử lý sơ bộ các số liệu, bao gồm các thủ tục
5


hỡnh thnh nhng mng thụng tin ban u t cỏc c s d liu gc v trờn
c s nhng kt qu tớnh toỏn cỏc c trng hi dng hc th sinh trong
khi chn oỏn vt lý.
2. Nhng bi toỏn phõn tớch thng kờ thụng tin, th hin di dng
mt lot vn c th v phõn tớch thng kờ ti u i vi ti liu. Thớ
d, nhng bi toỏn v phỏt hin nhng hp phn tun hon trong bin

thiờn thi gian v khụng gian, ỏnh giỏ nh lng mi liờn h gia cỏc
dao ng ca nhng c trng hi dng hc trong khụng gian hay trong
thi gian.
Tính các đặc trng vật lý


Phân tích vật lý các quá trình
Chẩn đoán
vật lý


Lập các mô hình vật lý


Lý giải kết quả
Tính các đặc trng thống kê


Cơ sở
dữ liệu

Chẩn đoán
thống kê

Phân tích thống kê các quá trình


Lập mô hình thống kê



Lý giải kết quả
Tri thức


Ngời sử dụng
Hình thnh
bi toán


Chấp nhận quyết định


Dự báo

Hỡnh 0.2. S chc nng chn oỏn cỏc quỏ trỡnh hi dng hc

3. Nhng bi toỏn giai on tng hp, khi nhng c lng nh

lng thu c v cỏc mi liờn h thng kờ cn phi thng nht li di
hỡnh thc nhng mụ hỡnh v hin tng, ỏng tin v mt thng kờ, sau ú
lý gii theo tinh thn vt lý v c ch hot ng ca nhng mụ hỡnh nhn
c theo thut ng hi dng hc v phự hp vi nhng tiờn vt lý
ó chp nhn khi phõn tớch.
S khi trờn õy vn hnh thnh cụng hay khụng tu thuc vo
tng quan gia trỡnh tri thc ca ngi s dng nhng kt qu chn
oỏn v tớnh hiu qu ca nhng quyt nh thc tin chp nhn trờn c
s tri thc ú. Nu hiu s gia hai hp phn ny õm thỡ s phỏt sinh yờu
cu tip tc nghiờn cu. Nu hiu dng s ny sinh kh nng tip tc s
dng tri thc, thớ d, di dng cỏc d bỏo s phỏt trin ca nhng quỏ
trỡnh hi dng trong thi gian hay trong khụng gian.

S thnh cụng trong gii quyt nhng bi toỏn chn oỏn thng kờ
cỏc quỏ trỡnh hi dng tu thuc rt nhiu vo tớnh hiu qu ca vic ỏp
dng cỏc phng phỏp c th x lý thng kờ thụng tin. V hỡnh thc, khi
chn oỏn thng kờ l mt tun t nhiu phng phỏp ca thng kờ hc,
vic chn v c th hoỏ chỳng c thc hin phự hp vi nhng mc
tiờu chung ca ngi nghiờn cu. Tuy nhiờn, cú th nờu ra mt s nguyờn
tc c bn trong khi chn v ng dng cỏc phng phỏp thng kờ trong
chui chung chn oỏn cỏc quỏ trỡnh hi dng.
Nguyờn tc b sung. Theo nguyờn tc ny, nhng phng phỏp c
chn phi dn ti nhng kt qu sao cho cú th xõy dng c bc tranh
y nht v cỏc hin tng ang din ra. Nh vy cng chớnh l nhn
mnh rng phi loi tr s lp li nhiu ln nhng kt qu. Cú cn phõn
loi mt tp mu m v tp mu ú tt c nhng ch tiờu ng nht ó
c khng nh trc khụng? Tuy nhiờn, trong thc t cng cú th cn
phõn loi nhiu ln mt tp mu theo nhiu ch tiờu v quy tc phõn loi
khỏc nhau lm sao chn c mt cu trỳc lp n nh nht v cú cn
c vt lý nht. í ngha ca quy tc ny l ch sao cho kt qu ln sau m
rng nhng quan nim ca chỳng ta v i tng nghiờn cu ó thu c ln
chn oỏn trc.
6


Nguyên tắc kết hợp các phương pháp để liên tục áp dụng những
phương pháp nghiên cứu phức tạp hơn. Những phương pháp xử lý thống
kê đơn sơ hơn thì cho những kết quả thô, gần đúng, nhưng ít tốn thời
gian. Phương pháp chính xác hơn thường phức tạp hơn và ít kinh tế hơn.
Thông thường, sự phức tạp tính toán và tăng độ chính xác kết quả luôn
dẫn tới thu hẹp phạm vi ứng dụng của hệ phương pháp. Độ tin cậy cao
của một ước lượng thống kê chủ yếu là do tuân thủ nghiêm ngặt những
điều giới hạn trong khi tính toán. Bài toán quen thuộc trong khí tượng

thủy văn về tính các chuẩn nhiều năm của nhiệt độ nước là một minh hoạ
về điều vừa nêu. Ước lượng gần đúng trung bình số học theo chuỗi quan
trắc dài tỏ ra không có gì kém so với những ước lượng tinh xảo kỳ vọng
toán học thực hiện bằng nhiều phương pháp phức tạp với xấp xỉ không
dừng.
Nguyên tắc kế thừa cho phép dần dần đạt tới độ tin cậy cực đại của
kết quả tính toán với độ mạo hiểm tối thiểu. Nguyên tắc này tạo ra khả
năng phân chia thành từng pha các phương pháp chẩn đoán thống kê
những quá trình hải dương. Một pha là một nhóm các phương pháp xử lý
thống kê gồm một số những tính toán khép kín, người sử dụng kiểm soát
tính hiệu quả của nó. Thí dụ, khi tính các thành phần chính, có thể tổ
chức một pha tính mỗi thành phần và khôi phục giá trị của thành phần đó.
Sau khi kiểm tra tính hội tụ và tính lý giải được của các thành phần,
người sử dụng quyết định cần tiếp tục khai triển hay kết thúc các thủ tục
tính toán.

Trình tự chẩn đoán thống kê
Trong thực tế có thể thực hiện những nguyên tắc chẩn đoán thống kê
chung nhất đã liệt kê trên đây dưới dạng những sơ đồ tính toán thống kê.
Ta sẽ dừng lại ở một trong những phương án khả dĩ tỏ ra rất hiệu quả
trong nghiên cứu các quá trình hải dương quy mô lớn.
Sơ đồ chẩn đoán thống kê này (hình 0.3) hình thành trên cơ sở
những nguyên tắc đã xét ở trên như một bộ phận hợp thành của một quá

trình chung xử lý thông tin hải dương học. Giai đoạn phân tích gồm bốn
nhóm phương pháp xử lý. Xử lý bước đầu được chia thành một khối độc
lập để nhấn mạnh tầm quan trọng và sự cần thiết của việc lựa chọn ban
đầu thật cẩn thận các tham số phân tích thống kê.
Rõ ràng, việc chọn lựa cụ thể những tham số phải xuất phát từ các
điều kiện phát biểu bài toán chẩn đoán. Sau khi có kết quả chẩn đoán vật

lý, ở mức định tính chúng ta đã có thể tiên đoán khả năng đưa thêm
những tham số bổ sung vào danh sách các mối liên hệ cần nghiên cứu.
Trong danh sách đã có thể đưa thêm những biến không trực tiếp quan
trắc, nhưng có thể tính được trong quá trình chẩn đoán vật lý.
Phân tích thống kê ban đầu trong chẩn đoán thống kê có thể được
xem vừa như là mục tiêu nghiên cứu, vừa như là giai đoạn tính toán trung
gian. Trong mọi trường hợp thì kết quả phân tích thống kê ban đầu là nền
tảng để lý giải về tính ổn định và tính biến động của các tham số, tính
đồng nhất và tính dừng của các thành phần riêng biệt của các quá trình
được nghiên cứu.
Cần tách riêng các phương pháp ước lượng trị số của những mômen
thống kê đầu tiên và thuật toán tính toán các tổ chức đồ thực nghiệm một
chiều và hai chiều như là những thủ tục tính toán các đặc trưng thực
nghiệm quan trọng của những quá trình hải dương. Các ước lượng thống
kê − trung bình, phương sai, các hệ số biến phân, độ bất đối xứng, độ
nhọn, các tham số phân bố xác suất, là thông tin quan trọng về cấu trúc
nội tại của biến động thời gian hay không gian của các quá trình. Trên cơ
sở đó hình thành quan niệm ban đầu về biến động nền của các hiện tượng
nghiên cứu nói chung.
Phân tích các chuỗi thời gian được tách thành một khối riêng biệt, vì
trong đó những thuật toán ước lượng định lượng về mức độ có quy luật
trong sự biến thiên các đặc trưng hải dương học theo thời gian được liên
kết thành một chuỗi những tính toán liên quan nhau một cách lôgic.
Những ý tưởng phân tích chuỗi thời gian đã được xét chi tiết và toàn diện
7


trong nhiu chuyờn kho v nhng vn phõn tớch xỏc sut cỏc quỏ
trỡnh hi dng [69, 151, 193]. õy cn nhn mnh ý ngha to ln ca
phộp phõn tớch thng kờ tng hp i vi cỏc quỏ trỡnh hi dng a

chiu trong h phng phỏp ny.
Chọn các tham số
Xử lý bớc đầu



Hình thnh các tập mẫu

Phân tích thống kê ban đầu
Phân tích


Phân tích các chuỗi thời gian


Phân tích thống kê đa chiều
Lựa chọn mô hình thống kê
Tổng hợp


Lý giải các đặc trng thống kê

Hỡnh 0.3. S chc nng ca chn oỏn thng kờ
cỏc quỏ trỡnh hi dng

Tỏch ra tớnh bin thiờn cú quy lut ca chui thi gian cú ngha l
nhn nhng c lng tin cy ca nhng c trng v tớnh ngu nhiờn
hay tớnh cú quy lut trong bin thiờn thi gian. Rừ rng, phỏt hin ra
nhng quy lut l kt qu quan trng khi phõn tớch cỏc chui thi gian.
Trc ht quy lut c hiu l s tun hon lp li tim n trong cỏc dao

ng ca cỏc c trng hi dng hc m ngi ta gii thớch nh l s
biu hin ca cỏc c ch hỡnh thnh cỏc quỏ trỡnh nghiờn cu bi nhng
nhõn t bờn ngoi hay bờn trong. Vỡ vy cỏc phng phỏp phõn tớch iu
ho ca Fourier, phng phỏp phõn tớch biu chu k, phõn tớch ph
c phỏt trin mnh m nht.
i dng l mt h thng phc tp gm nhng mi liờn h cu trỳc

nhiu tng, gm c mt di rng tn s dao ng riờng v dao ng
cng bc. Chớnh tớnh cú cu trỳc ca h thng ó cho phộp chỳng ta sau
khi xp x ỏnh giỏ c cu trỳc tn s ca cỏc quỏ trỡnh, cú th ngay
tc khc xp cỏc hin tng ang xột vo mt thang bc nht nh trong
s a tng bin ng i dng. Tuy nhiờn, kinh nghim cho thy rng
tp hp cỏc tn s dao ng c trng l cú hn v thc t nú nm gn
trong di bin ng t c vi phỳt n vi nghỡn nm, iu khng nh
ny chớnh xỏc v tin cy i vi nhng nhu cu thc tin v lý
thuyt hin nay.
Ta ó bit rng cu trỳc tn s trong s tng tỏc gia cỏc thnh
t ca h thng khớ hu cú s bc t do rt khỏc nhau. Vic mụ t
nhng mi liờn h qua li trong cỏc dao ng ca nhng c trng hi
dng hc trong min tn s c thc hin bng cỏc phng phỏp
phõn tớch ph tng h; theo phng phỏp ny, t cỏc c lng ph
dao ng ng pha v khụng ng pha, hip bin v pha cỏc dao
ng, ta s cú c quan nim v s hin din hay khụng hin din
ca nhng tng tỏc cú tớnh tun hon gia hai chui thi gian.
Cũn cú mt nhúm cỏc bi toỏn phõn tớch chui thi gian liờn quan
ti vic mụ t nhng dao ng tun hon chu k di trong cỏc quỏ
trỡnh ban u, gi l "xu th". Bi toỏn mụ t xu th chc chn khụng
nờn coi l bi toỏn tm thng v cú l nú cng l bi toỏn cũn lõu
mi hon thin.
Theo truyn thng thỡ cỏc nh nghiờn cu xem xu th l mt th

nhiu khụng mong mun. Nguyờn nhõn l do xu th phỏ hu iu kin
dng ca cỏc chui thi gian, lm gim mnh hiu qu ca cỏc phng
phỏp phõn tớch tng quan v ph kinh in. Thc vy, tớnh khụng dng
v k vng toỏn hc, v cỏc c trng biờn v pha dao ng lm gim
tin cy ca nhng c lng ca cỏc thnh phn tt nh, vỡ phn ln
trng hp trong thc t cỏc c lng ny c tớnh theo nhng thut
toỏn ỏp dng i vi nhng tp mu dng. Chớnh vỡ vy m ngi ta
thng mun bng mi cỏch loi b cỏc xu th trong cỏc chui.
8


Loại bỏ xu thế được thực hiện bằng nhiều phương pháp khác nhau,
cơ sở của các phương pháp đó là ý tưởng mô tả riêng rẽ từng dao động
một trong các chuỗi thời gian. Và biến động xu thế ( A(t ) ) trong cách tiếp
cận này được xem như một biến động độc lập, không trực tiếp liên hệ với
biến động chu kỳ ngắn hơn ( B(t ) ). Như vậy biến động chung X(t ) của
các quá trình hải dương được mô tả dưới dạng mô hình tổng hợp phần:
X(t ) = A(t ) + B(t ) .

Phải thừa nhận một trong những nét quan trọng nhất của tất cả các
phương pháp phân tích thông tin hải dương học là số lượng các biến đặc
trưng cho mặt này hoặc mặt khác của các quá trình tăng lên theo kiểu
hàm mũ.
Thí dụ, ngay ở giai đoạn xử lý sơ bộ, với hai chuỗi thời gian xuất
phát là nhiệt độ và độ muối đã có thể thêm vào một chuỗi mật độ. Sau
quá trình phân tích ban đầu người nghiên cứu sẽ có thêm hàng chục đặc
trưng định lượng. Cuối cùng, sau khi phân tích cấu trúc dao động tiềm ẩn,
lượng thông tin công tác lại tăng lên một số lần nữa do có những ước
lượng hàm tự tương quan, tương quan tương hỗ, hàm phổ và hiệp phổ,
các tham số khai triển Fourier, theo mô hình tổng hợp phần, những ước

lượng này hình thành một cách riêng rẽ cho các thành phần xu thế và các
thành phần chu kỳ ngắn. Thực tế là xảy ra tình trạng dư thông tin,
muốn hệ thống hoá thông tin phải có những phương pháp đặc thù, đó
là các phương pháp phân tích thống kê đa chiều.

Phân loại các phương pháp phân tích thống kê đa chiều
Mục đích cơ bản của phần lớn các phương pháp phân tích thống kê
đa chiều là biến đổi dữ liệu xuất phát, sao cho người nghiên cứu có thể
một cách trực quan và khá đầy đủ ý niệm được bản chất của những mối
liên hệ chủ yếu trong tài liệu phân tích. Vì có nhiều quan điểm lý thuyết
khác nhau, nên cũng xuất hiện và phát triển nhiều phương pháp phân tích
thống kê đa chiều, mỗi phương pháp trong số đó lý giải sự biến động của

số liệu theo kiểu của mình. Những phương pháp phân tích thống kê đa
chiều phổ dụng nhất là:
1) Phân tích hồi quy;
2) Phân tích thành phần và phân tích nhân tố;
3) Phân tích tương quan chuẩn hoá;
4) Phân loại hay phân tích nhóm (cluster analysis);
5) Phân tích phân biệt (discriminant analysis).
Trên cơ sở những phương pháp này nảy sinh hàng trăm biến thể
khác nhau. Nhiệm vụ của người nghiên cứu là làm sao định hướng tốt,
lựa chọn và sử dụng những phương pháp hiệu quả nhất. Khả năng áp
dụng phân tích thống kê đa chiều trong thực tế được quy định và được
kiểm tra bằng sự phù hợp giữa mô hình thống kê được xây dựng và số
liệu thực, ngoài ra phải xét xem những mối phụ thuộc tương hỗ nhận
được theo mô hình có lý giải được về vật lý hay không. Khi ứng dụng các
phương pháp phân tích thống kê đa chiều mà kết quả kém, thì điều đó
không chỉ nói lên nhược điểm của bản thân phương pháp, mà chủ yếu do
không phù hợp giữa phương pháp và số liệu xuất phát hay việc áp dụng

nó không đúng đắn. Chỉ có thể thành công khi áp dụng những phương
pháp này một cách có lựa chọn, có cơ sở và khéo léo trong thực tế. Vì
vậy, điều đáng quan tâm đặc biệt là sự phù hợp giữa các phương pháp
phân tích thống kê đa chiều và các nhiệm vụ cần giải quyết. Dưới dạng
chung nhất, vấn đề này được xem xét trong bảng 0.1, bảng này chỉ giới
thiệu những giải pháp đã từng được thử thách nhiều nhất trong thực hành
hải dương học để giải quyết những bài toán điển hình bằng các phương
pháp phân tích thống kê đa chiều. Ở đây, những mục tiêu nghiên cứu rất
đa dạng được chia thành ba nhóm, đối với mỗi nhóm đã xác định những
nguyên tắc và những phương pháp giải quyết cụ thể.
Vấn đề mô tả thống kê những mối liên hệ nhằm mục đích xây dựng
các mô hình hiện tượng và quá trình để chẩn đoán và dự báo, được đặt
lên vị trí đầu tiên. Điều này không phải ngẫu nhiên, vì nó luôn là kết cục
9


chính của phần lớn những bài toán thực dụng mà chúng ta giải quyết.
Ngoài ra, vấn đề này cũng cần được giải quyết trong nhiều quá trình
nghiên cứu khác liên quan tới phân loại các quá trình hay phân tích cấu
trúc của chúng. Giải pháp mô tả thống kê truyền thống về phương diện
này là ứng dụng các phương pháp phân tích tương quan và hồi quy nhiều
biến, nhờ những phương tiện đó người nghiên cứu mô tả mối phụ thuộc
giữa các biến.
Bảng 0.1. Phân loại các phương pháp phân tích thống kê đa chiều
Mục tiêu

Những nguyên tắc

Các phương pháp


Mô tả những mối liên
hệ (mô hình hoá, dự
báo)

Mô tả định lượng những
mối liên hệ giữa các biến
trên cơ sở tương quan và
hồi quy

Hồi quy đa biến (tuyến tính,
phi tuyến)

Phát hiện và mô tả
cấu trúc tiềm ẩn của
số liệu

Biến đổi các biến thành
những thành phần trực giao

Khai triển thành các đa thức
đại số trực giao (Chebưsev,
Fourier)

Phân tích tương quan chuẩn
hoá

Phương pháp thành phần
chính
Phân tích nhân tố
Tách các tập con trong

các đối tượng quan
trắc; điển hình, phân
loại, phân vùng

Tách biệt tự nhiên tập hợp
quan trắc thành những lớp
đồng nhất, đánh giá sắp xếp
các quan trắc cụ thể vào
những lớp xác định

Phân tích nhóm (phân loại tự
động)
Phân tích phân biệt

Một khi đã tích luỹ được nhiều thông tin rằng có những mối liên hệ
tiềm ẩn, thì các phương pháp chỉ là biến những kết luận định tính thành
dạng toán học − thành những phương trình hồi quy đa biến. Ở đây phân
tích hồi quy đa biến là cách tiếp cận chủ yếu trong khi giải quyết các bài
toán mô tả. Nhiều kết quả khoa học và thực tiễn quan trọng đã có được
nhờ ứng dụng phương pháp này trong hải dương học. Thí dụ, sử dụng hồi
quy đa biến cho phép mô tả sự phụ thuộc của mật độ vào nhiệt độ, độ

muối, áp suất trong các phương trình trạng thái nước biển thực nghiệm.
Chính phương pháp này được sử dụng khi lập những công thức tính và
dự báo điều kiện băng theo các đặc trưng khí tượng. Phương pháp tiếp
cận tương tự cũng được dùng khi khảo sát sự phụ thuộc của các tham số
sóng vào tốc độ gió, độ dài đà gió...
Tìm cấu trúc tiềm ẩn trong các dữ liệu khí tượng thủy văn có nghĩa
là phát hiện những quy luật cơ bản của những biến không gian − thời
gian. Trong hải dương học vấn đề này đang được giải quyết trên ba

phương diện chính: phân tích cấu trúc các mối liên hệ giữa những tham
số trạng thái đại dương, phân tích cấu trúc những quy mô biến động
không gian của các đặc trưng hải dương học và phân tích cấu trúc biến
động thời gian của các quá trình.
Nguyên tắc chính thực hiện những bài toán là khai triển tập mẫu ban
đầu thành chuỗi các thành phần trực giao (không phụ thuộc với nhau).
Phương pháp khai triển được chọn sao cho mỗi thành phần trực giao mô
tả một mối liên hệ đặc trưng nào đó giữa các biến hoặc khái quát được
quy mô điển hình của biến động không gian − thời gian.
Phải thừa nhận phương pháp khai triển đơn giản nhất là các thủ tục
khai triển theo các đa thức đại số, trong đó các đa thức Chebưsev và
Fourier là phổ dụng nhất. Phương pháp các thành phần chính cũng được
sử dụng rộng rãi, mặc dù nó có phần phức tạp hơn. Phương pháp phân
tích nhân tố tạm thời ít được ứng dụng trong hải dương học thực hành,
song trong các lĩnh vực khoa học khác (khí tượng học, sinh học, xã hội
học, kinh tế học) nó tỏ ra rất hữu hiệu. Sự hiệu quả của phương pháp
phân tích nhân tố thường phải trả giá bằng sự phức tạp của các thủ tục
tính toán.
Quá trình hệ thống hoá khoa học đối với những tri thức tích luỹ gắn
liền với phân loại hoá, phân loại các đối tượng nghiên cứu. Những vấn đề
phân loại khối nước, phân loại dạng băng, phân loại cấu trúc nước thẳng
đứng... có ý nghĩa thực tiễn và khoa học đặc biệt.
10


Loi (kiu) ca hin tng hay quỏ trỡnh l kt qu khỏi quỏt thụng
tin tớch lu v i dng rt quan trng. Thụng thng, nhng bi toỏn
kiu tng t c gii quyt bng cỏch ng dng phng phỏp phõn
tớch phõn bit. Theo phng phỏp ny, da trờn nhng tớnh cht thng kờ
ca nhng lp ó c phõn ra trc õy, cú th xp thụng tin mi vo

mt trong nhng lp ú vi mt sai s ti thiu. Trong thc hnh, phõn
tớch phõn bit ó c ng dng hiu qu khi nhn dng kiu cu trỳc
thng ng nhit nc, khi chn oỏn v d bỏo kiu iu kin bng.

Trỡnh t chn oỏn thng kờ cỏc quỏ trỡnh a chiu
Cỏc phng phỏp phõn tớch thng kờ a chiu cú mc ớch mụ t
nhng h thng a tham s. Hai nhúm phng phỏp cú v trớ trung tõm
trong phõn tớch thng kờ a chiu: ú l cỏc phng phỏp phõn loi v
cỏc phng phỏp phõn tớch cu trỳc. Khi thc hin mt kho sỏt c th
no ú, thỡ cú l vn chớnh l ta phi la chn tng quan gia hai
nhúm phng phỏp ú.
Trong thc tin nghiờn cu hi dng hc, cú th cú hai phng ỏn
trỡnh t ng dng phõn tớch thng kờ a chiu. Trờn hỡnh 0.4 trỡnh by
nhng s chi tit v ng dng phõn tớch thng kờ a chiu. Rừ rng l
c hai phng ỏn u nhm mt mc tiờu cui cựng: t ti s mụ t
ỳng n v tin cy nht v bin ng cú mt trong cỏc quỏ trỡnh hi
dng. Nhng mc tiờu s t c bng nhng cỏch khỏc nhau, tu
thuc vo cu trỳc s liu xut phỏt m ta phỏt hin c nhng giai
on x lý thng kờ trc ú i vi nhng tham s hi dng hc.
Nh nghiờn cu phi i mt vi vn chn trỡnh t ỏp dng cỏc
phng phỏp phõn tớch thng kờ a chiu v cõu hi nhng phng phỏp
c th no v nguyờn tc cn thit phi s dng. Ngi ta gii ỏp nhng
vn ú khụng phi mc linh tớnh, m phi mc lun lý. Cú nờn
ng dng cỏc phng phỏp phõn tớch thng kờ a chiu hay khụng l phi
da vo nhng kt qu phõn tớch thng kờ ban u v nhng kt lun rỳt
ra t phõn tớch cỏc chui thi gian. Cỏc nguyờn tc chn nhng con

ng kh d ng dng phõn tớch thng kờ a chiu phi xut phỏt trc
ht t s tho món cỏc gi thit v tớnh chun trong cỏc phõn b thc
nghim ca cỏc bin xut phỏt v tớnh dng, tớnh ng nht ca cỏc chui

c nghiờn cu.
Phơng án 1

Phơng án 2

Khai triển các đặc trng
đợc nghiên cứu trong hệ
quy chiếu trực chuẩn (các
đa thức chuẩn, các thnh
phần chính, các nhân tố
chung, các biến chuẩn hoá)

Phân loại các quá
trình đợc nghiên cứu
trong không gian các
biến xuất phát (phân
loại tự động, phân tích

Mô tả biến động các
quá trình bằng các
phơng pháp phân tích
bớc đầu đối với những
chuỗi thời gian trong hệ
quy chiếu trực chuẩn

Phân loại các quá
trình theo các kiểu biến
động của những tham số
khai triển quy chiếu
(phân loại tự động, phân

tích nhận dạng)

Mô tả các đặc trng
thống kê của những loại,
những lớp đã đợc tách
ra bằng các phơng pháp
phân tích bớc đầu v
phân tích các chuỗi

Phân tích cấu trúc các
lớp, các quá trình bên
trong các lớp bằng cách
khai triển trong hệ quy
chiếu trực chuẩn (các đa
thức, các thnh phần
chính, các nhân tố
chung, các biến chuẩn)

Hỡnh 0.4. S chc nng trỡnh t phõn tớch thng kờ
a chiu i vi thụng tin hi dng hc

S d phi phõn loi ngay t u cỏc bin c nghiờn cu l vỡ cú
nhng trng hp khụng tho món cỏc gi thit v tớnh chun trong cỏc
lut phõn b mt chiu v hai chiu, c bit trong trng hp xut hin
dao ng a mt. Chớnh c im ny cú tớnh quyt nh ti vic s dng
11


phép phân loại các quá trình được nghiên cứu. Theo kinh nghiệm của các
tác giả, nếu ngay từ đầu đã thực hiện phân tích cấu trúc với những số liệu

loại này bằng các phương pháp khai triển thì thường dẫn tới những mô
hình thống kê kém hiệu quả. Nguyên nhân dẫn tới những kết quả kém
như vậy là do tính ít thông tin của các ước lượng tham số tương quan và
hồi quy, vì phần lớn các phương pháp khai triển thực nghiệm xuất phát từ
những ước lượng đó.
Phải lưu ý những người nghiên cứu thực hành rằng quy luật này
hoàn toàn có cơ sở, vì ước lượng liên hệ tương quan tuyến tính dựa trên
đòi hỏi tuân thủ tính chuẩn của phân bố xác suất hai chiều của các biến
[8, 75, 96, 201]. Nếu giả thiết chuẩn của luật phân bố thực nghiệm không
thoả mãn với xác suất P (%), thì ta chỉ có thể hy vọng nhận được kết quả
khai triển với độ chính xác khai triển không cao hơn P (%) chứ không
mong gì hơn.
Cần nhấn mạnh rằng sự kết hợp, móc nối giữa một số phương pháp
phân tích thống kê đa chiều ngày nay là một tất yếu, được khẳng định
bằng kinh nghiệm ứng dụng thực tiễn các phương pháp, bằng căn cứ lý
luận về sự liên kết này và bằng những khả năng kỹ thuật của máy tính
hiện đại. Theo cách tiếp cận như vậy, nguyên tắc kết hợp các phương
pháp nghiên cứu những quá trình hải dương phức tạp có thể hiện thực hoá
trên trình độ hiểu biết mới về những kết luận thống kê đã nhận được.
Việc kết hợp các phương pháp áp dụng đối với nhiều hệ tọa độ khác nhau
(thí dụ, không gian − các biến và các biến − thời gian) cho phép mô tả
cấu trúc các mối liên hệ của toàn bộ hình lập phương thông tin hải dương
học đa chiều, có nghĩa là tái tạo được một bức tranh đầy đủ hơn về sự
hình thành đối tượng nghiên cứu.
Những thí dụ dưới đây về chẩn đoán các quá trình hải dương sẽ là
những minh chứng cụ thể cho những lập luận ở trên.

Dự báo các quá trình hải dương
Nghiên cứu chẩn đoán không phải là mục tiêu tự thân. Thông thường
các nghiên cứu chẩn đoán là để mở đầu cho giai đoạn cuối cùng, phức tạp

hơn − dự báo những quá trình hải dương. Ngày nay, khi mà cái giá của
một quyết định có căn cứ, có hiệu quả kinh tế trực tiếp phụ thuộc vào
chất lượng thông tin khí tượng thủy văn xuất phát và các ước lượng dự
báo, thì bài toán này trở nên đặc biệt cấp thiết. Trong trường hợp này,
những thành công đáng kể nhất trong dự báo bao giờ cũng là do người dự
báo thấu hiểu những quá trình đang diễn ra trong đại dương và bản thân
những phương pháp ngoại suy đã sử dụng.
Từ kinh nghiệm thấy rằng các phương pháp chẩn đoán cần phải liên
hệ gắn bó với nhau trong khi khảo sát những quá trình cụ thể. Tuy nhiên,
trong thực tiễn nhiều khi không phải như vậy, và điều này là do thiếu
những khảo luận lý thuyết và phương pháp luận tương ứng. Công trình
này cũng đặt ra mục tiêu minh hoạ tính hiệu quả và triển vọng ứng dụng
các phương pháp phân tích thống kê đa chiều để giải quyết những bài
toán dự báo các quá trình hải dương đa chiều.
Khái niệm "dự báo" trong hải dương học thực hành hiện đại được
hình thành như là sự tiên đoán có căn cứ khoa học về những biến đổi
trong trạng thái các yếu tố chế độ đại dương. Bài toán dự báo các đặc
trưng hải dương học không phải là bài toán tầm thường, một mặt vì tính
phức tạp của các quá trình đang diễn ra trong đại dương, mặt khác vì
thiếu những hiểu biết có căn cứ khoa học cho phép mô tả đúng các quá
trình. Lý thuyết tổng quát về những quá trình hải dương tạo ra một hệ
thống quan điểm đôi khi không phải là không còn những mâu thuẫn, trên
cơ sở đó xây dựng nên những phương pháp cụ thể phân tích và dự báo
các đặc trưng hải dương học. Tuy nhiên, từ lý thuyết đó chưa dẫn tới một
thuật giải vạn năng, đảm bảo dự báo hiệu quả. Những quan trắc trong đại
dương ít khi cho phép người ta lý giải một tính biến động nào đó một
cách đơn trị, mà thường chỉ là cơ sở hình thành nên những giả thiết còn
phải kiểm tra cẩn thận. Sự đa dạng của các nhân tố trực tiếp và gián tiếp
12



ảnh hưởng tới biến động thời gian của các đặc trưng hải dương học, làm
chúng ta rất khó chính thức hoá một cách đơn trị những mối phụ thuộc
nhân quả. Vì vậy, những phương pháp thống kê chẩn đoán và dự báo các
đặc trưng hải dương học ngày càng được ứng dụng rộng hơn trong thực
tiễn. Tương tự như công trình [153] có thể định nghĩa dự báo thống kê
như là sự suy luận xác suất về triển vọng phát triển và trạng thái có thể có
của quá trình hải dương trong tương lai dựa trên mô hình thống kê về sự
tiến triển của quá trình.

Những nguyên tắc dự báo thống kê
Trong quá trình nghiên cứu dự báo, một trong những nhiệm vụ quan
trọng nhất là hình thành những vấn đề phương pháp luận nhằm mục đích
nâng cao tính căn cứ của các dự báo. Việc tuân thủ những nguyên tắc
phương pháp luận phổ biến xây dựng các mô hình dự báo ở mức độ nào
đó sẽ giúp người nghiên cứu tránh được những sai lầm thô thiển. Chúng
ta sẽ nêu ra những nguyên tắc này.
1. Sự đồng thuận giữa mô hình và cấu trúc số liệu quan trắc xuất
phát. Từ nguyên tắc này suy ra rằng trước khi tiến tới xây dựng một
phương pháp dự báo cụ thể, phải đưa ra mô tả cấu trúc dữ liệu, tức thực
hiện phân tích chúng bằng phương pháp thống kê đúng đắn.
2. Sự đầy đủ, khả năng thích ứng và khả năng phát triển của mô
hình dự báo. Mô hình phải mô tả được dải rộng những biến thiên của quá
trình được nghiên cứu, tự điều chỉnh khi mô tả một lớp quá trình cụ thể,
còn các tham số của nó phải thay đổi tuỳ thuộc vào độ chính xác dự báo.
Tuân thủ những nguyên tắc này cho phép hiểu sâu hơn những đặc điểm
của mô hình và những lớp tham số mà nó mô tả, tức chẩn đoán thêm về
các quá trình được nghiên cứu.
3. Sự đơn giản của mô hình. Theo nguyên tắc này, mô hình đảm bảo
trực quan đối với người nghiên cứu và người sử dụng (người đặt hàng),

bằng cách đó giúp ta thể hiện mô hình dưới dạng các khối (dưới dạng
những mô đun chương trình và những chương trình vạn năng). Tính thay

thế được của các khối, hoàn thiện các khối, cuối cùng cho phép người
nghiên cứu xác định được những khả năng của mô hình, tức thực hiện
việc kiểm tra các mô hình dự báo và đưa ra đánh giá khách quan cuối
cùng về mô hình đang dùng.

Phân loại các phương pháp dự báo
Ngày nay, dự báo một quá trình đa chiều là một bài toán tương đối
đặc biệt trong thực tiễn nghiên cứu dự báo hiện đại. Đối với hải dương
học, thì điển hình nhất là dự báo quá trình một chiều, gọi là dự báo một
yếu tố chế độ hay dự báo một đặc trưng hải dương học. Ở đây tính đa liên
hệ, đa chiều của bản thân quá trình hình thành sự biến thiên của đặc trưng
đang xét bị đẩy xuống hàng thứ yếu (được tham số hoá gián tiếp qua
phương trình hồi quy đa biến) hoặc là bị bỏ qua hoàn toàn khi sử dụng
những phương trình tự dự báo. Trong công trình này, chúng tôi sẽ cố
gắng thử nghiệm ý tưởng bảo tồn tính đa chiều của quá trình cả trong
chẩn đoán lẫn trong dự báo. Ở đây chúng tôi cho rằng nội dung quan
trọng nhất của dự báo một quá trình đa chiều chính là dự báo được sự tiến
triển liên hệ lẫn nhau của các tham số của vectơ m chiều các biến quan
trắc. Vì vậy việc dự báo một cách tách biệt các tham số riêng lẻ không có
vị trí hàng đầu, mà quan trọng là xây dựng mô hình dự báo mô tả được
những quan hệ đa chiều của các tham số của quá trình.
Số lượng các phương pháp có thể có để dự báo thống kê các quá
trình đa chiều một mặt do nội dung kết quả chẩn đoán, mặt khác do chức
năng mục tiêu của dự báo quy định. Trong bảng 0.2 biểu diễn ba mục tiêu
quan trọng nhất của việc xây dựng mô hình dự báo trong nghiên cứu hải
dương học ứng dụng. Chúng ta sẽ khái quát tóm tắt những nguyên tắc và
những thủ pháp phương pháp luận tương ứng.

Dự báo cấu trúc của quá trình đa chiều thực hiện dựa trên cơ cở
ngoại suy trong thời gian các kết quả khai triển trực giao ma trận quan
trắc xuất phát bằng các phương pháp phân tích thành phần chính và phân
tích nhân tố. Sự biến động trong thời gian của những nhân tố chung
13


(những thành phần chính) chứa đựng động thái những mối liên hệ quan
trọng nhất của các biến ban đầu. Trong phương pháp này thông tin được
nén đáng kể − số nhân tố chung thực tế nhỏ hơn hai lần so với số biến
xuất phát. Sự độc lập của các thành phần khai triển sẽ đảm bảo tính hiệu
quả của các phương pháp tự dự báo.
Bảng 0.2. Phân loại các phương pháp dự báo các quá trình đa chiều
Phương pháp

số hạng khai triển trực giao, những số hạng khai triển này liên hệ một
cách tin cậy, về phương diện thống kê, với biến phải ngoại suy. Phương
án thứ hai − xây dựng mô hình dự báo trên cơ sở tính tới những mối liên
hệ bất đồng bộ giữa các tham số xuất phát của quá trình và biến phải
ngoại suy. Theo truyền thống, bài toán này được giải bằng các phương
pháp phân tích hồi quy đa chiều, tuỳ thuộc vào tính ổn định của các mối
liên hệ và mức độ tuyến tính của chúng mà chọn mô hình hồi quy tối ưu.

Mục tiêu

Nguyên tắc

Dự báo cấu
trúc của quá
trình


Dự đoán sự tiến triển của
các tham số tổng hợp trong
mô hình khai triển trực giao

Ngoại suy các số hạng khai triển bằng
những phương pháp tự dự báo (tự hồi
quy, trung bình trượt, hài Fourier)

Dự báo lớp
trạng thái
của quá
trình

Dự đoán sự tiến triển của
quá trình theo nghĩa thay
thế các lớp trạng thái

Ngoại suy hàm mật độ xác suất bảo tồn
hay biến thiên lớp bằng những phương
pháp ước lượng Bayes và lý thuyết các
quá trình Markov

1) Dự báo đa tham số, trong đó sự tiến triển của quá trình được mô tả
bằng cách đưa vào phân tích một số mối liên hệ bất đồng bộ bên ngoài ổn
định nhất phản ánh những cơ chế nhân quả;

Dự báo một
biến riêng
lẻ của quá

trình đa
chiều

Dự đoán đặc trưng có tính
tới ảnh hưởng của tất cả các
tham số của quá trình

Ngoại suy dựa trên việc tính tới các
mối liên hệ không đồng bộ của những
tham số xuất phát bằng các phương
pháp phân tích hồi quy đa biến (tuyến
tính, đa thức, phổ, hồi quy từng bước)

2) Tự dự báo, tức sự phát triển tương lai của quá trình chỉ phụ thuộc
vào sự biến động của bản thân nó trong quá khứ.

Tính đa mốt của quá trình nhiều chiều biểu lộ rõ nét là tiền đề quan
trọng để chẩn đoán và dự báo động lực của nó, với ý nghĩa là động lực
chung của trạng thái quá trình. Ước lượng trạng thái tương lai của quá
trình ở đây được thực hiện dựa trên ngoại suy hàm mật độ xác suất bằng
các phương pháp của lý thuyết các quá trình Markov và ước lượng Bayes.
Các trị số dự báo của những tham số xuất phát được xác định qua những
ước lượng kỳ vọng toán học và phương sai của chúng, ứng với lớp đang
xét.
Trong nhiều tình huống thực tế, việc dự báo những quá trình đa
chiều được đưa về việc ngoại suy một biến quan trắc duy nhất của quá
trình. Về nguyên tắc thì không có gì khó khăn trong việc giải quyết bài
toán này theo hai cách tiếp cận đã xét. Dựa vào chẩn đoán cấu trúc quá
trình, có thể thực hiện dự báo bằng cách ngoại suy một số rất hạn chế các


Tuần tự chung xử lý các quá trình hải dương đa chiều
Đa phần các dự báo thống kê vật lý khí tượng thủy văn hiện đại hiện
thực hoá hai ý tưởng:

Nét tiêu biểu là việc ứng dụng các sơ đồ dự báo đa tham số trong hải
dương học không phải là do các phương pháp tự dự báo đã hết khả năng
tiềm tàng của nó. Các tác giả cuốn sách này chưa thấy có công trình nào
chứng minh theo tài liệu thực tế về tương quan giữa hai phương pháp
luận. Ngược lại, chúng ta chỉ thấy rằng thường người ta đổ xô vào các sơ
đồ dự báo đa tham số sau khi thất bại với tự dự báo mà chỉ sử dụng một
trong những phương pháp đơn giản nhất − phân tích xu thế hoặc xấp xỉ
Fourier. Trong khi đó, còn cả một loạt các phương pháp tự dự báo thống
kê xác suất có rất nhiều khả năng thì nhìn chung chưa được dùng tới.
Sự phát triển và hoàn thiện của các phương pháp thống kê cho phép
nhìn nhận tương quan giữa các dự báo đa tham số và tự dự báo từ những
quan điểm mới, trực tiếp dựa theo kết quả chẩn đoán các quá trình hải
dương đa chiều. Việc ứng dụng các phương pháp phân tích thống kê đa
biến trong chẩn đoán tạo ra một khả năng hấp dẫn mô tả tin cậy quá trình
14


hải dương bằng những mô hình thống kê xác suất khép kín với số tham số
độc lập tổng quát tối thiểu − các thành phần chính, các nhân tố chung, các
lớp. Giá trị dự báo của những tham số này rất hiển nhiên. Phương pháp
luận tự dự báo kinh điển khi áp dụng với những chỉ tiêu chẩn đoán tổng
quát này sẽ có một nội hàm mới.
Nét mới của phương pháp tiếp cận này chính là ở chỗ xem xét lại
khái niệm đa chiều trong chẩn đoán và dự báo. Sự đa chiều không chỉ
được xem đơn thuần là có nhiều tiên lượng xuất phát, được quan trắc hay
được tính trực tiếp cho phương trình dự báo. Nó được hiểu là sự đa chiều

của bản thân yếu tố được dự báo, sự đa chiều này mô tả tin cậy trạng thái
của quá trình hải dương và chứa lượng thông tin đủ để tự dự báo. Vì vậy
trong khi chẩn đoán, mỗi tham số trạng thái quá trình hải dương được
quan trắc không phải được nghiên cứu riêng rẽ, mà trong toàn bộ tập hợp
những mối liên hệ thống kê của nó với các biến khác, kết cục là chính
điều này cho phép hình thành những chỉ tiêu tổng hợp về cấu trúc và
động lực của quá trình. Nội dung của dự báo khi đó trở thành việc giải
quyết bài toán dự báo hữu hiệu những tham số chẩn đoán tổng hợp không
cần phải tính tới một cách tường minh những mối liên hệ bên ngoài, tức
giảm nhẹ đáng kể phương diện tính toán khi xây dựng các sơ đồ dự báo.
Biểu diễn hình thức tổng quát nhất của mô hình chẩn đoán trong
phân tích thống kê đa chiều theo quan điểm tiếp cận trên đây có thể theo
phương trình ma trận dạng
X(t , z , l ) = F (t , z ) ⋅ A( z , t ) + E(t , z , l ) .

Ở đây X − ma trận các tham số trạng thái đại dương quan trắc; F − ma
trận các tham số tổng quát, nhận được qua chẩn đoán, A − ma trận các hệ
số liên hệ, E − ma trận các sai số không được mô tả bởi mô hình chẩn
đoán tổng quát.
Khi giải quyết nhiệm vụ dự báo, cần dự báo được những tham số
tổng hợp tạo thành ma trận Fˆ . Diễn biến trong thời gian của chúng được
mô tả bằng nhiều mô hình ngoại suy dạng

Fˆ (t + τ, z ) = F(t , z ) ⋅ B(t , z ) + ε(t , z ) ,

trong đó ma trận các hệ số dự báo thống kê xác suất B liên hệ trạng thái
quá khứ F và trạng thái tương lai Fˆ của quá trình hải dương. Ở đây
cũng xuất hiện phần dư ε gồm những sai số dự báo.
Mối liên hệ giữa chẩn đoán và dự báo được thực hiện không chỉ
thông qua ma trận các tham số tổng hợp F duy nhất đối với hai giai đoạn

chẩn đoán và dự báo. Trong trường hợp nếu ma trận phần dư của các mô
hình chẩn đoán khác với quá trình kiểu nhiễu trắng, thì nó cũng có thể
được đưa vào dự báo độc lập. Khi đó sẽ có một thành phần chịu trách
nhiệm dự báo bản thân ma trận ε cũng được đưa vào mô hình dự báo.
Trên hình 0.5 trình bày sơ đồ tổng quát tuần tự xử lý các quá trình hải
dương đa chiều. Những khía cạnh quan trọng nhất trong các giai đoạn chẩn
đoán và dự báo đã được bàn luận ở trên và sẽ còn được phân tích tiếp theo.
Ở đây sẽ khái quát về các mối liên hệ giữa những khối lớn của sơ đồ này để
bước đầu đánh giá những khả năng tiềm tàng của việc ứng dụng phương
pháp tiếp cận này trong thực tế. Nguyên tắc tổ chức cơ bản mối liên hệ
giữa các khối là nhằm thực hiện ý tưởng về sự liên hệ ngược của các
phương pháp xử lý riêng lẻ và các giai đoạn phân tích. Việc đưa ra những
mối liên hệ ngược ở mức độ nào đó làm phức tạp quá trình xử lý thông tin.
Sở dĩ phải có những mối liên hệ ngược đó là vì hiểu biết hiện thời của
chúng ta về bản chất của các quá trình hải dương còn hạn chế. Vì vậy thực
tế là hiện nay chưa thể đề xuất một tuần tự khả dĩ duy nhất để xử lý và trình
bày dữ liệu thoả mãn nhiều yêu cầu của các hướng phân tích khác nhau.
Việc ứng dụng những mối liên hệ ngược, về nguyên tắc, sẽ đảm bảo chọn
ra một mô hình chẩn đoán và dự báo tối ưu trong khuôn khổ một bài toán
cụ thể và trong điều kiện thông tin hiện có.

Ta sẽ làm rõ ý nghĩa của những mối liên hệ ngược trong tuần
tự chẩn đoán và dự báo. Thông tin hiện có về biến động của các
quá trình không thể đặc trưng đầy đủ về quá trình, nếu không bổ
sung thêm những đặc trưng vật lý không trực tiếp quan trắc, những
15


c trng ny tớnh theo nhng quy lut ca thy nhit ng lc
hc. Nhng c trng nhn c b sung danh sỏch cỏc tham s

xut phỏt v tham gia vo th tc phõn tớch thng kờ.
THôNG TIN

Chẩn đoán
vật lý

Chẩn đoán thống kê
Phân tích

Tính các đặc
trng vật lý bổ
sung của quá
trình

Phân tích thống kê
ban đầu các biến
xuất phát





Lý giải các kết
quả chẩn đoán
thống kê định
lợng

Phân tích đa
chiều


Dự báo thống kê
Lựa chọn các
mô hình dự
báo


Ước lợng
các tham số
dự báo


Phân tích các
mối liên hệ
giữa các biến
của quá trình

Phân tích cấu
trúc quá trình


Phân loại trạng
thái của quá
trình


Tổng hợp
Ho hợp các kết
quả phân tích



Phát biểu mô hình
chẩn đoán tối u

Kết hợp
(tổng hợp)
các mô hình
dự báo bộ
phận


Kiểm tra các
mô hình v

phân tích
sai số

Đánh giá
tính có thể
dự báo
đợc bằng
thống kê

Lý giải dự
báo v sai
số

Ngời dùng

Hỡnh 0.5. S chc nng chn oỏn v d bỏo cỏc quỏ trỡnh hi dng


Phõn tớch thng kờ tỏc ng qua li trc tip vi lý gii vt lý v
nhng kt qu nh lng b phn nhn c nh ỏp dng nhng phng
phỏp riờng r. Nu lý gii vt lý nh vy cha t thỡ lp li cỏc tớnh toỏn

nhn c nhng kt lun vt lý tin cy hn v bn cht ca cỏc quỏ
trỡnh c nghiờn cu.
Trong giai on tng hp cỏc kt qu tớnh toỏn cú th ny sinh s
cn thit phi tớnh toỏn gii tớch lp li gn kt tt hn cỏc kt qu ca
nhng phng phỏp khỏc nhau v xõy dng nờn mụ hỡnh thng kờ chung
hon thin v quỏ trỡnh. S ng thun gia cỏc kt qu tớnh toỏn trong
khuụn kh mụ hỡnh chung v quỏ trỡnh phi cú cn c vt lý, vỡ vy m
phi quay v chn oỏn vt lý. Khi cn phi m rng mụ hỡnh chn oỏn
chung, thỡ tp hp nhng tham s xut phỏt cú th li c b sung ln
na da trờn nhng bt cp phỏt hin ra trong quỏ trỡnh lý gii.
Mi liờn h hai chiu gia chn oỏn v d bỏo th hin ý tng xõy
dng mi ph thuc d bỏo da theo kt qu chn oỏn, v ngc li,
chớnh xỏc hoỏ thờm nhng tớnh toỏn chn oỏn cn c vo yờu cu xõy
dng cỏc mụ hỡnh d bỏo cú ỏp ng mong mun ca chỳng ta hay
khụng. Khi cht lng cỏc d bỏo khụng t, giỏ tr d bỏo ca mụ hỡnh
kộm, thỡ phi quay li quỏ trỡnh chn oỏn. Khi chn cỏc mụ hỡnh, phi
hiu rng ngi nghiờn cu chn mt s kiu mụ hỡnh ớt nhiu phự hp
vi kt qu chn oỏn.
Mt s d bỏo bt k ú l mụ hỡnh thng kờ v s phỏt trin
quỏ trỡnh. Nú cho kh nng nhỡn vo tng lai cn c vo lý gii ca mụ
hỡnh v lch s phỏt trin ca quỏ trỡnh, v s lý gii ny nhiu khi khụng
hon ton phự hp vi d liu thc. Chớnh iu ny dn ti nhng kt
lun mõu thun, theo ú khú m phõn bit c tớnh ớch li ca nhng s
d bỏo cỏc c trng hi dng hc. Nguyờn nhõn ca iu ny l do
mi mụ hỡnh cú xu th thớch ng vi d bỏo mt kiu quỏ trỡnh nht nh.
Khi cỏc quỏ trỡnh tin trin sang mt kiu khỏc, thỡ mụ hỡnh khụng hot

ng c na, cũn khi lp li kiu quỏ trỡnh xut phỏt, thỡ nú li cho kt
qu tho món. Cũn nhng mụ hỡnh khỏc thỡ li d bỏo cỏc kiu quỏ trỡnh
"ca mỡnh" mt cỏch tt hn, nhng chỳng cng cú nhc im nh vy:
khụng th d bỏo c nhng quỏ trỡnh kiu khỏc vi kiu nú thớch ng.
T ú thy rng hiu qu d bỏo ph thuc khụng ch vo dng mụ
16


hình, mà quan trọng là vào kiểu quá trình được dự báo. Nhiều mô hình dự
báo là những mô hình thích nghi (nguyên tắc thứ hai), và sự thay đổi cấu
trúc của chúng, sự thay thế các tham số mô hình trực tiếp do quá trình
quy định, tức ở đây nảy sinh tác động ảnh hưởng của quá trình tới mô
hình. Vì vậy, cần phải làm rõ: trong những tình huống nào thì sử dụng
những mô hình dự báo này hay mô hình dự báo khác là có lợi.
Ta suy ra, trước khi tiến tới dự báo, phải phân tích và phân loại các
quá trình, với quá trình nào thì dự báo thành công, với quá trình nào thì
thất bại, làm rõ bản chất vật lý của nó. Khối chẩn đoán phải bao gồm cả
chẩn đoán bản chất vật lý của các quá trình, lẫn chẩn đoán mối liên hệ
của chúng với những phương pháp cụ thể chẩn đoán thống kê và dự báo.
Tiếp theo, theo mong muốn của người nghiên cứu, khối chẩn đoán có thể
bao gồm những mô hình nào mô tả được lớp quá trình một cách tốt nhất
theo nghĩa cực tiểu sai số.
Như vậy là khía cạnh phương pháp luận đã trình bày trên đây dẫn tới
một luận điểm rằng các mô hình dự báo chỉ vận hành với những kiểu quá
trình "của mình", những quá trình này có thể phân biệt theo mức độ tất
định và theo tính chất phát triển trong thời gian. Từ đây rút ra một kết
luận có tính nguyên tắc rằng: không tồn tại một hệ phương pháp vạn năng
duy nhất dự báo các đặc trưng hải dương học. Kết luận này cũng đúng
với nhiều quá trình tự nhiên khác [135, 142, 143, 146, 151, 171, 215],
điều đó làm cho chúng ta hiểu phải sử dụng đồng thời một số mô hình dự

báo. Thủ tục này gọi là kết hợp các dự báo. Nhờ kết hợp mà có thể nâng
cao được chất lượng dự báo khí tượng thủy văn [35, 36, 43, 44, 76, 206,
235].

làm tăng tính khả báo thống kê có vị trí đặc biệt. Muốn tăng tính khả báo
cần chọn mô hình tối ưu mô tả những quy luật ổn định trong thời gian của
sự biến thiên đặc trưng hải dương học được dự báo. Kết hợp một số mô
hình khác nhau (bổ sung cho nhau) là một trong những cách làm tăng giới
hạn tính khả báo, cũng như tăng độ xác thực của các dự báo. Điều này
khá rõ: mô hình kết hợp phản ánh những đặc điểm cơ bản trong biến
động của đặc trưng được dự báo và có thể điều chỉnh trong trường hợp
thay thế kiểu của quá trình được dự báo.
Những ước lượng về tính khả báo sẽ giúp sử dụng đúng đắn những
mô hình dự báo trong khi dự báo nghiệp vụ, chọn ra những mô hình bộ
phận tối ưu và tối ưu hoá việc kết hợp, xác định và sử dụng khoảng báo
trước hiệu quả của dự báo ứng với độ chính xác đặt ra.
Lý giải các dự báo − giai đoạn cuối cùng của dự báo, là thể hiện các
giá trị dự báo bằng những thuật ngữ của người sử dụng dự báo, chỉ ra
những ước lượng khoảng tin cậy và giải thích vật lý về sự phát triển của
quá trình đa chiều trong thời khoảng dự báo.

Phương pháp luận xây dựng mô hình dự báo chung (mô hình cộng
sinh) quy về bốn giai đoạn tính toán chính:
1) Tuyển chọn các mô hình xuất phát;
2) Lai tạo các mô hình (chọn phương pháp kết hợp);
3) Hiện thực hoá mô hình (ước lượng các tham số);
4) Kiểm chứng mô hình (phân tích so sánh sai số).
Trong số những nhiệm vụ chính của dự báo thống kê thì nhiệm vụ
17



ứng.

Chương 1 - MÔ TẢ MỐI LIÊN HỆ CỦA CÁC
QUÁ TRÌNH

Chúng ta muốn mô tả biến động của một biến phụ thuộc như một
hàm ảnh hưởng của một nhóm các biến độc lập x1 , x 2 , x 3 , ..., x M . Giả sử
rằng ảnh hưởng của mỗi trong số M biến độc lập x j lên biến phụ thuộc
y có thể mô tả bằng ảnh hưởng tuyến tính. Khi đó phương trình cơ bản
của hồi quy tuyến tính đa biến có dạng
M

1.1. PHÂN TÍCH HỒI QUY ĐA CHIỀU. HỒI QUY TUYẾN TÍNH
ĐA CHIỀU
Đặt bài toán
Hiện nay, công cụ hồi quy tuyến tính đa biến là một trong những
phương tiện thống kê toán học được xây dựng hoàn thiện nhất. Giống
như nhiều ý tưởng khác, khái niệm phân tích hồi quy được Gauss hình
thành hơn một trăm năm trước đây. Hệ phương pháp được áp dụng rộng
rãi hầu như trong tất cả các khoa học ứng dụng, điều đó làm cho nó phát
triển mạnh và thích hợp với nhiều bài toán [70, 80, 139, 140,163, 190].
Trong thực tiễn nghiên cứu khí tượng thủy văn, phương pháp hồi
quy tuyến tính đa biến được sử dụng nhiều nhất để mô tả và dự báo
những biến riêng rẽ trên cơ sở tính đến ảnh hưởng của một số nhân tố tác
động. Ngoài ra, phương pháp hồi quy tuyến tính đa biến thường sử dụng
để giải quyết những vấn đề liên quan tới nội suy các trường hải dương
trong không gian cả theo phương thẳng đứng lẫn theo phương ngang.
Phải nhận thấy rằng, hồi quy tuyến tính đa biến trong thực tế không chỉ là
một hệ phương pháp độc lập, mà còn là một bộ phận cấu thành của nhiều

phương pháp khác nghiên cứu những mối phụ thuộc giữa các biến [12,
72, 144].
Lời phát biểu tổng quát bài toán hồi quy tuyến tính đa biến dưới đây
có thể phổ biến sang một loạt các mô hình phân tích hồi quy khác. Chẳng
hạn, cho trường hợp hồi quy đa thức mà phương trình cơ bản của nó có
thể lập trên cơ sở hồi quy tuyến tính với một phép thay thế biến tương

yi = a0 +  a j ( xij − x j ) + ei = yˆ i + ei ,

(1.1)

j =1

trong đó i − số hiệu quan trắc trong tập giá trị mẫu độ dài N ,
( i = 1, ..., N ), j − số hiệu biến độc lập x j ( j = 1, ..., M );

a 0 , a1 , a 2 , ..., a M − những hệ số hồi quy tuyến tính; x j − trị số trung
1 N


bình của biến j  x j =  xi j  ; yˆ i − trị số quan trắc thứ i của biến phụ
N i =1 

thuộc, được khôi phục nhờ phương trình hồi quy; ei − sai lệch giữa trị số
khôi phục yˆ i và trị số quan trắc y i .

Giải bài toán xây dựng mô hình hồi quy tuyến tính đa biến quy về
tìm những trị số của các hệ số hồi quy a 0 , a1 , a 2 , ..., a M sao cho khôi
phục được sự biến thiên của biến phụ thuộc y với các sai số e nhỏ nhất.
Vì người nghiên cứu chưa biết những trị số thực của các hệ số hồi

quy, nên phải thực hiện ước lượng thống kê những hệ số này dựa trên cực
thiểu hoá phương sai sai số s R :

sR =

1 N
( y i − yˆ i ) 2 → min .

N − 1 i =1

Phương pháp truyền thống tìm những trị số a 0 , a1 , a 2 , ..., a M theo
điều kiện này là phương pháp bình phương tối thiểu, hiệu quả sử dụng
phương pháp này, và do đó, độ chính xác của phương trình hồi quy tuyến
tính đa biến, phụ thuộc vào những điều kiện đơn giản sau:

− Sao cho các sai số hồi quy có trị số trung bình bằng không:
18


e=

1
N

N

 ei = 0
i =1

(ở đây dấu e chỉ toán tử kỳ vọng toán học của chuỗi e );


− Những biến ảnh hưởng phải độc lập thống kê với nhau:
( x j , xl ) = 0 khi

j≠l.

Nói cách khác, chúng không tương quan với nhau:
r ( x j , xl ) = 0 .
Nếu thoả mãn những tính chất kể trên, việc tính các trị số của những
hệ số hồi quy sẽ quy về giải hệ phương trình chuẩn tắc dạng
N
  a0 
 xi 1
 xi 2 . . .  xi M

 

 xi 1  xi21
  a1 
xi 1 xi 2 . . .  xi 1 xi M


 ⋅ 
 =
⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅   ⋅ ⋅ ⋅ 

 

2
 x

  a

.
.
.
x
x
x
x
x
 iM
M

 i M  i M i 1  i M i 2
 
  yi



 xi 1 yi 
,
= 
 ⋅ ⋅ ⋅ ⋅


 x y 
 i M i 

trong đó tổng (Σ) lấy theo toàn độ dài tập mẫu gồm N quan trắc. Rõ
ràng, khi số lượng biến lớn ( M > 3 ) cách viết theo từng thành phần như

trên trở nên rất cồng kềnh. Dạng viết ma trận sẽ thuận tiện hơn. Độc giả
nên ôn lại những khái niệm cơ bản về đại số ma trận trong [12, 86].
Để chuyển sang dạng viết ma trận, ta đưa ra những khái niệm sau:
y − vectơ cột các giá trị quan trắc gồm N trị số,

y − {y1 − y , y 2 − y , ...} − các giá trị quy tâm theo trung bình số học
T

y = a0 =

1
N

N

 yi ;
i =1

X − ma trận các trị số của những biến độc lập, gồm N dòng, M
cột (dòng thứ i là vectơ quan trắc về M biến, cột thứ j là vectơ gồm N
trị số của biến j );
A − vectơ cột những hệ số hồi quy A T = {a0 , a1 , a2 , ..., aM } ;
E − vectơ cột gồm N sai số của mô hình hồi quy.

Với những ký hiệu mới này, phương trình cơ bản của hồi quy tuyến
tính đa biến có dạng
Y = X ⋅ AT + E .

Hệ các phương trình chuẩn tắc để ước lượng những hệ số hồi quy
được viết như sau

( X T ⋅ X) ⋅ A = X T ⋅ Y ,

chỉ số T chỉ ma trận chuyển vị hay vectơ chuyển vị (xem [3, 12, 86]).
Thấy rằng, nếu chuyển ma trận ( X T ⋅ X) sang vế phải, nghiệm của hệ
phương trình chuẩn tắc sẽ được viết dưới dạng
A = ( X T ⋅ X) −1 ⋅ X T ⋅ Y .

(1.2)

Nghiệm của bài toán hồi quy tuyến tính đa biến dưới dạng (1.2) có
một loạt những tính chất đáng giá đối với người nghiên cứu:

− Theo định nghĩa, vectơ giá trị của các hệ số hồi quy
A = {a0 , a1 , a2 , ..., aM } làm cực tiểu tổng bình phương các sai số, khẳng
T

định tính tối ưu của mô hình này so với nhiều mô hình khác cùng loại;

− Bản thân những hệ số hồi quy a j là những hàm tuyến tính của các
quan trắc Y và là những ước lượng không chệch của những giá trị hệ số
hồi quy thực (nhưng chưa biết);

− Những ước lượng các hệ số hồi quy có phương sai cực tiểu so với
tất cả những ước lượng tuyến tính khác.
19


Ta sẽ xét một đặc trưng quan trọng nữa của mô hình hồi quy tuyến
tính đa biến, gọi là hệ số tương quan đa biến R0 . Chỉ tiêu này là một đặc
trưng định lượng về sự tương tự giữa những trị số y quan trắc và yˆ tính

toán của biến phụ thuộc. Hệ số tương quan đa biến tính theo công thức
N

R0 =

 ( y i − y )( yˆ i − y )
i =1

N

N

i =1

i =1

.

(1.3)

 ( y1 − y ) 2  ( yˆ i − y ) 2

Đại lượng R02 gọi là hệ số xác định, vì nó là đặc trưng khái quát đơn
giản về hệ số tương quan r 2 ( x, y ) cho trường hợp nhiều biến độc lập và
tỷ lệ với phần phương sai của biến y được mô tả bởi mô hình hồi quy.
Trong trường hợp một biến độc lập, ta có đẳng thức R02 = r 2 ( x, y ) . Dễ

của nước (hình 1.1). Mật độ là biến phụ thuộc vào nhiệt độ T và độ muối
S . Phương trình hồi quy đa biến cần tìm được viết dưới dạng


σ i = a0 + a1Ti + a 2 S i .
Ở đây đại lượng hệ số a0 =

1
N

N

σ

i

là giá trị mật độ trung bình từ

i =1

tập mẫu hiện có. Các giá trị tính được σ làm thành một mặt phẳng
nghiêng với các trục T và S . Đại lượng hệ số hồi quy a1 = tg (α 1 ) sẽ
tương ứng với góc nghiêng của mặt phẳng hồi quy so với mặt phẳng
(σ, T ) . Đại lượng hệ số hồi quy a2 = tg (α 2 ) sẽ tương ứng với góc
nghiêng của mặt phẳng hồi quy so với mặt phẳng (σ, S ) . Đại lượng sai
số ei sẽ tương đương khoảng cách từ trị số quan trắc σi tới hình chiếu
của nó lên mặt phẳng hồi quy σˆ i .

dàng nhận thấy rằng khi R02 = 1 thì những giá trị quan trắc và tính toán

σ

của biến độc lập hoàn toàn trùng nhau.
Ý nghĩa của hệ số tương quan đa biến có phần khác so với quan

niệm về hệ số tương quan cặp kinh điển. Vấn đề là hệ số tương quan đa
biến có giới hạn biến thiên từ 0 đến 1 và, do đó, nó không cho biết dấu
liên hệ giữa y và tập hợp x1 , ..., x M . Ngoài ra, đại lượng hệ số tương

σ

εi

quan đa biến có thể lớn hơn hoặc bằng hệ số tương quan cặp cực đại
rj ( x j , y ) trong ma trận số liệu đang xét.
Nên giải thích hệ số tương quan đa biến như là đại lượng liên hệ
tuyến tính tổng quát giữa biến phụ thuộc và các biến độc lập đã chọn,
đồng thời là chỉ tiêu về hiệu quả của mô hình hồi quy tuyến tính đa biến.
Điều khẳng định này xuất phát từ thực tế rằng bình phương của hệ số
tương quan đa biến về trị số bằng phần phương sai của biến y mà
phương trình hồi quy tuyến tính đa biến có thể mô tả.

Ý nghĩa hình học của hồi quy tuyến tính đa biến
Giả sử có hệ tọa độ với ba trục: nhiệt độ, độ muối và mật độ quy ước

σi
σˆ i

α2

0

T

α2

S
Hình 1.1. Ý nghĩa hình học của phương trình hồi quy tuyến tính

Tính toán theo mô hình hồi quy tuyến tính đa biến
Ta sẽ xét thuật toán tổng quát tính toán theo sơ đồ hồi quy tuyến tính
đa biến.
20


1. Tính các ước lượng trung bình số học và độ lệch chuẩn của tất cả
các tham số xuất phát:
y=
sy =

1
N

N

y

, xj =

i

i =1

1
N


N

x

i j

,

i =1

1 N
1 N
( y1 − y )2 , s x j =

 ( xi j − x j )2 .
N − 1 i =1
N − 1 i =1

Lập các vectơ những trị số trung bình và độ lệch chuẩn: x , S x .
2. Tính ma trận tương quan R gồm các hệ số tương quan cặp giữa
tất cả các biến:
ryy
r
xy
1 T
R= X X= 1

⋅ ⋅
N


r
 xM y

ryx1 ryx2 ⋅ ⋅ ⋅ ryx
M
rx1x1 rx1x2 ⋅ ⋅ ⋅ rx1 x

M

⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅
rx

M x1

rx

⋅ ⋅ ⋅ rx

M x2

M xM



.




Các hệ số tương quan thường tính theo những công thức truyền thống và

kiểm tra mức ý nghĩa theo tiêu chuẩn Student.
3. Tính các định thức của ma trận tương quan và các ma trận con của
nó. Trong hồi quy tuyến tính đa biến, định thức của ma trận tương quan
có dạng
 1
r
x y
D= 1
 ⋅ ⋅

 rxM y

ryx1
1

ryx2 ⋅ ⋅ ⋅ ryx
M
rx1 x2 ⋅ ⋅ ⋅ rx1 x

M

⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅
rx

M x1

rx

M x2


⋅ ⋅ ⋅ rx

M xM



.




Các ma trận con để tính những định thức dạng D y x j tạo ra bằng
cách loại bỏ dòng thứ y và cột thứ x j từ ma trận R .
4. Tính các hệ số hồi quy theo các công thức (1.2) hay

s y D xy j

aj =

s x j D yy

.

5. Dựa trên các giá trị hệ số hồi quy nhận được lập phương trình hồi
quy và tính các giá trị yˆ :
M

yˆ i = a 0 +  ( xi j − x j ) a j .
j =1


6. Ước lượng hệ số tương quan đa biến theo công thức (1.3) hay
R0 =

1− D
D yy

.

7. Tính các ước lượng độ lệch chuẩn cho các hệ số hồi quy và kiểm
tra mức ý nghĩa của các tham số hồi quy theo tiêu chuẩn Student ( tν ):
sa j =

Ns y
( N − M ) ( D / D yy )

,

tv ≥

aj
sa j

.

8. Kiểm tra tính phù hợp chung của mô hình đối với số liệu xuất phát
bằng cách tính tiêu chuẩn thực nghiệm Fisher:
F * = sD / sR ,
trong đó
sD =


N
1 N
1
( yi − y) 2 , s R =
( y i − yˆ i ) 2 .


N − 1 i =1
N − M − 1 i =1

Nếu độ lớn của tỷ số F * lớn hơn giá trị bảng FT tại mức ý nghĩa đã cho
và các bậc tự do ν 1 = M và ν 2 = N − M − 1 , thì giả thiết về tính phù
hợp của mô hình được chấp nhận.
Sơ đồ ước lượng các tham số mô hình hồi quy trên đây là sơ đồ tổng
quát nhất và thường gặp trong các chương trình phân tích thống kê trên
máy tính các loại.
21


Sự phức tạp trong khi thực hiện sơ đồ đầy đủ này trên máy tính liên
quan tới vấn đề biểu diễn và xử lý ma trận số liệu trong điều kiện công
suất hạn chế của các máy tính. Với những máy tính mạnh hơn, ta có thể
thực hiện tính toán theo sơ đồ đầy đủ của hồi quy tuyến tính đa biến và
tiến hành khảo sát toàn diện về những mối phụ thuộc hồi quy. Những
phần mềm trợ giúp thực hiện phân tích hồi quy tuyến tính đa biến trên
máy tính có thể tìm thấy trong [4, 12, 70, 77, 80, 139, 140, 185].
Chẳng hạn, trong đa số các phần mềm đó, ta có thể từng bước loại
bỏ hay bổ sung thêm các biến độc lập nhằm chọn số biến độc lập tối ưu.
Ngoài ra, còn có thể biến đổi sơ bộ những biến xuất phát để thể hiện
chúng thuận lợi hơn trong mô hình hồi quy tuyến tính (nhờ các phương

pháp tuyến tính hoá đã biết). Khi kiểm tra tính phù hợp của mô hình hồi
quy tuyến tính đa biến, các thủ tục vẽ đồ thị phần dư trong những phần
mềm này sẽ trợ giúp người nghiên cứu rất nhiều.
Ứng dụng hồi quy tuyến tính đa biến trong nghiên cứu hải
dương học

Trong lịch sử, các phương trình hồi quy đã được sử dụng vào nghiên
cứu hải dương học ngay từ khi hình thành khoa học về đại dương. Từ
việc tính toán các tham số của phương trình hồi quy một biến, dần dần
với thời gian, các nhà hải dương học chuyển sang sử dụng toàn bộ hệ
thống phương pháp phân tích hồi quy nói chung. Xu thế này bắt đầu hình
thành rõ nét vào những năm bảy mươi, khi đó người ta bắt đầu giải quyết
những bài toán về xây dựng mô hình hồi quy tối ưu cho tập mẫu quan
trắc. Ngày nay, phương pháp luận phân tích hồi quy có vị trí bền vững
trong nghiên cứu hải dương học ứng dụng. Tuy nhiên, vẫn còn những khó
khăn trong việc ứng dụng thực tế phân tích hồi quy trong hải dương học,
thường liên quan tới những vấn đề sau đây:
− Chọn dạng tối ưu của phương trình hồi quy;

− Ước lượng tin cậy những tham số hồi quy.
Ta sẽ xét những kinh nghiệm phân tích hồi quy trong hải dương học
có liên quan tới những vấn đề này.
Cách tiếp cận hồi quy là cơ sở mô tả những quy luật vật lý cơ bản về
sự phát triển các quá trình đại dương. Những công thức tính toán các đặc
trưng phát triển và tan băng [62], các tham số tương tác nhiệt giữa đại
dương và khí quyển [61] và các biến trong phương trình trạng thái nước
biển [27] đều dựa trên nguyên tắc hồi quy tuyến tính.
Nếu nhìn lại những thập niên gần đây, thì thấy rõ sự tiến triển
nhanh chóng của phần lớn những phương trình hồi quy. Thoạt đầu đó là
những phương trình bậc thấp, ít tham số. Theo mức độ hiểu biết sâu hơn

về những quy luật vật lý và tích luỹ ngày càng nhiều quan trắc, các nhà
nghiên cứu hướng tới mô tả chính xác tối đa những mối liên hệ giữa các
đặc trưng hải dương học bằng những công thức hồi quy. Vì vậy, những
phương trình hồi quy thường biến đổi theo hướng là dạng của chúng
phức tạp dần.
Thứ nhất, ngày càng có nhiều biến độc lập được đưa vào xét bổ sung
cho những mối liên hệ tương quan đã phát hiện.
Thứ hai, hoàn thiện dần hình thức mô tả các mối phụ thuộc: dưới
dạng các biến độc lập, người ta đã sử dụng những đặc trưng tổng hợp, đó
là những tổ hợp khác nhau của những tham số vật lý xuất phát.
Xu thế này thể hiện rõ trong các phương trình trạng thái nước biển.
Hải dương học hiện đại sử dụng nhiều loại phương trình trạng thái thực
nghiệm, bắt đầu từ phương trình đơn giản nhất:
ρ − ρ 0 = a1T + a 2 S
và cuối cùng là những công thức của Chang−Millero [87], trong đó liên
hệ giữa mật độ, nhiệt độ, độ muối và áp suất được mô tả bằng đa thức
hỗn hợp bậc năm. Dạng phương trình cụ thể nào được dùng là tuỳ thuộc
vào độ chính xác xấp xỉ mật độ nước mà ta muốn và được xác định chủ
yếu bởi tập mẫu quan trắc mật độ, nhiệt độ, độ muối. Tuy nhiên, cơ sở
22


của các tính toán hồi quy vẫn là nguyên tắc tuyến tính hoá các mối phụ
thuộc và ước lượng các tham số hồi quy theo phương pháp bình phương
tối thiểu [3, 78].
Khi nghiên cứu phân bố không gian của các trường hải dương,
phương pháp hồi quy được ứng dụng rộng rãi để giải các bài toán nội suy
[25, 27]. Những nguyên tắc thường dùng trong hải dương học để xây
dựng bản đồ trên cơ sở khôi phục các giá trị tại mỗi nút của vùng lưới đã
sử dụng ý tưởng xấp xỉ các trường như là những hàm của tọa độ địa lý.

Mối phụ thuộc này được mô tả bằng một phương trình hồi quy, bậc của
phương trình, cũng như dạng của các biến, được chọn xuất phát từ điều
kiện sao cho phương trình mô tả đúng những dị thường không gian ở quy
mô đang xét.
Quan điểm hồi quy cũng là cơ sở của phương pháp nội suy khách
quan và đồng bộ hoá các trường hải dương [53, 57, 199]. Ở đây các
phương trình hồi quy được ước lượng cho từng nút của vùng nước như là
hàm của các quan trắc tại những điểm xung quanh. Việc hoà hợp và đồng
bộ hoá các trường cũng được thực hiện bằng cách sử dụng phương pháp
trên đối với những đặc trưng hải dương học khác nhau và đối với những
chuỗi quan trắc [27, 101, 212, 218, 251].
Mô tả hồi quy sự biến động của các đặc trưng hải dương học trong
thời gian có ý nghĩa rất quan trọng trong nghiên cứu đại dương và được
thừa nhận là phương pháp quan trọng nhất để phát hiện ra những quy luật
vật lý. Sự phụ thuộc tiềm năng của các quá trình hải dương học trong
không gian và thời gian chính là lý do để người ta tiến tới mô tả sự phụ
thuộc đó bằng các mô hình hồi quy và dự báo được những xu thế phát
triển của các quá trình.
Việc xây dựng thành công những mô hình hồi quy về biến động thời
gian của một số đặc trưng hải dương học có vai trò quan trọng, vì nó cho
phép lý giải một cách tin cậy về những dao động đồng thời được điều
khiển bởi những quy luật vật lý vận hành các quá trình thủy vật lý, thủy

hoá học...
Ta lấy thí dụ về những nghiên cứu hải dương học nghề cá, mục đích
của những nghiên cứu này nhằm mô tả một cách tin cậy những dao động
liên quan lẫn nhau của các đặc trưng hải dương học và các đặc trưng sinh
học [202], trên cơ sở đó sau này hình thành quy luật tác động của môi
trường lên những đối tượng sinh học [108].
Những mối phụ thuộc hồi quy có ý nghĩa đặc biệt khi ta muốn khôi

phục những số liệu khuyết trong lưu trữ quan trắc hải dương học. Tuy
nhiên, ở đây người nghiên cứu động chạm tới vấn đề tính bất đồng nhất
của các mối phụ thuộc trong thời gian. Chúng ta đã biết rằng, những dao
động chu kỳ dài trong hệ thống khí hậu làm phát sinh những hiệu ứng
không dừng về kỳ vọng toán học và phương sai trong các chuỗi mẫu.
Tính không dừng, về phần mình, thể hiện ở sự bất ổn định của
những mối liên hệ tương quan, và do đó, trong ước lượng các tham số hồi
quy. Trước hết, những ảnh hưởng đó làm giảm tính phù hợp của các mô
hình hồi quy đã xây dựng. Cách thường dùng nhất để khắc phục những
khó khăn nêu trên là thay thế những phương trình hồi quy tổng quát bằng
những phương trình bộ phận.
Nói cách khác, thay vì một mô hình hồi quy chung duy nhất cho toàn
khối dữ liệu, người ta xây dựng một số phương trình hồi quy bộ phận.
Những phương trình này sẽ xấp xỉ tốt hơn các mối liên hệ giữa các biến
hải dương học trên một khoảng biến thiên cụ thể và không vận hành tốt
trên những khoảng thời gian quan trắc khác.
Như vậy, ứng dụng phân tích hồi quy cho phép xây dựng những mô
hình tuyến tính từng đoạn và đạt được sự mô tả tối ưu bộ phận về các đặc
trưng hải dương học. Thí dụ về kiểu mô tả này có thể là kinh nghiệm
phân tích hồi quy với các trường nhiệt muối đại dương [25], ở đây đã
nhận được một tập hợp những mối phụ thuộc hồi quy giữa nhiệt độ và độ
muối cho những độ sâu và những vùng khác nhau ở Đại dương Thế giới.
Thí dụ khác liên quan tới bài toán kinh điển mô tả hồi quy trắc diện
23


×