Tải bản đầy đủ (.pdf) (14 trang)

phải cho trước thuật giải của bài toán. Giả sử cho tập hợp Ω trong không gian doc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (455.62 KB, 14 trang )



43

Chương 3 - PHÂN LOẠI CÁC QUÁ TRÌNH
3.1. PHƯƠNG PHÁP PHÂN LOẠI TỰ ĐỘNG
Những quá trình diễn ra trong đại dương, những hiện tượng và đối
tượng mà nhà hải dương học tiếp xúc, khác biệt nhau bởi sự đa dạng. Khó
mà tìm được hai quá trình hay hai đối tượng giống nhau một cách tuyệt
đối. Song trong những quá trình và những đối tượng riêng lẻ bao giờ
cũng có thể nhận thấy những tính chất và những đặc điểm chung, cho
phép gộp chúng thành những nhóm, kiểu, lớp.
Theo nghĩa rộng, lớp có
thể đồng nhất với hình tượng, vì trong lý
thuyết nhận dạng, hình tượng được hiểu là một tập hợp những hiện tượng
liên kết với nhau bởi những tính chất chung. Sự tất yếu phải đưa ra khái
niệm hình tượng (lớp) là do nhu cầu thực tiễn tiếp cận tới những phạm trù
chung hơn so với khái niệm quá trình hay đối tượng cá thể, cũng như
khôn
g thể bao quát tất cả những quá trình hay đối tượng tham gia vào lớp
này hay lớp kia [12, 107, 182].
Khi xét sự ph
ân loại như là cơ sở của mô hình này hay mô hình kia,
trước hết phải nhớ rằng: phân loại cần phải không chỉ khái quát thông tin,
mà còn phản ánh được những mặt riêng lẻ của thực tế khách quan. Trong
phân loại khoa học, chúng ta tiếp cận với những hình tượng, những lớp
trừu tượng, với vô vàn tính chất. Từ đó nảy sinh sự cần thiết phải tiếp cận
với những hình tượng được cho trong
không gian các dấu hiệu đa chiều.
Đó là lý do
vì sao bài toán nhận dạng có quan hệ trực tiếp với những


bài toán phân tích đa chiều. Tuy nhiên, trong trường hợp này, nó có thể
được giải chỉ trên cơ sở những phương pháp phân loại bằng máy, tức
những phương pháp phân loại tự động, trong đó người nghiên cứu chỉ
phải cho trước thuật giải của bài toán.
Giả sử cho tập hợp Ω trong
không gian
M
dấu hiệu, tạo thành từ
tập mẫu
X gồm N quan trắc về
M
biến. Yêu cầu tách ra một cách có
căn cứ và tin cậy về mặt thống kê
k tập hợp con (nhóm, lớp quan trắc)
k
ωωωω ,
321
,,, :
k
ω ωω
21
 ⋅⋅⋅=Ω .
Để t
ách ra những tập con, trước tiên cần phải có những điều kiện
sau:
1) Những tập con
nhận được không giao nhau:
ji
ωω 
với mọi ji ≠ ;

nói cách khác, mỗi vectơ
l
x chứa
M
giá trị của các biến quan trắc
{}
Mllll
xxxx

,,,
21
=
sẽ chỉ thuộc một trong những tập con được tách
ra.
2) Mỗi tập co
n không được rỗng:
0≠ω
i
với ki 2 1 , ,,= ,
tức trong mỗi lớp tách ra phải có ít
nhất một quan trắc
l
x . Từ đây, hiển
nhiên suy ra rằng số các lớp được tách ra không thể vượt quá số quan trắc
Nk ≤
. Đồng thời số lớp luôn lớn hơn không −
1≥k
.
Đặt bài toán
Nhiệm vụ phân loại là một trong những nhiệm vụ quan trọng nhất

của mọi lĩnh vực khoa học. Trình độ phân loại, độ tin cậy của phân loại
quyết định trình độ tri thức thực sự về đối tượng nghiên cứu. Bài toán
phân loại trong hải dương học trước hết liên quan tới những vấn đề phân
loại khối nước, vấn đề phân vùng đại dương thế giới th
eo những dấu hiệu
nào đó, hay bài toán phân tách ra những loại biến động đặc trưng của khí
hậu đại dương v.v
Sự m
uôn hình muôn vẻ của những vấn đề thực dụng làm nảy sinh sự
đa dạng các phương pháp phân vùng tự động thích ứng để giải quyết


44
những nhiệm vụ cụ thể khá hẹp. Có lẽ đến ngày nay, chưa có một cách
tiếp cận chung, vận hành tốt như nhau trong mọi tình huống. Vì vậy, khi
xem xét những vấn đề phân loại áp dụng vào nghiên cứu đại dương, trước
hết, ta sẽ đề cập tới những hệ phương pháp đã từng được thử thách trong
khi giải quyết những nhiệm vụ thuần tuý hải dương học.
Phân loại là gì? Đó là qu
á trình chia tập đối tượng thành một số
những tập con (các lớp). Mỗi tập con bao gồm trong nó những đối tượng
giống nhau theo một bộ những dấu hiệu phân biệt đã biết, và gọi là một
lớp. Như vậy, kết quả của phân loại có thể biểu diễn dưới dạng những bộ
đối tượng nằm trong không gian các dấu hiệu và phân cách bởi các biên
của các lớp. Tuy
nhiên, cách lý giải này − không phải là duy nhất.
Một điều
không kém phần quan trọng trong quá trình phân loại là
sắp xếp những đối tượng theo mức độ chúng liên hệ lẫn nhau và chỉ ra
cấu trúc của sự liên kết các đối tượng thành những lớp. Khía cạnh này

của phân loại được thể hiện bằng cách xây dựng "cây phân loại". Cây này
dẫn trên hình 3.1. Cây như vậy cho phép phân tích được sự tuỳ thuộc của
các lớp và các đối tượng và xây dựng cấu trúc đa tầng của các lớp.
Với cách
mô tả sự phân loại bằng đồ hoạ như vậy, thay vì một bức
tranh phân chia cố định duy nhất, ta có một bộ các nhánh phân chia, mỗi
nhánh có một ý nghĩa vật lý của nó.
Những bài to
án phân loại cụ thể có thể hình thành theo tuần tự sau:
− Chọn các biến ban đầu;
− Chọn biểu thức định lượng về mức độ giốn
g nhau của các quan
trắc;
− Chọn thuật
toán phân loại;
− Lý giải kết quả.
Việc chọn hệ thống những biến xuất phát bao giờ cũng đi trước
thủ tục tính toán thực sự, vì vậy quá trình này có thể xét riêng cùng
với những vấn đề lý giải hình học về phương pháp phân loại tự
động.
Sè hiÖu b−íc

Hình 3.1. Thể hiện phân loại các quan trắc dưới dạng cây phân loại
−d mức giống nhau của các lớp
Ý nghĩa hình học của phương pháp phân loại tự động
Ta xét vấn đề này qua thí dụ phân tích các khối nước chỉ dựa vào ba
biến: nhiệt độ, độ muối và nồng độ silic. Những dấu hiệu xuất phát tạo
thành một không gian dấu hiệu, không gian này có thể được biểu diễn
dưới dạng ba trục tọa độ trực giao (hình 3.2).
Những quan t

rắc thực được biểu diễn trong không gian dấu hiệu này
như là những điểm tạo thành đám mây các quan trắc không đồng nhất về
mật độ. Một cách trực giác, thấy rằng mỗi khối nước được đặc trưng bởi
những giá trị gần nhau của các tham số quan trắc. Do đó, khối nước có
thể được biểu thị trong không gian các dấu hiệu như là một khối thể tích
khép kín
nào đó, bên trong nó các điểm quan trắc tạo thành một nhóm
khá đậm đặc và gọn. Thể tích này có thể tách khỏi những điểm còn lại
bằng một mặt phân cách nhân tạo. Nếu liên kết tất cả số liệu quan trắc
thành những thể tích khép kín tương tự, thì coi như ta đã giải quyết bài
toán phân loại.


45
Ta trở lại vấn đề chọn các biến. Giả sử không có số liệu quan trắc về
nồng độ silic. Khi đó toàn bộ đám mây quan trắc sẽ chiếu lên mặt phẳng
tọa độ ST , . Bây giờ thấy rõ rằng những lớp đã phân chia ra trước đây −
những kiểu khối nước, sẽ giao nhau và không thể phân tách ra được nữa,
vì mật độ phân bố các quan trắc đại khái đồng
đều trong toàn đám mây.
Thí dụ nà
y trực quan cho thấy rằng phân loại quan trắc chỉ thành
công khi những dấu hiệu lựa chọn có khả năng cho phép phân loại dựa
theo sự không đồng nhất hiện có trong đám mây số liệu. Vì vậy, theo ý
kiến phần lớn những người nghiên cứu, việc lựa chọn các dấu hiệu thực
tế quyết định kết cục thành công hay không thành công của sự phân loại.
Vậy
làm thế nào chọn được những dấu hiệu một cách tốt nhất? Để
giải một bài toán đặc thù cụ thể nào đó (thí dụ, phân loại điều kiện băng),
thì bộ dấu hiệu là do điều kiện vật lý của hiện tượng được phân loại quyết

định. Trong trường hợp tổ chức phân loại vạn năng một đối tượng tự
nhiên lớn, thí dụ khi phân vùng
Đại dương Thế giới, phải sử dụng tất cả
những tham số quan trắc hiện có.
Có phải cứ d
ùng số lượng lớn các dấu hiệu sẽ luôn luôn đảm bảo sự
thành công của bài toán không? Kinh nghiệm cho biết rằng sự phân
loại có thể ổn định ngay cả với một số lượng tương đối nhỏ những dấu
hiệu.
Điều này
là do phần lớn những dấu hiệu quan trắc mô tả quá trình,
hay hiện tượng, thường liên hệ thống kê với nhau (nếu không thì tình
hình chắc chắn sẽ vô vùng lộn xộn). Vì vậy, nếu đưa thêm những biến
mới vào một bộ dấu hiệu đã khá lớn, thì chúng cũng không góp thêm
thông tin gì đáng kể về vị trí tương hỗ của các đối tượng trong không gian
dấu hiệu, vì trong bộ dấu hiệu này, rất có thể có một hoặc một số dấu hiệu
đã tương qua
n cao với từng biến trong số những biến vừa đưa vào.
Nói cách khác, có thể tưởng tượng một tập hữu hạn các dấu hiệu cho

phép phản ánh cấu trúc của các đối tượng tự nhiên được nghiên cứu. Tuy
nhiên, cần luôn nhớ rằng bộ dấu hiệu lớn này dù sao cũng phản ánh chức
năng phân loại toàn diện, nó bù đắp bớt phần trừu tượng từ phía chúng ta.
Và với ý nghĩa này − về phương diện hình thành ý tưởng phân loại, thì
mọi phép phân loại đều có nét chủ quan.

Hình 3.2. Ý nghĩa hình học của phân loại trong không gian ba dấu hiệu (nhiệt độ, độ
muối, silic) và hai dấu hiệu (nhiệt độ, độ muối)
Trong thực tế nghiên cứu hải dương học, hiếm khi chúng ta có được
một bộ dấu hiệu lớn đến mức có thể xem là bão hoà. Vì vậy, trong phần

lớn trường hợp phải dựa vào kinh nghiệm truyền thống tuyển chọn các
biến.
Đánh giá định lượng độ giống nhau của những quan trắc
Biểu thức định lượng về sự giống nhau của các quan trắc theo một
bộ dấu hiệu có thể là khoảng cách đơn giản giữa hai điểm trong không
gian các biến (xem hình 3.2). Tiêu chí giống nhau này được gọi là khoảng
cách Ơclit và được xác định theo công thức
2/1
1
2
)(






−=

=
M
k
kjkikji
xxwd

, (3.1)
trong đó

ki
x


giá trị quan trắc thứ i của biến k ,

k
w
tỷ trọng tương


46
đối của biến k .
Khoảng cách Ơclit sử dụng tiện lợi khi
tất cả các dấu hiệu có cùng
thứ nguyên, nếu các biến không phụ thuộc lẫn nhau và phần đóng góp
tương đối của chúng được biết.
Trong trường
hợp những điều kiện này không thoả mãn, có thể sử
dụng khoảng cách Magalonobis, khi tính nó những thứ nguyên của các
biến có thể khác nhau. Dưới dạng vectơ, công thức tính khoảng cách
Magalonobis có thể viết như sau:
)()(
1
ji
T
jiji
d xxSxx −⋅⋅−=


, (3.2)
trong đó −− )(
ji

xx vectơ cột, tạo thành bởi những hiệu các giá trị của
M
biến ứng với những quan trắc thứ i và thứ
j
, −S ma trận hiệp
phương sai của các biến gồm
M
dòng và
M
cột.
Khoảng cách Magalonobis
là tiêu chí giống nhau rất hiệu quả trong
trường hợp các biến tương quan với nhau.
Trong thực tế khôn
g hiếm những tình huống, khi mà những biến
quan trắc được biểu diễn không phải bằng thang đo định lượng, mà bằng
thang đo định tính, thí dụ, khi nghiên cứu những thang đo lượng băng,
cường độ gió, sóng, hoặc khi phân tích những chuỗi tình huống hiện diện
hay không hiện diện của một hiện tượng nào đó. Trong trường hợp này,
không nên sử dụng những tiêu chí đã dẫn trên đây, mà nên dùng khoảng

cách Hemming:

=
−=
M
k
kjkiji
xxd
1



.
Ở đây

ki
x

giá trị độ lớn của dấu hiệu k theo thang chuẩn hoá.
Khoảng cách He
mming chỉ gồm những giá trị số nguyên, cận dưới là
số không tương ứng với tình huống trùng hợp hoàn toàn các giá trị của tất
cả biến đối với hai quan trắc. Ở đây phải nhận xét rằng sử dụng khoảng
cách Hemming rất hiệu quả trong những trường hợp các biến xuất phát
chứa các sai số ngẫu nhiên hoặc các nhiễu. Khi đó người ta chia miền
biến thiên của các dấu hiệu thành một số khoảng
và lấy số hiệu của
khoảng làm giá trị của biến và như vậy loại trừ được khá nhiều ảnh
hưởng của nhiễu và sự phân loại sẽ tin cậy hơn.
Những tiêu chí giốn
g nhau liệt kê trên đây biểu thị sự gần nhau của
các quan trắc trong không gian tuyến tính và là đặc trưng số hữu hiệu khi
tìm các lớp có dạng hình cầu hoặc ellip trong không gian biến đa chiều.
Tuy nhiên, hoàn toàn không phải bao giờ cũng gặp dạng đám mây tản
mạn đơn giản như thế, vì vậy, người ta buộc phải tìm những biểu thức phi
tuyến phức tạp hơn làm tiêu chí giống nhau. Nhằm những mục đích đó,
người ta thường ha
y sử dụng những hàm thế vị, những hàm này nhận
được nhờ kết quả biến đổi phi tuyến những tiêu chí giống nhau tuyến tính
đơn giản:

)1(/1
jiji
dP

+= ,
)(exp1
jiji
dP

+= .
Những hàm
thế vị này sẽ hiệu quả nhất trong khi phân loại những
quan trắc có dạng móng ngựa, hình con nhép v.v
Chọn một tiêu chí giống n
hau cụ thể hoàn toàn tuỳ thuộc vào người
nghiên cứu.
Thủ tục tính toán của phương pháp phân loại tự động
Tất cả những thuật toán của phương pháp phân loại tự động có thể
phân chia thành những thuật toán xác suất và thuật toán luận lý. Những
thuật toán xác suất dựa trên nguyên tắc tối thiểu hoá độ mạo hiểm trung
bình nếu sự phân loại quan trắc bị sai và chúng không được xét ở đây.
Những thuật toán luận lý hiện nay
thường hay được sử dụng trong
hải dương học hơn. Đó là vì tính hiệu quả của nó cao và thủ tục tính toán
không phức tạp. Thực chất của các thuật toán luận lý phân loại là ở chỗ
trong các thuật toán này, người ta chấp nhận những quy tắc logic, linh
cảm, được thừa nhận để tìm các lớp đồng nhất. Vì vậy, các thủ tục tính


47

toán tiên định nhằm tới một dạng cụ thể của các lớp. Có hai loại thủ tục
phân loại luận lý: loại thứ nhất thường hay được dùng để phân chia
những tập con, đồng tính trong không gian dấu hiệu, loại thứ hai thực
hiện những nguyên tắc phân chia những lớp đồng dạng (giống nhau về
hình dạng).
Người ta thường hiểu những tập con đồng tính là những tập có dạng
hình cầu xét
theo hình thức vị trí tương hỗ của các quan trắc. Trong
không gian dấu hiệu nhiều chiều, dạng này được xem như dạng đa cầu
(Гиперсферическая форма). Vì vậy nên các thủ tục tính toán cũng có
tên là "những thuật toán đa cầu" [4, 74, 79]. Ý nghĩa của các thuật toán
này như sau:
Đối với mỗi quan trắc
{}
mllll
xxxx

, ,,
21
= người ta dựng một đa
cầu với bán kính
ρ
trong không gian dấu hiệu
M
chiều. Sau đó xác định
số quan trắc rơi vào bên trong đa cầu, và hình thành tập con
i
ω
gồm
những quan trắc đứng cách xa quan trắc xuất phát một khoảng d nhỏ

hơn bán kính
ρ
đã cho:
ρ
≤d .
Người ta chọn lớp thứ nhất là lớp m
à rơi vào bên trong nó là số tối
đa các quan trắc lân cận. Đối với những quan trắc còn lại, thủ tục dựng
được lặp lại cho đến khi hết toàn bộ tập.
Những thuật
toán phân loại các lớp đồng dạng nhằm phát hiện
những cấu trúc tương tự nhau về hình thức phân bố tương hỗ các quan
trắc trong không gian dấu hiệu nhiều chiều. Từ linh cảm thấy rõ rằng sự
đa dạng các mối liên hệ của các quan trắc sẽ sinh ra những hình thức tụ
tập quan trắc rất khác nhau trong không gian dấu hiệu.
Trong thực tế phân tích c
ác quá trình khí tượng thủy văn, sự tụ tập
các quan trắc có dạng những thành tạo "kiểu chuỗi xích" kéo dài. Vì vậy,
phương pháp dựng mạng liên hệ ngắn nhất (KCC) [125, 172] được sử
dụng phổ biến trong khảo sát hải dương học.
Thực chất của phương ph
áp này là liên kết từng cặp liên tiếp các
quan trắc gần nhau vào mạng chung. Ví thể như, khi một con ếch trong
hồ nhảy truyền từ một chiếc lá này sang một chiếc lá khác gần đó, bằng
chính những bước nhảy của mình, nó đã liên kết tất cả các lá thành một
mạng lưới với chi phí công nhảy cực tiểu. Nguyên tắc tính toán của
phương pháp mạng liên kết ngắn nhất là sao cho khi lấy một điểm
quan
trắc ban đầu tuỳ ý, phải tìm được quan trắc khác giống nhất với nó dựa
theo khoảng cách cực tiểu giữa các điểm trong số tất cả những điểm chưa

thuộc mạng lưới. Khi đã liên kết điểm này vào mạng, phải tìm cực tiểu
của khoảng cách đến những điểm còn lại so với tất cả các điểm đã hoà

vào mạng.
Sau khi liên kết vào mạng
tất cả các điểm quan trắc, người ta chính
thức thực hiện phân chia thành những lớp thu gọn. Muốn làm điều đó,
người ta đưa ra khoảng cách tới hạn
rc
d

. Theo điều kiện
rcji
dd

≤ tiến
hành phân chia mạng thành những đoạn riêng biệt, đó chính là những lớp
cần tìm.
Cần đặc biệt chú ý tới vấn đề phân loại tối ưu
. Trong bản thân lời
phát phát biểu bài toán phân loại, ta đã nhận thấy tính không đơn trị của
kết quả cuối cùng. Vì vậy, việc tối ưu hoá sự phân chia thành các lớp
được tiến hành ở giai đoạn tính toán cuối cùng, khi đánh giá độ tin cậy
tương đối của một số kết quả phân loại nhờ những chỉ tiêu thống kê −
thực nghiệm bổ sung.
Thông thường
nhất, việc chọn mức phân loại tối ưu thực hiện dựa
trên tương quan tản mạn dạng:
12
/ JJQ = hay

12
JJQ −= , (3.3)
trong đó

1
J khoảng cách trung bình theo toàn tập hợp mẫu giữa các
quan trắc phân bố bên trong các lớp (khoảng cách trung bình nội tại lớp);

2
J
khoảng cách trung bình giữa các quan trắc phân bố trong các lớp
khác nhau (khoảng cách trung bình giữa các lớp).
Ý nghĩa của chỉ tiêu Q ở chỗ nó cho thấy tỷ số giữa mức độ khác
biệt trung bìn
h của các lớp và mật độ tập trung trung bình các quan trắc


48
bên trong một lớp. Rõ ràng, cực đại của đại lượng Q tương ứng với sự
phân loại mà trong đó các quan trắc được nhóm vào những lớp rất gắn bó
với nhau, nhưng cách xa nhau tối đa. Phương án phân chia tập hợp thành
những lớp như vậy là tối ưu.
Những công t
hức tính
1
J và
2
J có dạng:

==









ω∈=
k
j
N
l
jplpl
j
j
xxd
Nk
J
11
1

11
),( ,


=
ω∉ω∈

=

1
1
2

1
1
k
j
jpjlpl
xxd
k
J ),( ,
trong đó −k số lớp được chia
ra; −
j
N số quan trắc trong lớp j ; −
pl
d


khoảng cách giữa các cặp quan trắc thuộc một lớp (đối với
1
J ) hoặc
thuộc các lớp khác nhau (đối với
2
J ).
Trong một thuật toán phân loại bất kỳ, có một tham số qu
yết định sự
nhạy cảm của phương pháp đối với cấu trúc phân bố các quan trắc và kết
cục là hình thành nên các lớp. Trong các thuật toán đa cầu tham số đó là

bán kính đa cầu
ρ
.
ρ
càng nhỏ thì sẽ tìm được những lớp càng gắn bó,
và ngược lại, khi
ρ
tăng tính gắn bó trong các lớp sẽ giảm.
Thông thường
, việc chọn bán kính ban đầu của đa cầu căn cứ vào
những kết quả phân tích sơ bộ về cấu trúc thống kê của sự bất đồng nhất
quan trắc. Khi thay đổi
ρ
sẽ nhận được một số phương án phân loại khác
nhau, từ đó người ta chọn lấy phương án tối ưu.
Đối với những
phương pháp có tính đa tầng, như phương pháp mạng
liên hệ ngắn nhất đã xét trên đây, thì tất cả những phương án phân loại có
thể có đã thể hiện trong mạng nhận được. Ở đây tham số quyết định phân
loại là độ lớn của khoảng cách tới hạn
rc
d

, nó có thể được người nghiên
cứu thay đổi trong phạm vi từ cực tiểu đối với tập quan trắc đã cho (ta có
N
lớp) đến cực đại đối với tập (ta có 1 lớp).
Có thể dễ dà
ng thấy ý nghĩa của việc lựa chọn tối ưu một cách tỉ mỉ từ
hình 3.3, trên đó biểu diễn đồ thị khoảng cách giữa các đối tượng liên tiếp

được liên kết vào mạng. Rõ ràng rằng những cực đại của trị số
d trên đồ
thị này tương ứng với tình huống khi liên kết vào mạng những đối tượng
rất xa nhau, có thể thuộc về một nhóm khác. Còn bên trong các lớp, ở đó
các đối tượng rất giống nhau, thì khoảng cách giữa chúng nhỏ, đó là những
dải thấp của đồ thị. Vậy khi ta đề ra một mức tới hạn
rc
d

nào đó, chính là
ta đã quy định biên giới giữa các lớp. Với giá trị
rc
d

cực đại, ta nhận được
số lớp cực tiểu, và sự phân chia trở thành ít chi tiết. Với giá trị
rc
d

nhỏ, sự
phân loại thành ra chi li quá mức. Nếu lấy tối ưu độ lớn của khoảng cách
tới hạn giữa các lớp theo chỉ tiêu Q , người nghiên cứu sẽ chọn được
phương án phân loại sao cho đối với tập hợp đối tượng đang xét, thì các lớp
được phân chia ra khá khác nhau, đồng thời đảm bảo độ gắn bó bên trong
mỗi lớp khá cao.


Hình 3.3. Đồ thị liên kết các quan trắc vào mạng liên hệ ngắn nhất
(Những đường thẳng đứt đoạn là những mức khoảng cách tới hạn giữa các lớp)
Ứng dụng phương pháp phân loại tự động trong nghiên cứu hải

dương học
Một trong những bài toán đầu tiên nhà hải dương học gặp phải khi
ứng dụng phương pháp phân loại tự động là tìm một hệ phương pháp hữu
Số hiệu bước


49
hiệu phân loại tập quan trắc cụ thể. Bắt tay vào sử dụng các phương pháp
phân loại, người nghiên cứu không có trước những quan niệm chắc chắn
về cấu trúc các lớp. Anh ta chỉ có thể có một số suy luận ban đầu căn cứ
vào những ước lượng định lượng của phép phân tích thống kê sơ bộ,
những cơ chế vật lý chung đã biết về sự hình thành những quá trình được
nghiên cứu v
à linh nghiệm của bản thân.
Số lớp, hình
thức của chúng và những quan trắc cụ thể thuộc vào lớp
nào thì chỉ được phỏng đoán. Khi lựa chọn một hệ phương pháp phân loại
chúng ta cần chú ý rằng kết quả cuối cùng phụ thuộc rất nhiều vào sự
đúng đắn và có căn cứ của việc lựa chọn này.
Cho đến
nay, trong nghiên cứu hải dương học sử dụng rộng rãi tất cả
những thuật toán đã nêu ở trên, và chưa thể coi trọng một thuật toán nào
trong số đó. Nhưng nói chung có một xu thế hướng tới sử dụng những sơ
đồ tính toán càng đơn giản càng tốt. Vì vậy những phương pháp phân loại
được phát triển trên cơ sở xây dựng mạng liên hệ ngắn nhất và đường
không khép kín ngắn nhất được phổ biến trong những năm s
áu mươi −
bảy mươi [125, 172]. Sự đơn giản tính toán, chỉ yêu cầu ít tài nguyên máy
tính kết hợp với tính trực quan và tính lý giải được của kết quả là nguyên
nhân phổ cập của phương pháp này.

Trong nửa sa
u của thập kỷ 70 người ta thường hay sử dụng những
thuật toán nhóm hệ thống dựa trên việc xây dựng những đa cầu trong
không gian dấu hiệu [79, 199]. Tuy nhiên, kinh nghiệm áp dụng trong hải
dương học lại phát hiện ra rằng những thuật toán này ít nhạy cảm với cấu
trúc của các lớp được phân chia, do đó rất khó xây dựng hệ phân loại tối
ưu. Vì vậy, tới cuối những năm bảy mươi, đầu những năm t
ám mươi, khi
bắt đầu xử lý những nguồn lưu trữ dữ liệu lớn, thì việc ứng dụng phương
pháp phân loại tự động tiến sang một trình độ mới. Trong giai đoạn này,
để đạt được kết quả tối ưu, các tác giả thực hiện phân loại tập hợp nhiều
lần bằng nhiều phương pháp, bằng nhiều quan điểm đánh giá sự giống
nhau của các quan trắc
[56, 92, 161, 185]. Sự chú ý đặc biệt được giành
cho vấn đề phân chia một cách tin cậy đối với những lớp có hình dạng
phức tạp, do đó người ta đã sử dụng những công thức hoàn hảo hơn để
tính toán các ước lượng phi tuyến về khoảng cách giữa các lớp và nội lớp
[178, 203, 205, 207].
Vào cuối những năm tá
m mươi, lần đầu tiên trong hải dương học đã
ứng dụng hệ phương pháp phân loại dựa trên lý thuyết "các tập mờ" [110,
232]. Theo cách tiếp cận này, người ta bác bỏ tiên đề xuất phát cơ bản
của phân loại kinh điển rằng các lớp đã phân chia ra không được giao
nhau.
Ngược lại, bản thân khái niệm tập mờ dựa trên giả thiết về sự giao

nhau của các lớp, trong điều kiện đó những quan trắc riêng lẻ có thể đồng
thời thuộc hai hay một số lớp kề cận [97]. Trong cách tiếp cận này biên
giới lớp được hiểu theo một cách hoàn toàn mới. Nếu như trong bài toán
kinh điển − biên giới là một đa mặt tách các quan trắc thành các lớp khác

nhau, thì trong ngôn ngữ c
ác tập mờ, biên giới được hiểu như là một vùng
giao nhau của các lớp có những quan trắc thuộc vùng đó. Quan niệm mới
cho phép trong khi phân loại các quá trình hải dương chú ý đặc biệt tới
những đới chuyển tiếp, những đới biến dạng những tính chất và v.v
Kinh nghiệm tích luỹ được khẳng định rằng phương pháp
luận phân
loại tự động đã được ứng dụng để giải nhiều bài toán hải dương học thực
dụng, có lẽ, phổ biến nhất là bài toán phân loại các khối nước của những
vùng Đại dương Thế giới [24, 28, 38, 46, 56, 88, 98, 250]. Có nhiều lý do
về sự ứng dụng này, nhưng về cơ bản có lẽ do hai nguyên nhân: thứ nhất,
người ta
muốn tự động hoá phương pháp "thủ công" truyền thống phân
chia các khối nước; thứ hai, người ta muốn vươn tới khái quát một cách
tin cậy nhất về các khối nước, sử dụng nhiều tham số thủy lý, thủy hoá và
sinh học.
Quan điểm p
hân loại tỏ ra đặc biệt nổi trội khi phân tích cấu trúc
thẳng đứng của nước đại dương theo phân bố của các tham số thủy vật lý
và thủy âm học [56, 100, 167]. Công việc này cho phép xác lập những
tham số điển hình về sự phân tầng nước và sau đó phân vùng đại dương


50
tuân theo sự phân loại nhận được.
Trong các bài toán đã liệt kê,
việc phân loại thực hiện trong hệ trục
tọa độ "không gian − các biến", còn sự biến động thời gian chỉ quyết định
kết quả một cách gián tiếp. Sự phân loại các quá trình khí tượng thủy văn
có tính tới biến động không gian và thời gian của các quan trắc đóng vai

trò quyết định trong phân vùng đại dương. Trong trường hợp này các lớp
thường được đồng nhất với những dạn
g phân bố không gian điển hình
của các trường hải dương và khí tượng học và phản ánh xu thế chung của
những quá trình vật lý [123, 130, 149, 174, 185]. Vì vậy, đối tượng phân
tích vật lý ở đây sẽ là những đặc điểm cơ bản của các trường điển hình
cũng như tuần tự thay thế các lớp trong thời gian.
Vấn đề lý giải, tức
suy xét về ý nghĩa vật lý của các kết quả phân
chia các quan trắc một cách hình thức, là giai đoạn cuối cùng của phương
pháp phân loại tự động, kết thúc quá trình tính toán. Đồng thời đây cũng
có thể là nấc thang đầu tiên tiến tới khảo sát tiếp về khả năng ứng dụng phân
loại đối với tập đã cho.
Vấn đề là ở chỗ k
hông phải lúc nào cũng có được một lý giải vật lý
về các lớp mà ta nhận được lúc phân chia. Sẽ là tốt nếu những nhóm đối
tượng đồng nhất cho phép người nghiên cứu xếp đặt chúng theo những
tính chất vật lý đã biết trước của đối tượng nghiên cứu. Để thực hiện quy
trình này, nên tiến hành tính những trị số trung bình của các dấu hiệu bên
trong mỗi lớp, phương sa
i và biến phân của các dấu hiệu bên trong các
lớp, đánh giá những liên hệ tương quan giữa các dấu hiệu, nói cách khác,
tiến hành phân tích sơ bộ các quan trắc theo từng lớp đã nhận được.
Những ước lượng này có tính tới khoảng tin cậy của chúng sẽ cho phép
tiến hành so sánh định lượng những kết quả phân loại với những tài liệu
khảo sát đã tích luỹ trước đây.
Một bước lý giải nữa rất quan trọng l
à làm sao biểu diễn các lớp
quan trắc đã nhận được lên tọa độ không gian − thời gian quen thuộc.
Đưa kết quả phân loại lên tọa độ không gian gọi là sự phân vùng. Trong

quá trình này có thể nảy sinh những khó khăn do không phù hợp giữa số
lớp đã phân chia ra một cách hình thức và số lớp đồng nhất trong tọa độ
địa lý các vùng. Hiện tượng này là do sự hiện diện của một số vùng tự
nhiên khá xa cách nhau n
hưng có những giá trị gần bằng nhau của các
dấu hiệu quan trắc.
Chẳng hạn, nếu qua
y lại với thí dụ đã xét về phân tích các khối
nước, phải nhớ rằng những khối nước cận nhiệt đới với những đặc trưng
như nhau quan trắc thấy cả ở Đại Tây Dương, Thái Bình Dương và Ấn
Độ Dương. Vì vậy, trong trường hợp khác nhau về số lớp đồng nhất và
các vùng đồng nhất người nghiên cứu phải thực hiện những biện pháp

cần thiết để có được bức tranh phân chia chi tiết và đầy đủ hơn, rồi sau đó
tiếp tục phân loại.
Trong nhiều t
ình huống thực tế, vấn đề phân loại đúng đắn không chỉ
tuỳ thuộc vào số lượng quan trắc xuất phát, mà chủ yếu tuỳ thuộc vào tập
hợp những dấu hiệu đem ra xem xét. Đối với phương pháp phân loại tự
động, vấn đề tuyển chọn các dấu hiệu có nội hàm khác hẳn so với các
phương pháp thống kê nhiều biến khác.
Biến đổi ma trận dấu hiệu xuất phát
Khi phân loại, một phần thông tin xuất phát luôn bị bỏ mất. Đó là do
sự liên kết những đối tượng khác nhau ở mức độ nào đó vào một lớp gắn
liền với sự loại bỏ những thông tin đặc trưng cho những nét riêng của mỗi
đối tượng. Rõ ràng những nét riêng kiểu này là vụn vặt, so với những tính
chất chung hơn, đặc trưng cho tất cả các đối tượng của một lớp nào đó.
Vậy
làm thế nào tách biệt những nét chung nhất này, những tính chất điển
hình cho phần lớn các đối tượng? Điều này có thể đạt được bằng cách

biến đổi thông tin xuất phát.
Biến đổi thông tin xuất phát phản ánh
một trong những tư tưởng
chính của vấn đề nhận dạng và phân loại. Việc giải quyết nhiều bài toán
khó phát biểu có thể sẽ được giảm nhẹ đáng kể nhờ kỹ năng biến đổi
thông tin xuất phát thành một số không nhiều các dấu hiệu, vừa đủ để mô


51
tả đầy đủ những đối tượng nghiên cứu. Những dấu hiệu khái quát ấy giúp
ta không phải chú ý tới những chi tiết ít đáng kể đối với việc phân loại.
Đặc điểm b
iến đổi dữ liệu xuất phát cũng phụ thuộc vào dạng dữ
liệu. Trong hải dương học, cũng như trong khí tượng thủy văn nói chung,
những phương pháp biến đổi là phương pháp các thành phần chính và
phân tích nhân tố.
Điều qua
n trọng là những phương pháp này cho phép nhận được
một hệ các dấu hiệu độc lập nhau, làm đơn giản rất nhiều thuật toán
phân loại. Phương pháp các thành phần chính được sử dụng phổ biến để
biến đổi thông tin khi phân chia các khối nước.
3.2. PHƯƠNG PHÁP PHÂN TÍCH PHÂN BIỆT
Đặt bài toán

Quá trình tích luỹ tri thức về đại dương gắn liền với việc quy nạp
những dữ liệu mới với những thông tin có sẵn và thu gom được trước
đây. Thông thường, thông tin có sẵn về đại dương gồm những tri thức
dưới dạng những khái quát. Đó là những lớp hay những kiểu hiện tượng
và quá trình mà người ta đã phát hiện được nhờ khảo sát toàn bộ khối dữ
liệu lưu trữ đã tích luỹ được.

Những kiểu là những trạng thái có khả năng nhất, ổn định nhất của
các đối tượn
g nghiên cứu; đối với những kiểu đó người ta không chỉ đã
xác định được những đặc trưng thống kê, mà còn hình thành được những
quy luật vật lý về sự xuất hiện, tồn tại và chuyển hoá lẫn nhau của chúng.
Sự quy nạp thông tin mới với thông tin đã phân loại chính là nhiệm vụ cơ
bản về ứng dụng phươn
g pháp phân tích phân biệt. Bản thân hệ phương
pháp ở đây đóng vai trò một quy tắc toán học hình thức, theo đó, bằng
cách so sánh thống kê những đặc trưng của các quan trắc đang xét và
những lớp đã phân chia trước đó mà người ta xếp vectơ quan trắc đang
xét vào lớp nào.
Vận dụng
phương pháp phân tích phân biệt giúp giảm thiểu những
sai lầm có thể có khi quy nạp sai một quan trắc vào những lớp đã phân
chia, điều này quyết định tính hiệu quả của hệ phương pháp trong thực
hành.
Dưới hình thức đầy đủ, phương p
háp phân tích phân biệt thuộc lĩnh
vực khoa học gọi là phép "nhận dạng" [17, 130]. Những đặc trưng thống
kê của các lớp đã phân chia trước là những dạng, căn cứ vào những dạng
này mà người ta phân tích dạng của một vectơ quan trắc mới cũng hình
thành từ những đặc trưng thống kê tương tự.
Thí dụ ki
nh điển về vận dụng lý thuyết nhận dạng trong nghiên cứu
hải dương học có thể là bài toán phân loại phân bố thẳng đứng mật độ
nước ở Đại dương thế giới.
Thủy vực đại dương đã được phân vùng khá chi tiết theo các
kiểu
phân bố thẳng đứng của mật độ nước. Đối với từng vùng đã xác định

những đặc trưng thống kê về phân bố mật độ (giá trị trung bình, phương
sai, độ bất đối xứng), thiết lập quan hệ thống nhất giữa một tập hợp các
tham số trạng thái đại dương khác như: chế độ nhiệt m
uối, động lực, các
đặc trưng quang học và âm học, phân bố các chỉ tiêu sinh học và hoá học,
với phân bố mật độ. Nếu ta xác định được một cách khách quan một trắc
diện thẳng đứng vừa mới quan trắc thuộc vào lớp nào trong số các lớp đã
phân chia, thì có nghĩa rằng ta có được toàn bộ thông tin tương ứng với
lớp đó và nắm được bản chất vật lý của
các quá trình đang diễn ra.
Bây giờ chún
g ta chuyển sang phát biểu bài toán của phương pháp
phân tích phân biệt. Trong quá trình vận dụng phương pháp phân tích
phân biệt đòi hỏi giải quyết hai vấn đề:
− Hình thành
quy tắc toán học quy kết các đối tượng vào một trong
những lớp đã phân chia;
− Xá
c định một vectơ quan trắc mới thuộc lớp nào.
Tập dữ liệu lưu trữ, đã được phân chia
thành những lớp đồng nhất,
được sử dụng làm tập xuất phát, còn được gọi là tập thầy
x , gồm N
quan trắc về
M
biến. Các quan trắc thuộc về k lớp. Đối với mỗi lớp i ,


52
đã tính được những đặc trưng thống kê ban đầu (trung bình của

M
tham
số
{}
iMiii
xxx
21
, , ,=x , phương sai của
M
tham số
{}
iMiii
sss
21
, , ,=s ) và xây dựng những tổ chức đồ ) , , ,(
21 Mi
xxxP .
Dựa theo tập thầy,
người ta phải hình thành quy tắc giải. Quy tắc
giải là biểu thức toán học − hàm phân biệt, theo giá trị của hàm này có
thể rút ra kết luận đơn trị quy kết vectơ quan trắc thuộc vào lớp cụ thể
nào.
Ý nghĩa hình học của phương pháp phân tích phân biệt
Việc giải bài toán đã phát biểu trong phương pháp phân tích phân
biệt có thể giải thích trên ví dụ hình học đơn giản. Ta biểu diễn tập dữ
liệu xuất phát, gồm N quan trắc về 2=
M
biến, dưới dạng những đám
mây tản mát trên mặt phẳng tọa độ (hình 3.4). Giả sử có hai đám mây dữ
liệu được phân chia rõ rệt, ta tiên định phân nhóm chúng thành hai lớp:

lớp 1 và lớp 2.
Đối với từng lớp đã tính gi
á trị của phương sai và kỳ vọng toán học
theo từng dấu hiệu trong hai dấu hiệu. Ngoài ra, đối với mỗi dấu hiệu đã
xây dựng các tổ chức đồ tổng quát của các đám mây tản mát:
)(
1
xP và
)(
2
xP
.
Từ những tổ chức đồ đã dẫn, thấy rằng một phần những giá trị
quan trắc rơi vào vùng giao nhau của các đường cong, bên trong
vùng đó không thể định chính xác các quan trắc thuộc lớp nào. Ý
nghĩa của phân tích phân biệt là ở chỗ tìm một quy tắc giải, làm
giảm thiểu sai lầm phân loại. Về mặt hình học, điều này tương
đương với việc tìm ra một đường thẳng
z
, sao cho các hình chiếu
các đám mây của các lớp lên đường thẳng đó sẽ cách xa nhau tối
đa, còn diện tích vùng giao nhau của các tổ chức đồ của các lớp trở
nên cực tiểu. Khi đó trên đường thẳng
z
, gọi là hàm phân biệt, các
biên giới của các lớp
0
z cũng được chiếu lên. Điểm
0
z đặc trưng

cho biên giới các lớp, gọi là chỉ số phân biệt.

Hình 3.4. Ý nghĩa hình học của phương pháp phân tích phân biệt

21
, xx những dấu hiệu xuất phát; −)( ),(
21
xPxP mật độ xác suất quan trắc theo các dấu
hiệu;

z
hàm phân biệt; −)(zP mật độ xác suất phân bố quan trắc chiếu lên hàm

Khi chuyển từ khôn
g gian dấu hiệu hai chiều sang không gian nhiều
chiều, phải thấy rằng thay vì một đường thẳng, hàm phân biệt sẽ biểu
diễn hình học bằng một mặt phân cách các lớp (mặt đa diện đối với số
dấu hiệu lớn hơn ba).
Tính các hàm phân biệt
Giả sử rằng những tổ chức đồ phân bố thực nghiệm theo các lớp tuân
theo quy luật phân bố chuẩn. Ta sẽ xét cách xây dựng và tính các hàm
phân biệt dựa trên quy tắc Bayes, quy tắc này đảm bảo tối thiểu hoá lỗi
phân loại sai. Ký hiệu
1
c là sai số quy kết sai đối tượng từ lớp 1 sang lớp
2, còn −
2
c sai số quy kết sai đối tượng từ lớp 2 sang lớp 1. Khi đó quy
tắc giải được thay như sau:



53







<∈
≥∈
.
)(
)(
,
)(
)(
,
11
22
2
1
2
11
22
2
1
1



nÕu
nÕu
pc
pc
P
P
A
pc
pc
P
P
A
x
x
x
x
x
x
(3.4)
Ở đây −)(
x
i
P mật độ phân bố xác suất xuất hiện quan trắc đang xét
trong lớp
i
A , −
i
p giá trị được cho trước của xác suất của sự kiện rằng
quan trắc này được thực hiện với đối tượng từ lớp i .
Các giá trị

i
p
do người nghiên cứu cho trước khi tiến hành phân tích
phân biệt trên cơ sở giả thiết về xác suất xuất hiện trong tương lai một
quan trắc thuộc vào lớp i . Nhiều khi, trong trường hợp thiếu thông tin
như vậy thì xác suất
i
p được cho bằng nhau đối với tất cả các lớp
k
ppp ===
21
, điều này ứng với tình huống quy kết với xác suất như
nhau một đối tượng vào một lớp bất kỳ.
Biểu thức tổn
g quát đã nhận được có thể đơn giản hoá nếu giả thiết:
− Các ve
ctơ phương sai dấu hiệu theo các lớp bằng nhau:
21
ss = ;
− Các
sai số nhận dạng sai bằng nhau:
21
cc = .
Vậy
, sau khi lấy logarit biểu thức (3.4), ta được biểu thức tường
minh cho hàm phân biệt:






∈<
∈≥
=−=






.,
,
)(
)(
)(
ln
2
1
0
2
1
0
0

A
A
P
P
x
x

zxz
x
x

Nếu cho rằng
hàm phân biệt )(xz phụ thuộc tuyến tính vào các tham
số, ta sẽ tìm giá trị của nó cho quan trắc i dựa theo phương pháp hồi quy
kinh điển dưới dạng

=
⋅+=+=
M
j
T
ijij
xb
1
00
)( xBzzxz

. (3.5)
Ở đây

0
z số hạng tự do của hàm, được tính theo công thức

=
+⋅=+=
M
j

TT
jjj
b
1
21210
)(
2
1
)(
2
1
xxBxxz ,

B vectơ cột các hệ số của hàm phân biệt, tính theo công thức
)(
21
1 TT
xxSB −⋅=

(3.6)
trong đó −
S ma trận hiệp biến của các dấu hiệu, tính theo toàn tập hợp.
Hàm phân biệt nhận được c
ó những trị số cụ thể đối với mỗi vectơ
quan trắc bất kỳ từ tập hợp đang xét. Biên phân cách các lớp được cho
bởi chỉ số phân biệt, chỉ số này tính như số hạng tự do
0
z .
Trong thực h
ành, thủ tục nhận dạng bằng hệ phương pháp phân tích

phân biệt quy về việc tính trị số của hàm phân biệt cho vectơ quan trắc
mới
} ,,,{
21 lMlll
xxx

=x
. Nếu giá trị của hàm phân biệt
)(
l
xz
lớn hơn
không, thì vectơ quan trắc mới phải thuộc lớp
l
A , và ngược lại.
Cách tiếp cận Bay
es trong phân tích phân biệt như đã trình bày, cùng
với sự đơn giản và hiệu quả, cũng có một nhược điểm căn bản. Nó đòi
hỏi thoả mãn điều kiện về tính chuẩn của phân bố các lớp xuất phát.
Trong thực tế nghiên cứu thực nghiệm không phải bao giờ cũng đáp ứng
đòi hỏi này. Cách tiếp cận thứ hai thay thế phương pháp Bayes có thể là
phương pháp phi
tham số do Fisher đề xuất.
Ưu điểm của phương p
háp phân tích phân biệt phi tham số là ở đây
không yêu cầu những điều kiện về dạng phân bố xác suất theo các lớp, và
để giải bài toán nhận dạng chỉ cần biết các quan trắc thuộc lớp nào,
những ước lượng của các vectơ giá trị trung bình các dấu hiệu theo các
lớp
21

, xx , ước lượng ma trận hiệp biến tổng quát cho toàn tập hợp S .
Lập luận của phương pháp
phân tích phân biệt phi tham số dựa trên
giả thiết bất biến về tính tuyến tính của hàm phân biệt )(
xz . Việc tìm các
hệ số của hàm phân biệt thực hiện trên cơ sở thoả mãn điều kiện cực đại
hiệu các giá trị trung bình giữa các lớp:
max)(
21
→− xx .


54
Ta sẽ biểu diễn điều kiện này dưới dạng ma trận, sau khi tách riêng
vectơ các giá trị trung bình của lớp thứ nhất
1
x , vectơ các giá trị trung
bình của lớp thứ hai
2
x và vectơ các giá trị trung bình cho toàn tập dữ
liệu
} ,,,{
210 M
xxx =x
. Lập các ma trận độ khác biệt của các giá trị
trung bình của các lớp bằng phép nhân vectơ:
.)()(
,)()(
02022
01011

T
T
xxxxU
xxxxU
−⋅−=
−⋅−=

Từ các
ma trận
1
U và
2
U lập ma trận tổng quát độ khác biệt các giá
trị trung bình:
2211
UNUNU +=
,
trong đó
1
N và −
2
N số quan trắc trong lớp 1 và lớp 2.
Trong không gian
M
biến xuất phát, ma trận khác biệt giá trị trung
bình U quyết định định hướng của ellip tản mát các khác biệt giữa các
lớp. Trục lớn của ellip khác biệt trùng hướng với vị trí của hàm phân biệt.
Vì vậy, những trị số của vectơ riêng thứ nhất của ma trận U sẽ đồng thời
là những hệ số của hàm phân biệt.
Trong trường hợp nà

y nên dựng hàm phân biệt như sau: Đầu tiên
phải giải phương trình đặc trưng dạng
0=Λ− SU (3.7)
và xác định
giá trị riêng cực đại thứ nhất
1
λ
, sau đó thế
1
λ
vào hệ
phương trình dạng
0Λ =−⋅ )( SUB
(3.8)
và giải nó theo vectơ riêng thứ nhất
1
B . Những hệ số của vectơ riêng
M
bbb
11211
,,, sẽ là những hệ số của hàm phân biệt.
Số hạng tự do

0
z
của hàm phân biệt trong trường hợp này được tính
theo công thức
21
2211
0

ss
sxsx
+
⋅+⋅
=z
,
trong đó
−−=

j
j
zz
N
s )(
1
1
1
1
những trị số phương sai của các giá trị
hàm phân biệt z đối với các vectơ thuộc lớp thứ nhất;

2
s tương tự đối
với lớp thứ hai.
Ứng dụng p
hương pháp phân tích phân biệt trong hải dương
học
Nội dun
g cơ bản của phương pháp phân tích phân biệt là phân tách
tối ưu các đối tượng thành những lớp theo một quy tắc toán học hữu hiệu

đã chọn (hàm phân biệt). Vì vậy, giá trị thực dụng của phương pháp phân
tích phân biệt có thể xem xét theo hai khía cạnh: về các kết quả của bản
thân sự phân loại các quan trắc xuất phát và về tính hiệu quả của hàm
phân biệt nhận được nhằm phục vụ những tính
toán tương tự khác.
Những kết quả phân định n
hóm nhờ các hàm phân biệt đáng tin, giải
thích được về mặt vật lý, đã thu hút sự quan tâm ứng dụng của các nhà
khí tượng thủy văn đối với phương pháp này ngay từ cuối những năm sáu
mươi [132, 188].
Phân tích những kinh n
ghiệm tích luỹ được về vận dụng phương
pháp phân tích phân biệt [83] ngay từ những năm bảy mươi đã cho thấy
rằng: trong trường hợp biết trước những đặc trưng của các lớp quan trắc
được nghiên cứu, thì phương pháp này sẽ hiệu quả nhất. Nói cách khác,
sự cần thiết phải sử dụng tập thầy đã trở nên rõ ràng. Vì vậy, trong tương
lai việc ứng dụng
phương pháp phân tích phân biệt được hình thành trên
cơ sở xử lý những tập quan trắc đa chiều, tính phân lớp được của những
tập này được quy định bởi chính cấu trúc của dữ liệu. Trong ứng dụng khí
tượng [84, 85], những lớp đó là dông, hiện tượng dính băng, mưa rào,
trong hải dương học [145] − các đợt băng, những dạng băng, những kiểu
sóng.
Giai đoạn hiện đại của việc sử dụng phương pháp
phân tích phân


55
biệt trong các bài toán phân loại có đặc điểm là người ta đã đưa hệ
phương pháp này vào lĩnh vực xử lý các kết quả viễn thám đại dương.

Những lớp ở đây đã được xác định trước − đó là lục địa, đại dương, mây.
Tính đa chiều của thông tin thể hiện ở những bức ảnh đa dải về mặt Trái
Đất. Vai trò của việc ứng dụng phươn
g pháp phân tích phân biệt là ở chỗ
nó giúp giải mã hữu hiệu các bức ảnh theo những thuật ngữ (các lớp) do
người nghiên cứu đề ra [10, 11, 116, 244].
Gần đây
, cách tiếp cận tương tự cũng được triển khai để xử lý những
tín hiệu từ các trạm rađa trên đất và trên máy bay nhằm phân tích những
bất đồng nhất cục bộ của mặt biển và băng [214, 242]. Trong những ứng
dụng đó tốc độ xử lý thông tin có vai trò đáng kể. Sự đơn giản tương đối
và tốc độ cao của các thuật toán tính toán của phương pháp phân tích
phân biệt đã làm
cho phương pháp này rất phổ dụng trong khi giải quyết
các bài toán xử lý nghiệp vụ những kiểu ảnh khác nhau.
Nội dung t
hực dụng quan trọng của các lớp phân biệt còn quyết định
một hướng ứng dụng nữa của phương pháp phân tích phân biệt − đó là dự
báo sự phát triển của các quá trình khí tượng thủy văn. Trong lĩnh vực
này, các thủ tục phân tích phân biệt sẽ được dùng để thể hiện toàn khối
lưu trữ quan trắc trong quá khứ thành dạng chuỗi tuần tự các lớp [9, 63,
108, 110, 135, 156, 217].
Mỗi một lớp
có kèm theo những giá trị cụ thể của một bộ những đặc
trưng khí tượng thủy văn (những tiên lượng) làm thành "vectơ trạng thái
khí hậu" [62, 117]. Việc dự báo một lớp tương lai cùng với vectơ trạng
thái tương ứng với nó sẽ được thực hiện hoặc trên cơ sở quy luật xác suất
đã tìm được về sự thay thế lẫn nhau của các lớp, hoặc bằng cách ngoại
suy
hồi quy những tiên lượng riêng biệt. Phương pháp tiếp cận này đặc

biệt thành công trong dự báo những hiện tượng nguy hiểm [130, 152] và
điều kiện băng [129].
Tuy nhiên, trong nhiều trường hợp, những ưu việt của phương phá
p
phân tích phân biệt làm cho nó phổ dụng lại đồng thời trở thành những
nhược điểm, làm giảm chất lượng phân loại. Thí dụ, sự đơn giản của
phương pháp phân tích phân biệt tuyến tính kinh điển là do điều kiện định
trước về sự bằng nhau của các ma trận hiệp biến của các lớp. Trong thực
tế đòi hỏi này
không phải lúc nào cũng được kiểm tra về mặt thống kê.
Chính sự không bằng nhau của các phương sai nội tại các lớp sẽ dẫn tới
làm chệch những ước lượng chỉ số phân biệt của bản thân các lớp và các
biên giới của chúng. Trong một thủ tục phân loại nào đó, thì vấn đề cơ
bản chính là định ra biên giới các lớp một cách tin cậy. Phương pháp
phân tích phân biệt tuyến t
ính có thể dẫn tới những sai lầm nghiêm trọng
khi ước lượng biên giới các lớp trong trường hợp có sự khác biệt đáng kể
về thống kê trong các ma trận hiệp biến của các lớp.
Ở mức độ nào đó có
thể khắc phục nhược điểm này, nếu ta giữ
nguyên những phương sai nội lớp trong các công thức tính hàm phân biệt
[188, 196, 198]. Tuy nhiên, trong trường hợp này hàm phân biệt trở nên
phi tuyến. Từ lâu nay, các nhà khí tượng thủy văn đã chú ý tới vấn đề
này. Và phân tích phân biệt phi tuyến đã hơn một lần được sử dụng để
giải quyết các bài toán thực dụng [180, 217, 269].
Vấn đề có tính nguy
ên tắc thứ hai của phương pháp phân tích phân
biệt liên quan tới dạng phân bố các dấu hiệu bên trong các lớp. Theo
truyền thống người ta giả thiết tồn tại phân bố chuẩn đa chiều. Trên thực
tế sự sai khác của luật phân bố thực nghiệm trực tiếp dẫn tới sai số trong

khi tính toán xác suất các quan trắc thuộc lớp này hay lớp kia.
Trong thực hành, vấn đề này
được giải quyết hoặc bằng cách tuyển
chọn bổ sung những dấu hiệu mang thông tin, hoặc bằng cách sử dụng
phương pháp phân tích phân biệt phi tham số. Ý tưởng tuyển chọn các
dấu hiệu tối ưu để phân biệt các quan trắc thường hay được giải quyết
bằng hệ phương pháp phân tích phân biệt từng bước [196, 249, 269].
Giống như tr
ong phân tích hồi quy từng bước, ở đây cũng thực hiện
nguyên tắc loại dần dần hoặc bổ sung dần dần các dấu hiệu. Chỉ tiêu hiệu
quả của việc lựa chọn các dấu hiệu chính là những ước lượng
2
D



56
khoảng cách Magalonobis và mức thoả mãn các giả thiết phù hợp luật
phân bố chuẩn.
Hiện nay
, kỹ thuật của phương pháp phân tích phân biệt phi tham số
đang phát triển. Hệ phương pháp phân tích phân biệt dựa trên việc giải
bài toán các giá trị riêng và các vectơ riêng của ma trận hiệp biến khối đã
có ứng dụng trong giải quyết nhiều vấn đề hải dương học trong các công
trình của Iu. V. Nhikolaev [130]. Phương pháp tiếp cận này, có tên gọi là
phân tích phân biệt chuẩn hoá, cũng vẫn đang là đối tượng nghiên cứu lý
thuyết [94, 95].






















Chương 4 - NỘI DUNG DỰ BÁO CỦA CÁC
PHƯƠNG PHÁP PHÂN TÍCH THỐNG KÊ
ĐA CHIỀU
Những kết luận khi tiến hành chẩn đoán thống kê cung cấp cho ta
khái niệm về cơ chế của quá trình đa chiều, quá trình này được xác định
với độ chính xác cho trước thông qua một số hữu hạn những biến thống
kê đã biết, điều đó có thể xem là căn cứ đầy đủ để triển khai những sơ đồ
dự báo các quá trình. Chúng ta sẽ xét vấn đề này trong khuôn khổ hai
quan điểm t
iếp cận chẩn đoán cơ bản − quan điểm cấu trúc và quan điểm
phân loại các quá trình đa chiều. Nhiệm vụ chính của chương này − xác
định nên ưu tiên những phương pháp dự báo thống kê xác suất nào để dự

báo những đặc trưng tổng quát trong những tình huống cụ thể. Sự phong
phú các phương pháp dự báo về phía mình lại đặt ra nhiệm vụ liên kết
(phối hợp) hiệu quả một số phương
pháp nhằm xây dựng dự báo tối ưu.
Khi suy xét về những nét ưu việt quan trọng của giải pháp phương pháp
luận này so với những giải pháp truyền thống, cũng không nên bỏ qua
những hạn chế khách quan của nó liên quan tới bản thân tính có dự báo
được hay không về mặt thống kê của quá trình nghiên cứu. Khái niệm
này khi áp dụng vào những quá trình hải dương nhiều chiều còn chưa
được phân tích trong các tài liệu ứng dụng, mặc dù nó rất lý t
hú về mặt
thực tiễn, vì nó giúp ta tránh được sự tự mãn hẹp hòi trừu tượng trong dự
báo và quay về với thực tại sinh động của công tác dự báo hải dương học.
4.1. DỰ BÁO CẤU TRÚC CỦA CÁC QUÁ TRÌNH
Nhờ kết quả khai
triển trực giao ma trận các biến quan trắc, cấu trúc
của các quá trình hải dương được khái quát trong hai tập hợp các tham số

×