Tải bản đầy đủ (.pdf) (25 trang)

Sử dụng hàm cực đại trong phân tích nhận dạng thống kê cho nhiều tổng thể nhiều chiều

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (344.76 KB, 25 trang )


ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
***






VÕ VĂN TÀI



SỬ DỤNG HÀM CỰC ĐẠI
TRONG PHÂN TÍCH NHẬN DẠNG THỐNG KÊ
CHO NHIỀU TỔNG THỂ NHIỀU CHIỀU




Chuyên ngành : Lý thuyết xác suất và thống kê toán học
Mã số : 62 46 15 01



LUẬN ÁN TIẾN SĨ TOÁN HỌC







HƯỚNG DẪN KHOA HỌC:
1. GS.TS. PHẠM GIA THỤ
2. TS. TÔ ANH DŨNG








Thành Phố Hồ Chí Minh - 2010
1

1. TỔNG QUAN CỦA LUẬN ÁN
1.1. Giới thiệu vấn đề nghiên cứu trong luận án
Xuất phát từ những đòi hỏi cần phải giải quyết trong
thực tế, bài toán nhận dạng ra đời. Bài toán nhận dạng được
phát triển theo hai hướng chính: Nhận dạng được giám sát và
nhận dạng không được giám sát. Trong bài toán nhận dạng
được giám sát, chúng ta biết rõ ràng về sự tách biệt của k tổng
thể, dựa vào đó tìm ra quy luật phân loại phần tử mới vào một
trong k tổng thể đã biết trước. Thông thường trước đó người ta
tìm ra quy luật để phân biệt k tổng thể ban đầu, tuy nhiên hai
vấn đề này có thể giải quyết độc lập. Nhận dạng nói chung và
nhận dạng được giám sát nói riêng gồm nhiều lĩnh vực khác
nhau. Tuy nhiên trong luận án này, phần đầu chúng tôi chỉ giải
quyết vấn đề quan trọng được đặt ra trong thống kê dưới hình

thức hai bài toán: bài toán phân biệt và bài toán phân loại.
Bài toán phân biệt: Từ một tập hợp gồm các phần tử mà ta biết
rõ các phần tử đến từ tổng thể nào trong số k tổng thể, dựa trên
các biến quan sát từ mỗi phần tử cần tìm ra một quy luật để
phân chia chúng đúng như k tổng thể ban đầu.
Bài toán phân loại: Với k tổng thể đã cho và một phần tử mới
có biến quan sát đã biết, cần tìm một quy luật tối ưu để xếp nó
vào tổng thể thích hợp nhất trong số k tổng thể đã biết trước.
2

Thông thường nếu tìm được những biểu thức giải tích
cụ thể cho bài toán phân biệt thì cũng sẽ giải quyết được bài
toán phân loại và trong trường hợp này cả hai bài toán đặt ra
đều được giải quyết trọn vẹn. Khi không tìm được quy luật cho
bài toán phân biệt, sử dụng hàm cực đại, chúng ta vẫn có thể
giải quyết được bài toán phân loại. Đó là đóng góp mới được
trình bày trong luận án này.
. Trong nhận dạng không được giám sát, cũng được gọi là
phân tích chùm, chúng ta không có những dự kiến trước về sự
phân nhóm. Tập các dữ liệu không biết đến từ bao nhiêu tổng
thể, chúng ta cần phân chia những phần tử của tập hợp này
thành những nhóm với những mức độ khác nhau, sao cho các
phần tử trong cùng nhóm thì gần nhau theo một tiêu chí nào đó
và các phần tử khác nhóm nhau thì ít gần nhau hơn. Việc xác
định bao nhiêu nhóm được phân chia tùy thuộc vào tập dữ liệu
hiện có và cũng tùy thuộc vào chủ quan của người thực hiện.
Phân tích chùm được xem là sự mở rộng của bài toán phân loại
và phân biệt. Với bài toán phân tích chùm, luận án này xét phần
tử là hàm mật độ xác suất.
Hiện nay có nhiều nhà toán học quan tâm đến các bài

toán này, tuy nhiên trong cách giải quyết nhiều khía cạnh vẫn
chưa trọn vẹn. Luận án này góp phần giải quyết một số khía
cạnh chưa trọn vẹn đó. Cụ thể, sử dụng hàm cực đại luận án đưa
3

ra một công cụ thuận lợi và hiệu quả để giải quyết bài toán
phân loại và phân biệt và tạo ra một sự tiến bộ quan trọng về
mặt tính toán. Hàm cực đại cũng sử dụng để giải quyết bài toán
chùm các hàm mật độ xác suất. Một số khái niệm mới và kết
quả lý thuyết được thiết lập trong luận án liên quan đến bài toán
phân biệt, phân loại và phân tích chùm các hàm mật độ xác
suất.
1.2. Các kết quả liên quan đến luận án
Bài toán phân loại và phân biệt lần đầu tiên được đưa ra
bởi Fisher (1936) giải quyết cho trường hợp hai tổng thể với
hàm phân biệt tuyến tính Fisher. Hàm phân biệt này chỉ được
thiết lập khi ma trận hiệp phương sai của hai tổng thể bằng
nhau. Năm 1948, Rao đã mở rộng cho trường hợp nhiều hơn hai
tổng thể, nhưng cũng trên cơ sở giả thiết ma trận hiệp phương
sai các tổng thể bằng nhau. Một phương pháp khác, đó là
phương pháp thống kê thứ tự do Kendall (1975) đề nghị. Nhưng
đây chỉ là phương pháp mang tính chất thủ công, rất phức tạp
mà thực tế gần như không thể thực hiện được.
Một số khía cạnh liên quan của bài toán phân loại và
phân biệt chưa được đề cập cho đến 1970 khi mà máy tính chưa
được phát triển. Andrews (1972), Chen (1973), Young và
Calvert (1974), Hand (1981), Devijer và Kittler (1982),
Fukunaga (1990), McLachlan (1992), Webb (2002), đã tổng
4


kết những kết quả đạt được của bài toán phân loại và phân biệt.
Dựa vào phương pháp Bayes họ đã đưa ra những tiêu chuẩn
khác nhau để phân loại và phân biệt như: Tiêu chuẩn phần tử
kế cận gần nhất, tiêu chuẩn độ rủi ro của sự phân loại, tiêu
chuẩn Neyman-Pearson, tiêu chuẩn minimax, Ở đây xác suất
sai lầm của phân loại và phân biệt đã được xem xét. Phương
pháp Bayes với các tiêu chuẩn đã nêu cho đến nay được xem có
nhiều ưu điểm nhất vì đã giải quyết được yêu cầu đặt ra của bài
toán: Tìm ra thuật toán, đồng thời đưa ra biểu thức tính sai số
phân loại và phân biệt. Tuy nhiên vấn đề giải quyết chỉ mang
tính chất lý thuyết, việc tính toán thực tế hầu như chưa có sự
tiến bộ nào đáng kể do tính chất phức tạp của các tiêu chuẩn,
hay tính tích phân,… Việc phân loại và phân biệt đặc biệt là
việc tính xác suất sai lầm cụ thể chỉ được thực hiện khi có các
giả thiết về ma trận hiệp phương sai bằng nhau, về tính chuẩn
của dữ liệu và hầu như chỉ xem xét cho trường hợp hai tổng thể.
Trong nỗ lực xét những vấn đề liên quan, nhóm tác giả Pham-
Gia, T. và Turkkan, N.và Bekker, A. (2006) đã có những đóng
góp quan trọng trong việc xác định xác suất tiên nghiệm, tỷ lệ
trộn của hai tổng thể và sai số Bayes trong phân biệt hai tổng
thể. Tuy nhiên việc phân loại và phân biệt, việc tính sai số
Bayes cho nhiều tổng thể, nhiều chiều cũng chưa được đề cập.
5

Trong bài toán phân tích chùm, dựa vào định nghĩa khoảng cách
của hai phần tử cũng như hai nhóm dữ liệu rời rạc Sibson
(1973), Defays (1977), Rohlf (1982), …đã đưa ra hai thuật
toán cụ thể cho việc xây dựng chùm. Các thuật toán này chỉ xây
dựng chùm với các phần tử rời rạc. Hạn chế chung của các
phương pháp này là đánh giá mức độ “gần” và “xa” của những

phần tử trong cùng chùm và giửa các chùm với nhau chỉ đơn
thuần dựa vào định nghĩa khoảng cách truyền thống mà không
dựa vào sự phân bố của dữ liệu nên đôi lúc tạo ra nghịch lý cho
kết quả phân tích chùm: Phần tử đúng phải xếp vào chùm này
nhưng lại xếp vào chùm kia, hay ngược lại.
Ở Việt Nam hầu như chưa có nhà toán học nào nghiên
cứu sâu về các vấn đề trên. Một số tác giả chỉ quan tâm đến
khía cạnh ứng dụng của nó.
1.3. Bố cục của luận án
Luận án gồm có phần mở đầu, phần nội dung, phần kết
luận cùng với phụ lục, danh mục các công trình của tác giả và
tài liệu tham khảo. Phần nội dung gồm 5 chương: ngoài chương
1 là phần kiến thức cơ sở, các chương 2, 3, 4 và 5 là phần chính
của luận án trình bày những đóng góp cho bài toán phân loại,
phân biệt và phân tích chùm. Phần phụ lục trình bày những tính
toán chi tiết đã được nêu kết quả trong phần nội dung.
6

2. NỘI DUNG CỦA LUẬN ÁN
2.1. Khoảng cách L
1
của các hàm mật độ xác suất
Xét khoảng cách của k hàm mật độ xác suất


)(), ,(),(
21
xfxfxf
k
, 2


k . Khi k = 2 có nhiều loại khoảng
cách khác nhau đã được sử dụng như khoảng cách Chernoff,
khoảng cách Divergence, khoảng cách L
p
,… Khi k > 2 có khái
niệm được đưa ra để đánh giá mức độ tương đồng của các hàm
số,đó là affinity của Matusita (1967), affinity của Toussaint
(1972),…. Thông thường các nhà toán học quan tâm đến
khoảng cách L
p
, đặc biệt là L
2
. Luận án quan tâm đến khoảng
cách L
1
bởi vì nó nó được xem là gần gũi và tự nhiên nhất của
đại lượng khoảng cách. Khoảng cách L
1
của hai hàm mật độ
xác suất đã được định nghĩa như sau:







n
R

dffff xxx
21
1
21
,
Khi có nhiều hơn hai hàm mật độ xác suất, khoảng cách L
1
của
chúng thật sự chưa được định nghĩa. Luận án đã đưa ra công
thức đánh giá mức độ gần của các hàm mật độ xác suất mà nó
được xem như khoảng cách
1
L
.
Định nghĩa 1: Đặt


)(), ,(),(max)(
21max
xxxx
k
ffff




)(), ,(),(max)(
21max
xxxx
k

gggg

, với ,3

k
)()( xx
iii
fqg

, q
i
là xác suất tiên nghiệm của tổng thể thứ
7

i,



k
i
ii
qq
1
1),1,0( . Khi đó khoảng cách của k hàm {f
i
(x)} và
{g
i
(x)} được định nghĩa như sau:




1, ,,
max
1
21


n
R
k
dffff xx

k
dgggg
n
R
k
1
)(, ,,
max
1
21


xx
Khoảng cách L
1
và các phép đo khác có mối quan hệ như sau:
Khi k = 2

1
21
, ff = 2(1- )
2,1

,






 

n nn
R RR
dfdfPedfff xxxxxx
minmax2,1max
1
21
, ,


nn
R
NNNN
R
LdfffLdf
2
1

)(,)(
max
1
21max
xxxx ,




nn
R
B
R
B
ffDdfffffDdf ),(411
2
1
)(,),()(
21
2
max
1
2121max
xxxx
Trong đó
2,1

là hệ số chồng lấp của )(
1
xf và )(

2
xf ,

NN
L là sai lầm trong tiêu chuẩn phân loại phần tử gần nhất,
),(
21
ffD
B
là khoảng cách Bhattacharrya.
Khi k > 2
Định lý 1. Ta có mối quan hệ giữa khoảng cách L
1
của k hàm


)(x
i
g với affinity của Toussaint các


)(x
i
f như sau:
8

a)
k
fffDq
k

ggg
k
j
kTjk
j
1
), ,,(1
1
1
, ,,
1
)(
21
1
21


















b)















k
ji
i
jiTjik
ffDqq
k
ggg
1
)1,(1
1
21
),(

1
1, ,,



Trong đó ),()(
k21
α, ,α,α





k
j
jj
1
1),1,0(,

,


), ,,(
21 kT
fffD là khoảng cách Toussaint.
Định lý 2. Khoảng cách
1
L
của k hàm } ,,{
21 k

ggg có biên
như sau:
a)
k
ggg
k
q
ki
1
1, ,,
1
}max{
1
21

,


 




i j
jikiji
ji
gg
k
ggg
k

qggb
1
1
21
1
,
1
, ,,
1
min,max
2
1
)
Nhận xét: Khi
k
q
i
1
 với mọi i, từ kết quả a) và b) của định lý
2 ta có biên cho khoảng cách
1
L
của k hàm mật độ xác suất
như sau:
i) 1, ,,0
1
21
 kfff
k
,

2

k

ii)






i j
jikji
ji
ff
k
fffff
1
1
21
1
,
1
, ,,,max
2
1

9

iii)







i j
jikji
ji
fffffff
1
1
21
1
,, ,,2,max .
Kết quả iii) chính là kết quả mà Glick (1973) đã đưa ra.
2.2. Sử dụng hàm cực đại trong phân loại và phân biệt
Cho đến hiện tại có ba phương pháp chính để giải quyết
bài toán phân loại và phân biệt: Phương pháp thống kê thứ tự,
phương pháp Fisher và phương pháp Bayes. Phương pháp
Bayes có nhiều ưu điểm nhất, tuy nhiên trong việc áp dụng nó
còn gặp rất nhiều khó khăn, đặc biệt là việc tính toán. Luận án
dựa trên phương pháp Bayes, với công cụ hàm cực đại đã giải
quyết hiệu quả bài toán phân loại và phân biệt. Các kết quả của
phần này được trình bày trong [1] và [3].
2.2.1. Bài toán phân loại
Mục đích chính của bài toán phân loại là nhận biết được
phần tử mới xếp vào tổng thể nào trong số k tổng thể đã cho
, ,,2,1, kiw
i


2

k , sao cho nó có xác suất sai lầm nhỏ nhất.
Giả sử hàm cực đại đã được định nghĩa và xác định trên mọi
điểm của R
n
, với
k
tổng thể có hàm mật độ xác suất )(x
i
f và
xác suất tiên nghiệm )1,0(

i
q ,



k
i
i
q
1
1
, dựa vào hàm cực đại
nguyên tắc phân loại phần tử mới có biến quan sát
0
x như sau:
Nếu )()(

00max
xx
jj
fqg

thì xếp phần tử mới vào
j
w
10

Trong đó ), ,,()(
21 k
qqq

q , )()( xx
iii
fqg

.
Nguyên tắc này vừa đơn giản vừa tổng quát, đặc biệt hiệu
quả hơn trong tính toán so với những nguyên tắc đã có. Nguyên
tắc này cũng tương đương với nguyên tắc Bayes bởi vì việc xác
định những miền khác nhau cho mục đích phân loại của phương
pháp Bayes cũng giống như việc xác định những miền khác
nhau của định nghĩa )(
max
xg .
Khi ta không quan tâm đến xác suất tiên nghiệm hoặc
xác suất tiên nghiệm bằng nhau cho các tổng thể thì nguyên tắc
trên trở thành: Nếu )()(

00max
xx
j
ff

thì xếp phần tử mới
0
x
vào
j
w .
Dựa vào nguyên tắc này việc tính toán để phân loại một
phần tử trong luận án được thực hiện theo các hướng: Khảo sát
hàm cực đại của hai hàm mật độ xác suất và chỉ ra biểu thức cụ
thể khi chúng có phân phối thông dụng như phân phối mũ, phân
phối Beta và phân phối chuẩn; viết chương trình tìm hàm cực
đại của nhiều hơn hai hàm mật độ xác suất một chiều; viết
chương trình phân loại phân loại phần tử mới trong tất cả các
trường hợp. Các chương trình được viết trên phần mềm Maple.
Có thể nói khi biết hàm mật độ xác suất dựa vào nguyên tắc
mới đã đưa ra bài toán phân loại đã được giải quyết trọn vẹn.
11

2.2.2. Bài toán phân biệt
Khi tìm được hàm cực đại của các hàm mật độ xác suất
{f
i
(x)} cũng như hàm cực đại của các hàm {g
i
(x)} thì cũng giải

quyết được bài toán phân biệt. Bởi vì biên nơi hàm cực đại nhận
trên những miền khác nhau chính là hàm phân biệt. Luận án
khảo sát hàm phân biệt trong trường hợp một chiều và nhiều
chiều. Trong trường hợp một chiều, biên cho các tổng thể là các
điểm. Các điểm này được chỉ ra cụ thể cho các tổng thể có biến
quan sát một chiều thông dụng như phân phối mũ, phân phối
Beta và phân phối chuẩn. Trong trường hợp nhiều chiều khi các
tổng thể có biến quan sát chuẩn, hàm phân biệt được chỉ ra cụ
thể là tuyến tính hoặc bậc hai tùy theo ma trận hiệp phương sai
của các tổng thể bằng nhau hoặc khác nhau. Khi không có phân
phối chuẩn hàm phân biệt được chỉ ra cho từng trường hợp cụ
thể.
2.2.3. Sai số Bayes
Một vấn đề quan trọng trong việc giải quyết bài toán
phân loại và phân biệt là tính xác suất sai lầm. Sai lầm trong
phương pháp Bayes được gọi là sai số Bayes. Sai số Bayes đã
được chứng minh là xác suất sai lầm nhỏ nhất trong bài toán
phân loại và phân biệt. Sử dụng hàm cực đại, luận án đã đưa ra
12

một công thức tính sai số Bayes rất đơn giản và thuận lợi cho k
tổng thể có hàm mật độ xác suất f
i
(x), xác suất tiên nghiệm
(q) =(q
1
, q
2
,…, q
k

) như sau:
xx dgPe
n
R
q
k
)(1
max
)(
, ,2,1


Luận án đã khảo sát việc tính sai số Bayes theo các
hướng:Tìm biểu thức giải tích cụ thể cho sai số Bayes khi phân
loại và phân biệt hai tổng thể có biến quan sát một chiều; viết
chương trình tính sai số Bayes bằng phần mềm Maple khi phân
loại và phân biệt nhiều hơn hai tổng thể. Chương trình này được
viết dựa trên việc tính được nguyên hàm của hàm cực đại trong
trường hợp 1 chiều hoặc dựa trên việc tính tích phân bằng
phương pháp Monte Carlo trong trường hợp nhiều chiều. Ngoài
ra, luận án đã thiết lập hàm mật độ xác suất cho sai số Bayes
qua tổng hai thành phần sai số khi giả sử chúng độc lập và có
phân phối trên khoảng






4

1
,0
trong phân loại và phân biệt hai
tổng thể:
Định lý 3. Gọi X
1
và X
2
là hai thành phần của sai số Bayes,
Y là sai số Bayes,
21
XXY


. Giả sử X
1
và X
2
là 2 đại
lượng ngẫu nhiên độc lập trên






4
1
,0
có hàm mật độ xác suất

13

lần lượt )(
1
xf và )(
2
xf , khi đó hàm mật độ xác suất của Y là:





















)
2

1
,0( khi 0
2
1
4
1
khi )()(
4
1
0 khi )()(
)(
4
1
4
1
21
0
21
y
ydttyftf
ydttyftf
yg
y
y

Hàm mật độ g(y) được thiết lập bởi những biểu thức giả tích cụ
thể khi xét hai thành phần sai số có phân phối thông dụng trên
khoảng







4
1
,0
như phân phối mũ, Beta và chuẩn.
2.2.4. Mối quan hệ giữa các đại lượng trong bài toán phân
loại và phân biệt
i) Trong phân loại và phân biệt hai tổng thể ta có các mối quan
hệ sau:


nn
RR
ffdfdfPe
1
21maxmax2,1
,)()(2 xxxx


nn
RR
qq
ggdgdgλPe
1
21maxmax
)(
2,1

)(
2,1
,)()(1 xxxx
ii) Trong phân loại và phân biệt nhiều hơn hai tổng thể các mối
quan hệ được thể hiện qua 2 định lý sau:
14

Định lý 4. Chúng ta có mối quan hệ của
1
21
, ,,
k
ggg với sai
số Bayes và hệ số chồng lấp của các {g
i
(x)} như sau:
)(
, ,2,1
1
21
1
1, ,,)
q
kk
Pe
k
ggga  ,
3

k


 











)(
, ,,
1
)(
,,
)(
,
1
21
1
1
1, ,,)
q
kji
lji
k
q

lji
ji
q
jik
k
gggb


Hệ quả:

)/1(
, ,2,1
1
21
1, ,,)
k
kk
kPekfffa 
, 3

k .

 
k
k
lji
ljijik
ff
k
kfffb

, ,2,1
1
,,
1
1
21
)1( ,
2
1
2
11, ,,)












Định lý 5. Chúng ta có những kết quả sau về sai số Bayes khi
quan tâm đến xác suất tiên nghiệm ), ,,()(
21 k
qqq

q
a)

)(
, ,2,1
q
k
Pe =


)(
, ,,
)(
,,
)(
,
1
q
kji
lji
k
q
lji
ji
q
ji



 
b)









i j
ji
ggk
k
1
1
1

)(
, ,2,1
q
k
Pe





 
i
i
ji
ji
qgg min,max

2
1
1
1



c) 0


)(
, ,2,1
q
k
Pe




i
i
qmax1



d)
1
1
)/1(
, ,2,1

)1/1(
1, ,2,1






k
A
Pe
k
k
Pe
k
k
k
k


15

2.2.5. Ví dụ
Minh họa việc sử dụng hàm cực đại giải quyết bài toán
phân loại và phân biệt, luận án đã xét nhiều ví dụ trong 2 trường
hợp: mô hình chuẩn và mô hình không chuẩn. Với mô hình
không chuẩn xét bài toán phân loại và phân biệt cho hai tổng
thể với biến quan sát Beta hai chiều. Với mô hình chuẩn xét dữ
liệu rời rạc về hoa Iris gồm 3 loại: Setosa, Versicolor và
Virginica. Bốn biến được sử dụng là: chiều dài và chiều rộng

của cánh hoa, chiều dài và chiều rộng của đài hoa. Mỗi loại lấy
50 phần tử rời rạc, sau đó ước lượng hàm mật độ xác suất cho
mỗi loại bằng phương pháp tham số và phi tham số (phương
pháp hàm hạt nhân dạng chuẩn). Thực hiện phân loại và phân
biệt cho 2 tổng thể và 3 tổng thể với hai biến và bốn biến, trong
trường hợp ma trận hiệp phương sai của các tổng thể bằng nhau
và không bằng nhau. Trong mỗi ví dụ việc tính toán gồm các
công việc sau: Tìm hàm phân biệt, đưa ra nguyên tắc phân loại,
tính sai số Bayes, vẽ hình minh họa trong trường hợp một chiều
và hai chiều.
Nhận xét: Khi sử dụng nhiều biến, ma trận hiệp phương sai
khác nhau bài toán phân loại, phân biệt sẽ tốt hơn vì sai số
Bayes của nó nhỏ hơn. Trong phân loại hai tổng thể với bốn
16

biến có ma trận hiệp phương sai giống nhau ta có kết quả giống
như Kendall đã thực hiện.
2.3. Chùm các hàm mật độ xác suất
2.3.1. Giới thiệu
Khi có nhiều dữ liệu, người ta có nhu cầu phân chia dữ
liệu thành những nhóm với những phần tử “gần” nhau theo một
dấu hiệu nào đó, từ đó bài toán phân tích chùm ra đời. Phân tích
chùm là một dạng tổng quát hơn của bài toán phân loại và phân
biệt. Có rất nhiều ứng dụng trong những lĩnh vực khác nhau của
bài toán phân tích chùm: y học, kinh tế, kỹ thuật, xã hội, … và
trong bất kỳ lĩnh vực nào, nơi mà việc nhóm những phần tử lại
với nhau được đòi hỏi. Hiện tại có hai phương pháp chủ yếu để
xây dựng chùm cho các phần tử rời rạc. Hạn chế chung của hai
phương pháp này là đánh giá mức độ gần của các phần tử trong
cùng chùm và mức độ xa giữa các chùm với nhau chỉ dựa vào

khoảng cách truyền thống mà không chú ý đến sự phân phối
của dữ liệu đã cho, nên tiêu chuẩn đánh giá trong một số trường
hợp được xem là chưa hợp lý.
Chùm của các hàm mật độ xác suất, nơi mỗi hàm mật độ
xác suất mô tả một tổng thể là một chủ đề chưa được nghiên
cứu, mặc dù một số tác giả như Matusita (1967), Toussaint
17

(1972),… đã đưa ra định nghĩa khoảng cách giữa hai hàm mật
độ xác suất cũng như của nhiều hơn hai hàm mật độ xác suất để
sử dụng cho mục đích đó. Hàm cực đại đã được sử dụng tạo ra
một công cụ mới hiệu quả và thuận lợi cho bài toán phân loại và
phân biệt. Trong phần này chúng tôi tiếp tục sử dụng hàm cực
đại để xây dựng những thuật toán mới cho chùm những
hàm mật độ xác suất. Với sự phát triển của tin học và thống kê
gần đây, việc ước lượng hàm mật độ xác suất tương đối chính
xác và không quá phức tạp, vì vậy phương pháp của chúng tôi
nêu ra trong phần này để tạo nhiều nhóm những hàm mật độ
xác suất vào những tập tương tự nhau có thể bắt đầu với việc
ước lượng hàm mật độ xác suất từ những dữ liệu rời rạc, và như
vậy có khả năng áp dụng được trong thực tế. Nội dung chính
của phần này được trình bày trong [4].
2.3.2. Độ rộng của chùm
Độ rộng của chùm là một khái niệm mới được đưa ra
trong luận án. Nó đo mức độ gần nhau của các phần tử trong
chùm và mức độ xa nhau giữa các chùm khi thực hiện bài toán
phân tích chùm các hàm mật độ xác suất.
Định nghĩa 2. Cho k hàm mật độ xác suất trên R
n
:



k
fff , ,,
21
, 2

k chúng ta định nghĩa độ rộng của chùm
18



k
fff , ,,
21
như sau:





n
R
kk
dfffffffw 1)(, ,,, ,,
max
1
2121
xx
Khi k = 2 thì độ rộng của chùm được định nghĩa:


   
1,
2
1
,
max
1
2121


n
R
dfffffw xx
Định nghĩa 3. Cho ), ,,(),, ,,(,
2121 mn
fffgggg là các hàm mật
độ xác suất, chúng ta định nghĩa độ rộng của chùm




m
fffg , ,,,
21






m
fffgw , ,,
21
 và độ rộng của chùm






nm
gggfff , ,,,, ,,
2121







nm
gggfffw , ,,, ,,
2121

.
Độ rộng của chùm được định nghĩa thông qua khoảng cách
1
L
của các hàm mật độ xác suất, vì vậy từ những kết quả đã có
về khoảng cách

1
L
chúng ta cũng có những kết quả sau
về độ rộng của chùm:
 
2,1
minmax2,1max2
1
)()(
2
1
)(
2
1
λ
dfdfPedff,f wi)
n nn
R RR
1




















 
xxxxxx


)/1(
, ,2,121
1, ,,)
k
kk
kPekfffwii  , 3

k ,

iii)


k
fffw , ,,
21
=
 
 











ji
ji
ffw
k
k
2
11
+

19


k
k
lji
lji , ,2,1
1
,,
)1(







iv)













i j
jikji
ji
ffwfffwffw ,, ,,,max
21

Sau đây ta xét mối quan hệ giữa độ rộng của hai chùm chỉ khác
nhau một phần tử, độ rộng của hai chùm và phần hợp
của chúng.
Định lý 6: Cho
121

,, ,,
kk
ffff là hàm mật độ xác suất của
1

k tổng thể. Chúng ta có các kết quả:
a)






 kk
fffwfffw , ,,, ,,
21121






n
R
k
dfh xxx )(),(min1
11

Trong đó



)(), ,(),(max)(
211
xxxx
k
fffh

, 3

k .
b)






Afffwfffwfffw
knnnk





1, ,,, ,,, ,,
212121

Trong đó
knkn



,3,



n
R
dkkA xxx )}(),(min{
21
với
)}(), ,(),(max{)(
211
xxxx
n
fffk


)}(), ,(),(max{)(
212
xxxx
knn
fffk


.
2.3.3. Ba phương pháp xây dựng chùm
Dựa vào tiêu chuẩn độ rộng chùm, luận án thiết lập 3
phương pháp xây dựng chùm: Phương pháp thứ bậc, phương
pháp không thứ bậc và phương pháp dựa vào độ rộng chùm.
Mỗi phương pháp đều đưa ra một thuật toán cụ thể. Kết quả

20

phương pháp thứ bậc là thành lập cây phân loại. Kết quả
phương pháp không thứ bậc là thành lập được số lượng chùm
cụ thể cho trước sao cho mỗi phần tử trong chùm có độ rộng
đến chính chùm nó đang thuộc nhỏ nhất so với tất cả những
chùm khác. Phương pháp cuối cùng xây dựng được những
chùm với độ động cho trước ban đầu.
2.3.4. Ví dụ
Minh họa và kiểm chứng cho ba phương pháp xây dựng
chùm đã nêu, luận án xem xét 2 ví dụ. Ví dụ 1 giả sử đã biết 7
hàm mật độ xác suất có phân phối chuẩn 1 chiều với độ lệch
chuẩn bằng nhau và trung bình khác nhau. Phân tích chùm theo
ba phương pháp trên, được kết quả cụ thể về cây phân loại, về
số lượng chùm cụ thể. Kết quả của ba phương pháp phù hợp với
nhau và phù hợp với những nhận xét ban đầu về chùm từ hình
vẽ. Ví dụ 2 xây dựng chùm từ dữ liệu rời rạc. Dữ liệu được chọn
là dữ liệu thực về điểm thi môn xác suất thống kê của 7 nhóm
sinh viên trường đại học Moncton- Canada năm 2008. Mỗi
nhóm sinh viên chọn 20 phần tử. Ước lượng hàm mật độ xác
suất cho mỗi nhóm bằng phương pháp hàm hạt nhân, sau đó
thành lập cây phân loại. Kết quả thu được phù hợp với những
nhận xét ban đầu từ số liệu và từ hình vẽ.
Nhận xét: Trong ví dụ 1 nếu sử dụng khoảng cách city-block sẽ
tạo ra sự bất hợp lý, vì phần tử đáng lẻ phải được xếp vào chùm
21

này nhưng lại xếp vào chùm kia. Nếu sử dụng khoảng cách
Euclide kết quả phân tích chùm không có sự khác biệt so với
tiêu chuẩn độ rộng chùm vì ở đó ta chọn độ lệch chuẩn bằng

nhau. Tuy nhiên trong ví dụ 2 kết quả phân tích chùm khác nhau
khi sử dụng khoảng cách Euclide và tiêu chuẩn độ rộng chùm vì
ở đó ta có ma trận hiệp phương sai của các hàm mật độ xác
suất khác nhau. Độ rộng chùm đánh giá mức độ gần nhau của
các phần tử trong chùm và mức độ xa nhau giữa các chùm
không chỉ dựa vào trung bình mà còn dựa vào sự phân bố của
dữ liệu nên có thể nói là chặc chẽ hơn tiêu chuẩn khoảng cách.
3. KẾT LUẬN
Sử dụng hàm cực đại luận án đã giải quyết hai bài toán
liên kết nhau: Bài toán phân loại, phân biệt và bài toán phân
tích chùm các hàm mật độ xác suất. Những kết quả đóng góp
chính của luận án như sau:
A. Về mặt lý thuyết
A.1. Thông qua hàm cực đại đưa ra một định nghĩa được
xem là khoảng cách L
1
của nhiều hơn hai hai hàm mật độ xác
suất


)(x
i
f và


)(x
i
g với ),()( xx
iii
fqg


và ),1,0(

i
q
22

2,1
1



kq
k
i
i
. Từ đây đã khảo sát được một số kết quả liên
quan đến khoảng cách này và các đại lượng khác của bài toán
phân loại và phân biệt:
i) Mối quan hệ giữa
1
21
, gg và hai xác suất sai lầm trong
phương pháp Bayes khi giả sử chúng là các đại lượng ngẫu
nhiên có phân phối thông dụng trên (0, 1/4).
ii) Mối quan hệ giữa khoảng cách
1
21
, ,,
k

ggg và affinity
của Toussaint cũng như giữa
1
21
, ,,
k
fff và affinity của
Matusita, các cận trên và cận dưới cho các khoảng cách đã
nêu và mối quan hệ giữa chúng với những số lượng phần tử
khác nhau của nó.
A.2.Sử dụng hàm cực đại để đưa ra một nguyên tắc khi
phân loại một phần tử mới, đồng thời tính được sai số Bayes
cho bài toán này khi quan tâm đến xác suất tiên nghiệm.
Nguyên tắc này đã chứng minh được tính hiệu quả cũng như sự
thuận lợi rất lớn về mặt tính toán, đặc biệt là cho trường hợp
nhiều tổng thể nhiều chiều. Dựa vào hàm cực đại, mối quan hệ
giữa các khoảng cách L
1
với sai số Bayes, hệ số chồng lấp của
các hàm mật độ xác suất với những cấp độ khác nhau đã được
23

thiết lập. Cận trên, cận dưới cho sai số Bayes và mối quan hệ
giữa chúng với nhau cũng đã được đưa ra.
A.3. Dựa vào hàm cực đại luận án xây dựng khái niệm
độ rộng của chùm. Độ rộng của chùm được sử dụng làm tiêu
chuẩn để giải quyết bài toán chùm các hàm mật độ xác suất.
Tiêu chuẩn này cùng với định lý được thiết lập có thể đánh giá
được mức độ “gần” của các phần tử trong chùm cũng như mức
độ “xa” của các chùm có chú ý đến sự phân bố của dữ liệu đã

cho. Ở đây đã nêu 3 phương pháp xây dựng chùm: Phương
pháp thứ bậc, phương pháp không thứ bậc và phương pháp xây
dựng chùm có độ rộng cho trước với những thuật toán cụ thể.
B. Về mặt tính toán
B.1. Viết được chương trình tìm hàm cực đại, tính sai số Bayes
cũng như khoảng cách L
1
của nhiều hàm mật độ xác suất khi
chúng có phân phối một chiều. Chương trình phân loại phần tử
mới cho nhiều tổng thể nhiều chiều cũng được xây dựng. Khi
các tổng thể có phân phối nhiều chiều, sử dụng tích phân Monte
– Carlo đã viết được chương trình tính sai số Bayes cho nhiều
tổng thể, nghĩa là đã giải quyết được khó khăn tính toán trước
đây của bài toán phân loại và phân biệt. Những chương trình
này cũng tính được độ rộng của chùm trong các trường hợp
24

khác nhau. Các chương trình này được viết trên phần mềm
Maple và có thể đưa vào thư viện của chương trình để những
người khác sử dụng.
B.2. Kiểm chứng kết quả lý thuyết trên những dữ liệu cụ thể.
Dữ liệu được kiểm chứng cho bài toán phân loại và phân biệt là
dữ liệu nổi tiếng của Fisher về hoa Iris, một dữ liệu chuẩn đã
được nhiều nhà toán học quan tâm. Dữ liệu minh họa trong bài
toán phân tích chùm là dữ liệu về hàm mật độ xác suất đã biết
và dữ liệu thực điểm thi môn xác suất thống kê của sinh viên
trường đại học Moncton – Canada năm 2008.



×