Tải bản đầy đủ (.pdf) (132 trang)

Sử dụng hàm cực đại trong phân tích nhận dạng thống kê cho nhiều tổng thể nhiều chiều

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.45 MB, 132 trang )


ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
***






VÕ VĂN TÀI



SỬ DỤNG HÀM CỰC ĐẠI
TRONG PHÂN TÍCH NHẬN DẠNG THỐNG KÊ
CHO NHIỀU TỔNG THỂ NHIỀU CHIỀU




Chuyên ngành : Lý thuyết xác suất và thống kê toán học
Mã số : 62 46 15 01



LUẬN ÁN TIẾN SĨ TOÁN HỌC







HƯỚNG DẪN KHOA HỌC:
1. GS.TS. PHẠM GIA THỤ
2. TS. TÔ ANH DŨNG








Thành Phố Hồ Chí Minh - 2010
PHẦN MỞ ĐẦU




1. GIỚI THIỆU BÀI TOÁN PHÂN BIỆT VÀ PHÂN LOẠI TRONG BÀI
TOÁN NHẬN DẠNG
Xuất phát từ những đòi hỏi cần phải giải quyết trong thực tế, bài toán nhận
dạng ra đời. Bài toán nhận dạng được phát triển theo hai hướng chính: Nhận dạng
được giám sát và nhận dạng không được giám sát.
Trong bài toán nhận dạng được giám sát, chúng ta biết rõ ràng về sự tách
biệt của k tổng thể, dựa vào đó tìm ra quy luật phân loại phần tử mới vào một trong
k tổng thể đã biết trước. Thông thường trước đó người ta tìm ra quy luật để phân
biệt k tổng thể ban đầu, tuy nhiên hai vấn đề này có thể giải quyết độc lập. Nhận
dạng nói chung và nhận dạng được giám sát nói riêng gồm nhiều lĩnh vực khác
nhau. Tuy nhiên trong luận án này, phần đầu chúng tôi chỉ giải quyết vấn đề quan

trọng được đặt ra trong thống kê dưới hình thức hai bài toán: bài toán phân biệt và
bài toán phân loại.
Bài toán phân biệt: Từ một tập hợp gồm các phần tử mà ta biết rõ các
phần tử đến từ tổng thể nào trong số k tổng thể, dựa trên các biến quan sát từ
mỗi phần tử cần tìm ra một quy luật để phân chia chúng đúng như k tổng thể
ban đầu. (Trong luận án tổng thể được hiểu là tập các phần tử trong phạm vi
khảo sát có chung đặc tính nào đó).
Bài toán phân loại: Với k tổng thể đã cho và một phần tử mới có biến
quan sát đã biết, cần tìm một quy luật tối ưu để xếp nó vào tổng thể thích hợp
nhất trong số k tổng thể đã biết trước.
Thông thường nếu tìm được những biểu thức giải tích cụ thể cho bài toán phân biệt
thì cũng sẽ giải quyết được bài toán phân loại và trong trường hợp này cả hai bài
2
toán đặt ra đều được giải quyết trọn vẹn. Khi không tìm được hàm phân biệt, sử
dụng hàm cực đại, chúng ta vẫn có thể giải quyết được bài toán phân loại.
. Trong nhận dạng không được giám sát, cũng được gọi là phân tích chùm,
chúng ta không có những dự kiến trước về sự phân nhóm. Tập các dữ liệu không
biết đến từ bao nhiêu tổng thể, chúng ta cần phân chia những phần tử của tập hợp
này thành những nhóm với những mức độ khác nhau, sao cho các phần tử trong
cùng nhóm thì gần nhau theo một tiêu chí nào đó và các phần tử khác nhóm nhau
thì ít gần nhau hơn. Việc xác định bao nhiêu nhóm được phân chia tùy thuộc vào
tập dữ liệu hiện có và cũng tùy thuộc vào chủ quan của người thực hiện. Phân tích
chùm được xem là sự mở rộng của bài toán phân loại và phân biệt. Với bài toán
phân tích chùm, luận án này xét phần tử là hàm mật độ xác suất.
Trong luận án, hàm cực đại được sử dụng trong bài toán phân biệt, bài toán
phân loại và bài toán phân tích chùm. Các bài toán này được đặt ra vốn xuất phát từ
yêu cầu phát triển của kinh tế xã hội và đã được ứng dụng nhiều trong các lĩnh vực
kinh tế học, sinh học, xã hội học,… Đã có nhiều kết quả ứng dụng thực tế được
công bố, tổng kết những khía cạnh khác nhau của các bài toán này (xem [1], [4],
[22], [25], [35], [57]). Trước sự phát triển nhanh chóng của khoa học kỹ thuật và

kinh tế xã hội, nhu cầu phân loại, phân biệt, phân tích chùm dữ liệu càng đòi hỏi
cấp thiết hơn, vì vậy vấn đề đặt ra của luận án là thiết thực.
Hiện nay có nhiều nhà toán học quan tâm đến các bài toán này, tuy nhiên
trong cách giải quyết nhiều khía cạnh vẫn chưa trọn vẹn. Luận án này góp phần
giải quyết một số khía cạnh chưa trọn vẹn đó.
2. CÁC KẾT QUẢ TRONG VÀ NGOÀI NƯỚC LIÊN QUAN ĐẾN LUẬN ÁN
Bài toán phân loại và phân biệt lần đầu tiên được đưa ra bởi Fisher (1936)
giải quyết cho trường hợp hai tổng thể với hàm phân biệt tuyến tính Fisher. Hàm
phân biệt này chỉ được thiết lập khi ma trận hiệp phương sai của hai tổng thể bằng
nhau. Năm 1948, Rao đã mở rộng cho trường hợp nhiều hơn hai tổng thể, nhưng
cũng trên cơ sở giả thiết ma trận hiệp phương sai các tổng thể bằng nhau. Một
3
phương pháp khác, đó là phương pháp thống kê tuần tự do Kendall (1973) đề nghị.
Nhưng đây chỉ là phương pháp mang tính chất thủ công, rất phức tạp mà thực tế gần
như không thể thực hiện được.
Một số khía cạnh liên quan của bài toán phân loại và phân biệt chưa được đề
cập cho đến 1970 khi mà máy tính chưa được phát triển. Andrews (1972), Chen
(1973), Young và Calvert (1974), Tou và Gonzales (1974), Hand (1981), Devijer và
Kittler (1982), Fukunaga (1990), McLachlan (1992), Webb (2002), đã tổng kết
những kết quả đạt được của bài toán phân loại và phân biệt, (xem [5], [8], [12],
[18], [27], [35], [53], [57], [58]. Dựa vào phương pháp Bayes họ đã đưa ra những
tiêu chuẩn khác nhau để phân loại và phân biệt như: Tiêu chuẩn về phần tử kế cận
gần nhất, tiêu chuẩn về độ rủi ro của sự phân loại, tiêu chuẩn Neyman-Pearson, tiêu
chuẩn Minimax,… Hàm phân biệt tuyến tính, hàm phân biệt bậc hai đã được nêu ra
từ các tiêu chuẩn này. Ở đây xác suất sai lầm của phân loại và phân biệt đã được
xem xét. Phương pháp Bayes với các tiêu chuẩn đã nêu cho đến nay được xem có
nhiều ưu điểm nhất vì đã giải quyết được yêu cầu đặt ra của bài toán: Tìm ra thuật
toán, đồng thời đưa ra biểu thức tính sai số phân loại và phân biệt. Tuy nhiên vấn
đề giải quyết chỉ mang tính chất lý thuyết, việc tính toán thực tế hầu như chưa có sự
tiến bộ nào đáng kể do tính chất phức tạp của các tiêu chuẩn, hay tính tích phân,…

Việc phân loại và phân biệt đặc biệt là việc tính xác suất sai lầm cụ thể chỉ được
thực hiện khi có các giả thiết về ma trận hiệp phương sai bằng nhau, về tính chuẩn
của dữ liệu và hầu như chỉ xem xét cho trường hợp hai tổng thể. Trong nỗ lực xét
những vấn đề liên quan, nhóm tác giả Pham-Gia, T. và Turkkan, N. (2006), Pham-
Gia, T.,Turkkan, N. và Bekker, A. (2006) (xem [40], [41]) đã có những đóng góp
quan trọng trong việc xác định xác suất tiên nghiệm, tỷ lệ trộn của hai tổng thể và
sai số Bayes trong phân biệt hai tổng thể. Tuy nhiên việc phân loại và phân biệt,
việc tính sai số Bayes cho nhiều tổng thể, nhiều chiều cũng chưa được đề cập.
Trong bài toán phân tích chùm, dựa vào định nghĩa khoảng cách của hai phần
tử cũng như hai nhóm dữ liệu rời rạc Sibson (1973), Defays (1977), Rohlf (1982),
… (xem [11], [44], [47]) đã đưa ra hai thuật toán cụ thể cho việc xây dựng chùm.
4
Các thuật toán này xây dựng chùm chỉ với các phần tử rời rạc. Hạn chế chung của
các phương pháp này là đánh giá mức độ “gần” và “xa” của những phần tử trong
cùng chùm và giửa các chùm với nhau chỉ đơn thuần dựa vào định nghĩa khoảng
cách truyền thống mà không dựa vào sự phân bố của dữ liệu nên đôi lúc tạo ra
nghịch lý cho kết quả phân tích chùm: Phần tử đúng phải xếp vào chùm này nhưng
lại xếp vào chùm kia, hay ngược lại.
Ở Việt Nam hầu như chưa có nhà toán học nào nghiên cứu sâu về các vấn đề
trên. Một số tác giả như Vương Qưân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu,
Trần Minh Ngọc, Lê Hồng Phương, Tô Cẩm Tú, (xem [1],[4]) quan tâm đến khía
cạnh ứng dụng của nó.
3. ĐÓNG GÓP CỦA LUẬN ÁN
Trên cơ sở phân tích những hạn chế còn tồn tại, dựa vào phương pháp Bayes
cùng với hàm cực đại, chúng tôi đưa công cụ mới để giải quyết một số vấn đề còn
hạn chế của bài toán phân loại, phân biệt, bài toán phân tích chùm các hàm mật độ
xác suất. Cụ thể luận án đã đóng góp những vấn đề sau:
Sử dụng hàm cực đại, dựa theo Glick (1973) đưa ra một định nghĩa được
xem là khoảng cách L
1

của nhiều hơn hai hàm mật độ xác suất. Định nghĩa này là
nền tảng giải quyết các bài toán đặt ra. Ở đây, chúng tôi đã đưa ra mối quan hệ giữa
khoảng cách này với các độ đo khác và với các đại lượng liên quan của bài toán
phân loại, phân biệt.
Hàm cực đại đã được áp dụng để đưa ra một nguyên tắc phân loại một phần
tử mới trong các trường hợp: một chiều, nhiều chiều cho hai tổng thể và nhiều hơn
hai tổng thể. Chúng tôi đã viết thành công một chương trình trên phần mềm Maple
để giải quyết trọn vẹn bài toán phân loại. Khi xác định được hàm cực đại trên những
miền cụ thể thì bài toán phân biệt được giải quyết hoàn toàn cùng bài toán phân
loại. Với trường hợp một chiều, luận án đã đưa ra được những biểu thức giải tích cụ
thể. Các điểm phân biệt trong trường hợp một chiều và các hàm phân biệt trong
trường hợp chuẩn nhiều chiều cũng được nêu ra cụ thể trong luận án.
5
Sai số Bayes luôn là một vấn đề đặc biệt được quan tâm trong bài toán phân
loại và phân biệt. Ở đây sai số Bayes được tính thông qua nguyên hàm của hàm cực
đại. Chúng tôi đã trình bày nhiều kết quả lý thuyết mới về cận trên và dưới cho sai
số Bayes. Sai số Bayes được tính bằng biểu thức giải tích hoặc bằng kết quả số nhờ
việc tính gần đúng tích phân bằng phương pháp Monte Carlo với các chương trình
đã viết. Ngoài sai số Bayes, một số kết quả lý thuyết liên quan đến khoảng cách L
1
và hệ số chồng lấp của các hàm mật độ xác suất cũng được thiết lập. Mối quan hệ
trong từng đại lượng đã nêu với sai số Bayes cũng đã được khảo sát.
Thông qua hàm cực đại, luận án đưa ra một tiêu chuẩn mới “độ rộng chùm”
để thực hiện bài toán phân tích chùm trong tổng thể các hàm mật độ xác suất. Ba
thuật toán xây dựng chùm các hàm mật độ xác suất được thiết lập. Độ rộng chùm
đánh giá mức độ gần nhau của các phần tử trong cùng chùm, cũng như mức độ cách
xa nhau giữa các chùm có chú ý đến sự phân bố dữ liệu nên được xem là hợp lý hơn
so với tiêu chuẩn khoảng cách hiện tại được sử dụng để xây dựng chùm.
Có thể nói hàm cực đại đã tạo ra một công cụ mới thuận lợi, hiệu quả để giải
quyết bài toán phân loại, phân biệt và phân tích chùm các hàm mật độ xác suất. Sự

thuận lợi và hiệu quả này được thể hiện rõ rệt trong việc tính toán. Như vậy luận án
không những đóng góp những kết quả lý thuyết mà còn đóng góp về phương diện
tính toán cho các bài toán này.
Sơ đồ trong trang 6 trình bày những công việc đã thực hiện trong luận án.









6
SƠ ĐỒ ĐÓNG GÓP CỦA LUẬN ÁN
(IN MÀU)



























7
4. BỐ CỤC CỦA LUẬN ÁN
Bố cục của luận án gồm: phần mở đầu, phần nội dung, phần kết luận cùng
với phụ lục, danh mục các công trình của tác giả và tài liệu tham khảo. Ngoài
chương 1 là phần kiến thức cơ sở, các chương 2, 3, 4 và 5 là phần chính của luận án
trình bày những đóng góp cho bài toán phân loại, phân biệt và phân tích chùm.
Phần mở đầu: Giới thiệu bài toán, các kết quả trong và ngoài nước liên
quan đến luận án và những đóng góp chính của luận án.
Phần nội dung:
Chương 1: Kiến thức cơ sở
Chương này nêu những kiến thức được sử dụng trong luận án: kiến thức về
khoảng cách, phân phối nhiều chiều, các phương pháp ước lượng hàm mật độ xác
suất, tính gần đúng tích phân, đặc biệt bằng phương pháp Monte – Carlo.
Chương 2: Bài toán phân loại và phân biệt
Chương này trình bày tóm tắt các phương pháp chính cho đến hiện tại để giải
quyết bài toán phân loại và phân biệt: Phương pháp thống kê tuần tự, phương pháp
Fisher và phương pháp Bayes. Ở đây có nhận xét về những thuận lợi, khó khăn và
mối quan hệ giữa các phương pháp này, những phương hướng nghiên cứu chính

liên quan đến hai bài toán đã nêu trong thống kê, máy tính, trí tuệ nhân tạo và kỹ
thuật. Đóng góp của luận án trong chương này là tìm hàm mật độ xác suất cho sai
số Bayes qua tổng hai thành phần sai số và xét cho một số hàm mật độ xác suất
thông dụng.
Chương 3: Khoảng cách giữa các hàm mật độ xác suất
Chương này tổng kết các định nghĩa về khoảng cách giữa các hàm mật độ
xác suất, từ đó dựa trên hàm cực đại đưa ra một định nghĩa được xem là khoảng
cách L
1
của nhiều hơn hai hàm mật độ xác suất


)(x
i
f và


)(x
i
g với
)()( xfqxg
iii

, )1,0(

i
q ,




k
i
i
q
1
1
và .2

k
8
Khi k = 2, mối quan hệ giữa khoảng cách

1
21
, ff và
1
21
,gg với hàm cực
đại của chúng, hệ số chồng lấp, sai số Bayes trong bài toán phân loại và phân biệt
được thiết lập.
Khi k > 2, chúng tôi đã đưa ra mối quan hệ giữa khoảng cách L
1
:
1
21
, ,,
k
fff và
1
21

, ,,
k
ggg với affinity của Toussaint. Đặc biệt đã chỉ ra biên
cho các khoảng cách này thông qua số lượng hàm mật độ xác suất, xác suất tiên
nghiệm, hàm cực đại của


)(x
i
f ,


)(x
i
g và khoảng cách L
1
của các hàm mật độ
xác suất.
Chương 4: Sử dụng hàm cực đại trong bài toán phân loại và phân biệt
Trong chương này dựa vào hàm cực đại đã đưa ra một qui tắc rất thuận lợi để
phân loại phần tử mới, viết một chương trình cụ thể dựa trên qui tắc này để giải
quyết về mặt tính toán bài toán phân loại cho nhiều tổng thể nhiều chiều. Ở đây đã
khảo sát hàm cực đại của của các hàm mật độ xác suất và hàm phân biệt của các
tổng thể. Hàm cực đại của hai hàm mật độ xác suất thông dụng: Phân phối chuẩn,
phân phối mũ, phân phối Beta được tìm chi tiết. Đặc biệt chúng tôi đã viết một
chương trình tìm hàm cực đại của các hàm mật độ xác suất một chiều trên phần
mềm Maple, có thể đưa vào thư viện phần mềm để người khác có thể sử dụng. Hàm
phân biệt tuyến tính và bậc hai khi các hàm mật độ xác suất có phân phối chuẩn
được xét ở đây. Qua hàm cực đại của các hàm mật độ xác suất, công thức tính sai số
Bayes cho trường hợp hai tổng thể và nhiều tổng thể đã được thiết lập. Với công

thức được nêu, một chương trình bằng phần mềm Maple để tính sai số Bayes cho
bài toán phân loại và phân biệt nhiều tổng thể có phân phối một chiều được viết.
Chương trình tính sai số Bayes cũng được xây dựng cho nhiều tổng thể nhiều chiều
sử dụng việc tính gần đúng tích phân bằng phương pháp Monte- Carlo. Với trường
hợp hai tổng thể đã đưa ra biểu thức cụ thể về mối quan hệ giữa sai số Bayes, hàm
cực đại


)(),(max)(
21max
xxx fff

và khoảng cách
1
21
, ff cũng như mối quan
hệ giữa sai số Bayes với xác suất tiên nghiệm )()(
21
q,q

q ,
9


)(),(max)(
21max
xxx ggg


1

21
, gg . Khi có nhiều hơn hai tổng thể, chúng tôi
nhận được các kết quả quan trọng sau về mối quan hệ giữa các đại lượng trong bài
toán phân loại và phân biệt:
- Mối quan hệ giữa
1
21
, ,,
k
ggg và sai số Bayes
)(
, ,2,1
q
k
Pe
( ), ,,()(
21 k
qqq

q là xác suất tiên nghiệm của các tổng thể) cũng như với hệ số
chồng lấp những cấp độ khác nhau

 lji
q
lji

)(
,, ,

của các hàm số )(x

i
g . Hệ quả của
kết quả này là mối quan hệ giữa
1
21
, ,,
k
fff và
k
Pe
, ,2,1
cũng như
với

 lji
lji

,, ,

.
- Biên cho sai số Bayes
)(
, ,2,1
q
k
Pe
, mối quan hệ giữa
)(
, ,2,1
q

k
Pe
với hệ số chồng
lấp, giữa
)1/1(
1, ,2,1


k
k
Pe với
)/1(
, ,2,1
k
k
Pe .
Một ví dụ với dữ liệu chuẩn của hoa Iris được xem xét với những trường hợp
khác nhau để minh họa cho những vấn đề đã nêu. Trong trường hợp dữ liệu không
chuẩn chúng tôi xét hàm mật độ xác suất Beta hai chiều.
Chương 5: Giải tích chùm trên tổng thể các hàm mật độ xác suất
Dựa vào hàm cực đại, trong chương này đưa ra một tiêu chuẩn mới “độ rộng
chùm” thống nhất cho hai hàm mật độ xác suất cũng như nhiều hơn hai hàm mật độ
xác suất để xây dựng chùm các hàm mật độ xác suất. Ở đây đã xây dựng ba phương
pháp chùm: Phương pháp thứ bậc, phương pháp không thứ bậc và phương pháp xây
dựng chùm với độ rộng chùm cho trước. Một định lý về mối quan hệ giữa hai độ
rộng chùm chỉ khác nhau một phần tử và độ rộng của hợp hai chùm đã được thiết
lập. Dựa vào định lý này có thể đánh giá được mức độ gần nhau của các phần tử
trong chùm cũng như mức độ cách xa nhau giữa các chùm. Cũng trong phần này,
hai ví dụ cụ thể được xét: biết hàm mật độ xác suất và từ dữ liệu rời rạc thực tế, để
minh họa cho ba phương pháp xây dựng chùm đã đưa ra. Trong mỗi ví dụ có so

sánh cách thành lập chùm theo các phương pháp cũ.
10
Phần kết luận: Trình bày các kết quả đã đạt được trong luận án, cũng như
đề xuất hướng phát triển luận án trong tương lai.
Phần phụ lục: Trình bày dữ liệu về hoa Iris, tính toán chi tiết ví dụ 4.3 đến
ví dụ 4.12 của chương 4 và ví dụ 5.1, 5.3 của chương 5.
Các kết quả của luận án đã được công bố trong [2], [3], [42] và [49].
Trong luận án này các ký hiệu biểu thị cho ma trận và véc tơ được tô đậm.













v

DANH MỤC DỊCH MỘT SỐ THUẬT NGỮ TIẾNG ANH


SST

TIẾNG ANH TIẾNG VIỆT
1 Bayes error Sai số Bayes

2 Classification Phân loại
3 Cluster Chùm
4 Cluster width Độ rộng chùm
5 Discrimination Phân biệt
6 Hierarchical method Phương pháp thứ bậc
7 Kernel method Phương pháp hàm hạt nhân
8 L
1
– distance Khoảng cách L
1

9 Machine learning Máy học
10 Monte Carlo method Phương pháp Monte Carlo
11 Neural network Mạng nơ ron
12 Non–hierarchical method Phương pháp không thứ bậc
13 Overlapping coefficient Hệ số chồng lấp
14 Pattern recognition Nhận dạng
15 Posterior probability Xác suất hậu nghiệm
16 Prior probability Xác suất tiên nghiệm
15 Pseudo random Giả ngẫu nhiên
16 Quasi random Tựa ngẫu nhiên
17 Rejection sampling Từ chối lấy mẫu
18 Simulation Mô phỏng
19 Supervised learing Việc học được giám sát
20 Unsupervised learning Việc học không được giám sát













vi

DANH MỤC CÁC BẢNG



STT TÊN BẢNG NỘI DUNG TRANG

1 Bảng 1.1 Mối quan hệ giữa các khoảng cách thông 14
dụng với khoảng cách William và Lance
2 Bảng 1.2 Các hàm hạt nhân phổ biến 23
3 Bảng 1.3 Các hàm ngẫu nhiên phổ biến trong thư 33
viện Matlab
4 Bảng 4.1 Sử dụng hàm cực đại phân biệt dữ liệu 91
hoa Iris
5 Bảng 5.1 Khoảng cách cực đại từ ba chùm cuối cùng 109
đến các phần tử đã cho
6 Bảng 5.2 Điểm thi môn xác suất thống kê của sinh 111
sinh viên bảy nhóm Trường ĐH Moncton
Canada năm học 2008
7 Bảng 5.3 Bình phương khoảng cách Euclide từ 115
trung bình của ba chùm cuối cùng đến trung
bình của các tổng thể một chiều

8 Bảng 5.4 Bình phương khoảng cách Euclide từ trọng 115
tâm ba chùm cuối cùng đến trọng tâm các
nhóm hai chiều











vii

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ


STT TÊN HÌNH NỘI DUNG TRANG

1 Hình 1.1 Dãy điểm ngẫu nhiên miền trong và miền ngoài 31
của hàm cực đại
2 Hình 4.1 Đồ thị của bảy hàm mật độ xác suất một chiều, 81
f
max
(x) và g
max
(x)
3 Hình 4.2 Đồ thị của ba hàm mật độ xác suất hai chiều 83

5 Hình 5.1 Đồ thị của bảy hàm mật độ xác suất một chiều và 106
hàm f
max
(x) của nó
6 Hình 5.2 Cây phân loại cho bảy hàm mật độ xác suất một 107
chiều sử dụng khoảng cách cực đại
7 Hình 5.3 Cây phân loại cho bảy hàm mật độ xác suất một 109
chiều sử dụng khoảng cách city-block
8 Hình 5.4 Điểm thi bảy nhóm sinh viên bảng 5.2 trên 0xy 112
9 Hình 5.5 Đồ thị hàm mật độ xác suất hai chiều ước lượng 113
bằng phương pháp hàm hạt nhân cho bảy nhóm
sinh viên
10 Hình 5.6 Cây phân loại bảy hàm mật độ xác suất hai chiều 114
được ước lượng bằng phương pháp hàm hạt nhân
11 Hình 5.7 Sơ đồ cây sử dụng phương pháp 1 – trung bình 116
12 Hình PL1
Hình PL1a Đồ thị của ),(
31
xxf cho hai tổng thể với ma trận 123
hiệp phương sai bằng nhau trong R
3

Hình PL1b Đồ thị của
),(
31
xxf
cho hai tổng thể với ma trận 123
hiệp phương sai khác nhau trong R
3


Hình PL1c Đồ thị hàm phân biệt tuyến tính và bậc hai trong R
2
124
13 Hình PL2
Hình PL2a Đồ thị của ),(
31
xxf cho ba tổng thể với ma trận 126
hiệp phương sai bằng nhau và những đường cong
giao K
1
, K
2
và K
3
trong R
3

viii

Hình PL2b Đường thẳng phân biệt tuyến tính của ba tổng thể 126
trong R
2

Hình PL2c Đường thẳng phân biệt tuyến tính từng khúc 126
của ba tổng thể trong R
2


14 Hình PL3
Hình PL3a Đồ thị của ),(

31
xxf cho ba tổng thể với ma trận 128
hiệp phương sai khác nhau và những đường cong
giao
1

,
2


3

trong R
3

Hình PL3b Đường cong phân biệt của ba tổng thể ước 128
lượng bằng phương pháp tham số trong R
2

Hình PL3c Đường cong phân biệt bậc hai của ba tổng thể 128
ước lượng bằng phương pháp hàm hạt nhân trong R
2

15 Hình PL4 Đồ thị của hai hàm mật độ xác suất Beta hai chiều, 132

đường cong giao và hình chiếu của nó






iii

MỤC LỤC



TRANG


Lời cam đoan i
Lời cảm ơn ii
Mục lục iii
Danh mục dịch một số thuật ngữ tiếng Anh v
Danh mục các bảng
vi
Danh mục các hình vẽ và đồ thị vii
PHẦN MỞ ĐẦU 1
CHƯƠNG 1: KIẾN THỨC CHUẨN BỊ 11
1.1. Khoảng cách của các phần tử rời rạc 11
1.2. Định lý Bayes 14
1.3. Phân phối xác suất nhiều chiều 16
1.4. Ước lượng hàm mật độ xác suất 19
1.5. Tính gần đúng tích phân 23
CHƯƠNG 2: BÀI TOÁN PHÂN LOẠI VÀ PHÂN BIỆT 34

2.1. Giới thiệu 34
2.2. Các phương pháp phân loại và phân biệt 35
2.3. Nhận xét về các phương pháp phân loại và phân biệt cùng 42
những hướng nghiên cứu hiện tại

2.4. Sự phân bố sai số Bayes qua tổng hai thành phần sai số 45
2.5. Kết luận 54
CHƯƠNG 3: KHOẢNG CÁCH GIỮA CÁC HÀM 55
MẬT ĐỘ XÁC SUẤT
3.1. Giới thiệu 55
3.2. Khoảng cách giữa các hàm mật độ xác suất 56
iv

3.3. Một số kết quả liên quan đến khoảng cách L
1
và các phép đo khác 60
3.4. Kết luận 65
CHƯƠNG 4: SỬ DỤNG HÀM CỰC ĐẠI TRONG BÀI TOÁN 67
PHÂN LOẠI VÀ PHÂN BIỆT
4.1. Giới thiệu 67
4.2. Hàm cực đại trong bài toán phân loại 68
4.3. Sử dụng phần mềm toán học trong bài toán phân loại và phân biệt 77
4.4. Mối quan hệ giữa các đại lượng trong bài toán phân loại và phân biệt 84
4.5. Ví dụ áp dụng 89
4.6. Kết luận 92
CHƯƠNG 5: GIẢI TÍCH CHÙM TRÊN TỔNG THỂ 94
HÀM MẬT ĐỘ XÁC SUẤT
5.1. Giới thiệu 94
5.2. Một số kết quả về độ rộng chùm 96
5.3. Một số thuật toán phân tích chùm 100
5.4. Ví dụ áp dụng 105
5.5. Kết luận 116
KẾT LUẬN 118
PHỤ LỤC 121
DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ 138

TÀI LIỆU THAM KHẢO 139












×