Tải bản đầy đủ (.pdf) (62 trang)

Định lý thác triển đối với nghiệm của hệ phương trình elliptic tuyến tính cấp mộ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (322.88 KB, 62 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
- - - - - - - - - - -o0o- - - - - - - - - - -

NGUYỄN THỊ HẠNH

MỘT SỐ THỦ TỤC PHÂN LOẠI
DỰA THEO CÁCH TIẾP CẬN THỐNG KÊ
LUẬN VĂN THẠC SĨ KHOA HỌC
CHUYÊN NGÀNH: TOÁN TIN

Hà Nội - 2014


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
- - - - - - - - - - -o0o- - - - - - - - - - -

NGUYỄN THỊ HẠNH

MỘT SỐ THỦ TỤC PHÂN LOẠI
DỰA THEO CÁCH TIẾP CẬN THỐNG KÊ

Chuyên ngành: Toán Tin

LUẬN VĂN THẠC SĨ KHOA HỌC
NGÀNH: TOÁN TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. NGUYỄN HỮU TIẾN


Hà Nội - 2014


Mục lục

Lời mở đầu

iii

Danh mục các kí hiệu và chữ viết tắt

vi

Danh mục các hình vẽ

vii

1 Tổng quan chung về nhận dạng

1

1.1

Tầm quan trọng của nhận dạng mẫu . . . . . . . . . . .

1

1.2

Các đặc trưng, véc tơ đặc trưng và các lớp . . . . . . . .


3

1.3

Nhận dạng có hướng dẫn và nhận dạng không có hướng
dẫn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

2 Các thủ tục phân loại dựa trên nguyên lý quyết định
Bayes

8

2.1

Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . .

8

2.2

Nguyên lý quyết định Bayes . . . . . . . . . . . . . . . .

9

2.2.1

Tối thiểu hóa xác suất lỗi phân loại . . . . . . . .


11

2.2.2

Tối thiểu hóa rủi ro trung bình . . . . . . . . . .

13

2.3

Các phương trình phân biệt và các mặt quyết định . . .

16

2.4

Phân loại Bayes cho phân phối chuẩn . . . . . . . . . . .

17

i


Luận văn cao học

2.4.1
2.5

2.6


Nguyễn Thị Hạnh

Phân loại khoảng cách tối thiểu . . . . . . . . . .

22

Ước lượng hàm mật độ xác suất chưa biết . . . . . . . .

25

2.5.1

Ước lượng tham số hợp lý cực đại . . . . . . . . .

26

2.5.2

Ước lượng xác suất hậu tố cực đại . . . . . . . . .

30

2.5.3

Suy luận Bayes . . . . . . . . . . . . . . . . . . .

31

2.5.4


Ước lượng với thông tin tối đa . . . . . . . . . . .

32

2.5.5

Mô hình trộn . . . . . . . . . . . . . . . . . . . .

34

2.5.6

Ước lượng phi tham số . . . . . . . . . . . . . . .

39

Quy tắc người láng giềng gần nhất . . . . . . . . . . . .

44

3 Phân loại tuyến tính
3.1

48

Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . .

Tài liệu tham khảo


48
51

ii


Luận văn cao học

Nguyễn Thị Hạnh

Lời mở đầu
Lý thuyết nhận dạng là một ngành khoa học với mục đích nghiên cứu
các thuật toán có khả năng phân loại các cá thể của một đám đông vào
các lớp hay các cụm khác nhau, tùy theo giả thiết đã biết hay chưa biết
về số lớp của đám đông này. Theo ý nghĩa này, các nghiên cứu của lý
thuyết nhận dạng sẽ tập trung vào hai hướng cơ bản sau:

• Các nghiên cứu về các thuật toán nhận dạng khi giả thiết về số
lớp của đám đông đã cho trước sẽ được gọi chung là các thuật toán
phân loại.
• Các nghiên cứu về các thuật toán nhận dạng khi không có bất cứ
thông tin nào về số lớp của đám đông sẽ được gọi là các thuật toán
phân cụm.
Trong luận văn này chúng ta sẽ tìm hiểu một số thuật toán phân loại
dựa trên cách tiếp cận thống kê toán học và luận văn sẽ được trình bày
trong ba chương sau:

• Chương 1 là tổng quan chung về nhận dạng. Chương này gồm ba
phần. Trong đó, phần đầu giới thiệu chung về tầm quan trọng của
nhận dạng mẫu. Phần thứ hai trình bày các khái niệm về các đặc

trưng, vec tơ đặc trưng và các lớp. Phần cuối là khái niệm về nhận
dạng có hướng dẫn và nhận dạng không có hướng dẫn. Chương này
là nền tảng cho chương sau với tài liệu tham khảo chính là [3].
iii


Luận văn cao học

Nguyễn Thị Hạnh

• Chương 2 tập trung vào các thuật toán phân loại dựa trên nguyên
lý của quyết định Bayes và còn được gọi là các thuật toán phân loại
Bayes. Các thuật toán này đều được xây dựng trên cơ sở đã cho
trước các hàm mật độ phân phối xác suất của các lớp dạng. Tuy
nhiên trong thực tế các hàm mật độ này đều chưa biết. Vì vậy các
phương pháp ước lượng tham số và phi tham số cho hàm mật độ
phân phối xác suất cũng sẽ được xác định. Đặc biệt các khảo sát
nhằm khẳng định vai trò của thuật toán phân loại Bayes trong các
thuật toán phân loại cực tiểu hóa tổn thất trung bình hay các thuật
toán phân loại cực tiểu hóa khoảng cách cũng sẽ được trình bày.Tài
liệu tham khảo chính cho chương này là [3].
• Chương 3 sẽ tập trung vào phân loại tuyến tính. Trong một số
trường hợp, các lớp của chúng ta là phân biệt tuyến tính nghĩa là
giữa chúng tồn tại các hàm phân biệt tuyến tính. Việc phân loại bây
giờ sẽ tương đương với việc tìm ra các hàm phân biệt tuyến tính đó
sao cho xác suất lỗi phân loại là nhỏ nhất.Thuật toán Perceptron
sẽ giúp chúng ta giải quyết vấn đề này. Hơn nữa, như chúng ta đã
biết nếu các lớp là phân biệt tuyến tính thì việc tính toán khá đơn
giản. Vì thế, trong nhiều trường hợp các lớp không phân biệt tuyến
tính nhưng chúng ta vẫn muốn đưa ra một phân lớp tuyến tính.

Các phương pháp bình phương sẽ tính toán các trọng số theo một
chuẩn tối ưu phù hợp để xác suất lỗi phân loại là chấp nhận được.
Qua đây, em xin gửi lời cảm ơn sâu sắc đến người hướng dẫn khoa
học của mình, TS. Nguyễn Hữu Tiến, người đã đưa ra để tài và tận tình
iv


Luận văn cao học

Nguyễn Thị Hạnh

hướng dẫn trong suốt quá trình nghiên cứu của em. Em xin chân thành
cảm ơn các thầy phản biện đã đọc và có những chỉ bảo, nhận xét quý
báu. Đồng thời em cũng chân thành cảm ơn các thầy cô trong viện Toán
ứng dụng và Tin học trường Đại học Bách khoa Hà Nội, đã tạo mọi
điều kiện thuận lợi để em hoàn thành tốt chương trình học cao học của
Trường và hoàn thành bản luận văn này.

Hà Nội, tháng 4 năm 2014
Học viên

Nguyễn Thị Hạnh

v


Luận văn cao học

Nguyễn Thị Hạnh


Danh mục các kí hiệu và chữ viết tắt
C

tập các số phức

R

tập các số thực

Z

tập các số nguyên

x

chuẩn của x

B

đại số Borel

λ

độ đo Lebesgue trên R

χA

hàm đặc trưng của tập A

Rn


không gian Euclid n chiều

Lp (R)

không gian các hàm khả tích bậc p trên R

L∞ (R)

không gian các hàm khả tích vô hạn trên R

L1,loc (R) không gian các hàm giá trị thực khả tích địa phương trên R
a.e.

hầu khắp nơi (viết tắt của cụm từ "almost everywhere")

vi


Luận văn cao học

Nguyễn Thị Hạnh

Danh mục các hình vẽ
Hình 2.1 Ví dụ trường hợp hai miền

vii


Chương 1

Tổng quan chung về nhận dạng
1.1

Tầm quan trọng của nhận dạng mẫu

Nhận dạng là một môn khoa học mà mục tiêu của nó là sự phân loại
của các đối tượng vào trong một số các lớp. Tùy thuộc vào ứng dụng
cụ thể các đối tượng có thể là các hình ảnh, hay các tín hiệu dạng sóng
hoặc bất kỳ một dạng biểu diễn bằng số nào đó. Nhận dạng mẫu có một
lịch sử lâu đời nhưng trước những năm 1960 các nghiên cứu lý thuyết
về nhận dạng còn chưa được sự quan tâm đầy đủ của các nhà khoa học.
Giống như mọi ngành khoa học khác, sự xuất hiện của máy tính đã làm
tăng các nhu cầu về các ứng dụng thực tế của nhận dạng mẫu và chính
điều này đã đặt ra các vấn đề mới thúc đẩy sự xuất hiện của lý thuyết
nhận dạng. Giống như sự phát triển của xã hội từ thời công nghiệp tới
thời hậu công nghiệp, sự tự động hóa trong sản xuất trong công nghiệp
và sự cần thiết cho việc cập nhật , trao đổi thông tin ngày càng trở nên
quan trọng hơn. Ngày nay, xu hướng này đã đưa nhận dạng mẫu đạt
tới đỉnh cao của những ứng dụng vào việc nhận biết, tìm kiếm và phân
1


Luận văn cao học

Nguyễn Thị Hạnh

loại thuộc nhiều lĩnh vực khác nhau của đời sống xã hội. Để minh họa
điều này chúng ta sẽ giới thiệu một số ứng dụng điển hình của lý thuyết
nhận dạng vào các lĩnh vực cụ thể của đời sống:
• Máy quan sát là một phần quan trọng trong nhận dạng mẫu. Một

hệ thống máy quan sát chụp những hình ảnh thông qua một camera
và phân tích chúng, đưa ra những miêu tả tượng trưng bằng hình
ảnh. Một loại ứng dụng của hệ thống máy quan sát là trong sản
suất công nghiệp nhằm tự động hóa quá trình kiểm tra một dây
chuyền lắp ráp. Ví dụ việc kiểm tra các sản phẩm được sản xuất
trên một dây chuyền tự động dựa trên các kết quả quan sát từ một
camera. Khi đó các hình ảnh thu được từ camera được phân tích
và phân loại một sản phẩm được quan sát là "lỗi" hay "không lỗi"
và theo kết quả này sản phẩm được chấp nhận hay từ chối.
• Máy tính hỗ trợ chẩn đoán là một ứng dụng quan trọng khác của
nhận dạng mẫu. Mục tiêu là hỗ trợ bác sỹ trong quá trình ra quyết
định chẩn đoán. Máy tính hỗ trợ chẩn đoán được ứng dụng và được
quan tâm trong nhiều bài toán xử lý số liệu y tế như X- quang,
hình ảnh chụp cắt lớp, hình ảnh siêu âm, điện tim đồ (ECGs) và
điện não đồ (EEGs). Thực tế dữ liệu y tế nói chung không dễ diễn
giải và việc giải thích nó còn phụ thuộc vào kinh nghiệm của bác
sỹ.
• Nhận dạng giọng nói là một lĩnh vực được đầu tư và nghiên cứu
rất mạnh mẽ. Ngôn ngữ là phương tiện tự nhiên nhất mà con người
giao tiếp và trao đổi thông tin. Vì thế mục tiêu xây dựng máy thông
2


Luận văn cao học

Nguyễn Thị Hạnh

minh nhận biết ngôn ngữ nói đã và đang là đề tài nghiên cứu của
nhiều tập thể các kỹ sư và các nhà khoa học. Các thành tựu đã đạt
được thuộc hướng nghiên cứu này có thể được sử dụng để nâng cao

hiệu quả trong môi trường sản xuất công nghiệp, đặc biệt là trong
kiểm soát các quá trình sản xuất ở môi trường độc hại cũng như
vào việc giúp người khuyết tật điều khiển máy bằng cách sử dụng
giọng nói để giao tiếp với các máy móc. Một thành công đáng kể
của các nghiên cứu này là các ứng dụng để nhập dữ liệu vào máy
tính thông qua một micro. Phần mềm được xây dựng xung quanh
một hệ thống nhận dạng mẫu công nhận các văn bản nói và chuyển
nó thành ký tự ASCII , sau đó sẽ được hiển thị trên màn hình và
có thể được đưa vào trong bộ nhớ của các máy tính để xử lý.
Trên đây chỉ là một vài ví dụ của lý thuyết nhận dạng trong vài lĩnh vực
khác nhau của đời sống xã hội. Chúng ta còn có thể đề cập đến các ứng
dụng điển hình như nhận dạng ký tự, nhận dạng vân tay, chứng thực
chữ ký, phục hồi văn bản và nhận dạng khuôn mặt, cử chỉ... Các ứng
dụng mới này đã thu hút được nhiều sự quan tâm, đầu tư và nghiên cứu
nhằm tạo điều kiện thuận lợi hơn cho tương tác người- máy và nâng cao
hơn nữa vai trò của máy tính trong tự động hóa văn phòng, tự động hóa
các điều kiện làm việc...

1.2

Các đặc trưng, véc tơ đặc trưng và các lớp

Xét bài toán phân loại một tập các cá thể thuộc một hiện tượng nào
đó. Khi đó ta sẽ sử dụng các khái niệm và các quy ước:
3


Luận văn cao học

Nguyễn Thị Hạnh


• Không gian dạng: Không gian dạng là tập tất cả các cá thể hay đối
tượng của một đám đông cần khảo sát và được ký hiệu là Ω với mỗi
phần tử của nó được gọi là một dạng của không gian dạng, ký hiệu
là ω và có ω ∈ Ω.
• Không gian đặc trưng: Các dạng của không gian dạng khi quan sát
hay thu thập được, thường được biểu diễn bằng một tập các đặc
trưng hay các giá trị quan sát bằng số về một số thuộc tính xác
định của một dạng, nghĩa là mỗi một dạng ω của không gian dạng
được cho tương ứng với một véc tơ n chiều x các giá trị quan sát về
dạng này, trong đó thành phần thứ i của véc tơ được ký hiệu xi và
được gọi là biến hay đặc trưng thứ i của véc tơ dạng. Như vậy ta
có véc tơ đặc trưng x ở dạng x = (x1 , ..., xn ) ∈ Rn , nghĩa là tập Rn
các véc tơ đặc trưng còn được gọi là không gian đặc trưng.

1.3

Nhận dạng có hướng dẫn và nhận dạng không
có hướng dẫn

Bài toán nhận dạng tổng quát sẽ là xác định cấu trúc của không gian
dạng thông qua các nghiên cứu xác định cấu trúc của không gian đặc
trưng tương ứng của nó. Để thực hiện được các nghiên cứu này một tập
các véc tơ đặc trưng là các kết quả quan sát trên các dạng của không
gian dạng Ω sẽ được cho trước. Tập dữ liệu này sẽ được gọi các tập luyện
và được ký hiệu là S và tùy theo giả thiết đã cho về tập luyện S chúng
ta phân biệt bài toán nhận dạng thành hai bài toán cơ bản sau:

4



Luận văn cao học

Nguyễn Thị Hạnh

x(k) , ρ(k) |x(k) ∈ Rn , ρ(k) ∈ {1, ..., M } , k = 1,

• Nếu tập luyện S có dạng S :=

nghĩa là cùng với các véc tơ đặc trưng, các chỉ số lớp của dạng được
xét cũng đã cho trước thì tập luyện S được gọi là tập luyện có hướng
dẫn và bài toán nhận dạng trong trường hợp này sẽ được gọi là bài
toán nhận dạng có hướng dẫn hay bài toán phân loại.
• Nếu tập luyện S có dạng S := x(k) |x(k) ∈ Rn , k = 1, ..., N hay các
véc tơ đặc trưng là cho trước nhưng chỉ số lớp của dạng là chưa biết
thì tập luyện S được gọi là tập luyện không có hướng dẫn và bài
toán nhận dạng trong tương ứng sẽ được gọi là bài toán nhận dạng
không có hướng dẫn hay bài toán phân cụm.
Trong hai bài toán nhận dạng cơ bản trên rõ ràng bài toán phân cụm là
khó hơn vì có ít thông tin cho trước hơn.

Ta có thể minh họa bài toán phân lớp và phân cụm thông qua hai ví
dụ sau:
Ví dụ 1.1. Bài toán xếp loại học lực của sinh viên trong một học kỳ:
Giả sử một lớp học có N sinh viên, trong một học kỳ có 5 môn học (tức là
(k)

n = 5). Điểm thi môn thứ i, i = 1, .., 5 của sinh viên thứ k ký hiệu là xi .
(k)


(k)

Khi đó sinh viên thứ k được đặc trưng bởi véc tơ là x(k) = x1 , ..., x5

,

với k = 1, ..., N . Học lực của sinh viên được chia thành 6 loại (M = 6)
là "Xuất sắc (có điểm trung bình các môn học từ 8,5 trở lên)"; "Giỏi (có
điểm trung bình các môn từ 8,0 đến 8,4)";"Khá(có điểm trung bình các
môn từ 7,0 đến 7,9)"; "Trung bình( có điểm trung bình các môn từ 5,0
5


Luận văn cao học

Nguyễn Thị Hạnh

đến 6,9)"; "Yếu (có điểm trung bình bình các môn từ 3,5 đến 4,9)";"Kém
(có điểm trung bình các môn dưới 3,5)" và các xếp loại được gán các
nhãn tương ứng là 1,2,3,4,5,6. Như vậy, học lực của sinh viên thứ k là
ρ(k) ∈ {1, 2, 3, 4, 5, 6}. Chọn ngẫu nhiên ra một sinh viên, tất nhiên sinh
viên này có đủ điểm của 5 môn học, khi đó thuật toán phân loại sẽ giúp
chúng ta xác định xem sinh viên đó được xếp loại học lực nào, tức là
xác đinh được ρ tương ứng của sinh viên đó.
Ví dụ 1.2. Trong viễn thám đa phổ, năng lượng mặt điện từ phát ra từ
bề mặt trái đất được đo bằng máy quét nhạy cảm nằm trên một vệ tinh,
một phi cơ hay một trạm không gian. Năng lượng này có thể được phản
năng lượng mặt trời hay phản ánh một phần năng lượng truyền từ xe
cộ tới bề mặt trái đất. Các đặc tính khác nhau của bề mặt trái đất góp
phần vào sự phản ánh của năng lượng trong các dải khác nhau. Ví dụ,

trong các thuộc tính có thể nhìn thấy của hồng ngoại như khoáng sản
và độ ẩm của đất, trầm tích của nước và độ ẩm của thực vật là những
đóng góp chính cho năng lượng phản xạ. Mỗi dải đo được những thuộc
tính khác nhau của cùng một điểm trên bề mặt trái đất. Theo cách này,
những hình ảnh của bề mặt trái đất tương ứng với sự phân bố không
gian của năng lượng phản xạ của mỗi dải có thể được tạo ra. Nhiệm vụ
bây giờ là khai thác những thông tin này để xác định các loại che phủ
mặt đất khác nhau như đất xây dựng, đất nông nghiệp, rừng, lủa cháy,
nước và cây trồng bị bệnh. Chúng ta sẽ đặt mỗi tế bào từ "cảm nhận"
của bề mặt trái đất là một vec tơ x. Phần tử xi , i = 1, .., n của vec tơ
tương ứng với cường độ điểm ảnh trong các dải quang phổ khác nhau.
6


Luận văn cao học

Nguyễn Thị Hạnh

Có thể sử dụng thuật toán phân cụm để tìm ra những nhóm mà các vec
tơ đặc trưng được phân cụm trong không gian n chiều. Những điểm mà
tương ứng với cùng một loại che phủ mặt đất mong muốn được phân
cụm với nhau và tạo thành nhóm. Mỗi lần thực hiện, các nhà phân tích
có thể xác định được loại của mỗi cụm bằng sự kết hợp một mẫu của
các điểm trong mỗi nhóm có sẵn dữ liệu mặt đất tham khảo như các
bản đồ, các chuyến đi.

7


Chương 2

Các thủ tục phân loại dựa trên
nguyên lý quyết định Bayes
2.1

Giới thiệu

Đây là chương chính của luận văn liên quan đến việc phân loại trong
hệ thống nhận dạng mẫu. Phương pháp tiếp cận được xây dựng dựa trên
lý luận xác suất bắt nguồn từ bản chất thống kê của các đặc trưng tạo
ra. Chúng ta sẽ thiết kế phân loại mà mẫu chưa biết có thể xảy ra ở
hầu hết các lớp. Nhiệm vụ phân loại là cho M lớp, ω1 , ω2 , .., ωM và một
mẫu chưa biết, mẫu này tương ứng bởi một vec tơ đặc trưng x, chúng ta
đưa ra M xác suất có điều kiện P (ωi /x),i = 1, 2, ..M . Các xác suất này
gọi là các xác suất hậu tố. Trong đó, mỗi thành phần tương ứng với xác
suất mà mẫu chưa biết thuộc về lớp ωi tương ứng với vec tơ đặc trưng
có giá trị x. Trong chương này sự phân loại được xem xét hoặc là tính
tối đa M giá trị, hoặc tương đương, mức tối đa được xác định phù hợp
với chức năng của chúng. Nhận dạng mẫu chưa biết được gán vào lớp có
8


Luận văn cao học

Nguyễn Thị Hạnh

giá trị lớn nhất.
Như vậy nhiệm vụ đầu tiên là tính toán các xác suất có điều kiện. Một
lần nữa ta sẽ chứng minh tính hữu dụng của công thức Bayes. Ở phần
dưới đây ta sẽ tính toán hàm mật độ xác suất dựa vào các vec tơ đặc
trưng tương ứng với các mẫu của tập luyện.


2.2

Nguyên lý quyết định Bayes

Đầu tiên, chúng ta sẽ tập trung vào trường hợp 2 lớp. Cho ω1 , ω2 là
2 lớp trong các mẫu của chúng ta. Giả sử các xác suất tiền tố P (ω1 ),
P (ω2 ) là đã biết. Đây là một giả định rất hợp lý, vì nếu chưa biết,
ta có thể ước lượng từ các vec tơ luyện đặc trưng có sẵn. Thật vậy,
nếu N là tổng số mẫu luyện và N1 , N2 thuộc về các lớp ω1 , ω2 tương
ứng thì P (ω1 ) ≈ N1 /N và P (ω2 ) ≈ N2 /N . Các đại lượng xác suất
khác cũng được giả định biết trước là hàm mật độ xác suất của lớp
p (x/ωi ),i = 1, 2, ..M . Các hàm này mô tả sự phân bố của vec tơ đặc
trưng trong mỗi lớp. Nếu chúng chưa biết, chúng cũng có thể được ước
lượng từ tập dữ liệu luyện cho trước. Hàm mật độ xác suất p (x/ωi ) còn
được gọi là hàm hợp lý của ωi đối với x. Trong trường hợp các vec tơ đặc
trưng lấy giá trị trong không gian l- chiều, khi đó các vec tơ đặc trưng
có thể chỉ có các giá trị rời rạc, hàm mật độ p (x/ωi ) là các xác suất và
được ký hiệu là P (x/ωi ). Như vậy, chúng ta đã có tất cả các thành phần
để tính xác suất có điều kiện. Từ công thức xác suất Bayes:
P (x/ωi ) =

p (x/ωi )P (ωi )
p (x)
9

(2.1)


Luận văn cao học


Nguyễn Thị Hạnh

trong đó p (x) là hàm mật độ xác suất của x, chúng ta có
2

p (x) =

p (x/ωi ) P (ωi )

(2.2)

i=1

Công thức Bayes có thể được phát biểu như sau:
NếuP (ω1 ) > P (ω2 ) thì x được phân vào lớp ω1

NếuP (ω1 ) < P (ω2 ) thì x được phân vào lớp ω2

(2.3)
Trong trường hợp bằng nhau, mẫu có thể được phân vào một trong hai
lớp. Sử dụng (2.1), quyết định có thể tương đương với bất đẳng thức
sau:
p (x/ω1 ) P (ω1 ) > (<)p (x/ω2 ) P (ω2 )

(2.4)

ở đây p (x) là giống nhau cho tất cả các lớp nên nó không được đưa
vào tính toán. Hơn nữa, nếu các xác suất tiền tố bằng nhau, tức là
P (ω1 ) = P (ω2 ) = 21 . Phương trình (2.4) trở thành

p (x/ω1 ) > (<)p (x/ω2 )

(2.5)

Vì thế, việc tìm giá trị lớn nhất là tìm giá trị của hàm xác suất có điều
kiện lấy giá trị tại x.
Hình 2.1 là ví dụ minh họa cho trường hợp 2 lớp có xác suất bằng
nhau và chỉ ra những biến của p (x/ω1 ), i = 1, 2.. như là hàm của x trong
trường hợp đơn giản (l=1). Đường nét đứt là một ngưỡng phân vùng
10


Luận văn cao học

Nguyễn Thị Hạnh

không gian mẫu thành hai miền R1 và R2 . Theo nguyên lý quyết định
Bayes, tất cả các giá trị của x trong R1 được phân vào lớp ω1 ; những giá
trị của x trong R2 được phân vào lớp ω2 . Tuy nhiên, từ hình vẽ ta thấy
ở vùng giao nhau của hai miền R1 và R2 , cùng một lúc x thuộc cả lớp
ω1 và ω2 . Khi đó sự quyết định của chúng ta là sai. Không khó để thấy
rằng, tổng quyết định sai là:


x0

Pe =

p (x/ω2 ) dx +
−∞


p (x/ω1 ) dx

(2.6)

x0

Xác suất quyết định sai bằng tổng diện tích vùng gạch chéo dưới các
đường cong trong hình 2.1.

2.2.1

Tối thiểu hóa xác suất lỗi phân loại

Chúng ta sẽ chỉ ra rằng phân loại Bayes là tối ưu đối với việc tối thiểu
hóa xác suất lỗi phân loại.
Thực vậy, dễ thấy rằng sự di chuyển của ngưỡng x0 sẽ luôn luôn làm
tăng vùng gạch chéo tương ứng theo các đường cong. Sau đây chúng ta
sẽ chứng minh chính thức hơn.
Chứng minh: Cho R1 là miền không gian đặc trưng mà chúng ta quyết
định thuộc vào lớp omega1 và R2 tương ứng với lớp ω2 . Một lỗi xảy ra
nếu x ∈ R1 mặc dù nó thuộc lớp ω2 hoặc x ∈ R2 mặc dù nó thuộc ω1 .
Khi đó:
Pe = P (x ∈ R2 , ω1 ) + P (x ∈ R1 , ω2 )

(2.7)

Trong đó P(.,.) là xác suất của hai sự kiện. Theo công thức xác suất

11



Luận văn cao học

Nguyễn Thị Hạnh

cơ bản ta có:
Pe = P (x ∈ R2 /ω1 ) P (ω1 ) + P (x ∈ R1 /ω2 ) P (ω2 ) ,
= P (ω1 )

p x/ω1 ) dx + P (ω2 )
R2

p (x/ω2 ) dx

(2.8)

R1

Hay sử dụng công thức Bayes ta có:
Pe =

P (ω1 /x) p (x) dx +
R2

P (ω2 /x) p (x) dx

(2.9)

R1


Dễ dàng thấy rằng, xác suất phân loại lỗi nhỏ nhất nếu sự phân vùng
R1và R2 của không gian mẫu được chọn sao cho:
R1 : P (ω1 /x) > P (ω2 /x)
R2 : P (ω2 /x) > P (ω1 /x)
(2.10)
Thật vậy, từ sự kết hợp của các vùng R1 , R2 trên tất cả không gian, từ
định nghĩa hàm mật độ xác suất ta có:
P (ω1 /x) p (x) dx +
R1

P (ω2 /x) p (x) dx = 1

(2.11)

R2

Kết hợp phương trình (2.9) và (2.11) ta có:
Pe = 1 −

(P (ω1 /x) − P (ω2 /x)) p (x) dx

(2.12)

R1

Điều này cho thấy xác suất lỗi phân loại nhỏ nhất khi R1 là miền sao
cho P (ω1 /x) > P (ω2 /x). Từ đó R2 cũng là miền ngược lại. Như vậy,
chúng ta đã chứng minh cho trường hợp đơn giản 2 lớp. Tổng quát hóa
cho trường hợp nhiều lớp là không khó. Trong trường hợp phân loại M

lớp ω1 , ω2 , .., ωM , một mẫu chưa biết được đại diện bởi vec tơ đặc trưng
12


Luận văn cao học

Nguyễn Thị Hạnh

x, nó được gán cho lớp ωi nếu :
P (ωi /x) > P (ωj /x) , ∀j = i

(2.13)

Điều này cho thấy mỗi một chọn lựa cũng giảm thiểu xác suất lỗi phân
loại.

2.2.2

Tối thiểu hóa rủi ro trung bình

Xác suất lỗi phân loại không phải luôn luôn là tiêu chí tốt nhất để
được áp dụng cho việc giảm thiểu. Bởi vì xác suất lỗi phân loại gán tầm
quan trọng như nhau cho tất cả các lỗi. Tuy nhiên có một số trường hợp
mà một số lỗi có thể mang ý nghĩa nghiêm trọng hơn những lỗi khác.
Cho nên trong những trường hợp như vậy ta gán một trọng số để đo
từng lỗi. Xem như có M lớp và cho Rij , j=1,2,..M là các miền của những
không gian mẫu được gán cho lớp ωj tương ứng. Giả sử vec tơ đặc trưng
x nào đó thuộc lớp ωk nằm trong miền , Ri ,i = k. Khi đó chúng ta phân
loại sai vec tơ này trong ωi . Trọng số λki , được gọi là sự hao tổn, liên
quan đến quyết định sai lầm này. Ma trận L, có vị trí (k,i) tương ứng,

được gọi là ma trận hao tổn. Sự rủi ro hay hao tổn liên quan đến ωk
được định nghĩa như sau:
M

rk =

p (x/ωk ) dx

λki
i=1

(2.14)

Ri

Nhận thấy rằng tích phân là tổng xác suất của một vec tơ đặc trưng từ
lớp ωk được phân vào lớp ωi . Xác suất này được đo bởi λki . Bây giờ,
mục tiêu của chúng ta là chọn ra phân vùng Rj sao cho rủi ro trung
13


Luận văn cao học

Nguyễn Thị Hạnh

bình:
M

rk P (ωk )


r =
k=1
M

M

λki p (x/ωk ) P (ωk )

=
k=1

Ri

dx

k=1

(2.15)
là nhỏ nhất. Điều này đạt được nếu mỗi tích phân là tối thiểu, nó tương
đương với sự chọn lựa phân vùng sao cho:
x ∈ Ri nếu :
M

M

li =

λki p (x/ωk ) P (ωk ) < lj =
k=1


λki p (x/ωk ) P (ωk )
k=1

(2.16)
Rõ ràng,
 nếu λki = 1 − δki , trong đó ki δ là delta của Kronecker. Tức

0 nếu k = i
là: δ =
Khi đó , rủi ro trung bình tương đương với tối

1 nếu k = i
thiểu cho xác suất lỗi phân loại. Ví dụ trong trường hợp 2 lớp. Ta có:
l1 = λ11 p (x/ω1 ) P (ω1 ) + λ21 p (x/ω2 ) P (ω2 )
l2 = λ12 p (x/ω1 ) P (ω1 ) + λ22 p (x/ω2 ) P (ω2 )
(2.17)
Chúng ta sẽ gán x vào lớp ω1 nếu l1 < l2 , như vậy:
l1 = (λ21 − λ22 ) p (x/ω2 ) P (ω2 ) < (λ12 − λ11 ) p (x/ω1 ) P (ω1 ) (2.18)
Giả sử rằng λij > λii (quyết định đúng đắn bị phạt ít hơn nhiều so với
quyết định sai). Áp dụng giả thiết này, công thức quyết định (2.16) cho
14


Luận văn cao học

Nguyễn Thị Hạnh

trường hợp 2 lớp trở thành:
x ∈ ω1 (ω2 ) nếu : l12 =


p (x/ω1 )
P (ω2 ) λ21 − λ22
> (<)
p (x/ω2 )
P (ω1 ) λ12 − λ11

(2.19)

Tỷ lệ l12 được gọi là tỷ lệ hợp lý và kiểm tra trên là kiểm tra tỷ lệ hợp
lý. Chúng ta sẽ kiểm tra thêm phương trình
và xem như trường
 (2.19) 
0 λ12

hợp 2.1. Giả sử ma trận hao tổn là L = 
λ12 0
Nếu sự phân loại sai của mẫu mà đến từ lớp ω2 được xem là một hậu
quả nghiêm trọng. Khi đó ta phải chọn λ21 > λ12 . Vì vậy, mẫu được gán
cho lớp 2 nếu:
p (x/ω2 ) > p (x/ω1 )

λ12
λ21

trong đó P (ω1 ) = P (ω2 ) = 21 . Do đó p (x/ω1 ) được nhân với một hệ
số bé hơn 1 và hiệu quả của việc này là dịch chuyển ngưỡng trong hình
2.1 sang bên trái của x0 . Nói cách khác miền R2 được tăng lên trong khi
đó miền R1 bị thu hẹp. Điều ngược lại sẽ đúng nếu λ21 < λ12 .
Ví dụ 2.1. Trong trường hợp 2 lớp, với một vec tơ đặc trưng là x, hàm
mật độ xác suất là hàm Gauss với phương sai σ 2 =


1
2

giá trị trung bình là 0 và 1 tương ứng.
p (x/ω1 ) =
p (x/ω2 ) =
Nếu P (ω1 ) = P (ω2 ) =

1
2

1
exp −x2 )
π

1
exp − x − 1)2 )
π

. Hãy tính ngưỡng giá trị x0 :

1. Để tối thiểu xác suất lỗi
2. Để tối thiểu rủi ro
15

cho cả 2 lớp và 2


Luận văn cao học


Nguyễn Thị Hạnh


Nếu ma trận hư tổn là L = 

0 0.5
1

0




Giải:
Nói đến các dạng đồ thị của đồ thị hàm Gauss, ngưỡng để xác suất nhỏ
nhất sẽ là, tại x0 thì
exp −x2 ) = exp − x − 1)2
Lấy logarit 2 vế ta được x0 = 12 . Trong trường hợp rủi ro tối thiểu chúng
ta có thể lấy x0 sao cho
exp −x2 ) = 2exp − x − 1)2
Hay x0 =

(1−ln2)
2

<

1
2


. Do đó ngưỡng dịch chuyển sang trái của

1
2

. Nếu

2 lớp không có xác suất bằng nhau, thì dễ dang chứng minh rằng nếu
P (ω1 ) > (<)P (ω1 ) ngưỡng dịch chuyển sang phải (trái). Vì vậy, chúng
ta mở rộng miền mà trong đó chúng ta quyết định có lợi cho lớp có thể
xảy ra nhất, từ đó có thể làm giảm lỗi cho lớp có thể xảy ra nhất.

2.3

Các phương trình phân biệt và các mặt quyết
định

Chúng ta thấy việc tối thiểu rủi ro hoặc tối thiểu xác suất lỗi phân
loại tương đương với sự phân hoạch không gian mẫu trong M miền, với
nhiệm vụ M lớp. Nếu các miền Ri , Rj tiếp giáp với nhau thì chúng được
tách bởi một mặt quyết định trong không gian mẫu nhiều chiều. Trong
trường hợp xác suất lỗi là tối thiểu, nó được miêu tả bởi phương trình:
P (ωi /x) − P (ωj /x) = 0
16

(2.20)



×