Tải bản đầy đủ (.pdf) (93 trang)

Bài giảng lý thuyết nhận dạng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.77 MB, 93 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC
-------------------------

BÀI GIẢNG

LÝ THUYẾT NHẬN DẠNG
( TÀI LIỆU LƯU HÀNH NỘI BỘ )

Đếu có nhà xuất bản :v


Bài Giảng
Lý thuyết nhận dạng


Mục lục
1 Cơ sở lý luận của lý thuyết nhận dạng
1.1 Khái niệm cơ bản về nhận dạng . . . . . . . . . . . . . .
1.1.1 Sự ra đời của khoa học nhận dạng và hai định
hướng trong khoa học nhận dạng(KHND) . . . .
1.1.2 Một số ví dụ về nhận dạng dẫn đến định nghĩa
tổng quát về dạng . . . . . . . . . . . . . . . . . .
1.1.3 Định nghĩa tổng quát về dạng . . . . . . . . . . .
1.2 Một số bài toán cơ bản làm cơ sở cho việc xây dựng hệ
nhận dạng . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Bài toán mã hóa dạng . . . . . . . . . . . . . . .
1.2.2 Bài toán về việc xử lý sơ bộ và lựa chọn các dấu
hiệu . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Bài toán xây dựng hệ nhận dạng . . . . . . . . .
1.2.4 Bài toán đánh giá tham số . . . . . . . . . . . . .


1.2.5 Bài toán mô phỏng dạng . . . . . . . . . . . . . .
1.3 Một số nguyên tắc và phương pháp luận làm cơ sở để xây
dựng hệ nhận dạng . . . . . . . . . . . . . . . . . . . . .
1.3.1 Mội số nguyên tắc cơ bản . . . . . . . . . . . . .
1.3.2 Một số phương pháp luận làm cơ sở cho việc xây
dựng hệ nhận dạng tự động . . . . . . . . . . . .
1.4 Về một số phương pháp toán học xây dựng tiêu chuẩn
nhận dạng cho hệ nhận dạng tự động . . . . . . . . . . .
1.4.1 Một số khái niệm cơ bản . . . . . . . . . . . . . .
1.4.2 Xây dựng tiêu chuẩn nhận dạng cho hệ nhận dạng
tự động . . . . . . . . . . . . . . . . . . . . . . .
2 Các
2.1
2.2
2.3

hàm quyết định phân lớp dạng
Hàm quyết định và các yếu tố xác định hàm quyết định .
Nhận dạng bằng các hàm quyết định tuyến tính . . . . .
Một số trường hợp phân lớp dạng bằng hàm quyết định
tuyến tính . . . . . . . . . . . . . . . . . . . . . . . . . .
2

6
6
6
7
8
9
9

11
12
12
12
13
13
13
14
14
15
18
18
21
23


Giáp Văn Hiệp - Toán Tin 2 - K54

2.4

2.5

2.6

2.7

2.8

Nhận dạng bằng hàm quyết định suy rộng . . . . . . . .
2.4.1 Dạng tổng quát của các hàm suy rộng . . . . . .

2.4.2 Một số biến dạng quan trọng của các hàm suy rộng
Các phép lưỡng phân tập dạng . . . . . . . . . . . . . .
2.5.1 Khái niệm về phép lưỡng phân và có ý nghĩa của
phép lưỡng phân . . . . . . . . . . . . . . . . . .
2.5.2 Xác định bậc lưỡng phân bằng hàm suy rộng . . .
Phương pháp xâu dựng hàm tuyến tính trên cơ sở xấp xỉ
bởi 1 hệ các đa thức trực giao, trực chuẩn . . . . . . . .
2.6.1 Xây dựng hệ trực giao, trực chuẩn các hàm 1 biến
Xây dựng hệ trực giao, trực chuẩn đầy đủ, các hàm nhiều
biến trên cở sở hệ trực giao, trực chuẩn đầy đủ các hàm
1 biến . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7.1 Xây dựng một số hệ đa thức trực giao, trực chuẩn
đầy đỷ 1 biến đặc biệt và áp dụng xây dựng hệ đa
thức trực giao, trực chuẩn nhiều chiều. . . . . . .
Phương pháp xây dựng các hàm quyết định dựa trên cở
sở xấp xỉ bởi hệ các đa thức trực giao, trực chuẩn. . . . .

28
28
29
31
31
34
35
35

39
40
43


3 Phân lớp dạng bằng các hàm khoảng cách
3.1 Đặc trưng của việc phân lớp dạng bằng các hàm khoảng
cách . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Khái niệm khoảng cách, hàm khoảng cách . . . .
3.1.2 Đăc trưng của việc phân lớp dạng bằng các hàm
khoảng cách . . . . . . . . . . . . . . . . . . . . .
3.2 Một số phương pháp phân lớp dạng theo tiêu chuẩn cực
tiểu khoảng cách . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Phương pháp 1 . . . . . . . . . . . . . . . . . . .
3.2.2 Phương pháp 2 . . . . . . . . . . . . . . . . . . .
3.3 Một số thuật toán phân hoạch tập dạng theo tiêu chuẩn
cực tiểu khoảng cách . . . . . . . . . . . . . . . . . . . .
3.3.1 Khái niệm độ đo đồng dạng và một số độ đo đồng
dạng tiêu biểu . . . . . . . . . . . . . . . . . . . .
3.3.2 Một số thuật toán phân hoạch dạng theo tiêu chuẩn
cực tiểu khoảng cách. . . . . . . . . . . . . . . . .

45

4 Phân lớp dạng bằng các hàm xác suất
4.1 Phân lớp dạng như là một bài toán về lý thuyết các phép
giải thống kê . . . . . . . . . . . . . . . . . . . . . . . .

66

3

45
45
46

46
46
49
52
52
55

66


Giáp Văn Hiệp - Toán Tin 2 - K54

4.1.1

4.2

4.3

4.4

4.5

Xác định bài toán phân lớp dạng như là 1 trò chơi
mang đặc trưng thống kê. . . . . . . . . . . . . .
4.1.2 Xây dựng tiêu chuẩn nhận dạng cho việc phân lớp
dạng theo nghĩ xác suất. . . . . . . . . . . . . . .
4.1.3 Large Xây dựng các hàm quyết định phân lớp dạng
theo quy tắc phân lớp Bayets . . . . . . . . . . .
Phân lớp dạng theo quy tắc phân lớp Bayets trong trường
hợp các dạng tuân theo luật phân phối chuẩn . . . . . .

4.2.1 Nhắc lại đặc trưng của các biến ngẫu nhiên có
phân phối chuẩn . . . . . . . . . . . . . . . . . .
4.2.2 Xây dựng tiêu chuẩn nhận dạng, hàm quyết định
theo quy tắc phân lớp Bayets có các dạng có phân
phối chuẩn . . . . . . . . . . . . . . . . . . . . . .
Một số đánh giá xác suất sai số của phân lớp Bayets trong
một số trường hợp đặc biệt . . . . . . . . . . . . . . . . .
4.3.1 Đánh giá sai số của phân lớp Bayets trong trường
hợp phân phối chuẩn . . . . . . . . . . . . . . . .
4.3.2 Mở rộng đánh giá cho trường hợp phân lớp dạng
được thưc hiện bởi các hàm tuyến tính . . . . . .
Giới thiệu một số hàm mật đọ phân phối quan trọng trong
nhận dạng . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Hàm mật độ dạng tổng quát . . . . . . . . . . . .
4.4.2 Một số hàm mật độ dạng Peason . . . . . . . . .
Phương pháp xây dựng các hàm quyết định phân lớp dạng
theo quy tắc phân lớp Bayets trên cơ sở xấp xỉ các hàm
mật độ phân phốix ác suất . . . . . . . . . . . . . . . . .
4.5.1 Xây dựng các công thức truy toán tính kỳ vọng,
ma trận hiệp biến của các dạng thuộc cùng 1 lớp
4.5.2 Xây dựng xấp xỉ mật độ phân phối bởi hệ hàm .
4.5.3 Xây dựng các hàm quyết định phân lớp dạng theo
quy tắc phân lớp Bayets trên cơ sở xâp xỉ các hàm
mật độ phân phối . . . . . . . . . . . . . . . . . .

Tài liệu tham khảo

66
68
70

71
71

72
77
77
80
81
81
81

83
83
85

88
92

4


Lời nói đầu
Theo như yêu cầu của 1 số anh em, mình đã biên soạn xong quyển
này, trong quá trình tang gia bối rối viết không tránh khỏi những sai
sót và phải nói là mệt mỏi không biết diễn tả bằng từ gì nữa =)), vì vậy
bạn nào có ý kiến thì vả vỡ mồm luôn :v

5



Chương 1

Cơ sở lý luận của lý thuyết nhận
dạng
1.1

Khái niệm cơ bản về nhận dạng

1.1.1

Sự ra đời của khoa học nhận dạng và hai định hướng
trong khoa học nhận dạng(KHND)

a. Sự ra đời của KHND
Có thể giải thích sự ra đời của KHND dựa trên hai nguyên nhân sau
đây:
– KHND ra đời bắt nguồn từ việc quan sát sự nhận dạng tự nhiên
của con người và một số sinh vật sống khác.
∗ Con người và một số sinh vật sống khác nhận dạng các đối
tượng cụ thẻ thông qua các giác quan:
· Thị giác: Nhận biết được các hình dạng to nhỏ, ví dụ như
ô tô, nhà cửa ...
· Thính giác: Nhận biết (dạng) âm thanh, tiếng động như
tiếng sấm, động cơ, tiếng hát, cười ...
· Khứu giác: Nhận biết được các dạng mùi...
· Vị giác: Nhận biết các dạng vị như chua, chát, thối rữa ...
· Xúc giác: Nhận biết dạng tròn, nhẵn, xù xì, ghồ ghề ...
∗ Đặc biệt, con người còn nhận được các đối tượng trừu tượng
thông qua các phán đoán, lý luận, suy diễn, nhận dạng không
chỉ một đối tượng cụ thể mà cả một lớp đối tượng có cùng

tính chất đặc trưng chung.
Ví dụ 1.1. Nhận dạng thời tiết của một ngày (tháng, năm)
6


Giáp Văn Hiệp - Toán Tin 2 - K54

· Sức gió
· Độ ẩm
· Thủy văn
⇒ Dạng thời tiết ngày A: Sáng nhiều sương mù, trưa chiều
giảm mây trời nắng.
⇒ Dạng thời tiết ngày B: Tương tự ngày A nếu các thông số
đo đạc xấp xỉ các thông số đo đạc ngày A.
– KHND ra đời còn do các yêu cầu cấp bách của việc sử lý thông
tin ngày càng phát triển, gia tăng do nền văn mình của con người
ngày càng hiện đại.
b. Hai định hướng cơ bản trong KHND
– Định hướng 1: Nghiên cứu các khả năng ND và bản chất tự
nhiên của con người và một số vật sống khác có.
Hướng này liên quan đến ngành nghiên cứu:tâm lý học, sinh học,
vật lý học.
– Định hướng 2: Phát triển lý thuyết và các phương pháp xây
dựng các thiết bị nhằm giải các bài toán nhận dạng riêng biệt
cho từng lĩnh vực ứng dụng nhất định.
Hướng này liên quan đến các KH công nghệ, các ứng dụng tin
học, máy tính điện tử, khoa học máy tính, kỹ thuật học.
1.1.2

Một số ví dụ về nhận dạng dẫn đến định nghĩa tổng quát

về dạng

Ví dụ 1.2. Dự báo thời tiết là một sợ nhận dạng trên cơ sở các dữ liệu
đầu vào
Bản tin về thời tiết cho một ngày:
• Sức gió
• Độ ẩm
• Mực nước thủy văn
• Hình dạng mây
• Nhiệt độ

7


Giáp Văn Hiệp - Toán Tin 2 - K54

Quán trình nhận dạng ⇒ Dạng thời tiết của ngày A.
Ngày B có các thông số xấp xỉ thông số ngày A hay với các điều kiện
mà tương tự như ngày A ⇒ Dạng thời tiết ngày B tương tự dạng thời
tiết ngày A.
Ví dụ 1.3. Chuẩn đoán bệnh y học là một sự nhận dạng. Bệnh nhân A
đến bác sĩ, bác sĩ cần phải biết được các triệu chứng bệnh trên các dấu
hiệu:
• Nhiệt độ cơ thể
• Thực hiện các xét nghiệm
– Máu
– Nước tiểu, phân
– Điện tim, não đồ
– Đo huyết áp
– Chụp X- Quang

Quá trình nhận dạng ⇒ Dạng bệnh của người A
Bệnh nhân B có triệu chứng tương tự như người A thì bệnh nhân B mắc
bệnh tương tự như bệnh nhân A.
1.1.3

Định nghĩa tổng quát về dạng

Tất cả các đối tượng (phần tử) có cùng chung một số tính chất đặc
trưng điển hình và chỉ những đối tượng đó nhóm họp với nhau tạo thành
từng lớp xác định. Dạng là sự mô tả một phần tử bất kỳ được lấy làm
đại diện cho những phần tử khác trong cùng một lớp mà được đồng
nhất với phần tử đại diện (dạng mẫu) bởi các tính chất chung đó. Do
đó, nhận dạng chính là đoán nhận cả một lớp dạng, phân biệt lớp dạng
này với các lớp dạng khác.
a. Chức năng cơ bản của hệ nhận dạng tự động
– Định nghĩa Chức năng cơ bản của hệ nhận dạng tự động là phát
hiện và tách ra các dấu hiệu đặc trưng cho các dạng trong tập
dạng, đồng thời phân hoạch tập dạng thành từng lớp xác định
sao cho mỗi lớp có ít nhật một dạng mẫu (dạng đại diện cho lớp)
được lưu trữ trong bộ nhớ của hệ nhận dạng.
8


Giáp Văn Hiệp - Toán Tin 2 - K54

Nhận ra các dạng mới và xếp phân lớp chúng hoăc xây dựng
thêm các lớp dạng mới.
– Ví dụ minh họa cho chức năng của hệ nhận dạng Giả suwe có
tập dạng gồm tất cả dạng đường cong trong mặt phẳng và hệ
nhận dạng tự động đã phân hoạch được chúng thành từng lớp

xác định, mỗi lớp có những dạng mẫu đã được bao quản (lưu
trữ) trong bộ nhớ của hệ nhận dạng. Vấn đề đặt ra là nhận dạng
chữ COINS. Ta có sơ đồ sau:

1.2

1.2.1

Một số bài toán cơ bản làm cơ sở cho việc xây dựng hệ
nhận dạng
Bài toán mã hóa dạng

Định nghĩa
Bài toán mã hóa dạng là bài toán mà mỗi 1 đại lượng vật lý đo được
từ dạng đều được xem là 1 dấu hiệu đặc trưng cho dạng và dạng sẽ được
9


Giáp Văn Hiệp - Toán Tin 2 - K54

đồng nhất với 1 bộ các dấu hiệu đặc trưng cho chúng.
Giả sử có 1 dạng x và từ x ta xác định 1 bộ n dấu hiệu đặc trưng
x1 , · · · , xn từ kết quả của n phép đo thì x đồng nhất (x1 , · · · , xn )T xem
như một véc tơ trong KG Euclid n chiều Rn nào đó. Vậy 1 đường bất kỳ
có thể mã hóa được thành 1 véc tơ trong không gian KG Euclid n chiều
Rn .
Một số ví dụ
Ví dụ 1.4. Mã hóa dạng chữ số 5. Trên mặt phẳng chứa chữ số 5, ta
dựng hệ tọa độ 0xy, sau đó vẽ 1 họ các đường thẳng song song với 0x,
0y tạo thành một hệ mắt lưới hình chữ nhật phủ số 5.


Giả sử có n mắt lưới phủ chữ số 5, ký hiệu:
xj =

1nếu mắt lưới thứ j ∩ 5 = φ
0nếu mắt lưới thứ j ∩ 5 = φ

⇒ 5 ≡ (x1 , · · · , xn )T trong đó xj nhận các giá trị là 0 hoặc 1. Như vậy,
1 chữ số có thể đồng nhất với 1 véc tơ nhị phân.
Ví dụ 1.5. Mã hóa 1 dạng sóng âm thanh. Giả sử cho một sóng âm
f=f(t) như hình vẽ. Giả sử tại mỗi thời điểm ti ta đo được bước sóng
f (ti ) với mọi i=1,2,...,n. ⇒ Sóng âm f = (f (t1 , · · · , f (tn ))) ∈ Rn .

10


Giáp Văn Hiệp - Toán Tin 2 - K54

Ví dụ 1.6. Mã hóa 1 dạng thời tiết. Để có được dạng thời tiết của 1
ngày A, ta cần phải biết được (đo được) các đại lượng sao:
• Sứ gó x1
• Độ ẩm x2
• Đo mức nước thủy văn x3
• Đo nhiệt độ x4
⇒ Thời tiết ngày A=(x1 , x2 , x3 , x4 )T .
1.2.2

Bài toán về việc xử lý sơ bộ và lựa chọn các dấu hiệu

Định nghĩa

Là bài toán tiếp sau bài toán mã hóa, mục đích nhằm lựa chọn ra các
dấu hiệu đặc trưng điển hình, loại bỏ các dấu hiệu phụ để giảm bới kích
thước của dạng, giảm mức đo phức tạp trong tính toán.
Ví dụ 1.7. Đối với dạng sóng âm f=f(t) chỉ cần đo bước sóng cực đại
và các bước sóng cực tiểu cũng đủ tạo ra được 1 bộ dấu hiệu đặc trưng
cho f.

11


Giáp Văn Hiệp - Toán Tin 2 - K54

1.2.3

Bài toán xây dựng hệ nhận dạng

Định nghĩa
Bài toán xây duwjngj hệ nhận dạng tự động là bài toán xây dựng các
thiết bị cho hệ nhận dạng sao cho các yêu cầu sau được thỏa mãn:
• Yêu cầu 1: Phải phát hiện và tách ra được các dấu hiệu đặc trưng
cho các dạng đồng thời phân hoạch tập dạng ra thành từng lớp xác
định.
• Yêu cầu 2: Tiếp nhận dạng mới, phân lớp chúng, hoặc xây dựng lớp
mới.
Bài toán xây dựng hệ nhận dạng là bài toán được đặt ra sau hai bài
toán trên và bài toán được giải quyết qua hai giai đoạn
• Giai đoạn 1: Căn cứ vào các dấu hiệu đặc trưng của các dạng phân
hoạch tập dạng ra thành từng lớp xác định.
• Giai đoạn 2: Nhận dạng các dạng mới và xếp lớp chúng.
1.2.4


Bài toán đánh giá tham số

Trong quá trình giải quyết bài toán dạng có thể nảy sinh một loạt các
thông số cần phải được xử lý 1 cách tối ưu. Như vậy, ta thường có bài
toán đánh giá thông số. Các thông số thường được đánh giá thông qua
các công cụ của lý thuyết tối ưu.
1.2.5

Bài toán mô phỏng dạng

Là bài toán liên quan đến việc sử lý thông tin chứa trong văn cảnh,
lời nói hoặc chữ viết. Nếu thông tin chỉ được chứa trong văn cảnh hoặc
mô tả bằng lời thì hệ nhận dạng tự động cần phải xác định ra 1 loạt các
dấu hiệu đặc trưng để trên cở sở đó mô phỏng được dạng. Có thể xác
định được các dấu hiệu đặc trưng này nhờ các xác suất có điều kiện, các
thống kê ngôn ngữ học và các phương pháp xấp xỉ,... và bộ các dấu hiệu
đặc trưng thu được được gọi là ngữ pháp của dạng.

12


Giáp Văn Hiệp - Toán Tin 2 - K54

1.3

1.3.1

Một số nguyên tắc và phương pháp luận làm cơ sở để xây
dựng hệ nhận dạng

Mội số nguyên tắc cơ bản

1. Nguyên tắc liệt kê bộ phận.
Là nguyên tắc liệt kê các thành phần của dạng mà theo đó chỉ những
thành phần có tính chất đặc trưng điển hình cho dạng được giữ lại,
còn sẽ được ... (đếu dịch được).. những thành phần không cần thiết.
Khi 1 dạng đã mã hóa được dựa vào hệ nhận dạng thì hệ nhận dạng
sẽ liệt kê và so sánh các dấu hiệu đặc trưng của dạng với các dấu
hiệu đặc trưng của dạng mẫu đã được lưu trữ trong bộ nhớ của hệ
nhận dạng.
2. Nguyên tắc đồng nhất các tính chất.
Các dạng mới sẽ được so sánh với các dạng mẫu thuộc từng lớp xác
định của hệ nhận dang, hệ nhận dạng sẽ đồng nhất các dấu hiệu
đặc trưng của dạng mới với các dấu hiệu đặc trưng của dạng mẫu
và tiến hành phân lớp dạng mới (nhận dạng).
3. Nguyên tắc "Classteration":
Là nguyên tắc chuyển từng lớp dạng đã được mã hóa xác định của
tập dạng vào trong những tập compact tách biệt của không gian
Euclid tương ứng (chẳng hạn là yêu cầu tách biệt) và được gọi là
những "Classter". Từ những Classter tách biệt này việc phân lớp
các dạng mới được thực hiện mang tính định hướng và rõ ràng
hơn.(Chính xác hơn những lớp này được bao bọc trong những biểu
cầu tách biệt gọi là nhữn "Classter").
1.3.2

Một số phương pháp luận làm cơ sở cho việc xây dựng
hệ nhận dạng tự động

1. Phương pháp Heuristic (tìm kiếm)
Trực giác và kinh nghiệm của con người được lấy làm cơ sở của

phương pháp này, trong đó các nguyên tắc liệt kê và đồng nhất, các
tính chất được sử dụng.
2. Phương pháp toán học.
Thông thường có 2 phương pháp.
13


Giáp Văn Hiệp - Toán Tin 2 - K54

– Phương pháp đơn hình: là phương pháp xây dựng các thuật toán
lặp trong việc phân hoạch tập dạng và nhận dạng.
– Phương pháp thống kê : Là phương pháp sử dụng lý thuyết xác
suất thống kê để phân lớp dạng có mức rủi ro (tổn thất) trung
bình thấp nhất.
3. Phương pháp ngôn ngữ
Nếu việc mô ta các dạng được thực hiện bằng phương pháp mô
phỏng, thì để xây dựng hệ nhận dạng, người ta thường sử dụng
phương pháp ngôn ngữ đồng thời với việc sử dụng nguyên tắc đồng
nhất các tính chất, yếu tố then chốt của phương pháp này là ở việc
lựa chọn các phần tử mô phỏng của dạng, đồng thời kết hợp các
phần tử này với các mối tương quan của chúng tạo thành ngữ pháp
của dạng và cuối cùng thực hiện trong ngôn ngữ tương ứng quá trình
phân tích và đón nhận.
1.4

Về một số phương pháp toán học xây dựng tiêu chuẩn
nhận dạng cho hệ nhận dạng tự động

1.4.1


Một số khái niệm cơ bản

1. Khái niệm về các bộ phận cấu thành hệ nhạn dạng.
a. Khối cảm biến: Là 1 thiết bị dùng để biến các đặc trưng vật lý
của dạng thành 1 bộ dấu hiệu đặng trưng cho dạng. Nói cách
khacs, khối cảm biến là thiết bị dùng để mã hóa dạng (dạng được
mã hóa thành những véc tơ).
b. Khối phân lớp: Là thiết bị dùng để tiếp nhận các dạng đã được
mã hóa từ khối cảm biến phân hoạch thành từng lớp xác định
cùng với những dạng mẫu tương ứng được lưu trữ vào bộ nhớ
nhận dạng mới và xếp lớp các dạng mới.
2. Khái niệm về sai số trong hệ nhận dạng
Một số hệ nhận dạng được gọi là phạm sai số nếu 1 dạng thực chất
thuộc vào 1 lớp nào đó nhưng hệ nhận dạng lại xếp (phân) dạng đó
sang 1 lớp khác.
Ví dụ: Cho 2 hệ nhận dạng R1 , R2 . Ta nói hệ R1 tốt hơn R2 nếu
xác suất phạm sai (sai số) của hệ R1 nhỏ hơn xác suất sai số của hệ
14


Giáp Văn Hiệp - Toán Tin 2 - K54

R2 khi phân lớp dạng.
3. Một số khái niệm xác suất trên nghiệm, mật đọ phân phối xác suất
(PPXS), xá suất phân lớp chúng
Giả sử 1 dạng Ω ⊂ Rn đã được phân hoạch thành m lớp xác định
Ω1 , Ω2 , · · · , Ωm , x là 1 dạng cần được phân lớp. Khi đó, xác suất
xuất hiện dạng x trong lớp Ωi ký hiệu là p(Ωi ) được gọi là xác suất
tiên nghiệm (xác suất ban đầu)của Ωi với mọi i=1,2,...,m.
Nếu sự xuất hiện của x trong các lớp đồng khả năng thì các xác suất

tiên nghiệm p(Ωi )= 1/m. với i=1,2,...m.
Xác suất có điều kiện p(Ωi /x) được gọi là xác suất phân lớp đúng
dạng x vào lớp Ωi .
Xác suất có điều kiện p(Ωi /x) là MĐPPXS dạng x vào lớp Ωi .
Xác suất p(x) để chỉ xác suất xuất hiện dạng x trong tập dạng.
1.4.2

Xây dựng tiêu chuẩn nhận dạng cho hệ nhận dạng tự

động
1. Xây dựng tiêu chuẩn tổng quát Giả sử tập dạng ΩØcphnhchthnhm
lớp Ω1 , Ω2 , · · · , Ωm , x là dạng mới cần được phân lớp. Để tiện lợi,
ta giới thiệu các xác suất tiên nghiệm bằng nhau, tức là
p(Ω1 ) = p(Ω2 ) = · · · = p(Ωm )

(∗)

Nếu x được phân lớp Ωi thi ta có xác suất phân lớp đúng.
pi = p(Ωi /x) =

p(xΩi ) p(x/Ωi )p(Ωi ) p(xΩi )p(Ωi )
=
=
m
p(x)
p(xΩ)
p(x
Ωk )
k=1


=

p(x/Ωi )p(Ωi )

=

m

p(x/Ωi )p(Ωi )
m

p(xΩk )

p(x/Ωi )

(∗)

=

m

p(x/Ωk )p(Ωk )

k=1

k=1

p(x/Ωk )
k=1


Từ đó suy ra xác suất phân sai x vào lớp Ωi là 1-pi
Với i = j ta có 1-pi < 1- pj ⇔ pi > pj


p(x/Ωi )
m

>

p(x/Ωj )
m

p(x/Ωk )
k=1
15

p(x/Ωk )
k=1


Giáp Văn Hiệp - Toán Tin 2 - K54

⇔ p(x/Ωi ) > p(x/Ωj )
Từ đó người ta xây dựng được 1 tiêu chuẩn nhận dạng tổng quát
Dạng mới x sẽ được phân vào lớp mà có xác suất sai số đối với
lớp đó là bé x’ so với tất cả các xác suất sai số đối với các lớp
còn lại. Nói các khác x được phân lớp có MĐPPXS là lớn x’ so
với tất cả các MĐPPXS đối với các lớp khác.
⇒ Điều đó có nghĩa là x ∈ D nếu p(x/Ωi ) > p(x/Ωj ) với mọi i
= j, j =1,2,...,m. Trường hợp tồn tại lớp Ωk sao cho p(x/Ωi ) =

p(x/Ωk ), đồng thời p(x/Ωk ) > p(x/Ωj ) với mọi j = k , j = i thì
máy sẽ phân 1 cách tùy ý vào Ωi hoặc Ωk .
2. Ví dụ về xây dựng tiêu chuẩn nhận dạng trong TH các dạng tuân
theo phân phối chuẩn.
a. Nhắc lại định nghĩa về biến ngẫu nhiên tuân theo luật phân phối
chuẩn (ppc)
Dạng x = (x1 , · · · , xn ) ∈ Rn xem như là 1 biến ngẫu nhiên n
chiều được gọi là tuân theo luật ppc nếu hàm MĐPPXS (ppxs)
của nó có dạng
1
1
p(x) =
exp{− (x − m) c−1 (x − m)}
n
1
2
(2π) /2 |det(c)| /2
trong đó m = (m1 , · · · , mn ) là véc tơ kỳ vọng toán học (trị trung
bình) của x, mi = Exi , ∀i = 1, · · · , n, C = (cij )n×n - ma trận
hiệp biến vuông cấp n.
Với
cij = cov(xi − xj ) = E {(xi − mi )(xj − mj )}
⇒ c = E {(x − m)(x − m) }

(C- MT đối xứng xác định dấu)

Giả sử Ω - tập dạng đã được phân hoạch thành M lớp Ω1 , · · · , ΩM
gồm các dạng tuân theo luật chuẩn.
Giả sử x là 1 dạng cần được phân lớp. Từ định nghĩa ⇒ MĐPPXS
của dạng x đối với lớp Ωi là:

p(x/Ωi ) =

1

1
exp

(x − mi ) ci (x − mj )
2
(2a)n/2 |det(ci )|1/2

trong đó
mi = (mi1 , · · · , min ) , mij = E(xj /Ωi ), ∀i = 1, · · · , M.
16


Giáp Văn Hiệp - Toán Tin 2 - K54

Ma trận hiệp biến : ci = (cipq )n×n với cipq = E (xp − mip )(xq − miq ) .
Để tiện lý luậ ta giả giử các xác suất trên nghiệm bằng nhau
p(Ωi ) = 1/M, ∀i = 1, · · · , M . Các ma trận hiệp biến như nhau
cho tất cả các lớp, tức là
c1 = · · · = cM = c
Theo tiêu chuẩn nhận dạng tổng quát, x được phân vào lớp Ωi
nếu p(x/Ωi ) > p(x/Ωj ), ∀i = j, j = 1, · · · , M
(∗) ⇔

p(x/Ωi )
p(x/Ωi )
> 1 ⇔ ln

>0
p(x/Ωj )
p(x/Ωj )

p(x/Ωi )
Đặt dij (x) = ln p(x/Ω
j)

1
1
= − (x − mi ) c−1 (x − mi ) + (x − mj ) c−1 (x − mj )
2
2
1
1
1
1
= − x c−1 x + x c−1 mi + mi c−1 x − mi c−1 mi
2
2
2
2
1 −1
1
1 −1
1
+ x c x − x c mj − mj c−1 x + mj c−1 mj
2
2
2

2
1
1
1
1
= x c−1 (mi −mj )− mi c−1 mi − mj c−1 mj + mj c−1 mi + mj c−1 mj
2
2
2
2
1
1
= x c−1 (mi − mj ) − (mi + mj ) c−1 mi + mj c−1 (mi + mj )
2
2
−1
−1
c =(c )
1
1
= x c−1 (mi − mj ) − (mi + mj ) c−1 mi + (mi + mj ) c−1 mj
2
2
Hay
1
dij (x) = x c−1 (mi − mj ) − (mi + mj )c−1 (mi − mj )
2
công thức trên là tổ hợp tuyến tính của các biến
b. Phát biểu tiểu chuẩn nhận dạng Dạng x được phân vào lớp Ωi (trong
trường hợp các dạng tuân theo luật chuẩn với cùng ma trân hiệp biến

cho các lớp và xác suất trên nghiệm bằng nhau) nếu
1
dij (x) = x c−1 (mi −mj )− (mi +mj )c−1 (mi −mj ) > 0∀i = j, j = 1, · · · , M
2
Trường hợp tồn tại lớp Ωk sao cho dik (x) = 0 còn dki > 0 với mọi
j = k, i, j = 1, · · · , M thì hệ nhận dạng sẽ đưa x vào Ωi hay Ωk tùy
ý.
17


Chương 2

Các hàm quyết định phân lớp dạng
2.1

Hàm quyết định và các yếu tố xác định hàm quyết định

1. Khái niệm hàm quyết định
a. Định nghĩa:
Một hàm thực n biến xác định trong không gian Euclid Rn chứa
1 tập dạng nào đó được gọi là hàm quyết định phân lớp tập dạng,
nêu căn cứ vào dấu của nó có thể xác định được khả năng phân
1 dạng bất kỳ của tập dạng vào lớp nào đó trong số các lớp đã
được phân hoạch của tập dạng.
Khi đó, nếu d = d(x) là 1 hàm quyết (đoạn này không dịch
được) là tập dạng thì phương trình d(x)=0 biểu dienj 1 (cái gì
đó ý cũng ko bit luôn :-)) )trong không gian Rn được goi là siêu
mặt quyết định phân lớp dạng. (Trường hợp đặc biệt). Khi
n


d(x) =

ωj xj + ωn+1
j=1

hàm tuyến tính thì d(x) = 0 là siêu phẳng trong Rn
b. Một số ví dụ
Ví dụ 2.1. Giả sử Ω là tập dạng được mã hóa vào R2 gồm 2 lớp
Ω1 = các cầu thủ bóng đá
Ω2 = các vận động viên đua ngựa
bởi bộ 2 dấu hiệu đặc trưng x1 = chiều cao và x2 = cân nặng.

18


Giáp Văn Hiệp - Toán Tin 2 - K54

Ω1 ⊂ claster S1 -hình tròn tập I1 (a1 , b1 ), bán kinh R1 .
Ω2 ⊂ claster S2 -hình tròn tập I2 (a2 , b2 ), bán kinh R2 . Giả thiết
I1 I2 > R2 + R2 , đường thằng trung trực của đoạn thẳng I1 I2 có
phương trình:
1
d12 (x) = (a2 − a1 )x1 + (b2 − b1 )x2 − (a22 − a21 + b22 − b21 ) = 0
2
Nếu trung điểm I nằm ngoài 2 đường tròn thì d12 (x) là hàm
quyếtđịnh phân lớp 2 lớp dạng Ω1 , Ω2 .
d12 (x) chia mặt phẳng ra làm 2 nửa
2
d+
12 = x ∈ R |d12 (x) > 0

2
d−
12 = x ∈ R |d12 (x) < 0

x thuộc Ω1 nếu d12 (x) < 0, x thuộc Ω2 nếu d12 (x) > 0.
d12 (x) = 0 là đường quyết định tách lớp Ω1 ra khởi Ω2 .
Ví dụ 2.2. Lấy lại Ví dụ ở chương I, trong trường hợp ppc và
tập dạng Ω được phân hoạch thành M lớp với các xác suất tiên
nghiệm và ma trận hiệp biến như nhau cho từng lớp thì cần tới
2
CM
hàm quyết định lớp tập dạng
1
dij (x) = x c−1 (mi − mj ) − (mi + mj )c−1 (mi − mj ), ∀1 ≤ i < j ≤ M
2
2
⇒ CM
siểu phẳng quyết định được cho bởi các phương trình
dij (x) = 0 cho phép tách lớp Ωi ra khỏi lớp Ωj .
19


Giáp Văn Hiệp - Toán Tin 2 - K54

2. Các yếu tố xác định hàm quyết định
Để xác định hàm quyết định cần 2 yếu tố sau:
a. Dạng hàm quyết định
∗ Dạng tuyến tính
∗ Dạng phi tuyến
b. Khả năng thực tế xác định các hệ số của hàm quyết định

Hệ số của hàm quyết định tức là các hằng số tham gia vào việc
quyết định dạng hàm quyết định.
Ví dụ 2.3. Giả sử 1 tập dạng Ω ⊂ R2 được phân hoạch thành 2 lớp
Ω1 , Ω2 , biết được 2 lớp này có thể tách được bởi 1 hàm quết định
tuyến tính dạng tổng quát
d(x) = ω1 x1 + ω2 x2 + ω3
Bám vào dạng mẫu chứa trong Ω1 , Ω2 , căn cứ đầu tiên vào các dạng
mẫu của Ω1 , Ω2 , ví dụ:
Ω1 gồm 2 dạng:
– x1 = (α11 , α12 )
– x2 = (α21 , α22 )
Ω2 gồm 2 dạng:
– x3 = (α31 , α32 )
– x4 = (α41 , α42 )
Tiêu chuẩn nhận dạng được cho như sau:
x ∈ Ω1 nếu d(x) > 0
x ∈ Ω2 nếu d(x) < 0
⇒ Hệ phương trình xác định ω1 , ω2 , ω3 :

α11 ω1 + α12 ω2 + ω3



α21 ω1 + α22 ω2 + ω3
α ω + α32 ω2 + ω3


 31 1
α41 ω1 + α42 ω2 + ω3


20

>0
>0
<0
<0


Giáp Văn Hiệp - Toán Tin 2 - K54

2.2

Nhận dạng bằng các hàm quyết định tuyến tính

1. Dạng tổng quát của các hàm tuyến tính
a. Định nghĩa
Một hàm thực n biến xác định trong không gian Euclid Rn được
gọi là hàm tuyến tính nếu nó có dạng
n

d = d(x) = ω1 x1 + · · · + ωn xn + ωn+1 =

ωj xj + ωn+1 (2.1)
j=1

trong đó ωj , j = 1, · · · , n + 1 là các hằng số thực tùy ý và x =
(x1 , · · · , xn ) ∈ Rn .
b. Chú ý
∗ Chú ý 1.
Không gian Rn ∼

= Rn = {x = (x1 , · · · , xn , 1) } qua phép tương
ứng 1-1.
x = (x1 , · · · , xn ) ⇔ x = (x1 , · · · , xn , 1)
⇒ Có thể đồng nhất x ∼
= x, do đó
d(x) ∼
=Wx
trong đó W = (ω1 , · · · , ωn+1 ) và x = (x1 , · · · , xn , 1) .
∗ Chú ý 2.
Phương trình d(x)=0 biểu diễn 1 siêu phẳng trong Rn . Nếu
d(x) là hàm quyết định tuyến tính tham gia vào việc phân lớp
dạng 1 tập dạng Ω nào đó thuộc Rn thì siêu phẳng d(x)=0
được gọi là siêu phẳng quyết định.
Siêu phẳng quyết định d(x)=0 chia không gian Rn ra làm 2
nửa
d+ = {x ∈ Rn |d(x) > 0}
d− = {x ∈ Rn |d(x) < 0}


Véc tơ W = (ω1 , · · · , ωn ) gọi là véc tơ pháp tuyến của siểu
phẳng d(x)=0
Ví dụ 2.4. • n=1, trong không gian R là một siêu phẳng không
chiều dạng x0 (1 điểm) (đếu đọc được =)) Điểm x = x0 chia
R ra làm 2 nửa
d+ = {x > x0 }
d− = {x < x0 }
21


Giáp Văn Hiệp - Toán Tin 2 - K54


• n=2, trong không gian R2 , ta được các siêu phẳng 1 chiều dạng
d(x) = ω1 x1 + ω2 x2 + ω3 = 0 (đường thẳng thông thường)

• n=3, trong không gian R3 được các siêu phẳng 2 chiều
d(x) = ω 1 x1 + ω2 x2 + ω3 x3 + ω4 = 0
(mặt phẳng thông thường)

c. Tiêu chuẩn nhận dạng bởi hàm tuyến tính đối với 2 lớp dạng
22


Giáp Văn Hiệp - Toán Tin 2 - K54

Giả sử Ω1 , Ω2 là 2 lớp dạng bất kỳ của 1 tập dạng Ω nào đó. Khi
đó, hàm tuyến tính d = d(x) = W x là hàm quyết định tách 2
lớp Ω1 , Ω2 nếu tiêu chuẩn nhận dạng sau thỏa mãn.
x được phân vào lớp Ω1 nếu d(x)>0 , được phân vào lớp Ω2 nếu
d(x) <0. (d(x) còn được gọi là hàm quyết định đối với lớp Ωx )
2.3 Một số trường hợp phân lớp dạng bằng hàm quyết
định tuyến tính
1. TH1: Mỗi lớp đều được tách ra khỏi tất cả các lớp còn lại bằng
1 siêu phẳng quyết định.
Giả sử dạng Ω ⊂ Rn được phân hoạch tthanhf M lớp Ω1 , · · · , ΩM
và các lớp này tách nhau theo TH1. Khi đó, tồn tại M hàm
quyết định tuyến tính d1 (x), · · · , dM (x) trong đó di (x) = wi x
với wi = (ωi1 , · · · , ωin+1 ) ∈ Rn+1 , ∀i = 1, · · · , M sao cho di (x) là
hàm quyết định đối với lớp Ωi (tách lớp Ωi ra khỏi M-1 lớp còn
lại). Từ đó ⇒ tiêu chuẩn nhận dạng sau:
x ∈ Ωi nếu di (x) > 0 và dj (x) < 0 với mọi i = j, j = 1, · · · , M.


23


Giáp Văn Hiệp - Toán Tin 2 - K54

Chú ý: Nếu các lớp dạng của Ω tách nhau theo TH1 thì đối với
lớp Ωi bất kỳ ta luôn có
M

Ωi ⊂

d+
i

d−
j


j=1

Ví dụ 2.5. Giả sử trong R2 cho tập dạng Ω được phân thành 3
lớp Ω1 , Ω2 , Ω3 và 3 lớp này tách nhau theo TH1 bởi hàm quyết
định tuyến tính
d1 (x) = −x1 + x2 , d2 (x) = x1 + x2 − 5, d3 (x) = −x2 + 1
a. Xác định các đường quyết định cho phép tách 3 lớp trên và
các miền tương ứng cho 3 lớp đó.
b. Biết x∗ = (6, 5) là 1 dạng thuộc Ω. Hãy nhận dạng x∗
Lời giải
a. Các đường quyết định chính là các đường thẳng.

d1 (x) = −x1 + x2 = 0
d2 (x) = x1 + x2 − 5 = 0
d3 (x) = −x1 + 1 = 0

⇒ Các đường quyết định như hình vẽ. Từ đó suy ra

24


×