ĐẠI HỌC CƠNG NGHIỆP HÀ NỘI
Khoa Cơng nghệ thơng tin
Nhập môn LÝ THUYẾT NHẬN DẠNG
Introduction to Pattern Recognition
Chương 2: Hàm quyết định
Giảng viên: Phạm Văn Hà
Hà Nội – 2013
2
Nội dung
ĐH Công nghiệp Hà Nội
Chương 1: Tổng quan về nhận dạng
Chương 2: Hàm quyết định
Chương 3: Phân loại theo khoảng cách
Chương 4: Phân loại theo hàm hợp lý
Chương 5: Tiếp cận perceptron
Chương 6: Véc tơ hỗ trợ máy (SVM)
Chương 7: Tiền xử lý và lựa chọn dấu hiệu
3
Tài liệu tham khảo
ĐH Công nghiệp Hà Nội
S. Theodoridis , K. Koutroumbas, Pattern Recognition,
Academic Press,1999.
Srihari, S.N., Covindaraju, Pattern recognition, Chapman
&Hall, London, 1034-1041, 1993.
Sergios Theodoridis, Konstantinos Koutroumbas , Pattern
Recognition 4th ed. ,Elsevier(USA)), 2009.
R.O. Duda, P.E. Hart, and D.G. Stork, Pattern Classification,
New York: John Wiley, 2001.
Các bài toán cơ bản
của lý thuyết nhận dạng
Giả sử ta cần nhận dạng đối tượng x nào đó
Tập tất cả các lớp được ký hiệu Ω={ω1,ω2,… ωm}
Ví dụ: trong nhận dạng ký tự, x là ký tự cần nhận dạng, ωi
là các lớp ký tự nào đó
Giả sử các lớp khơng giao nhau
Ta có sơ đồ nhận dạng tổng quát như sau:
ĐH Công nghiệp Hà Nội
4
Các bài toán cơ bản
của lý thuyết nhận dạng
Từ sơ đồ trên có thể rút ra các bài tốn cơ bản của lý thuyết
nhận dạng:
1.
2.
3.
ĐH Công nghiệp Hà Nội
4.
5.
Mô tả tốn học đối tượng (pattern)
Lựa chọn các dấu hiệu mơ tả đối tượng chứa thơng tin
đặc trưng nhất (Trích chọn đặc trưng)
Mơ tả các lớp đối tượng nhận dạng
Tìm giải pháp nhận dạng tối ưu
Đánh giá kết quả nhận dạng
5
6
Các bài tốn cơ bản của LTND:
Mơ tả tốn học đối tượng
Mơ tả tốn học được cho là thuận tiện nhất: dạng vector
Mỗi đối tượng x được mô tả bằng 1 vector dạng
x=(x1, x2,…,xn)T
x – thành phần của không gian vector X . Khơng gian
vector đó được gọi là khơng gian các dấu hiệu. Thơng
thường đó là các khơng gian hữu hạn và đo được. Nếu
các dấu hiệu là các giá trị thực thì ta có X đẳng cấu với Rn
Ngồi dạng vector các đối tượng cịn có thể được mô tả dưới
dạng khác, chẳng hạn ma trận (phổ biến trong nhận dạng
ảnh)
ĐH Công nghiệp Hà Nội
x – vector các dấu hiện xi
7
Các bài tốn cơ bản của LTND:
Trích chọn đặc trưng
ĐH Công nghiệp Hà Nội
Nhiệm vụ quan trọng hàng đầu trong nhận dạng là tìm ra số
lượng đặc tính nhỏ nhất nhưng chứa đựng nhiều thông tin
nhất về đối tượng cần nhận dạng.
Thiết lập được một bộ thuộc tính tốt đơi khi mang tính nghệ
thuật hơn là khoa học.
Một bộ đầy đủ các dấu hiệu đặc trưng để nhận dạng được gọi
là “bảng chữ cái” đặc tính (alphabet features). Bộ các đặc
tính tối thiểu, đủ để giải quyết một lớp bài tốn nhận dạng nào
đó, được gọi là từ điển đặc tính (feature dictionary).
Hiệu quả nhận dạng của hệ thống phụ thuộc rất nhiều vào
việc lựa chọn alphabet features và việc tìm ra feature
dictionary.
8
Các bài tốn cơ bản của LTND:
Mơ tả các lớp đối tượng nhận dạng
ĐH Cơng nghiệp Hà Nội
Bài tốn mơ tả các lớp đối tượng nhận dạng được quy về
việc xác định ranh giới các lớp. Ranh giới các lớp có thể
được cho tường minh ở bước thiết kế hệ thống nhận dạng
hoặc hệ thống phải tự tìm ra các ranh giới đó trong q trình
làm việc.
9
Các bài tốn cơ bản của LTND:
Tìm giải pháp nhận dạng tối ưu
ĐH Cơng nghiệp Hà Nội
Tìm giải pháp nhận dạng: đưa ra phương pháp liệt vector dấu
hiệu về 1 trong các lớp nào đó.
10
Các bài toán cơ bản của LTND:
Đánh giá kết quả nhận dạng
ĐH Công nghiệp Hà Nội
Bước đánh giá là cần thiết để người (hoặc máy) tiếp nhận
giải pháp liệt đối tượng vào lớp này hay lớp kia có thể đánh
giá đại lượng mất mát do việc phân loại sai.
11
Các dạng hệ thống nhận dạng
ĐH Công nghiệp Hà Nội
Phân loại theo tính chất thơng tin về các dấu hiệu đặc trưng
Hệ thống xác định;
Hệ thống xác suất;
Hệ thống lôgic;
Hệ thống cấu trúc;
Hệ lai.
Phân loại theo lượng thông tin ban đầu về đối tượng nhận
dạng:
Hệ thống khơng cần học
Hệ thống học có giám sát
Hệ thống tự học
12
ĐH Công nghiệp Hà Nội
Các dạng hệ thống nhận dạng
13
ĐH Cơng nghiệp Hà Nội
Thiết lập bài tốn nhận dạng.
Nhận dạng - bài tốn khơng chính xác
Gọi U là tập các đối tượng trong bài toán nhận dạng. Một đối
tượng riêng biệt trong tập này được ký hiệu là x. Mỗi đối
tượng x∈U có thể được đặc trưng bởi vơ số (thậm chí khơng
đếm được) các đặc tính.
Ở bước xây dựng bảng chữ cái đặc tính chúng ta phải chọn
ra một tập con các dấu hiệu (thường là hữu hạn), gọi là
khơng gian đặc tính. Ta ký hiệu tập hợp này là X. Thơng
thường khơng gian X có cấu trúc tuyến tính hoặc metric. Phổ
biến nhất là khơng gian tuyến tính hoặc metric hữu hạn chiều.
14
Thiết lập bài toán nhận dạng.
Nhận dạng - bài toán khơng chính xác
ĐH Cơng nghiệp Hà Nội
Gọi x là thành phần của không gian X, tương ứng với đối
tượng x∈U, cịn P: U→X là tốn tử biến đổi đối tượng x
thành vector x. Lưu ý rằng toán tử P là tốn tử trực giao, tức
là P2=P. Ngồi ra X=P(U).
Chúng ta chỉ quan tâm đến các tập con của U là các lớp đối
tượng.
Ở bài toán phân loại cổ điển, chúng ta giả định rằng tập các
lớp Ω={ω1,...,ωm} là hữu hạn, và các lớp hợp thành nhóm
đầy đủ các tập con của U (phân hoạch không gian đối tượng
U ), tức là:
với mọi i≠j.
Ở bài toán tổng quát, số các lớp có thể là vơ hạn và khơng
hợp thành nhóm đầy đủ các tập con của U. Trong khn khổ
khóa học chúng ta khơng xem xét bài tốn tổng qt.
15
Thiết lập bài toán nhận dạng.
Nhận dạng - bài toán khơng chính xác
Phân loại đối tượng x∈U theo các lớp Ω={ω1,ω2,… ωm} nghĩa
là tìm hàm chỉ dẫn
g:U→Y, Y={y1,y2,… ym}
cho phép đặt tương ứng với mỗi đối tượng x∈U một
nhãn yi∈Y của lớp ωi chứa đối tượng đó, nghĩa là
g(x)=yi nếu x∈ωi.
ĐH Công nghiệp Hà Nội
Trên thực tế chúng ta không làm việc với toàn bộ tập các đối
tượng U, mà chỉ với hình chiếu X=P(U) – khơng gian đặc tính.
Khi đó ta cần tìm hàm g’:X→Y, sao cho
g’(x)=yi nếu x=Px∈X, x∈ωi.
Hàm g’ được gọi là hàm quyết định (decision
function).
16
Phân loại nhờ hàm quyết định
Khái niệm hàm quyết định
Một trong những bài toán cơ bản của
nhận dạng đối tượng là bài tốn nhận
dạng các lớp. Giả sử ta có một tập
(hữu hạn) các lớp đối tượng
Ω={ω1,ω2,… ωm}
Mỗi đối tượng x được mơ tả bằng một
bộ các đặc tính nào đó trong khơng
gian đặc tính – tức là bằng vector x.
Tồn bộ khơng gian đặc tính X được phân hoạch thành m+1
tập con đôi một không giao nhau
với mọi i≠j,
thỏa mãn x∈ωi nếu x∈Xi.
ĐH Công nghiệp Hà Nội
Nếu x∈X0 ta xem rằng đối tượng x rơi vào vùng không xác
định. Trong trường hợp này ta sẽ không thực hiện việc phân
17
Phân loại nhờ hàm quyết định
Khái niệm hàm quyết định
Tập hợp Xi được gọi là tập yêu thích
của lớp ωi trong không gian X.
Như vậy ranh giới các lớp nhận dạng
đối tượng sẽ là ranh giới vùng Xi
Việc tìm ranh giới giữa các lớp một
cách tự động là một trong những bài
toán cơ bản của lý thuyết nhận dạng.
Ranh giới các lớp có thể được xác định bằng nhiều cách
khác nhau, chẳng hạn nhờ khái niệm hàm quyết định
ĐH Công nghiệp Hà Nội
18
Phân loại nhờ hàm quyết định
Khái niệm hàm quyết định
ĐH Cơng nghiệp Hà Nội
Cho rằng khơng gian đặc tính là
khơng gian metric n chiều Rn
Trong trường hợp đó giả sử rằng tồn
tại m+1 hàm dj(x), x∈Rn (gọi là hàm
quyết định hay hàm tách) sao cho:
Mặt phẳng Sj={x∈Rn : dj(x)=0} được
gọi là mặt phẳng chia.
Có thể xem rằng đối tượng x thuộc vào lớp ωi nếu xảy ra bất
đẳng thức dj(x)<0 với mọi j≠i và di(x)>0
Xin chân thành cảm ơn!