tiểu luận môn xử lý ảnh số object recognition

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.56 MB, 37 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

TIỂU LUẬN
MÔN: XỬ LÝ ẢNH SỐ
Giảng viên : TS. Ngô Văn Sỹ
Học viên : Võ Văn Triều
Chuyên ngành : Kỹ thuật điện tử
Khoá : K26
Đà Nẵng, năm 2013
Chương 12: Object Recognition
2. Nhận dạng dựa trên phương pháp Decision-Theoretic
Phương pháp Decision-Theoretic nhận dạng dựa trên việc sử dụng hàm quyết định (hàm biệt
thức) . Đặt là một vector mẫu n chiều như đã thảo luận ở 12.1. Đối với W nhóm mẫu :, vấn đề
cơ bản trong phương pháp nhận dạng sử dụng Decision-Theoretic là tìm ra W hàm quyết định
thỏa mãn tính chất: nếu một mẫu x thuộc nhóm thì:
j=1,2,…,W; (12.2-1)
Nói cách khác, một mẫu x bất kì được cho rằng thuộc nhóm mẫu thứ i, nếu khi thay x vào tất
cả các hàm quyết định, cho giá trị lớn nhất.
Ranh giới quyết định phân chia nhóm với được cho bởi giá trị của x sao cho . Hay tương
đương:
(12.2-2)
Do đó: với mẫu của nhóm , và với mẫu của nhóm . Mục đích của các thảo luận trong phần
này là nhằm phát triển các phương pháp khác nhau để tìm ra hàm quyết định thỏa mãn (12.2-1).
12.2.1. Khớp nối:
Kỹ thuật nhận dạng dựa trên trùng khớp biểu diễn mỗi nhóm bởi một vector nguyên mẫu.
Một mẫu bất kì được xác định thuộc về nhóm gần nhất dựa theo metric được định nghĩa trước,
Phương pháp đơn giản nhất là phân loại khoảng cách tối thiểu, tức là tính toán khoảng cách
Euclid giữa vector chưa xác định và vector nguyên mẫu, từ đó chọn ra khoảng cách nhỏ nhất.
Chúng ta cũng sẽ bàn về một phương pháp dựa trên sự tương quan, mà ta có thể lập được công
thức một cách trực tiếp dựa vào các hình ảnh, và nó cũng khá trực quan.

Phân loại khoảng cách tối thiểu:
Giả sử ta định nghĩa nguyên mẫu của mỗi nhóm mẫu là vector trung bình của các mẫu trong
nhóm đó:
j=1,2,…,W (12.2-3)
Trong đó là số vector mẫu của nhóm , và tổng được tính qua các vector này. Như đã đề cập,
một cách để tìm ra nhóm của vector x là gán nó vào nhóm có khoảng cách Euclid gần nhất:
j=1,2,…,W (12.2-4)
Với . Từ đó ta sẽ kết luận x thuộc nhóm nếu là khoảng cách nhỏ nhất. Khoảng cách nhỏ nhất đó
sẽ dẫn đến sự trùng khớp tốt nhất cho việc thiết lập công thức. Không khó để chứng minh (bài
toán 12.2) rằng việc lựa chọn khoảng cách nhỏ nhất tương đương với đánh giá hàm:
j=1,2,…,W (12.2-5)
Và x sẽ được kết luận thuộc nhóm nếu cho giá trị lớn nhất. Công thức này phù hợp với tư
tưởng cơ sở của hàm quyết định được định nghĩa trong (12.2-1).
Từ công thức (12.2-2) và (12.2-5), ranh giới quyết định giữa nhóm và cho việc phân loại
khoảng cách tối thiểu là:
(12.2-6)
Bề mặt cho bởi phương trình (12.2-6) là đường chia trực giao của đoạn thẳng nối giữa và .
Với n=2, nó là một đường thẳng, với n=3 nó là một mặt phẳng, và với n>3 nó là một hyperplane.
Hình 12.6 biểu diễn 2 nhóm mẫu trích từ hình 12.1. Hai nhóm Iris versicolor và Iris setosa
biểu thị tương ứng cho và , có vector lấy mẫu trung bình và . Từ phương trình (12.2-5), hàm
quyết định sẽ là:

Hình 12.6: Ranh giới quyết định của sự phân loại giữa các nhóm Iris versicolor và Iris setosa.
Dấu chấm và hình vuông tô đậm là các điểm trung bình
Từ phương trình (12.2-6), đường ranh giới sẽ có phương trình:

Hình 12.6 biểu diễn hình đương ranh giới này (các trục có tỉ lệ khác nhau). Thay bất kì vector
mẫu nào từ nhóm vào ta sẽ được . Ngược lại, bất kì mẫu nào từ sẽ cho . Nói cách khác, khi cho
một mẫu chưa xác định thuộc 1 trong 2 nhóm này, dấu của sẽ giúp cho việc xác định mẫu đó

thuộc về nhóm nào.
Trong thực tế, việc phân loại khoảng cách tối thiểu hoạt động tốt khi khoảng cách giữa các giá
trị trung bình là lớn so với sự phân bố ngẫu nhiên của các nhóm tương ứng với các giá trị trung
bình đó. Trong phần 12.2.2 ta chứng minh rằng sự phân loại khoảng cách tối thiểu sẽ mang lại
hiệu quả tối ưu khi sự phân bố về giá trị trung bình của mỗi nhóm có dạng hình cầu
“hypercloud” trong không gian mẫu n chiều.
Việc xảy ra đồng thời trung bình có giá trị lớn và sự trải nhóm có giá trị nhỏ hiếm khi xảy ra,
trừ khi người thiết kế hệ thống cố ý can thiệp vào ngõ vào. Ví dụ: một hệ thống được thiết kế để
đọc các font chữ được cách điệu, như bộ font chữ E-13B của hội lien hiệp ngân hàng Mĩ trong
hình 12.7 , bộ này gồm 14 ký tự được thiết kế có chủ đích trên lưới ô 9x7 nhằm thuận tiện cho
việc đọc. Những ký tự này thường được in bằng mực có chứa vật liệu nhiễm từ tốt. Trước khi
được đọc, loại mực này sẽ được đưa vào một từ trường, điều này sẽ làm nổi bật mỗi ký tự để đơn
giản hóa việc phát hiện. Nói cách khác, vấn đề phân đoạn được giải quyết bằng cách làm nổi bật
các đặc tính chính của mỗi ký tự.
Hình 12.7: Bộ font ký tự E-12B của hội liên hiệp ngân hàng Mĩ và các dạng sóng tương ứng
Các ký tự thường được quét theo chiều ngang với một đầu đọc khe đơn hẹp nhưng cao hơn so
với ký tự. Khi đầu đọc di chuyển qua ký tự, nó sẽ tạo ra tín hiệu điện 1 chiều tăng hoặc giảm
tương ứng với vùng ký tự nằm dưới đầu đọc. Ví dụ xét dạng sóng tương ứng với số 0 trong hình
12.7, khi đầu đọc di chuyển từ trái sang phải, vùng được nhìn thấy bởi đầu đọc bắt đầu tăng dần
lên, tạo ra một vi phân dương (mức thay đổi dương). Khi đầu đọc bắt đầu rời cạnh trái của số 0,
vùng được nhìn thấy bởi đầu đọc bắt đầu giảm, tạo ra một vi phân âm. Khi đầu đọc đến vùng
giữa của ký tự, vùng được đọc giữ nguyên, tạo ra một vi phân 0. Mẫu này lặp lại khi đầu đọc tiến
vào cạnh phải của ký tự. Thiết kế này đảm bảo dạng sóng của mỗi ký tự là riêng biệt. Nó cũng
đảm bảo rằng các đỉnh và zero của mỗi dạng sóng xảy ra gần như là trên một đường thẳng đứng
của lưới nền dùng biểu diễn các dạng sóng đó. Font E-13B có tính chất: việc lấy mẫu các dạng
sóng tại các điểm sẽ cung cấp đầy đủ thông tin cho việc phân loại. Việc dùng mực nhiễm từ giúp
tạo ra các dạng sóng sạch, do đó tối thiểu hóa sự phân tán.
Việc thiết kế một bộ phân loại khoảng cách tối thiểu cho ứng dụng này là không khó. Ta chỉ
việc lưu trữ các giá trị mẫu của mỗi dạng sóng và đặt mỗi bộ giá trị mẫu biểu diễn một vector
nguyên mẫu , j=1,2,…,14. Khi một ký tự chưa biết cần được phân loại, phương pháp là quét nó

theo cách đã mô tả, biểu diễn trên lưới, lấy mẫu dạng sóng để thu đươc vector x, và xác định
nhóm của nó bằng cách chọn nhóm của vector nguyên mẫu cho giá trị cao nhất như ở phương
trình (12.2-5). Việc phân loại tốc đô cao có thể được thực hiện nhờ vào các mạch analog tạo nên
bởi các dải điện trở( xem 12.4).
Khớp nối bằng sự tương quan:
Chúng ta đã giới thiệu các khái niệm cơ bản về sự tương quan hình ảnh trong 4.6.4. Ở đây ta sẽ
dùng nó làm cơ sở để tìm sự trùng khớp của một ảnh phụ w(x,y) có kích thước JxK trong một
ảnh f(x,y) có kích thước MxN, với giả thiết và . Mặc dù phương pháp tương quan có thể được
biểu diễn dưới dạng vector (xem 12.5), nhưng việc tính toán trên ảnh hoặc ảnh phụ sẽ trực quan
hơn.
Ở dạng đơn giản nhất, sự tương quan giữa f(x,y) và w(x,y) là:
(12.2-7)
Với x=0,1,…,M-1
y=0,1,…,N-1
Tổng trên được lấy trong vùng ảnh f và w chồng lên nhau. Chú ý rằng khi so sánh phương trình
này với phương trình (4.6.30), hoàn toàn giả thiết các hàm số là thực và ta loại trừ hằng số MN.
Lý do là ta sẽ dùng một hàm số được chuẩn hóa mà trong đó các hằng số bị loại bỏ, và định
nghĩa được cho bởi phương trình (12.2-7) được dùng thường xuyên trong thực tế. Ta cũng dùng
ký hiệu s và t trong phương trình (12.2-7) để tránh nhầm lẫn với m và n, sẽ được sử dụng cho
mục đích khác trong chương này.
Hình 12.8 minh họa cho qui trình này,với giả thiết gốc của f nằm ở phái trên bên trái, còn gốc
của w nằm tại tâm của nó. Với một giá trị của (x,y) trong f, ví dụ , áp dụng phương trình (12.2-7)
ta sẽ có một giá trị của c. Khi x và y thay đổi, w di chuyển quanh khu vực ảnh, cho ta hàm c(x,y).
Các gía trị lớn nhất của c biểu thị vị trí mà w trùng khớp nhất với f. Chú ý rằng điều này không
chính xác tại các giá trị của x,y gần cạnh của f.
Hình 12.8:Sự sắp xếp để đạt được sự tương quan của f và w tại điểm
Hàm tương quan cho bởi phương trình (12.2-7) có nhược điểm là nhạy với sự thay đổi biên độ
của f và w. Ví dụ khi gấp đôi tất cả giá trị của f sẽ làm giá trị của c(x,y) tăng gấp đôi theo. Một
phương pháp thường được dùng để khắc phục điều này là thực hiện việc khớp nối thông qua các
hệ số tương quan, được định nghĩa như sau:

(12.2-8)
Với x=0,1,…,M-1
y=0,1,…,N-1
là giá trị trung bình của các pixel trong w (chỉ tính 1 lần)
là giá trị trung bình của f trong vùng trùng khớp với vị trí hiện tại của w, và các tổng
được lấy qua các tọa độ chung của f và w
Hệ số tương quan sẽ nằm trong khoảng (-1,1), phụ thuôc vào tỉ lệ thay đổi biên độ của f và w
(xem 12.5).
Hình 12.9 minh họa cho các khái niệm vừa trình bày. Hình 12.9(a) là f(x,y) và 12.9(b) là
w(x,y), 12.9(c) biểu diễn hệ số tương quan . Giá trị cao hơn của (sáng hơn) là tại vị trí trùng
khớp nhất của f và w
(a) (b) (c)
Hình 12.9
Mặc dù hàm tự tương quan có thể được chuẩn hóa đối với sự thay đổi biên độ thông qua hệ số
tương quan, nhưng việc đạt được sự chuẩn hóa đối với sự thay đổi về kích thước và hướng quay
là không dễ. Việc chuẩn hóa đối với kích thước bao gồm việc lấy tỉ lệ không gian, một quá trình
đòi hỏi khối lượng tính toán không nhỏ. Nếu một đầu mối về hướng quay có thể được trích ra từ
f(x,y) thì ta có thể quay w(x,y) để làm nó thẳng hướng với góc quay trong f(x,y). Tuy nhiên,
nếu không biết trước được góc quay nguyên gốc, thì ta phải xét mọi góc quay của w(x,y) để tìm
ra kết quả tốt nhất. Việc này là không thực tế, và kết quả là sự tương quan ít khi được dùng trong
trường hợp có góc quay bất kì.
Trong phần 4.6.4 ta đã nhấn mạnh rằng sự tương quan có thể được sử dụng trong miền tần số
thông qua phép biến đổi Fourier nhanh. Nếu f và w cùng kích cỡ, phương pháp này sẽ hiệu quả
hơn tính toán trực tiếp sự tương quan trong miền không gian. Phương trình (12.2-7) được dùng
khi w nhỏ hơn nhiều so với f. Một đánh giá cân bằng thực hiện bởi Campbell [1969] chỉ ra rằng,
nếu số lượng phần tử khác không trong w nhỏ hơn 132 (ảnh phụ kích thước 13x13), thì việc thực
thi phương trình (12.2-7) trực tiếp sẽ hiệu quả hơn phương pháp dùng biến đổi Fourier nhanh.
Tất nhiên con số này tùy thuộc vào máy móc và thuật toán được sử dụng, nhưng nó đã chỉ ra
kích thước xấp xỉ của ảnh phụ mà tại đó miền tần số nên được cân nhắc như một giải pháp thay
thế. Các hệ số tương quan khó tính toán hơn trong miền tần số. Nó thường được tính trực tiếp

trong miền không gian.
12.2.2. Phân loại thống kê tối ưu:
Trong phần này ta sẽ phát triển một phương pháp nhận dạng mang tính xác suất. Một điều thực
tế là trong hầu hết các lĩnh vực, khi đo đạc hoặc giải thích các sự kiện, việc tính toán xác suất là
rất quan trọng khi nhận dạng mẫu, do sự xảy ra ngẫu nhiên của các nhóm mẫu.
Thiết lập
Xác suất một mẫu x thuộc về nhóm được biểu thị bằng . Nếu phán định rằng x thuộc nhóm
trong khi thật ra nó thuôc nhóm , nó sẽ chịu một rủi ro, biểu thị . Khi mà x có thể thuộc một
trong W nhóm đang xét, rủi ro trung bình phải gánh chịu khi phán định x thuôc nhóm là
(12.2-9)
Phương trình này thường được gọi là rủi ro trung bình có điều kiện.
Từ lý thuyết xác suất cơ bản, ta biết rằng
Dùng khai triển này ta viết (12.2-9) dưới dạng
(12.2-10)
Với là hàm mật độ xác suất của nhóm và là xác suất xảy ra nhóm . Do dương và giống nhau
cho tất cả , j=1,2,…,W, nó có thể được bỏ qua trong phương trình (12.2-10) mà không gây ảnh
hưởng đến hàm này khi xét các giá trị cực tiểu và cực đại. Khai triển này trở thành:
(12.2-11)
Từ một mẫu chưa biết cho trước, ta có W nhóm để lựa chọn khi tiến hành phân loại. Nếu tính
cho mỗi mẫu x và gán nó vào nhóm có độ rủi ro thấp nhất, tổng rủi ro trung bình cho tất cả các
quyết định sẽ là nhỏ nhất. Việc phân loại làm tối thiểu hóa tổng rủi ro trung bình này gọi là phân
loại Bayes. Do đó phân loại Bayes phán định một mẫu x thuộc nhóm nếu:
(12.2-12)
Với mọi
Rủi ro cho một quyết định đúng được gán giá trị 0 và giá trị 1 cho quyết định sai. Khi đó hàm
rủi ro trở thành:
(12.2-13)
Với nếu i=j và nếu .
Phương trình (12.2-13) cho thấy rủi ro cho các quyết định sai là 1, và các quyết định đúng có
rủi ro là 0. Thay (12.2-13) vào (12.2-11) ta được:

= (12.2-14)
Phân loại Bayes sẽ gán mẫu x vào nhóm , nếu với mọi :
(12.2-15)
Hoặc tương đương:
(12.2-16)
So sánh với phương trình (12.2-1), ta thấy rằng phân loại Bayes chỉ là sự tính toán hàm quyết
định dưới dạng:
(12.2-17)
Vector mẫu x sẽ được gán vào nhóm có giá trị hàm quyết định lớn nhất.
Hàm quyết định cho bởi phương trình (12.2-7) tối ưu theo hướng tối thiểu hóa rủi ro trung bình
khi phân loại sai. Tuy nhiên cần biết được hàm mật độ xác suất của các mẫu trong mỗi nhóm,
cũng như xác suất xảy ra của mỗi nhóm. Yêu cầu thứ 2 thường không khó thỏa mãn. Ví dụ: nếu
khả năng xuất hiện của tất cả các nhóm là như nhau thì . Ngay cả khi điều kiện này không đúng,
các xác suất đó cũng có thể được suy ra từ các dữ liệu của bài toán. Việc đánh giá hàm mật độ
xác suất là một vấn đề khác. Nếu vector mẫu x là vector n chiều, thì là hàm n biến. mà nếu chưa
biết được dạng của nó, thì ta sẽ cần đến lý thuyết xác suất đa biến để ước lượng. Phương pháp
này khó ứng dụng trong thực tế, đặc biệt nếu số mẫu hiện diện của mỗi nhóm là không lớn hoặc
dạng của hàm mật độ xác suất khó xác định.
Do đó, sử dụng phân loại Bayes thường dựa trên giả định của một biểu thức phân tích cho các
hàm mật độ khác nhau, sau đó ước lượng các thông số cần thiết từ các mẫu được lấy từ mỗi
nhóm. Một dạng thông dụng hơn nhiều của là hàm mật độ xác suất Gaussian. Giả định này càng
gần với thực tế, thì phân loại Bayes càng tiến lại gần rủi ro tối thiểu khi phân loại.
Phân loại Bayes cho các nhóm mẫu Gaussian
Để bắt đầu, ta sẽ xét bài toán 1 chiều (n=1) gồm 2 nhóm mẫu (W=2) tuân theo phân bố
Gaussian, với trung bình và sai phương tương ứng . Từ phương trình (12.2-17), hàm quyết định
Bayes có dạng

(12.2-18)
Với các mẫu là vô hướng, biểu thị bởi x.
Hình 2.10 biểu thị hàm mật độ xác suất của 2 nhóm. Ranh giới giữa 2 nhóm là 1 điểm mà tại

đó . Nếu 2 nhóm này có khả năng xuất hiện bằng nhau thì , và ranh giới quyết định là giá trị thỏa
. Đây là điểm giao nhau của 2 hàm mật độ xác suất. Bất kì mẫu (điểm) nào nằm bên phải đều
được phân loại thuộc về nhóm . Tương tự, bất kì mẫu (điểm) nào nằm bên trái đều được phân
loại thuộc về nhóm .Nếu khả năng xuất hiện của 2 nhóm không bằng nhau, di chuyển sang trái
nếu có khả năng xuất hiện cao hơn, và ngược lại, di chuyển sang phải nếu có khả năng xuất
hiện cao hơn. Kết quả này được kì vọng, bởi vì việc phân loại là cố gắng tối thiểu hóa rủi ro của
việc phân loại sai. Víu dụ, nếu nhóm không bao giờ xuất hiện, việc phân loại sẽ không bao giờ
sai sót do luôn phán định tất cả các mẫu thuộc nhóm (khi đó sẽ tiến về âm vô cùng).
Hình 12.10: Hàm mật độ xác suất cho 2 mẫu 1 chiều
Trong trường hợp n chiều, phân bố Gaussian của các vector trong nhóm mẫu thứ j có dạng:
(12.2-19)
Với mỗi mật độ được mô tả hoàn toàn bởi vector trung bình và ma trận sai phương , được
định nghĩa:
(12.2-20)
(12.2-21)
: kỳ vọng độ lớn của các mẫu thuộc nhóm
Trong phương trình (12.2-19), n là số chiều của vector mẫu, là định thức của ma trận . Việc
xấp xỉ giá trị kì vọng bởi giá trị trung bình của các vector cho ta vector trung bình và ma trận
covariance:
(12.2-22)
(12.2-22)
là số vector mẫu của nhóm , và tổng được lấy qua các vector này. Ta sẽ lấy 1 ví dụ về
việc sử dụng 2 khai triển này trong phần sau.
Ma trận covariance có tính đối xứng. Như đã giải thích ở 11.4, thành phần đường chéo của
thành phần thứ k của vector mẫu. Các thành phần nằm ngoài đường chéo là covariance của và .
Hàm phân bố Gaussian nhiều biến suy giảm thành phân bố Gaussian 1 biến của mỗi phần tử của
x khi các phần tử không nằm trên đường chéo của ma trận covariance bằng 0. Điều này xảy ra
khi các vector và không tương quan với nhau.
Theo phương trình (12.2-17), hàm quyết định Bayes cho nhóm là . Tuy nhiên, do dạng mũ của
phân bố Gaussian, việc tính toán với logarit tự nhiên của hàm quyết định này sẽ thuận tiện hơn.

Nói cách khác, ta có thể dùng dạng:
. (12.2-24)
Khai triển này tương đương với phương trình (12.2-17) về mặt hiệu quả của quá trình phân loại
do logarit la hàm đơn điệu tăng. Thay phương trình (12.2-19) vào phương trình (12.2-24) ta có:
(12.2-25)
Số hạng giống nhau với tất cả các nhóm, nên nó có thể được khử đi, phương trình (12.2-25)
trở thành
(12.2-26)
Với j=1,2,…,W
Phương trình (12.2-26) biểu diễn hàm quyết định Bayes cho các nhóm mẫu Gaussian dưới điều
kiện của hàm rủi ro 0-1.
Hàm quyết định trong phương trình (12.2-26) là hàm bậc 2 trong không gian n chiều, do không
có số hạng có bậc cao hơn 2 xuất hiện trong phương trình. Rõ ràng, điều tốt nhất mà quá trình
phân loại Bayes cho mẫu Gaussian có thể làm là đặt một mặt quyết định bậc 2 giữa mỗi cặp
nhóm mẫu. Tuy nhiên, nếu các mẫu thực sự tuân theo phân bố Gaussian thì sẽ không có mặt nào
khác có thể mang lại rủi ro trung bình thấp hơn khi phân loại.
Nếu tất cả các ma trận covariance đều bằng nhau, thì , với j=1,2,…,W. Bằng cách khai triển
phương trình (12.2-26) và loại bỏ tất cả các số hạng độc lập với j ta nhận được:
(12.2-27)
Là hàm quyết định tuyến tính
Nếu C=I, với I là ma trận đơn vị, và , với j=1,2,…,W thì
(12.2-28)
Đây là các hàm quyết định cho quá trình phân loại khoảng cách tối thiểu, như đã cho trong
phương trình (12.2-5). Do đó quá trình phân loại khoảng cách tối thiểu là tối ưu theo nghĩa Bayes
nếu: (1) các nhóm mẫu tuân theo phân bố Gaussian, (2) tất cả các ma trận covariance đều bằng
ma trận đơn vị, (3) tất cả các nhóm có xác suất xuất hiện bằng nhau. Các nhóm mẫu Gaussian
thỏa mãn các điều kiện này sẽ phân bố trên hình cầu đơn vị trong không gian n chiều. Quá trình
phân loại khoảng cách tối thiểu tạo ra một hyperplane giữa mỗi cặp nhóm, với tính chất mặt
hyperplane đó là đường phân chia trực giao của đoạn nối giữa tâm mỗi cặp hypersphere. Trong
không gian 2 chiều, các nhóm tạo thành vùng hình tròn, và các ranh giới trở thành các đường

thẳng phân chia các đoạn nối tâm các cặp hình tròn này.
Hình 12.11 biểu diễn một sự sắp xếp đơn giản của 2 nhóm trong không gian 3 chiều. Ta dùng
những mẫu này để minh họa cho cơ cấu hoạt động của phân loại Bayes, giả sử rằng các mẫu của
mỗi nhóm có phân bố Gaussian.
Hình 12.11
Áp dụng phương trình (12.2-22) vào các mẫu trong hình 12.11 ta được:
và
Tương tự, áp dụng phương trình (12.2-23) vào 2 mẫu ta có:
Do các ma trận covariance bằng nhau nên hàm quyết định Bayes sẽ được cho bởi phương trình
(12.2-27). Nếu giả sử thì áp dụng phương trình (12.2-28) sẽ có:
Trong đó

Thay các ma trận và vector vào ta có:
và
Bề mặt quyết định phân chia 2 nhóm là:
12.2.3. Mạng nơron:
Phương pháp đã thảo luận ở 2 phần trên dựa trên việc sử dụng các mẫu để ước lượng các thông
số thống kê của mỗi nhóm mẫu . Quá trình phân loại khoảng cách tối thiểu được xác định hoàn
toàn bởi vector trung bình của mỗi nhóm. Tương tự, phân loại Bayes cho phân bố Gausian được
hoàn toàn xác định bởi vector trung bình và ma trận covariance của mỗi nhóm. Các mẫu được
dùng để đánh giá các thông số gọi là mẫu huấn luyện, và tập hợp các mẫu như vậy của mỗi nhóm
gọi là tập huấn luyện. Quá trình trong đó tập huấn luyện được dùng để thu được hàm quyết định
gọi là quá trình học tập hay huấn luyện.
Trong 2 phương pháp vừa đề cập, huấn luyện là vấn đề đơn giản. Các mẫu huấn luyện của mỗi
nhóm được dùng để tính toán các thông số của hàm quyết định tương ứng với nhóm đó. Sau khi
các thông số đã được ước lượng, cấu trúc của quá trình phân loại được cố định, và hiệu quả cuối
cùng phụ thuộc vào mức độ đáp ứng của các thành phần mẫu thực tế đối với các giả thiết thống
kê trong phương pháp phân loại được sử dụng.
Tính chất thống kê của các nhóm mẫu trong bài toán thường không được biết hoặc khó ước
lượng (trong phần trước ta đã bàn về tính khó khăn của việc tính toán với các thống kê nhiều

biến). Trong thực tế, những vấn đề decision- theoretic thường được giải quyết tốt nhất bằng các
phương pháp cho ra hàm quyết định trực tiếp từ việc huấn luyện. Sau đó tạo một giả thiết về hàm
mật độ xác suất chưa biết hoặc là các thông tin thống kê cần thiết khác về nhóm mẫu đang xét.
Trong phần này ta sẽ bàn về các phương pháp khác nhau nhằm đạt được điều này.
Thông tin cơ bản:
Bản chất của các tài liệu tiếp theo là việc sử dụng vô số các phần tử tính toán phi tuyến (được
gọi là nơron) được sắp xếp thành các mạng giống như cách các nơron kết nối với nhau trong bộ
não. Các mô hình được tạo ra được nhắc đến với nhiều tên gọi: mạng nơron, máy tính nơron, mô
hình xử lý phân bố song song (PDP), hệ thống hình thái thần kinh, mạng phân nhóm tự thích
nghi. Ta sử dụng những hệ thống này như là một phương tiện để tính toán một cách thích nghi
các hệ số của hàm quyết định thông qua các biểu diễn liên tục hoặc tập huấn luyện của các mẫu.
Từ đầu những năm 1940, người ta đã quan tâm đến mạng nơron, thể hiện qua nghiên cứu của
McCulloch và Pitts [1943]. Họ đã đưa ra mô hình nơron ở dạng ngưỡng nhị phân và các thuật
toán ngẫu nhiên bao gồm sự thay đổi mức đột ngột từ 0-1, 1-0 trong các nơron như là cơ sở cho
việc mô hình hóa các mạng nơron. Nghiên cứu sau đó của Hebb[1949] dựa trên mô hình toán
học cố gắng nhận biết được các mấu chốt của quá trình học hỏi bằng sự tăng cường hoặc sự liên
kết.
Trong suốt từ giữa những năm 1950 đến đầu những năm 1960, một nhóm gọi là máy học tập
khởi nguồn từ Rosenblatt[1959,1962] đã gây tiếng vang lớn trong cộng đồng nghiên cứu về lý
thuyết nhận dạng. Lý do của sự quan tâm dành cho những chiếc máy được gọi là perceptron này,
là do sự phát triển của các chứng minh toán học cho thấy rằng khi huấn luyện các perceptron
bằng các tập huấn luyện riêng rẽ (vd các tập huấn luyện phân chia bởi các hyperplane), sẽ hội tụ
về một lời giải sau vô số bước lặp lại. Lời giải có dạng hệ số của các hyperplane có khả năng
phân chia chính xác các nhóm biểu diễn bởi các mẫu của tập huấn luyện.
Không may rằng, các phát hiện sau đó về các mô hình học hỏi đều gặp phải thất bại. Các máy
perceptron cơ bản đều không đáp ứng được các tác vụ nhận dạng mẫu có ý nghĩa thực tế.
Những cố gắng sau đó nhằm tăng cường khả năng của các máy kiểu như perceptron bằng cách
dùng nhiều lớp thiết bị này. Vài năm sau, Minsky và Papert[1969] đã trình bày một phân tích bi
quan về giới hạn của những cỗ máy kiểu như perceptron. Quan niệm này được giữ cho đến giữa
những năm 1980, như chứng minh của Simon[1986]. Trong nghiên cứu của mình, lần đầu xuất

bản ở Pháp năm 1984, Simon đã phủ nhận perceptron dưới tiêu đề “sự sinh ra và chết đi của một
chuyện hoang đường”.
Những kết quả gần đây bởi Rumelhart, Hinton và Williams[1986], với sự phát triển của các
thuật toán huấn luyện mới cho các perceptron nhiều lớp đã thay đổi vấn đề một cách đáng kể.
Phương pháp của họ cung cấp một cách huấn luyện hiệu quả cho các máy nhiều lớp. Mặc dù
không thể chứng minh rằng thuật toán huấn luyện này sẽ hội tụ về một lời giải giống như chứng
minh cho perceptron 1 lớp, nó vẫn được sử dụng thành công trong nhiều vấn đề thực tế. Sự thành
công đó đã đưa các máy kiểu như perceptron đa lớp thành 1 trong các mô hình nguyên lý của
mạng nơron sử dụng ngày nay.
Perceptron cho 2 nhóm:
Ở dạng đơn giản nhất, perceptron học 2 hàm quyết định tuyến tính phân chia 2 tập huấn luyện
riêng biệt. Hình 12.4(a) thể hiện dưới dạng biểu đồ mô hình perceptron cho 2 nhóm mẫu. Đáp
ứng của thiết bị cơ bản này dựa trên tổng có trọng số của các ngõ vào:
(12.2-29)
Đây là một hàm quyết định tuyến tính đối với các thành phần của vector mẫu, các hệ số , i=1,2,
…,n,n+1 gọi là các trọng số, chúng điều chỉnh các ngõ vào trước khi cộng. Ở đây, các trọng số
có vai trò như các khớp thần kinh trong hệ thống thần kinh của con người. Hàm này kết nối các
ngõ ra của các đầu mối với các ngõ ra sau cùng của thiết bị, thường được gọi là hàm kích hoạt.
Khi d(x)>0, các yếu tố ngưỡng khiến cho các ngõ ra của perceptron bằng +1, biểu thị rằng mẫu
x được nhận định thuộc về lớp .
Điều ngược lại khi d(x)<0. Chế độ hoạt động này phù hợp với những kết luận trước đó trong
phương trình (12.2-2) về việc dùng một hàm quyết định duy nhất cho 2 nhóm mẫu. Khi d(x)=0, x
nằm trên mặt quyết định phân chia 2 nhóm mẫu, dẫn đến việc không thể xác định nhóm của x.
Ranh giới quyết định đưa ra bởi perceptron đạt được bằng cách cho phương trình (12.2-29) bằng
0
(12.2-30)
hay (12.2-31)
Đây là phương trình hyperplane trong không gian mẫu n chiều. Về mặt hình học, n hệ số đầu
tiên thiết lập hướng của mặt hyperplane, trong khi hệ số cuối, tỉ lệ với khoảng cách từ gốc đến
mặt hyperplane. Do đó nếu , mặt hyperplane đi qua gốc của không gian mẫu. Tương tự, nếu , mặt

hyperplane song song với trục .
Ngõ ra của yêu tố ngưỡng trong hình 12.14(a) tùy thuộc vào dấu của d(x). Thay vì kiểm tra cả
hàm số để xác định nó âm hay dương, ta có thể kiểm tra phần tổng trong phương trình (12.2-29)
so với số hạng , trong trường hợp này, ngõ ra của hệ thống sẽ là:
(12.2-32)
Điều này tương đương với hình 12.14(a) và được biểu diễn trong 12.14(b), điều khác biệt là
hàm ngưỡng được biểu thị bởi lượng và ngõ vào hằng số đơn vị được loại bỏ. Ta trở lại dạng
tương đương của 2 công thức này ở phần trước khi thảo luận về mạng nơron nhiều lớp.
Một công thức khác thường được dùng là gia tăng các vector mẫu bằng cách gắn thêm yếu tố thứ
n+1 bằng 1, bất chấp các thành phần của nhóm. Vector mẫu y tăng thêm sẽ được tạo thành từ
vector mẫu x bằng cách đặt , i=1,2,…,n, và gắn thêm . Phương trình (12.2-29) trở thành:
(12.2-33)

với là vector mẫu được thêm vào, và là vector trọng số. Khai triển này thuận tiện hơn cho việc
ký hiệu. Tuy nhiên, dù công thức nào được dùng thì vấn đề chính là tìm w bằng cách sử dụng tập
các vector mẫu từ 2 nhóm đã được cho.
Thuật toán huấn luyện
Thuật toán được phát triển sau đây là biểu diễn của nhiều phương pháp đưa ra những năm qua
cho việc huấn luyện perceptron.
Các nhóm riêng biệt tuyến tính:
Một thuật toán đơn giản, lặp lại để thu được vector trọng số cho 2 tập huấn luyện riêng biệt
tuyến tính. Đối với 2 tập huấn luyện của các vector mẫu được gia tăng tương ứng thuộc nhóm
mẫu , đặt w(1) là vector trọng số ban đầu (có thể chọn tùy ý). Sau đó, tại bước lặp thứ k, nếu và ,
thay w(k) bằng:
w(k+1)=w(k)+cy(k) (12.2-34)
với c là một số gia hiệu chỉnh dương
Ngược lại, nếu và , thay w(k) bằng:
w(k+1)=w(k)-cy(k) (12.2-35)
Với các trường hợp khác, w(k) không đổi:
w (k+1)=w(k) (12.2-36)

Thuật toán này chỉ thay đổi w nếu mẫu đang xét ở bước thứ k trong chuỗi huấn luyện bị phân
loại nhầm. Số gia hiệu chỉnh c được giả thiết là một hằng số dương.
Thuật toán hội tụ khi cả tập huấn luyện cho 2 nhóm được phân loại mà không có sai sót nào.
Thuật toán hội tụ sau 1 số bước hữu hạn nếu 2 tập huấn luyện của các mẫu là tách biệt tuyến
tính. Một chứng minh của kết quả này, gọi là lý thuyết huấn luyện perceptron, có thể được tìm
thấy trong sách của Duda, Hart, và Stork[2001]; Tou và Gonzalez[1974]; và Nilsson[1965].
Xét 2 tập huấn luyện như trong hình 12.15(a), mỗi tập chứa 2 mẫu. Thuật toán huấn luyện sẽ
hiệu quả do 2 tập huấn luyện tách biệt tuyến tính. Trước khi áp dụng thuật toán các mẫu sẽ được
gia tăng, ta có tập huấn luyện cho nhóm và cho nhóm . Đặt c=1, w(1)=0 và trình bày các mẫu
theo các bước tuần tự sau:
(a) Các mẫu thuộc 2 nhóm (b) Ranh giới quyết định được xác định bởi
quá trình huấn luyện
Hình 12.15
Với quá trình chỉnh sửa các vector trọng số được thực hiện ở bước thứ nhất và thứ 3, do sự
phân loại sai như đã chỉ ra ở các phương trình (12.2-34) và (12.2-35). Bởi vì lời giải chỉ đạt được
khi thuật toán mang lại các bước lặp hoàn toàn không sai sót cho tất cả các mẫu huấn luyện, tập
huấn luyện phải được trình bày lại. Quá trình học hỏi của máy tiếp tục bằng cách đặt y(5)=y(1),
y(6)=y(2), y(7)=y(3),và y(8)=y(4) và tiếp tục lại như cũ. Đạt được sự hội tụ khi k=14, cho kết
quả vector trọng số . Hàm quyết định tương ứng là . Quay lại không gian mẫu ban đầu bằng
cách đặt , ta có . Khi gán nó trở thành phương trình ranh giới quyết định như hình 12.15(b).
Các nhóm không tách biệt:
Trong thực tế, hiếm có các nhóm mẫu tách biệt tuyến tính. Do đó, một số lượng đáng kể các
nghiên cứu suốt từ những năm 1960 đến những năm 1970 nỗ lực phát triển các kỹ thuật được
thiết kế để giải quyết cho các nhóm mẫu không tách biệt. Với những sự tiến bộ gần đây trong
việc huấn luyện mạng nơron, nhiều phương pháp xử lý cho các nhóm mẫu không tách biệt đã
trởi nên lỗi thời. Tuy nhiên, một trong những phương pháp đó có liên quan trực tiếp đến bài này:
qui tắc delta gốc. Được biết đến như là Windrow-Hoff, hay qui tắc delta trung bình bình phương
tối thiểu (LMS) cho việc huấn luyện perceptron, phương pháp tối thiểu hóa sai lệch giữa đáp ứng
mong muốn và đáp ứng thực trong mỗi bước huấn luyện.
Xét hàm tiêu chuẩn:

(12.2-37)
Với r là đáp ứng mong muốn ( nếu vector mẫu được gia tăng y thuộc nhóm , và nếu y thuộc
nhóm ). Nhiệm vụ là dùng để điều chỉnh w để tìm giá trị tối thiểu của hàm này, xảy ra khi ;
nghĩa là cực tiểu tương ứng với sự phân loại đúng. Nếu w(k) biểu diễn vector trọng số tại bước
lặp thứ k, 1 thuật toán hạ thấp gradient tổng quát sẽ được viết như sau:
(12.2-38)
Với w(k+1) là giá trị mới của w, và . Từ phương trình (12.2-37):
(12.2-39)
Trừ vào phương trình (12.2-38) ta có:
(12.2-40)
Với vector trọng số ban đầu w(1) tùy ý.
Bằng cách định nghĩa sự thay đổi (delta) ở vector trọng số:
(12.2-41)
Ta có thể viết phương trình (12.2-40) dưới dạng thuật toán hiệu chỉnh delta:
(12.2-42)
Với (12.2-43)
Nếu thay :
(12.2-44)
Sự thay đổi trong độ lệch là:
(12.2-44)
Nhưng nên:

(12.2-46)
Do đó, sự thay đổi ở trọng số làm giảm sai lệch bởi nhân tố . Mẫu ngõ vào tiếp theo bắt đầu
một vòng thích nghi mới, giảm sai lệch tiếp theo bởi nhân tố , và cứ thế tiếp tục.
Sự lưa chọn điều khiển tính ổn định và tốc độ hội tụ. Tính ổn định yêu cầu . Trong thực tế .
Mặc dù không đưa ra chứng minh ở đây, nhưng thuật toán của phương trình (12.2-40) hay (12.2-
42) và (12.2-43) hội tụ về 1 lời giải làm tối thiểu hóa trung bình bình phương độ lệch của các
mẫu trong tập huấn luyện. Khi các nhóm mẫu tách biệt, lời giải cho bởi thuật toán vừa đề cập có
thể hoặc không tạo ra hyperplane rời rạc. Nghĩa là phương pháp trung bình bình phương độ lệch

không đưa đến phương pháp cho lý thuyết huấn luyện perceptron. Sự không rõ ràng này là cái
giá cho việc sử dụng 1 thuật toán hội tụ trong cả 2 trường hợp tách biệt và không tách biệt trong
công thức riêng biệt này.
Hai thuật toán huấn luyện perceptron vừa đề cập có thể được mở rộng cho hơn 2 nhóm và cho
các hàm quyết định phi tuyến.
Mạng nơron nhiều lớp:
Trong phần này ta sẽ tập trung vào những hàm quyết định của những mầu nhiều lớp, không
phụ thuộc vào việc các lớp có tách biệt hay không, và bao gồm các cấu trúc chứa các lớp của các
perceptron đang xét.
Cấu trúc cơ bản:
Hình 12.16 cho thấy cấu trúc của mô hình mạng nơron đang xét. Nó bao gồm các nút tính toán
(nơron) giống hệt nhau được sắp xếp sao cho các ngõ ra của mỗi nơron đưa vào ngõ vào của mỗi
nơron của lớp tiếp theo. Số các nơron của lớp đầu tiên (lớp A), là . Thông thường, , kích thước
của vector ngõ vào. Số nơron của ngõ ra (lớp Q), biểu thị bằng . , số nhóm mẫu của mạng nơron
được huấn luyện để nhận dạng. Mạng sẽ nhận dạng một mẫu x thuộc về lớp nếu ngõ ra thứ i của
mạng là “cao” trong khi tất cả các ngõ ra khác là “thấp”, như sẽ giới thiệu ở phần tiếp theo.
Mỗi nơron có cùng dạng với mô hình perceptron như đã đề cập trong phần trước (xem hình
12.14), với kì vọng các hàm kích hoạt có giới hạn cố định sẽ được thay thế bởi các hàm
“sigmoid” có giới hạn linh hoạt. Việc phát triên qui tắc huấn luyện yêu cầu tính khả vi theo tất cả
các phần của mạng nơron. Hàm kích hoạt sigmoid sau có tính khả vi cần thiết:
(12.2-47)
Với là ngõ vào của các yếu tố kích hoạt của mỗi nút trong lớp J của mạng, là một offset,
quyết định hình dạng của hàm sigmoid.
Phương trình (12.2-47) được vẽ trong hình 12.17, dọc theo các giới hạn cho các đáp ứng trên
và dưới của mỗi nút. Do đó khi sử dụng một hàm cụ thể, hệ thống cho ra mức cao cho bất kì giá
trị nào lớn hơn . Tương tự, hệ thống cho ra mức thấp cho bất kì giá trị nào nhỏ hơn . HÌnh 12.17
cho thấy, hàm kích hoạt sigmoid luôn dương, và nó đạt được giá trị giới hạn 0 và 1 chỉ khi ngõ
vào của các yếu tố kích hoạt tương ứng là dương vô cùng hoặc âm vô cùng. Do đó, các giá trị
gần 0 và 1 (ví dụ như 0.05 và 0.95) chỉ ra các giá trị thấp và cao của các nơron trong hình 12.16.
Về nguyên tắc, các dạng khác nhau của hàm kích hoạt có thể được dùng cho các lớp khác nhau

hoăc thậm chí cho các nút khác nhau của cùng một lớp trong mạng nơron. Trong thực tế thường
dùng 1 hàm kích hoạt cho cả mạng nơron.
Hình 12.17: Hàm kích hoạt sigmoid của phương trình (12.2-47)
So sánh với hình 12.14(a), offset trong hình 12.17 tương tự với hệ số trong phần trước về
perceptron. Điều này cho thấy rằng hàm ngưỡng có thể được thực hiện dưới dạng hình 12.14(a)
bằng cách lấy offset làm hệ số bổ sung để điều chỉnh ngõ vào hằng số thống nhất cho tất cả các
nút mạng. Để tuân theo các ký hiệu chủ yếu trong các tài liệu, ta sẽ không chỉ ra một hằng số
ngõ vào riêng biệt có giá trị +1 cho tất cả các nút trong hình 12.16. Thay vào đó, đầu vào và các
trọng số được điều chỉnh của nó là một phần không thể thiếu của các nút mạng. Như đã nêu
trong hình 12.16, có một hệ số như vậy cho mỗi nút trong số nút trong lớp J.
Trong hình 12.16, đầu vào cho một nút trong bất kỳ lớp nào là tổng có trọng số của ngõ ra từ
các lớp trước. Gọi lớp K là lớp trước lớp J (không có thứ tự chữ cái được ngụ ý trong hình 12.16)
cung cấp cho các đầu vào cho các yếu tố kích hoạt của mỗi nút trong lớp J, ký hiệu .
(12.2-48)
cho k = 1,2, , , với là số nút trong lớp J, là là số nút trong lớp K, và là trọng số điều
chỉnh đầu ra của các nút trong lớp K trước khi chúng được đưa vào các nút trong lớp J. Các đầu
ra của lớp K là:
(12.2-49)
cho k = 1,2, ,
Cần hiểu rõ về các ký hiệu được sử dụng trong phương trình (12.2-48, bởi vì chúng tôi sử dụng
nó trong suốt phần còn lại của phần này. Đầu tiên, lưu ý rằng j = 1,2, , , biểu diễn các đầu vào

tiểu luận môn xử lý ảnh số object recognition

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về