nhận dạng ảnh Pattern recognition

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (368.64 KB, 34 trang )

Chơng Bảy: nhận dạng ảnh
7
nhận dạng ảnh
Pattern recognition
Nh chỉ ra trong hình 1.1-a chơng Một, nhận dạng ảnh là giai đoạn cuối cùng của các hệ thống xử lý ảnh. Nhận
dạng ảnh dựa trên nền tảng lý thuyết nhận dạng (pattern recognition) nói chung và đã đợc đề cập trong nhiều sách về
nhận dạng. ở đây, ta không nhắc lại mà chỉ trình bày mang tính chất giới thiệu một số khái niệm cơ bản và các phơng
pháp thờng đợc sử dụng trong kỹ thuật nhận dạng. Và cuối cùng sẽ đề cập đến một trờng hợp cụ thể về nhận dạng đó là
nhận dạng chữ viết, một vấn đề đã và đang đợc quan tâm nhiều.
Trong lý thuyết nhận dạng nói chung và nhận dạng ảnh nói riêng có 3 cách tiếp cận khác nhau:
- Nhận dạng dựa vào phân hoạch không gian.
- Nhận dạng cấu trúc.
- Nhận dạng dựa vào kỹ thuật mạng nơ ron.
Hai cách tiếp cận đầu là các kỹ thuật kinh điển. Các đối tợng ảnh quan sát và thu nhận đợc phải trải qua giai
đoạn tiền xử lý nhằm tăng cờng chất lợng, làm nổi các chi tiết (chơng 4), tiếp theo là trích chọn và biểu diễn các đặc tr-
ng (chơng 5 và chơng 6), và cuối cùng mới qua giai đoạn nhận dạng. Cách tiếp cận thứ ba hoàn toàn khác. Nó dựa vào
cơ chế đoán nhận, lu trũ và phân biệt đối tợng mô phỏng theo hoạt động của hệ thần kinh con ngời. Do cơ chế đặc biệt,
các đối tợng thu nhận bởi thị giác ngời không cần qua giai đoạn cải thiện mà chuyển ngay sang giai đoạn tổng hợp, đối
sánh với các mẫu đã lu trữ để nhận dạng. Đây là cách tiếp cận có nhiều hứa hẹn. Các cách tiếp cận trên sẽ trình bày chi
tiết trong các phần dới đây.
7.1 tổng quan về nhận dạng
Nhận dạng là quá trình phân loại các đối tợng đợc biểu diễn theo một mô hình nào đó và gán cho chúng vào
một lớp (gán cho đối tợng một tên gọi) dựa theo những quy luật và các mẫu chuẩn. Quá trình nhận dạng dựa vào những
mẫu học biết trớc gọi là nhận dạng có thày hay học có thày (supervised learning); trong trờng hợp ngợc lại gọi là học
không có thày (non supervised learning). Chúng ta sẽ lần lợt giới thiệu các khái niệm này.
7.1.1 Không gian biểu diễn đối tợng, không gian diễn dịch
Không gian biểu diễn đối tợng
Các đối tợng khi quan sát hay thu thập đợc, thờng đợc biểu diễn bởi tập các đặc trng hay đặc tính. Nh trong tr-
ờng hợp xử lý ảnh, ảnh sau khi đợc tăng cờng để nâng cao chất lợng, phân vùng và trích chọn đặc tính nh đã trình bày
trong các chơng từ chơng Bốn đến chơng Sáu, đợc biểu diễn bởi các đặc trng nh biên, miền đồng nhất, v...,v. Ngời ta th-
ờng phân các đặc trng này theo các loại nh: đặc trng tô pô, đặc trng hình học và đặc trng chức năng. Việc biểu diễn ảnh

theo đặc trng nào là phụ thuộc vào ứng dụng tiếp theo.
ở đây ta đa ra một cách hình thức việc biểu diễn các đối tợng. Giả sử đối tợng X (ảnh, chữ viết, dấu vân tay,
v...,v) đợc biểu diễn bởi n thành phần (n đặc trng): X = {x
1
, x
2
,..., x
n
}; mỗi x
i
biểu diễn một đặc tính. Không gian biểu
diễn đối tợng thờng gọi tắt là không gian đối tợng X đợc định nghĩa:
X = {X
1
, X
2
,..., X
m
}
Nhập môn xử lý ảnh số - ĐHBK Hà nội 164
Chơng Bảy: nhận dạng ảnh
trong đó mỗi X
i
biểu diễn một đối tợng. Không gian này có thể là vô hạn. Để tiện xem xét chúng ta chỉ xét tập X là hữu
hạn.
Không gian diễn dịch
Không gian diễn dịch là tập các tên gọi của đối tợng. Kết thúc quá trình nhận dạng ta xác định đợc
tên gọi cho các đối tợng trong tập không gian đối tợng hay nói là đã nhận dạng đợc đối tợng Một cách hình thức gọi

là tập tên đối tợng:

= {w
1
, w
2
,...,w
k
} với w
i
, i = 1, 2,..., k là tên các đối tợng
Quá trình nhận dạng đối tợng f là một ánh xạ f: X --->

với f là tập các quy luật để
định một phần tử trong X ứng với một phần tử trong

. Nếu tập các quy luật và tập tên các đối tợng là biết trớc nh trong
nhận dạng chữ viết (có 26 lớp từ A đến Z), ngời ta gọi là nhận dạng có thày. Trờng hợp thứ hai là nhận dạng không có
thày. Đơng nhiên trong trờng hợp này việc nhận dạng có khó khăn hơn.
7.1.2 Mô hình và bản chất của quá trình nhận dạng
7.1.2.1 Mô hình
Việc chọn lựa một quá trình nhận dạng có liên quan mật thiết đến kiểu mô tả mà ngời ta sử dụng để đặc tả đối
tợng. Trong nhận dạng, ngời ta phân chia làm 2 họ lớn:
- Họ mô tả theo tham số
- Họ mô tả theo cấu trúc.
Cách mô tả đợc lựa chọn sẽ xác định mô hình của đối tợng. Nh vậy, chúng ta sẽ có 2 loại mô hình: mô hình theo tham
số và mô hình cấu trúc.
Mô hình tham số sử dụng một véctơ để đặc tả đối tợng. Mỗi phần tử của véctơ mô tả một đặc tính của đối tợng.
Thí dụ nh trong các đặc trng chức năng, ngời ta sử dụng các hàm cơ sở trực giao để biểu diễn. Và nh vậy ảnh sẽ đợc
biểu diễn bởi một chuỗi các hàm trực giao. Giả sử C là đờng bao của ảnh và C(i,j) là điểm thứ i trên đờng bao, i = 1,

2,..., N (đờng bao gồm N điểm).
Giả sử tiếp :
x
0
=
1
1
N
i
N
=

x
i
y
0
=
1
1
N
i
N
=

y
i
là toạ độ tâm điểm. Nh vậy, moment trung tâm bậc p, q của đờng bao là:
à
pq
=

1
1
N
i
N
=

(x
i
-x
0
)
p
(y
i
-y
0
)
q
(7.1)
Véctơ tham số trong trờng hợp này chính là các moment à
ij
với i=1, 2,...,p và j=1, 2,...,q. Còn trong số các đặc
trng hình học, ngời ta hay sử dụng chu tuyến , đờng bao, diện tích và tỉ lệ T = 4S/p
2
, với S là
diện tích, p là chu tuyến.
Việc lựa chọn phơng pháp biểu diễn sẽ làm đơn giản cách xây dựng. Tuy nhiên, việc lựa chọn đặc trng nào là
hoàn toàn phụ thuộc vào ứng dụng. Thí dụ , trong nhận dạng chữ (sẽ trình bày sau), các tham số là các dấu hiệu:
- số điểm chạc ba, chạc t,

- số điểm chu trình,
- số điểm ngoặt,
- số điểm kết thúc,
Nhập môn xử lý ảnh số - ĐHBK Hà nội 165
Chơng Bảy: nhận dạng ảnh

chẳng hạn với chữ t có 4 điểm kết thúc, 1 điểm chạc t,...

Mô hình cấu trúc: Cách tiếp cận của mô hình này dựa vào việc mô tả đối tợng nhờ một số khái niệm biểu thị các
đối tợng cơ sở trong ngôn ngữ tự nhiên. Để mô tả đối tợng, ngời ta dùng một số dạng nguyên thuỷ nh đoạn thẳng,
cung, v,...,v. Chẳng hạn một hình chữ nhật đợc định nghĩa gồm 4 đoạn thẳng vuông góc với nhau từng đôi một.
Trong mô hình này ngời ta sử dụng một bộ kí hiệu kết thúc V
t
, một bộ kí hiệu không kết thúc gọi là V
n
. Ngoài ra có
dùng một tập các luật sản xuất để mô tả cách xây dựng các đối tợng phù hợp dựa trên các đối tợng đơn giản hơn
hoặc đối tợng nguyên thuỷ (tập V
t
). Trong cách tiếp cận này, ta chấp nhận một khẳng đinh là: cấu trúc một dạng là
kết quả của việc áp dụng luật sản xuất theo theo những nguyên tắc xác định bắt đầu từ một dạng gốc bắt đầu. Một
cách hình thức, ta có thể coi mô hình này tơng đơng một văn phạm G = (V
t
, V
n
, P, S) với:
- V
t
là bộ ký hiệu kết thúc,
- V

n
là bộ ký hiệu không kết thúc,
- P là luật sản xuất,
- S là dạng (ký hiệu bắt đầu).
Thí dụ, đối tợng nhà gồm mái và tờng, mái là một tam giác gồm 3 cạnh là 3 đoạn thẳng, tờng là một hình chữ nhật gồm
4 cạnh vuông góc với nhau từng đôi một sẽ đợc mô tả thông qua cấu trúc mô tả dựa vào văn phạm sinh nh chỉ ra trong
hình 7.1 dới đây.
(1) (2) Nhà
(3)
Mái Tờng
(6) (4)
Đọạn 1 Đoạn 2 Đoạn 3 Đoạn 3 Đoạn 4 Đoạn 5 Đoạn 6
(5)
Hình 7.1 Mô hình cấu trúc của một đối tợng nhà.
7.1.2.2 Bản chất của quá trình nhận dạng
Quá trình nhận dạng gồm 3 giai đoạn chính:
- Lựa chọn mô hình biểu diễn đối tợng.
- Lựa chọn luật ra quyết định (phơng pháp nhận dạng) và suy diễn quá trình học.
- Học nhận dạng.
Khi mô hình biểu diễn đối tợng đã đợc xác định, có thể là định lợng (mô hình tham số) hay định tính (mô hình
cấu trúc), quá trình nhận dạng chuyển sang giai đoạn học. Học là giai đoạn rất quan trọng. Thao tác học nhằm cải thiện,
điều chỉnh việc phân hoạch tập đối tợng thành các lớp.
Việc nhận dạng chính là tìm ra quy luật và các thuật toán để có thể gán đối tợng vào một lớp hay nói một cách
khác gán cho đối tợng một tên.
Học có thày (supervised learning)
Nhập môn xử lý ảnh số - ĐHBK Hà nội 166
Chơng Bảy: nhận dạng ảnh
Kỹ thuật phân loại nhờ kiến thức biết trớc gọi là học có thày. Đặc điểm cơ bản của kỹ thuật này là ngời ta có
một th viện các mẫu chuẩn. Mẫu cần nhận dạng sẽ đợc đem sánh với mẫu chuẩn để xem nó thuộc loại nào. Thí dụ nh
trong một ảnh viễn thám, ngời ta muốn phân biệt một cánh đồng lúa, một cánh rừng hay một vùng đất hoang mà đã có

các miêu tả về các đối tợng đó. Vấn đề chủ yếu là thiết kế một hệ thống để có thể đối sánh đối tợng trong ảnh với mẫu
chuẩn và quyết định gán cho chúng vào một lớp. Việc đối sánh nhờ vào các thủ tục ra quyết định dựa trên một công cụ
gọi là hàm phân lớp hay hàm ra quyết định. Hàm này sẽ đợc đề cập trong phần sau.
Học không có thày(unsupervised learning)
Kỹ thuật học này phải tự định ra các lớp khác nhau và xác định các tham số đặc trng cho từng lớp. Học không
có thày đơng nhiên là khó khăn hơn. Một mặt, do số lớp không đợc biết trớc, mặt khác những đặc trng của các lớp cũng
không biết trớc. Kỹ thuật này nhằm tiến hành mọi cách gộp nhóm có thể và chọn lựa cách tốt nhất. Bắt đầu từ tập dữ
liệu, nhiều thủ tục xử lý khác nhau nhằm phân lớp và nâng cấp dần để đạt đợc một phơng án phân loại. Một số kỹ thuật
tự học sẽ đợc trình bày trong phần 7.2.4.
Nhìn chung, dù là mô hình nào và kỹ thuật nhận dạng ra sao, một hệ thống nhận dạng có thể tóm tắt theo sơ đồ
sau:
Trích chọn đặc tính Phân lớp trả lời Đánh
biểu diễn đối tợng ra quyết định giá
Quá trình tiền xử lý Khối nhận dạng
Hình 7.2 Sơ đồ tổng quát một hệ nhận dạng.
7.2 nhận dạng dựa trên phân hoạch không gian
Trong kỹ thuật này, các đối tợng nhận dạng là các đối tợng định lợng. Mỗi đối tợng đợc biểu diễn bởi một
véctơ nhiều chiều. Trớc tiên, ta xem xét một số khái niệm nh: phân hoạch không gian, hàm phân biệt sau đó sẽ đi vào
một số kỹ thuật cụ thể.
7.2.1 Phân hoạch không gian
Giả sử không gian đối tợng X đợc định nghĩa : X = {X
i
, i=1, 2,...,m}, X
i
là một véctơ. Ngời ta nói p là một
phân hoạch của không gian X thành các lớp C
i
, C
i
X nếu:

C
i
C
j
= với i j và C
i
= X
Nói chung, đây là trờng hợp lý tởng: tập X tách đợc hoàn toàn. Trong thực tế, thờng gặp không gian biểu diễn
tách đợc từng phần. Nh vậy phân loại là dựa vào việc xây dựng một ánh xạ f: X ---> p. Công cụ xây dựng ánh xạ
này là các hàm phân biệt (Descriminant functions).
7.2.2 Hàm phân lớp hay hàm ra quyết định
Để phân đối tợng vào các lớp, ta phải xác định số lớp và ranh giới giữa các lớp đó. Hàm phân lớp hay hàm
phân biệt là một công cụ rất quan trọng. Gọi {g
i
} là lớp các hàm phân lớp. Lớp hàm này đợc định nghĩa nh sau:
nếu i k, g
k
(X) > g
i
(X) thì ta quyết định X lớp k.
Nh vậy để phân biệt k lớp, ta cần k-1 hàm phân biệt. Hàm phân biệt g của một lớp nào đó thờng dùng là hàm tuyến tính,
có nghĩa là:
Nhập môn xử lý ảnh số - ĐHBK Hà nội 167
Chơng Bảy: nhận dạng ảnh
g(X) = W
0
+ W
1
X
1

+ W
2
X
2
+. . . + W
k
X
k
trong đó:
- W
i
là các trọng số gán cho các thành phần X
i
.
- W
0
là trọng số để viết cho gọn.
Trong trờng hợp g là tuyến tính, ngời ta nói là việc phân lớp là tuyến tính hay siêu phẳng (hyperplan).
Các hàm phân biệt thờng đợc xây dựng dựa trên khái niệm khoảng cách hay dựa vào xác suất có điều kiện.
Lẽ tự nhiên, khoảng cách là một công cụ rất tốt để xác định xem đối tợng có "gần nhau" hay không. Nếu
khoảng cách nhỏ hơn một ngỡng nào đấy ta coi 2 đối tợng là giống nhau và gộp chúng vào một lớp. Ngợc lại , nếu
khoảng cách lớn hơn ngỡng , có nghĩa là chúng khác nhau và ta tách thành 2 lớp.
Trong một số trờng hợp, ngời ta dựa vào xác suất có điều kiện để phân lớp cho đối tợng. Lý thuyết xác suất có
điều kiện đợc Bayes nghiên cứu khá kỹ và chúng ta có thể áp dụng lý thuyết này để phân biệt đối tợng.
Gọi : P(X/C
i
) là xác suất để có X biết rằng có xuất hiện lớp C
i
P(C
i

/X) là xác suất có điều kiện để X thuộc lớp C
i
.
với X là đối tợng nhận dạng, C
i
là các lớp đối tợng.
Quá trình học cho phép ta xác định P(X/C
i
) và nhờ công thức Bayes về sác xuất có điều kiện áp dụng trong
điều kiện nhiều biến, chúng ta sẽ tính đợc P(C
i
/X) theo công thức: P(C
i
/X) =
)(
)()/(
1
)()/(
)()/(
XP
CPCXP
n
i
CPXCP
CPCXP ii
ii
ii
=

=

(7.2)
Nếu P(C
i
/X) > P(C
k
/X) với i # k thì X C
i
. Tuỳ theo các phơng pháp nhận dạng khác nhau, hàm phân biệt sẽ có các
dạng khác nhau.
7.2.3 Nhận dạng thống kê
Nếu các đối tợng nhận dạng tuân theo luật phân bố Gauss, mà hàm mật độ sác xuất cho bởi:
1 (x-m)
2
f(x) = exp (- )
2
2

2
2
ngời ta có dùng phơng pháp ra quyết định dựa vào lý thuyết Bayes. Lý thuyết Bayes thuộc loại lý thuyết thống kê nên
phơng pháp nhận dạng .dựa trên lý thuyết Bayes có tên là phơng pháp thống kê.
Quy tắc Bayes
- Cho không gian đối tợng X = {X
l
, l=1, 2,..., L}, với X
l
= {x
1
, x

2
, ..., x
p
}
- Cho không gian diễn dịch = { C
1
, C
2
,..., C
r
}, r là số lớp
Quy tắc Bayes phát biểu nh sau:
: X ---> sao cho X

C
k
nếu P(C
k
/X) > P(C
l
/X) l <> k, l=1, 2,...,r.
Trờng hợp lý tởng là nhận dạng luôn đúng, có nghĩa là không có sai số. Thực tế , luôn tồn tại sai số trong quá trình
nhận dạng. Vấn đề ở đây là xây dựng quy tắc nhận dạng với sai số là nhỏ nhất.
Phơng pháp ra quyết định với

tối thiểu
Ta xác định X

C
k

nhờ xác suất P(C
k
/X). Vậy nếu có sai số, sai số sẽ đợc tính bởi 1 - P(C
k
/X). Để đánh giá sai
số trung bình, ngời ta xây dựng một ma trận L(r,r) giả thiết là có n lớp.
Ma trận L đợc định nghĩa nh sau:
l
k,j
> 0 nếu k <>j (tồn tại sai số) (7.3)
L
k,j
= l
k,j
<= 0 nếu k = j (không có sai số)
Nhập môn xử lý ảnh số - ĐHBK Hà nội 168
Chơng Bảy: nhận dạng ảnh
Nh vậy, sai số trung bình của sự phân lớp sẽ là:
r
k
(X) =

=
r
j
XCjPlk j
1
)/(,
(7.4)
Để sai số là nhỏ nhất ta cần có r

k
là min. Từ công thức 7.2 và 7.4 ta có:
r
k
(X) =

=
r
j
CjXPl jk
1
)/(,
P(C
j
) (7.5)
Vậy, quy tắc ra quyết định dựa trên lý thuyết Bayes có tính đến sai số đợc phát biểu nh sau:
X

C
k
nếu

k
<

p
với p <> k, p=1, 2,..., r. (7.6)
với

k

là r
k
(X).
Trờng hợp đặc biệt với 2 lớp C
1
và C
2
, ta dễ dàng có:
X

C
1
nếu P(X/C
1
) >
)/(
)(
)(
2
121
2212
2
11
CXP
CP
CP
ll
ll

(7.7)
Giả sử thêm rằng xác suất phân bố là đều (P(C
1
) = P(C
2
), sai số là nh nhau ta có:
X

C
1
nếu P(X/C
1
) > P(X/C
2
) (7.8)

7.2.4 Một số thuật toán nhận dạng tiêu biểu trong tự học
Thực tế có nhiều thuật toán nhận dạng học không có thày. ở đây, chúng ta xem xét 3 thuật toán hay đợc sử
dụng: Thuật toán nhận dạng dựa vào khoảng cách lớn nhất, thuật toán K- trung bình (K mean) và thuật toán ISODATA.
Chúng ta lần lợt xem xét các thuật toán này vì chúng có bớc tiếp nối, cải tiến từ thuật toán này qua thuật toán khác.
7.2.4.1 Thuật toán dựa vào khoảng cách lớn nhất
a) Nguyên tắc
Cho một tập gồm m đối tợng. Ta xác định khoảng cách giữa các đối tợng và khoảng cách lớn nhất ứng với phần
tử xa nhất tạo nên lớp mới. Sự phân lớp đợc hình thành dần dần dựa vào việc xác định khoảng cách giữa các đối tợng và
các lớp.
b) Thuật toán
Bớc 1
- Chọn hạt nhân ban đầu: giả sử X
1

C
1
gọi là lớp g
1
. Gọi Z
1
là phần tử trung tâm của g
1
.
- Tính tất cả các khoảng cách D
j1
= D(X
j
,Z
1
) với j =1, 2,..., m
- Tìm D
k1
= max
j
D
j1
. X
k
là phần tử xa nhất của nhóm g
1
. Nh vậy X
k
là phần tử trung tâm của lớp mới g

2
, kí
hiệu Z
2
.
- Tính d
1
= D
12
= D(Z
1
,Z
2
).
Bớc 2
- Tính các khoảng cách D
j1
, D
j2
.
- D
j1
= D(X
j
,Z
1
), D
j2
= D((X
j

,Z
2
). Đặt D
k
(2)
= max
j
D
j
Nguyên tắc chọn
- Nếu D
k
(2)
< d
1
kết thúc thuật toán. Phân lớp xong.
- Nếu không, sẽ tạo nên nhóm thứ ba. Gọi X
k
là phần tử trung tâm của g
3,
kí hiệu Z
3
.
- Tính d3 = (D
12
+ D
13
+ D
23
)/3

với là ngỡng cho trớc và D
13
= D(Z
1
,Z
3
), D
23
= D(Z
2
,Z
3
).
Nhập môn xử lý ảnh số - ĐHBK Hà nội 169
Chơng Bảy: nhận dạng ảnh
Quá trình cứ lặp lại nh vậy cho đến khi phân xong. Kết quả là ta thu đợc các lớp với các đại diện là Z
1
, Z
2
,..., Z
m
.
7.2.4.2. Thuật toán K trung bình ( giả sử có K lớp)
a) Nguyên tắc
Khác với thuật toán trên, ta xét K phần tử đầu tiên trong không gian đối tợng, hay nói một cách khác ta cố định
K lớp. Hàm để đánh giá là hàm khoảng cách Euclide:
J
k
=

=
=

k
j
ZkXjD
gkX
ZkXD
1
),(),( 2
(7-9)
J
k
là hàm chỉ tiêu với lớp C
k
. Việc phân vùng cho k hạt nhân đầu tiên đợc tiến hành theo nguyên tắc khoảng cách cực
tiểu. ở đây, ta dùng phơng pháp đạo hàm để tính cực tiểu.
Xét
0=
k
k
Z
J

với Z
k
là biến. Ta dễ dàng có (7.9) min khi:
( )X Zi k

i
N

=

1
= 0 ==> Z
k
=

=
Nc
j
j
c
Z
N
1
1
(7.10)
Công thức 7.10 là giá trị trung bình của lớp C
k
và điều này lý giải tên của phơng pháp.
b)Thuật toán
Chọn N
c
phần tử (giả thiết có N
c
lớp) của tập T. Gọi các phần tử trung tâm của các lớp đó là: X
1

, X
2
,..., X
Nc
và
ký hiệu là Z
1
, Z
2
, ..., Z
Nc
.
Thực hiện phân lớp
X

C
k
nếu D(X,Zk) = Min D(X,Zj)
(1)
, j =1,..., N
c
. (1) là lần lặp thứ nhất.
Tính tất cả Z
k
theo công thức 7.10.
Tiếp tục nh vậy cho đến bớc q.
X

G
k

(q-1) nếu D(X,Z
k
(q-1)
) = min
l
D(X,Z
l
(q-1)
).
Nếu Z
k
(q-1)
= Z
k
(q)
thuật toán kết thúc, nếu không ta tiếp tục thực hiện phân lớp.
7.2.4.3 Thuật toán ISODATA
ISODATA là viết tắt của từ Iteractive Self Organizing Data Analysis. Nó là thuật toán khá mềm dẻo, không cần
cố định các lớp trớc. Các bớc của thuật toán đợc mô tả nh sau:
- Lựa chọn một phân hoạch ban đầu dựa trên các tâm bất kỳ. Thực nghiệm đã chứng minh kết quả nhận dạng
không phụ thuộc vào phân lớp ban đầu [2].
- Phân vùng bằng cách sắp các điểm vào tâm gần nhất dựa vàp khoảng cách Euclide.
- Tách đôi lớp ban đầu nếu khoảng cách lớn hơn ngỡng t
1
.
- Xác định phân hoạch mới trên cơ sở các tâm vừa xác định lại và tiếp tục xác định tâm mới.
- Tính tất cả các khoảng cách đến tâm mới.
- Nhóm các vùng với tâm theo ngỡng t
2
.

Lặp các thao tác tác trên cho đến khi thoả tiêu chuẩn phân hoạch.
7.3 Nhận dạng theo cấu trúc
7.3.1 Biểu diễn định tính
Ngoài cách biễn diễn theo định lợng nh đã mô tả ở trên, tồn tại nhiều kiểu đối tợng mang tính định tính.
Trong cách biểu diễn này, ngời ta quan tâm đến các dạng và mối quan hệ giữa chúng. Giả thiết rằng mỗi đối tợng đợc
biểu diễn bởi một dãy ký tự. Các đặc tính biểu diễn bởi cùng một số ký tự. Phơng pháp nhận dạng ở đây là nhận dạng lô
gíc, dựa và hàm phân biệt là hàm Bool. Cách nhận dạng là nhận dạng các từ có cùng độ dài.
Nhập môn xử lý ảnh số - ĐHBK Hà nội 170
Chơng Bảy: nhận dạng ảnh
Giả sử hàm phân biệt cho mọi ký hiệu là g
a
(x), g
b
(x),..., tơng ứng với các ký hiệu a, b, ... . Để dễ dàng hình
dung, ta giả sử có từ "abc" đợc biểu diễn bởi một dãy ký tự X = {x
1
, x
2
, x
3
, x
4
}. Tính các hàm tơng ứng với 4 ký tự và
có:
g
a
(x
1
) + g
b

(x
2
) + g
c
(x
3
) + g
c
(x
4
)
Các phép cộng ở đây chỉ phép toán OR. Trên cơ sở tính giá trị cực đại của hàm phân biệt, ta quyết định X có thuộc lớp
các từ "abc" hay không. Trong cách tiếp cận này, đối tợng tơng đơng với câu.
7.3.2 Phơng pháp ra quyết định dựa vào cấu trúc
7.3.2.1 Một số khái niệm
Thủ tục phân loại và nhận dạng ở đây gồm 2 giai đoạn: Giai đoạn đầu là giai đoạn xác định các quy tắc xây
dựng, tơng đơng với việc nghiên cứu một văn phạm trong một ngôn ngữ chính thống. Giai đoạn tiếp theo khi đã có văn
phạm là xem xét tập các dạng có đợc sinh ra từ các dạng đó không? Nếu nó thuộc tập đó coi nh ta đã phân loại xong.
Tuy nhiên, văn phạm là một vấn đề lớn. Trong nhận dạng cấu trúc, ta mới chỉ sử dụng đợc một phần rất nhỏ mà thôi.
Nh trên đã nói, mô hình cấu trúc tơng đơng một văn phạm G :G = {V
n
, V
t
, P, S}. Có rất nhiều kiểu văn phạm
khác nhau từ chính tắc, phi ngữ cảnh,... Độc giả quan tâm xin xem các tài liệu về lý thuyết ngôn ngữ hình thức hay ô tô
mát . ở đây, xin giới thiệu một ngôn ngữ có thể đợc áp dụng trong nhận dạng cấu trúc: đó là ngôn ngữ PLD (Picture
Language Description).
Ví dụ: Ngôn ngữ PLD
Trong ngôn ngữ này, các từ vựng là các vạch có hớng. Có 4 từ vựng cơ bản:
a: b: c: và d:

Các từ vựng trên các quan hệ đợc định nghĩa nh sau:
+ : a + b
- : a - b
x: a x b
*: a * b
Văn phạm sinh ra các mô tả trong ngôn ngữ đợc định nghĩa bởi:
G
A
= {V
n
, V
T
, P, S}
với V
n
= {A, B, C, D, E} và V
T
= {a, b, c, d}. S là ký hiệu bắt đầu và P là tập luật sản xuất.
Ngôn ngữ này thờng dùng nhận dạng các mạch điện.
7.3.2.2 Phơng pháp nhận dạng
Các đối tợng cần nhận dạng theo phơng pháp này đợc biểu diễn bởi một câu trong ngôn ngữ L(G). Khi đó thao
tác phân lớp chính là xem xét một đối tợng có thuộc văn phạm L(G) không? Nói cách khác nó có đợc sinh ra bởi các
luật của văn phạmG không? Nh vậy sự phân lớp là theo cách tiếp cận cấu trúc đòi hỏ phải xác định:
Nhập môn xử lý ảnh số - ĐHBK Hà nội 171
Dây
TK

vào
Chơng Bảy: nhận dạng ảnh
- Tập V

t
chung cho mọi đối tợng.
- Các quy tắc sinh P để sản sinh ra một câu và chúng khác nhau đối với mỗi lớp.
- Quá trình học với các câu biểu diễn các đối tợng mẫu l nhằm xác định văn phạmG.
- Quá trình ra quyết định: xác định một đối tợng X đợc biểu diễn bởi một câu l
x
. Nếu l
x
nhận biết bởi ngôn ngữ
L(G
x
) thì ta nói rằng X Ck.
Nói cách khác, việc ra quyết định phân lớp là dựa vào phân tích cúG
k
biểu diễn lớp C
k
. pháp của văn phạm.
Cũng nh trong phân tích cú pháp ngôn ngữ, có phân tích trên xuống, dới lên, việc nhận dạng theo cấu trúc cũng có thể
thực hiện theo cách tơng tự.
Việc nhận dạng dựa theo cấu trúc là một ý tởng và dẫu sao cũng cần đợc nghiên cứu thêm.
7.4 mạng nơ ron nhân tạo và Nhận dạng theo mạng nơ ron
Trớc tiên, cần xem xét một số khái niệm cơ bản về bộ não cũng nh cơ chế hoạt động của mạng nơ ron sinh
học. Tiếp theo, để tiện theo dõi, ở đây sẽ đề cập đến một ứng dụng của mạng nơ ron trong nhận dạng chữ viết.
7.4.1.Bộ não và nơ ron sinh học
Các nhà nghiên cứu sinh học về bộ não cho ta thấy rằng các nơ ron (tế bào thần kinh) là đơn vị cơ sở đảm
nhiệm những chức năng xử lý nhất định trong hệ thần kinh, bao gồm não, tuỷ sống và các dây thần kinh. Mỗi nơ ron có
phần thân với nhân bên trong (gọi là soma), một đầu thần kinh ra (gọi là sợi trục axon) và một hệ thống dạng cây các
dây thần kinh vào (gọi là dendrite). Các dây thần kinh vào tạo thành một lới dày đặc xung quanh thân tế bào, chiếm diện
tích khoảng 0,25 mm
2

, còn dây thần kinh ra tạo thành trục dài có thể từ 1 cm cho đến hàng mét. Đờng kính của nhân tế
bào thờng chỉ là 10
-4
m. Trục dây thần kinh ra cũng có thể phân nhánh theo dạng cây để nối với các dây thần kinh vào
hoặc trực tiếp với nhân tế bào các nơ ron khác thông qua các khớp nối (gọi là synapse). Thông thờng, mỗi nơ ron có thể
gồm vài chục cho tới hàng trăm ngàn khớp nối để nối với các nơ ron khác. Ngời ta ớc lợng rằng lới các dây thần kinh ra
cùng với các khớp nối bao phủ diện tích khoảng 90% bề mặt nơ ron (hình 7-3).
Các tín hiệu truyền trong các dây thần kinh vào và dây thần kinh ra của các nơ ron là tín hiệu điện và đợc thực
hiện thông qua các quá trình phản ứng và giải phóng các chất hữu cơ. Các chất này đợc phát ra từ các khớp nối dẫn tới
các dây thần kinh vào sẽ làm tăng hay giảm điện thế của nhân tế bào. Khi điện thế này đạt tới một ngỡng nào đó, sẽ tạo
ra một xung điện dẫn tới trục dây thần kinh ra. Xung này đợc truyền theo trục, tới các nhánh rẽ khi chạm tới các khớp
nối với các nơ ron khác sẽ giải phóng các chất truyền điện. Ngời ta chia làm hai loại khớp nối: khớp nối kích thích
(excitatory) hoặc khớp nối ức chế (inhibitory).
Phát hiện quan trọng nhất trong ngành nghiên cứu về bộ não là các liên kết khớp thần kinh khá mềm dẻo, có thể biến
động và chỉnh đổi theo thời gian tuỳ thuộc vào các dạng kích thích. Hơn nữa, các nơ ron có thể sản sinh các liên kết mới
với các nơ ron khác và đôi khi, lới các nơ ron có thể di trú từ vùng này sang vùng khác trong bộ não. Các nhà khoa học
cho rằng đây chính là cơ sở quan trọng để giải thích cơ chế học của bộ não con ngời.
Phần lớn các quá trình xử lý thông tin đều xảy ra trên vỏ não. Toàn bộ vỏ não đợc bao phủ bởi mạng các tổ
chức cơ sở có dạng hình thùng tròn với đờng kích khoảng 0,5 mm, độ cao 4 mm. Mỗi đơn vị cơ sở này chứa khoảng
2000 nơ ron. Ngời ta chỉ ra rằng mỗi vùng não có những chức năng nhất định. Điều rất đáng ngạc nhiên chính là các nơ
ron rất đơn giản trong cơ chế làm việc, nhng mạng các nơ ron liên kết với nhau lại có khả năng tính toán, suy nghĩ, ghi
nhớ và điều khiển. Có thể điểm qua những chức năng cơ bản của bộ não nh sau:
-Bộ nhớ đợc tổ chức theo các bó thông tin và truy nhập theo nội dung (Có thể truy xuất thông tin dựa theo giá
trị các thuộc tính của đối tợng)
-Bộ não có khả năng tổng quát hoá, có thể truy xuất các tri thức hay các mối liên kết chung của các đối tợng t-
ơng ứng với một khái niệm chung nào đó
Nhập môn xử lý ảnh số - ĐHBK Hà nội 172
Dây
TK

vào
Chơng Bảy: nhận dạng ảnh
- Bộ não có khả năng dung thứ lỗi theo nghĩa có thể điều chỉnh hoặc tiếp tục thực hiện ngay khi có những sai
lệch do thông tin bị thiếu hoặc không chính xác. Ngoài ra, bộ não còn có thể phát hiện và phục hồi các thông tin bị mất
dựa trên sự tơng tự giữa các đối tợng.
- Bộ não có khả năng xuống cấp và thay thế dần dần. Khi có những trục trặc tại các vùng não (do bệnh, chấn th-
ơng) hoặc bắt gặp những thông tin hoàn toàn mới lạ, bộ não vẫn có thể tiếp tục làm việc.
-Bộ não có khả năng học.
So sánh khả năng làm việc của bộ não và máy tính
Máy tính Bộ não ngời
Đơn vị tính toán Bộ xử lý trung tâm với 10
5
mạch logic cơ sở Mạng 10
11
nơ ron
Bộ nhớ 10
9
bit RAM 10
11
nơ ron
10
10
bit bộ nhớ ngoài với 10
14
khớp nối
thần kinh
Thời gian xử lý 10
-8
giây 10
-3

giây
Thông lợng 10
9
bit/giây 10
14
bit/giây
Cập nhật
thông tin
10
5
bit/giây 10
14
nơ ron/giây
Dễ dàng thấy rằng bộ não con ngời có thể lu giữ nhiều thông tin hơn các máy tính hiện đại; Tuy rằng điều này
không phải đúng mãi mãi, bởi lẽ bộ não tiến hóa chậm, trong khi đó nhờ những tiến bộ trong công nghệ vi điện tử, bộ
nhớ máy tính đợc nâng cấp rất nhanh. Hơn nữa, sự hơn kém về bộ nhớ trở nên hoàn toàn thứ yếu so với sự khác biệt về
tốc độ tính toán và khả năng xử lý song song. Các bộ vi xử lý có thể tính 10
8
lệnh trong một giây, trong khi đó mạng nơ
ron xử lý chậm hơn, cần khoảng vài miligiây để kích hoạt. Tuy nhiên, bộ não có thể kích hoạt hầu nh cùng một lúc tại
rất nhiều nơ ron và khớp nối, trong khi đó ngay cả máy tính hiện đại cũng chỉ có một số hạn chế các bộ vi xử lý song
song. Nếu chạy một mạng nơ ron nhân tạo trên máy tính, phải tốn hàng trăm lệnh máy để kiểm tra một nơ ron có đợc
kích hoạt hay không (tiêu phí khoảng 10
-8
x 10
2
giây/nơ ron). Do đó, dầu bộ vi xử lý có thể tính toán nhanh hơn hàng
triệu lần so với các nơ ron bộ não, nhng xét tổng thể bộ não lại tính toán nhanh hơn hàng tỷ lần.
Cách tiếp cận mạng nơ ron nhân tạo có ý nghĩa thực tiễn rất lớn cho phép tạo ra các thiết bị có thể kết hợp khả
năng song song cao của bộ não với tốc độ tính toán cao của máy tính. Tuy vậy, cần phải có một khoảng thời gian dài nữa

để các mạng nơ ron nhân tạo có thể mô phỏng đợc các hành vi sáng tạo của bộ não con ngời. Chẳng hạn, bộ não có thể
thực hiện một nhiệm vụ khá phức tạp nh nhận ra khuôn mặt ngời quen sau không quá 1 giây, trong khi đó một máy tính
tuần tự phải thực hiện hàng tỷ phép tính (khoảng 10 giây) để thực hiện cùng thao tác đó, nhng với chất lợng kém hơn
nhiều, đặc biệt trong trờng hợp thông tin không chính xác, không đầy đủ.
nối
Hình 7-3 . Cấu tạo nơ ron sinh học
7.4.2. Mô hình mạng nơ ron nhân tạo
Mạng nơ ron nhân tạo (Artificial Neural Network) gọi tắt là MNR bao gồm các nút (đơn vị xử lý, nơ ron) đợc
nối với nhau bởi các liên kết nơ ron. Mỗi liên kết kèm theo một trọng số nào đó, đặc trng cho đặc tính kích hoạt/ ức chế
giữa các nơ ron. Có thể xem các trọng số là phơng tiện để lu giữa thông tin dài hạn trong mạng nơ ron và nhiệm vụ của
quá trình huấn luyện (học) mạng là cập nhật các trọng số khi có thêm các thông tin về các mẫu học, hay nói một cách
Nhập môn xử lý ảnh số - ĐHBK Hà nội 173
Khớp
nối
Nhân
Dây
TK

vào
Trục từ nơ ron
khác
Trục
Khớp
nối
Chơng Bảy: nhận dạng ảnh
khác, các trọng số đợc điều chỉnh sao cho dáng điệu vào ra của nó mô phỏng hoàn toàn phù hợp môi trờng đang xem
xét.
Trong mạng, một số nơ ron đợc nối với môi trờng bên ngoài nh các đầu ra, đầu vào.
7.4.2.1. Mô hình nơ ron nhân tạo
Hình 7.4 . Mô hình nơ ron nhân tạo

Mỗi nơ ron đợc nối với các nơ ron khác và nhận đợc các tín hiệu sj từ chúng với các trọng số w
j
. Tổng các
thông tin vào có trọng số là:
Net = w
j
s
j
.
Ngời ta gọi đây là thành phần tuyến tính của nơ ron. Hàm kích hoạt g (còn gọi là hàm chuyển) đóng vai trò
biến đổi từ Net sang tín hiệu đầu ra out.
out = g ( Net ).
Đây là thành phần phi tuyến của nơ ron. Có 3 dạng hàm kích hoạt thờng đợc dùng trong thực tế:
Hàm dạng bớc step(x) = 1 nếu x 0 hoặc step(x) = 1 nếu x
0 nếu x< 0 0 nếu x<
Hàm dấu sign(x) = 1 nếu x 0 hoặc sign(x) = 1 nếu x
-1 nếu x< 0 -1 nếu x<
Hàm sigmoid

ở đây ngỡng đóng vai trò làm tăng tính thích nghi và khả năng tính toán của
mạng nơ ron. Sử dụng ký pháp véctơ, S = (s
1
,...,s
n
) véctơ tín hiệu vào, W=( w
1
,..., w
n
) véctơ trọng số, ta có
out = g( Net ) , Net = SW.

Trờng hợp xét ngỡng , ta dùng biểu diễn véctơ mới S'=( s
1
,...,s
n
, ), W'=( w
1
,..., w
n
,-1)
Khả năng biểu diễn của nơ ron
Bộ vi xử lý máy tính dựa trên tích hợp các mạch logic cơ sở. Có thể thấy rằng các nơ ron hoàn toàn mô phỏng khả năng
tính toán của các mạch cơ sở AND, OR, NOT.
Nhập môn xử lý ảnh số - ĐHBK Hà nội 174
=1,5
XX
YY
w =1
w =1
Z
XX
YY
w =1
w =1
Z
=0,5
=-0,5
X
Y
w=-1
Z = X and Y Z = X or Y Y = not X

Hàm
kích
hoạt
Net = g out
Hàm
vào
Đầu
ra
Các liên kết
vào
Các liên
kết ra
s
j
w
j
)(
1
1
)(

+
+
=
x
e
xSigmoid
Chơng Bảy: nhận dạng ảnh
7.4.2.2. Mạng nơ ron
Mạng nơ ron là hệ thống bao gồm nhiều phần tử xử lý đơn giản (nơ ron) hoạt động song song. Tính năng của

hệ thống này tuỳ thuộc vào cấu trúc của hệ, các trọng số liên kết nơ ron và quá trình tính toán tại các nơ ron đơn lẻ.
Mạng nơ ron có thể học từ dữ liệu mẫu và tổng quát hóa dựa trên các dữ liệu mẫu học.Trong mạng nơ ron, các nơ ron
đón nhận tín hiệu vào gọi là nơ ron vào và các nơ ron đa thông tin ra gọi là nơ ron ra.
A. Phân loại các mạng nơ ron
Theo kiểu liên kết nơ ron: Ta có mạng nơ ron truyền thẳng (feel-forward Neural Network) và mạng nơ ron qui
hồi (recurrent NN). Trong mạng nơ ron truyền thẳng, các liên kết nơ ron đi theo một hớng nhất định, không tạo thành đồ
thị không có chu trình (Directed Acyclic Graph) với các đỉnh là các nơ ron, các cung là các liên kết giữa chúng. Ngợc
lại, các mạng qui hồi cho phép các liên kết nơ ron tạo thành chu trình. Vì các thông tin ra của các nơ ron đợc truyền lại
cho các nơ ron đã góp phần kích hoạt chúng, nên mạng hồi qui còn có khả năng lu giữ trạng thái trong của nó dới dạng
các ngỡng kích hoạt ngoài các trọng số liên kết nơ ron.
Theo số lớp: Các nơ ron có thể tổ chức lại thành các lớp sao cho mỗi nơ ron của lớp này chỉ đợc nối với các nơ ron ở lớp
tiếp theo, không cho phép các liên kết giữa các nơ ron trong cùng một lớp, hoặc từ nơ ron lớp dới lên nơ ron lớp trên. ở
đây cũng không cho phép các liên kết nơ ron nhảy qua một lớp.
Hình 7.5 . Mạng nơ ron truyền thẳng và nhiều lớp
Hình 7.6. Mạng nơ ron hồi qui
Dễ dàng nhận thấy rằng các nơ ron trong cùng một lớp nhận đợc tín hiệu từ lớp trên cùng một lúc, do vậy về
nguyên tắc chúng có thể xử lý song song. Thông thờng, lớp nơ ron vào chỉ chịu trách nhiệm truyền đa tín hiệu vào,
không thực hiện một tính toán nào nên khi tính số lớp của mạng, ngời ta không tính lớp nào. Ví dụ, mạng nơ ron ở hình
7.15 có 2 lớp : một lớp ẩn và một lớp ra.
B. Hai cách nhìn về mạng nơ ron
Mạng nơ ron nh một công cụ tính toán:
Nhập môn xử lý ảnh số - ĐHBK Hà nội 175
Nơ ron vào
Nơ ron ra
Lớp vào
Lớp ẩn
Lớp ra
a) Mạng nơ ron nhiều lớp
b) Mạng nơ ron truyền thẳng
Chơng Bảy: nhận dạng ảnh

Giả sử mạng nơ ron NN có m nơ ron vào và n nơ ron ra, khi đó với mỗi véc tơ các tín hiệu vào X = (x
1
,...,x
m
), sau
quá trình tính toán tại các nơ ron ẩn, ta nhận đợc kết quả ra Y=(y
1
,...,y
n
). Theo nghĩa nào đó mạng nơ ron làm việc với t
cách một bảng tra, mà không cần biết dạng phụ thuộc hàm tờng minh giữa Y và X. Khi đó ta viết :
Y = Tinh( X, NN )
Cần lu ý thêm rằng các nơ ron trên cùng một lớp có thể tính toán đồng thời, do vậy độ phức tạp tính toán nói
chung sẽ phụ thuộc vào số lớp mạng.
Các thông số cấu trúc mạng nơ ron bao gồm:
+ Số tín hiệu vào , số tín hiệu ra.
+ Số lớp nơ ron.
+ Số nơ ron trên mỗi lớp ẩn.
+ Số lợng liên kết của mỗi nơ ron (liên kết đầy đủ, liên kết bộ phận và liên kết ngẫu nhiên).
+ Các trọng số liên kết nơ ron.
Mạng nơ ron nh một hệ thống thích nghi có khả năng học (huấn luyện) để tinh chỉnh các trọng số liên kết cũng
nh cấu trúc của mình sao cho phù hợp với các mẫu học (samples). Ngời ta phân biệt ba loại kỹ thuật học (i) học có quan
sát (supervised learning) hay còn gọi là học có thầy (ii) học không có giám sát (unsupervised learning) hay còn gọi là
học không có thầy và (iii) học tăng cờng. Trong học có giám sát, mạng đợc cung cấp một tập mẫu học {(X
s
,Y
s
)} theo
nghĩa X
s

là

các tín hiệu vào, thì kết quả ra đúng cuả hệ phải là Y
s
. ở mỗi lần học, vectơ tín hiệu vào X
s
đợc đa vào mạng,
sau đó so sánh sự sai khác giữa các kết quả ra đúng Y
s
với kết quả tính toán out
s
. Sai số này sẽ đợc dùng để hiệu chỉnh
lại các trọng số liên kết trong mạng. Quá trình cứ tiếp tục cho đến khi thoả mãn một tiêu chuẩn nào đó. Có hai cách sử
dụng tập mẫu học: hoặc dùng các mẫu lần lợt, hết mẫu này đến mẫu khác, hoặc sử dụng đồng thời tất cả các mẫu một
lúc. Các mạng với cơ chế học không giám sát đợc gọi là các mạng tự tổ chức. Các kỹ thuật học trong mạng nơ ron có thể
nhằm vào hiệu chỉnh các trọng số liên kết (gọi là học tham số) hoặc điều chỉnh, sửa đổi cấu trúc của mạng bao gồm số
lớp, số nơ ron, kiểu và trọng số các liên kết (gọi là học cấu trúc). Cả hai mục đích học này có thể thực hiện đồng thời
hoặc tách biệt.
Học tham số: Giả sử có k nơ ron trong mạng và mỗi nơ ron có đúng l liên kết vào với các nơ ron khác. Khi đó, ma trận
trọng số liên kết W sẽ có kích thớc kxl. Các thủ tục học tham số nhằm mục đích tìm kiếm ma trận W sao cho
Y
s
= Tinh ( X
s
, W ) đối với mọi mẫu học S = ( X
s
, Y
s
) (1)
Hình 7.7. Học tham số có giám sát

Học cấu trúc: Với học tham số ta giả định rằng mạng có một cấu trúc cố định. Việc học cấu trúc của mạng truyền
thẳng gắn với yêu cầu tìm ra số lớp của mạng L và số nơ ron trên mỗi lớp n
j
. Tuy nhiên, với các mạng hồi qui còn phải
xác định thêm các tham số ngỡng của các nơ ron trong mạng. Một cách tổng quát phải xác định bộ tham số P =
(L,n
1
,...,n
l
,
1
,...,
k
).
ở đây k = n
j
sao cho
Y
s
= Tinh (X
s
,P) đối với mọi mẫu học s=( X
s
, Y
s
) (2)
Nhập môn xử lý ảnh số - ĐHBK Hà nội 176
Mạng nơ ron N
Hiệu chỉnh W Sai số
X

s
out
s
Y
s
Chơng Bảy: nhận dạng ảnh
Về thực chất, việc điều chỉnh các vectơ tham số W trong (1) hay P trong (2) đều qui về bài toán tìm kiếm tối u
trong không gian tham số. Do vậy, có thể áp dụng các cơ chế tìm kiếm kinh điển theo gradient hay các giải thuật di
truyền, lập trình tiến hóa.
C. Khả năng tính toán và biểu diễn phụ thuộc dữ liệu của mạng nơ ron.
Mạng nơ ron truyền thẳng chỉ đơn thuần tính toán các tín hiệu ra dựa trên các tín hiệu vào và các trọng số liên
kết nơ ron đã xác định sẵn ở trong mạng. Do đó chúng không có trạng thái bên trong nào khác ngoài vectơ trọng số W.
Đối với mạng hồi qui, trạng thái trong của mạng đợc lu giữ tại các ngỡng của các nơ ron. Điều này có nghĩa là quá trình
tính toán trên mạng truyền thẳng có lớp lang hơn trong mạng qui hồi. Nói chung, các mạng qui hồi có thể không ổn
định, thậm chí rối loạn theo nghĩa, khi cho vectơ giá trị đầu vào X nào đó, mạng cần phải tính toán rất lâu, thậm chí có
thể bị lặp vô hạn trớc khi đa ra đợc kết quả mong muốn. Quá trình học của mạng qui hồi cũng phức tạp hơn rất nhiều.
Tuy vậy, các mạng qui hồi có thể cho phép mô phỏng các hệ thống tơng đối phức tạp trong thực tế.
D. Xác định cấu trúc mạng tối u.
Nh đã nói ở trên, lựa chọn sai cấu trúc mạng có thể dẫn tới hoạt động mạng trở nên
kém hiệu quả. Nếu ta chọn mạng quá nhỏ có thể chúng không biểu diễn đợc sự phụ thuộc dữ liệu mong muốn.
Nếu chọn mạng quá lớn để có thể nhớ đợc tất cả các mẫu học dới dạng bảng tra, nhng hoàn toàn không thể tổng quát
hóa đợc cho những tín hiệu vào cha biết trớc. Nói cách khác, cũng giống nh trong các mô hình thống kê, các mạng nơ
ron có thể đa tới tình trạng quá thừa tham số.
Bài toán xác định cấu trúc mạng tốt có thể xem nh bài toán tìm kiếm trong không gian tham số (xem phần học
cấu trúc và học tham số). Một cách làm là sử dụng giải thuật di truyền. Tuy vậy, không gian tham số có thể rất lớn và để
xác định một trạng thái W (hoặc P) trong không gian đòi hỏi phải huấn luyện mạng, do vậy rất tốn thời gian. Có thể áp
dụng t tởng tìm kiếm leo đồi (hill-climbing) nhằm sửa đổi một cách có lựa chọn, mang tính địa phơng cấu trúc mạng
hiện có. Có hai cách làm:
+ Hoặc bắt đầu với một mạng lớn, sau đó giảm nhỏ xuống
+ Hoặc bắt đầu với một mạng nhỏ, sau đó tăng dần lên.

Một kỹ thuật khác có thể áp dụng gọi là " Tổn thơng tối u" nhằm loại bỏ một số liên kết trọng số trong mạng dựa
trên cách tiếp cận lý thuyết thông tin. Đơn giản nhất là các liên kết có trọng số bằng 0. Quá trình cứ tiếp tục nh vậy.
Thực nghiệm chỉ ra rằng, kỹ thuật này có thể loại trừ tới 3/4 các liên kết, do đó nâng cao đáng kể hiệu quả của mạng.
Ngoài việc loại trừ các liên kết nơ ron thừa, ngời ta có thể vứt bỏ những nơ ron không đóng góp nhiều vào quá
trình thực hiện của mạng.
Giải thuật " Lợp ngói" là một biến thể của kỹ thuật tăng trởng mạng xuất phát từ cấu hình ban đầu tơng đối nhỏ.
ý tởng ở đây là xác định một cấu hình mạng cho phép tính đúng các mẫu học đã biết. Sau đó, mỗi khi thêm dần mẫu
học mới, mạng đợc phép thêm một số nơ ron cho phép đoán đúng kết quả học hiện tại và quá trình cứ tiếp tục nh vậy.
7.4.3. Các mạng nơ ron một lớp
7.4.3.1. Mạng Hopfield
Năm 1982 nhà vật lý ngời Mỹ J.J. Hopfield đã đề xuất mô hình mạng nơ ron một lớp NN cho phép tạo ánh xạ dữ
liệu từ tín hiệu vào sang tín hiệu ra theo kiểu tự kết hợp (auto - association) tức là nếu tín hiệu vào là X thuộc miền giá
trị D nào đó thì kết quả ra Y:
Y = Tinh(X,NN) cũng thuộc vào miền D đó.
Nhờ vậy, một vectơ tín hiệu vào X bị thiếu thông tin hoặc biến dạng có thể đợc phục hồi dạng nguyên bản của
mình.
Nhập môn xử lý ảnh số - ĐHBK Hà nội 177
Chơng Bảy: nhận dạng ảnh
Trong ứng dụng, mạng Hopfield đã mô phỏng đợc khả năng tự kết hợp (hồi tởng) của bộ não ngời, nhận ra ngời
quen sau khi nhận thấy những nét quen thuộc trên khuôn mặt. Ngoài ra, với một số cải biên mạng Hopfield còn đợc
dùng để giải quyết các bài toán tối u, bài toán xử lý dữ liệu trong điều khiển tự động.
A. Kiến trúc mạng
Mạng Hopfield có một lớp ra, với số nơ ron bằng số tín hiệu vào. Các liên kết nơ ron là đầy đủ.
Hình 7.8. Mạng Hopfield
Nếu có m tín hiệu vào thì ma trận trọng số W sẽ có kích cỡ mxm : W=(w
ij
) trong đó w
ij
là trọng số liên kết nơ
ron thứ j ở lớp vào sang nơ ron thứ i ở lớp ra (Các hàng tơng ứng với nơ ron ra, các cột tơng ứng với nơ ron vào).

Mạng nơ ron Hopfield yêu cầu các tín hiệu vào có giá trị lỡng cực -1 và 1. Trờng hợp đầu vào x nhị phân có thể
dùng hàm biến đổi x'=2x-1.
Hàm kích hoạt đợc dùng tại các nơ ron là hàm dấu.
B. Huấn luyện mạng
Mạng Hopfield HF học dựa trên nguyên tắc có giám sát. Giả sử có p mẫu học tơng ứng với các vectơ tín hiệu
vào X
s
, s=1,p. Mạng sẽ xác định bộ trọng số W sao cho
X
s
= Tinh ( X
s
, W) với mọi s=1,p (4)
Ta xây dựng ma trận trọng số W nh sau : W = (w
ij
) với
ở đây X
s
= (x
s1
,...,x
sm
).
Một cách trực quan, trọng số liên kết
ji
sẽ tăng thêm một lợng là 1 (tơng ứng với số hạng x
sj
.x
si
) nếu cả hai

thành phần thứ i và thứ j của mẫu học X
s
bằng nhau. Khi có mẫu học mới X
p+1
ta chỉ cần xét các thành phần thứ i và thứ
j của nó để cập nhật giá trị cho w
ji
(6). Có thể chứng minh đ ợc với ma trận W đợc xác
định nh trong (5), ta sẽ có đợc (4). Nói cách khác, mạng đã "học thuộc" các ví dụ mẫu {X
s
}.
C. Sử dụng mạng.
Giả sử đa vào mạng vectơ tín hiệu X.
Sử dụng mạng để tính đầu ra tơng ứng với tín hiệu vào X là quá trình lặp bao gồm các bớc:
1. Ban đầu , đặt X
(0)
= X . Gọi Y
(t)
là vectơ tín hiệu ra tơng ứng với một lần cho X
(t)
lan truyền trong mạng.
Y
(t)
= out
(t)
= Tinh ( HF, X
(t)
).
2.Nếu Y
(t)

X
(t)

thì tiếp tục bớc lặp với t=t+1 và X
(t+1)
= Y
(t)
= out
(t)
Nếu Y
(t)
= X
(t)

thì dừng và khi đó X
(t)
đợc coi là kết quả xử lý của mạng khi có tín hiệu vào X.
Điểm chú ý quan trọng là ma trận W không thay đổi trong quá trình sử dụng mạng.
Một vài tình huống nảy sinh
1) Mạng không hội tụ.
Nhập môn xử lý ảnh số - ĐHBK Hà nội 178

=
p
s
sisj
xx
1
Nếu i j
w

ji
=
0
Nếu i=j
(5)
Lớp vào
Lớp ra
( )

==

=
m
i
ijijj
xwsignNetsignout
1
(3)
Chơng Bảy: nhận dạng ảnh
2) Mạng hội tụ và X
(t)
= X
3) Mạng hội tụ và X
(t)
= X

s
với X
s
là mẫu nào đó đã học.
4) Mạng hội tụ với X
(t)
X
s
với mọi mẫu học X
s
5) Mạng hội tụ với X
(t)
nào đó nh trong 2) 3) 4) nhng là ảnh ngợc ( 1 thành -1, -1 thành 1).
6) Mạng có thể đa ra luân phiên một vài mẫu học (hoặc ảnh ngợc của chúng).
Trờng hợp 2) có nghĩa rằng vectơ X đã đợc đoán nhận đúng dựa trên mẫu học {X
s
} hay nói cách khác, X có thể
suy ra từ mẫu học.
Trờng hợp 3) chứng tỏ rằng mạng đã phục hồi dạng nguyên bản X
s
của X.
Trờng hợp 4) chỉ ra một vectơ mới, có thể xem là mẫu học và sẽ đợc dùng để cập nhật ma trận trọng số (xem
(6)).
D. Thử nghiệm mạng trong phục hồi ảnh
Xét bài toán phục hồi ảnh đen trắng kích cỡ 4 x 4. Nh vậy mỗi ảnh có 16 điểm ảnh. Ta thiết kế một mạng HF với
16 đầu vào và 16 nơ ron ra. Vectơ đầu vào của mạng nhận đợc từ ma trận ảnh, lấy từng dòng một, sau khi đã biến đổi
nhờ sử dụng hàm x'=2x-1.
Ban đầu ta có 4 mẫu

X

1
=(0,0,1,1,0,0,1,1,1,1,0,0,1,1,0,0) X
2
=(0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0)
X
3
=(1,1,1,1,0,0,0,1,0,0,0,1,1,1,1,1) X
4
=(1,0,0,0,1,0,0,0,1,0,0,0,1,1,1,1)
Hình 7.9. Mẫu học
X
1
0 0 1 1 0 0 1 1 1 1 0 0 1 1 0 0
X
1
' -1 -1 1 1 -1 -1 1 1 1 1 -1 -1 1 1 -1 -1

... ...
O O O O O O O O O O O O O O O O

Y1 -1 -1 1 1 -1 -1 1 1 1 1 -1 -1 1 1 -1 -1
Hình 7.10. Mạng Hopfield khôi phục ảnh.
Ma trận W đợc tính theo công thức (5) cho kết quả sau:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
0 2 0 0 2 0 -2 0 -2 -4 -2 0 0 2 4 4 1
2 0 2 2 0 2 0 2 -4 -2 0 2 -2 0 2 2 2
0 2 0 4 -2 0 2 4 -2 0 -2 0 0 2 0 0 3
Nhập môn xử lý ảnh số - ĐHBK Hà nội 179

Trích đoạn

Hình 7.26 Chữ P.

nhận dạng ảnh Pattern recognition

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về