Nhận dạng chữ viết tay hạn chế dựa trên mô hình mạng nơron kết hợp với thống kê ngữ cảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (39.43 MB, 103 trang )

Đ Ạ I H Ọ C Ọ Ư Ó C G IA H À N Ộ I

KHOA CỒNG NGHỆ

NGUYẺN THỊ THANH TÂN

NHẬN DẠNG CHỮ VIẾT TAY HẠN CHÉ
DựA TRÊN MÔ HÌNH MANG NƠRON
KÉT HỢP VỚI THÓNG KE n g ữ c ả n h

Chuyên ngành: Công nghệ thông tin
Mã số:
1.01.10

LUẬN V ĂN THẠC s ĩ

N g ư ờ i h ư ớ n g d ẫ n k h o a học:

PGS. TS. Ngô Quoc Tạo

Hà N ộ i - 2004

Nguyễn Thị Thanh Tân

Trang - 1 -

Luận văn thạc sĩ

MỤC LỤC
M Ở Đ Ầ U .............................................................................................................................................3

C H Ư Ơ N G 1 - T Ổ N G Q U A N VỀ N H Ậ N D Ạ N G C H Ữ D ự A T R Ê N M Ô H ÌN H
M Ạ N G N Ơ R O N ............ ...................................................... .......................................................... 8
1.1

T ổn g quan về mạng n ơ ro n ............................................................................................. 8
1.1.1

C ấu trúc của một n ơ r o n ........................................................................................8

1.1.2

Các phươ ng pháp huấn luyện m ột mạng n ơ r o n ......................................... 10

1.2

Qui trình chung của m ột hệ nhận d ạng c h ữ ..........................................................12

1.2.1

Phân lớp m ẫ u ...............................................................................................................12

1.2.2

N hận dạng văn b ả n .............................................................................................. 13

1.3

M ạn g M L P và ứng dụng trong nhận dạng c h ữ ................................................... 16

1.3.1

C ấu trúc một P e rc e p tro n ................................................................................... 16

1.3.2

K iến trúc m ạng nhiều lớp truyền thẳng (M L P )...........................................17

1.3.3

Q uá trình huấn luyện m ạng M L P ....................................................................18

1.3.4

Ưu, nhược điểm của m ạng M L P .................................................................... 26

1.4

K ết l u ậ n ................................................................................................. .........................27

C H Ư Ơ N G 2 - N H Ậ N D Ạ N G T Ừ D ự A T R Ê N M Ạ N G B Ố N L Ớ P CẢI TIẾ N K ẾT
H Ợ P VỚI T H Ố N G K Ê N G Ữ c ả n h '................................................................................... 28
2.1

M ạ n g nơron bốn lớp cải t i ế n ................................................................................... 30

2.1.1

Ki ến trúc m ạ n g ........................................................................................................... 31

2.1.2

T hu ật toán huấn luyện m ạ n g ............................................................................36

2.1.3

K h ả năng nhận dạng của m ạ n g .......................................................................40

2.2

B ộ thống kê ngữ c ả n h ................................................................................................ 41

2.2.1

C ác khái niệm sử dụng trong bộ thống k ê ..................................................... 41

2.2.2

C ác cấu trúc dữ liệu sử dụng trong quá trình thống k ê ..............................43

2.2.3

T h u ật toán kiểm tra m ức độ hợp lý của m ột kí tự trong một x â u ..........44

2.2.4

T h u ật toán lựa chọn m ột từ trong danh sách các từ ứng cử v i ê n ............. 45

2.3

Q uá trình nhận dạng t ừ ............................................................................................... 46

2.3.1

P h ư ơ n g pháp nhận d ạ n g .................................................................................... 46

2.3.2

C ấu trúc dữ liệu sử dụng trong quá trình nhận d ạ n g .................................47

2.3.3

Q u á trình xác định các vị trí cắt khác nhau trên ảnh đầu v à o ................. 50

MỞ ĐẢU

Nguyễn Thị Thanh Tản

2.3.4

Trang - 2 -

Luận văn thạc sĩ

Thuật toán nhận dạng từ ....................................................................................... 52

2.4

Đánh giá khả năng nhận dạng của mô h ìn h ............................................................60

2.5

Kết l u ậ n ............................................................................................................................ 60

C H Ư Ơ N G 3 - CÀI Đ Ậ T HỆ T H Ố N G N H Ậ N D Ạ N G C H Ữ V IẾ T T A Y H Ạ N C H Ế

.................................... .......... .......... .......... ...... ................. ......... 62
3.1

Qui trình hoạt động của hệ t h ố n g .............................................................................62

3.2

Q uá trình tiền xử lý........................................................................................................ 64

3.2.1

Tiền xử lý trước khi phân tích ảnh văn bản cần nhận d ạ n g .....................64

3.2.2

Tiền xử lý trước khi phân đoạn từ cần nhận d ạ n g ...................................... 70

3.2.3

Tiền xử lý trước khi nhận dạng kí t ự .............................................................. 74

3.3

Q uá trình phân vùng ả n h ............................................................................................ 74

3.3.1

Tách dòng văn b ả n ............................................................................................. 75

3.3.2

Tách t ừ ...................................................................................................................77

3.4

Q uá trình nhận d ạ n g .................................................................................................. 79

3.5

Quá trình hậu xử lý ..................................................................................................... 79

3.6

Kết l u ậ n ......................................................................................................................... 80

C H Ư Ơ N G 4 - T H Ử N G H IỆ M H Ệ T H Ố N G N H Ậ N D Ạ N G C H Ữ V IẾ T T A Y H Ạ N
C H Ế ..................................................... .......... ............................. ’................................................. 81
4.1

M ôi trường thử n g h i ệ m ............................................................................................ 81

4.2

D ữ liệu v à kết quả thử n g h i ệ m .................................................................................81

4.2.1

T hử nghiệm nhận dạng chữ số viết t a y ...........................................................81

4.2.2

T hử nghiệm nhận dạng chữ cái không dấu viết t a y ....................................83

4.2.3

T hử nghiệm nhận dạng từ n g u y ê n .................................................................84

K Ế T L U Ậ N ...................................................................................................................................... 86
T À I L IỆ U T H A M

K H Ả O .......................................................................................................... 91

P H Ụ L Ụ C A - G IA O D IỆN C Ủ A H Ệ N H Ậ N D Ạ N G .......................................................93
P H Ụ L Ụ C B - G IA O D IỆ N C Ủ A H Ệ N H Ậ N D Ạ N G ........................................................94

PHỤ LỤC c - GIAO DIỆN CỦA HỆ HỌC M ẠNG................................................... 96
P H Ụ L Ụ C D - M Ộ T SÔ K Ế T Q U Ả T H Ố N G K Ê ...............................................................98
P H Ụ L Ụ C E - D A N H M ỤC C Á C T H U Ậ T T O Á N .......................................................101
P H Ụ L Ụ C F - D A N H M ự c C Á C H ÌN H V Ẽ ................................................................. 102
P H Ụ L Ụ C F - D A N H M Ụ C C Á C B Ả N G B I Ế U ........................................................... 103

MỜ ĐÂU

Nũuvễi Thị Thanh Tân

Trang - 3 -

Luận vSn thạc sĩ

MỜĐẦU
Nhận dạng mẫu là một nơành khoa học mà vai trò của nó là phân lớp các đổi tượng
thành m ột số loại hoặc một số lớp riêng biệt [22], Tuỳ thuộc vào lĩnh vực ứng dụng,
các đối tượng có thể ở dạng ảnh, dạng tín hiệu sóng hoặc m ột kiểu dữ liệu bất kỳ
nào có mà cần phải phân lớp. N hững đối tượng này được gọi bàng m ột thuật ngữ
chung đó là “ m ẫ u ” (pattern). N hận dạng m ẫu đã được biết đến từ rất lâu, nhưng
trước n hững năm 1960 nó hầu như chi là kết quả nghiên cứu về mặt lý thuyết trong
lĩnh \ự c thống kê. Tuy nhiên, với sự phát triển không n s ừ n g của khoa học kỹ thuật
về phần cứng cũng như phần mềm, các yêu cầu về mặt ứng d ụ n g th ự c tế của lĩnh
vực nhạn dạng mẫu ngày càng tăng lên và hiện nay nhận dạng mẫu đã được sử dụng
trong rất nhiều lĩnh vực như y học, tự động hoá một số qui trình sản xuất công
nghiệp, d ự báo thời tiêt, dự báo cháy rừng,v.v. Ngoài ra nhận dạng mẫu còn là
thành p hần quan trọng trong hầu hết các hệ thống máy tính thông minh được xây
dựng để thực hiện việc ra quyết định.
C ù n 2 với sự phát triển của nhận dạn ẹ mầu, nhận dạng chữ đã và đang ngày càng trở
thành m ột ứng dụng không thể thiếu được trong đời sống xã hội của con người.
Nhận dạng chữ viết được ứng dụng để tự động hoá một số công việc văn phòng như
lưu t:ữ văn bản. phân loại thư tín,..., nhằm giảm bớt các công việc nhàm chán
nhưng đòi hỏi nhiều thời gian và công sức của con người.
Với tìm quan trọng của mình, nhận dạng chữ viết hiện đang là m ột lĩnh vực thu hút
được sự quan tâm, nghiên cứu của các nhà khoa học. Hiện nay, bài toán nhận dạng
chữ h đã giải quyết được gần như trọn vẹn, trên thế giới cũng như ở V iệt N am đã
có những sản phẩm có giá trị thực tế cao, có thể kể đến như: sản phẩm FineR eader
của hăng A B B Y Y có thể nhận dạng 20 thứ tiếng khác nhau, sản phẩm O m niPage

của hãng ScanSoft nhận dạng chữ tiếng Anh, sản p hẩm V n D O C R của V iện Công
nghệ Thông tin nhận dạng chữ Việt in,... Song, với bài toán nhận dạng chữ viết tay
thi v ắ i đề trở lên phức tạp hơn nhiều bởi những lý do sau đây:

MỜ Đ ÂU

NiỉU>ẻn I hi (hanh làn

•

ĩrang - 4 -

Luận văn thạc sĩ

Với chừ viết tay thì không thể có các khái niệm font chừ, kích cỡ chừ. C ác kí
tự tron? một văn bản chừ viết tay thườno có kích thước khác nhau. T hậm
chí, cùng một kí tự trono một văn bản do m ột người viết nhiều khi cũng có
độ rộng, hẹp, cao, thấp khác nhau,...

•

Với nhữnơ ns;ười viết khác nhau chữ viết có độ nghiêng khác nhau (chừ
n ghiêng nhiều/ít, chừ nơhiêng trái/phải..,).

•

Các kí tự của một từ trên ván bản chữ viết tay đôi với hầu hết người viết
tlurờno bị dính nhau vì vậy rất khó xác định đượ c phân cách giữa chúng.

•

Các văn bàn chừ viết tay còn có thể có trư ờ n g hợp dính dòng (d òn g dưới bị
dính hoặc chồng lên dòng trên).

C h ín h vì những khó khăn trên, có thể nói, cho đến thời diểm này vẫn ch ưa có được
m ộ t giải pháp nào đủ tốt để giải quyết được trọn vẹn bài toán nhận dạng chữ viết
tay. Hiện nay, trên thế e;iới cũng như ở V iệt N a m có m ộ t số nh óm nghiên cứu đã
đầu tư nhiều thời gian cho nhận dạng chữ viết tay và hiện đã thu được m ột sô kết
quả. Song, những kết quả này mới chỉ được áp dụng m ột cách hạn chế ở n hững lĩnh
vực hẹp, một số nhóm điển hình có thể kể đến như: nhóm nghiên cứu ở Đại Học
Q u ổ c Gia T P H C M đã cài đặt và thử nghiệm hệ thống nhận d ạng chữ số và chữ viết
tay rời rạc trên các phiếu xuất nhập cảnh [4], n h ó m nghiên cứu của Sim on và
O .B aret (L aorỉa/C N R S & EN PC, Paris) cài đặt m ột hệ th ố ng nhận d ạng c h ữ viết tay
tro n g lĩnh vực kiểm tra tài khoản ở ngân h àn g [16], nh ó m nghiên c ứ u của J.J.Hull,
T .k.H o, J.Favata, V .G ovindaraju và S.N .Srihari ở trung tâm nghiên cứu vê nhận
d ạ n g và phân tích văn bản của trư ờng Đại H ọc T ổ n g H ợp N e w Y ork đã cài đặt hệ
th ố n g chuyên nhận dạng các địa chỉ thư ở b ư u điện [17], nhóm nghiên cứu của
Fujisaki, H .S.M .B eigi, C .C.Tapert, M .U k e iso n và C .G .W o lf ở p h ò n g nghiên cứu
W atson IB M đã cài đặt hệ thống nhận dạng c h ữ viết tay hạn chế trực tuyến trên một
trạ m làm

v iệc

của IB M [21).

Như- vậy, việc tìm ra m ột lời giải khả thi cho bài toán nhận dạng chữ viết tay là một
vấn đề cấp thiết và rất p h ứ c tạp, hiện tại vẫn cần đầu tư nhiều thời gian và công sức

MỞ Đ ÂU

Nguyen Thị Thanh Tân

Trang - 5 -

Luận văn thạc sĩ

c u a con n s ư ờ i. T r o n c luận văn này, chúnG, tôi c ũ n g k h ô n g kỳ v ọ n g là giải q u y ế t

được chọn vẹn bài toán nhận dạng chừ viết tay m à chỉ hy vọng dóng góp thêm được
m ộ t phương pháp khả thi để giải quyết m ột lớp bài toán con trong lĩnh vực nhận
d ạn g chữ viết tay.
Bài toán đặt ra trons luận văn là “ n h ậ n d ạ n g c h ù ’ viết ta y h ạ n ch ế d ự a tr ê n mô
hình inạng noron kết họp vói th ố n g kê n gữ c ả n h ” , v ấ n đề “chữ viết tay hạn chế”
hay “ chữ viết tay có ràng buộc” trong luận văn được quan niệm như sau:
•

C hữ viết tay được xem xét là các chừ số và chữ cái tiếng A n h viết tay không
dấu.

•

K hoảng cách giữa các dòng chữ trong các văn bản đầu vào phải xác định
được (tức là giữa các d ò n s chừ phải có m ột kh oảng cách tư ơ ng đôi, không
được dính hay chồng lên nhau).

•

G iữa các từ trên một dòng chữ phải có m ột kh oảng cách nhất định (các từ

k hông được dính hay m óc nối vào nhau).

•

Các kí tự trên văn bản cần nhận dạng k h ôn g đ ượ c quá nghiêng.

Sở dĩ, chúng tôi lựa chọn m ạng nơron làm c ôn g cụ để thể hiện các thuật toán nhận
d ạng bởi lẽ m ô hình m ạng nơron được xây dự n g theo ngu yên tắc m ô p hỏ ng hoạt
đ ộn g bộ não của con người nên nó rất thích hợp với bài toán nhận d ạn g và so với
các c ô n g cụ khác thì m ạ n e nơron có nh ững ưu điểm vượt trội sau:
•

M ạn g nơron được coi như m ột bộ xấp xỉ vạn năng.

•

C ó khả năng học và thích nghi với các m ẫu mới.

•

C ó k hả năng tổng quát hoá: M ạn g có thể đưa ra n h ữ n g kết quả m ang tính
tông quát hoá.

•

C ó khả năng dung thứ lỗi: Có thể chấp nhận sai số tron g tập d ữ liệu đầu vào.

•

M ạn g có tốc độ tính toán cao dẫn đến tốc độ nhận dạng nhanh.

Trên cở sở đó, nội dung của luận văn tập trun g chủ y ể u vào m ột sô vân đê sau:
MỜ ĐẢU

Nii'UV’n Thị Thanh Tàn

Trang - 6 -

Luận văn thạc sĩ

•

Khảo sát cách tiếp cận nhận d ạ n s dựa trên m ô hình m ạng nơron.

•

Đánh giá khả năng nhận d ang c ũ n s như các ưu, nhược điểm của m a n e nhiều
lớp truyền thana. M LP (M ultilayer Perceptrons).

•

Đe xuất mô hình m ạng nơron bốn lớp cải tiến thích hợp cho nhận dạng các kí
tự viết tay.

•

Đe xuất một mô hình nhận dạng từ dira trên sự kết hợp giữa bộ nhận dạng kí
tự với m ột bộ thống kê nofr cảnh.

•

Xây d ự n g hệ thốne; nhận dạng chữ viết tay hạn chế.

Với các nội dung trên, cấu trúc của luận văn sẽ gồm n h ững phần chính sau đây:
C h u o n g I: T ô n g quan vê nhận dạn g c h ữ dựa trên mô hình m ạ n g noron
N ội dưng của chương này sẽ tập trung khảo sát cách tiếp cận nhận d ạn g dira trên mô
hình m ạng nơron thông qua mô hình m ạng nhiều lớp truyền thẳng M L P (M ultilayer
Perceptrons). T ừ đó đánh giá được các ưu, nhược điểm của m ạng M L P , đây cũng
chính là tiền đề cho quá trình xây d ự n g m ô hình nhận d ạng ở c h ư ơ n g sau.
C h ư ơ n g 2: Nhận dạn g từ dựa trên mô hình m ạn g no ro n bốn lóp cải tiến kết
họp vó i thống kê ngữ cảnh
C h ư ơ n g này tập trung vào việc xây d ựng mô hình hiệu quả để n h ận dạng chữ viết
tay hạn chế với những nội dung chính sau đây:
•

Sơ đồ tổng quan của mô hình nhận dạng từ đ ượ c đề xuất bời luận văn.

•

Q uá trình xây dựng m ạng nơron bổn lớp cải tiến.

•

Q uá trình xây dựng bộ thống kê.

•

Q uá trình xây nhận dạng từ.

•

Đ ánh giá khả năng nhận dạng của m ô hình

Chu o n g 3: Cài đặt hệ thống nhận dạ n g c h ữ viết tay hạn chế

Tran” - 7 -

N” U\en Thị Thanh Tân

Luận văn thạc sĩ

C h ư ơ n g này sẽ m ô tả một cách cụ thể hơn về qui trình nhận dạng chừ viết tay hạn
chế. Đ ồng thời, sẽ cụ thể hóa đến mức chi tiết nhất có thề việc ứng dụng m ô hình
nhận dạng đã được đề xuất ở chương 3 để nhận dạng chữ viết tay hạn chế.
C h ư ơ n g 4: T h ử nghiệm hệ thống nhận dạn g chữ viết tay hạn chế
C h ư ơ n g này sẽ m ô tả chi tiết quá trình thử nohiệm cũno như các kết quả thử nghiệm
của hệ thống với các tập dữ liệu khác nhau.
P hần kết luận
P hần này sẽ nêu lên các vấn đề đã giải quyết được, chưa giải quyết được v à hướng
phát triển trone tư ơ n g lai của luận văn.
C ác phần phụ lục A, B,

c

C ác phần phụ lục sẽ cung cấp các thông tin tham khảo có giá trị về các kết q u ả thực
n ghiệm của chương trình, các kí hiệu, từ khóa được sử dụng trong luận văn, các tài
liệu tham khảo,...

M Ở ĐÂU

Nguvcn T hị Thanh Tàn

Trans - 8

Luận vãn thạc sĩ

CHƯƠNG 1 - TỔNG QUAN VÈ NHẬN DẠNG CHỮ DỰA
TRÊN MÔ HÌNH MẠNG NƠRON
1.1 Tổng quan về mạng noron
1.1.1 Cấu trúc của một nơron
M ột nơron là m ột đơn vị xử lý thôn° tin và là thành phần cơ bản của m ột m ạ n s
nơron. c ấ u trúc của m ột nơron đươc mô tả trên Hình 1.1.
/v v ,

Hàm kích
hoạt

\

Các tín
hiệu vào

\

x2 o -

— @

—

..

f(.)

Hàm

XP c>- — Q

—

Đầu ra

tổng

Các trọng số
liên kết

Hình 1.1: c ấ u trúc của một noron
Trong đó:
(Xi, x 2,

Xp ): L à c á c tín h iệ u đầu v à o ( in p u t s i g n a l s ) c ủ a m ộ t n ơ r o n , c á c tín

hiệu này thường được đưa vào dưới dạng m ột vector p chiều.
(w kl, w k2,

w kp): Là tập các trọng số liên kết của nơron k với p đầu vào,

trọng số liên kết giữa tín hiệu vào thứ j với nơron k thường được kí hiệu là
w/ỳ. T hông thường, các trọng số liên kết của mỗi nơron được khởi tạo m ột

cách ngẫu nhiên ở thời điểm khởi tạo m ạng v à được cập nhật liên tục trong
quá trình học mạng.
Z : Là hàm tổng trên một nơron, dùng để tính tổng giá trị kích hoạt lên nơron
đó ( thường tính bang tổng của tích các đầu vảo với trọng số liên kêt của nó).

TỔNG QUAN VỀ N H Ậ N D ẠN G C HỮ D ự A TRÊN M Ô H ÌN H M ẠN G NƠRON

Trang - 9 -

Nixuyễn Thị Thanh Tân

•

Luận văn thạc sĩ

uk\ Là tông giá trị kích hoạt lên nơron thứ k (giá trị này là đầu ra của hàm

tổng).
•

bk- Là độ lệch của nơron thứ k, giá trị này được d ùng n h ư m ột thành phần

phân ngưỡng trên hàm kích hoạt.
•

f(.): Là một hàm kích hoạt (Activation function), hàm này được dùng để giới
hạn phạm vi đầu ra của mỗi nơron. G iá trị của h àm này th ư ờ n g được xác
định dựa trên hàm to n s và độ lệch đã cho. T h ô n g thường, p h ạm vi đâu ra của
mỗi nơron được giới hạn trong đoạn [0,1] hoặc [-1, 1], Các hàm kích hoạt có
thể là các hàm tuyến tính hoặc phi tuyến. V iệc lựa chọn h àm kích hoạt nào là
tuỳ thuộc vào từng bài toán . Một số hàm kích hoạt thườ ng sử dụng trong các
mô hình m ạng nơron được thể hiện trên Bảng 1-1.

•

yk‘. Là tín hiệu đâu ra của một nơron, m ôi nơron sẽ có tôi đa m ột đâu ra.

Với thuật ngữ toán học, cấu trúc của một nơron k, được m ô tả bàng cặp biểu thức
sau:
P
uk = x wkjxj

và

yk =f (uk - bk)
y
H àm Symm etrical

+1

H ard Lim it (hardlims)

ü~
-1

X

y
H àm tuyển tính

+1

L inear (purelin)

X

-1

T ỎNG Q U A N VÈ N H Ậ N D Ạ N G C H Ữ D ự A T R Ê N M Ô HÌNH M Ạ N G N Ơ R O N

Trail ü - 1 0 -

Nuuyễn I hi Thanh Tàn

I.uận vfln thạc sĩ

1.1.2 Các phương pháp huấn luyện một mạng nơron
Hai phư ơ ng pháp học máy phổ biến thường dược đề cập đến trong lĩnh vực trí tuệ
nhân tạo đó là: phương pháp học có thầy (còn gọi là học có giám sát - supervised
learning) và p h ư ơ n g pháp học không có thầy (học k hông có giám sát - unsupervised
learning). Việc lựa chọn kiểu học có thầy hay k h ông có thầy là tuỳ thuộc vào từng
bài toán cũng như từng vấn đề cần giải quyết. C ũng cần chú ý rằng m ồi m ạn g nơron
thường được kết hợp với m ột thủ tục học, mồi thủ tục học có đặc thù riêng và chúng
k hông thể hoán đổi được. N ói cách khác, c h ú n g ta kh ông thể sử dụn g m ột m ạng

nơron kiểu A B C để huấn luyện m ột m ạng kiểu X Y Z được và ngược lại.
1. P h u o n g p h á p học có th ầ y
P hư ơng pháp học có thầy là học để thực hiện m ộ t công việc nào đó dưới sự giám sát
của một thầy giáo. Với cách tiếp cận này, thuật toán huấn luyện m ạ n g th ư ờ n g được
cung cấp m ột tập m ẫu học dưới dạng: D = {(x,t) I (x,t) e [IRNX R K]}, trong đó:
X = ( X |, X 2 , . . . , X N)

là vector đặc trưng N chiều của m ẫu huấn luyện và t = (t|, t2,...,t«)

là vector mục tiêu K chiều tương ứng, nhiệm vụ của thuật toán là phải thiết lập
được m ột cách tính toán trên m ạng như thế nào đó để sao cho với m ỗi vector đặc

T ỎNG Q U A N VÈ N H Ặ N D Ạ N G C H Ữ D Ự A T R Ẽ N M Ô H ÌN H M Ạ N G N ơ RON

T rang - I I -

Nguyen Thị Thanh Tân

Luận văn thạc sĩ

tnrnu đâu vào thì sai sô ci ừ a giá trị đâu ra thực sự của m ạng và aiá trị m ục tiêu
tương ứng là nhỏ nhất.
Với bài toán nhận dạng, ta có thể nói: P h ư ơng pháp học có thầy là p h ư ơ n g pháp học
để phàn lớp trên tập m ẫu huân luyện đầu vào. T rong đó số lớp cần phân là biết
trước và thuật toán học mạno có nhiệm vụ phải xác định được các luật phân lớp sao
cho mỗi huấn luyện đầu vào sẽ được phân vào đúng lớp của nó. M ột số thuật toán
điển hình tro n ? p h ư ơ n g pháp học có thầy là: thuật toán L M S (L east M ean Square
error), thuật toán lan truyên ngược sai so (back propagation), ...
2. P h u o n g p h á p học k h ô n g có th ầ y

N gược lại với học có thầy, phư ơ ng pháp học k hông có thầy là học để thực hiện một
công việc m à không cần bất kỳ sự giám sát nào. Với cách tiếp cận nảy, tập mẫu
huấn luyện chỉ được cung cấp cho t h u ậ t toán dưới dạng: D = { ( X | , X2,...,X N) } , v ớ i
(Xi, X2,...,XN) là v e c t o r đ ặ c tr ư n g c ủ a m ẫ u h u ấ n l u y ệ n v à n h i ệ m v ụ c ủ a th u ậ t to á n

huấn luyện m ạng là phải phân chia tập d ữ liệu D thành các nhóm con, m ỗi nhóm
chứa m ột tập vector đầu vào có các đặc trưng giống nhau, việc phân nhóm này cho
phép tạo ra các lớp m ột cách tự động. Đe phân nhó m trên tập mẫu huấn đâu vào, ta
thường phải xây d ựng các tiêu chuẩn để đánh giá “ độ giống n h a u ” g iữ a các mẫu.
Với bài toán nhận dạng, ta có thể nói: P h ư ơ n g pháp học kh ông có thầy là ph ươ ng
pháp học để phân lớp tập mẫu huấn luyện đầu vào. T ro n g đó, số lớp cần phânlà
không biết trước và thuật toán học m ạn g có nhiệm vụ phải xây d ựng được các tiêu
chuẩn đánh giá “độ g iống n h au ” giữa các m ẫu sao cho các lớp m ẫu được tạo ra một
cách tự động là tương đương với các lớp m ẫu thực sự.
Trong thực tế, p h ư ơ ng pháp học có thầy được ứ ng dụng n hiều hơn p h ư ơ n g pháp
học không có thầy. K iểu huấn luyện k hông có thầy th ư ờ n g k h ô n g thích hợp với bài
toán phân lóp bởi vì rất khó để xây d ựng m ột p h ư ơ n g p h áp đảm bảo được chắc chắn
có sự tương ứng giữa các lớp được tạo ra m ột cách tự đ ộng với các lớp dữ liệu thực
sự, p h ư ơ n g pháp này thườ ng thích hợp hơn với các bài toán m ô hình hoá dữ liệu.

T Ô N G Q U A N V Ề N H Ậ N D Ạ N G C H Ử D ự A T R Ê N M Ô HÌ NH M Ạ N G N ơ RON

Trang - 1 2 -

Nuuyễn I 11! Thanh Tàn

Luận văn thạc sĩ

1.2 Qui trình chung của một hệ nhận dạng chữ

Qui trình ch u n " của m ột hệ thông, nhận dạng chữ th ư ờ n " gồm hai giai đoạn là: Phân
lớp mẫu và nhận d ạ n s văn bản.

1.2.1 Phân lớp mẫu
Phân lớp (sắp lớp) m ẫu là giai đoạn quyết định trong quá trình nhận dạng. Hai kiểu
phân lớp điển hình th ư ờ n g được sử dụng là: phân lớp có thầy (học có thầy) và phân
lớp khônR có thầy(học không có thầy). Các vấn đề thường được đặt ra tronơ bước
phân lớp là:
•

Độ c h ín h x ác: Độ tin tưởng của m ộ t luật phân lớp được thể bởi tỷ lệ phân
lớp đúne. N hìn chung, dộ chính xác đượ c đo bởi tập dữ liệu học và độ chính
xác được đo bởi tập dữ liệu thử nghiệm là khác nhau. Đây k h ôn g phải là một
điều bất thường, đặc biệt trong các ứng dụn g học m áy, đối với tập dữ liệu
học thì có thể đúng hoàn toàn, nhưng trên tập d ữ liệu thử ngh iệm có khi kết
quả lại rất tồi tệ. K hi nói đến độ chính xác của m ộ t thuật toán p hân lớp thì
thường là nói đến độ chính xác trên tập dữ liệu thử nghiệm . K inh nghiệm
thực tế cho thấy, độ chính xác của m ột thuật toán phân lớp phụ thuộc khá
nhiều vào tập dữ liệu học (cả về mặt số lượng lẫn chất lượng) nói m ột cách
khác là việc trích chọn đặc trưng của các m ẫu có ảnh h ư ở n g lớn tới độ chính
xác của quá trình phân lớp.

•

T ố c độ p h â n ló p : Đây là yếu tố đặc biệt quan trọng đối với các hệ thống có
tính thời gian thực, c h ẳ n s hạn n h ư nhận dạng chữ viết tay trực tuyên
(online), ...

•

T ín h dễ h iể u : Thuật toán phân lớp đơn giản, dễ cài đặt v à hiệu quả.

•

T h ò i g ian học: N h ấ t là trong m ột m ôi trư ờ n g th ư ờ n g xu yên thay đổi, cần
phải học m ột luật phân lóp m ột cách nhanh chó n g hoặc hiệu chỉnh m ột luật
đã có trong thời gian thực. Đe học nhanh, nhiều khi ta chỉ cần sử dụng m ột
số lượng nhỏ các m ẫu huấn luyện để thiết lập các luật phân lớp.

T Ổ N G Q U A N VÈ N H Ậ N D Ạ N G CHŨ' D ự A T R Ê N M Ỏ HÌNH M Ạ N G N Ơ R O N

I ran” - 1 3 -

Niiuvền Thị Thanh Tân

Luặn văn thạc sĩ

1.2.2 Nhận dạng văn bản
Các bước cần thực hiện trong giai đoạn này được thê hiện trên Hình 1.2 , bao gồm:
1. T h u n h ậ n v à lư u t r ữ ả n h : Đây là c ô n e đoạn đầu tiên tro n s m ột q u á trình nhận
d ạng ảnh. T rong m ột hệ thống nhận dạng, ảnh thư ờ n g đ ượ c thu nhận qua
scanner, sau đó được lưu trữ dưới các định dạng file (*.pcx, *.bm p, * -jpg, * tif,
* .gif, *.png, ...). N hìn chun» việc lựa chọn định dạng file lưu trữ sẽ tuỳ thuộc
vào các văn bản đầu vảo cần nhận dạng và các yêu cầu cụ thể của từng hệ
thống.
2. T iề n x ử lý ả n h : Đ ây lả cônơ đoạn sử dụna, các kỹ thuật xử lý ảnh để nâng cao
chất lượng ảnh đầu vào. Nhìn chung, chất lượng của ánh đầu vào sẽ ảnh hưởng
nhiều đến chất lượng nhận dạng. Vì vậy, tiền xử lý ảnh là m ột b ư ớ c không thể
thiếu được trong m ột hệ thống nhận dạng hay x ử lý ảnh. Các kỹ thuật thường

được sử dựng trong quá trình tiền xử lý là: Phân ngưỡng, căn chỉnh độ lêch
trang văn bản, lọc nhiễu, nối nét đứt trên ảnh, ....
3. P h â n đ o ạ n ả n h : đây là một trong nh ững công đoạn quan trọng n h ất trọng nhất
của quá trình nhận dạng và có ảnh h ư ở n g lớn đến kết quả nhận dạng. Hai cách
tiếp cận phổ biến được đề xuất trong quá trình phân đoạn ảnh là:
•

Cách tiếp cận trên xuống (top-down): T oàn bộ ảnh văn bản cần phân đoạn
được coi là m ộ t khối lớn, sau đó khối này đượ c phân thành các khối nhỏ hơn,
các khối nhỏ này lại tiếp tục được phân thành các khối nhỏ hơn nữa cho đến
khi thu được các kí tự hoặc không thể p h â n nhỏ hơn được nữa. N h ìn chung,
với cách tiếp cận này, phươ ng pháp thư ờ ng dùn g để phân đoạn ảnh là sử
dụng các biểu đồ tần suất ngang và dọc. Tuy nhiên, do biểu đồ tần suất bị
ảnh hưởng nhiều bởi độ nghiêng trang văn bản nên trước khi xử lý phân
đoạn, ta th ư ờ n g phải căn chỉnh độ lệch của trang văn bản.

T Ổ N G Q U A N VÈ N H Ậ N D Ạ N G CHŨ' D ự A T R Ê N M Ô HÌNH M Ạ N G N Ơ R O N

Trang - 14 -

Nüuven Thị Thanh Tàn

•

Luận văn thạc sĩ

C ách tiếp cận dưới lên (bottom -up): Q u á trinh phân đoạn bắt đẩu bằng việc
xác định n h ữ n s thành phần nhỏ nhất, sau đó gộp chúng lại thành nh ữ ns
thành phần lớn hơn, cho đến khi thu được tất cả các khối trong trang văn bản.

Hình 1.2: Qui trình chung của một hệ thống nhận dạng chữ
4. N h ậ n d ạ n g : Đ ây chính là thao tác gán nhãn cho đối tư ợ ng dựa trên n hững tri
thức đã học được, nói cách khác đây là thao tác tìm k iếm m ột lớp mẫu phù hợp
nhất với đối tượng đầu vào.
5. H ọc m ẫ u mói: D o tập mẫu huấn luyện k hông thể bao quát được toàn bộ các
mẫu trong thực tế nên trong quá trình nhận dạng có thể sẽ gặp những m ẫu mới

T Ó N G Q U AN VỀ N H Ậ N D Ạ N G CHŨ' D ự A T R Ê N MÔ HÌNH M Ạ N G N Ơ R O N

Niiz.ilvòn 'I hi Thanh Tân

Trang - 1 5 -

Luặn vSn thạc sĩ

mới m à hệ thống không thể nhộn dạng chính xác được. Khi đó việc học thêm
n h ữ ng mẫu này sẽ góp phần làm tăng chất lượng của hệ thống nhận dạng.
6. H ậ u x ử lý: Đ ây là một trong những công đoạn cuối cùng của quá trình nhận
dạnơ. Trong nhận dạng chữ, có thể hiểu hậu xử lý là bước ghép nối các kí tự đã
nhận dạng được thành các từ, các câu, các đoạn văn nhàm tái hiện lại văn bản
đồns; thời phát hiện ra các lỗi nhận dạng bằna; cách kiểm tra chính tả dựa trên
cấu trúc và ngữ nghĩa của câu, đoạn văn. Việc phát hiện ra các lỗi, các sai sót
trong nhận dạng ở bước này đã góp phần đáng kể vào việc nâng cao kết quả
nhận dạng. Đặc biệt đối với các ảnh văn bản đầu vào không tốt (chẳng hạn: Bản
in bị mờ, bị đứt nét do photo nhiều lần,...) hoặc các văn bản in chứa nhiêu thông
tin hồn họp (chẳng hạn: Trong văn bản có cả số lẫn chữ và các kí hiệu), điều này
rất dễ gây nhầm lẫn trong nhận dạng. T hậm chí có những trường hợp nhập
n hàng chỉ có thể giải quyết được bằng ngữ cảnh bàng cách phân tích ngữ cảnh

của câu, chẳng hạn như trường hợp nhập nhàng giữa từ “ 10” với số “ 10” .
7. Liru v ă n bản: Sau khi văn bản cần nhận dạng đã được tái tạo về dạng nguyên
bản sẽ được lưu lại ở các định dạng file được hệ thống hỗ trợ, chẳng hạn như file
dạng (.doc, .rtf, .xls, ...)■
Trong lý thuyết nhận dạng mẫu nói chung và nhận dạng chữ nói riêng có bốn cách
tiếp cận phổ biến thường được sử dụng là:
•

Cách tiếp cận nhận dạng dựa trên phân hoạch không gian.

•

Cách tiếp cận nhận dạng dựa trên kỹ thuật đối sánh mẫu

•

Cách tiếp cận nhận dạng dựa vào cấu trúc.

•

C ách tiếp cận nhận dạng dựa trên m ạng nơron.

Hiện nay, c á c h tiếp cận n h ậ n d ạ n g d ự a tr ê n m ô h ìn h m ạ n g n ơ r o n đang trở thành
một trong những hướng nghiên cứu chính và nó đã được ứng dụng rộng rãi không
chỉ trong lĩnh vực nhận dạne; chữ mà cả những lĩnh vực khác, chẳnghạn như: Điều
khiển thông tin, dự tính, dự báo, .... M ạng nơron có khả năng học từ kinh nghiệm

T Ỏ NG Q U A N VỀ N H Ậ N D ẠNG C H Ữ D ự A T RÊ N MÔ HÌNH M Ạ N G N ơ RON

'1'rnnụ. - 1 6 -

Niiiiycn I hi Thanh l ãn

Luận v;ìn thạc sĩ

hay từ một tập mẫu do vậy nó rất phù hợp với các bài toán đổi sánh, phân loại mẫu,
xấp xì hàm, tối ưu hoá. lượn2 tử hoá vcctor và phân hoạch không oian dừ liệu.
Trong sô các mô hình m ạne có thể ứng dụno trong nhận dạng thì m ô hình mạng
nhiều lớp truyền tlìẳns MLP (M ultilayer Perceptrons) với thuật toán huấn luyện lan
truyền ngược sai số là mô hình m ạng phổ biến nhất và được ứng d ụ n g nhiều nhất.
Phần sau đây, luận văn sẽ sẽ tập trung khảo sát khả năng nhận dạng của m ô hình
m ạng này m ột cách cụ thể và chi tiết hơn.

1.3 Mạng MLP và ứng dụng trong nhận dạng chữ
Mạna; M L P là m ô hình mạng phổ thường được sử dụng tronR nhận dạng [9], [19],
[22], [29]. C ấu trúc mạng M LP là sự kết hợp của nhiều lớp nơron (ít nhất lả hai
lớp), trong đó mỗi lớp nơron được tạo thành từ nhiều Perceptron và sự liên kết giữa
các lớp nơron là liên kết đầy đủ.
v ề lý thuyết, người ta đã chứng minh được rằng chì cần sử dụng m ạng nơron hai
lớp truyền thẳng (gồm một lớp ẩn và m ột lớp ra) là đủ để giải quyết các bài toán
phân lớp trên tập dữ liệu đầu vào không khả tách tuyên tính bằng cách huân luyện
chúng theo cách có giám sát (có thầy) với m ột thuật toán học khá p hổ biến là thuật
toán lan truyền ngược sai số.

1.3.1 Cấu trúc một Perceptron
Perceptron là m ột cấu trúc m ạng nơron đơn giản nhất, chỉ gồm 1 nơron với các liên
kết có khả n ăn g thay đổi trọng số và m ột hàm kích hoạt nh ư đã mô tả trên Hình 1.3.
X

Các đầu
vào

X2.
Đầu ra

X

Hình 1.3: c ấ u trúc một Perceptron
T Ổ NG Q UAN VÊ N H Ậ N DẠNG C H Ữ DỤ A T R Ê N MỒ HÌNH MẠNG N Ơ R O N

Nuuyễn Thị Thanh Tàn

Trang - 1 7 -

Luận văn thạc sĩ

Trong đó:
■

[X|, X-),

■

W\, w 2,

-Y
p]: là vector đàu vào của m ạn".

vvp: là các trọne số liên kết của nơron trên lớp Perceptron với p

đầu vào.
■

b : là độ lệch của nưron trên lớp Perceptron.

■

v: là đầu ra của mạng, được xác định bởi:
p

j/ = / ( m ) € { - 1 , + 1}, với

u = Y JX,WI - b ,

1=1
H àm kích h o ạ t/ thường dùnơ ở đây là hàm tuyến tính (hardlim s - Bảng 1-1), với giá
trị hàm được xác định theo công thức y = hardlim(x) =

1

if X < 0

1

otherwise

D o cấu trúc đơn giản nên mỗi Perceptron chỉ có khả năng phân lớp được trên tập
m ẫu khả tách tuyến tính (các mẫu nằm trên hai mặt đối diện nhau của m ột siêu

phẳng) [19].

1.3.2 Kiến trúc mạng nhiều lớp truyền thẳng (MLP)
Hình 1.4 thể hiện mô hình m ạng ba lớp với hai lớp ẩn. Các liên kết trong m ạn g là
liên kết đầy đủ tức là m ột nơron trong một lớp bất kỳ của m ạng được liên kết với tât
cả các nơron ở lớp liền trước của nó. T ro ng đó, các tín hiệu lan truyền trên m ạng
gồm hai loại:
■

C ác tín hiệu đầu ra của mỗi nơron, các tín hiệu này thường được truyền
th ẳ n g (theo từng nơron) trong mạng.

*

Sai số trên các lớp của mạng. M ỗi tín hiệu sai số thư ờ ng xuất phát ở một
n ơron đầu ra của mạng, và được lan truyền ngược (theo từng lớp) ở trên
>ỹ'-

mạngỊtrungũm Tiiár. ■^
ri-

ri-îifv -:”nị

V - L O /m

T Ổ N G Q U AN VÈ N H Ậ N D Ạ N G C H Ữ D ự A T R Ê N M Ô HỈNH M Ạ N G N ơ RON

Trang - 1 8 -

Y'

r
/

<

Ị

--

r

Ỉ Ẵ
Xy

V

M
V 4.

V

V

-—►í
----- Vc----------4 \> ,. 7 V \

7

Pk-

Luận văn thạc sĩ

rẨ

Nỉiuvễn Thị Thanh Tàn

%
Lớp đầu

Lớp ân

Lớp ân

Lóp đầu

vào

thử nhất

t hứ hai

ra

Hình 1.4: Câu trúc mạng Perceptron ba lóp
Mỗi nơron ẩn hoặc nơron đầu ra của m ạng Perceptron được thiết kế để thực hiện hai
công đoạn tính toán cơ bản:
■ Tính giá trị đầu ra của mồi nơron. Việc tính đầu ra của mỗi nơron được thực
hiện bởi một hàm liên tục phi tuyến tính của các tín hiệu vào với các trọng số

liên kết tương ứng của chúng. Với m ạng Perceptron nhiều lớp thì đầu ra của
m ột lớp sẽ được lấy làm đầu vào của lớp liền sau nó.
■ T ín h sai số trên các lớp mạng. Các sai sô này sẽ được lan truyền ngược từ
lớp cuối cùng đến lớp đâu tiên của mạng.

1.3.3 Quá trình huấn luyện mạng MLP
N h ư đã đề cập ở phần trên, để huấn luyện m ạng Perceptron nhiều lớp người ta sử
dụng thuật toán lan truyền ngược sai số. Đây là một thuật học rất phổ biến trong các
p h ư ơ n g pháp học có thầy (supervised learning) [19], [22]. Tiêu chuẩn đánh giá của
thuật toán này là sai số bình phương tru n 2 bình (m ean square eưor).
V iệc huấn luyện m ạng M L P bởi thuật toán lan truyền ngược sai số bao gồm hai quá
trình: Q u á trình truyền thẳng và quá trình truyền ngược. Trong quá trình truyền
thẳng, các vector đầu vào sẽ được cung cấp cho các nơron của m ạng và tín hiệu sẽ
được lan truyền lần lượt trên từng lớp mạng. Cuối cùng ta sẽ tính được m ột tập các
đâu ra thực sự của mạng. Trong suốt quá trình truyền thẳng, tất cả các trọng số liên

T Ố N G Q U AN VỀ N H Ặ N D Ạ NG C H Ữ DỤ A T RÊ N MÔ HÌNH M Ạ N G N ƠRO N

Tr a n e - 1 9 -

Nííuvễn Thị Thanh Tân

Luặn vfln thạc sĩ

kết của m ạng đều cố định. N s ư ợ c lại, tro n s quá trình truyền ngược, tất cả các trọng
số liên kết đó sẽ dược hiệu chỉnh theo các luật hiệu chỉnh trọng số. Sai số của m ạng
sẽ dược đo b ằ n g độ sai lệch giữa dầu ra thu được với các giá trị mục tiêu tư ơ ng ứng.
Các sai số này sau đó sẽ được lan truyền ngược lần lượt trên các lớp m ạng (từ lóp
cuối cùng đến lớp đầu tiên). Các trọng số liên kết sẽ được hiệu chỉnh sao cho các

đầu ra thực sự của m ạn g càng gân với các RÍá trị m ục tiêu càng tôt.

F o rw a rd p r o p a g a tio n
phase
x0

Hj! w 1,

b 1, n 1,

-1

H,: w 2,

b \ rr
V2

-I
I

O : w -\ b \ n 3

y
f

A.

„3

f3

•v l

p

r Z

01

f* I °>.

4

lỊ
f <

I
B a c k - p r o p a g a tio n

T ▼▼
f '1

ph ase

f3

f ▼
f '2

0

q,

f3

▼ T ▼

T

rí

(

T

i

_____ 4 _0 —

X •

7 '

Y

Ạ

>!

. Ị

T

T
X-

y

'—

(

/
►

T

\

— ,

►
/

I
T

Ỵ

\ .'

'\

'

T

~?2

4

I

-

‘
J

Ằ

- —•

V

T

▼▼

r

T

T

>

f

Hình 1.5: Mô hình mạng MLP vói thuật toán huân luyện lan truyên ngược sai sô

T Ổ N G Q U A N VÈ N H Ặ N D Ạ N G C H Ữ D Ự A T R Ê N M Ô HÌ NH M Ạ N G N Ơ R O N

Níiuyen Thị Tlunh Tân

Trang - 20 -

Luận văn thạc sĩ

Quá trình huấn luyện một m ạng nơron ba lớp với thuật toán lan truyền ngược sai số
được mô tả m ột cách chi tiết trên Hình 1.5 . Phần phía trên của mô hình thể hiện
quá trình lan

truyền th ẳ n s các giá trị đầu ra của các lớp, còn

phần phía dưới thể

hiện quá trình

lan truyền ngược sai số từ lớp cuối cùng về lớp

đầu tiên của mạng.

Đây là mô hình m ạng thực tế có thể sử dụna; trong các chương trình nhận dạng.
N hữ n g kí hiệu sử dụng trên mô hình được qui định như sau:
■ / //, H 2, O: Lần lượt là kí hiệu của lớp ẩn thứ nhất, lớp ẩn thứ hai và lóp đầu
ra.
■ p, q: Lần lượt là số đầu vảo và số đầu ra của mạng.
■ L: Là số lớp của m ạ n e (ở đây L = 3).
" (x/, Xị ,

■

Xp): L à p đ ầu v à o c ủ a m ạ n g .

(o/, 02,

...,oq)\ L à ợ đ ầu ra c ủ a m ạn g .

■ (Ji, t2,tq): L à q giá trị m ục tiêu tư ơ ng ứ ng của vector đầu vào.
•

w‘: Là ma trận trọng số liên kết trên lớp th ứ i (i = 1->L).

■ b': Là độ lệch (ngưỡng phân lóp) của các nơron trên lớp thứ i (i = 1—»L).
■ d \ Là hệ sô học trên lớp thứ i của mạng.
■

v' : Là tổng giá trị kích hoạt lên nơron th ứ j của lớp i

■ ỳ : Là đầu ra của các nơron trên lớp thứ i (i = 1—»L), với i = L thì y ' = 0 , với

G=i->q)■ ỗ1: Là vector gradient của nơron ở lớp thứ i (i = 1-»L).
■ e: Là vector sai số của m ạ n g được thể hiện bởi các phần tử ei, e2,

e

q.

Các mâu huân luyện thườ ng được cung cấp cho thuật toán dưới dạng cặp vector:
{(x =

X p), ( t = t ] , . . . , t q) } , t r o n g đ ó X là v e c t o r đ ặ c t r ư n g p c h i ề u củ a m ẫ u c ầ n

T Ó N G Q U A N VÈ N H Ậ N D Ạ N G C H Ừ D ự A T R Ê N MÔ HÌNH MẠNG N ƠR O N

Nguvễn Thị Thanh Tàn

Trang - 21 -

nhận dạn s. các phần tử

.V / ..... xp

Luận văn thạc sĩ

th ư ờ n s có siá trị e [-1.1] hoặc e Ị0.11 và / là siá

trị mục tiêu tương ứng của mẫu dó.

Với mỗi mẫu đầu vào, thuật toán sẽ tiến hành hiệu chình các tham số m ạng để cực
tiểu h o á sai số bình p h ư ơ n s trung bình:
F( x) = E( e2) = E ( t - o ) 2

trong đó

X

là vector tạo bởi các trọng số liên kết và độ lệch của m ạng (x

W'
b'

N ếu m ạng có nhiều đầu ra thì :

F(x) = E(e2) = E[( t - o) r - ụ - o ) ]
T a sẽ xấp xỉ sai số bình phương trung bình bởi:
F ( x ) = ([ l (k) - o( k)] 1

o(k)]) = e' (k) ■e ( k ) , trong đó giá trị hiện thời của sai

số bình phương trung bình sẽ được thay thế bằng sai số bình ph ư ơ ng trung bình ở
lần lặp thứ k.
Thuật toán xuống dổc nhanh nhất để xấp xỉ sai số bình ph ư ơ n g là:

WÈm.(k + 1) = W"\ (k) - a m

õF

dF

b :\k + \)=b:'(k)-a"’ ^
õb,

(1.1)

(1.2)

Đối với m ạng nhiều lớp, sai số là hàm gián tiếp của các trọng sổ trong các lớp ẩn.
D o vậy để tính được các đạo h àm chúng ta phải sử dụng cách tính đạo hàm thành
phần như sau: giả sử chúng ta có m ột hàm f là hàm trực tiếp duy nhất của biến a.
C húng ta m uốn tính đạo hàm c ủ a / theo biến thứ ba w. Khi đó ta tính:
# 0 0 ) )

dw

= df(a) da(w)
da

dw

Ap dụng điều này để tính các đạo hàm trong các công thức (1.1) và (1.2), ta được:

T Ó N G Q U AN VỀ N H Ậ N D ẠNG CHŨ' DỤ A T R Ê N M Ô HÌNH M Ạ N G N Ơ R O N

Trang - 22 -

Niỉuyễn Thị Thanh Tân

ề"\ m

r = Ể m- êr\, ti)r
õ w ”j
ỡv, ỡvt',;y

Luận văn thạc sĩ

(1.4)
'
'

(1.5)
db";

d

v

56,”

Ta dễ dànu tính được vế thứ hai của các biểu thức trên do mạng đưa vào lớp th ứ m
là hàm trực tiếp của các trọnơ sổ và độ lệch tron» lớp đó.
n'" 1

m

V '

w

„ . /M-1

v- = 2 . 0 "

.

L /■

( 1.6)

+ố'

7= 1

Và

y- = / ' > ”)

(1.7)

Do vậy:
o ni

III

*■
aw"'.V

y

^ - 1

56,*

(1.8)

Với ổ"' đ ượ c định bởi:
A

s r= —

(1.9)

cu-;”

Khi đó ta có:
A

Õ F

A

= S " ’ y n' - \
/s I 7

^ z = S

m

Tm

/

x(1.10)

Bây giờ th uật toán xuống dốc nhanh nhất trở thành:
< ; ( * + l) = < , ( * ) - « < ? ; O'”"1) 7'
ồ;, (Ấ: + l) = ồ,m(Ả :)-a <5;'
Viết ở d ạn g m a trận ta được:
w “ (Ẳ + l) =

(£)-«"'< r ( /'- ') r

( 1. 12 )

b " \ k + \) = b m( k ) - a mô m

T Ó N G Q U AN VÊ N H Ậ N D Ạ N G C H Ữ D ự A T RÊ N MÔ HÌNH M Ạ N G N Ơ R O N

Trang - 23 -

Nguyễn Thị Thanh Tân

Luận văn thạc sĩ

ôF
dv”

ÕF
d v '"

A

Với

ÕF

ồ'" =

(1.13)

ổv*

ÕF
ôv'"„,

Đe tính ổ 1" ta sử dụng cách tính dạo hàm thành phần ở trên:
ÔF

Ổ’" =

õv"

(õ v ....Y ÕF
M+\
dv"1
õv

(1.14)

C'y" " 1 ,

'

,

,

T rong đó, giá trị của ——— được viêt dưới dạng ma trận Jacobin như sau:
dvn

ỡvt"'+l

ổv"'+l

õv

/H + l

õv I

ổv'

ỡv;

m+1

ổv"

õv?'

/»+1

dv

d v '" +'

m +1

õv'

dv"

dv

(1.15)

ôv n

ì+[ m+1
ỡv. m+1^ .nơV
w +|

ỡv”+‘.

,„ v

â v !"

õv

nì +1

Ởv"

Xét thành p h ần thứ (i,j) của m a trận, ta có:
nm

../» +1 m
w

,.l

>/

. 1)

ổ / m( 0
___ i - i — = w m+l
= < ;■ ——
= w,m
a ,,®
i j +l
dv"
Õvm
‘J

/=1

ỡv;

,

ổv"

.

f " ' ( v n' )

(1.16)

J

Ỡ /K )

(1.17)

T Ố NG Q U A N VÈ N H Ậ N D Ạ NG C H Ữ D ự A T RÊ N MỒ HÌNH M Ạ N G N Ơ R O N

Niiuvễn Thị Thanh Tân

Trang - 24 -

Luận văn thạc sĩ

Do vậy ta viêt dược ma trộn Jacobian dưới dạm
rn+1

Đv

dv"

m \

/M +l r - 1'/;/ /

t

=w

(v )

(1.18)

/" '(v í" )
0
F

Với:

0.
/> * )■

(vm) =

(1.19)

0

0.

1

Với hàm kích hoạt / " ’ là hàm Log-Sigm oid, ta sẽ có: f ' " ( v " ' ) =

( 1.20)

1+ exp(-v,"' )
(v r; ) =

Khi đó:

(1 + exp(v'” ))2

=(1---------- !------ )(_------- 1------ ) = ( ! - / > ;
1 + exp(v("' ) 1 + exp(v;' )

(1.21)

Vậy:
A

ÕF

ổ'" =

dv"

fỡv",+1Y

ÔF

.....- = F

V ỡv'" y

Qv'"

(vm)(wm+l Ÿ

rl F

( 1.22)

= F'"1(vm)(w'"+[) TSn

dv

Với nhiều lớp lan truyền ngược lỗi, các lỗi sẽ được lan truyền ngược trên m ạn g từ
lớp cuối cùng đến lớp đầu tiên. Với m ạng có L lớp thì các lỗi sẽ được lan truyền
theo chiều mũi tên như sau: <5' —» ÔL~X

s 2- > s ' .

(1-23)

T ừ công thức (18) và (19), ta thấy để tính được ổ' (/ = 1—»L-1), ta phải tính được
ỏ' *] . N h ư vậy, trước hết chúng ta phải tính được sai số ở lớp cuối cùng ( ổ 1' ).

XTu

t

♦

A~

'

si

N h ư trên ta đã có: ổ

Do

g l . M
õ v 1;

d v ;

_

d F

õ { t - o ) ‘ ( t- o )

= —— = —------— ------- =
õv
ỡv.

.

i=1
ôv‘;

= - 2 ( / , - 0, ) ^ -

(1.24)

Õv,

(1.25)
ÕVL

1

N ên ta có thể viết ố L = - 2 ( t - o ) f ' L(vL)

(1.26)

T Ỏ N G Q U A N VỀ N H Ặ N D ẠNG C H Ữ D ự A T R Ê N MÔ HÌNH M Ạ N G N ơ RON

Nhận dạng chữ viết tay hạn chế dựa trên mô hình mạng nơron kết hợp với thống kê ngữ cảnh

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về