Tải bản đầy đủ (.pdf) (90 trang)

Nhận dạng kí tự viết tay bằng mạng neuron

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.29 MB, 90 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-------------------------------------

NGUYỄN TƯ HOÀN

NHẬN DẠNG KÝ TỰ VIẾT TAY BẰNG MẠNG
NEURON

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – Năm 2010


Mục lục
Danh mục các kí hiệu viết tắt . . . . . . . . . . . . . . . . . . . . .

5

Danh mục hình vẽ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

Danh mục bảng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

MỞ ĐẦU

9


Chương 1. Tổng quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

1.1. Bài toán nhận dạng kí tự viết tay . . . . . . . . . . . . . . . . . . . . .

12

1.2. Các hướng nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

1.2.1. Nhận dạng online . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

1.2.2. Nhận dạng off-line . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

1.3. Mục đích, phạm vi, định hướng nghiên cứu . . . . . . . . . . . .

26

Chương 2. Mạng neuron nhân tạo . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

2.1. Cơ sở của mạng neuron nhân tạo . . . . . . . . . . . . . . . . . . . . . .


27

2.1.1. Mô hình neuron nhân tạo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2. Đặc trưng của mạng neuron nhân tạo . . . . . . . . . . . . . . . . .

1

27

32


2.3. Các mô hình kiến trúc cơ bản của mạng neuron nhân tạo . .
34
2.4. Phương pháp học và giải thuật học lan truyền ngược sai số .
37
2.4.1. Lý thuyết học và vấn đề nhận dạng mẫu . . . . . . . . . . . . . . . . . . . . . . .

37

2.4.2. Thuật toán học lan truyền ngược sai số . . . . . . . . . . . . . . . . . . . . . . . .

43

Chương 3. Nhận dạng kí tự viết tay bằng mạng neuron nhân chập
57
3.1. Mạng Neuron nhân chập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57


3.1.1. Mô hình mạng neuron nhân chập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

59

3.1.2. Huấn luyện mạng neuron nhân chập . . . . . . . . . . . . . . . . . . . . . . . . . . .

61

3.1.3. Lịch sử và ứng dụng của mạng neuron nhân chập . . . . . . . . . . . . . .

64

3.2. Kiến trúc mạng neuron nhân chập cho nhận dạng chữ viết
tay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.3. Các cải tiến . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

68

3.3.1. Mở rộng tập dữ liệu bằng biến dạng tập dữ liệu học . . . . . . . . . . .

68

3.3.2. Nhập các kí tự giống nhau vào cùng lớp. . . . . . . . . . . . . . . . . . . . . . . .

71

3.3.3. Huấn luyện không hoàn toàn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

72


3.4. Áp dụng trong hệ thống nhận dạng kí tự viết tay. . . . . .

73

Chương 4. Thiết kế, cài đặt và thực nghiệm . . . . . . . . . . . . . . . . . .

74

4.1. Phân tích thiết kế . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

74

4.1.1. Phân tích yêu cầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

74

4.1.2. Các khối của chương trình thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . .

75

4.2. Kịch bản thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1. Mô tả các cơ sở dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2

75
76



4.2.2. Kịch bản thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3. Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

80

4.3.1. Hiệu năng nhận dạng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

80

4.3.2. Thời gian tính toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

82

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

84

TÀI LIỆU THAM KHẢO

86

3


Lời cam đoan
Tôi – Nguyễn Tư Hoàn - cam kết luận văn tốt nghiệp là công trình nghiên
cứu của bản thân tôi dưới sự hướng dẫn của TS. Nguyễn Linh Giang. Các kết

quả nêu trong luận văn là trung thực, không phải là sao chép toàn văn của
bất kỳ công trình nào khác.

4


Danh mục các kí hiệu viết tắt

C-Cube: Cursive Character Challenge
CSDL: Cơ sở dữ liệu
MNIST: Modified National Institute of Standards and Technology
MLP: Multilayer-Perceptron
NEC: National Executive Committee
OCR: Optical Character Recognition
PDA: Personal Digital Assistant

5


Danh sách hình vẽ
1.1

Quy trình nhận dạng chữ viết tay online . . . . . . . . . . . . . . . 14

1.2

Các kiểu đầu vào của bước phân đoạn . . . . . . . . . . . . . . . . 14

1.3


Chuẩn hóa độ nghiêng . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.4

Một kiểu mã hóa đường xương của kí tự Arabic . . . . . . . . . . . 21

1.5

So khớp dùng từ điển (a) Kết quả phân đoạn (b) Đồ thị phân
đoạn tương ứng (c) Cây phân đoạn . . . . . . . . . . . . . . . . . . 26

2.1

Mô hình một neuron nhân tạo . . . . . . . . . . . . . . . . . . . . . 28

2.2

Mô hình phi tuyến của một neuron . . . . . . . . . . . . . . . . . . 29

2.3

Các loại hàm kích hoạt . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.4

Mạng tiến một mức . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.5

Mạng tiến đa mức với một tầng ẩn . . . . . . . . . . . . . . . . . . 36


2.6

Mạng hồi quy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.7

Quy tắc học hiệu chỉnh lỗi . . . . . . . . . . . . . . . . . . . . . . . 39

2.8

Mô hình học với một người dạy . . . . . . . . . . . . . . . . . . . . 40

2.9

Hướng đi của hai luồng tín hiệu cơ bản . . . . . . . . . . . . . . . . 43

2.10 Đồ thị luồng tín hiệu của một neuron đầu ra . . . . . . . . . . . . 45
2.11 Luồng tín hiệu của neuron ẩn j nối với neuron đầu ra k . . . . . . 47
2.12 Tác dụng của hằng số moment α . . . . . . . . . . . . . . . . . . . 50
6


3.1

Kiến trúc mạng neuron nhân chập với 2 pha . . . . . . . . . . . . . 59

3.2

Ví dụ về tầng trích chọn đặc trưng F − Rabs − N − PA . Ảnh

đầu vào được đưa qua tầng lọc, sau đó điều chỉnh bằng hàm
abs(gi .tanh(.)), chuẩn hóa tương phản cục bộ trừ và chia, cuối
cùng là cộng gộp . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.3

Sự lan truyền ngược lỗi ở tầng lọc . . . . . . . . . . . . . . . . . . 63

3.4

Sự lan truyền ngược lỗi ở tầng gộp đặc trưng . . . . . . . . . . . . 63

3.5

Kiến trúc mạng neuron nhân chập dùng cho nhận dạng kí tự . . . 67

3.6

Biến dạng Affine . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.7

Biến dạng đàn hồi với các tham số khác nhau. (Góc trên trái ảnh gốc) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.8

Độ giống nhau của từng cặp chữ cái in thường-in hoa . . . . . . . 71

3.9


Mạng neuron nhân chập trong hệ thống nhận dạng kí tự viết tay . 73

4.1

Phân cấp chức năng các chương trình huấn luyện nhận dạng
chữ viết tay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.2

Một số mẫu trong cơ sở dữ liệu MNIST . . . . . . . . . . . . . . . 76

4.3

Một số mẫu trong cơ sở dữ liệu C-Cube . . . . . . . . . . . . . . . 77

4.4

Kịch bản thực nghiệm với bộ dữ liệu chữ số MNist . . . . . . . . . 77

4.5

Lưu đồ các bước huấn luyện . . . . . . . . . . . . . . . . . . . . . . 78

4.6

Lưu đồ các bước kiểm thử . . . . . . . . . . . . . . . . . . . . . . . 78

4.7

Thực nghiệm với bộ dữ liệu C-Cube không phân biệt chữ hoa

thường . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.8

Thực nghiệm với bộ dữ liệu chữ hoa được tách từ bộ dữ liệu C-Cube79

4.9

Độ nhầm lẫn giữa các cặp kí tự . . . . . . . . . . . . . . . . . . . . 81

7


Danh sách bảng
4.1

Hiệu năng nhận dạng đối với các tập dữ liệu khác nhau . . . . . . 80

4.2

Hiệu năng nhận dạng khi không áp dụng các cải tiến . . . . . . . . 80

8


MỞ ĐẦU
1.

Lý do chọn đề tài
Trong những năm gần đây, “Trí tuệ nhân tạo” đã có những ứng dụng

đáng kể trong khoa học và đời sống dựa vào việc mô phỏng trí thông
minh của con người. Thực sự, nó đã trở nền tảng cho việc xây dựng
những hệ thống máy thông minh hiện đại. Từ đó, một lĩnh vực khoa
học mới ra đời: “Lý thuyết mạng neuron nhân tạo”. Tiếp thu những kết
quả nghiên cứu về thần kinh sinh học, mạng neuron nhân tạo thường
được xây dựng thành những cấu trúc mô phỏng trực tiếp tổ chức thần
kinh của bộ não con người.
Sau nhiều năm phát triển kể từ những nghiên cứu đầu tiên của McCulloch và Pitts trong những năm 40, cho đến ngày nay, khi khả năng phần
cứng và phần mềm đủ mạnh, “Lý thuyết mạng neuron nhân tạo” mới có
được sự chú ý đầy đủ và nhanh chóng trở thành một hướng nghiên cứu
đầy triển vọng trong việc xây dựng các máy thông minh tiến gần tới trí
tuệ con người. Những thành công gần đây trong việc ứng dụng mạng
neuron nhân tạo đã chứng sức mạnh của nó trong nhiều lĩnh vực khác
nhau.
Một trong những ứng dụng kinh điển của mạng neuron là lớp các bài
toán nhận dạng mẫu, trong đó, mẫu là tập hợp các tham số biểu thị
thuộc tính của một đối tượng nào đó. Với bản chất dễ thích nghi môi
trường và chấp nhận lỗi, mạng neuron đã thể hiện được ưu điểm mạnh
mẽ của mình trong việc nhận dạng mẫu. Vì thế, có thể coi mạng neuron
trước tiên là một công cụ để nhận dạng. Cho đến nay, đã có nhiều công
trình nghiên cứu cả lý thuyết và thực nghiệm đối với mạng neuron cho
mục đích nhận dạng và thu được nhiều thành công to lớn.
Qua quá trình nghiên cứu trong thời gian làm luận văn, tôi nhận thấy,
mạng neuron, đặc biệt là mạng neuron nhân chập - như sẽ được đề cập
kỹ trong phần nội dung - có khả năng nhận dạng rất tốt các mẫu có
dạng hình học phong phú. Vì vậy, tôi xác định, nhiệm vụ của luận văn là
nghiên cứu cài đặt thử nghiệm ứng dụng mạng neuron nhân chập phục
vụ cho việc nhận dạng các kí tự viết tay đồng thời thử nghiệm các cải
tiến để nâng cao hiệu năng nhận dạng của thuật toán.


2.

Lịch sử nghiên cứu
9


Trong hơn 30 năm trở lại đây, nhận dạng kí tự viết tay đã và đang là
vấn đề được nghiên cứu mạnh mẽ. Và trong những năm gần đây, các hệ
thống nhận dạng chữ viết tay đã đạt được những thành công lớn. Trong
số đó có thiết bị nhập cho những thiết bị hỗ trợ cá nhân như những
phần mềm chạy trên Palm OS [41]. Kiểu nhận dạng được sử dụng trong
các máy này là nhận dạng trực tuyến. Chúng không thể được sử dụng
trong các phần mềm xử lý tài liệu được scan từ giấy, do đó sự nhận
dạng chính xác văn bản in bằng tay vẫn là một vấn đề lớn đang được
bỏ ngỏ. Độ chính xác hiện thời của các hệ thống nhận dạng chữ viết tay
đạt được là trong khoảng 80-90% [41], nhưng độ chính xác này vẫn tạo
ra hàng tá lỗi mỗi trang, khiến cho các công nghệ đó chỉ hiệu quả trong
vài trường hợp cụ thể.
Trong các hướng tiếp cận học máy, quá trình học thường gồm hai pha:
trích chọn đặc trưng và huấn luyện [8]. Trong những nghiên cứu gần đây
đối với nhân dạng kí tự viết tay offline, có một số phương pháp trích chọn
đặc trưng thường dùng là [28, 29]: tính trọng số vùng (zoning), biểu đồ
chiếu (projection histogram), trích chọn chu tuyến (Contour profiles),
trích chọn đặc trưng Wavelet Harr. Những máy học thường dùng để
huấn luyện và nhận dạng là: máy vecter hỗ trợ (SVM) [11, 9, 29, 28],
NeuronGas [9], Learning Vector Quantization (LVQ) [33], MultiLayer
Neural Network [5].
3.

Mục đích nghiên cứu của luận văn, đối tượng, phạm

vi nghiên cứu
Từ lịch sử nghiên cứu ta thấy, bước trích chọn đặc trưng thông thường
được thực hiện theo kinh nghiệm và đôi khi cho kết quả không tối ưu.
Mạng neuron nhân chập, nhờ kiến trúc đặc biệt, có được một đặc tính
khá riêng biệt là trích chọn được các đặc tính hình học ở nhiều mức
ngay trong quá trình huấn luyện [37], và không bị phụ thuộc vào việc
trích chọn đặc trưng cứng ban đầu; do đó, nó trở nên rất thích hợp cho
việc nhận dạng những dạng hình học phức tạp như chữ viết tay.
Do đó, mục tiêu và phạm vi của luận văn là nghiên cứu, cài đặt chương
trình thử nghiệm ứng dụng mạng Neuron nhân chập cho việc nhận dạng
các kí tự viết tay, và nghiên cứu các giải pháp cải tiến để nâng cao hiệu
năng. Phạm vi mà luận văn tập trung nghiên cứu là nhận dạng các mẫu
kí tự viết tay đơn lẻ, off-line.

4.

Nội dung luận văn và các đóng góp mới của tác giả
Những điểm đạt được của luận văn là:
• Phương pháp nhận dạng kí tự viết tay bằng mạng neuron nhân
chập trước đây mới chỉ được thực nghiệm trên bộ dữ liệu chữ số.
10


Trong khuôn khổ luận văn này, phương pháp đó đã được nghiên
cứu và cài đặt thực nghiệm thành công trên một bộ dữ liệu chữ cái
viết tay và cho các kết quả khả quan.
• Ba cải tiến được nghiên cứu và áp dụng trong phần thực nghiệm
là: kỹ thuật mở rộng tập dữ liệu bằng biến dạng tập dữ liệu học,
nhập các kí tự giống nhau vào cùng lớp, huấn luyện không hoàn
toàn.

Những điểm đó được trình bày xuyên suốt 4 chương trong luận văn.
Chương 1. Giới thiệu Chương này mô tả bài toán, các hướng nghiên
cứu hiện thời và phạm vi, mục đích nghiên cứu nhận dạng các kí
tự viết tay.
Chương 2. Mạng neuron nhân tạo Chương này trình bày cơ sở lý
thuyết nền tảng, các thành phần kiến trúc cơ bản của mạng neuron,
giải thuật học lan truyền ngược sai số. Cơ sở lý thuyết của mạng
neuron nhân chập được trình bày sau khi đã có nền tảng về mạng
neuron nói chung. Giải thuật học lan truyền ngược sai số dùng
để huấn luyện mạng neuron nhân chập cũng được trình bày trong
chương này.
Chương 3. Nhận dạng kí tự viết tay bằng mạng neuron nhân chập
Chương này mô tả kiến trúc mạng neuron nhân chập áp dụng cho
bài toán nhận dạng các kí tự viết tay. Bên cạnh đó, các ý tưởng
cải tiến nhằm tăng hiệu năng cũng được đưa ra ở đây.
Chương 4. Thiết kế, cài đặt và thực nghiệm Chương này trình bày
thiết kế cài đặt thử nghiệm theo kiến trúc mạng đã được nêu
trong chương 3, đồng thời chương này cũng trình bày kịch bản
thực nghiệm, kết quả thu được và các đánh giá.
Luận văn được kết thúc tại phần kết luận, trong đó đánh giá toàn bộ
quá trình thực hiện, kết quả đạt được và đề xuất các hướng phát triển
cho luận văn.
5.

Phương pháp nghiên cứu
Phương pháp nghiên cứu được sử dụng trong luận văn là phương pháp
nghiên cứu khoa học thực nghiệm, trong đó, phương pháp nhận dạng
bằng mạng neuron nhân chập được nghiên cứu và các cải tiến cũng được
đưa ra. Những nghiên cứu đó được cài đặt thành chương trình trên môi
trường Visual Studio 2008.


11


Chương 1

Tổng quan
1.1.

Bài toán nhận dạng kí tự viết tay

Nhận dạng kí tự viết tay được bắt nguồn từ một bài toán lớn hơn là bài
toán về nhận dạng các kí tự quang học [41]. Nhận dạng ký tự quang học
(Optical Character Recognition: OCR), là bài toán chuyển các hình ảnh của
chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành
các văn bản tài liệu. OCR được hình thành từ một lĩnh vực nghiên cứu về
nhận dạng mẫu, trí tuệ nhận tạo và machine vision. Mặc dù công việc nghiên
cứu học thuật vẫn tiếp tục, một phần công việc của OCR đã chuyển sang ứng
dụng trong thực tế với các kỹ thuật đã được chứng minh.
Ứng dụng của bài toán nhận dạng kí tự viết tay rất đa dạng, từ nhận
dạng các văn bản từ thời trước vốn được soạn thảo bằng tay đến các dụng
cho tầm nhìn robot hiện đại. Một ứng dụng khác là nhận dạng các phiếu điểm
cũng đã được quan tâm nghiên cứu. Bên cạnh đó, việc các phần mềm cho
phép người dùng nhập liệu bằng chữ viết tay cũng tạo ra một sự thuận tiện
đáng kể trong việc tăng tốc nhập liệu, và do đó, tăng tính thân thiện của các
phần mềm. Hơn nữa, khả năng nhận dạng kí tự viết tay cũng làm tăng sức
mạnh của các hệ thống tìm kiếm.
Đối với bài toán nhận dạng kí tự quang học, sự nhận dạng chính xác ký
tự Latin đánh máy được xem như là vấn đề đã được giải quyết với tỷ lệ chính
xác thực tế đạt tới 99% [41], mặc dù một số ứng dụng đòi hỏi tỷ lệ chính xác

cao hơn nữa cần phải có con người kiểm tra lại lỗi. Tuy nhiên, nhận dạng chữ
viết tay vẫn là một vấn đề thách thức lớn đối với các nhà nghiên cứu vì nó
12


phụ thuộc nhiều vào người viết, cảm xúc hiện thời của họ và sự giống nhau
vốn dĩ của các kí tự. Do đó, đây vẫn là một lĩnh vực được nghiên cứu sôi nổi.
Một khó khăn nữa của bài toán nhận dạng là các bản lưu của các kí tự viết
tay có thể bị hư hại theo thời gian hoặc do nước, lửa hoặc chứa những mẫu
chính tả hiếm ngày này không còn dùng nữa. Nói chung, để có được một tỷ lệ
nhận dạng cao hơn của các bản viết tay là hầu như là không thể nếu không
sử dụng thêm thông tin về ngữ pháp và văn cảnh.
Dựa vào cách lấy mẫu các kí tự, bài toán nhận dạng kí tự viết tay có thể
có hai cách tiếp cận [40]: online (trực tuyến) và offline (ngoại tuyến) . Trong
hướng tiếp cận nhận dạng online, các kí tự được lấy mẫu trực tiếp để xử lý
và dữ liệu thu được chứa các thông tin về cách viết, độ tì, tốc độ viết, ... và
cả hình dạng của chữ để xử lý. Ngược lại, trong cách tiếp cận offline, người ta
chỉ có được thông tin về hình dạng của chữ thông qua bản đồ bitmap của nó.
Dựa vào số lượng các kí tự được nhận dạng cùng lúc, bài toán cũng được chia
ra làm hai loại [40]: nhận dạng các kí tự đơn lẻ và nhận dạng theo cả xâu kí
tự dài. Trong phần tiếp theo, ta sẽ đề cập các hướng nghiên cứu đối với các
cách tiếp cận này.
Trong khuôn khổ luận văn thạc sĩ, bài toán được đặt ra là: nhận dạng các
kí tự đơn lẻ, offline. Một ràng buộc khác cũng được giả định là: các mẫu phục
vụ cho việc huấn luyện và nhận dạng là không chịu nhiễu quá nhiều.

1.2.

Các hướng nghiên cứu


Phần này sẽ đề cập đến các hướng nghiên cứu theo các hướng tiếp cận
online và offline dựa chủ yếu trên các tài liệu [25, 14]; tuy nhiên, vì mục đích
của luận văn, chúng ta sẽ đề cập kỹ hơn đến các hướng nghiên cứu cho phương
pháp tiếp cận offline.

1.2.1.

Nhận dạng online

Trong một hệ thống nhận dạng chữ viết tay online, chuyển động của đầu
bút được lấy mẫu tại các thời điểm cách nhau những khoảng thời gian bằng
nhau bằng một bút điện tử, và tín hiệu được đó được xem như đầu vào của
thuật toán nhận dạng. Hình 1.1 chỉ ra quy trình chung của các thuật toán
nhận dạng chữ viết tay online.
Trong hầu hết các hệ thống nhận dạng, các tín hiệu đều trải qua một
quá trình lọc, sau đó được chuẩn hóa với một kích thước tiêu chuẩn, và tham
13


Hình 1.1: Quy trình nhận dạng chữ viết tay online

số độ nghiêng được chỉnh sửa. Sau khi chuẩn hóa, tín hiệu được phân đoạn
thành các đơn vị cơ bản; các đơn vị đó được nhận dạng và gán nhãn. Bằng
cách sử dụng một thuật toán tìm kiếm trong bối cảnh mô hình ngôn ngữ, ta
có thể thu được những kết quả thích hợp nhất.
Nhiệm vụ của pha tiền xử lý là làm trơn đường nét; ở bước này ta thường
sử dụng một bộ lọc thông thấp ở những vị trí thích hợp để giữ lại được các
góc cạnh cần thiết của chữ. Tiếp đó, tín hiệu được chuẩn hóa kích thước và
sửa độ nghiêng.
Nhiệm vụ của pha phân đoạn là chia tín hiệu thành các đoạn ứng với các

kí tự. Có 5 kiểu đầu vào của bước phân đoạn như hình 1.2. Trường hợp đơn
giản nhất là khi người viết được yêu cầu viết vào trong những ô kẻ sẵn; trường
hợp phức tạp và khó khăn nhất là khi các chữ được viết không có ràng buộc
nào cả.

Hình 1.2: Các kiểu đầu vào của bước phân đoạn

Pha tiếp theo là pha trích chọn đặc trưng. Các đặc trưng thường được
14


sử dụng bởi các nhà nghiên cứu là: tọa độ của các điểm, độ nghiêng của tiếp
tuyến tại mỗi điểm và thỉnh thoảng có sử dụng cả độ cong tại các điểm đó.
Sau khi các đặc trưng được trích chọn cho các phân đoạn, chúng được gán
nhãn bằng các kỹ thuật khác nhau. Các hệ thống dựa vào hành trình thường
gán nhãn mỗi hành trình bởi một danh sách các kí tự có thể. Mỗi kí tự có
thể này có một xác suất tương ứng với nó. Các kỹ thuật thường được sử dụng
trong giai đoạn này là: các mô hình khớp mẫu, các mô hình thống kê (chẳng
hạn HMM : mô hình Markov ẩn) và các mô hình phi tuyến (chẳng hạn các
mô hình mạng Neuron nhân tạo).
Khi đã có được danh sách các kí tự có thể của các mẫu dữ liệu phân đoạn,
ta cần sử dụng một kỹ thuật tìm kiếm để tìm ra được đường dẫn tốt nhất
trong các khả năng của các kí tự. Sự tìm kiếm này có thể được thực hiện bằng
một số mô hình dự đoán ngôn ngữ ở mức từ hoặc mức câu, trong đó mức từ
được sử dụng nhiều nhất và có thể sử dụng thêm một số ràng buộc về ngữ
pháp.

1.2.2.

Nhận dạng off-line


Quá trình nhận dạng off-line nói chung có 5 giai đoạn như sau, mặc dù
trong một số phương pháp, một số pha có thể bị ghép lại hoặc bỏ qua, hoặc
trong một số phương pháp khác, cơ cấu phản hồi được sử dụng để cập nhật
đầu ra tại mỗi pha.
1. Tiền xử lý
2. Phân đoạn
3. Biểu diễn
4. Huấn luyện và nhận dạng
5. Hậu xử lý
1.2.2.1.

Tiền xử lý

Dữ liệu thô, tùy vào các kiểu thu nhận, sẽ được đưa tới một số bước tiền
xử lý thích hợp để làm cho nó khả dụng cho bước tiếp theo - phân tích kí tự.
Mục đích của bước tiền xử lý là: giảm nhiễu, chuẩn hóa, giảm bớt khối lượng
dữ liệu. Các kỹ thuật dùng để đạt được những mục tiêu đó được miêu tả như
sau.
15


1. Giảm nhiễu
Nhiễu, có nguồn gốc từ các thiết bị quét quang học, có thể gây ra sự
đứt gãy các đoạn, lỗ hổng giữa các đường nét hoặc các chu trình kín,
. . . Một số vấn đề khác cũng có thể xảy ra như: biến dạng, bao gồm các
biến dạng địa phương, tròn góc, giãn nở hoặc xói mòn. Do đó, trước khi
thực hiện nhận dạng, những nhiễu loại này cần phải được loại bỏ. Có
rất nhiều các kỹ thuật được đưa ra, tuy nhiên chúng có thể chia làm 3
loại:

a) Lọc Quá trình này nhắm vào việc loại bỏ nhiễu và các điểm giả tạo
nên bởi các mặt lấy mẫu không đồng đều hoặc tần số lấy mẫu thấp.
Quá trình lọc thường được thực hiện bằng các bộ lọc trong miền
tần số mà thông thường ý tưởng cơ bản của nó là nhân chập đầu
vào với một mặt nạ. Các bộ lọc có thể được thiết kế để thực hiện
các nhiệm vụ: làm trơn, làm sắc nét, loại bỏ nền, thay đổi độ tương
phản.
b) Các thao tác hình học(Morphological Operation) Ý tưởng cơ
bản của các thao tác hình học là thay thế các thao tác nhân chập
bằng các thao tác logic. Các thao tác này có thể được thiết kế để
nối liền các nét bị đứt, tách các nét bị dính liền, làm trơn đường
chu tuyến, loại bỏ các điểm thừa, làm mảnh kí tự, tách các đường
biên.
c) Mô hình hóa nhiễu Nhiễu có thể được loại bỏ nhờ một số kỹ
thuật căn chỉnh nếu có một mô hình cho nó. Tuy nhiên, việc mô
hình hóa lỗi trong hầu hết các ứng dụng là không thể. Trong một
số trường hợp, việc mô hình hóa có thể thực hiện bằng việc biến
dạng quang học chẳng hạn: ví dụ làm nghiêng, làm mờ, tạo đốm.
2. Chuẩn hóa
Mục đích của quá trình chuẩn hóa là loại bỏ những biến thiên trong chữ
viết để thu được dữ liệu chuẩn. Các phương pháp cơ bản để chuẩn hóa
dữ liệu gồm có:
a) Chuẩn hóa độ lệch và tách đường cơ sở Trong quá trình quét
ảnh, cũng như trong quá trình viết, các chữ có thể bị nghiêng hoặc
bị cong. Điều này làm giảm độ chính xác của quá trình nhận dạng.
Hơn nữa, các chữ cái khác nhau cần phải được phân biệt dựa vào
vị trí tương đối so với đường cơ sở (ví dụ ‘9’ và ‘g’). Các phương
pháp để tách đường cơ sở gồm có: sử dụng đặc tính chiếu của ảnh,
một dạng của phân cụm láng giềng gần nhất, sử dụng tương quan
chéo giữa các đường và sử dụng biến đổi Hough.

16


b) Chuẩn hóa độ nghiêng Một trong những yếu tố có thể đo được
của các kiểu chữ viết tay là góc nghiêng giữa đường ngang dài nhất
và trục thẳng đứng. Mục đích của quá trình chuẩn hóa độ nghiêng
là chuẩn hóa tất cả kí tự về dạng ngay ngắn. Phương pháp thường
dùng nhất để đánh giá độ nghiêng là tính toán góc trung bình của
tất cả các phần tử gần thẳng đứng (hình 1.3).

Hình 1.3: Chuẩn hóa độ nghiêng

c) Chuẩn hóa kích thước Mục đích của quá trình này là đưa kí tự về
kích thước chuẩn. Các phương pháp nhận dạng có thể áp dụng cả
chuẩn hóa theo cả hai phương dọc và ngang. Quá trình chuẩn hóa
cũng có thể được thực hiện như một phần trong pha huấn luyện,
và tham số kích thước được đánh giá độc lập đối với mỗi dữ liệu
huấn luyện.
d) Làm trơn đường chu tuyến Mục đích của quá trình này là loại
bỏ những chuyển động thất thường của tay trong quá trình viết.
Nói chung, quá trình này loại bỏ một số mẫu tín hiệu cần thiết để
biểu diễn kí tự, do đó là tăng hiệu quả trong những bước tiền xử
lý còn lại.
3. Nén dữ liệu
Các kỹ thuật nén dữ liệu thường chuyển ảnh từ miền không gian sang
một miền khác thích hợp cho việc nhận dạng. Các kỹ thuật nén dùng
cho nhận dạng kí tự đòi hỏi phải sử dụng các kỹ thuật trên miền không
gian để bảo tồn được các đặc tính hình dạng của kí tự. Hai kỹ thuật
nén phổ biến được sử dụng là: phân ngưỡng và làm mảnh.
a) Phân ngưỡng Để giảm khối lượng cần tính toán, tăng tốc độ xử

lý, thông thường ta cần chuyển đổi ảnh màu hoặc ảnh đa mức xám
thành ảnh nhị phân bằng cách phân ngưỡng. Có hai khái niệm
ngưỡng là: ngưỡng cục bộ và ngưỡng toàn cục. Ngưỡng toàn cục
được chọn cho toàn bộ ảnh và có thể có được nhờ các đánh giá
về histogram. Ngưỡng cục bộ (hay ngưỡng thích nghi) sử dụng các
ngưỡng khác nhau cho mỗi điểm dựa vào các thông tin cục bộ.
b) Làm mảnh Các kỹ thuật làm mảnh giảm một khối lượng thông tin
khổng lồ trong kích thước dữ liệu; hơn nữa, nó còn tách được các
17


thông tin hình dạng của các kí tự. Làm mảnh còn có thể xem là
một kỹ thuật chuyển đổi dữ liệu kí tự off-line sang hầu hết các
dạng dữ liệu online. Có hai phương pháp tiếp cận làm mảnh là:
chọn lọc dựa trên điểm (pixel wise), và chọn lọc phi điểm (nonpixel
wise). Phương pháp chọn lọc dựa trên điểm là một phương pháp
làm mảnh lặp cho đến khi nào ảnh chỉ còn lại những đường xương.
Trái lại, phương pháp phi điểm sử dụng những thông tin toàn cục
về kí tự trong suốt quá trình làm mảnh. Chúng sinh ra các trung
bình hoặc các đường chính giữa trực tiếp mà không cần đến các
điểm ảnh riêng biệt nào.
Các kỹ thuật tiền xử lý trên đây đã được khảo sát khá kỹ và được áp
dụng trong nhiều lĩnh vực xử lý ảnh bên cạnh lĩnh vực nhận dạng chữ
viết tay. Cũng cần chú ý rằng, các kỹ thuật đó cũng có thể sinh ra
những biến dạng không mong muốn cho ảnh đầu vào. Kết quả là những
kỹ thuật này có thể làm mất những thông tin quan trọng trong chữ viết.
Do đó, chúng ta cần sử dụng những kỹ thuật này cẩn thận.
1.2.2.2.

Phân đoạn


Nhiệm vụ của pha phân đoạn này là chia tài liệu thành những phần con.
Đây cũng là một pha quan trọng vì nó sẽ ảnh hưởng trực tiếp đến hiệu năng
nhận dạng cả văn bản. Có hai kiểu phân đoạn là: phân đoạn ngoài và phân
đoạn trong. Phân đoạn ngoài làm nhiệm vụ phân biệt các đơn vị văn bản và
phi văn bản, phân đoạn các đơn vị văn bản lớn như đoạn văn, câu văn, hoặc
từ; phân đoạn trong làm nhiệm vụ tách các chữ cái trong một từ.
1. Phân đoạn ngoài: Đây có thể coi là giai đoạn then chốt nhất trong
việc phân tích tài liệu - một bước cần thiết trước khi thực hiện nhận
dạng off-line. Mặc dù nhận dạng tài liệu là một lĩnh vực nghiên cứu
tương đối khác về phương pháp và kỹ thuật, phân chia tài liệu thành
các vùng văn bản và vùng phi văn bản vẫn là một lĩnh vực trong các
phần mềm OCR. Do đó, những người làm việc trong lĩnh vực nhận dạng
chữ viết cũng cần có một cái nhìn tổng quan về các kỹ thuật phân tích
tài liệu.
Phân tích bố cục trang được thực hiện thông qua hai pha: Pha thứ nhất
là phân tích cấu trúc - liên quan đến việc phân chia văn bản thành các
khối con như đoạn văn, dòng, từ, . . . , và pha thứ hai là phân tích chức
năng - liên quan đến việc sử dụng các thông tin về vị trí, kích thước và
các luật trình bày khác để gán nhãn chức năng cho các thành phần của
văn bản (VD: tiêu đề, nội dung, tóm tắt . . . )
18


Có rất nhiều cách tiếp cận để phân loại các vùng đồng nhất của tài liệu
thành các vùng văn bản và phi văn bản [1, 26]: Jain và các đồng nghiệp
dùng bộ lọc Gabor và các mặt nạ nhân chập, Tang cùng các cộng sự
đã dựa trên dấu hiệu fractal, còn phương pháp Doermann sử dụng phân
tích wavelet multiscale. Có rất nhiều cách tiếp cận phân đoạn trang tập
trung vào việc xử lý các điểm nền hoặc sử dụng các điểm trắng trong

trang để nhận dạng các vùng đồng nhất.
2. Phân đoạn trong: Mặc dù đã có rất nhiều các phương pháp phát triển
đáng kể trong thập kỷ qua và có nhiều kỹ thuật đã nổi lên, nhưng việc
tách các kí tự ra khỏi một từ viết tay vẫn được xem là một vấn đề chưa
được giải quyết trọn vẹn. Các chiến lược phân đoạn kí tự có thể chia
làm ba loại:
a) Phân đoạn tường minh: Chiến lược này chia ảnh thành các thành
phần con dựa trên các thuộc tính kí tự.
b) Phân đoạn không tường minh: Quá trình phân đoạn này dựa
trên quá trình nhận dạng. Nó tìm các thành phần ảnh khớp được
với các lớp chữ cái đã định trước.
c) Các phương pháp kết hợp: Trong chiến lược này, một giải pháp
phân đoạn tường minh được áp dụng để có thể cắt ảnh ra đủ nhiều
phần sao cho các lát cắt đúng nằm trong số những lát cắt đã tạo
ra. Khi đã đảm bảo được điều này, các lát cắt tối ưu sẽ được tìm
kiếm bằng cách đánh giá các tập con các lát cắt.
1.2.2.3.

Biểu diễn

Biểu diễn ảnh đóng một vai trò quan trọng trong hệ thống nhận dạng.
Trong trường hợp đơn giản nhất, các ảnh đa mức xám hoặc các ảnh nhị phân
được đưa thẳng tới cho bộ nhận dạng. Tuy nhiên, trong hầu hết các hệ thống
nhận dạng, để tránh sự phức tạp không cần thiết và để tăng độ chính xác của
giải thuật, một biểu diễn tiêu biểu và cô đọng là cần thiết. Với mục đích này,
một tập các đặc trưng sẽ được trích chọn ứng với mỗi lớp giúp phân biệt nó
với các lớp khác nhưng vẫn giữ được tính bất biến trong các đặc tính của các
lớp đó. Các phương pháp biểu diễn ảnh nói chung được phân làm ba nhóm
lớn.
1. Biến đổi toàn cục và khai triển chuỗi: Các tín hiệu liên tục thường

chứa nhiều thông tin hơn những gì cần thiết cho việc nhận dạng và phân
loại. Điều này cũng đúng với các xấp xỉ rời rạc của các tín hiệu liên tục.
Một cách để biểu diễn các tín hiệu này là kết hợp tuyến tính một chuỗi
19


các hàm đơn giản. Hệ số của các hàm này sẽ cho một cách mã hóa cô
đọng của dữ liệu và được gọi là sự biến đổi hoặc khai triển chuỗi. Những
sự biến dạng như dịch, xoay là bất biến đối với các phép biến đổi toàn
cục này. Các phép đổi thường dùng trong nhận dạng kí tự bao gồm: biến
đổi Fourier, biến đổi Gabor, biến đổi Wavelet, biển đổi Moment và khai
triển Karhumen-Loeve.
2. Biểu diễn thống kê: Kỹ thuật biểu diễn này quan tâm đến sự biến
thiên trong đặc điểm của kí tự tại các vùng khác nhau. Mặc dù kiểu biểu
diễn này không cho phép xây dựng lại ảnh ban đầu, nhưng nó thường
được sử dụng để giảm số chiều của tập đặc trưng và làm cho độ phức
tạp tính toán giảm. Một số đặc trưng thống kê được sử dụng trong biểu
diễn kí tự bao gồm:
a) Trọng số vùng: Ô chứa kí tự được chia thành các vùng giao nhau
hoặc không giao nhau. Độ dày của các điểm ảnh hoặc các đặc trưng
khác nhau của các vùng khác nhau sẽ được dùng để biểu diễn ảnh.
b) Các điểm giao và khoảng cách: Một đặc trưng khá phổ biến
cũng được dùng là số các giao điểm của đường biên với các đường
thẳng dọc hoặc ngang hoặc theo một hướng xác định nào đó.
c) Đặc trưng chiếu: Các kí tự cũng có thể được biểu diễn bằng giá
trị mức xám khi chiếu lên các hướng khác nhau. Biểu diễn này tạo
tín hiệu 1 chiều từ ảnh 2 chiều.
3. Biểu diễn hình học và biểu diễn topo: Các kỹ thuật biểu diễn hình
học và biểu diễn topo có thể được phân loại thành các nhóm như sau:
a) Trích và đếm các cấu trúc Topology: Trong cách biểu diễn này,

một cấu trúc hình học cho trước được tìm kiếm trong một kí tự
hoặc một từ. Số lượng hoặc vị trí tương đối của những cấu trúc này
trong kí tự tạo ra biểu diễn của kí tự đó. Những cấu trúc nguyên
thủy là các đường mà chính chúng tạo nên các kí tự như: đường
thẳng, cung hoặc các thành phần phức tạp hơn như các đường
cong, các đường spline. Đây chính là các thành phần cơ bản để tạo
nên các kí tự Latin hoặc Arabic.
b) Đo đạc và xấp xỉ các thuộc tính hình học: Trong nhiều nghiên
cứu, các kí tự có thể được biểu diễn bằng các đặc tính như chiều
cao và chiều rộng của hình chữ nhật bao, khoảng cách giữa các cặp
điểm đặc biệt, khoảng cách tương đối giữa các đường, độ rộng của
đường, độ thay đổi độ cong . . . Các phương pháp xấp xỉ thuộc tính
hình học bao gồm xấp xỉ đa thức, xấp xỉ spline hoặc xấp xỉ bằng
một tập đơn vị hình học cơ bản.
20


c) Mã hóa: Mã hóa thường ánh xạ các đường trong kí tự vào một
không gian tham số hai chiều. Một trong những mô hình mã phổ
biến nhất là mã chuỗi Freeman. Hình 1.4 miêu tả một kiểu mã hóa
chuỗi Freeman.

Hình 1.4: Một kiểu mã hóa đường xương của kí tự Arabic

d) Đồ thị và cây: Trong phương pháp này, các kí tự được chia thành
các đơn vị hình học nguyên thủy như các đường thẳng, các đường
vòng, các điểm giao, . . . Sau đó, những đơn vị này được biểu diễn
bằng đồ thị của thuộc tính và quan hệ.
Như vậy, có nhiều phương pháp được đưa ra cho việc biểu diễn kí tự
nhưng chúng có chung mục đích là trích chọn tập các đặc trưng để làm

tăng hiệu năng nhận dạng với đầu vào kích thước nhỏ nhất.
1.2.2.4.

Các kỹ thuật huấn luyện và nhận dạng

Các hệ thống nhận dạng kí tự sử dụng rất nhiều các phương pháp nhận
dạng, phân loại để quy một mẫu chưa biết về một lớp cho trước nào đó. Các
phương pháp tiếp cận có thể chia làm 4 loại:
1. Khớp mẫu
2. Các kỹ thuật thống kê
3. Các kỹ thuật cấu trúc
4. Các kỹ thuật mạng neuron nhân tạo
Tuy nhiên, các hướng tiếp cận trên không hoàn toàn tách biệt nhau. Thỉnh
thoảng có những phương pháp vừa thuộc kỹ thuật này vừa thuộc kỹ thuật
kia.
Các kỹ thuật có thể sử dụng chiến lược phân tích hoặc chiến lược tổng
thể. Chiến lược tổng thể sử dụng các tiếp cận trên xuống để nhận dạng cả từ
21


mà không cần phân đoạn. Đối với bài toán nhận dạng kí tự viết tay, do sự
phức tạp trong đặc tính hình học, tỷ lệ nhận dạng của cách tiếp cận này kém
hơn so với cách tiếp cận nhận dạng đơn lẻ. Trái lại, chiến lược phân tích sử
dụng cách tiếp cận dưới lên bắt đầu từ việc nhận dạng các đường nét, các kí
tự riêng lẻ rồi tiến dần lên mức văn bản. Đối với cách tiếp cận này, các thuật
toán phân đoạn là cần thiết. Bây giờ ta bàn đến các kỹ thuật đã đề cập ở
trên.
1. Khớp mẫu
Các kỹ thuật khớp mẫu dựa vào việc so sánh các tập đặc trưng đã được
lưu và đặc trưng của ảnh cần nhận dạng và rút ra mức độ giống nhau

giữa chúng. Do đó chúng thay đổi phụ thuộc vào tập đặc trưng mà kỹ
thuật sử dụng. Các đặc trưng có thể đơn giản là độ xám của các vùng
khác nhau hoặc cũng có thể phức tạp như biểu diễn bằng thuộc tính
hình học. Các kỹ thuật khớp mẫu có thể chia làm 3 lớp.
a) Khớp trực tiếp Kiểu khớp mẫu này so sánh trực tiếp độ tương tự
nhau về mức xám của các mẫu đã được lưu và mẫu cần nhận dạng.
Quá trình khớp có thể chỉ đơn giản là so sánh 1-1 hoặc so sánh
trên cây quyết định trong đó chỉ có một số điểm nhất định được
kiểm tra. Phương pháp này có nhược điểm là nhạy cảm với nhiễu.
b) Khớp các mẫu biến dạng Ý tưởng cơ bản của khớp mẫu biến
dạng là so khớp một mẫu cho trước với các biến dạng có thể của
các mẫu đã lưu hoặc biến dạng mẫu cho trước và so khớp với các
mẫu đã lưu.
c) Khớp mẫu nới lỏng Đây là kỹ thuật so sánh sử dụng các mô tả
dựa trên đặc trưng. Đầu tiên các vùng so khớp được xác định. Sau
đó, các phần tử này được so sánh với mô hình. Như vậy kỹ thuật
này đòi hỏi tìm kiếm trong không gian nhiều chiều để tìm một cực
đại toàn cục cho khả năng khớp mẫu.
Các kỹ thuật so khớp nói trên có thể được sử dụng độc lập hoặc sử dụng
kết hợp theo nhiều cách trong các sơ đồ nhận dạng kí tự.
2. Các kỹ thuật thống kê
Các kỹ thuật thống kê nói chung dựa trên 3 giả định cơ bản là:
(a) Phân bố tập các đặc trưng là phân bố Gauss hoặc trong trường
hợp xấu nhất là phân bố đều
(b) Với mỗi lớp phân loại, có đủ các thông tin thống kê
22


(c) Cho một tập các ảnh {I}, luôn có thể trích được một tập các đặc
trưng {fi } ∈ F, i ∈ {1, . . . , n} đặc trưng cho mỗi lớp mẫu.

Các hướng tiếp cận thống kê cho bài toán nhận dạng bao gồm: Nhận
dạng không tham số, Nhận dạng tham số, Phân tích cụm, Mô hình
Markov ẩn (HMM), suy diễn tập mờ, và phương pháp phân loại mẫu
dùng máy vector hỗ trợ (SVM).
3. Các kỹ thuật cấu trúc
Ý tưởng ban đầu của các kỹ thuật cấu trúc là mô tả đệ quy của mẫu
phức tạp thành các mẫu đơn giản hơn. Các kí tự được xem là hợp của
các đơn vị cấu trúc nguyên thủy và các đơn vị đó được trích ra là có
số lượng xác định và chúng có quan hệ với nhau. Các phương pháp cấu
trúc được áp dụng cho bài toán nhận dạng kí tự bao gồm:
a) Phương pháp văn phạm Giữa những năm 60s, các nhà nghiên
cứu bắt đầu quan tâm đến các luật ngữ pháp trong việc phân
tích giọng nói và chữ viết. Sau đó, các luật trực giao, từ vựng, và
luật ngôn ngữ khác nhau được áp dụng vào các sơ đồ nhận dạng.
Phương pháp văn phạm tạo ra một số luật sản xuất để tạo ra các
kí tự từ một tập các đơn vị nguyên thủy thông qua các văn phạm
hình thức. Trong phương pháp này, quá trình huấn luyện được thực
hiện thông qua việc biểu diễn mỗi kí tự bằng một văn phạm Gi .
Ở pha nhận dạng, các chuỗi, cây hoặc đồ thị của một đơn vị chữ
viết bất kì (kí tự, từ, câu . . . ) được phân tích để xác định mẫu văn
phạm mà nó thuộc về.
b) Phương pháp đồ thị Các đơn vị chữ viết được biểu diễn bằng các
cây, đồ thị, song đồ thị, hoặc các đồ thị quy thuộc. Các đơn vị cơ
bản của kí tự (như các đường, các cung . . . ) được trích chọn bằng
một các tiếp cận cấu trúc nào đó. Với mỗi lớp, một đồ thị hoặc một
cây được tạo ra ở bước huấn luyện để biểu diễn các đường, các kí
tự hoặc một từ. Bước nhận dạng sẽ quy một đồ thị chưa biết vào
một trong số các lớp bằng một độ đo độ tương tự nào đó dành cho
đồ thị.
4. Kỹ thuật mạng neuron nhân tạo

Mạng neuron nhân tạo được xem là một kiến trúc tính toán chứa một
số lượng rất lớn các bộ xử lý neuron thích nghi kết nối với nhau và làm
việc song song. Mạng neuron nhân tạo có những đặc điểm mà các kỹ
thuật tính toán khác không có như: khả năng tính toán thích nghi, tính
toán song song, tính toán chấp nhận lỗi . . . Một mạng neuron có thể có
23


rất nhiều node. Đầu ra của node này được chuyển sang node khác trong
mạng và đầu ra cuối cùng được quyết định dựa trên tương tác phức tạp
giữa các node. Mặc dù các nguyên lý khác nhau, nhưng người ta đã chỉ
ra rằng, hầu hết các kiến trúc mạng neuron nhân tạo là tương đương
với các mô hình nhận dạng mẫu thống kê.
Có một số cách tiếp cận cho mạng neuron nhân tạo như: mạng sửa lỗi,
mạng Boltzman, Hebbian, học cạnh tranh. Kiến trúc học của mạng có
thể là học có giám sát hoặc không giám sát và nhận các đầu vào là liên
tục hoặc không liên tục. Mặt khác, các mạng neuron có thể chia làm hai
loại: mạng tiến (feedforward) và mạng phản hồi (feedback). Hầu hết các
mạng neuron nhân tạo sử dụng trong các hệ thống nhận dạng kí tự là
mạng tiến đa mức perceptron và mạng phản hồi tự tổ chức Kohonen’s
(Kohonen’s SOM: Self Organizing Map).
Mạng perceptron đa mức, đề xuất bởi Rosenblatt [13] và được chỉnh sửa
bởi Minsky và Papert [23], đã được áp dụng trong các hệ thống nhận
dạng kí tự bởi nhiều tác giả. Một ví dụ là mạng nhận dạng đặc trưng
đề xuất bởi Hussian vaf Kakuba [4] với một sơ đồ nhận dạng 2 mức.
Mức thứ nhất làm nhiệm vụ phát hiện các mẫu con, và mức thứ hai
làm nhjieemj vụ phát hiện các kí tự. Mạng Neocognitron đề xuất bởi
Fukushima [19] là một mạng đa cấp bao gồm nhiều tầng trong đó có các
S-Cells và C-Cells. Các S-cells làm nhiệm vụ trích chọn đặc trưng còn
C-Cells cho phép có lỗi về vị trí trong đặc trưng. Tầng cuối cùng là tầng

nhận dạng. Một cải tiến của loại mạng này là mạng neuron nhân chập
[37] được đề xuất bởi Yan Lecun có kiến trúc đặc biệt có thể trích chọn
đặc trưng ngay trong quá trình huấn luyện; nó đã được áp dụng cho bài
toán nhận dạng các chữ số viết tay đã cho kết quả rất khả quan. Một
nghiên cứu mới đây đề xuất bởi Maragos và Pessoa kết hợp được tính
chất của mạng perceptron đa lớp và mạng phân hạng hình thái cho bài
toán nhận dạng kí tự. Các tác giả cho rằng cách tiếp cận thống nhất
này cho một hiệu năng nhận dạng cao hơn các mạng perceptron đa mức
thông thường và thời gian tính toán thấp hơn.
Hầu hết các phát triển gần đây đối với bài toán nhận dạng kí tự đều
tập trung vào mạng hản hồi tự tổ chức Kohonen [34]. Mạng Kohonen
tích hợp được quá trình trích chọn đặc trưng và quá trình nhận dạng
trong một tập các kí tự huấn luyện kích thước lớn. Một ví dụ của mạng
Kohonen áp dụng trong bài toán nhận dạng là những nghiên cứu của
Liou và Yang [7], trong đó trình bày một cách tiếp cận so khớp tự tổ
chức cho việc nhận dạng các kí tự được vẽ bằng các nét dày. Trong một
nghiên cứu khác [26], Reddy và Nagabhushan đề xuất một sự kết hợp
giữa mạng tự tổ chức có sửa đổi và phương pháp học lượng tử hóa vector
để đưa ra một mô hình mạng neuron nhân tạo 3 chiều cho việc nhận
24


×