Tải bản đầy đủ (.pdf) (15 trang)

Mạng Nơ Ron nhân tạo trong nhận dạng văn bản và ứng dụng vào hệ thống nhận dạng chữ Việt in

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (280.2 KB, 15 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Đại Long

MẠNG NƠ RON NHÂN TẠO TRONG NHẬN DẠNG VĂN BẢN
VÀ ỨNG DỤNG VÀO HỆ THỐNG NHẬN DẠNG CHỮ VIỆT IN

LUẬN VĂN THẠC SĨ

Hà nội – 2006


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Trần Đại Long

MẠNG NƠ RON NHÂN TẠO TRONG NHẬN DẠNG VĂN BẢN
VÀ ỨNG DỤNG VÀO HỆ THỐNG NHẬN DẠNG CHỮ VIỆT IN

Ngành: Công nghệ Thông tin
Mã số: 1.01.10

LUẬN VĂN THẠC SĨ

NGƢỜI HƢỚNG DẪN KHOA HỌC
PGS, TS Đặng Quang Á

Hà nội – 2006



LỜI CẢM ƠN

Trong quá trình thực hiện luận văn này, em luôn nhận đƣợc sự hƣớng dẫn,
chỉ bảo tận tình của PGS, TS. Đặng Quang Á, Viện Công nghệ Thông tin thuộc
Viện Khoa học và Công nghệ Việt Nam, là cán bộ trực tiếp hƣớng dẫn khoa học
cho em.
Em xin gửi lời cảm ơn sâu sắc sự giúp đỡ quý báu đó.
Em xin chân thành cảm ơn thầy TS. Đỗ Năng Toàn, PGS, TS. Vũ Đức
Thi, Viện Công nghệ thông tin đã giảng dạy, cho em những lời khuyên quý giá
và đã nhiệt tình giúp đỡ em trong suốt quá trình thực hiện luận văn này.
Em xin chân thành cảm ơn các thầy, cô giáo trong khoa Công nghệ thông
tin và các cán bộ, nhân viên phòng Đào tạo Sau đại học, trƣờng Đại học Công
nghệ, Đại học Quốc gia Hà Nội đã luôn nhiệt tình giúp đỡ và tạo điều kiện tốt
nhất cho em trong suốt quá trình học tập tại trƣờng.
Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp cao học
K10T3 - trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội đã luôn động
viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh nghiệm học tập, công tác
trong suốt khoá học.

Hà nội, ngày 08 tháng 12 năm 2006
Trần Đại Long


MỤC LỤC
MỞ ĐẦU
CHƢƠNG I

6
TỔNG QUAN VỀ MẠNG NƠ -RON NHÂN TẠO VÀ HỆ


8

THỐNG NHẬN DẠNG VĂN BẢN
1.1. Giới thiệu về mạng nơ ron
1.1.1. Mô hình mạng nơ-ron nhân tạo
1.1.2. Ƣu và nhƣợc điểm của mạng nơ-ron

8
8
12

1.2. Phân loại mạng nơ ron

14

1.3. Hệ thống nhận dạng văn bản

17

1.3.1. Các hoạt động tiền xử lý

20

1.3.2. Phân tích trang văn bản

22

1.3.3. Trích chọn đặc trƣng


27

1.3.4. Học và nhận dạng

33

1.3.5. Hậu xử lý

34

CHƢƠNG II MỘT SỐ MÔ HÌNH MẠNG NƠ RON PHỔ BIẾN TRONG

36

HỆ THỐNG PHÂN TÍCH VÀ NHẬN DẠNG VĂN BẢN
2.1. Mạng Hamming

36

2.2. Mạng Kết hợp tuyến tính

40

2.3. Mạng Adaline

45

2.4. Mạng SOM

48


2.5. Mạng Multilayer Perceptron

56

2.6. Mạng RBF

65


CHƢƠNG III. XÂY DỰNG MỘT HỆ THỐNG NHẬN DẠNG CHỮ VIỆT

70

IN SỬ DỤNG MẠNG NƠ RON
3.1. Tập ký tự tiếng Việt

70

3.2. Hệ thống nhận dạng

70

3.2.1. Tiền xử lý

73

3.2.2. Học và nhận dạng

84


3.2.3. Hậu xử lý

85

3.3. Kết quả đạt đƣợc

85

3.3.1. Kết quả nhận dạng các ký tự riêng lẻ

86

3.3.2. Kết quả nhận dạng văn bản

86

KẾT LUẬN

89

TÀI LIỆU THAM KHẢO

92


MỞ ĐẦU

Mạng nơ ron nhân tạo ngày nay đang là một lĩnh vực nghiên cứu nóng
hổi, thu hút sự quan tâm đặc biệt của các nhà khoa học trong nhiều lĩnh vực. Đó

là nhờ những thành công rực rỡ cả về mặt lý thuyết và ứng dụng của nó. Phạm
vi áp dụng của mạng nơ ron rất rộng lớn: trong lĩnh vực xử lý, điều khiển nhƣ
xử lý tín hiệu, khử nhiễu, phân lớp, nhận dạng, dự báo. Ngoài ra mạng nơ ron
còn đƣợc ứng dụng trong các lĩnh vực toán học, y học, kinh doanh, tài chính,
nghệ thuật. Mạng nơ ron đang ngày càng trở thành một hƣớng nghiên cứu, một
giải pháp ngày càng hứa hẹn.
Một trong những ứng dụng quan trọng của mạng nơ ron là nhận dạng và
phân loại mẫu. Khả năng học và thích ứng của chúng đã làm cho chúng là lựa
chọn hàng đầu đối với nhiệm vụ so sánh các tập dữ liệu hoặc trích chọn các mẫu
thích hợp từ các dữ liệu phức hợp. Nhận dạng mẫu trong mạng nơ ron là một
lĩnh vực rất rộng, nhƣng phổ biến nhất vẫn là nhận dạng chữ in và chữ viết tay.
Nhận dạng văn bản là một bài toán đã đƣợc nghiên cứu từ lâu. Trên thế
giới đã có khá nhiều phần mềm nổi tiếng về nhận dạng chữ la tin nhƣ
OMNIPAGE của hãng Caere Corporation - Mỹ, RECOGNITA của Recognita
Corporation

-

Hunggary,

CURNEIFORM

của

Cognitive

Technology

Corporation - Mỹ, TexBridge Pro 96 của Xerox Corporation, IMAG-IN 4.0 –
Pháp. Ở Việt nam có phần mềm nhận dạng chữ Việt in của Viện công nghệ

thông tin. Nhận dạng văn bản là một bài toán khá phức tạp đòi hỏi nhiều nghiên
cứu sâu sắc cả về xử lý ảnh và về kỹ thuật nhận dạng. Giải quyết bài toán này sẽ
giúp tự động hoá rất nhiều công việc nhàm chán phải đánh lại văn bản khi ta chỉ
có văn bản hoặc ảnh văn bản và cần chuyển những thông tin đó sang dạng text

-6-


để hiệu chỉnh lại hoặc tự động nhập liệu vào các hệ thống cơ sở dữ liệu, giảm
thời gian và chi phí. Ngày nay với sự bùng nổ của internet và việc xây dựng các
thƣ viện điện tử thì nhu cầu nhận dạng văn bản trong sách báo càng trở nên cực
kỳ cần thiết.
Nhận thấy khả năng mạnh mẽ của mạng nơ ron rất thích hợp với bài toán
nhận dạng, kết hợp với nhu cầu thực tế về nhận dạng văn bản và có sự gợi ý định
hƣớng của PGS .TS Đặng Quang Á, chúng tôi đã nghiên cứu đề tài "Mạng nơ
ron nhân tạo trong nhận dạng văn bản và ứng dụng vào hệ thống nhận dạng chữ
Việt in". Luận văn này không đi sâu nghiên cứu các kỹ thuật xử lý ảnh văn bản
cụ thể mà tập trung vào khả năng ứng dụng mạng nơ ron trong hệ thống nhận
dạng văn bản nói chung và xây dựng một hệ thống nhận dạng chữ Việt in để
minh họa. Nội dung cơ bản của luận văn gồm có ba chƣơng:
Chƣơng một trình bày tổng quan về mạng nơ ron nhân tạo, bao gồm: giới
thiệu về mạng nơ ron, phân loại mạng nơ ron và tổng quan về hệ thống nhận
dạng ký tự.
Chƣơng hai trình bày về một số mạng nơ ron phổ biến trong hệ thống nhận
dạng văn bản chữ in nhƣ mạng Hamming, mạng kết hợp tuyến tính, mạng
Adaline, mạng SOM, mạng RBF, mạng Multilayer Perceptron.
Chƣơng ba trình bày về hệ thống nhận dạng chữ Việt in sử dụng mạng
nơ ron.

-7-



CHƢƠNG I
TỔNG QUAN VỀ MẠNG NƠ RON NHÂN TẠO VÀ HỆ THỐNG
NHẬN DẠNG KÝ TỰ

1.1. Giới thiệu về mạng nơ-ron
Mạng nơ-ron nhân tạo đƣợc xây dựng từ những năm 1940, nhằm mô
phỏng một số chức năng bộ não của con ngƣời. Nếu nhìn não từ góc độ tính
toán, chúng ta dễ thấy rằng cách thức tính toán của não khác xa với tính toán
theo thuật toán và chƣơng trình truyền thống. Sự khác biệt thể hiện ở hai điểm:
+ Quá trình tính toán đƣợc tiến hành song song và phân tán trên nhiều nơ
ron gần nhƣ đồng thời
+ Tính toán thực chất là quá trình học chứ không phải theo một sơ đồ định
sẵn từ trƣớc.
Mạng nơ-ron nhân tạo đƣợc thiết kế tƣơng tự nhƣ nơ-ron sinh học, sẽ có
khả năng giải quyết hàng loạt các bài toán mà sự suy luận tƣơng đối “mờ”,
không đầy đủ dữ liệu, cần có quá trình “học” từ các ví dụ.

1.1.1. Mô hình mạng nơ-ron nhân tạo
1.1.1.1. Nơ-ron sinh học
Bộ não ngƣời có khoảng 1011 tế bào thần kinh kết nối với mật độ cao gọi
là các nơ-ron (một nơ ron có khoảng 104 liên kết). Có nhiều loại nơ-ron khác
nhau về kích thƣớc và khả năng thu phát tín hiệu. Tuy nhiên, chúng có cấu trúc
và nguyên lý hoạt động chung. Hình 1.1 là một ví dụ đơn giản hoá về một nơron. Mỗi nơ-ron gồm có ba phần: Thân nơ-ron (cell body) với nhân ở bên trong
(soma), một trục dây thần kinh ra (axon) và một hệ thống lƣới cảm ứng hình cây
(dendrites). Các xúc tu hay lƣới cảm ứng, là các dây thần kinh vào để nhận các

-8-



tín hiệu từ các nơ-ron khác. Thân nơ ron làm nhiệm vụ tổng hợp tín hiệu vào và
biến đổi thành tín hiệu ra. Tín hiệu ra đƣợc chuyển đến trục dây thần kinh ra. Dây
thần kinh trục phân thành nhiều nhánh ở cuối nhằm chuyển giao tín hiệu tới các
nơ-ron khác. Điểm kết nối giữa trục của một nơ ron với xúc tu của một nơ ron khác
gọi là khớp (synapse). Các nơ-ron có thể thay đổi mức tín hiệu tại các khớp. Trong
nơ-ron nhân tạo, mức tín hiệu này thể hiện bằng trọng số.

Hình 1.1. Mô hình nơ ron sinh học
1.1.1.2. Nơ-ron nhân tạo
 Trọng số và tổng tín hiệu đầu vào:
Trọng số mô phỏng chức năng của khớp nối giữa hai nơ ron (synapse). Mỗi
nơ-ron sinh học có rất nhiều dây thần kinh vào, nghĩa là nó có thể tiếp nhận đồng
thời nhiều tín hiệu. Tƣơng tự, mỗi nơ ron nhân tạo có thể có nhiều trọng số. Giả sử
tại nơ-ron i có N tín hiệu vào, mỗi tín hiệu vào pj đƣợc gán một trọng số wij tƣơng
ứng, tổng tín hiệu đi vào nơ ron ni có thể đƣợc ƣớc lƣợng theo một số dạng sau:
(i)

Dạng tuyến tính:
N

n i   w ijp j
j1

(ii)

Dạng toàn phƣơng:

-9-


(1.1)


N

n i   w ijp j2

(1.2)

n i  ρ 2  p j - w ij 2

(1.3)

j1

(iii)

Dạng mặt cầu:
N

j1

Trong đó ρ và wij (j = 1->N) lần lƣợt là bán kính và tâm cầu.
 Hàm kích hoạt:
Hàm biến đổi tín hiệu đầu vào n thành tín hiệu đầu ra a đƣợc gọi là hàm kích
hoạt (activation function hay transfer function). Hàm này mô phỏng chức năng của
thân nơ ron. Ngƣời thiết kế mạng sẽ chọn một hàm cụ thể để đáp ứng yêu cầu của
bài toán.
 Nút Bias (hay offset):
Là một nút bổ trợ nhằm tăng khả năng thích ứng của mạng nơ ron trong quá

trình học. Bias gần giống nhƣ trọng số, trừ một điều là nó luôn có tín hiệu vào
không đổi bằng 1. Nút này có thể bỏ đi nếu không cần thiết.
Các trọng số và bias là các tham số có thể điều chỉnh của nơ ron. Một luật
học sẽ điều chỉnh chúng sao cho quan hệ đầu vào/đầu ra của nơ ron đáp ứng đƣợc
một mục tiêu nào đó.

- 10 -


TÀI LIỆU THAM KHẢO

[1]

Nguyễn Thị Minh Ánh, Đinh Việt Cƣờng, Ngô Trí Hoài, Nguyễn Việt Hà,
“Mô hình liên mạng nơ ron ứng dụng trong nhận dạng ký tự viết tay tiếng
Việt”, Một số vấn đề chọn lọc của công nghệ thông tin, Nhà xuất bản khoa
học và kỹ thuật, 2006.

[2]

Martin T. Hagan, Howard B. Demuth, Mark Beale, Neural Network Design,
PWS Publishing Company, 1995.

[3]

Dave Anderson and George McNeill, Artificial Neural Network Technology,
Kaman Sciences Corporation, 1992

[4]


James A. Freeman, David M. Skapura, Neural Networks -

Algorithms,

Applications, and Programming Techniques, Addison-Wesley Publishing
Company.
[5]

Sing-Tze Bow, Pattern Recognition and Image Preprocessing, MARCEL
DEKKER, INC.

[6]

Richard O. Duda, Peter E. Hart, David G. Stork, Pattern Classification,
Wiley-Interscience.

[7]

Colin Fyfe, Artificial Neural Network , The University of Paisley, 1996.

[8]

Madan M. Gupta, Liang Jin, Noriyasu Homma, Static and Dynamic Neural
Networks, Wiley-Interscience.

[9]

Ian T. Young, Jan J. Gerbrands, Lucas J. van Vliet, Fundamentals of Image
Processing, Delft University of Technology.


[10] Peter Doucette, Peggy Agouris, Mohamad Musavi, Anthony Stefanidis,
Automated Extraction of Linear Features from Aerial Imagery Using
Kohonen Learning and GIS Data, University of Maine.

- 11 -


[11] Goss Nuzzo-Jones, Resilient Backpropagation Versus Quickprop For
Character Recognition In Neural Networks, Central Virginia Governor's
School, 2000.
[12] Shamik Sural, A Two-step Algorithm and its Parallelization for the
Generation of Minimum Containing Rectangles for Document Image
Segmentation, Jadavpur University, Calcutta 700 032, India.
[13] Shamik Sural, A Document Image Analysis System on Parallel Processors,
Jadavpur University, Calcutta 700 032, India
[14] K V Prema and N V Subba Reddy, Two-tier architecture for unconstrained
handwritten character recognition, Manipal Institute of Technology,
Manipal 576 119, India.
[15] Sargur N. Srihari, Yong-Chul Shin, Vemulapati Ramanaprasad, Dar-Shyang
Lee, A System to Read Names and Addresses on Tax Forms, State University
of New York at Buffalo.
[16] Jie Zhou, Recognition and Verification of Unconstrained Handwritten
Numerals, A Thesis in the Department of Computer Science, Concordia
University Montreal, Quebec, Canada.
[17] Yan Solihin, C.G. Leedham, The Multi-stage Approach to Grey-Scale Image
Thresholding for Specific Applications, Nanyang Technological University,
School of Computer Engineering, Republic of Singapore.
[18] Tin Kam Ho, A Theory of Multiple Classifier Systems And Its Application to
Visual Word Recognition, Graduate School of State University of New York
at Buffalo, 1992.

[19] R. L. Hoffman, J. W. McCullough, Segmentation Methods for recognition
of Machine-printed Characters, IBM General Systems Division Laboratory
in Rochester, Minnesota.

- 12 -


[20] Nafiz Arica, An Off-line Character Recognition System For Free Style
Handwriting, Thesis, The Graduate School Of Natural And Applied Sciences
Of The Middle East Technical University, 1998.
[21] Marco Gori, Simone Marinai, Giovanni Soda, Artificial Neural Networks for
Document Analysis and Recognition, Technical Report N.1/2003 University
of Florence.
[22] Rohana K. Rajapakse, A. Ruvan Weerasinghe, E. Kevin Seneviratne, A
Neural Network Based Character Recognition System For Sinhala Script,
University of Colombo.
[23] Akihiro Nomura, Kazuyuki Michishita, Seiichi Uchida, Masakazu Suzuki,
Detection and Segmentation of Touching Characters in Mathematical
Expressions, Kyushu University, Japan.
[24] Basilios Gatos, Stavros J. Perantonis, Nikos Papamarkos, Ioannis Andreadis,
Fast Implementation of Morphological Operations Using Binary Image
Block Decomposition, Institute of Informatics and Telecommunications,
National Research Center “Demokritos”, Democritus University of Thrace,
Greece.
[25] Myer Blumenstein, Intelligent Techniques for Handwriting Recognition,
Thesis, Griffith University, 2000.
[26] Horst Bunke, Recognition of Cursive Roman Handwriting - Past, Present
and Future, University of Bern, Switzerland.
[27] Berrin Yanikoglu, Peter A. Sandon, Segmentation of Off-line Cursive
Handwriting Using Linear Programming, IBM Almaden Research Center,

USA.
[28] Rangachar Kasturi, Lawrence O’Gorman, Venu Govindaraju, “Document
image analysis: A primer”, Sadhana, Vol. 27, Part 1, February 2002,

- 13 -


pp. 3–22.
[29] Yefeng Zheng, Huiping Li, David Doermann, The Segmentation and
Identification of Handwriting in Noisy Document Images, University of
Maryland.
[30] Nafiz Arica, Fatos T. Yarman-Vural, An Overview Of Character Recognition
Focused On Off-line Handwriting, Middle East Technical University,
Ankara, Turkey.
[31] D. Y. Chen, J. Mao, K. Mohiuddin, “An Efficient Algorithm For Matching A
Lexicon With A Segmentation Graph”, in Proc. 5th Int. Conf. Document
Analysis and Recognition, pp.543-546, Bangalore, India, 1999.
[32] Lƣơng Chi Mai, Đỗ Năng Toàn, “Applying Hausdorff Distance For Page
Layout Analysis”, Viện công nghệ thông tin.
[33] Đỗ Năng Toàn, Lƣơng Chi Mai “Image Document Analysis Based On
Templates”, Viện công nghệ thông tin.
[34] Nguyễn Thị Thanh Tân (2004), “Nhận dạng chữ viết tay hạn chế dựa trên
mô hình mạng nơ ron kết hợp với thống kê ngữ cảnh”, Luận văn cao học.
[35] J. H. Bae, K. C. Jung, “Segmentation of touching characters using an MLP”,
Pattern Recognition Letters 19 (1998) 701-709.
[36] J. Wang, “Segmentation of merged characters by neural network and shortest
path”, Pattern Recognition 27 (5) (1994) 649-658.
[37] Lichang Hou, Wei Wu, Bingdui Zhu, Feng Li, “A segmentation method for
merged characters using Self-Organizing Map neural networks”, Journal of
Information & Computational Science 3: 2 (2006) 219-226.

[38] Marco Gori, Simone Marinai, Giovanni Soda, “Artificial Neural Networks
for Document Analysis and Recognition”, Technical Report N.1/2003
University of Florence.

- 14 -


[39] E.Kavallieratou, N.Fakotakis, and G.Kokkinakis, “Skew angle estimation in
document processing using cohen’s class distributions”, University of Patras,
26500 Patras, Greece.
[40] Yue Lu, Chew Lim Tan, “A nearest-neighbor chain based approach to skew
estimation in document images”, Pattern Recognition Letters 24 (2003)
2315–2323.
[41] Rangachar Kasturi, Lawrence O’gorman, Venu Govindaraju, “Document
image analysis: A primer”, Sadhana Vol. 27, Part 1, February 2002,
pp. 3–22.

- 15 -



×