Tải bản đầy đủ (.pdf) (93 trang)

Mạng Nơ Ron nhân tạo trong nhận dạng văn bản và ứng dụng vào hệ thống nhận dạng chữ Việt in

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.45 MB, 93 trang )



MỤC LỤC

MỞ ĐẦU
6
CHƢƠNG I TỔNG QUAN VỀ MẠNG NƠ -RON NHÂN TẠO VÀ HỆ
THỐNG NHẬN DẠNG VĂN BẢN
8
1.1. Giới thiệu về mạng nơ ron
8
1.1.1. Mô hình mạng nơ-ron nhân tạo
8
1.1.2. Ƣu và nhƣợc điểm của mạng nơ-ron
12
1.2. Phân loại mạng nơ ron
14
1.3. Hệ thống nhận dạng văn bản
17
1.3.1. Các hoạt động tiền xử lý
20
1.3.2. Phân tích trang văn bản
22
1.3.3. Trích chọn đặc trƣng
27
1.3.4. Học và nhận dạng
33
1.3.5. Hậu xử lý
34



CHƢƠNG II MỘT SỐ MÔ HÌNH MẠNG NƠ RON PHỔ BIẾN TRONG
HỆ THỐNG PHÂN TÍCH VÀ NHẬN DẠNG VĂN BẢN
36
2.1. Mạng Hamming
36
2.2. Mạng Kết hợp tuyến tính
40
2.3. Mạng Adaline
45
2.4. Mạng SOM
48
2.5. Mạng Multilayer Perceptron
56
2.6. Mạng RBF
65




CHƢƠNG III. XÂY DỰNG MỘT HỆ THỐNG NHẬN DẠNG CHỮ VIỆT
IN SỬ DỤNG MẠNG NƠ RON
70
3.1. Tập ký tự tiếng Việt
70
3.2. Hệ thống nhận dạng
70
3.2.1. Tiền xử lý
73
3.2.2. Học và nhận dạng
84

3.2.3. Hậu xử lý
85
3.3. Kết quả đạt đƣợc
85
3.3.1. Kết quả nhận dạng các ký tự riêng lẻ
86
3.3.2. Kết quả nhận dạng văn bản
86
KẾT LUẬN
89
TÀI LIỆU THAM KHẢO
92


- 6 -
MỞ ĐẦU

Mạng nơ ron nhân tạo ngày nay đang là một lĩnh vực nghiên cứu nóng
hổi, thu hút sự quan tâm đặc biệt của các nhà khoa học trong nhiều lĩnh vực. Đó
là nhờ những thành công rực rỡ cả về mặt lý thuyết và ứng dụng của nó. Phạm
vi áp dụng của mạng nơ ron rất rộng lớn: trong lĩnh vực xử lý, điều khiển nhƣ
xử lý tín hiệu, khử nhiễu, phân lớp, nhận dạng, dự báo. Ngoài ra mạng nơ ron
còn đƣợc ứng dụng trong các lĩnh vực toán học, y học, kinh doanh, tài chính,
nghệ thuật. Mạng nơ ron đang ngày càng trở thành một hƣớng nghiên cứu, một
giải pháp ngày càng hứa hẹn.
Một trong những ứng dụng quan trọng của mạng nơ ron là nhận dạng và
phân loại mẫu. Khả năng học và thích ứng của chúng đã làm cho chúng là lựa
chọn hàng đầu đối với nhiệm vụ so sánh các tập dữ liệu hoặc trích chọn các mẫu
thích hợp từ các dữ liệu phức hợp. Nhận dạng mẫu trong mạng nơ ron là một
lĩnh vực rất rộng, nhƣng phổ biến nhất vẫn là nhận dạng chữ in và chữ viết tay.

Nhận dạng văn bản là một bài toán đã đƣợc nghiên cứu từ lâu. Trên thế
giới đã có khá nhiều phần mềm nổi tiếng về nhận dạng chữ la tin nhƣ
OMNIPAGE của hãng Caere Corporation - Mỹ, RECOGNITA của Recognita
Corporation - Hunggary, CURNEIFORM của Cognitive Technology
Corporation - Mỹ, TexBridge Pro 96 của Xerox Corporation, IMAG-IN 4.0 –
Pháp. Ở Việt nam có phần mềm nhận dạng chữ Việt in của Viện công nghệ
thông tin. Nhận dạng văn bản là một bài toán khá phức tạp đòi hỏi nhiều nghiên
cứu sâu sắc cả về xử lý ảnh và về kỹ thuật nhận dạng. Giải quyết bài toán này sẽ
giúp tự động hoá rất nhiều công việc nhàm chán phải đánh lại văn bản khi ta chỉ
có văn bản hoặc ảnh văn bản và cần chuyển những thông tin đó sang dạng text

- 7 -
để hiệu chỉnh lại hoặc tự động nhập liệu vào các hệ thống cơ sở dữ liệu, giảm
thời gian và chi phí. Ngày nay với sự bùng nổ của internet và việc xây dựng các
thƣ viện điện tử thì nhu cầu nhận dạng văn bản trong sách báo càng trở nên cực
kỳ cần thiết.
Nhận thấy khả năng mạnh mẽ của mạng nơ ron rất thích hợp với bài toán
nhận dạng, kết hợp với nhu cầu thực tế về nhận dạng văn bản và có sự gợi ý định
hƣớng của PGS .TS Đặng Quang Á, chúng tôi đã nghiên cứu đề tài "Mạng nơ
ron nhân tạo trong nhận dạng văn bản và ứng dụng vào hệ thống nhận dạng chữ
Việt in". Luận văn này không đi sâu nghiên cứu các kỹ thuật xử lý ảnh văn bản
cụ thể mà tập trung vào khả năng ứng dụng mạng nơ ron trong hệ thống nhận
dạng văn bản nói chung và xây dựng một hệ thống nhận dạng chữ Việt in để
minh họa. Nội dung cơ bản của luận văn gồm có ba chƣơng:
Chƣơng một trình bày tổng quan về mạng nơ ron nhân tạo, bao gồm: giới
thiệu về mạng nơ ron, phân loại mạng nơ ron và tổng quan về hệ thống nhận
dạng ký tự.
Chƣơng hai trình bày về một số mạng nơ ron phổ biến trong hệ thống nhận
dạng văn bản chữ in nhƣ mạng Hamming, mạng kết hợp tuyến tính, mạng
Adaline, mạng SOM, mạng RBF, mạng Multilayer Perceptron.

Chƣơng ba trình bày về hệ thống nhận dạng chữ Việt in sử dụng mạng
nơ ron.

- 8 -
CHƢƠNG I
TỔNG QUAN VỀ MẠNG NƠ RON NHÂN TẠO VÀ HỆ THỐNG
NHẬN DẠNG KÝ TỰ


1.1. Giới thiệu về mạng nơ-ron
Mạng nơ-ron nhân tạo đƣợc xây dựng từ những năm 1940, nhằm mô
phỏng một số chức năng bộ não của con ngƣời. Nếu nhìn não từ góc độ tính
toán, chúng ta dễ thấy rằng cách thức tính toán của não khác xa với tính toán
theo thuật toán và chƣơng trình truyền thống. Sự khác biệt thể hiện ở hai điểm:
+ Quá trình tính toán đƣợc tiến hành song song và phân tán trên nhiều nơ
ron gần nhƣ đồng thời
+ Tính toán thực chất là quá trình học chứ không phải theo một sơ đồ định
sẵn từ trƣớc.
Mạng nơ-ron nhân tạo đƣợc thiết kế tƣơng tự nhƣ nơ-ron sinh học, sẽ có
khả năng giải quyết hàng loạt các bài toán mà sự suy luận tƣơng đối “mờ”,
không đầy đủ dữ liệu, cần có quá trình “học” từ các ví dụ.

1.1.1. Mô hình mạng nơ-ron nhân tạo
1.1.1.1. Nơ-ron sinh học
Bộ não ngƣời có khoảng 10
11
tế bào thần kinh kết nối với mật độ cao gọi
là các nơ-ron (một nơ ron có khoảng 10
4
liên kết). Có nhiều loại nơ-ron khác

nhau về kích thƣớc và khả năng thu phát tín hiệu. Tuy nhiên, chúng có cấu trúc
và nguyên lý hoạt động chung. Hình 1.1 là một ví dụ đơn giản hoá về một nơ-
ron. Mỗi nơ-ron gồm có ba phần: Thân nơ-ron (cell body) với nhân ở bên trong
(soma), một trục dây thần kinh ra (axon) và một hệ thống lƣới cảm ứng hình cây
(dendrites). Các xúc tu hay lƣới cảm ứng, là các dây thần kinh vào để nhận các

- 9 -
tín hiệu từ các nơ-ron khác. Thân nơ ron làm nhiệm vụ tổng hợp tín hiệu vào và
biến đổi thành tín hiệu ra. Tín hiệu ra đƣợc chuyển đến trục dây thần kinh ra.
Dây thần kinh trục phân thành nhiều nhánh ở cuối nhằm chuyển giao tín hiệu tới
các nơ-ron khác. Điểm kết nối giữa trục của một nơ ron với xúc tu của một nơ
ron khác gọi là khớp (synapse). Các nơ-ron có thể thay đổi mức tín hiệu tại các
khớp. Trong nơ-ron nhân tạo, mức tín hiệu này thể hiện bằng trọng số.

Hình 1.1. Mô hình nơ ron sinh học

1.1.1.2. Nơ-ron nhân tạo
 Trọng số và tổng tín hiệu đầu vào:
Trọng số mô phỏng chức năng của khớp nối giữa hai nơ ron (synapse).
Mỗi nơ-ron sinh học có rất nhiều dây thần kinh vào, nghĩa là nó có thể tiếp nhận
đồng thời nhiều tín hiệu. Tƣơng tự, mỗi nơ ron nhân tạo có thể có nhiều trọng
số. Giả sử tại nơ-ron i có N tín hiệu vào, mỗi tín hiệu vào p
j
đƣợc gán một trọng
số w
ij
tƣơng ứng, tổng tín hiệu đi vào nơ ron n
i
có thể đƣợc ƣớc lƣợng theo một
số dạng sau:

(i) Dạng tuyến tính:



N
1j
jiji
pwn

(1.1)
(ii) Dạng toàn phƣơng:

- 10 -



N
1j
2
jiji
pwn

(1.2)
(iii) Dạng mặt cầu:
 




N

1j
2
ijj
2
i
w-pρn

(1.3)
Trong đó ρ và w
ij
(j = 1->N) lần lƣợt là bán kính và tâm cầu.
 Hàm kích hoạt:
Hàm biến đổi tín hiệu đầu vào n thành tín hiệu đầu ra a đƣợc gọi là hàm
kích hoạt (activation function hay transfer function). Hàm này mô phỏng chức
năng của thân nơ ron. Ngƣời thiết kế mạng sẽ chọn một hàm cụ thể để đáp ứng
yêu cầu của bài toán.
 Nút Bias (hay offset):
Là một nút bổ trợ nhằm tăng khả năng thích ứng của mạng nơ ron trong
quá trình học. Bias gần giống nhƣ trọng số, trừ một điều là nó luôn có tín hiệu
vào không đổi bằng 1. Nút này có thể bỏ đi nếu không cần thiết.
Các trọng số và bias là các tham số có thể điều chỉnh của nơ ron. Một luật
học sẽ điều chỉnh chúng sao cho quan hệ đầu vào/đầu ra của nơ ron đáp ứng
đƣợc một mục tiêu nào đó.

- 11 -

Hình 1.2. Một số hàm kích hoạt phổ biến

 Mô hình của một nút xử lý (nút thứ i):


Hình 1.3. Mô hình một nơ ron
-->

×