Tải bản đầy đủ (.pdf) (93 trang)

Mạng nơ ron nhân tạo trong nhận dạng văn bản và ứng dụng vào hệ thống nhận dạng chữ việt in

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.45 MB, 93 trang )

MỤC LỤC
MỞ ĐẦU
CHƢƠNG I

6
TỔNG QUAN VỀ MẠNG NƠ -RON NHÂN TẠO VÀ HỆ

8

THỐNG NHẬN DẠNG VĂN BẢN
1.1. Giới thiệu về mạng nơ ron
1.1.1. Mơ hình mạng nơ-ron nhân tạo
1.1.2. Ƣu và nhƣợc điểm của mạng nơ-ron

8
8
12

1.2. Phân loại mạng nơ ron

14

1.3. Hệ thống nhận dạng văn bản

17

1.3.1. Các hoạt động tiền xử lý

20

1.3.2. Phân tích trang văn bản



22

1.3.3. Trích chọn đặc trƣng

27

1.3.4. Học và nhận dạng

33

1.3.5. Hậu xử lý

34

CHƢƠNG II MỘT SỐ MƠ HÌNH MẠNG NƠ RON PHỔ BIẾN TRONG

36

HỆ THỐNG PHÂN TÍCH VÀ NHẬN DẠNG VĂN BẢN
2.1. Mạng Hamming

36

2.2. Mạng Kết hợp tuyến tính

40

2.3. Mạng Adaline


45

2.4. Mạng SOM

48

2.5. Mạng Multilayer Perceptron

56

2.6. Mạng RBF

65


CHƢƠNG III. XÂY DỰNG MỘT HỆ THỐNG NHẬN DẠNG CHỮ VIỆT

70

IN SỬ DỤNG MẠNG NƠ RON
3.1. Tập ký tự tiếng Việt

70

3.2. Hệ thống nhận dạng

70

3.2.1. Tiền xử lý


73

3.2.2. Học và nhận dạng

84

3.2.3. Hậu xử lý

85

3.3. Kết quả đạt đƣợc

85

3.3.1. Kết quả nhận dạng các ký tự riêng lẻ

86

3.3.2. Kết quả nhận dạng văn bản

86

KẾT LUẬN

89

TÀI LIỆU THAM KHẢO

92



MỞ ĐẦU

Mạng nơ ron nhân tạo ngày nay đang là một lĩnh vực nghiên cứu nóng
hổi, thu hút sự quan tâm đặc biệt của các nhà khoa học trong nhiều lĩnh vực. Đó
là nhờ những thành cơng rực rỡ cả về mặt lý thuyết và ứng dụng của nó. Phạm
vi áp dụng của mạng nơ ron rất rộng lớn: trong lĩnh vực xử lý, điều khiển nhƣ
xử lý tín hiệu, khử nhiễu, phân lớp, nhận dạng, dự báo. Ngoài ra mạng nơ ron
còn đƣợc ứng dụng trong các lĩnh vực tốn học, y học, kinh doanh, tài chính,
nghệ thuật. Mạng nơ ron đang ngày càng trở thành một hƣớng nghiên cứu, một
giải pháp ngày càng hứa hẹn.
Một trong những ứng dụng quan trọng của mạng nơ ron là nhận dạng và
phân loại mẫu. Khả năng học và thích ứng của chúng đã làm cho chúng là lựa
chọn hàng đầu đối với nhiệm vụ so sánh các tập dữ liệu hoặc trích chọn các mẫu
thích hợp từ các dữ liệu phức hợp. Nhận dạng mẫu trong mạng nơ ron là một
lĩnh vực rất rộng, nhƣng phổ biến nhất vẫn là nhận dạng chữ in và chữ viết tay.
Nhận dạng văn bản là một bài toán đã đƣợc nghiên cứu từ lâu. Trên thế
giới đã có khá nhiều phần mềm nổi tiếng về nhận dạng chữ la tin nhƣ
OMNIPAGE của hãng Caere Corporation - Mỹ, RECOGNITA của Recognita
Corporation

-

Hunggary,

CURNEIFORM

của

Cognitive


Technology

Corporation - Mỹ, TexBridge Pro 96 của Xerox Corporation, IMAG-IN 4.0 –
Pháp. Ở Việt nam có phần mềm nhận dạng chữ Việt in của Viện công nghệ
thông tin. Nhận dạng văn bản là một bài tốn khá phức tạp địi hỏi nhiều nghiên
cứu sâu sắc cả về xử lý ảnh và về kỹ thuật nhận dạng. Giải quyết bài toán này sẽ
giúp tự động hoá rất nhiều công việc nhàm chán phải đánh lại văn bản khi ta chỉ
có văn bản hoặc ảnh văn bản và cần chuyển những thơng tin đó sang dạng text

-6-


để hiệu chỉnh lại hoặc tự động nhập liệu vào các hệ thống cơ sở dữ liệu, giảm
thời gian và chi phí. Ngày nay với sự bùng nổ của internet và việc xây dựng các
thƣ viện điện tử thì nhu cầu nhận dạng văn bản trong sách báo càng trở nên cực
kỳ cần thiết.
Nhận thấy khả năng mạnh mẽ của mạng nơ ron rất thích hợp với bài tốn
nhận dạng, kết hợp với nhu cầu thực tế về nhận dạng văn bản và có sự gợi ý định
hƣớng của PGS .TS Đặng Quang Á, chúng tôi đã nghiên cứu đề tài "Mạng nơ
ron nhân tạo trong nhận dạng văn bản và ứng dụng vào hệ thống nhận dạng chữ
Việt in". Luận văn này không đi sâu nghiên cứu các kỹ thuật xử lý ảnh văn bản
cụ thể mà tập trung vào khả năng ứng dụng mạng nơ ron trong hệ thống nhận
dạng văn bản nói chung và xây dựng một hệ thống nhận dạng chữ Việt in để
minh họa. Nội dung cơ bản của luận văn gồm có ba chƣơng:
Chƣơng một trình bày tổng quan về mạng nơ ron nhân tạo, bao gồm: giới
thiệu về mạng nơ ron, phân loại mạng nơ ron và tổng quan về hệ thống nhận
dạng ký tự.
Chƣơng hai trình bày về một số mạng nơ ron phổ biến trong hệ thống nhận
dạng văn bản chữ in nhƣ mạng Hamming, mạng kết hợp tuyến tính, mạng

Adaline, mạng SOM, mạng RBF, mạng Multilayer Perceptron.
Chƣơng ba trình bày về hệ thống nhận dạng chữ Việt in sử dụng mạng
nơ ron.

-7-


CHƢƠNG I
TỔNG QUAN VỀ MẠNG NƠ RON NHÂN TẠO VÀ HỆ THỐNG
NHẬN DẠNG KÝ TỰ

1.1. Giới thiệu về mạng nơ-ron
Mạng nơ-ron nhân tạo đƣợc xây dựng từ những năm 1940, nhằm mô
phỏng một số chức năng bộ não của con ngƣời. Nếu nhìn não từ góc độ tính
tốn, chúng ta dễ thấy rằng cách thức tính tốn của não khác xa với tính tốn
theo thuật tốn và chƣơng trình truyền thống. Sự khác biệt thể hiện ở hai điểm:
+ Quá trình tính tốn đƣợc tiến hành song song và phân tán trên nhiều nơ
ron gần nhƣ đồng thời
+ Tính tốn thực chất là q trình học chứ khơng phải theo một sơ đồ định
sẵn từ trƣớc.
Mạng nơ-ron nhân tạo đƣợc thiết kế tƣơng tự nhƣ nơ-ron sinh học, sẽ có
khả năng giải quyết hàng loạt các bài toán mà sự suy luận tƣơng đối “mờ”,
không đầy đủ dữ liệu, cần có q trình “học” từ các ví dụ.

1.1.1. Mơ hình mạng nơ-ron nhân tạo
1.1.1.1. Nơ-ron sinh học
Bộ não ngƣời có khoảng 1011 tế bào thần kinh kết nối với mật độ cao gọi
là các nơ-ron (một nơ ron có khoảng 104 liên kết). Có nhiều loại nơ-ron khác
nhau về kích thƣớc và khả năng thu phát tín hiệu. Tuy nhiên, chúng có cấu trúc
và ngun lý hoạt động chung. Hình 1.1 là một ví dụ đơn giản hố về một nơron. Mỗi nơ-ron gồm có ba phần: Thân nơ-ron (cell body) với nhân ở bên trong

(soma), một trục dây thần kinh ra (axon) và một hệ thống lƣới cảm ứng hình cây
(dendrites). Các xúc tu hay lƣới cảm ứng, là các dây thần kinh vào để nhận các

-8-


tín hiệu từ các nơ-ron khác. Thân nơ ron làm nhiệm vụ tổng hợp tín hiệu vào và
biến đổi thành tín hiệu ra. Tín hiệu ra đƣợc chuyển đến trục dây thần kinh ra.
Dây thần kinh trục phân thành nhiều nhánh ở cuối nhằm chuyển giao tín hiệu tới
các nơ-ron khác. Điểm kết nối giữa trục của một nơ ron với xúc tu của một nơ
ron khác gọi là khớp (synapse). Các nơ-ron có thể thay đổi mức tín hiệu tại các
khớp. Trong nơ-ron nhân tạo, mức tín hiệu này thể hiện bằng trọng số.

Hình 1.1. Mơ hình nơ ron sinh học
1.1.1.2. Nơ-ron nhân tạo
 Trọng số và tổng tín hiệu đầu vào:
Trọng số mô phỏng chức năng của khớp nối giữa hai nơ ron (synapse).
Mỗi nơ-ron sinh học có rất nhiều dây thần kinh vào, nghĩa là nó có thể tiếp nhận
đồng thời nhiều tín hiệu. Tƣơng tự, mỗi nơ ron nhân tạo có thể có nhiều trọng
số. Giả sử tại nơ-ron i có N tín hiệu vào, mỗi tín hiệu vào pj đƣợc gán một trọng
số wij tƣơng ứng, tổng tín hiệu đi vào nơ ron ni có thể đƣợc ƣớc lƣợng theo một
số dạng sau:
(i)

Dạng tuyến tính:
N

n i   w ijp j
j1


(ii)

Dạng toàn phƣơng:

-9-

(1.1)


N

n i   w ijp j2

(1.2)

n i  ρ 2  p j - w ij 2

(1.3)

j1

(iii)

Dạng mặt cầu:
N

j1

Trong đó ρ và wij (j = 1->N) lần lƣợt là bán kính và tâm cầu.
 Hàm kích hoạt:

Hàm biến đổi tín hiệu đầu vào n thành tín hiệu đầu ra a đƣợc gọi là hàm
kích hoạt (activation function hay transfer function). Hàm này mô phỏng chức
năng của thân nơ ron. Ngƣời thiết kế mạng sẽ chọn một hàm cụ thể để đáp ứng
yêu cầu của bài toán.
 Nút Bias (hay offset):
Là một nút bổ trợ nhằm tăng khả năng thích ứng của mạng nơ ron trong
quá trình học. Bias gần giống nhƣ trọng số, trừ một điều là nó ln có tín hiệu
vào khơng đổi bằng 1. Nút này có thể bỏ đi nếu không cần thiết.
Các trọng số và bias là các tham số có thể điều chỉnh của nơ ron. Một luật
học sẽ điều chỉnh chúng sao cho quan hệ đầu vào/đầu ra của nơ ron đáp ứng
đƣợc một mục tiêu nào đó.

- 10 -


Hình 1.2. Một số hàm kích hoạt phổ biến
 Mơ hình của một nút xử lý (nút thứ i):

Hình 1.3. Mơ hình một nơ ron

- 11 -


N

n i   w ijp j  bi

(1.7)

a i  f i n i 


(1.8)

j1

Trong đó:
ni: tổng tín hiệu vào tại nơ ron i
ai: tín hiệu ra tại nơ ron i
 Mạng nơ ron
Tƣơng tự nhƣ các nơ ron sinh học phải liên kết với nhau một cách có tổ
chức thì mới tạo nên sức mạnh, các nơ ron nhân tạo cũng phải liên kết với nhau
thành mạng lƣới thì mới có khả năng giải quyết các bài tốn thực tế. Tuy nhiên
ngƣời ta đã chứng minh rằng không phải cứ liên kết tuỳ ý các nơ ron bất kỳ là
đƣợc mà các liên kết phải có trật tự. Thông thƣờng các nơ ron nhân tạo liên kết
với nhau thành từng tầng, tầng sau liên kết với đầu ra của tầng trƣớc. Các tín
hiệu lan truyền từ tầng đầu tiên, đến tầng thứ hai, thứ ba và cuối cùng đến tầng
ra. Các tín hiệu cũng có thể lan truyền hồi quy từ một tầng đến tầng trƣớc nó.
tầng vào

tầng ẩn

tầng ra

p1
p2
...

...

...


...

pn

1.1.2. Ƣu và nhƣợc điểm của mạng nơ-ron
Hình 1.4. Mạng truyền thẳng nhiều tầng
Đặc điểm nổi bật của mạng nơ ron là khả năng thích ứng của nó, mang lại
một cách thiết kế hệ thống hoàn toàn mới. Thay vì xây dựng một hệ thống từ các

(ii)
(

- 12 -


bản thiết kế khuôn mẫu, mạng nơ ron sử dụng dữ liệu bên ngoài để tự động xác
định giá trị các tham số. Điều này nghĩa là mạng “nhận biết” đƣợc đầu ra của nó
thơng qua một cơ chế phản hồi có tính đến hàm chi phí. Cơ chế phản hồi này sẽ
thay đổi các tham số thông qua một q trình gọi là học hay huấn luyện. Nhờ đó
mà đầu ra của hệ thống đƣợc điều chỉnh gần với đích mong muốn nhất.

Hình 1.5. Mơ hình huấn luyện mạng nơ ron
Ưu điểm:
- Xử lý song song.
- Thiết kế hệ thống thích nghi.
- Khơng địi hỏi các đặc trƣng mở rộng của bài toán (chủ yếu dựa trên tập
huấn luyện).
Nhược điểm:
- Khơng có các quy tắc và các hƣớng dẫn thiết kế một cách rõ ràng đối với

một ứng dụng nhất định.
- Khơng có cách tổng qt để đánh giá hoạt động bên trong mạng.
- Việc học đối với mạng có thể khó thực hiện.
- Khó có thể dự đốn trƣớc đƣợc hiệu quả của mạng trong tƣơng lai (khả
năng tổng quát hoá).

- 13 -


1.2. Phân loại mạng nơ ron
Mạng nơ ron không cần phải đƣợc lập trình lại khi chạy trong mơi trƣờng
mới. Sở dĩ có điều này bởi vì cách ứng xử của nó thay đổi để thích ứng với mơi
trƣờng mới. Sự thay đổi này có đƣợc nhờ thay đổi các trọng số (weight). Ta gọi
quá trình thay đổi trọng số này là học (learning).
 Nếu phân loại mạng nơ ron theo mơ hình học (learning paradigm) thì có ba
loại chính:
- Học có giám sát (Supervised learning): chúng ta cung cấp cho mạng dữ liệu
vào (input data) và câu trả lời đúng, tức là đầu ra mà ta mong muốn nhận
đƣợc ứng với đầu vào. Dữ liệu vào đƣợc truyền thẳng qua mạng cho đến tầng
ra. Đầu ra thực tế của mạng đƣợc so sánh với đầu ra mong muốn. Nếu chúng
giống nhau thì ta khơng thay đổi các trọng số của mạng. Nếu khác nhau, ta
điều chỉnh trọng số để đảm bảo mạng sẽ đƣa ra câu trả lời chính xác hơn nếu
nó gặp lại dữ liệu vào đó.
- Học không giám sát (Unsupervised learning): ta chỉ cung cấp cho mạng dữ
liệu vào mà khơng có đầu ra mong muốn. Mạng này cần phải tự tổ chức hay
tự dạy chính nó. Kết quả học phụ thuộc vào cấu trúc dữ liệu vào.
- Học tăng cƣờng (Reinforcement learning): là loại lai giữa hai loại trên. Ta
cung cấp cho mạng dữ liệu vào và chỉ cho mạng biết là câu trả lời đúng hay
sai. Nếu câu trả lời sai, ta điều chỉnh trọng số sao cho có thể nhận đƣợc câu
trả lời đúng khi nhận đƣợc dữ liệu đó trong tƣơng lai.

 Nếu phân loại mạng nơ ron theo kiến trúc mạng thì có hai loại chính:
- Mạng truyền thẳng (Feed forward network): các tín hiệu truyền từ tầng vào
thẳng qua các tầng tiếp theo rồi đến tầng ra.
- Mạng hồi quy (Recurrent network): các tín hiệu sau khi đến tầng ra rồi lại
truyền ngƣợc trở lại làm tín hiệu vào để phản hồi.
 Nếu phân loại mạng nơ ron theo kết nối mạng thì có hai loại chính:

- 14 -


- Mạng đơn tầng: chỉ có một tầng ngồi tầng vào.
- Mạng đa tầng: có hơn một tầng ngồi tầng vào.
 Nếu phân loại mạng nơ ron theo giải thuật học thì có nhiều loại:
- Học lan truyền ngƣợc (back propagation)
- Học cạnh tranh
- Học LVQ
- Học Hebb

- 15 -


Hình 1.6. Phân loại các mơ hình mạng nơ ron

- 16 -


Mạng nơ ron nhân tạo là một kiến trúc tính tốn mạnh mẽ vì nó gồm một
số lớn nơ ron liên kết song song và thích ứng với nhau. Vì vậy mạng nơ ron
đƣợc sử dụng rất phổ biến trong lĩnh vực nhận dạng nói chung và nhận dạng văn
bản nói riêng. Điển hình là mạng MLP của R. Rosenblatt và sau đó là Minsky và

Papert chi tiết hóa, đã đƣợc ứng dụng rất rộng rãi trong cả nhận dạng chữ viết
tay và chữ in, ví dụ nhƣ mạng nơ ron của Hussain và Kabuka, mạng
Neocognitron của Fukushima. Mạng hai tầng truyền thẳng của Garland có thể
nhận dạng 94 ký tự chữ in. Khả năng của mạng đã đƣợc kiểm tra bởi 300000 ký
tự in bằng máy in laser, với 12 loại font phổ biến có kích thƣớc khác nhau. Kết
quả là nhận dạng khơng có lỗi nào [30]! Sau đây chúng ta nghiên cứu chi tiết về
hệ thống nhận dạng văn bản.

1.3. Hệ thống nhận dạng văn bản
Nhận dạng văn bản (character recognition - CR) là một thuật ngữ tổng
quát bao gồm tất cả các loại nhận dạng ký tự bằng máy trong các lĩnh vực khác
nhau. Có thể phân loại hệ thống nhận dạng theo hai tiêu thức chính sau:
o Căn cứ vào phƣơng pháp lấy mẫu văn bản (data acquisition process): online hay off-line.
o Căn cứ vào loại văn bản (text type): chữ in (machine-printed) hay chữ viết
tay (hand-written).
On-line character recognition là quá trình nhận dạng chữ viết tay mà tín
hiệu vào đƣợc thu nhận bằng các bộ số hóa (digitizer) theo một thứ tự thời gian
của tọa độ bút. Các bộ số hóa thƣờng là các bảng điện tử. Chúng gửi tọa độ đầu
ngòi bút vào máy tính sau mỗi khoảng thời gian.
Trong off-line character recognition hay Optical Character Recognition
(OCR), hình ảnh chữ viết đƣợc chuyển thành các mẫu bit bằng các thiết bị số
hóa quang học nhƣ máy quét hay máy ảnh. Việc nhận dạng đƣợc tiến hành trên

- 17 -


các mẫu bit này, có thể là chữ in hay chữ viết tay. So với nhận dạng on-line thì
nhận dạng off-line có nhiều khó khăn hơn.
Khơng phụ thuộc văn bản thuộc loại nào, nói chung có năm giai đoạn
chính sau trong quá trình nhận dạng văn bản:

1. Tiền xử lý (Preprocessing)
2. Phân tích trang văn bản (Segmentation hay Layout Analysis)
3. Trích chọn đặc trƣng (Feature Extraction hay Representation)
4. Học và nhận dạng (Training and Recognition)
5. Hậu xử lý (Post Processing)

- 18 -


Hình 1.7. Sơ đồ hệ thống nhận dạng văn bản tổng quát

- 19 -


1.3.1. Các hoạt động tiền xử lý
Tiền xử lý thực hiện biến đổi từ ảnh sang ảnh nhằm nâng cao chất lƣợng
ảnh, làm cho việc nhận dạng dễ dàng và chính xác hơn. Nó làm nổi bật và làm
sắc nét các đặc điểm của ảnh nhƣ các cạnh, biên, độ tƣơng phản. Hai mục tiêu
chính của tiền xử lý là:
o Khử nhiễu
o Chuẩn hóa dữ liệu
1.3.1.1. Khử nhiễu
 Lọc (Filtering): tích chập một mặt nạ xác định trƣớc với ảnh: giá trị của một
điểm ảnh là một hàm của các điểm ảnh lân cận. Bộ lọc có thể dùng để làm mịn
(smoothing), làm sắc nét (sharpening), phân ngƣỡng (thresholding), loại bỏ
những cấu trúc yếu hay màu nền và điều chỉnh độ tƣơng phản.
 Các phép tốn hình thái (Morphological Operation): làm cho một đối
tƣợng trong ảnh to hơn hay nhỏ hơn. Các phép tốn này cần có một lõi (kernel
hay structuring element). Kích thƣớc (số dịng và số cột) của tồn bộ ảnh khơng
thay đổi. Các phép tốn hình thái cơ bản là dilate (mở rộng đối tƣợng) hay erode

(thu hẹp đối tƣợng). Các phép tốn hình thái nối các nét đứt, tách các nét liền,
làm mịn đƣờng biên, xoá các điểm nhiễu, làm mảnh ký tự và trích xuất biên. Vì
vậy các phép tốn hình thái đƣợc sử dụng rất thành cơng trong việc xóa nhiễu.
Ví dụ về phép toán dilate:
0

0

0

0

0

1

0

0

1

1

0

0

1


1

0

1

1

1

1

1

1

1

0

1

1

0

0

1


0

1

1

1

1

0

0

0

0

0

1

1

0

ảnh gốc

structuring
element


- 20 -

ảnh kết quả


1.3.1.2. Chuẩn hóa dữ liệu
Chuẩn hóa dữ liệu nhằm loại bỏ những biến động trong văn bản và nhận
đƣợc dữ liệu chuẩn hóa. Chuẩn hố dữ liệu thực hiện một số cơng việc sau:


Hiệu chỉnh góc nghiêng văn bản (skew normalization)
Do sự khơng chính xác trong q trình qt hay kiểu viết, văn bản có thể

bị nghiêng hay cong, do đó ảnh hƣởng đến chất lƣợng nhận dạng. Hơn nữa, một
số ký tự chỉ có thể phân biệt với nhau căn cứ vị trí của chúng đối với đƣờng
thẳng đáy. Có một số phƣơng pháp xác định góc nghiêng văn bản: projection
profile, nearest neighbors clustering, cross correlation method between lines,
Hough Transform, Attractive Repulsive Neural Network.


Hiệu chỉnh ký tự nghiêng (slant normalization)
Chữ nghiêng thể hiện bằng góc giữa nét dài nhất trong một từ và trục

đứng. Chuẩn hoá chữ nghiêng nhằm đƣa tất cả các ký tự về một dạng thống
nhất. Phƣơng pháp phổ biến nhất là tính góc trung bình của các nét gần thẳng
đứng nhất. Một cách khác là tính projection profiles các góc so với trục
thẳng đứng.



Hiệu chỉnh kích thƣớc chữ (size normalization)
Là việc đƣa tất cả các ký tự về cùng một cỡ chữ. Có thể sử dụng phép

hiệu chỉnh kích thƣớc theo chiều dọc và chiều ngang.


Phân ngƣỡng (thresholding)
Để nhận dạng văn bản thì bộ nhận dạng chỉ quan tâm đến màu nền và

màu chữ của ảnh. Phân ngƣỡng chuyển ảnh đa cấp xám hay ảnh màu thành ảnh
đen trắng (binary) nhằm làm cho việc nhận dạng đƣợc dễ dàng, không bị ảnh
hƣởng bởi mức độ xám của điểm ảnh. Phân ngƣỡng còn làm giảm bộ nhớ cần để
lƣu trữ ảnh và tăng tốc độ xử lý. Có hai loại ngƣỡng: tổng thể (global) và cục bộ
(local). Phân ngƣỡng tổng thể tìm một ngƣỡng cho tồn bộ ảnh văn bản, thƣờng

- 21 -


dựa trên ƣớc lƣợng giá trị màu nền từ biểu đồ tần suất cƣờng độ sáng của ảnh.
Phân ngƣỡng cục bộ sử dụng các giá trị khác nhau cho mỗi điểm ảnh dựa trên
thông tin cục bộ của các điểm ảnh lân cận nó.


Làm mảnh (thinning)
Làm mảnh làm giảm kích thƣớc của ảnh, đồng thời trích chọn thơng tin về

hình dạng của ký tự. Có hai cách tiếp cận chính: dựa vào điểm ảnh (pixel wise)
và không dựa vào điểm ảnh (non-pixel wise). Pixel wise xử lý cục bộ và tuần tự
ảnh cho đến khi xƣơng của ký tự chỉ còn lại một điểm. Phƣơng pháp này rất
nhạy cảm với nhiễu và dễ làm biến dạng ký tự. Non-pixel wise sử dụng thông

tin tổng thể về ký tự trong khi làm mảnh. Nó trực tiếp tìm điểm trung vị hay
đƣờng thẳng giữa của ký tự mà không xem xét tất cả các điểm ảnh riêng lẻ. Có
thể sử dụng phƣơng pháp làm mảnh dựa trên phân cụm: xƣơng của ký tự chính
là các tâm cụm. Có thể làm mảnh dựa trên các điểm mút, điểm giao, điểm uốn.

1.3.2. Phân tích trang văn bản
Phân tích trang văn bản (Segmentation hay Page Layout Analysis) là chia
nhỏ ảnh văn bản thành các thành phần nhỏ hơn có cùng cấu trúc. Đây là một giai
đoạn rất quan trọng vì tách đƣợc ở mức độ dòng, từ hay ký tự trực tiếp quyết
định mức độ nhận dạng ký tự. Kết quả phép tách đúng hay sai quyết định kết
quả nhận dạng. Có hai loại phân tích văn bản:
 External Segmentation: là việc tìm ra các thành phần ký tự khác nhau
nhƣ đoạn, câu hay từ, văn bản hay phi văn bản.
 Internal Segmentation: là việc tìm ra các ký tự riêng lẻ. Việc này đặc
biệt khó trong chữ viết tay thảo.
1.3.2.1. External Segmentation
External Segmentation là việc phân chia cấu trúc của trang thành các đơn
vị lơ gíc (các vùng có cùng cấu trúc). Đây là khâu trọng yếu của phân tích cấu

- 22 -


trúc văn bản (document layout analysis) nhằm cung cấp cho bộ nhận dạng các
vùng có cấu trúc giống nhau và phục hồi văn bản sau khi nhận dạng về định
dạng ban đầu. External Segmentation gồm hai giai đoạn: giai đoạn một là phân
tích cấu trúc (structural analysis): tách ảnh văn bản thành các thành phần (đoạn,
dòng, từ). Giai đoạn hai là phân tích chức năng (functional analysis): sử dụng vị
trí, kích thƣớc, các luật về trình bày để gán nhãn chức năng cho các thành phần
(tiêu đề, tóm tắt, …). Có hai cách tiếp cận để thực hiện External Segmentation:
 Cách tiếp cận từ trên xuống (top-down): tách một trang thành các thành phần

nhỏ hơn bằng các phép cắt theo X và theo Y, bắt đầu từ các thành phần lớn
cho đến các thành phần nhỏ hơn, cuối cùng đạt đƣợc ký tự riêng lẻ. Tiếp cận
theo hƣớng này có các phƣơng pháp: sử dụng phép chiếu nghiêng, phân tích
khoảng trống trắng. Ƣu điểm lớn nhất của phƣơng pháp phân tích từ trên
xuống là nó dùng cấu trúc tồn bộ trang để giúp cho phân tích định dạng
đƣợc nhanh chóng. Đây là cách tiếp cận hiệu quả cho hầu hết các dạng trang.
Tuy nhiên, với các trang khơng có các biên tuyến tính và có sơ đồ lẫn cả bên
trong và quanh văn bản, các phƣơng pháp này có thể khơng thích hợp. Ví dụ,
nhiều tạp chí tạo văn bản quanh một sơ đồ ở giữa, vì thế văn bản đi theo
những đƣờng cong của đối tƣợng trong sơ đồ chứ không đi theo
đƣờng thẳng.
 Cách tiếp cận từ dƣới lên (bottom-up): xây dựng đệ qui các vùng đồng nhất
từ các thành phần nhỏ hơn, tới khi mọi khối trên trang đƣợc xác định, dựa
trên phép xử lý các điểm ảnh và các thành phần liên thơng. Ví dụ nhƣ
phƣơng pháp Docstrum sử dụng phƣơng pháp phân cụm k-nearest neighbor.
Tuy nhiên khơng có một phƣơng pháp nào điển hình cho mọi kỹ thuật phân
tích dƣới lên. Ngồi ra, một số kỹ thuật khác kết hợp cả hai cách tiếp cận topdown và bottom-up.

- 23 -


Một số cách tiếp cận xem các vùng đồng nhất là vùng có cấu trúc. Khi đó
phân tích trang là việc tìm các vùng có cấu trúc trong ảnh đa mức xám hay ảnh
màu. Ví dụ Jain sử dụng phép lọc Gabor và phép tích chập mặt nạ. Doermann sử
dụng phép phân tích đa mức sóng (wavelet multiscale analysis). Nhiều cách tiếp
cận khác tập trung xử lý các điểm ảnh nền hay các dấu cách trắng. Các kỹ thuật
này bao gồm X-Y tree, phép chiếu điểm ảnh (pixel based projection profile),
phép chiếu các thành phần liên thông (connected component based projection
profile), theo dõi dấu cách (white space tracing), làm mảnh dấu cách (white
space thinning).

Trong [32], các tác giả đã sử dụng cách tiếp cận từ dƣới lên để phân tích
trang văn bản hỗn hợp thành các thành phần nhờ việc sử dụng khoảng cách
Hausdorff giữa các đối tƣợng ảnh thông qua quan hệ Q θ. Ban đầu các đối tƣợng
ảnh đƣợc tách bởi chu tuyến ngồi. Sau đó các đối tƣợng có kích thƣớc hình chữ
nhật phủ nhỏ hơn một ngƣỡng nào đó sẽ đƣợc nhóm với nhau theo lân cận gần
nhất dựa vào việc sử dụng khoảng cách Hausdorff thông qua quan hệ Q θ để tạo
ra các khối. Còn các đối tƣợng ảnh còn lại sẽ đƣợc tiếp tục phân tích nhƣ là đối
với một trang văn bản với kích thƣớc nhỏ hơn.
Trong [32], việc chọn ngƣỡng θ là thủ công, dựa trên kinh nghiệm của
ngƣời sử dụng. Để nâng cao chất lƣợng phân tích trang văn bản, trong [33], các
tác giả đã sử dụng các tập mẫu văn bản. Thuật tốn trƣớc hết tính khoảng cách
Hausdorff giữa các đối tƣợng ảnh. Sau đó lập biểu đồ tần suất của các khoảng
cách này. Ngƣỡng θ đƣợc lựa chọn trong các giá trị hθ tƣơng ứng là các đỉnh
trong biểu đồ tần suất chính là các giá trị ứng với nhiều phần tử cùng loại nhất.
Với ngƣỡng θ đã chọn, tiến hành phân vùng theo tiếp cận từ dƣới lên nhờ việc
sử dụng khoảng cách Hausdorff giữa các đối tƣợng ảnh thông qua quan hệ Q θ.
Kết quả thu đƣợc là tập hợp các hình chữ nhật rời nhau thể hiện các vùng
trong ảnh.

- 24 -


Việc lựa chọn ngƣỡng θ phù hợp nhất sẽ đƣợc tiến hành thông qua việc
đánh giá sự sai lệch của văn bản so với mẫu. Với mỗi ngƣỡng θ, ta sẽ tìm đƣợc
mẫu tƣơng ứng có độ lệch nhỏ nhất. Ngƣỡng θ và văn bản mẫu tƣơng ứng có độ
sai lệch nhỏ nhất trong số các độ lệch sẽ đƣợc lựa chọn. Nếu sai số nhỏ nhất
chấp nhận đƣợc (nhỏ hơn một ngƣỡng nào đó) thì số vùng của văn bản sẽ đƣợc
xác định tƣơng ứng với số vùng của văn bản mẫu đƣợc lựa chọn. Khi đó văn bản
sẽ đƣợc phân tích trang dựa theo các thuộc tính của văn bản mẫu. Trƣờng hợp
ngƣợc lại có thể xem văn bản không thuộc tập văn bản mẫu và bổ sung văn bản

đang xét vào tập mẫu.
Việc đánh giá độ sai lệch của văn bản so với văn bản mẫu sẽ đƣợc tiến
hành thông qua việc xây dựng lƣới tựa các vùng chữ nhật cơ bản của mẫu và
các vùng chữ nhật của văn bản cần đánh giá thu đƣợc nhờ sử dụng thuật toán
pageAnalysis trong [32] với ngƣỡng đƣợc chọn tự động (là đỉnh của biểu đồ tần
suất). Thuật toán cụ thể nhƣ sau:
Vào: + Ảnh văn bản I cần phân tích
+ Tập cấu trúc văn bản mẫu tempStructs
+ Ngƣỡng Tolerance
Ra:

Cấu trúc trang văn bản cần phân tích pageStruct

Phƣơng pháp:
1. Tính biểu đồ tần suất theo khoảng cách Hausdorff
+ Tách các đối tƣợng dựa vào chu tuyến ngồi
+ Tính khoảng cách Hausdorff giữa các đối tƣợng (các chu tuyến)
+ Xây dựng biểu đồ tần suất theo khoảng cách đã tính
2. Với biểu đồ tần suất đã xây dựng, chọn ngƣỡng θ (chọn lần lƣợt từng
đỉnh của biểu đồ)
3. Phân tích trang văn bản theo thuật toán pageAnalysis theo quan hệ Q θ
với ngƣỡng θ chọn ở bƣớc 2.

- 25 -


4. Đánh giá độ lệch của cấu trúc trang văn bản vừa đƣợc phân tích ở bƣớc
3 với các cấu trúc trang văn bản mẫu và tìm ra cấu trúc trang tƣơng
ứng có độ lệch nhỏ nhất.
5. Lặp lại bƣớc 2 đến bƣớc 4 chừng nào cịn tìm đƣợc θ theo các đỉnh biểu

đồ tần suất.
6. Chọn ra mẫu có độ lệch nhỏ nhất trong số các độ lệch nhỏ nhất tìm
đƣợc ở bƣớc 4 ứng với các θ lựa chọn.
7. Kiểm tra nếu các độ lệch nhỏ nhất tìm đƣợc trong bƣớc 6 nhỏ hơn
ngƣỡng Tolerance thì kết luận văn bản cần phân tích có dạng là mẫu
có độ lệch nhỏ nhất tƣơng ứng. Trong trƣờng hợp ngƣợc lại có thể kết
luận văn bản khơng nằm trong các mẫu văn bản cho trƣớc và có thể bổ
sung văn bản này với các cấu trúc tìm đƣợc vào tập mẫu cấu trúc
văn bản.
1.3.2.2. Internal Segmentation
Internal Segmentation là việc phân rã ảnh của một chuỗi các ký tự thành
các ảnh con của các ký tự riêng lẻ. Việc tách chữ viết tay thảo và chữ dính là cực
kỳ khó khăn. Có ba chiến lƣợc tách ký tự:
Explicit Segmentation: việc tách dựa trên các đặc trƣng “giống ký tự”.
Q trình này cịn gọi là “dissection”. Các phƣơng pháp dissection sử dụng hiện
nay là: analyses of contour, white space and pitch, vertical projection analysis,
connected component analysis, pitch and character size estimation, và
landmarks. Điểm cắt tối ƣu cịn đƣợc tìm bằng các luật heuristic và cịn dựa trên
ngữ cảnh ngơn ngữ. Mặc dầu các phƣơng pháp đều thu đƣợc các kết quả đáng
kể, không phƣơng pháp nào cho một kết quả hoàn hảo đối với một ảnh văn bản
có nhiều nhiễu và nhiều loại font. Có thể một giải thuật tách tối ƣu phải có sự
kết hợp của các giải thuật trên tuỳ theo mỗi đầu vào.

- 26 -


Implicit Segmentation: chiến lƣợc tách là dựa trên nhận dạng. Nó tìm
kiếm các thành phần ảnh khớp với lớp xác định trƣớc.
Mixed strategies: là loại lai giữa Explicit và Implicit Segmentation. Áp
dụng giải thuật dissection, nhƣng lại “over segment”, nghĩa là cắt ảnh thành các

thành phần đủ nhỏ để đƣờng biên cắt đúng chắc chắn nằm trong các lát cắt.
Mảnh tối ƣu sẽ đƣợc tìm trong tập con các lát cắt. Việc phân lớp dựa trên việc
đánh giá các tập con này và chọn mảnh có triển vọng nhất.
Để tách các ký tự viết tay dính nhau, trong [34], trƣớc tiên cần xác định
các vị trí cắt có thể có trên ảnh gốc của từ. Sau đó duyệt lần lƣợt từng vị trí cắt,
ảnh sẽ đƣợc chia làm hai phần: phần ảnh đƣợc cắt ra và phần ảnh còn lại. Sau đó
nhận dạng phần ảnh đƣợc cắt ra, kiểm tra ký tự nhận dạng đƣợc có hợp lý
khơng. Nếu có thì ghi nhận vị trí cắt hiện hành và lặp lại với phần ảnh cịn lại.
Nếu nhát cắt khơng hợp lý thì loại bỏ nhát cắt này và chọn nhát cắt tiếp theo.
Nếu ảnh một ký tự trong từ có nhiều nhát cắt hợp lý thì sẽ nhận đƣợc nhiều ký
tự kết quả. Kết quả là nhận đƣợc một cây các từ ứng cử viên. Các từ này sẽ đƣợc
đƣa vào bộ phân tích ngữ cảnh để tìm ra từ đúng chính tả và có xác suất xuất
hiện lớn nhất.
Ngƣời ta còn sử dụng mạng nơ ron MLP để tách các ký tự dính thơng qua
một q trình huấn luyện các cặp ký tự dính nhau [35]. Ngồi ra mạng nơ ron
SOM là loại mạng tự tổ chức cũng đƣợc dùng để tách các ký tự dính. Một
phƣơng pháp phổ biến khác để tách ký tự dính là “The Shortest Path” [36].

1.3.3. Trích chọn đặc trƣng
Trích chọn đặc trƣng là một trong những khâu quan trọng nhất của hệ
thống nhận dạng. Trong trƣờng hợp đơn giản nhất, toàn bộ ảnh đa mức xám hay
ảnh nhị phân của từ hay ký tự đƣợc đƣa vào bộ nhận dạng. Nhiệm vụ của trích
chọn đặc trƣng là tìm một tập các đặc trƣng nhỏ gọn để phân biệt một lớp với

- 27 -


các lớp khác trong khi vẫn loại trừ đƣợc các khác biệt trong cùng một lớp. Một
tập các đặc trƣng phản ánh các tính chất cơ bản của ký tự sẽ giúp bộ nhận dạng
nhận đƣợc một số lớn các kiểu font chữ khác nhau và làm cho quá trình học của

mạng dễ dàng hơn. Có ba nhóm phƣơng pháp trích chọn đặc trƣng chính:
o Biến đổi tổng thể và mở rộng chuỗi (Global Transformation and Series
Expansion).
o Các phƣơng pháp thống kê (Statistical Representation).
o Các phƣơng pháp hình học và cấu trúc (Geometrical and Topological
Representation).
1.3.3.1. Biến đổi tổng thể và mở rộng chuỗi
Một tín hiệu liên tục thƣờng chứa nhiều thông tin hơn cần thiết cho việc
nhận dạng. Một cách để biểu diễn tín hiệu là kết hợp tuyến tính các chuỗi của
các hàm đơn giản hơn. Các hệ số của các phép kết hợp tuyến tính cho ta một
cách biểu diễn cô đọng gọi là biến đổi (transformation) hoặc/và mở rộng chuỗi
(series expansion). Biến đổi tổng thể và mở rộng chuỗi không bị ảnh hƣởng bởi
các biến dạng nhƣ tịnh tiến (translation) và quay (rotations). Các phép biến đổi
tổng thể và mở rộng chuỗi phổ biến trong lĩnh vực nhận dạng văn bản là:
Fourier Transforms: Khả năng lý thú nhất của biến đổi này là nhận dạng
các ký tự bị dịch chuyển (position-shifted), vì nó nhận đƣợc phổ cƣờng độ
(magnitude spectrum) và bỏ qua pha.
Gabor Transform: là một dạng khác của windowed Fourier Transform.
Nó dùng một cửa sổ có kích thƣớc khơng phải là một số rời rạc mà đƣợc xác
định bởi một hàm Gaussian.
Wavelets: biến đổi sóng là một kỹ thuật mở rộng chuỗi mà cho phép biểu
diễn tín hiệu ở các mức phân giải khác nhau. Các đoạn ảnh văn bản, mà có thể

- 28 -


×