BÁO CÁO THỰC TẬP TỐT NGHIỆP : Nghiên cứu nhận dạng chữ số viết tay sử dụng logic mờ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (510.87 KB, 62 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
---oOo---

BÁO CÁO THỰC TẬP TỐT
NGHIỆP
Đề tài: Nghiên cứu nhận dạng chữ số viết tay sử dụng logic mờ

Lớp KTPM1 – K5
Giảng viên

Sinh viên

Ths. Nguyễn Lan Anh

1
2

Nguyễn Quang Hưng
Nguyễn Hoàng Long

1

LỜI CẢM ƠN
Đề tài “Nghiên cứu nhận dạng chữ số viết tay sử dụng logic mờ” với sự tìm
hiểu và quá trình thực hiện của các thành viên trong nhóm, cùng với sự chỉ bảo và
hướng dẫn của của thầy giáo. Dù trong quá trình thực hiện đề tài còn nhiều khó khăn
do mới tiếp cận với thực tiễn và thời gian cho phép nhưng chúng em đã nỗ lực cố
gắng, cùng nhau trao đổi, thảo luận, tìm tòi kỹ lưỡng những vấn đề khía cạnh khó và
đã hoàn thành tốt đề tài được giao.

Qua đây chúng em xin chân thành cám ơn cô Nguyễn Lan Anh đã tận tình chỉ
bảo, hướng dẫn thực hiện đề tài, đồng thời đưa ra những lời khuyên và những kinh
nghiệm quý báu để chúng em có thể hoàn thành thật tốt đề tài này. Kết thúc đề tài,
nhóm chúng em rất mong nhận được những ý kiến đóng góp từ phía thầy cô và các bạn
để có thể hoàn thiện hơn đề tài được giao.

Nhóm sinh viên
Nguyễn Quang Hưng
Nguyễn Hoàng Long

2

MỤC LỤC:

3

LỜI NÓI ĐẦU
Nhận dạng ký tự là kỹ thuật được sử dụng để chuyển đổi
ảnh văn bản sang dạng văn bản có thể chỉnh sửa trong máy
tính. Nó được ứng dụng trong công tác quét và lưu trữ các tài
liệu cũ, đẩy nhanh việc nhập dữ liệu vào máy với ít lỗi hơn.
Việc nhận dạng chữ in bằng tay, chữ thảo bằng tay, và
thậm chí những phiên bản đánh máy được in ra của vài chữ
(đặc biệt là những chữ có số chữ cái lớn), vẫn còn là một đề tài
của các nghiên cứu.
Các hệ thống nhận dạng ký tự viết tay đã đạt được những
thành công lớn về mặt thương mại trong những năm gần đây.
Trong số đó là thiết bị nhập cho những thiết bị hỗ trợ cá

nhân (PDA)

như

những

phần

mềm

chạy trên Palm

OS.

hãng Apple Newton đi tiên phong trong công nghệ này. Những
giải thuật sử dụng trong những thiết bị này sử dụng những ưu
điểm rằng thứ tự, tốc độ, và hướng của những đoạn dòng đơn
lẻ đã được biết trước. Tương tự, người dùng có thể được yêu
cầu sử dụng chỉ một vài loại kiểu chữ nhất định. Những
phương pháp này không thể dùng được trong phần mềm scan
tài liệu giấy, do đó sự nhận dạng chính xác văn bản in bằng
tay vẫn là một vấn đề lớn đang được bỏ ngỏ. Với mức chính
xác từ 80% đến 90%, những ký tự in bằng tay sạch sẽ có thể
được nhận ra, nhưng độ chính xác đó vẫn tạo ra hàng tá lỗi
mỗi trang, khiến cho công nghệ đó chỉ hiệu quả trong vài
trường hợp nào đó. Sự đa dạng của OCR hiện nay được biết
đến

trong

công

nghiệp

là

ICR,

(Intelligent

Character

Recognition - Nhận dạng Ký tự Thông minh).
Nhận dạng chữ viết tay là một lĩnh vực nghiên cứu sôi
nổi, với tỷ lệ nhận dạng thậm chí còn thấp hơn cả văn bản in
bằng tay. Tỷ lệ nhận dạng cao hơn của những bản viết tay
chung chung hầu như là không thể nếu không sử dụng thông
tin về ngữ pháp và văn cảnh. Ví dụ như, nhận dạng cả một
chữ từ một cuốn từ điển thì dễ hơn là việc cố gắng lấy ra
những ký tự rời rạc từ đoạn đó. Đọc dòng Tổng cộng của một

4

tờ séc (luôn luôn được viết bằng số) là một ví dụ trong đó sử
dụng những từ điển nhỏ hơn có thể tăng tỷ lệ nhận dạng rất
nhiều. Kiến thức về ngữ pháp của một ngôn ngữ được scan
cũng có thể giúp xác định một từ có thể là động từ hay danh
từ, ví dụ như vậy, sẽ cho phép độ chính xác cao hơn. Hình
dạng của chữ viết tay bản thân nó đã không chứa đủ thông tin

về để nhận dạng chính xác (hơn 98%) tất cả những đoạn chữ
viết tay.

5

NỘI DUNG
Chương 1:

Cơ sở lý thuyết

1.1 Tổng quan về hệ thống nhận dạng
Nhận dạng đối tượng (Pattern Recognition) có thể định
nghĩa như là một quá trình phân loại các đối tượng được biểu
diễn theo một mô hình nào đó và gán cho chúng vào một lớp
dựa theo những quy luật và những mẫu chuẩn, hoặc cũng có
thể định nghĩa đó là phương tiện để xây dựng một hệ thống tin
học có khả năng "Cảm nhận - nhận thức - nhận biết" các đối
tượng vật lý gần giống khả năng của con người. Nhận dạng có
gắn với ba khả năng trên là lĩnh vực hết sức rộng lớn có liên
quan đến việc xử lý tín hiệu đầu vào trong không gian nhiều
chiều, mô hình hoá bài toán, lý thuyết xử lý ảnh, cơ sở dữ liệu,
phương pháp ra quyết định... Một hệ thống nhận dạng hoàn
chỉnh phải có khả năng thể hiện được quá trình nhận thức của
người qua các mức:
Mức cảm nhận: ở đây là sự cảm nhận được sự tồn tại
các đối tượng quan sát hay đối tượng mà hệ thống cần nhận
dạng. Mức này cũng đưa ra quá trình thu nhận số liệu qua các
bộ cảm biến trong hệ thống nhận dạng. Ví dụ trong hệ thống
nhận dạng xử lý ảnh, đối tượng là các file ảnh lưu trữ dưới

dạng số và được thu nhận đầu vào qua scanner hoặc các file
ảnh.
Mức nhận thức: ở đây biểu diễn quá trình học, mô hình
hoá

đối

tượng

để

tiến

tới

hình

thành

sự

phân

lớp

(classification).
Mức nhận biết: từ đối tượng quan sát được có thể trả lời
nhận biết đối tượng là gì? thuộc vào lớp nào trong các lớp đã
biết. Đây chính là quá trình ra quyết định.

1.1.1

Đối tượng nhận dạng

Đối tượng nhận dạng (pattern object) được coi như là một
thực thể vật lý tồn tại mà con người có thể cảm nhận được
bằng sự miêu tả hoặc đo lường... Ví dụ như hình ảnh, âm

6

thanh được cảm nhận bằng mắt và tai, và nó có thể thu nhận
qua các bộ cảm biến như máy quay phim, máy ảnh số. Có hai
loại đối tượng chính:
-

Đối tượng được biểu diễn định lượng là những đối
tượng mà đặc tính của nó được đo lường và biểu
diễn bởi các con số.

-

Đối tượng được biểu diễn định tính là những đối
tượng mà đặc tính của nó được biểu diễn bởi các
dạng miêu tả hay đặc trưng bởi các ký hiệu.

Trong các đối tượng nghiên cứu, tìm ra được tập hợp các
đối tượng có cùng chung một hoặc nhiều đặc trưng (thuộc
tính) thì tập hợp đối tượng đó gọi là một lớp đối tượng (class).
Quá trình bao gồm việc xác định các lớp của đối tượng

sao cho có thể phân biệt được các lớp với nhau là quá trình
hình thành sự phân lớp, nhờ quá trình này hệ thống sau khi
tiếp nhận một đối tượng ở đầu vào sẽ nhận biết được và trả lời
đối tượng đó thuộc lớp nào (đây là quá trình ra quyết định). Sự
phân lớp là một quá trình cơ bản của nhận dạng.
Quá trình xuất phát từ sự biểu diễn, quan sát đối tượng
trong quá trình cảm nhận để có thể tìm ra những đặc tính đặc
trưng cho đối tượng vật lý được gọi là quá trình trích chọn đặc
trưng hay còn gọi là khâu mô hình hóa đối tượng. Quá trình
trích chọn đặc trưng này rất khác nhau tùy thuộc vào đối
tượng cần nhận dạng.
Trong bài toán nhận dạng chúng ta quan tâm đến:
-

Không gian biểu diễn: là tập hợp các ký hiệu, số liệu
miêu tả đối tượng sau quá trình cảm nhận.

-

Không gian đặc trưng: là tập hợp các miêu tả đặc
trưng sau quá trình trích chọn đặc trưng.

-

Không gian diễn dịch: là tập hợp các tên của đối
tượng hoặc tên các lớp đối tượng cho phép nhận
biết đối tượng quan sát thuộc về lớp nào.

1.1.2

Mô hình hóa bài toán nhận dạng
7

Gọi X là đối tượng nhận dạng: X=(x1, x2,...., xn), các xi ∈R
Gọi χ là không gian biểu diễn đối tượng: χ = {X1, X2,.....
Xm}.
Gọi Ω là không gian diễn dịch, hay là tập các tên gọi của
các lớp C1, C2, ..., Cn
Ω = {ω1, ω2,...., ωn}
Quá trình nhận dạng đối tượng là tìm quy luật ξ ánh xạ từ
không gian biểu diễn χ sang không gian diễn dịch Ω:
ξ : χ → Ω sao cho Xj ∈ Ck (đối tượng Xj thuộc vào lớp Ck).
Như vậy đối với hệ thống nhận dạng, các đối tượng nhận
dạng X đã biết qua quan sát, đo lường, cảm nhận... còn không
gian diễn dịch Ω và quy luật ξ có thể được biết trước trong cơ
sở tri thức (ví dụ trong nhận dạng chữ viết), hoặc có thể là
những điều chưa biết. Bài toán ở đây chính là xây dựng một hệ
thống tự cấu trúc, đòi hỏi một quá trình học từ các đối tượng
quan sát thu nhận được (xác định không gian Ω) đến việc tìm
quy luật ξ (ra quyết định).

1.1.3

Các vấn đề cơ bản của hệ thống nhận dạng

Quá trình nhận dạng bao gồm ba giai đoạn chính:
-

Lựa chọn mô hình biểu diễn đối tượng.

-

Lựa chọn luật ra quyết định (phương pháp nhận
dạng) và suy diễn quá trình học.

-

Nhận dạng.

Khi mô hình biểu diễn đối tượng đã được xác định, quá
trình nhận dạng chuyển sang giai đoạn học. Học là giai đoạn
rất quan trọng, thao tác học nhằm cải thiện, điều chỉnh việc
phân hoạch tập đối tượng thành các lớp.
Việc nhận dạng chính là tìm ra quy luật và các thuật toán
để có thể gán đối tượng nhận dạng vào một lớp hay nói một
cách khác là gán cho đối tượng một tên. Khi số lớp và các quy
luật đã biết trước, ta gọi đó là học có mẫu và ngược lại gọi là
học không có mẫu hay là tự học.

8

1.1.3.1 Mô hình hóa đối tượng thu nhận (trích chọn
đặc trưng)
Gọi X là đối tượng nhận dạng: X = (x 1, x2, ...., xn), các xi ∈
R
χ = {X} là không gian quan sát thu nhận.
γ = {Y} là không gian đặc tính.
Quá trình mô hình hóa đối tượng hay trích chọn đặc trưng

là quá trình tìm ánh xạ ψ : χ → {X} sao cho các đối tượng Y
được biểu diễn bởi các đặc trưng cơ bản. Các đặc trưng cơ bản
của một đối tượng phải đạt được các chỉ tiêu sau:
-

Giảm được thứ nguyên của không gian biểu diễn.

-

Đảm bảo được lượng thông tin đủ để phân biệt các
đối tượng.

-

Cô đọng các đặc trưng chính.

Giải quyết một quá trình nhận dạng có liên quan mật
thiết đến kiểu mô hình hóa mà ta sử dụng để đặc tả đối tượng.
Trong nhận dạng người ta phân chia làm hai họ lớn:
-

Họ mô tả theo tham số (định lượng).

-

Họ mô tả theo cấu trúc (định tính).

1.1.3.2 Mô hình tham số
Ta sử dụng một vector để đặc tả đối tượng. Một phân tử
của vector mô tả một đặc trưng của đối tượng. Giả sử đối

tượng nhận dạng X = (x1, x2, ...., xn), các xi ∈ R thì χ = {X} là
không gian vector n chiều.
Trong các đặc trưng hình học, người ta hay sử dụng chu
tuyến, đường bao, diện tích. Trong bài toán nhận dạng chữ các
tham số là các dấu hiệu: số điểm chạc ba, chạc tư, số điểm
chu trình, số điểm ngoặt, số điểm kết thúc. Ví dụ như chữ A có
2 điểm chạc ba, 3 điểm kết thúc.

1.1.3.3 Mô hình cấu trúc
Cách tiếp cận của mô hình này dựa vào việc tìm kiếm
trong ngôn ngữ tự nhiên. Để mô tả đối tượng, người ta dùng

9

một số dạng nguyên thủy như đoạn thẳng, cung v.v... Một hình
chữ nhật được định nghĩa gồm 04 đoạn thẳng vuông góc với
nhau từng đôi một. Trong mô hình này người ta sử dụng một
bộ ký hiệu kết thúc Vt. Thuật ngữ này vay mượn trong lý
thuyết ngôn ngữ hình thức. Người ta cũng sử dụng một bộ ký
hiệu không kết thúc gọi là Vn. Chúng ta cần xây dựng một tập
các luật sản xuất dựa vào mối quan hệ giữa các dạng nguyên
thủy và ngữ cảnh. Trong cách tiếp cận này, người ta chấp
nhận một tiên đề cho rằng: cấu trúc một dạng là kết quả của
việc áp dụng luật sản xuất theo nguyên tắc xác định bắt đầu
từ một dạng nào đó gọi là dạng bắt đầu. Một cách hình thức,
ta có thể coi mô hình này tương đương với một văn phạm G =
(Vt, Vn, P, S) với:
Vt : là bộ ký hiệu kết thúc.
Vn : là bộ ký hiệu không kết thúc.

P : là luật sản xuất.
S : là dạng (ký hiệu bắt đầu).

1.1.3.4 Quá trình học
Quá trình học thực chất là quá trình nhóm các đối tượng
vào các lớp có cùng một số đặc trưng chính, có một số phương
pháp sau:
Học có mẫu (supervised learning): là quá trình học được
bắt đầu bởi các mẫu đã tồn tại sự phân lớp đối với một số đối
tượng mẫu, hoặc đã biết đặc trưng của các lớp đối tượng. Ví
dụ bài toán nhận dạng chữ viết, ta đã biết trước tập quy luật
và tập tên của các đối tượng nhận dạng (có các lớp chữ số A
đến Z, 0,... 9...). Học có mẫu nhằm định nghĩa được các lớp
trong trường hợp tổng quát không gian đối tượng hay nói cách
khác xác định được phương trình biên giới giữa các lớp để sao
cho có thể nhận biết được một đối tượng thuộc về lớp nào.
Trong trường hợp này ta đã biết T = {X j, ωk} với j =
[1,..,M], k = [1,..,N] tức là đã biết đối tượng X j thuộc vào lớp ωk
với mọi i.

10

Sự phân lớp đối tượng qua đường biên giới
Vấn đề là ở chỗ thiết kế một hệ thống để có thể so sánh
đối tượng cần nhận dạng với các mẫu chuẩn và quyết định
gán cho chúng vào một lớp. Việc đối sánh nhờ vào các thủ tục
ra quyết định dựa trên một công cụ gọi là hàm phân lớp hay
hàm ra quyết định.
Học không có mẫu (Unsupervised learning): quá trình học

được bắt đầu khi sự phân lớp chưa hình thành và không có
mẫu. Quá trình học nhằm tiến hành nhóm dần dần trên cơ sở
các đối tượng đã quan sát có độ tương tự gần nhau để hình
thành sự phân lớp (clustering → class).
Có nhiều phương pháp áp dụng trong trường hợp học
không mẫu như phương pháp thuật toán hội tụ, đạt được sự
phân lớp.

11

1.1.3.5 Quá trình ra quyết định (hàm quyết định)
Quá trình ra quyết định (decision) là tìm ra một luật trên
cơ sở đã biết sự phân lớp các đối tượng cũng như đặc trưng
của các lớp để quyết định một đối tượng quan sát (đối tượng
thu nhận) ở đầu vào sẽ thuộc một lớp nào đó hoặc đồng nhất
với một phần tử mẫu nào đó.
Các hàm ra quyết định thường được xây dựng dựa trên
khái niệm khoảng cách hay dựa vào xác suất có điều kiện. Lẽ
tự nhiên, khoảng cách là một công cụ rất tốt để xác định xem
các đối tượng có "gần nhau hay không". Nếu khoảng cách nhỏ
hơn một ngưỡng nào đó ta coi hai đối tượng so sánh là giống
nhau và gộp chúng vào một lớp. Ngược lại, nếu khoảng cách
lớn hơn ngưỡng, có nghĩa là chúng khác nhau và ta tách thành
hai lớp.
Trong một số trường hợp, người ta dựa vào xác suất có
điều kiện để phân lớp cho đối tượng. Lý thuyết xác suất có
điều kiện đã được Bayesian nghiên cứu và chúng ta có thể áp
dụng lý thuyết này để phân biệt đối tượng.
Gọi P(X/Ci) là xác suất để có X, biết rằng có xuất hiện lớp

Ci.
P(Ci/X) là xác suất có điều kiện để X thuộc lớp Ci.
Với X là đối tượng nhận dạng, Ci là các lớp đối tượng.
Quá trình học cho phép ta xác định được P(X/C i) và nhờ
công thức Bayer về xác suất có điều kiện áp dụng trong điều
kiện nhiều biến, ta sẽ tính được P(Ci/X) theo công thức sau:
P (C i / X ) =

P ( X / C i ) P (C i )
n

∑ P (C / X
i =1

i

=

) P (C i )

P ( X / C i ) P (C i )
P( X )

Nếu P(Ci,X) > P(Ck/X) với ∀i ≠ k thì X ∈ Ci. Tùy theo các
phương pháp nhận dạng khác nhau, hàm phân biệt trên sẽ có
tác dụng khác nhau.

1.1.4

Sơ đồ tổng quan của hệ thống nhận dạng.

12

Qua khảo sát ở phần trên chúng ta có thể biểu diễn sơ đồ
tổng quan của hệ thống nhận dạng như hình sau:

Sơ đồ tổng quan của hệ thống nhận dạng.
Để đánh giá chất lượng nhận dạng, ta sử dụng chỉ số
nhận dạng τ được đo bằng tỷ số giữa đối số đối tượng nhận
dạng đúng và tổng số các đối tượng quan sát thu nhận. Các hệ
thống nhận dạng có τ ≥ 90% là những hệ thống đạt yêu cầu về
chất lượng. Giá trị τ không thể đạt 100% vì có sự tồn tại sai số
tự nhiên đối với những đối tượng sát biên và trên thực tế các
đối tượng quan sát thu nhận là luôn luôn bị tác động bởi nhiễu.
Thông thường để đánh giá hệ thống τ, hệ thống yêu cầu một
tập các đối tượng quan sát để thử và đánh giá chất lượng đối
tượng quan sát được nhận dạng khác với tập các đối tượng để
học.

1.2 Bài toán nhận dạng ký tự
1.2.1

Mở đầu

Năm 1929, Tausheck đã được cấp một bằng sáng chế về
nhận dạng chữ viết tại Đức và năm 1933, Handel cũng được
cấp bằng tại Mỹ. Đây là những ý tưởng đầu tiên về nhận dạng
chữ viết. Những kỳ vọng về một cỗ máy có khả năng đọc các
chữ và số thì chỉ có thể trở thành hiện thực và những năm 50
của thế kỷ 20 - khi nhân loại bước vào kỷ nguyên của máy

tính.
Những sản phẩm nhận dạng chữ viết mang tính thương
mại bắt đầu xuất hiện từ những năm 1960. Một vài phương
pháp nhận dạng đơn giản đã được đưa vào áp dụng. Có thể kể
ra một vài sản phẩm tiêu biểu là: IBM1418, IBM1428, IBM
1285, IBM 1287 của IBM, Facom 6399A của Fujitsu và H-852
của Hitachi. Kỹ thuật chủ yếu được sử dụng là phương pháp
đối sánh mẫu.

13

Vào những năm 1970, phần mềm nhận dạng chữ viết có
hiệu suất cao và giá rẻ được Hitachi đưa ra thị trường gọi là
H8959. Cũng trong thời kỳ này, những tiến bộ công nghệ cho
phép chế tạo các máy quét laser giá rẻ và chất lượng cao, một
số phần mềm khác cũng được giới thiệu, được viết chủ yếu
trên nền FORTRAN, sản phẩm nâng cấp H8959 của Hitachi đã
đạt tới độ chính xác 100% nếu được huấn luyện bằng mẫu chữ
của một người và thử nghiệm lại bằng chính chữ của người đó.
Những kỹ thuật phân tích cấu trúc đơn giản đã được tích hợp
vào các hệ thống nhận dạng thời kỳ này.
Từ giữa những năm 1970 đến những năm 1980, bắt đầu
vào kỷ nguyên của PC, máy tính giờ đây nhỏ hơn, nhanh hơn,
và rẻ hơn. Những sản phẩm nhận dạng chữ viết không ngừng
được nâng cao chất lượng. Hệ thống ASPET/71 của ETL và
Toshiba và hệ thống IBM1975 đã được thừa nhận và đưa vào
sử dụng trong công tác văn phòng. Tháng 9/1975, trung tâm
thị trường lao động - Bộ lao động Nhật Bản quyết định sử dụng
hệ thống nhận dạng chữ viết Katakana trong tất cả các hệ

thống bảo hiểm của họ.
Từ những năm 1980 trở lại đây, với những cải tiến lớn
trong công nghệ chế tạo phần cứng máy tính, với những tiến
bộ trong lĩnh vực xử lý thông tin, những bước đột phá trong
việc ứng dụng công nghệ tri thức, các hệ thống nhận dạng chữ
viết đang ngày một hướng tới sự hoàn thiện. Với sự đóng góp
của nhiều ngành khoa học, đặc biệt là Toán học và Khoa học
máy tính, nhận dạng chữ viết tập trung nghiên cứu phát triển
nhằm mục tiêu nâng cao tính ổn định và tính linh hoạt, có khả
năng tự thích nghi với các dạng chữ viết khác lạ.
Người ta quan tâm tới lĩnh vực nhận dạng chữ viết không
chỉ vì nhu cầu cuộc sống, mà còn vì ham muốn hiểu rõ hơn
quá trình nhận thức của mình. Những phương pháp tiếp cận
khác nhau trong nhận dạng chữ viết cũng được nảy sinh từ
những cách hiểu khác nhau về cách con người đọc chữ. Theo
nhận thức của con người, E và E là có cùng một ý nghĩa trong
cảm nhận khi nhìn thấy hai mẫu chữ đó. Vậy thì liệu có hay
không một nguyên lý về sự tương đương giữa những mẫu của

14

cùng một chữ? Cho tới tận bây giờ, vẫn không có một đáp án
chung nào cho nguyên lý đó cả và bài toán này vẫn là vấn đề
trung tâm trong lĩnh vực nhận dạng mẫu. Tất cả những cố
gắng từ trước tới nay bằng các phương pháp tiếp cận khác
nhau chỉ có thể giải quyết được một phần vấn đề tuỳ theo
ngôn ngữ cụ thể. Những phương pháp tiếp cận đó có thể chia
làm hai hướng chính: Phương pháp đối sánh mẫu (template matching method) và phương pháp phân tích cấu trúc
(structure analysis)

15

1.2.2
Sơ đồ tổng quát của một hệ nhận dạng chữ
viết
Một hệ thống nhận dạng thường gồm các khối chính, phù
hợp với các giai đoạn xử lý sau:
-

Khối xử lý sơ bộ.

-

Khối tách chữ.

-

Khối nhận dạng chữ.

-

Khối phục hồi chữ (hoàn thiện về nội dung và hình
thức, chữa lỗi...).

1.2.2.1 Giai đoạn xử lý sơ bộ
Đây là giai đoạn quan trọng ảnh hưởng đến kết quả nhận
dạng. Phụ thuộc vào chất lượng ảnh được quét mà ta tiến
hành các thủ tục xử lý khác nhau. Vì quá trình xử lý sơ bộ có

thể làm chậm tốc độ xử lý của hệ thống nên nếu ảnh được

16

quét vào là tốt thì ta có thể bỏ qua bước này. Xử lý sơ bộ gồm
các bước sau:
-

Khử nhiễu.

-

Làm trơn biên chữ.

-

Làm đầy chữ.

-

Làm mảnh chữ.

-

Xoay văn bản đi một góc.

Khử nhiễu: Nhiễu là điều không thể tránh khỏi trong các
hệ thống xử lý tín hiệu. Có hai loại nhiễu là nhiễu hệ thống do
hệ thống thu nhận ảnh gây ra và nhiễu ngẫu nhiên. Dù là

nhiễu nào ta cũng phải loại bỏ hoặc làm giảm tối đa ảnh
hưởng của nó.
Làm trơn chữ: Đôi khi chất lượng ảnh quá thấp, các
đường biên không còn dáng vẻ trơn tru như ban đầu mà hình
thành các đường răng cưa. Trong trường hợp này ta phải áp
dụng một số kỹ thuật để làm trơn biên chữ, lấp đầy các chỗ
trống, xoá đi các điểm giả tạo trên biên.
Làm đầy chữ: Thủ tục làm đầy chữ áp dụng cho các chữ
số bị đứt nét một cách ngẫu nhiên. Ví dụ chữ "m" bị đứt nét dễ
bị nhận dạng nhầm thành chữ "n" hoặc chữ "r".
Làm mảnh chữ: Làm mảnh biên chữ thực chất là làm
nổi biên với độ rộng chỉ 1 pixel. Một phần tử sẽ được loại bỏ ra
khỏi biên khi nó thoả mãn một trong 2 điều kiện sau:
+ Nó là điểm đen duy nhất kết nối 2 điểm đen không kề
nhau.
+ Phần tử đen có duy nhất một hàng xóm đen ngoại trừ
không tồn tại một chuyển đổi nào tại phần tử trước nó.
Xoay văn bản đi một góc: Do văn bản lúc đưa vào máy
tính có thể bị lệch đi một góc α nào đó. Trong trường hợp này
cần tính lại toạ độ mới theo:
X' = Xcosα - Ysinα
Y' = Xsinα + Xcosα

17

1.2.2.2 Giai đoạn tách chữ
Sau khi xử lý sơ bộ, văn bản (ảnh) đã được tăng cường độ
tương phản, ta chuyển sang giai đoạn phân tách chữ. Chỉ có
thể nhận dạng đúng nếu chữ đã được tách ra khỏi văn bản. Có

nhiều thuật toán tách chữ từ đơn giản đến phức tạp áp dụng
cho các font chữ khác nhau
Tách chữ theo chiều ngang - đứng: Với chữ in thường
và in hoa, các chữ do quy định của ấn loát cần nằm trọn trong
một ô nào đó. Như vậy, quá trình tách chữ đồng nhất với việc
tìm ra khuôn chữ tại vị trí của nó trong văn bản. Quá trình này
gọi là tách chữ theo hình chữ nhật (ngang và đứng) bao quanh
chữ số. Thao tác này đơn giản và nhanh, tuy nhiên không thể
áp dụng cho mọi font chữ.
Tách chữ theo lược đồ xám: Khi máy Scanner tốt và
đối với một số font, các dòng văn bản được phân cách khá tốt,
việc tìm ra đường phân ranh giữa hai dòng là khá dễ. Song
thực tế luôn không phải là dễ nhất là với chữ Việt có dấu, các
dòng có thể bị dính hay nhoè.
Trong trường hợp này thường phân ranh giới được hiểu là
đường có ít điểm cắt nhất, như vậy cần xây dựng lược đồ xám
cho các dòng chữ và đường ngang nằm ở đáy của thung lũng
lược đồ cần tìm, kỹ thuật này có thể được áp dụng cho nhận
dạng chữ hoa.

1.2.3
Nhận dạng bằng phương pháp đối sánh
mẫu
Tên gọi phương pháp đối sánh mẫu xuất phát từ các
phương pháp nhận dạng chữ in dựa trên một quan sát đơn
giản: Với một chữ được đúc trên khuôn in thì khi in ra tại
những chỗ khác nhau, những chữ đó phải có những nét tương
đồng phụ thuộc vào khuôn đó giống như các con dấu vậy. Tất
nhiên sẽ có những sai lệch nhất định do mực in, giấy in
v.v...nhưng do tính chất của khuôn, sẽ có những chỗ ít khi bị

nhoè, có thể tạm coi là bất biến. Nội dung của phương pháp
đối sánh mẫu là dựa vào những đặc điểm ít biến đổi đó để
trích chọn lấy đặc trưng cho một mẫu chữ hoặc vẫn sử dụng

18

tất cả các thông tin nhưng với độ tin cậy (trọng số) khác nhau
để làm đặc trưng.

1.2.3.1 Phương pháp dùng dãy điểm đặc trưng
Trong phương pháp này, mỗi mẫu chữ chuẩn được coi là
một ảnh đen trắng, ảnh này sẽ được co về một khung kích
thước cố định, thường dùng là khung 16x16, 32x32 đối với bộ
chữ số Latin, hay 64x64 đối với chữ tượng hình. Trên khung cố
định này, người ta lấy một số điểm làm đặc trưng. Khi cần so
sánh một mẫu cần nhận dạng với một mẫu chuẩn, ta lấy dãy
điểm đặc trưng trên mẫu chuẩn đối sánh với dãy điểm cùng vị
trí trên mẫu cần nhận dạng để xác định mức độ giống nhau
giữa hai mẫu và từ đó ra quyết định xem mẫu nhận dạng
tương ứng với chữ cái nào.
Việc chọn dãy điểm đặc trưng như thế nào là tuỳ thuộc
vào ngôn ngữ, không có quy chuẩn nào cụ thể. Nói chung
không nên chọn dãy điểm đặc trưng là tất cả các điểm trên
khung. Ví dụ ta có khoảng 10 mẫu số "2" khá giống nhau thì
dãy điểm đặc trưng tốt nhất nên chọn là những vị trí có màu
giống nhau trên cả 10 mẫu số 2 này.

1.2.3.2 Phương pháp lưới
Một lưới ô vuông chuẩn được trùm lên đối tượng. Số

lượng điểm cắt của mỗi nan lưới dọc và ngang với đối tượng sẽ
là đặc trưng của đối tượng. Đồng thời số lượng ô chứa một
phần của đối tượng cũng được sử dụng làm đặc trưng của đối
tượng. Mỗi đường dọc và ngang của lưới sẽ được gán một
trọng số nhất định.

19

Khi đó dựa vào các thông số và trọng số kể trên, ta có
thể xây dựng được một hàm đặc trưng cho đối tượng và việc
đối sánh hai đối tượng được quy về đối sánh các hàm đặc

trưng.

Với phương pháp này, việc chuẩn hoá đối tượng là rất
quan trọng vì nó sẽ giúp cho việc xác định kích thước của lưới
chuẩn được sử dụng. Hơn thế độ nghiêng của đối tượng cần
nhận dạng cũng có ảnh hưởng rất lớn đến kết quả của phương
pháp này.

1.2.3.3 Phương pháp cung
Có thể loại bỏ ảnh hưởng của độ nghiêng trong phương
pháp lưới bằng cách thay thế lưới ô vuông chuẩn bằng lưới
hình vành khăn: các nan lưới là các đường tròn đồng tâm và
các đường thẳng qua tâm. Có thể coi đây là phương pháp lưới
trong toạ độ cực. Tâm cực là trọng tâm của đối tượng. Những

vấn đề xác định đặc trưng còn lại tương tự như phương pháp
lưới.

1.2.3.4 Phương pháp chia miền và đo mật độ

20

Trong phương pháp này, mỗi
ảnh tương ứng với một mẫu chữ được chia thành những miền
tách biệt và trên mỗi miền người ta đo mật độ những vùng
thuộc chữ. Những số đo này được dùng làm đặc trưng cho
mẫu và được dùng làm tham số tính toán cho hàm phân biệt.
Phương pháp này rất nhạy cảm với độ nghiêng, độ đậm của
nét chữ.
5

3

5

3

3

6

5

4

6

1.2.4
Nhận dạng bằng phương pháp phân tích
cấu trúc
Đặc trưng của phương pháp phân tích cấu trúc là nhìn
nhận mỗi mẫu chữ như được cấu thành từ những đối tượng
hình học, quan tâm tới các nét, hướng, thứ tự tôpô và đặc tả
những đối tượng cũng như mối quan hệ giữa chúng để làm đặc
trưng cho mẫu. Phương pháp phân tích cấu trúc thích hợp với
nhận dạng chữ viết tay, khi mà các chữ được viết có thể coi là
không theo một khuôn mẫu nào cả.

1.2.4.1 Phương pháp phân tích đường đơn
Năm 1960, Sherman đề xuất cách mô tả cấu trúc chữ
bằng các đường mảnh (có thể coi như khung xương của chữ
được tạo thành nhờ các thuật toán làm mảnh). Với cách mô tả
này, mỗi mẫu chữ được tiệm cận bằng tập các đoạn thẳng đôi
một không cắt nhau (nhưng được phép trùng nhau ở đầu mút).
Từ đó ông xây dựng một đồ thị phẳng tương ứng với tập các
cạnh là các đoạn thẳng và tập các đỉnh là tập các đầu mút.
Trên đồ thị này, ông bỏ qua các đỉnh bậc hai, chỉ giữ lại những
đỉnh đặc trưng là: đỉnh treo, đỉnh rẽ nhánh, đỉnh cắt và coi
những thông số đó là đặc trưng để phân biệt các chữ. Tuy

21

nhiên trong trường hợp này, góc nhìn tôpô là rất quan trọng
bởi nếu chỉ dựa vào những thông số kể trên sẽ không tránh
khỏi sự sai lầm.

Ví dụ tồi tệ đối với cách phân tích cấu trúc của Sherman
Cách thứ nhất, để khắc phục nhược điểm này là ngoài
những đỉnh treo, đỉnh rẽ nhánh, đỉnh cắt, những phần còn lại
của đồ thị sẽ được mô tả đưới dạng các đoạn thẳng và các
cung. Phương pháp này cho phép đặc tả cấu trúc chặt chẽ hơn
nhưng lại hết sức khó khăn khi cài đặt.
Cách thứ hai, có thể áp dụng được trong trường hợp này
dựa vào nhận xét: Nếu bỏ đi các đỉnh rẽ nhánh, đỉnh cắt và
đỉnh treo thì mỗi phần rời còn lại có thể vẽ chỉ bằng một nét
đơn. Khi đó những nét đơn này có thể mã hoá bằng xích
hướng hay còn gọi là mã Freeman. Các mã Freeman cùng với
4

3

5

Freeman code: 3, 3, 2, 2, 1

6

2
1

7

8

những điểm đặc trưng trong phương pháp của Sherman sẽ

được dùng để đặc tả cấu trúc chữ
Mã Freeman

1.2.4.2 Phương pháp phân tích hình học
Trong phương pháp này, mỗi đối tượng được đặt trong
không gian Euclide hai chiều và được đặc tả bằng các khái
niệm hình học cơ bản: đoạn thẳng, đường tròn, ellipse, thậm
chí cả các đường Bezier và B-Spline. Mỗi đối tượng hình học
này được viết phương trình toạ độ và được trích ra một số đặc
trưng như hướng, độ cong, điểm uốn v.v... Và những đặc trưng
này được dùng làm tham số cho hàm phân biệt của mỗi lớp.

22

Cách tiếp cận này khá chặt chẽ về mặt lý thuyết, chẳng
hạn có thể mô tả chữ O là một hình ellipse có phương trình

x 2 y2
+
=1
a 2 b2

với

1 a
≤ ≤3
3 b

. Nhưng vấn đề phân tích hình học khi

cài đặt trên máy tính nói chung là rất khó bởi như vậy gần như
phải xây dựng lại cách thiết kế font TrueType từ một ảnh.

23

1.2.4.3 Phương pháp phân tích đường biên
Trong phương pháp phân tích đường biên, từ một mẫu
chữ, người ta tìm đường biên (contour) của chữ và các đường
biên của: bao lồi (convex hull), miền lõm (concavity), các lỗ

hổng (hole) và vị trí tương đối giữa các lỗ hổng.
Mẫu chữ (a), Bao lồi (b), Miền lõm (c), Lỗ hổng (d) và các đường biên (e)
Khi đó mỗi mẫu chữ sẽ được đặc tả bởi một bộ các đường
biên. Mỗi đường biên có thể được mô tả bằng mã Freeman,
bằng đường cong nội suy...
Có thể nhận thấy rằng nếu việc phân lớp các đường biên
được thực hiện tốt thì việc sử dụng quá nhiều yếu tố như trên
là quá chặt. Đối với chữ số latinh, theo tôi chỉ cần lấy đường
biên của chữ và vị trí tương đối của các lỗ hổng là đủ. Bởi hình
dạng của lỗ hổng cũng như bao lồi, miền lõm không mang tính
chất quyết định tới việc nhận dạng.
Phương pháp phân tích đường biên rất nhạy cảm trong
trường hợp chữ bị dính nét hay đứt nét, chính vì vậy cần phải
có những giải pháp tiền xử lý đúng đắn trước khi thực hiện
việc dò biên.

1.2.4.4 Phương pháp sử dụng hình chiếu
Phải nói rằng đây là một phương pháp không có độ chính

xác cao, nhưng vẫn được nhiều tài liệu đề cập đến, bởi các hệ
thống nhận dạng sử dụng phương pháp này có tốc độ tốt và
tận dụng được những ưu điểm của hình chiếu so với bản thân
mẫu chữ. Phương pháp này đặc biệt hiệu quả trong trường hợp
chỉ cần nhận dạng trong một tập hợp nhỏ các ký hiệu khó gây
nên sự nhập nhằng (chẳng hạn như các chữ "Y" và "N", "C" và
"K",...) và cho phép một số sai sót nhất định. Thống kê các

24

phiếu điều tra là một ví dụ ứng dụng cho phương pháp sử
dụng hình chiếu.
Phương pháp sử dụng hình chiếu tức là sử dụng biểu đồ
mật độ thay cho chữ. Thông thường người ta sử dụng bốn loại
biểu đồ mật độ.
-

Biểu đồ mật độ ngang (HRPCT): Là lược đồ xám
ngang của chữ.

-

Biểu đồ mật độ dọc (VRPCT): Là lược đồ xám dọc
của chữ.

-

Biểu đồ mật độ chiếu ngang dọc (HVRPCT).

-

Biểu đồ mật độ chiếu chéo (DDRPCT)

Chi tiết về 4 phép chiếu này được trình bày trong hình

sau.

Một số loại hình chiếu của mẫu chữ gốc
Một số ưu điểm nổi trội của các hình chiếu so với mẫu
chữ ban đầu có thể kể ra là: Hình chiếu không có lỗ hổng
(miền đơn liên) nên chỉ có một đường biên. Để dò đường biên
của hình chiếu không cần phải dùng các kỹ thuật của xử lý

25

BÁO CÁO THỰC TẬP TỐT NGHIỆP : Nghiên cứu nhận dạng chữ số viết tay sử dụng logic mờ

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về