Tải bản đầy đủ (.pdf) (2 trang)

041_Thực nghiệm và đánh giá một phương pháp nhận dạng chữ tiếng Việt in

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (240.94 KB, 2 trang )

- 68 -
THỰC NGHIỆM VÀ ĐÁNH GIÁ MỘT PHƯƠNG PHÁP
NHẬN DẠNG CHỮ TIẾNG VIỆT IN

Trần Hà Tuyên Người hướng dẫn: TS. Nguyễn Trọng Dũng
MSSV: 0122147
Email:

1.Giới thiệu
Nhận dạng chữ (chữ in , chữ viết tay) là một
trong những hệ thống nhận dạng nhằm mục đích
tự động hoá quá trình thu nhận các thông tin
dạng chữ. Trong các hệ thống này , từ một dạng
thông tin thu nhận được(các ảnh chữ qua máy
scan...) hệ thống sẽ phân tích , sắp xếp, gạn lọc,
phân loại chúng và dùng các kỹ thuật riêng biệt
để xử lý chúng nhằm đưa ra ý nghĩa các thông
tin đó mang tính ứng dụng phục vụ đời sống con
người.
Lĩnh vực nhận dạng chữ in đã và đang thu
hút được sự quan tâm của nhiều nhà nghiên cứu
khoa học trong các lĩnh vực từ tin học đến toán
học.... bởi tầm quan trọng của nó . Nhận dạng
chữ in đã và đang có mặt trong nhiều ứng dụng
như là lưu trữ văn bản , phân loại thư tín, lưu trữ
hồ sơ học sinh, thanh toán tiền trong nhà băng,
hệ thống thống kê tự động các phiếu điều tra....
Tuy nhiên kết quả của việc nhận dạng nói chung
và việc nhận dạng chữ Tiếng Việt nói riêng
chưa đáp ứng được nhu cầu thực tế. Vì thế với
mong muốn cải tiến nâng cao chất lượng nhận


dạng, em đã quyết định nghiên cứu đề tài “Phân
tích so sánh các ph
ương pháp nhận dạng chữ
Tiếng Việt in” trong bài khoá luận tốt nghiệp
của mình. Trong khuôn khổ của đề tài , em tập
trung nghiên cứu về phần nhận dạng riêng từng
chữ cái sau khi đã được tách khỏi dòng và các
từ , đây là phần quan trọng nhất và quyết định
đến việc nhận dạng toàn bộ văn bản.
2.Các phương pháp nhận dạng chữ viết
Việc nhận dạng chữ viết thông thường đều
tuân theo một số các bước nhất định như : quét
tài liệu, tiền xử lý, trích chọn đặc trưng , phân
loại và hậu xử lý...Trên thế giới đã có khá nhiều
phương pháp nhận dạng chữ viết chẳng hạn
như: phương pháp dùng dãy điểm đặc trưng,
phân tích đường biên, phân tích đường trơn, sơ
đồ hình chiếu, đối sánh mẫu...Mỗi phương pháp
đều có ưu điểm và nhược điểm riêng. Tuy nhiên
việc lựa chọn một phương pháp nhận dạng hợp
lý còn phụ thuộc vào nhiều yếu tố như là : tổng
số lượng chữ mà hệ thống xử lý, loại ký tự mà
hệ thống thiết kế, chữ cái thuộc single-font hay
là multi-font, có ràng buộc với chữ viết bằng tay
hay không, các biến thể của chữ cái thuộ
c cùng
một lớp, chữ nhận dạng có thuộc loại phân tích
cấu trúc hay không, độ phân giải của máy scan,
phần cứng yêu cầu...
3. Xây dựng thuật toán nhận dạng

Tư tưởng của thuật toán là so sánh chữ cần
nhận dạng với một tập mẫu các chữ cái trong cơ
sở dữ liệu để xét xem chữ cần nhận dạng giống
mẫu chữ nào nhất. Vấn đề là phải đưa ra được
đại lượng để đo được độ giống nhau giữa chữ
cần nhận dạng với mẫu.Vì thể ta xét toàn bộ giá
trị
các điểm ảnh của ảnh chữ và mẫu nhận dạng
và so sánh từng cặp giá trị ở cùng vị trí với
nhau. Ta xét :

m
δ
(
i,j
)=



=∧=
lai nguoc 0
)()(neu1 jyix
mm


Trong đó y
m
và x
m
là giá trị điểm ảnh thứ m

của ảnh chữ và mẫu, i,j có giá trị 1 hoặc 0 vì là
giá trị điểm ảnh của ảnh đen trắng.
Số lượng cặp đồng thời xảy ra khi X[m]=i và
Y[m]=j là :
ij
n
=
),(
1
ji
n
m
m

=
δ

Ở đây ta xét toàn bộ điểm ảnh của ảnh chữ và
mẫu nhận dạng để tổng hợp kết quả. Do i và j
- 69 -
chỉ có giá trị là 1 và 0 nên
n
ij
có các giá trị là
n
01
, n
11
, n
10

, n
00.
Từ đó ta đưa ra đại lượng để đo
độ giống nhau giữa chữ nhận dang Y và mẫu X
như sau:
T(Y,X)
= n
11
/(

n
11
+

n
01
+ n
10
)
Đại lương trên được xây dựng trên cơ sở
lấy các điểm đen(điểm ảnh có giá trị 1) làm
chính là bởi điểm đen thường có ý nghĩa nhận
dạng cao hơn điểm trắng rất nhiều. Khi so sánh
chữ cần nhận dạng với mẫu chữ thì đại lượng
này phải vượt qua một ngưỡng nhất định thì mới
được gán cho mẫu đó, thông thườ
ng giá trị này
là 0,5
4. Đánh giá các ưu, nhược điểm của thuật
toán và các biện pháp khắc phục

Thuật toán nhận dạng nêu trên có ưu điểm
đơn giản, hiệu quả , và dễ cài đặt. Tuy nhiên
ngoài các ưu điểm thuật toán vẫn tồn tại một số
nhược điểm như không thích hợp trong trường
hợp ảnh chữ cần nhận dạng bị biến thể, bị nhiễu
ảnh chữ bị quay, không cùng kích cỡ với mẫu
nhận dạng. Để khắc ph
ục các nhược điểm trên
thông thường chúng ta sử dụng các biện pháp
tiền xử lý thích hợp , kết hợp với sử dụng một
tập mẫu cho mỗi loại chữ cái cần nhận dạng.
5. Cài đặt thực nghiệm

Chương trình được cài đặt và tiến hành thực
nghiệm qua 3 lần sử dụng khoảng 40-50 bộ
mẫu chữ và cho kết quả tương đối chính xác.


Thực nghiệm 1: Chữ nhận dạng và tập mẫu
chữ có cùng kiểu phông.


Thực nghiệm 2 : Chữ nhận dạng và tập
mẫu khác kiểu phông nhau.


Thực nghiệm 3 : Sử dụng 1 tập mẫu cho
riêng từng chữ cái. Ví dụ với chữ a
: a , a ,
a

,
a ...

Ở lần thực nghiệm thứ 1 do chữ nhận dạng
và tập mẫu có cùng kiểu nên cho kết quả khá
chính xác. Ở lần thực nghiệm thứ 3 chương
trình sử dụng một tập mẫu riêng cho mỗi chữ
cái đã cho kết quả chính xác khắc phục được
nhược điểm của lần thực nghiệm 2 khi font chữ
nhận dạng và mẫu khác kiểu nhau.
6. Kết luận
Trong bài khoá luận tốt nghiệp này em đã
xây dựng được một phương pháp nhận dạng dựa
trên mô hình Template Matching. Sau một quá
trình nghiên cứu, Luận văn đã đạt được một số
kết quả như sau:
+ Phân tích so sánh các ưu điểm, nhược điểm
của phương pháp nhận dạng chữ.
+ Xây dựng thuật toán nhận dạng chữ và đưa
vào hoạt động có hiệu quả
+ Cải ti
ến thuật toán và đạt được kết quả
chính xác như mong đợi.
Tuy nhiên do số lượng mẫu nhận dạng còn
hạn chế nên việc đánh giá thuật toán cũng như
khắc phục các vấn đề khác nảy sinh còn hạn chế
Các vấn đề tiếp tục nghiên cứu là xây dựng
mối liên hệ giữa các tập mẫu trong cơ sở dữ liệu
để có thể giảm thiểu số lượ
ng mẫu chữ cần đưa

ra so sánh khi mỗi lần cần nhận dạng mẫu chữ,
tìm hiểu các biện pháp tiền xử lý có hiệu quả
cũng nhữ các biện pháp hậu xử lý để đánh giá
đúng kết quả sau khi đã qua nhận dạng.

Tài liệu tham khảo
:
[1] D. H. Ballard and C. M. Brown, Computer
Vision , pp. 65-70. Englewood Cliffs, New
Jersey : Prentice- Hall, 1982

[2] P. Gader, B. Forester, M. Ganzberger, A.
Gilles, B. Mitchell, M. Whallen, and
T.Yocum, “Recognition of handwritten
digits using template and model matching”
Pattern Recognition, vol. 24, no. 5, pp 421-
431, 1991.

[3] TRIER, JAIN , and TAXT : Feature
Extraction Methods for Character
Recognition – A Survey.
[2]

×