Nhận dạng chữ cho ảnh màu thương hiệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.84 MB, 12 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN NGỌC TUẤN

NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN NGỌC TUẤN

NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU

Ngành: Công nghệ thông tin
Chuyên ngành: Khoa Học Máy Tính
Mã số: 60480101

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. LÊ THANH HÀ

Hà Nội - 2015

Lời cam đoan

Tôi xin cam đoan đây là phần nghiên cứu và thực hiện khóa luận của riêng tôi, dưới sự
hướng dẫn của TS Lê Thanh Hà, không sao chép từ các công trình nghiên cứu khác. Tôi
đã trích dẫn đầy đủ các tài liệu tham khảo, các công trình nghiên cứu liên quan ở trong
nước và quốc tế. Nếu sai tôi xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của
ĐHQG Hà Nội và Nhà trường.

Hà Nội, ngày 22 tháng 6 năm 2015
Học viên ........................................................................

2

Lời cảm ơn
Lời đầu tiên em xin bày tỏ lòng biết ơn sâu sắc tới TS. Lê Thanh Hà,
người đã hướng dẫn em tận tình trong suốt quá trình học tập, nghiên cứu
và viết luận văn. Đồng thời giúp em lựa chọn hướng đi cho riêng mình.
Một lần nữa em xin được nói lời cảm ơn với Thầy.
Em xin bày tỏ lòng biết ơn tới các thầy cô giáo trong Khoa Công Nghệ
Thông Tin - Đại Học Công Nghệ - ĐHQGHN. Các thầy cô đã dạy bảo,
chỉ dẫn chúng em và luôn tạo điều kiện tốt nhất cho chúng em trong quá
trình học tập, đặc biệt trong thời gian làm luận văn tốt nghiệp.
Em xin cảm ơn các anh chị em lớp K17KHMT trường Đại Học Công
Nghệ và các anh chị em trong lớp KHMT, đã giúp đỡ em trong suốt quá
trình học tập.
Cuối cùng con xin gửi tới bố mẹ và toàn thể gia đình lòng biết ơn và
tình cảm yêu thương
Hà Nội ngày 22 tháng 6 năm 2015
Nguyễn Ngọc Tuấn

3

MỞ ĐẦU
Nhận dạng chữ in nói chung và nhận dạng chữ in trên ảnh màu là những
bài toán có nhiều ứng dụng trong thực tế và thu hút được nhiều sự quan
tâm nghiên cứu. Máy tính tự động nhận dạng, xử lý ảnh đầu vào tạo ra
các dữ liệu văn bản phục vụ lưu trữ, tìm kiếm, phân tích... Nhờ đó giúp
chúng ta tiết kiệm chi phí, thời gian, công sức so với nhập liệu thủ công.
Ngày nay, dưới sự cạnh tranh mạnh mẽ về kinh tế, việc xây dựng hình
ảnh doanh nghiệp và truyền tải đến người tiêu dùng ngày càng trở nên
quan trọng. Ảnh thương hiệu (logo) là một phần không thể thiếu của quá
trình này, và luôn được bổ sung vào cơ sở dữ liệu về các doanh nghiệp.
Để khai thác thông tin ảnh thương hiệu trong các cơ sở dữ liệu, có thể
dựa vào hai thành phần chính: phần hình ảnh và phần chữ (text). Trong
đó, phần text có thể chứa nhiều thông tin hữu ích như tên sản phẩm, tên
doanh nghiệp, khẩu hiệu (slogan)..., phục vụ đắc lực cho việc tìm kiếm,
phân tích, lưu trữ... Phương pháp được đề cập trong luận văn này nhằm
giải quyết vấn đề trích xuất dữ liệu text từ ảnh thương hiệu một cách tự
động, nâng cao độ chính xác và giảm thiểu chi phí cho hoạt động nhập
liệu.
Quan sát một số cơ sở dữ liệu ảnh thương hiệu, có thể thấy ảnh thương
hiệu chỉ bao gồm thông tin dạng văn bản (text) chiếm một phần đáng kể,
và có thể giải quyết bằng phương pháp nhận dạng chữ thông thường. Tuy
nhiên, một phần không nhỏ ảnh màu thương hiệu ngoài text thường có các
yếu tố hình họa đi kèm, chính sự nhập nhằng giữa vùng chữ in và vùng
hình họa làm sự khó khăn khi trích xuất text tăng lên rất nhiều so với nhận
dạng chữ in trên ảnh xám truyền thống. Để giải quyết vấn đề đó, luận văn
đã đề xuất giải pháp kết hợp giữa phương pháp grayscale và phân đoạn
ảnh cải tiến, dựa trên chính sự khác biệt về màu sắc và cảm nhận của mắt
người, một nguyên tắc thường thấy trong thiết kế ảnh màu thương hiệu.

Bài toán nhận dạng chữ in trên ảnh màu gồm ba công đoạn chủ yếu:
tiền xử lý, nhận dạng kí tự và hậu xử lý. Trong luận văn này tập trung
chủ yếu vào giai đoạn tiền xử lý, cụ thể là quá trình grayscale và phân
đoạn ảnh, nhằm đưa ra những cải tiến để cải thiện độ chính xác của kết
quả nhận dạng sau cùng. Đồng thời cũng sử dụng máy nhận dạng văn bản
Tesseract để xây dựng thành một hệ thống hoàn chỉnh.
Trong phần thực nghiệm của luận văn, chúng tôi tiến hành nhận dạng
4

chữ in trên ảnh màu thương hiệu với nhiều kích cỡ chữ, font chữ và màu
sắc khác nhau. Kết quả sau cùng của hệ thống nhận dạng chữ in được cải
thiện rõ rệt khi so sánh với các phương pháp phân đoạn khác và hệ thống
nhận dạng hiện tại.
Từ khóa: Nhận dạng chữ in, ảnh thương hiệu màu, biểu đồ Histogram,
phân đoạn ảnh, nhị phân hóa.

5

Mục lục
1 TỔNG QUAN
1.1 Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Nội dung nghiên cứu của luận văn . . . . . . . . . . . . . .
1.3 Cấu trúc luận văn . . . . . . . . . . . . . . . . . . . . . . .

10
10
10
11

2 Cơ
2.1
2.2
2.3
2.4
2.5
2.6
2.7

.
.
.
.
.
.
.

13
13
15
17
17
18
20
21

. . . . .
. . . . .
. . . . .

. . . . .
tự động
. . . . .

24
24
28
28
29
29
30

4 Thực nghiệm và đánh giá
4.1 Môi trường thực nghiệm . . . . . . . . . . . . . . . . . . .
4.2 Thực nghiệm về phân đoạn ảnh . . . . . . . . . . . . . . .
4.3 Thực nghiệm nhận dạng . . . . . . . . . . . . . . . . . . .

33
33
33
35

5 Kết luận

38

sở lý thuyết cho phân đoạn ảnh
Ảnh màu thương hiệu . . . . . . . . . .
Không gian màu (color space) . . . . . .
Biểu đồ Histogram . . . . . . . . . . . .

Chuyển đổi ảnh màu sang ảnh mức xám
Phân đoạn ảnh . . . . . . . . . . . . . .
Một số phương pháp phân đoạn . . . . .
Máy nhận dạng văn bản Tesseract . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.

.
.
.
.
.
.

.
.
.
.
.
.
.

3 Phân đoạn ảnh màu thương hiệu
3.1 Pha 1: Chuyển đổi ảnh màu sang ảnh mức xám .
3.2 Pha 2: Phân đoạn ảnh phân cấp . . . . . . . . . .
3.2.1 Xác định khoảng cách cụm . . . . . . . . .
3.2.2 Hòa nhập cụm . . . . . . . . . . . . . . .
3.2.3 Thuật toán Arifin cải tiến lựa chọn ngưỡng
3.3 Pha 3: Nhận dạng ký tự . . . . . . . . . . . . . .

6

.
.
.
.
.

.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

Danh mục hình vẽ
2.1

2.2
2.3
2.4
2.5

Ảnh thương hiệu màu . . . . . . . . .
Không gian màu HSV . . . . . . . . .
Phân cụm phân ngưỡng trên Histogram
Ảnh gốc và vùng ảnh sau phân đoạn .
Cấu trúc của Tesseract . . . . . . . . .

.
.
.
.
.

14
16
18
19
22

3.1
3.2

Sơ đồ hệ nhận dạng ký tự cho ảnh màu thương hiệu . . . .
Chuyển đổi ảnh màu sang ảnh mức xám; (a): ảnh gốc, (b)
ảnh độ sáng, (c) ảnh mức xám áp dụng phương pháp của
Rasche, (d) ảnh mức xám áp dụng phương pháp của Mark

Ảnh màu thương hiệu . . . . . . . . . . . . . . . . . . . .
Ảnh mức xám sau khi biến đổi sử dụng phương pháp của
Mark . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
(a) Biểu đồ Histogram và quá trình hòa nhập cụm (b) . . .
Nhận dạng văn bản trên ảnh đã phân đoạn bằng Tesseract

25

3.3
3.4
3.5
3.6
4.1
4.2
4.3
4.4

.
.
.
.
.

.
.
.
.
.

.

.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.

.
.
.
.

.
.
.
.
.

.
.
.
.
.

Ảnh thương hiệu sau phân đoạn áp dụng phương pháp Otsu
Ảnh thương hiệu sau phân đoạn bằng phương pháp phân
cấp Arafin . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ảnh thương hiệu sau phân đoạn bằng phương pháp phân
cấp K-means . . . . . . . . . . . . . . . . . . . . . . . . .
Kết quả nhận dạng với các chỉ số RCR, RJR và ER cho mỗi
mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

26
27
27

29
30
34
34
35
36

Danh mục bảng biểu
4.1

Bảng so sánh kết quả thực nghiệm . . . . . . . . . . . . .

8

37

Danh sách các từ viết tắt
OCR
RGB
HSV
CMYK
CIE
LAB
LA*B*
RCR
RJR
ER
NOIP

Optical Character Recognition
Red Green Blue
Hue Saturation Value
Cyan Magenta Yellow Key
International Commission on Illumination
Lightness a b
Lightness a* b*
Recognition rate
Rejection rate
Error rate
National Office of Intellectual Property

9

Tài liệu tham khảo
[1]

Pablo Arbelaez, Michael Maire, Charless Fowlkes, and Jitendra Malik. Contour detection and hierarchical
image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33:898–916,
2011. ISSN 0162-8828. doi: />
[2] Asano Akira Arifin, Agus Zainal.

Image segmentation by histogram thresholding using hierarchical
cluster analysis. Pattern Recogn. Lett., 27(13):1515–1521, October 2006. ISSN 0167-8655. doi: 10.
1016/j.patrec.2006.02.022. URL />
[3]

S. Belongie, J. Malik, and J. Puzicha. Shape matching and object recognition using shape contexts.

Pattern Analysis and Machine Intelligence, IEEE Transactions on, 24(4):509 –522, apr 2002. ISSN
0162-8828. doi: 10.1109/34.993558.

[4]

Teófilo Emídio de Campos, Bodla Rakesh Babu, and Manik Varma. Character recognition in natural
images. In VISSAPP (2)’09, pages 273–280, 2009.

[5]

Line Eikvil. Ocr - optical character recognition, 1993.

[6]

A. Srikrishna G. Rama Mohan Babu, P. Srimaiyee. Text extraction from heterogeneous images using
mathematical morphology. Journal of Theoretical and Applied Information Technology, 16(1):39–47,
2010.

[7
]

Y M Y Hasan and L J Karam. Morphological text extraction from images. IEEE Transactions on Image
Processing, 9(11):1978–1983, 2000. URL />
[8]

Rose Holley. How good can it get? analysing and improving ocr accuracy in large scale historic newspaper
digitisation programs. D-Lib Magazine, 15(3/4), 03 2009.

[9]

Anil Jain and Aditya Vailaya. Shape-based retrieval: A case study with trademark image databases.
Pattern Recognition, 31:1369–1390, 1998.

[10]

Keechul Jung, Kwang In Kim, and Anil K. Jain. Abstract text information extraction in images and
video: A survey.

[11] K.C.Singh and Lalit Mohan Satapathy. Comparative Study on Thresholding. International Journal of

Instrumentation, 1:73–77, 2011. doi: 10.1002/col.5080160608.
[12] Rainer Lienhart and Frank Stuber. Automatic text recognition in digital videos. Technical report, 1995.
[13] Elizabeth Pirrotta Mark D. Fairchild. Predicting the lightness of chromatic object colors using CIELAB.

Color Research and Application, 16:385–393, 1991. doi: 10.1002/col.5080160608.
[14] Shunji Mori, Hirobumi Nishida, and Hiromitsu Yamada. Optical Character Recognition. John Wiley &

Sons, Inc., New York, NY, USA, 1st edition, 1999. ISBN 0471308196.
[15] Jun Zhang and Jinglu Hu. Image segmentation based on 2d otsu method with histogram analysis. In

Proceedings of the 2008 International Conference on Computer Science and Software Engineering Volume 06, CSSE ’08, pages 105–108, Washington, DC, USA, 2008a. IEEE Computer Society. ISBN
978-0-7695-3336-0. doi: 10.1109/CSSE.2008.206. URL />206.

39

[16] Jun Zhang and Jinglu Hu. Image segmentation based on 2d otsu method with histogram analysis. In

Proceedings of the 2008 International Conference on Computer Science and Software Engineering Volume 06, CSSE ’08, pages 105–108, Washington, DC, USA, 2008b. IEEE Computer Society. ISBN
978-0-7695-3336-0.

[17] Lihong Zheng and Xiangjian He. Character segmentation for license plate recognition by k-means algo-

rithm. In Proceedings of the 16th international conference on Image analysis and processing - Volume
Part II, ICIAP’11, pages 444–453, Berlin, Heidelberg, 2011. Springer-Verlag. ISBN 978-3-642-24087-4.
URL />[18] Yu Zhong, K. Karu, and A. K. Jain. Locating text in complex color images. In Proceedings of the Third

International Conference on Document Analysis and Recognition (Volume 1) - Volume 1, ICDAR ’95,
pages 146–149, Washington, DC, USA, Aug 1995. IEEE Computer Society. ISBN 0-8186-7128-9. URL
/>[19] www.noip.gov.vn/

[20] />
[21] />
40

Nhận dạng chữ cho ảnh màu thương hiệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về