Tải bản đầy đủ (.docx) (73 trang)

Nghiên cứu phương pháp nhận dạng văn bản từ ảnh và ứng dụng trong phân loại văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.5 MB, 73 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN

TRẦN NGUYỄN MINH BẢO

NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG VĂN
BẢN TỪ ẢNH VÀ ỨNG DỤNG TRONG PHÂN LOẠI

VĂN BẢN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

ĐÀ NẴNG, 2024

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN

TRẦN NGUYỄN MINH BẢO

NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG VĂN
BẢN TỪ ẢNH VÀ ỨNG DỤNG TRONG PHÂN LOẠI

VĂN BẢN

Chuyên ngành: Khoa học máy tính

Mã số: 8480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. LƯƠNG VĂN NGHĨA



ĐÀ NẴNG, 2024

i

LỜI CẢM ƠN

Tôi xin gửi đến Thầy Cô Khoa Cơng nghệ thơng tin – Trường Khoa Học Máy
Tính, Đại Học Duy Tân, Đà Nẵng và Khoa Công Nghệ Thông Tin – Trường Đại
Học Phạm Văn Đồng, Quảng Ngãi lời biết ơn sâu sắc nhất, những người đã cùng
với tri thức và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho tôi
trong thời gian học tập tại trường.

Tôi xin chân thành cảm ơn TS. Lương Văn Nghĩa đã tận tâm hướng dẫn tôi
qua những buổi trao đổi chuyên môn, học thuật và suốt thời gian được học tập và
thực hành dưới sự hướng dẫn của Thầy, tôi đã thu được rất nhiều kiến thức bổ ích
trong nghiên cứu.

Xin gửi lời cảm ơn chân thành đến gia đình, bè bạn, đã ln là nguồn động
viên to lớn, giúp tơi vượt qua những khó khăn trong suốt quá trình học tập và thực
hiện luận văn.

Mặc dù đã rất cố gắng hoàn thiện luận văn với tất cả sự nỗ lực, tuy nhiên, do
bước đầu đi vào thực tế, tìm hiểu và xây dựng luận văn trong thời gian có hạn, và
kiến thức còn gặp nhiều bỡ ngỡ, nên luận văn “NGHIÊN CỨU PHƯƠNG PHÁP
NHẬN DẠNG VĂN BẢN TỪ ẢNH VÀ ỨNG DỤNG TRONG PHÂN LOẠI
VĂN BẢN” chắc chắn sẽ khơng thể tránh khỏi những thiếu sót. Tơi rất mong nhận
được sự quan tâm, thơng cảm và những đóng góp quý báu của các Thầy Cô và các
bạn để luận văn này ngày càng hoàn thiện hơn.


Sau cùng, tơi xin kính chúc các Thầy Cô dồi dào sức khỏe, niềm tin để tiếp tục
thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau.

Trân trọng!
HỌC VIÊN

TRẦN NGUYỄN MINH BẢO

ii

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “NGHIÊN CỨU PHƯƠNG PHÁP NHẬN
DẠNG VĂN BẢN TỪ ẢNH VÀ ỨNG DỤNG TRONG PHÂN LOẠI VĂN
BẢN” là cơng trình nghiên cứu của riêng tôi, thực hiện dưới sự hướng dẫn của
giảng viên hướng dẫn khoa học.
Các số liệu và kết quả nghiên cứu trong luận văn này là trung thực và không
trùng lặp với các luận văn khác.

HỌC VIÊN

TRẦN NGUYỄN MINH BẢO

iii

MỤC LỤC

LỜI CẢM ƠN...........................................................................................................i
LỜI CAM ĐOAN....................................................................................................ii
DANH MỤC CÁC HÌNH ẢNH..............................................................................v
MỞ ĐẦU..................................................................................................................1


1.Lý do chọn đề tài................................................................................................1
2.Mục tiêu nghiên cứu...........................................................................................2
3.Đối tượng và phạm vi nghiên cứu......................................................................2
4.Phương pháp nghiên cứu....................................................................................2
Chương 1: TỔNG QUAN VỀ VĂN BẢN VÀ LÝ THUYẾT NHẬN DẠNG
VĂN BẢN................................................................................................................. 3
1.1. LỊCH SỬ HÌNH THÀNH VĂN BẢN...........................................................3

1.1.1. Khái niệm văn bản..................................................................................3
1.1.2. Phát minh ra văn bản...............................................................................3
1.1.3. Các loại hình văn bản qua các thời kỳ.....................................................4
1.2. TỔNG QUAN LÝ THUYẾT NHẬN DẠNG VĂN BẢN.............................9
1.2.1. Giới thiệu..........................................................................................................9
1.2.2. Mô hình tổng quát của một hệ thống nhận dạng văn bản.........................12
1.2.3. Các phương pháp nhận dạng văn bản.........................................................21
1.3. KẾT LUẬN CHƯƠNG 1.............................................................................31
Chương 2. MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN THEO
TRÍCH CHỌN ĐẶC TRƯNG..............................................................................32
2.1. TỔNG QUAN VỀ TRÍCH CHỌN ĐẶC TRƯNG...................................32
2.1.1. Khái niệm chung............................................................................................32
2.1.2. Đặc trưng bất biến.........................................................................................36
2.1.3. Khả năng khôi phục.......................................................................................36
2.2. MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG CHO NHẬN
DẠNG VĂN BẢN..............................................................................................37

iv

2.2.1. Trích chọn đặc trưng từ ảnh đa cấp xám....................................................37
2.2.2. Trích chọn đặc trưng từ ảnh nhị phân.........................................................38

2.2.3. Trích chọn đặc trưng từ biên ảnh.................................................................40
2.2.4. Trích chọn đặc trưng từ biểu diễn véc tơ....................................................41
2.3. KẾT LUẬN CHƯƠNG 2.............................................................................43
Chương 3. CHƯƠNG TRÌNH THỬ NGHIỆM ỨNG DỤNG TRONG PHÂN
LOẠI VĂN BẢN....................................................................................................44
3.1. PHÁT BIỂU BÀI TOÁN PHÂN LOẠI VĂN BẢN....................................44
3.2. CHƯƠNG TRÌNH THỬ NGHIỆM.............................................................44
3.2.1. khai báo các thư viện.....................................................................................44
3.2.2. Xử lý dữ liệu đầu vào từ ảnh........................................................................45
3.2.3. nhận dạng văn bản từ ảnh và kết quả, phân loại văn bản.........................48
3.2.4. Đề xuất sau thử nghiệm................................................................................57
3.3. KẾT LUẬN CHƯƠNG 3.............................................................................62
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN............................................................63
1. Kết luận.................................................................................................................63
2. Hạn chế..................................................................................................................63
3. Hướng phát triển..................................................................................................63
DANH MỤC TÀI LIỆU THAM KHẢO
QUYẾT ĐỊNH GIAO ĐỀ TÀI (Bản sao)

v

DANH MỤC CÁC HÌNH ẢNH

Hình 1.1: Mẫu văn bản khoảng năm 2.400 TCN (Lá thư tìm thấy ở Telloh, thành
Lagash, Lưỡng Hà)....................................................................................................3
Hình 1.2: Mẫu văn bản hình nêm viết trên đất sét.....................................................5
Hình 1.3: Mẫu văn bản khắc trên tường đá Ai cập cổ đại..........................................6
Hình 1.4: Mẫu văn bản Trung hoa cổ đại được tìm thấy trên xương động vật, mai
rùa,…......................................................................................................................... 6
Hình 1.5: Mẫu văn bản Ấn độ cổ đại khắc trên đá.....................................................7

Hình 1.6: Mẫu văn bản Hy Lạp cổ đại.......................................................................8
Hình 1.8: Ảnh gốc và ành sau khi đã được nhị phân hóa.........................................13
Hình 1.9: Nhiễu đốm và nhiễu vệt...........................................................................14
Hình 1.10: Chuẩn hóa kích thước ảnh các ký tự “A” và “P”...................................16
Hình 1.11: Ảnh gốc và ảnh sau khi làm trơn biên....................................................17
Hình 1.12: Ảnh gốc và ảnh sau khi làm mảnh chữ..................................................18
Hình 1.13: Hiệu chỉnh độ nghiêng của văn bản.......................................................18
Hình 1.14: Tách dịng chữ dựa trên histogram theo chiều ngang của khối chữ.......19
Hình 1.15: Xác định khoảng cách giữa hai ký tự và giữa hai từ dựa trên histogram
theo chiều thẳng dứng của dịng chữ.......................................................................20
Hình 1.16: Mơ hình nhận dạng văn bản rời rạc.......................................................29
Hình 3.1: Ảnh 1.......................................................................................................46
Hình 3.2: Ảnh 2.......................................................................................................47
Hình 3.3: Ảnh 3.......................................................................................................48
Hình 3.4: “Ảnh 3” sau khi thực hiện kỹ thuật Nhị phân hóa ảnh.............................58
Hình 3.5: Ảnh 3 sau khi sử dụng KERAS...............................................................61
Hình 3.6: “Ảnh 3” khi thực hiện nhận dạng văn bản...............................................62

1

MỞ ĐẦU

1. Lý do chọn đề tài
Cơng nghệ thơng tin ngày càng phát triển và có vai trị hết sức quan trọng

khơng thể thiếu trong cuộc sống hiện đại. Con người ngày càng tạo ra những cỗ
máy thơng minh có khả năng tự nhận biết và xử lí được các cơng việc một cách tự
động, phục vụ cho lợi ích của con người. Trong những năm gần đây, một trong
những bài toán nhận được nhiều sự quan tâm và tốn nhiều công sức nhất của lĩnh
vực cơng nghệ thơng tin, đó chính là bài tốn nhận dạng. Tuy mới xuất hiện chưa

lâu nhưng nó đã rất được quan tâm vì tính ứng dụng thực tế của bài tốn cũng như
sự phức tạp của nó. Nhận dạng văn bản là một lĩnh vực đã được quan tâm nghiên
cứu và ứng dụng từ nhiều năm nay theo hai hướng chính:

- Nhận dạng văn bản chữ in: phục vụ cho công việc tự động hóa đọc tài liệu,
tăng tốc độ và hiệu quả nhập thơng tin vào máy tính trực tiếp từ các nguồn tài liệu.

-Nhận dạng văn bản chữ viết tay: với những mức độ ràng buộc khác nhau về
cách viết, kiểu chữ... phục vụ cho các ứng dụng đọc và xử lý chứng từ, hóa đơn,
phiếu ghi, bản thảo viết tay... Nhận dạng văn bản viết tay được tách thành hai
hướng phát triển: nhận dạng văn bản viết tay trực tuyến (on-line) và nhận dạng văn
bản viết tay ngoại tuyến (off-line).

Đến thời điểm này, bài toán nhận dạng văn bản chữ in vẫn còn là vấn đề thách
thức lớn đối với các nhà nghiên cứu. Phương pháp trích chọn đặc trưng trong nhận
dạng văn bản là việc tìm và chọn ra các đặc trưng đặc thù của mỗi văn bản, qua đó
là đầu vào cho q trình nhận dạng. Bên cạnh việc lựa chọn một thuật toán nhận
dạng phù hợp thì việc tìm ra phương pháp trích chọn đặc trưng thích hợp sẽ nâng
cao độ chính xác và giảm thời gian nhận dạng cho toàn bộ hệ thống.

Với sự hấp dẫn của bài tốn và những thách thức cịn đang ở phía trước, niềm
đam mê công nghệ hiện đại và những ứng dụng thực tế tuyệt với của nó cùng khát
khao khám phá và chinh phục những tri thức mới mẻ, tôi đã chọn đề tài: “NGHIÊN
CỨU PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN TỪ ẢNH VÀ ỨNG DỤNG

2

TRONG PHÂN LOẠI VĂN BẢN” làm đề tài nghiên cứu và bảo vệ luận văn tốt
nghiệp thạc sĩ của mình.
2. Mục tiêu nghiên cứu


Mục tiêu tổng quát:
Đề tài luận văn tập trung cho bài tốn nhận dạng văn bản chữ in từ phương
pháp trích chọn đặc trưng trong nhận dạng văn bản từ ảnh, sau đó phân loại văn bản
theo chất lượng nhận dạng với các loại sau: tốt, xấu và bị lỗi.
Mục tiêu cụ thể:
Đề tài luận văn tập trung cho việc lựa chọn một số mẫu ảnh để tiến hành nhận
dạng từ ảnh sang một văn bản, sau đó tiến hành phân loại văn bản theo các mức độ
tốt, xấu hay bị lỗi từ kết quả nhận dạng. Đề xuất giải pháp khắc phục sau khi nhận
dạng từ một mẫu ảnh bị lỗi.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
- Nghiên cứu các phương pháp phân loại văn bản, nhận dạng văn bản từ ảnh,
các phương pháp trích chọn đặc trưng trong nhận dạng văn bản từ ảnh.

- Chọn bộ dữ liệu đầu vào cho bài toán nhận dạng là các văn bản dạng ảnh
(các hoá đơn (bill) bán hàng).

Phạm vi nghiên cứu: thực hiện nhận dạng văn bản từ ảnh, từ đó tiến hành thử
nghiệm phân loại văn bản sau nhận dạng.
4. Phương pháp nghiên cứu

- Phương pháp phân tích và tổng hợp: phân tích đối tượng nghiên cứu để xây
dựng mơ hình và tổng hợp các yếu tố cấu thành trong nhận dạng văn bản.

- Phương pháp thực nghiệm: thực hiện việc chạy thử nghiệm trên đoạn mã
Python. Sau đó thu thập kết quả nhận dạng văn bản từ 3 loại mẫu ảnh, tiến hành
phân loại, đánh giá các kết quả sau nhận dạng từ ảnh.

3


Chương 1: TỔNG QUAN VỀ VĂN BẢN VÀ LÝ THUYẾT NHẬN DẠNG
VĂN BẢN

1.1. LỊCH SỬ HÌNH THÀNH VĂN BẢN
1.1.1. Khái niệm văn bản
Văn bản là thông tin thành văn được truyền đạt bằng ngơn ngữ hoặc ký hiệu,

hình thành trong hoạt động của các cơ quan, tổ chức và được trình bày đúng thể
thức, kỹ thuật theo quy định.

1.1.2. Phát minh ra văn bản
Những dạng cổ xưa nhất của văn bản mang những yếu tố như ký tự viết tắt
dựa trên những yếu tố tượng hình và tượng ý. Đa phần các hệ thống văn bản có thể
chia làm ba loại: tượng ý, tượng thanh và chia đoạn. Tuy vậy, cả ba loại này đều tìm
thấy ở bất kỳ hệ thống văn bản nào với mức độ cấu thành khác nhau và khiến việc
xếp loại mỗi hệ văn bản trở nên khó khăn và nhiều mâu thuẫn.

Hình 1.1: Mẫu văn bản khoảng năm 2.400 TCN (Lá thư tìm thấy ở Telloh, thành
Lagash, Lưỡng Hà)

4

Phát minh văn bản đầu tiên cùng lúc với sự ra đời của thời kỳ đồ đồng ở
cuối thời đồ đá mới, thiên niên kỷ 4 TCN. Người ta tin rằng hệ thống văn bản đầu
tiên của loài người ra đời cuối thiên niên kỷ 3 TCN tại vùng Sumer (Lưỡng Hà) ở
dạng chữ hình nêm cổ xưa ở Triều đại Ur thứ ba. Cùng thời gian đó, những dạng
tiền văn bản Elamite phát triển thành văn bản Elamite có hàng lối (dạng văn bản
này cho đến nay vẫn chưa giải mã được).


Sự phát triển của văn bản tượng hình Ai cập song song với những ký tự
vùng Lưỡng Hà và không nhất thiết là độc lập với nhau. Hệ thống tiền ký tự của
người Ai Cập tiến hóa thành những ký tự tượng hình cổ xưa vào khoảng 3.200 năm
TCN và phổ biến rộng rãi ở giữa thiên niên kỷ 3 TCN.

Ký tự của nền văn minh sông Ấn phát triển trong suốt thiên niên kỷ 3 cả ở
dạng tiền văn bản hoặc dạng văn bản cổ xưa tuy vậy quá trình phát triển này tiến
nhanh hơn khi nền văn minh đi qua giai đoạn đỉnh điểm vào khoảng 1.900 năm
TCN.

Văn bản của người Trung Quốc có lẽ là khơng cùng nguồn gốc với các nền
văn minh Trung Đông. Từ hệ thống biểu tượng tiền văn bản ở cuối thời kỳ đồ đá
mới khoảng 6.000 năm TCN, văn bản Trung Quốc ra đời khoảng 1.500 năm TCN
vào thời nhà Thương.

Những hệ thống văn bản ở châu Mỹ (bao gồm nền văn minh Maya và Olmec)
cũng có những nguồn xuất xứ độc lập.

Phần lớn các hệ thống văn bản trên thế giới ngày này đều bắt nguồn từ Ai Cập
hoặc Trung Quốc. Có một vài ngoại lệ là hệ thống tượng ý của người Maya xuất
hiện thế kỷ thứ 3 TCN và các ký tự tìm thấy trên đảo Phục Sinh.

1.1.3. Các loại hình văn bản qua các thời kỳ
1.1.3.1. Văn bản thời đại đồ đồng
Văn bản hình nêm
Hệ thống văn bản nguyên thủy của người Sumer bắt nguồn từ những phiến đất
sét được sử dụng để chỉ tên đồ vật. Cho đến cuối thiên niên kỷ 4 TCN, hệ thống này đã
phát triển thành một phương pháp lưu lại các bản kê, sử dụng bút trâm đầu tròn ấn lên

5


tấm đất sét theo các góc khác nhau để ký hiệu con số. Cách ghi này dần được gia tố các
biểu tượng ghi bằng bút trâm sắc để chỉ ra cái gì được đếm. Ghi chép sử dụng bút trâm
đầu tròn và bút trâm đầu sắc, theo thời gian, được thay thế bằng bút trâm đầu hình nêm
(vì thế mà có tên văn bản hình nêm) vào khoảng 2.700 – 2.500 năm TCN. Ban đầu chỉ
có những ký hiệu ghi hình (xtơi chữ tượng hình) nhưng đã phát triển, đưa vào yếu tố
ngữ âm ở thời gian thế kỷ 29 TCN. Chừng 2.600 năm TCN, văn bản hình nêm bắt đầu
thể hiện âm tiết trong nhóm ngôn ngữ Sumer vùng Lưỡng Hà.

Hình 1.2: Mẫu văn bản hình nêm viết trên đất sét
Cuối cùng, văn bản hình nêm trở thành hệ thống văn bản phổ biến ghi lại ký
hiệu ghi hình, âm tiết và con số. Kể từ thế kỷ 26 TCN, dạng văn bản này du nhập
vào ngơn ngữ Akkad (một ngơn ngữ trong nhóm Sumer) và các ngôn ngữ khác như
Hurria (ngôn ngữ được nói ở phía bắc Lưỡng Hà khoảng 2.300 năm TCN và gần
như biến mất 1.000 năm TCN) và Hittite (ngôn ngữ đã biến mất, đã từng được nói ở
trung tâm Tiểu Á từ 1.600 đến 1.100 năm TCN). Những ký tự tương tự cịn được
tìm thấy trong ngơn ngữ Ugaritic (ngôn ngữ đã biến mất, từng được sử dụng ở
Ugarit, Syria) và Ba Tư cổ.

6

Văn bản Ai Cập cổ đại
Văn bản đóng vai trị quan trọng trong việc duy trì đế chế Ai Cập, nơi mà đọc
và viết là đặc quyền của nhóm người có địa vị, quyền lực, được giáo dục để ghi
chép và giữ gìn văn bản. Chỉ những người với xuất thân nhất định mới được đào tạo
để trở thành người ghi chép và giữ gìn văn bản.

Hình 1.3: Mẫu văn bản khắc trên tường đá Ai cập cổ đại
Họ phục vụ trong đền thờ, quân đội và hệ thống hành chính của nhà vua
(Pharaon). Hệ thống văn bản Ai Cập ln phức tạp, khó học, nhưng trong nhiều thế

kỷ sau khi ra đời, chúng cịn trở nên khó học hơn nhiều. Chủ ý của thực tế này là
nhằm duy trì đặc quyền của những người ghi chép và giữ gìn văn bản.
Văn bản Trung Hoa

Hình 1.4: Mẫu văn bản Trung hoa cổ đại được tìm thấy trên xương động vật,
mai rùa,…

7

Ở Trung Quốc, các nhà sử học biết được rất nhiều điều về những Triều đại
Trung Hoa đầu tiên nhờ những văn bản cịn sót lại. Từ thời nhà Thương, đa số
những ghi chép này tìm thấy trên xương động vật hoặc bản ghi bằng đồng. Những
văn bản ghi trên mai rùa, qua phương pháp xác định tuổi bằng đồng vị carbon cho
thấy chúng được tạo ra từ khoảng 1.500 năm TCN. Các nhà sử học phát hiện ra
rằng loại vật liệu được sử dụng có ảnh hưởng đến văn bản được ghi chép và cách
thức sử dụng chúng.

Có những phát hiện gần đây về các mai rùa có niên đại khoảng 6.000 năm
TCN như các ký hiệu tìm thấy ở Jiahu, nhưng liệu chúng đã đủ phức tạp để được
coi là văn bản hay chưa thì vẫn cịn tranh cãi.

Văn bản Ấn Độ

Hình 1.5: Mẫu văn bản Ấn độ cổ đại khắc trên đá
Những ký hiệu tìm thấy của nền văn minh sông Ấn thời đồ đồng giữa vẫn
chưa giải nghĩa được. Vẫn chưa rõ những ký hiệu này được xếp vào ký hiệu tiền ký
tự hay đó là một dạng văn bản biểu tượng-ngữ âm của các hệ thống văn bản thời kỳ
đồ đồng khác.
1.1.3.2. Thời kỳ đồ sắt và sự ra đời hệ thống văn bản hoa
Bảng chữ cái Phoenicia là hệ thống tiền chữ cái Canaan được tiếp tục phát

triển ở thời kỳ đồ sắt (được cho là kế thừa từ sự chấm dứt của hệ thống này năm

8
1.050 TCN). Hệ thống chữ cái này đưa đến sự ra đời của chữ cái Aramaic và chữ
cái Hy Lạp; rồi thông qua người Hy Lạp, dẫn đến sự ra đời của các chữ cái Tiểu
Á và chữ cái Italic cổ (bao gồm tiếng Latin) vào thể kỷ 8 TCN. Chữ cái Hy Lạp đưa
vào các ký hiệu nguyên âm. Nhóm văn bản Brahmic của Ấn Độ có lẽ hình thành từ
thế kỷ 5 TCN từ những tiếp xúc với văn bản Aramaic.

Hình 1.6: Mẫu văn bản Hy Lạp cổ đại
Văn bản Hy Lạp và Latin vào các thế kỷ đầu Cơng ngun là phát tích của
một số hệ thống ký tự châu Âu như chữ cái Runes, chữ cái Gothic và chữ cái
Cyrillic. Trong khi đó, văn bản Aramaic là khởi nguồn của chữ cái Hebrew, chữ cái
Syriac và chữ cái Arabic; chữ cái nam Ả rập mang đến sự hình thành chữ cái Ge’ez.
Cũng thời gian này (thế kỷ 4), văn bản Nhật Bản ra đời từ văn bản Trung Hoa.

9

1.2. TỔNG QUAN LÝ THUYẾT NHẬN DẠNG VĂN BẢN
1.2.1. Giới thiệu
1.2.1.1. Lịch sử hình thành và sự cần thiết của khoa học nhận dạng
Từ giữa những năm 50 của thế kỷ XX, nhận dạng là một lĩnh vực có sức hấp

dẫn rất lớn cho việc nghiên cứu và phát triển, thu hút nhiều nhà khoa học tham gia
nghiên cứu. Những sản phẩm nhận dạng văn bản mang tính thương mại bắt đầu
xuất hiện vào những năm 60. Một vài phương pháp nhận dạng đơn giản đã được
đưa vào áp dụng. Có thể kể một vài sản phẩm tiêu biểu là: IBM 1418, IBM 1428,
IBM 1285, IBM 1287 của IBM, Facom 6399 của Fuitsu và H-852 của Hitachi. Vào
những năm 70, những tiến bộ về công nghệ cho phép chế tạo các máy quét laser giá
rẻ có chất lượng cao, một số phần mềm khác cũng được giới thiệu, được viết chủ

yếu trên nền FORTRAN, sản phẩm nâng cấp H8959 của Hitachi đã đạt tới độ chính
xác 100% nếu sử dụng mẫu chữ một người và thử nghiệm lại bằng chính nét chữ
của người đó. Đặc biệt là trong những năm gần đây, cùng với sự bùng nổ các thiết
bị cảm ứng cầm tay, nhận dạng khơng chỉ cịn là lĩnh vực nghiên cứu lý thuyết nữa
mà đã được ứng dụng rộng rãi trong thực tế cuộc sống. Các bài toán nhận dạng
được nghiên cứu nhiều nhất hiện nay bao gồm nhận dạng các mẫu hình học (vân
tay, mặt người, hình khối,…), nhận dạng tiếng nói và nhận dạng văn bản. Chúng
được áp dụng vào nhiều lĩnh vực như y học, dự báo thời tiết, dự báo cháy rừng, điều
khiển robot, ... Trong đó bài tốn nhận dạng văn bản là bài tốn có sức thu hút hơn
cả bởi sự bùng nổ các thiết bị cầm tay cảm ứng hiện nay.

Bạn hãy tưởng tượng trong tương lai mà một máy tính khơng cần bàn phím.
Thay vào đó tất cả các lệnh và dữ liệu được cho vào máy tính một cách rất tự nhiên:
bằng văn bản. Khi đó tất cả các cơng việc tẻ nhạt của con người chẳng hạn như đọc
kiểm tra trong hệ thống ngân hàng, phân loại thư trong hệ thống bưu chính... được
thay thế bằng máy móc. Điều này chỉ có thể thực hiện được khi máy tính hiểu được
các ký tự bạn viết trên văn bản đó, máy tính nhận dạng được các ký tự viết tay của
bạn. Đó là một thực tế để thấy được tiềm năng to lớn của lĩnh vực nhận dạng văn
bản.

10

Trong bối cảnh các thiết bị cảm ứng như smart phone, Ipad… ngày càng trở
nên phổ biến, người ta có thể viết trực tiếp trên một màn hình tinh thể lỏng (LCD)
hiển thị với một bút điện tử hay đơn đơn giản là ngón tay. Màn hình là một ma trận
nhạy cảm ghi lại sự chuyển động của đầu bút trên bề mặt. Quỹ đạo của các cây bút
xuất hiện gần như ngay lập tức trên màn hình. Nhận dạng văn bản dựa trên quỹ đạo
bút khi đó đóng vai trị quan trọng cho phép máy tính hiểu người viết muốn thực
hiện thao tác gì, tập lệnh gì .... Việc nhận dạng văn bản trong trường hợp này có ưu
thế hơn so với hình thức nhận dạng tiếng nói ở tính bảo mật.


Trong hệ thống ngân hàng, các biểu mẫu thuế tự động và máy đọc tự động là
những ứng dụng rất hấp dẫn nhận dạng văn bản. Loại ứng dụng này có đặc điểm số
lượng từ vựng sử dụng ít. Các từ vựng khoảng 35 từ và số, như đơn vị tiền tệ….Nếu
sử dụng loại máy này sẽ tiết kiệm chi phí về thời gian và nhân lực. Tuy nhiên nó địi
hỏi một sự công nhận tỷ lệ rất cao mà đây vẫn là một trở ngại trong hệ thống nhận
dạng văn bản.

Trong các ứng dụng bưu chính, với đặc điểm sử dụng vốn từ vựng lớn, có
chứa tất cả đường phố, thành phố, quận huyện, và quốc gia tên. Hiện nay, có tồn tại
các thiết bị tự động có thể sắp xếp thư dựa vào việc đọc mã zip. Tuy nhiên trong
nhiều trường hợp, một hoặc nhiều chữ số trong các mã zip được nhận dạng sai có
thể gây ra phân loại sai. Để cải thiện hiệu suất của thiết bị phân loại, công nhận tên
đường phố và thành phố nên được kết hợp với nhận dạng mã vùng.

Một ứng dụng quan trọng của nhận dạng văn bản là sự sao chép của văn bản
dạng văn bản cho phép máy tính có thể đọc được văn bản. Rõ ràng, văn bản được
viết bởi một cây bút và tờ giấy nhanh hơn và dễ dàng hơn nhiều nếu gõ từ bàn
phím, đặc biệt là đối với ngôn ngữ như Trung Quốc, Lào, Thái Lan…. Các ứng
dụng sao chép văn bản là rất lớn. Ví dụ trong lưu trữ hệ thống để lưu trữ các tài liệu
lưu trữ hàng trăm năm tuổi, dữ liệu sẽ được quét thành các file ảnh và sau đó được
lưu trữ trong các thiết bị lưu trữ như đĩa cứng và đĩa CD ROM. Tuy nhiên ngay cả
đối với các tập tin hình ảnh định dạng tốt nhất, kích thước vẫn cịn rất lớn so với
kích thước của một tập tin văn bản. Với hệ thống sao chép văn bản tất cả các tài liệu

11

đầu tiên được quét và sau đó chuyển đổi và được lưu trữ trong các hình thức của các
tập tin văn bản, u cầu khơng gian ít hơn. Một hệ thống như vậy đtơi lại lợi ích
kinh tế rất lớn.


Rõ ràng, tất cả các ứng dụng trên phụ thuộc mạnh mẽ vào tính chính xác của
hệ thống nhận dạng. Câu hỏi đặt ra là chúng ta đã xây dựng được một hệ thống đáp
ứng được các nhu cầu thực tế đó chưa? Câu trả lời chúng ta đã có những hệ thống
nhận dạng tuy nhiên tính chính xác tuyệt đối vẫn cịn cần thời gian nghiên cứu thêm
. Chỉ có một vài năm trước đây, nhận dạng văn bản dường như ngoài tầm với, ngày
nay giấc mơ đã trở thành hiện thực thực. Nhiều hệ thống nhận dạng ra đời với độ
chính xác cao đáp ứng được một số các nhu cầu cơ bản khơng địi hỏi tính chính
xác tuyệt đối.

1.2.1.2. Phân loại nhận dạng văn bản
Nhận dạng văn bản là lĩnh vực được nhiều nhà nghiên cứu quan tâm và cho
đến nay lĩnh vực này cùng đã đạt được nhiều thành tựu lớn lao cả về mặt lý thuyết
lẫn ứng dụng thực tế. Lĩnh vực nhận dạng chữ được chia làm hai loại: Nhận dạng
văn bản chữ in và nhận dạng văn bản viết tay.
1.2.1.3. Phong cách viết trong các hệ thống nhận dạng
Trong hệ thống nhận dạng một phong cách viết, các hệ thống được xây dựng
để nhận ra các văn bản của phong cách viết cụ thể. Tỷ lệ nhận dạng của hệ thống là
vì thế cao cho đối với người viết đó và sẽ giảm xuống đáng kể cho những phong
cách viết khác. Trong hệ thống đa phong cách viết, các hệ thống được xây dựng để
nhận dạng với văn bản của hàng trăm phong cách viết khác nhau. Do đó tỷ lệ nhận
dạng đối với từng phong cách viết thấp hơn so với hệ thống đơn phong cách[1],[2].
Tùy thuộc vào ứng dụng, hệ thống nhận dạng có thể được xây dựng dựa trên một
trong hai cách trên. Đối với một thiết bị cầm tay, sẽ tối ưu nếu chúng ta xây dựng hệ
thống đơn phong cách, trong khi đối với văn bản sao chép các ứng dụng hệ thống đa
phong cách thực sự là một lựa chọn tốt hơn.

12
1.2.2. Mơ hình tổng qt của một hệ thống nhận dạng văn bản


Hình 1.7: Mơ hình tổng qt hệ thống nhận dạng văn bản
1.2.2.1. Tiền xử lý
Giai đoạn này góp phần làm tăng độ chính xác phân lớp của hệ thống nhận
dạng, tuy nhiên nó cũng làm cho tốc độ nhận dạng của hệ thống chậm lại. Vì vậy,
tùy thuộc vào chất lượng ảnh quét vào của từng văn bản cụ thể để chọn một hoặc
một vài chức năng trong khối này. Nếu cần ưu tiên tốc độ xử lý và chất lượng của
máy qt tốt thì có thể bỏ qua giai đoạn này[4].
Khối tiền xử lý bao gồm một số chức năng:

13

 Nhị phân hóa ảnh.
 Lọc nhiễu.
 Chuẩn hóa kích thước ảnh.
 Làm trơn biên chữ.
 Làm đầy chữ.
 Làm mảnh chữ.
 Xoay văn bản.
…
Nhị phân hóa ảnh
Nhị phân hóa ảnh là một kỹ thuật chuyển ảnh đa cấp xám sang ảnh nhị phân.
Trong bất kỳ bài tốn phân tích hoặc nâng cao chất lượng ảnh nào, nó cũng cần
thiết để xác định các đối tượng quan trọng. Nhị phân hóa ảnh phân chia ảnh thành 2
phần: phần nền và phần chữ. Hầu hết các phương pháp nhị phân hóa ảnh hiện nay
đều lựa chọn một ngưỡng thích hợp theo cường độ sáng của ảnh và sau đó chuyển
tất cả các giá trị độ sáng lớn hơn ngưỡng đó thành một giá trị độ sáng (ví dụ
“trắng”) và tất cả các giá trị bé hơn ngưỡng thành một giá trị độ sáng khác (“đen”)
[5].

Hình 1.8: Ảnh gốc và ành sau khi đã được nhị phân hóa



×