Tải bản đầy đủ (.pdf) (78 trang)

Nghiên cứu phương pháp nhận dạng chữ việt in chất lượng thấp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1015.76 KB, 78 trang )

..

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀTRUYỀN THƠNG

TRƯƠNG TUẤN TỒN

NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG
CHỮ VIỆT IN CHẤT LƯỢNG THẤP

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên 2014


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG

TRƯƠNG TUẤN TỒN

NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG CHỮ VIỆT
IN CHẤT LƯỢNG THẤP

Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. NGUYỄN THỊ THANH TÂN


Thái Nguyên 2014


i

LỜI CAM ĐOAN

Tôi xin cam đoan rằng bản luận văn này là tự thân nghiên cứu và hoàn
thành dưới sự hướng dẫn khoa học của TS. Nguyễn Thị Thanh Tân. Nếu có gì
vi phạm tơi xin hồn tồn chịu trách nhiệm.
Thái Nguyên, ngày

tháng

năm 2014

Trương Tuấn Toàn


ii

LỜI CẢM ƠN
Em xin bày tỏ lòng biết ơn sâu sắc tới TS. Nguyễn Thị Thanh Tân, cô đã
hướng dẫn, chỉ dạy tận tình để em hồn thành luận văn này.
Em xin chân thành cảm ơn các thầy cô giáo trong trường Đại học Công
nghệ thông tin và truyền thông – Đại học Thái Nguyên, các thầy cô giáo tại
viện CNTT Hà Nội đã truyền thụ kiến thức cho em trong suốt quá trình học
tập vừa qua.
Cuối cùng xin cảm ơn gia đình, cảm ơn các bạn đã cùng chia sẻ, giúp
đỡ, động viên trong suốt quá trình học tập cũng như trong thời gian thực

hiện luận văn.
Thái Nguyên, ngày

tháng

năm 2014

Trương Tuấn Toàn


iii

MỤC LỤC
LỜI CAM ĐOAN.....................................................................................................i
LỜI CẢM ƠN .........................................................................................................ii
MỤC LỤC ............................................................................................................ iii
HÌNH VẼ ................................................................................................................v
BẢNG ....................................................................................................................vi
MỞ ĐẦU ................................................................................................................1
CHƯƠNG 1 - TỔNG QUAN VỀ BÀI TỐN NHẬN DẠNG CHỮ VIỆT .............4
1.1 Qui trình chung của một hệ nhận dạng chữ ...................................................4
1.1.1

Phân lớp mẫu .......................................................................................4

1.1.2

Nhận dạng văn bản ............................................................................11

1.2 Chữ Việt và các đặc tr ưng của chữ Việt ......................................................14

1.2.1

Bảng chữ cái tiếng Việt ......................................................................14

1.2.2

Các nguyên âm trong tiếng Việt ......................................................... 14

1.2.3

Cấu trúc thanh điệu ............................................................................15

1.3 Những tồn tại trong nhận dạng văn bản chất lượng thấp.............................. 16
1.3.1

Chữ bị dính, nhịe ..............................................................................17

1.3.2

Văn bản bị đứt hoặc mất nét............................................................... 18

1.3.3

Văn bản bị nhiễu................................................................................19

1.3.4

Văn bản được in với các kiểu font chữ đặc biệt..................................20

1.3.5


Cỡ chữ quá lớn hoặc quá nhỏ ............................................................. 21

1.4 Kết luận ......................................................................................................22
CHƯƠNG 2 - MỘ T SỐ VẤN ĐỀ TRONG NHẬN DẠNG KÝ TỰ CHẤT LƯỢNG
THẤP ...................................................................................................................23
2.1 Trích chọn đặc trưng ...................................................................................24
2.1.1

Các đặc trưng sử dụng trong huấn luyện mơ hình .............................. 26

2.1.2

Các đặc trưng sử dụng trong quá trình nhận dạng .............................. 28

2.2 Nhận dạng ký tự dựa vào đặc tr ưng trích chọn. ...........................................29


iv

2.2.1

Phân cụm tập đặc tr ưng......................................................................30

2.2.2

Thuật toán phân lớp ký tự ..................................................................44

2.3 Kết luận ......................................................................................................50
CHƯƠNG 3 - THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ............................... 51

3.1 Bài toán ......................................................................................................51
3.2 Cài đặt chương trình thử nghiệm .................................................................51
3.3 Đánh giá thực nghiệm .................................................................................60
3.3.1

Độ đo đánh giá...................................................................................60

3.3.2

Dữ liệu thực nghiệm ..........................................................................61

3.3.3

Kết quả thực nghiệm ..........................................................................62

3.4 Kết luận ......................................................................................................65
KẾT LUẬN ...........................................................................................................67
I. TÓM TẮT CÁC KẾT QUẢ ĐẠT ĐƯỢC CỦA LUẬN VĂN .....................67
II. NHỮNG VẤN ĐỀ CHƯA ĐƯỢC GIẢI QUYẾT BỞI LUẬN VĂN..........67
III. HƯỚNG PHÁT TRIỂN..............................................................................68
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................... 69


v

HÌNH VẼ
Hình 1.1: Qui trình chung của một hệ thống nhận dạng chữ ..................................11
Hình 1.2: Trường hợp văn bản in đậm ...................................................................17
Hình 1.3: Một số hình ảnh bị biến dạng của các ký tự ............................................18
Hình 1.4: Hình ảnh các ký tự tiếng Việt bị nhập nhằng phần dấu ........................... 18

Hình 1.5: Trường hợp văn bản bị đứt và mất nét ....................................................19
Hình 1.6: Hình ảnh của ký tự bị biến dạng do lỗi đứt nét .......................................19
Hình 1.7: Một số dạng nhiễu th ường gặp trên văn bản ...........................................20
Hình 1.8: Văn bản bị các nhiễu đánh dấu ............................................................... 20
Hình 1.9: Văn bản bị nhiễu do bị chồng chữ ký/con dấu ........................................20
Hình 1.10: Văn bản đ ược in với kiểu font chữ đặc biệt ..........................................21
Hình 2. 1: Các đặc trưng để huấn luyện mơ hình ...................................................27
Hình 2.2: Trích chọn các đặc trưng để nhận dạng ..................................................29
Hình 2.3: Đặc trưng của một dịng ảnh ..................................................................29
Hình 2.4: Một cấu trúc cây K-D ............................................................................33
Hình 2.5: Cấu trúc dữ liệu l ưu các đặc tr ưng đầu vào ............................................34
Hình 2.6: Cấu trúc dữ liệu cây K -D .......................................................................35
Hình 2.7: Cấu trúc CLUSTER ...............................................................................36
Hình 2.8: Cấu trúc DIM_DESC mơ tả mỗi chiều của cây K-D ............................. 37
Hình 2.9: Một số mẫu đại diện cho lớp kí tự ‘ộ’ ....................................................44
Hình 2.10: Thuật tốn phân lớp ký tự ....................................................................46
Hình 2.11: Kết quả thực hiện của thuật tốn .......................................................... 49
Hình 3.1: Quy trình thực hiện của chương trình thử nghiệm ..................................52
Hình 3.2: Các tập dữ liệu thử nghiệm ....................................................................62


vi

BẢNG
Bảng 1.1: Cấu trúc thanh điệu trong tiếng Việt ......................................................16
Bảng 3.1: Các lớp ký tự huấn luyện thuật toán....................................................... 53
Bảng 3.2: Kết quả thực nghiệm .............................................................................63


1


MỞ ĐẦU
1. Tính cấp thiết của l uận văn
Nhận dạng chữ là quá trình chuyển đổi từ dạng hình ảnh của một hay
nhiều trang ảnh chứa các thông tin văn bản thành tệp văn bản thực sự có thể
soạn thảo được trên máy tính. Khi đề cập đến bài tốn nhận dạng chữ, người
ta thường phân biệt hai loại là chữ in (optical character) và chữ viết tay
(handwritten character) [2], [6], [7], [9]. Các kết quả ứng dụng của bài toán
nhận dạng chữ in đã và đang được sử dụng rộng rãi trong qui trình tự động
hóa các hoạt động văn phịng, mang lại lợi ích thực sự cho con người.
Ngày nay cùng với sự phát triển về mặt lý thuyết, cơng nghệ, có rất
nhiều hướng đi cho việc giải quyết bài tốn này như: Hiện tại có rất nhiều
phương pháp phân lớp sử dụng trong nhận dạng chữ như: phân loại Bayes, Kláng giềng gần nhất (k-NN), mạng Neural (ANNs), mơ hình Markov ẩn
(HMM),… Những phương pháp này đã cho kết quả chấp nhận được và có nhiều
ứng dụng trong thực tế.
Trên thế giới hiện nay có nhiều chương trình nhận dạng chữ viết (chữ in
và viết tay), như các hệ OMNIPAGE, READ-WRITE, WORD-SCAN,... Ở
Việt Nam cũng có một số hệ như WORC của công ty 3C, VIET-IN của công
ty SEATIC, VNDOCR của Viện Công Nghệ Thông Tin, Image Scon của
Trung Tâm Tự Động Hóa Thiết Kế, hệ WINGIS của cơng ty DolfSoft [2].
Đối với bài tốn nhận dạng văn bản tiếng Việt, có thể nói cho đến thời
điểm hiện tại, việc nhận dạng các văn chữ in bản chất lượng thấp vẫn là một
vấn đề thách thức. Vì lý do đó, luận văn này sẽ tập trung nghiên cứu một số
phương pháp phân lớp mẫu và trích chọn đặc trưng nhằm lựa chọn được một
phương pháp thích hợp cho việc nhận dạng chữ Việt in chất lượng thấp , thử


2

nghiệm xây dựng chương trình nhận dạng ký tự chữ Việt một văn bản mà

trong văn bản đó xuất hiện nhiều ký tự bị dính, biến dạng, bị đứt hay mất
nét... với mong muốn sẽ làm ra một sản phẩm nhận dạng văn bản chữ in
tiế ng Việt chất lượng thấp hoàn chỉnh trong tương lai.
2. Mục tiêu của luận văn
Luận văn tập trung nghiên cứu một số phương pháp phân lớp mẫu và
trích chọn đặc trưng nhằm lựa chọn được một phương pháp thích hợp cho
việc nhận dạng các ảnh chữ cái và chữ số tiếng Việt chất lượng thấp.
Ảnh chất lượng thấp ở đây bao gồm các ảnh kí tự bị lỗi do nhiễu, do bị
đứt nét, bị thiếu hoặc thừa ra một phần nào đó do dính vào kí tự bên cạnh, do
các thành phần của kí tự bị dính với nhau chẳng hạn như phần mũ, dấu dính
với phần chữ đối với kí tự tiếng Việt.
3. Bố cục của luận văn
Các nội dung trình bày trong luận văn được chia thành 3 chương:
Chương I: Tổng quan về bài tốn nhận dạng chữ Việt.
Chương này trình bày tổng quan về các vấn đề liên quan đến nhận dạng,
các đặc trưng của chữ Việt và chữ Việt chất lượng thấp, những vấn đề tồn tại
trong bài toán nhận dạng ảnh văn bản chất lượng thấp, đưa ra mô hình chung
của hệ thống nhận dạng, các hướng tiếp cận nhận dạng, các yếu tố ảnh hưởng
đến hệ thống nhận dạng.
Chương II: Một số vấn đề trong nhận dạng ký tự chất lượng thấp
Chương này trình bày những khái niệm cơ bản về ảnh ký tự chất lượng
thấp, một số hướng tiếp cận trong phân lớp và trích chọn đặc trưng ký tự và
lựa chọn một phương pháp nhận dạng ảnh ký tự chất lượng thấp .
Chương III: Thực nghiệm và đánh giá kết quả


3

Chương này mơ tả chi tiết q trình thử nghiệp phân lớp và một số
phương pháp trích chọn đặc trưng, đồng thời đưa ra đánh giá hiệu quả của quá

trình nhận dạng.
Phần kết luận
Phần này sẽ nêu lên các vấn đề đã giải quyết được, chưa giải quyết được
và hướng phát triển trong tương lai của luận văn.


4

CHƯƠNG 1 - TỔNG QUAN VỀ BÀI TOÁN NHẬN DẠNG
CHỮ VIỆT
1.1 Qui trình chung của một hệ nhận dạng chữ
Qui trình chung của một hệ thống nhận dạng chữ thường gồm hai giai
đoạn là: Phân lớp mẫu và nhận dạng văn bản [2].
1.1.1 Phân lớp mẫu
Phân lớp (sắp lớp) mẫu là giai đoạn quyết định trong quá trình nhận
dạng. Hai kiểu phân lớp điển hình thường được sử dụng là: phân lớp có
thầy (học có thầy) và phân lớp khơng có thầy (học khơng có thầy). Các
vấn đề thường được đặt ra trong bước phân lớp là:
• Độ chính xác: Độ tin tưởng của một luật phân lớp được thể bởi tỷ
lệ phân lớp đúng. Nhìn chung, độ chính xác được đo bởi tập dữ liệu học
và độ chính xác được đo bởi tập dữ liệu thử nghiệm là khác nhau. Đây
không phải là một điều bất thường, đặc biệt trong các ứng dụng học máy,
đối với tập dữ liệu học thì có thể đúng hồn tồn, nhưng trên tập dữ liệu
thử nghiệm có khi kết quả lại rất tồi tệ. Khi nói đến độ chính xác của một
thuật tốn phân lớp thì thường là nói đến độ chính xác trên tập dữ liệu thử
nghiệm. Kinh nghiệm thực tế cho thấy, độ chính xác của một thuật tốn
phân lớp phụ thuộc khá nhiều vào tập dữ liệu học (cả về mặt số lượng lẫn
chất lượng) nói một cách khác là v iệc trích chọn đặc trưng của các mẫu có
ảnh hưởng lớn tới độ chính xác của q tr ình phân lớp.
• Tốc độ phân lớp: Đây là yếu tố đặc biệt quan trọng đối với các hệ

thống có tính thời gian thực, chẳng hạn nh ư nhận dạng chữ viết tay trực
tuyến (online) , ...
• Tính dễ hiểu: Thuật toán phân lớp đơn giản, dễ cài đặt và hiệu quả.


5

• Thời gian học: Nhất là trong một mơi trường thường xuyên thay
đổi, cần phải học một luật phân lớp một cách nhanh chóng hoặc hiệu
chỉnh một luật đã có trong thời gian thực. Để học nhanh , nhiều khi ta chỉ
cần sử dụng một số lượng nhỏ các mẫu huấn luyện để thiết lập các luật
phân lớp.
Tổng quan về các phương pháp phân lớp kí tự đã được đề cập . Về cơ
bản, có thể chia thành ba hướng tiếp cận chính: Phân lớp ký tự dựa trên
đối sánh mẫu, phân lớp ký tự dựa trên phân tích cấu trúc chữ và phân lớp
ký tự dựa trên các kỹ thuật học máy.
1.1.1.1 Hướng tiếp cận đối sánh mẫu
Quá trình phân lớp kí tự được tiến hành dựa trên việc đối sánh mỗi đối
tượng đầu vào với lần lượt từng mẫu (prototypes) đã được lưu trữ n hằm
tìm ra một lớp mẫu phù hợp nhất với đối tượng đó. Các kỹ thuật đối sánh
mẫu điển hình gồm đối sánh trực tiếp , đối sánh mềm (deformable
templates and elastic matching) và đối sánh trên tập đặc trưng (so khớp
tập đặc trưng).
Với kỹ thuật đối sánh trực ti ếp, mỗi kí tự đầu vào sẽ được so sánh trực
tiếp với một tập mẫu chuẩn đã được lưu trữ dựa trên một số độ đo cụ thể,
chẳng hạn như các độ đo khoảng cách (Euclide, Manhattan, Jaccard), độ
tương tự (similarity measure), v.v. Mặc dù các kỹ thuật đối sánh trực tiếp
là trực quan và có một nền tảng tốn học vững chắc, tuy nhiên lại rất nhạy
cảm với nhiễu.
Ý tưởng của phương pháp đối sánh mềm là đối sánh mỗi ảnh đầu vào

với tất cả các biến dạng có thể có của tập mẫu một cách tối ưu dựa trên
phương pháp qui hoạch động và các phép biến dạng ảnh. Vấn đề gặp phải
của phương pháp đối sánh mềm là thời gian và tốc độ thực thi.


6

Đối với Phương pháp đối sánh tập đặc trưng còn được gọi là phương
pháp đối sánh không chặt (relaxation matching - RM), mỗi ảnh đầu vào sẽ
được biểu diễn bằng một tập các đặc trưng. Trong quá trình phân lớp, mỗi
tập đặc trưng đầu vào sẽ được đối sánh với lần lượt các tập đặc trưng
mẫu. Các kỹ thuật này khắc phục được các vấn đề thời gian và tốc độ
nhưng hiệu quả của thuật toán phân lớp phụ thuộc nhiều vào tập đặc trưng
được trích chọn.
1.1.1.2 Hướng tiếp cận phân tích cấu trúc
Hướng tiếp cận này xuất phát từ ý tưởng biểu diễn một mẫu phức tạp
bằng các mẫu đơn giản hơn dựa trên hình dạng của đối tượng. Các mẫu
này được sử dụng để mô tả và phân lớp các kí tự tro ng hệ thống OCR. Hai
phương pháp điển hình trong hướng tiếp cận này là phân tích cú pháp văn
phạm (grammatical) v à đồ thị (graphical).
Các phương pháp phân tích văn phạm thường bắt đầu bằng việc tạo
một số luật để sinh ra một kí tự từ tập các nét cơ bản th ông qua các văn
phạm hình thức. Các phương pháp này có thể kết hợp các đặc trưng tô pô
với bất kỳ kiểu đặc trưng nào theo một số luật cú pháp và ngữ nghĩa. Các
cơng cụ hình thức chẳng hạn như lý thuyết ngơn ngữ cho phép mơ tả các
cấu trúc và trích chọn thô ng tin ngữ cảnh về người viết bằng cách sử dụng
các kiểu văn phạm khác nhau. Trong các phương pháp văn phạm, việc
huấn luyện được thực hiện bằng cách mơ tả mỗi kí tự bởi một văn phạm
G. Trong quá trình nhận dạng, mỗi chuỗi, cây hoặc đồ thị của các đơn vị
viết bất kỳ (kí tự, từ, câu) được phân tích để quyết định xem nó thuộc vào

văn phạm mẫu nào. Các phương pháp phân tích dưới lên (bottom -up) hoặc
trên xuống (top-down) được sử dụng cho việc phân tích cú pháp. Phương
pháp phân tích văn phạm có thể áp dụng cho các mức kí tự, từ và câu. Ở


7

mức kí tự, ngơn ngữ mơ tả hình ảnh (PDL) được sử dụng để mơ hình hóa
mỗi kí tự bằng tập các nét và các mối quan hệ giữa chúng. Quá trình phân
lớp sẽ tìm kiếm lớp mẫu phù hợp nhất cho mỗi đối tượng đầu vào dựa trên
các mô t ả đã được lưu trữ. Ở mức từ, các thống kê bi -gram và tri-gram
được sử dụng để tạo ra các văn phạm sinh từ (word). Việc mô tả từ và câu
sử dụng các tri thức dựa trên các luật ngôn ngữ. Các phương pháp văn
phạm cũng được sử dụng trong công đoạn hậu xử lý để tăng độ chính xác
nhận dạng.
Với phương pháp đồ thị , các đơn vị viết (kí tự/từ) được thể hiện bởi
các cây hoặc đồ thị. Trong quá trình huấn luyện, một đồ thị hoặc cây sẽ
được tạo ra để biểu diễn các nét cơ bản tương ứng với mỗi lớp mẫu. Quá
trình nhận dạng sẽ gán mỗi đồ thị chưa biết cho một trong các lớp mẫu
dựa trên các độ đo cụ thể.
1.1.1.3 Hướng tiếp cận dựa trên học máy
Các phương pháp học máy được ứng dụng phổ biến trong phân
lớp/nhận dạng mẫu. Lợi điểm của các phương pháp học máy là không yêu
cầu phải đầu tư quá nhiều thời gian và công sức cho việc xây dựng tập
mẫu như các hướng tiếp cận cấu trúc hay văn phạm. Ngoài ra, các phương
pháp học máy cịn cải thiện đáng kể độ chính xác nhận dạng do đã được
huấn luyện với một tập mẫu học lớn. Các phương pháp học máy điển hình
được áp dụng trong bài toán nhận dạng chữ là các phương pháp thống kê ,
mạng nơron nhân tạo (ANN), các phương pháp hàm nhân, và kết hợp
nhiều phương pháp phân lớp .

 Các phương pháp thống kê : Lý thuyết quyết định thống kê thường
liên quan tới các hà m quyết định thống kê và tập các tiêu chuẩn tối ưu,


8

cực đại hóa xác xuất của mẫu quan sát được bởi mơ hình của một lớp mẫu
cụ thể. Các kỹ thuật thống kê chủ yếu dựa trên ba giả thiết cơ bản sau:
i) Phân bố của tập đặc trưng là phân bố Gaussian hoặc phân bố c huẩn.
ii) Có các biến thống kê đầy đủ cho mỗi lớp.
iii)Với mỗi ảnh I cho trước sẽ trích chọn được một tập các đặc trưng

{fi | i = 1, n}, đại diện cho các lớp mẫu riêng biệt.
Các kỹ thuật điển hình trong phân lớp thống kê gồm có: Phân lớp có
tham số, phân lớp không tham số và phân lớp dựa trên các mơ hình
Markov ẩn.
Các phương pháp phân lớp khơng tham số thường được sử dụng để
phân tách các lớp mẫu khác nhau theo các siêu phẳng trong một không
gian cho trước. Phương pháp k -láng giềng gần nhất (k -nn) là phương pháp
phân lớp không tham số được sử dụng phổ biến nhất trong bài toán nhận
dạng.
Trong trường hợp biết trước thơng tin về các kí tự trong tập dữ liệu
huấn luyện, có thể xây dựng được một mơ hình tham số cho mỗi kí tự.
Khi các tham số của mơ hình đã được xác định, các kí tự sẽ được phân lớp
theo một số luật quyết định (MLE, Bayes).
Mô hình Markov ẩn được ứng dụng phổ biến nhất trong bài tốn nhận
dạng chữ viết tay trực tuyến (online-handwritting). Mơ hình này được
định nghĩa là một tiến trình ngẫu nhiên đư ợc sinh ra bởi hai cơ chế có liên
quan mật thiết với nhau: một xích Markov có hữu hạn trạng thái và một
tập các hàm ngẫu nhiên, trong đó mỗi hàm được liên kết với một trạng

thái. Tại mỗi thời điểm, một quan sát được sinh ra bởi hàm ngẫu nhiên
tương ứng với trạng thái đang xét. Xích Markov sau đó sẽ thay đổi các


9

trạng thái theo các xác suất chuyển của chúng. Các mơ hình MD -HMM
(model discriminant HMM) thường được sử dụng cho bài tốn phân lớp kí
tự. Trong đó mơ hình này, mỗi HMM sẽ được xây dựng cho một lớp mẫu
kí tự trong q trình huấn luyện. Các trạng thái thể hiện các trọng tâm của
cụm trong không gian đặc trưng. Nhiệm vụ của quá trình phân lớp là xác
định mơ hình đã sinh ra chuỗi quan sát đầu vào.
 Mơ hình mạng nơron: Mạng nơron nhân tạo (Artificial Neur al
Network) là một mơ hình tính tốn mơ phỏng theo hoạt động của bộ não
và nơron sinh học của con người.
Cấu trúc của một mơ hình mạng nơron bao gồm nhiều nút (đơn vị xử
lý, nơron) được nối với nhau bởi các liên kết nơron . Mỗi liên kết kèm
theo một trọng số nào đó, đặc trưng cho đặc tính kích hoạt/ức chế các
nơron. Có thể xem các trọng số như là thành phần để lưu giữ thông tin dài
hạn trong mạng nơron. Nhiệm vụ của quá trình huấn luyện mạng là cập
nhật các trọng số khi có thêm các thơng tin về các mẫu học, hay nói một
cách khác là các trọng số được điều chỉnh sao cho dáng điệu vào ra của nó
mơ phỏng hồn tồn phù hợp với tập mẫu đang xét.
Các mơ hình mạng MLP (multilayer layer perceptron), RBF (radial
basis function), HONN (higher-order neural network), Kohonen, mạng
xoắn (convolutional neural network) đã được đã được ứng dụng rộng rãi
trong bài tốn phân lớp mẫu nói chung và phân lớp kí tự nói riêng. Trong
q trình huấn luyện mạng, m ỗi mẫu huấn luyện được cung cấp dưới dạng
cặp vector: {(x = x 1,..., xp) , (t = t1,...,tq)}, với x là vector đặc trưng p chi ều
được trích chọn từ mẫu đầu vào, các phần tử x1,..., xp thường có giá trị ∈

[-1,1] hoặc ∈ [0,1] và t là giá trị mục tiêu tương ứng của mẫu đó , các
trọng số liên kết thường được hiệu chỉnh nhằm cực tiểu hó a sai số bình


10

phương trung bình trên các mẫu huấn luyện. Sau khi mạng được huấn
huấn thành cơng, các tri thức tích l uỹ được trong quá luyện mạng (các ma
trận trọng số, các tham số tự do, v.v) sẽ được cập nhật vào cơ sở tri thức
để sử dụng trong quá trình n hận dạng.
 Các phương pháp phân lớp sử dụng hàm nhân : Các phương pháp
phân lớp sử dụng hàm nhân bao g ồm SVM (support vector machine),
KPCA (kernel principal component analysis), KFD (kernel Fisher
discriminant analysis), v.v đã được ứng dụng phổ biến và th u được những
kết quả đáng kể trong bài tốn nhận dạng mẫu nói chung.
SVM là một kỹ thuật phân lớp nhị phân dựa trên lý thuyết cực tiểu
hoá rủi ro theo cấu trúc (Structural Risk Minimization) của Vapnik với
các hàm phân biệt là sự kết hợp có trọng số của các hàm nhân trên tồn b ộ
tập mẫu huấn luyện. Việc huấn luyện SVM dựa trên ý tưởng tìm siêu
phẳng tối ưu trong khơng gian đặc trưng để cực đại khoảng cách giữa hai
lớp mẫu huấn luyện trong bài toán phân lớp nhị phân.
Các thuật toán huấn luyện SVM thường d ựa trên ý tưởng phân tích bài
tốn qui hoạch tồn phương (quadratic programming -QP) ban đầu thành
dãy các bài toán QP nhỏ hơn. Sau khi huấn luyện, các mẫu có trọng số
khác 0 sẽ được gọi là các vector hỗ trợ (support vector -SV). Đối với bài
toán phân nhiều lớp, các SVM nhị phân sẽ được kết hợp theo các chiến
lược one-vs-one hoặc one-vs-all. Ưu điểm của SVM là khả năng phân lớp
với độ chính xác cao. Tuy nhiên, tốc độ phân lớp của SVM bị đánh giá là
chậm hơn so với các phương pháp phân lớp khác.
Trong quá trình phân lớp, SVM phải duyệt qua tất cả các SV để so

sánh với mẫu cần nhận dạng, khi số SV tăng lên thì tốc độ phân lớp sẽ
giảm xuống tương ứng. Vì lý do đó, vấn đề giảm thiểu số SV nhằm tăng


11

tốc độ phân lớp thường được đặt ra đối với phương pháp này. Tuy vậy,
việc giảm số lượng các SV có thể bị trả giá bởi độ chính xác phân lớp.
1.1.2 Nhận dạng văn bản
Các bước cần thực hiện trong giai đoạn n ày được thể hiện cụ thể trên
hình 1.1, bao gồm 7 bước xử lý cơ bản, bao gồm: Thu nhận và lưu trữ
ảnh, tiền xử lý, phân tích trang văn bản, nhận dạng, hậu xử lý, l ưu văn
bản.

Hình 1. 1: Qui trình chung của một hệ thống nhận dạng chữ
1. Thu nhận và lưu trữ ảnh : Đây là cơng đoạn đầu tiên trong một
q trình nhận dạng ảnh. Trong một hệ thống nhận dạng, ảnh thường được
thu nhận qua scanner, sau đó được lưu trữ dưới các định dạng file ( ∗.pcx,


12

∗.bmp, ∗.jpg, ∗.tif, ∗.gif, ∗.png, ...). Nhìn chung việc lựa chọn định dạng
file lưu trữ sẽ tuỳ thuộc vào các văn bản đầu vào cần nhận dạng và các
yêu cầu cụ thể của từng hệ thống.
2. Tiền xử lý ảnh : Đây là công đoạn sử dụng các kỹ thuật xử lý ảnh để
nâng cao chất lượng ảnh đầu vào. Nhìn chung, chất lượng của ảnh đầu vào sẽ
ảnh hưởng nhiều đến chất lượng nhận dạng. Vì vậy, tiền xử lý ảnh là một
bước không thể thiếu được t rong một hệ thống nhận dạng hay xử lý ảnh. Các
kỹ thuật thường được sử dụng trong quá trình tiền xử lý là: Phân ngưỡng, căn

chỉnh độ lệch trang văn bản, lọc nhiễu, nối nét đứt trên ảnh, ....
3. Phân đoạn ảnh: đây là một trong những công đoạn quan trọng
nhất t rọng nhất của q trình nhận dạng và có ảnh hưởng lớn đến kết quả
nhận dạng. Hai cách tiếp cận phổ biến được lựa chọn trong quá trình phân
đoạn ảnh là:
•Cách tiếp cận trên xuống (top-down): Tồn bộ ảnh văn bản cần
phân đoạn được coi là một khối lớn, sau đó khối này được phân thành các
khối nhỏ hơn, các khối nhỏ này lại tiếp tục được phân thành các khối nhỏ
hơn nữa cho đến khi thu được các kí tự hoặc khơng thể phân nhỏ hơn
được nữa. Nhìn chung, với cách tiếp cận này, phương pháp thường dùng
để phân đoạn ảnh là sử dụng các biểu đồ tần suất ngang và dọc. Tuy
nhiên, do biểu đồ tần suất bị ảnh hưởng nhiều bởi độ nghiêng trang văn
bản nên trước khi xử lý phân đoạn, ta thường phải căn chỉnh độ lệch của
trang văn bản.
•Cách tiếp cận dưới lên (bottom -up): Quá trình phân đoạn bắt đầu
bằng việc xác định những thành phần nhỏ nhất, sau đó gộp chúng lại
thành những thành phần lớn hơn, cho đến khi thu được tất cả các khối
trong trang văn bản.


13

4. Nhận dạng: Đây chính là thao tác gán nhãn cho đối tượng dựa
trên những tri thức đã học được , nói cách khác đây là thao tác tìm kiếm
một lớp mẫu phù hợp nhất với đối tượng đầu vào .
5. Học mẫu mới: Do tập mẫu huấn luyện không thể bao quát được
toàn bộ các mẫu trong thực tế nên trong q trình nhận dạng có thể sẽ gặp
những mẫu mới mới mà hệ t hống không thể nhận dạng chính xác được.
Khi đó việc học thêm những mẫu này sẽ góp phần làm tăng chất lượng
của hệ thống nhận dạng.

6. Hậu xử lý : Đây là một trong những cơng đoạn cuối cùng của q
trình nhận dạng. Trong nhận dạng chữ, có thể hiểu hậu xử lý là bước ghép
nối các kí tự đã nhận dạng được thành các từ, các câu, các đoạn văn nhằm
tái hiện lại văn bản đồng thời phát hiện ra các lỗi nhận dạng bằng cách
kiểm tra chính tả dựa trên cấu trúc và ngữ nghĩa của câu, đoạn văn. Việc
phát hiện ra các lỗi, các sai sót trong nhận dạng ở bước này đã góp phần
đáng kể vào việc nâng cao kết quả nhận dạng. Đặc biệt đối với các ảnh
văn bản đầu vào không tốt (chẳng hạn: Bản in bị mờ, bị đứt nét do photo
nhiều lần,...) hoặc các văn bản in chứa nhiều thông tin hỗn hợp (chẳng
hạn: Trong văn bản có cả số lẫn chữ và các kí hiệu), điều này rất dễ gây
nhầm lẫn trong nhận dạng. Thậm chí có những trường hợp nhập nhằng chỉ
có thể giải quyết được bằng ngữ cảnh bằng cách phân tích ngữ cảnh của
câu, chẳng hạn như trường hợp nh ập nhằng giữa từ “lO” với số “10”.
7. Lưu văn bản : Sau khi văn bản cần nhận dạng đã được tái tạo về
dạng nguyên bản sẽ được lưu lại ở các định dạng file được hệ thống hỗ
trợ, chẳng hạn như file dạng (.doc, .rtf, .xls, ...).


14

1.2 Chữ Việt và các đặc trưng của ch ữ Việt
Chữ Quốc Ngữ là hệ thống chữ là hệ thống chữ viết chính thức hiện
nay của tiếng Việt. Hệ thống này được xây dựng dựa trên chữ cái Latinh
thêm các chữ ghép và 9 dấu phụ - 4 dấu tạo ra các âm mới, và năm dấu
còn lại dành cho thể hiện thanh điệu của t ừ. Hai loại dấu phụ có thể đ ược
viết cùng trên một chữ cái nguyên âm.
1.2.1 Bảng chữ cái tiếng Việt
Bảng chữ cái tiếng Việt có 29 chữ cái, theo thứ tự:
AĂÂBCDĐGHIKLMNƠPQRSTUƯVXY
aăâbcdđghiklmnơpqrstuưvxy

Ngồi ra, có 9 chữ ghép đôi và 1 chữ ghép ba.
CH GH GI KH NG NGH NH PH TH TR
Trước đây, các chữ ghép này được coi như một chữ cái độc lập và có
thể được tìm thấy trong từ điển cũ. Ngày nay chúng không được coi là
chữ cái độc lập mà là chữ ghép; ví dụ trong việc xếp thứ tự, "CH" nằm
giữa "CA" và "CO" trong các từ điển hiện đại. Các chữ cái "F", "J", "W"
và "Z" không có trong bảng chữ cái tiếng Việt, nhưng có thể bắt gặp trong
các từ vay mượn từ tiếng nước ngoài. "W" thỉnh thoảng được dùng trong
viết tắt thay "Ư" .
1.2.2 Các nguyên âm trong tiếng Việt
Ngoài các nguyên âm đơn, trong tiếng Việt cịn có ngun âm đơi và
ngun âm ba. Một nguyên âm có thể biểu thị cho vài cách phát âm khác
nhau, tùy theo nó nằm trong nguyên âm đơn, đôi hay ba; và nhiều khi các
cách viết nguyên âm khác nhau tượng trưng cho cùng một cách phát âm.


15

 Các nguyên âm đơn: a ă â e ê i o ô ơ u ư y.
 Các nguyên âm đôi: ui, ôi, oi, ơi, ây, ai, ay, ưi, ia, ya, iê, yê, ưa, ươ,
iu, êu, eo, ơu, âu, ao, au, o ưu, ua, uơ.
 Các nguyên âm ba: iêu, yêu, ươi, uôi, ươu..
1.2.3 Cấu trúc thanh điệu
Tiếng Việt là ngôn ngữ thanh điệu, nghĩa là nghĩa của một từ phụ
thuộc vào thanh điệu của từ đó. Có sáu thanh điệu; trong đó thanh ngang
khơng ghi dấu phụ, cịn các thanh khác có dấu phụ ghi tại nguyên âm
(Bảng 1.1).


16


Bản g 1.1: Cấu trúc thanh điệu trong tiếng Việt
Thanh
điệu

Dấu
phụ

Nguyên âm mang dấu phụ

Ngang

Không
A/a Ă/ă Â/â E/e Ê/ê I/i O/o Ơ/ơ Ơ/ơ U/u Ư/ư Y/y


Huyền

Dấu
huyền

À/à Ằ/ằ Ầ/ầ È/è Ề/ề Ì/ì Ò/ò Ồ/ồ Ờ/ờ Ù/ù Ừ/ừ Ỳ/ỳ

Sắc

Dấu
sắc

Á/á Ắ/ắ Ấ/ấ É/é Ế/ế Í/í Ĩ/ó Ố/ố Ớ/ớ Ú/ú Ứ/ứ Ý/ý


Hỏi

Dấu
hỏi

Ả/ả Ẳ/ẳ Ẩ/ẩ Ẻ/ẻ Ể/ể Ỉ/ỉ Ỏ/ỏ Ổ/ổ Ở/ở Ủ/ủ Ử/ử Ỷ/ỷ

Ngã

Dấu
ngã

Ã/ã Ẵ/ẵ Ẫ/ẫ Ẽ/ẽ Ễ/ễ Ĩ/ĩ Õ/õ Ỗ/ỗ Ỡ/ỡ Ũ/ũ Ữ/ữ Ỹ/ỹ

Nặng

Dấu
nặng

Ạ/ạ Ặ/ặ Ậ/ậ Ẹ/ẹ Ệ/ệ Ị/ị Ọ/ọ Ộ/ộ Ợ/ợ Ụ/ụ Ự/ự Ỵ/ỵ

1.3

Những tồn tại trong nhận dạng văn bản chất lượng thấp
Chất lượng của ảnh đầu vào là yếu tố quyết định tới độ chính xác của

một hệ thống nhận dạng. Hầu hết các hệ thống nhận dạng chữ hiện đang
được thương mại hóa trên thị trường đều cho độ chính xác cao trên những
ảnh đầu vào có chất lượng tốt. Tuy nhiên, độ chính xác này thường khơng
được đảm bảo trong trường hợp ngược lại. Ngay cả khi văn bản được i n

thông thường, dễ dàng nhận dạng mặt chữ và định dạng, vẫn có rất nhiều
lỗi sinh ra do ảnh đầu vào có chất lượng thấp hay nói một cách khác là do
những lỗi về mặt hình ảnh (imaging defect). Những lỗi này thường bao
gồm các kí tự bị dính, bị nhiễu, in quá đậm, các kí tự bị mờ, đứt hoặc mất
nét. Ngoài ra các nhiễu vệt và các đường baseline cong cũng là những
nguyên nhân gây ảnh hưởng đến chất lượng nhận dạng. Các lỗi hình ảnh


17

thường sinh ra trong quá trình in ấn (printing process) hoặc quá trình thu
nhận hình ảnh (scanning process). Các băng mực máy in q đậm có thể
tạo ra các kí tự bị nhịe hoặc có vết bẩn, trong khi các băng mực bị mòn sẽ
sinh ra các bản in mờ nhạt. Việc sao chụp (photocopy) các văn bản nhiều
lần sẽ làm mất dần các thơng tin làm cho các kí tự trên đó bị đứt, gẫy và
mất nét. Ở bước thu nhận hình ảnh, các phần mềm điều khiển thiết bị quét
thường cho phép người dùng hiệu chỉnh ngưỡng độ sáng thông qua chức
năng điều khiển độ sáng (brightness control). Việc lựa chọn giá trị
ngưỡng này ảnh hưởng trực tiếp tới độ chính xác của hệ thống OCR bởi vì
nếu chọn ngưỡng thấp sẽ làm cho các kí tự bị đứt, mất nét (broken
characters), nếu chọn ngưỡng cao sẽ làm cho các kí tự bị dính (touching
characters). Giá trị ngưỡng này đôi khi cũng bất thường do các nhi ễu
nhiệt hoặc nhiễu điện, bản thân độ nhạy cảm (sensitivity) cũng có thể rất
khác nhau giữa các phần tử cảm ứng của máy qt do sự khơng hồn hảo
của qui trình sản xuất. Do đó, các kí tự giống hệt nhau trên các phần khác
nhau trên trang văn bản có thể có hình ảnh nhị phân khác nhau [2], [8].
1.3.1 Chữ bị dính, nhịe
Tách kí tự (character segmentation) là q trình xác định vị trí của các kí
tự riêng biệt trong một từ. Khi các kí tự bị dính nhau hoặc bị nhòe do chữ
được quá đậm, các hệ thống OCR cần phải áp dụng những kỹ thuật đặc biệt

để phân tách chúng.

Hình 1.2: Trường hợp văn bản in đậm
Thậm chí đối với những kí tự có thể phân tách một cách dễ dàng, việc in
quá đậm cũng có thể làm biến dạng hình ảnh của chúng, làm cho việc nhận


×