Tải bản đầy đủ (.doc) (90 trang)

Nghiên cứu phương pháp nhận dạng chữ việt in chất lượng thấp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (960.46 KB, 90 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀTRUYỀN THÔNG

TRƯƠNG TUẤN TOÀN

NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG
CHỮ VIỆT IN CHẤT LƯỢNG THẤP

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên 2014


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

TRƯƠNG TUẤN TOÀN

NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG CHỮ VIỆT
IN CHẤT LƯỢNG THẤP

Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. NGUYỄN THỊ THANH TÂN

Thái Nguyên 2014



i

LỜI CAM ĐOAN

Tôi xin cam đoan rằng bản luận văn này là tự thân nghiên cứu và hoàn
thành dưới sự hướng dẫn khoa học của TS. Nguyễn Thị Thanh Tân. Nếu có gì
vi phạm tôi xin hoàn toàn chịu trách nhiệm.
Thái Nguyên, ngày tháng năm 2014

Trương Tuấn Toàn


ii

LỜI CẢM
CẢM ƠN
Em xin bày tỏ lòng biết ơn sâu sắc tới TS. Nguyễn Thị Thanh Tân, cô đã
hướng dẫn, chỉ dạy tận tình để em hoàn thành luận văn này.
Em xin chân thành cảm ơn các thầy cô giáo trong trường Đại học Công
nghệ thông tin và truyền thông – Đại học Thái Nguyên, các thầy cô giáo tại
viện CNTT Hà Nội đã truyền thụ kiến thức cho em trong suốt quá trình học
tập vừa qua.
Cuối cùng xin cảm ơn gia đình, cảm ơn các bạn đã cùng chia sẻ, giúp
đỡ, động viên trong suốt quá trình học tập cũng như trong thời gian
thực hiện luận văn .
Thái Nguyên, ngày tháng năm 2014

Trương Tuấn Toàn



3

MỤC
MỤC LỤC
LỜI CAM ĐOAN .....................................................................................................i
LỜI CẢM ƠN .........................................................................................................ii
MỤC LỤC ............................................................................................................ iii
HÌNH VẼ ................................................................................................................ v
BẢNG ....................................................................................................................vi
MỞ ĐẦU ................................................................................................................ 1
CHƯƠNG 1 - TỔNG QUAN VỀ BÀI TOÁN NHẬN DẠNG CHỮ VIỆT ............. 4
1.1 Qui trình chung của một hệ nhận dạng chữ ................................................... 4
1.1.1

Phân lớp mẫu ....................................................................................... 4

1.1.2

Nhận dạng văn bản ............................................................................ 11

1.2 Chữ Việt và các đặc tr ưng của chữ Việt ...................................................... 14
1.2.1

Bảng chữ cái tiếng Việt ...................................................................... 14

1.2.2

Các nguyên âm trong tiếng Việt ......................................................... 14


1.2.3

Cấu trúc thanh điệu ............................................................................ 15

1.3 Những tồn tại trong nhận dạng văn bản chất l ượng thấp..............................
16
1.3.1

Chữ bị dính, nhòe .............................................................................. 17

1.3.2

Văn bản bị đứt hoặc mất nét ............................................................... 18

1.3.3

Văn bản bị nhiễu................................................................................ 19

1.3.4

Văn bản được in với các kiểu font chữ đặc biệt .................................. 20

1.3.5

Cỡ chữ quá lớn hoặc quá nhỏ ............................................................. 21

1.4 Kết luận ...................................................................................................... 22
CHƯƠNG 2 - MỘ T SỐ VẤN ĐỀ TRONG NHẬN DẠNG KÝ TỰ CHẤT LƯỢNG
THẤP ................................................................................................................... 23
2.1 Trích chọn đặc tr ưng ................................................................................... 24

2.1.1

Các đặc trưng sử dụng trong huấn luyện mô hình .............................. 26

2.1.2
28

Các đặc trưng sử dụng trong quá trình nhận dạng ..............................

2.2 Nhận dạng ký tự dựa vào đặc tr ưng trích chọn. ...........................................
29


4

2.2.1

Phân cụm tập đặc tr ưng...................................................................... 30

2.2.2

Thuật toán phân lớp ký tự .................................................................. 44

2.3 Kết luận ...................................................................................................... 50
CHƯƠNG 3 - THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ............................... 51
3.1 Bài toán ...................................................................................................... 51
3.2 Cài đặt ch ương trình thử nghiệm .................................................................
51
3.3 Đánh giá thực nghiệm ................................................................................. 60
3.3.1


Độ đo đánh giá ................................................................................... 60

3.3.2

Dữ liệu thực nghiệm .......................................................................... 61

3.3.3

Kết quả thực nghiệm .......................................................................... 62

3.4 Kết luận ...................................................................................................... 65
KẾT LUẬN ........................................................................................................... 67
I. TÓM TẮT CÁC KẾT QUẢ ĐẠT ĐƯỢC CỦA LUẬN VĂN ..................... 67
II. NHỮNG VẤN ĐỀ CHƯA ĐƯỢC GIẢI QUYẾT BỞI LUẬN VĂN.......... 67
III. HƯỚNG PHÁT TRIỂN .............................................................................. 68
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................... 69


5

HÌNH VẼ
Hình 1.1: Qui trình chung của một hệ thống nhận dạng chữ .................................. 11
Hình 1.2: Trường hợp văn bản in đậm ................................................................... 17
Hình 1.3: Một số hình ảnh bị biến dạng của các ký tự ............................................ 18
Hình 1.4: Hình ảnh các ký tự tiếng Việt bị nhập nhằng phần dấu ........................... 18
Hình 1.5: Trường hợp văn bản bị đứt và mất nét ....................................................
19
Hình 1.6: Hình ảnh của ký tự bị biến dạng do lỗi đứt nét ....................................... 19
Hình 1.7: Một số dạng nhiễu th ường gặp trên văn bản ...........................................

20
Hình 1.8: Văn bản bị các nhiễu đánh dấu ............................................................... 20
Hình 1.9: Văn bản bị nhiễu do bị chồng chữ ký/con dấu ........................................ 20
Hình 1.10: Văn bản đ ược in với kiểu font chữ đặc biệt .......................................... 21
Hình 2. 1: Các đặc tr ưng để huấn luyện mô hình ................................................... 27
Hình 2.2: Trích chọn các đặc tr ưng để nhận dạng .................................................. 29
Hình 2.3: Đặc trưng của một dòng ảnh .................................................................. 29
Hình 2.4: Một cấu trúc cây K -D ............................................................................ 33
Hình 2.5: Cấu trúc dữ liệu l ưu các đặc trưng đầu vào ............................................ 34
Hình 2.6: Cấu trúc dữ liệu cây K -D ....................................................................... 35
Hình 2.7: Cấu trúc CLUSTER ............................................................................... 36
Hình 2.8: Cấu trúc DIM_DESC mô tả mỗi chiề u của cây K -D ............................. 37
Hình 2.9: Một số mẫu đại diện cho lớp kí tự ‘ộ’ .................................................... 44
Hình 2.10: Thuật toán phân lớp ký tự .................................................................... 46
Hình 2.11: Kết quả thực hiện của thuật toán .......................................................... 49
Hình 3.1: Quy trình thực hiện của chương trình thử nghiệm .................................. 52
Hình 3.2: Các tập dữ liệu thử nghiệm .................................................................... 62


6

BẢNG
ẢNG
Bảng 1.1: Cấu trúc thanh điệu trong tiếng Việt ...................................................... 16
Bảng 3.1: Các lớp ký tự huấn luyện thuật toán ....................................................... 53
Bảng 3.2: Kết quả thực nghiệm ............................................................................. 63


1


MỞ ĐẦU
1. Tính cấp thiết của luận văn
Nhận dạng chữ là quá trình chuyển đổi từ dạng hình ảnh của một
hay nhiều trang ảnh chứa các thông tin văn bản thành tệp văn bản thực sự
có thể soạn thảo được trên máy tính. Khi đề cập đến bài toán nhận dạng
chữ, người ta thường phân biệt hai loại là chữ in (optical character) và
chữ viết tay (handwriten character) [2], [6], [7], [9]. Các kết quả ứng dụng
của bài toán nhận dạng chữ in đã và đang được sử dụng rộng rãi trong qui
trình tự động hóa các hoạt động văn phòng, mang lại lợi ích thực sự cho con
người.
Ngày nay cùng với sự phát triển về mặt lý thuyết , công nghệ, có
rất nhiều hướng đi cho việc giải quyết bài toán này như: Hiện tại có rất
nhiều phương pháp phân lớp sử dụng trong nhận dạng chữ như: phân loại
Bayes, K- láng giềng gần nhất (k-NN), mạng Neural (ANNs), mô hình
Markov ẩn (HMM),… Những phương pháp này đã cho kết quả chấp nhận
được và có nhiều ứng dụng trong thực tế.
Trên thế giới hiện nay có nhiều chương trình nhận dạng chữ viết (chữ
in và viết tay), như các hệ OMNIPAGE, READ-WRITE, WORD-SCAN,... Ở
Việt Nam cũng có một số hệ như WORC của công ty 3C, VIET-IN của công ty
SEATIC, VNDOCR của Viện Công Nghệ Thông Tin, Image Scon của Trung
Tâm Tự Động Hóa Thiết Kế, hệ WINGIS của công ty DolfSof [2].
Đối với bài toán nhận dạng văn bản tiếng Việt, có thể nói cho đến thời
điểm hiện tại, việc nhận dạng các văn chữ in bản chất lượng thấp vẫn là
một vấn đề thách thức. Vì lý do đó, luận văn này sẽ tập trung nghiên cứu
một số phương pháp phân lớp mẫu và trích chọn đặc trưng nhằm lựa chọn


2

được một phương pháp thích hợp cho việc nhận dạng chữ Việt in chất

lượng thấp , thử


3

nghiệm xây dựng chương trình nhận dạng ký tự chữ Việt một văn bản
mà trong văn bản đó xuất hiện nhiều ký tự bị dính, biến dạng, bị đứt hay
mất nét... với mong muốn sẽ làm ra một sản phẩm nhận dạng văn bản
chữ in tiếng Việt chất lượng thấp hoàn chỉnh trong tương lai.
2. Mục tiêu của luận văn
Luận văn tập trung nghiên cứu một số phương pháp phân lớp mẫu
và trích chọn đặc trưng nhằm lựa chọn được một phương pháp thích
hợp cho việc nhận dạng các ảnh chữ cái và chữ số tiếng Việt chất lượng thấp.
Ảnh chất lượng thấp ở đây bao gồm các ảnh kí tự bị lỗi do nhiễu, do bị
đứt nét, bị thiếu hoặc thừa ra một phần nào đó do dính vào kí tự bên cạnh,
do các thành phần của kí tự bị dính với nhau chẳng hạn như phần mũ, dấu
dính với phần c hữ đối với kí tự tiếng Việt.
3. Bố cục của luận văn
Các nội dung trình bày trong luận văn được chia thành 3 chương:
Chương I: Tổng quan về bài toán nhận dạng chữ Việt.
Chương này trình bày tổng quan về các vấn đề liên quan đến nhận
dạng, các đặc trưng của chữ Việt và chữ Việt chất lượng thấp, những vấn đề
tồn tại trong bài toán nhận dạng ảnh văn bản chất lượng thấp, đưa ra mô
hình chung của hệ thống nhận dạng, các hướng tiếp cận nhận dạng, các yếu
tố ảnh hưởng đến hệ thống nhận dạng.
Chương II: Một số vấn đề trong nhận dạng ký tự chất lượng thấp
Chương này trình bày những khái niệm cơ bản về ảnh ký tự chất lượng
thấp, một số hướng tiếp cận trong phân lớp và trích chọn đặc trưng ký tự
và lựa chọn một phương pháp nhận dạng ảnh ký tự chất lượng thấp .
Chương III: Thực nghiệm và đánh giá kết quả



4

Chương này mô tả chi tiết quá trình thử nghiệp phân lớp và một
số phương pháp trích chọn đặc trưng, đồng thời đưa ra đánh giá hiệu quả của
quá trình nhận dạng.
Phần kết luận
Phần này sẽ nêu lên các vấn đề đã giải quyết được, chưa giải quyết
được và hướng phát triển trong tương lai của luận văn.


5

CHƯƠNG 1 - TỔNG QUAN VỀ BÀI TOÁN NHẬN DẠNG
CHỮ VIỆT
1.1 Qui trình chung của một hệ nhận dạng chữ
Qui trình chung của một hệ thống nhận dạng chữ thường gồm hai giai
đoạn là: Phân lớp mẫu và nhận dạng văn bản [2].
1.1.1 Phân lớp mẫu
Phân lớp (sắp lớp) mẫu là giai đoạn quyết định trong quá trình
nhận dạng. Hai kiểu phân lớp điển hình thường được sử dụng là: phân
lớp có thầy (học có thầy) v à phân lớp không có thầy (học không có
thầy). Các vấn đề thường được đặt ra trong bước phân lớp là:
Độ chính xác: Độ tin tưởng của một luật phân lớp được thể bởi tỷ
lệ phân lớp đúng. Nhìn chung, độ chính xác được đo bởi tập dữ liệu học
và độ chính xác được đo bởi tập dữ liệu thử nghiệm là khác nhau.
Đây không phải là một điều bất thường, đặc biệt trong các ứng dụng học
máy, đối với tập dữ liệu học thì có thể đúng hoàn toàn, nhưng trên tập
dữ liệu thử nghiệm có khi kết quả lại rất tồi tệ. Khi nói đến độ chính xác

của m ột thuật toán phân lớp thì thường là nói đến độ chính xác trên tập dữ
liệu thử nghiệm. Kinh nghiệm thực tế cho thấy, độ chính xác của một
thuật toán phân lớp phụ thuộc khá nhiều vào tập dữ liệu học (cả về mặt
số lượng lẫn chất lượng) nói một cách khác là v iệc trích chọn đặc trưng
của các mẫu có ảnh hưởng lớn tới độ chính xác của quá trình phân lớp.
Tốc độ phân lớp: Đây là yếu tố đặc biệt quan trọng đối với các hệ
thống có tính thời gian thực, chẳng hạn nh ư nhận dạng chữ viết tay
trực tuyến (online) , ...
Tính dễ hiểu: Thuật toán phân lớp đơn giản, dễ cài đặt và hiệu quả.


6

Thời gian học: Nhất là trong một môi trường thường xuyên thay
đổi, cần phải học một luật phân lớp một cách nhanh chóng hoặc
hiệu chỉnh một luật đã có trong thời gian thực. Để học nhanh , nhiều khi
ta chỉ
cần sử dụng một số lượng nhỏ các mẫu huấn luyện để thiết lập các
luật
phân lớp.
Tổng quan về các phương pháp phân lớp kí tự đã được đề cập. Về
cơ bản, có thể chia thành ba hướng tiếp cận chính: Phân lớp ký tự dựa
trên đối sánh mẫu, phân lớp ký tự dựa trên phân tích cấu trúc chữ và
phân lớp ký tự dựa trên các kỹ thuật học máy.
1.1.1.1 Hướng tiếp cận đối sánh mẫu
Quá trình phân l ớp kí tự được tiến hành dựa trên việc đối sánh mỗi
đối tượng đầu vào với lần lượt từng mẫu (prototypes) đã được lưu trữ
n hằm tìm ra một lớp mẫu phù hợp nhất với đối tượng đó. Các kỹ thuật
đối sánh mẫu điển hình gồm đối sánh trực tiếp , đối sánh mềm
(deformable templates and elastic matching) và đối sánh trên tập đặc

trưng (so khớp tập đặc trưng).
Với kỹ thuật đối sánh trực tiếp, mỗi kí tự đầu vào sẽ được so sánh trực
tiếp với một tập mẫu chuẩn đã được lưu trữ dựa trên một số độ đo cụ thể,
chẳng hạn như các độ đo khoảng cách (Euclide, Manhatan, Jaccard), độ
tương tự (similarity measure), v.v. Mặc d ù các kỹ thuật đối sánh trực
tiếp
là trực quan và có một nền tảng toán học vững chắc, tuy nhiên lại rất
nhạy
cảm với nhiễu.
Ý tưởng của phương pháp đối sánh mềm là đối sánh mỗi ảnh đầu
vào với tất cả các biến dạng có thể có của tập mẫu một cách tối ưu dựa trên


7

phương pháp qui hoạch động và các phép biến dạng ảnh. Vấn đề gặp
phải của phương pháp đối sánh mềm là thời gian và tốc độ thực thi.


8

Đối với Phương pháp đối sánh tập đặc trưng còn được gọi là phương
pháp đối sánh không chặt (relaxation matching - RM), mỗi ảnh đầu vào sẽ
được biểu diễn bằng một tập các đặc trưng. Trong quá trình phân lớp,
mỗi tập đặc trưng đầu vào sẽ được đối sánh với lần lượt các tập đặc
trưng mẫu. Các kỹ thuật này khắc phục được các vấn đề thời gian và
tốc độ nhưng hiệu quả của thuật toán phân lớp phụ thuộc nhiều vào tập
đặc trưng được trích chọn.
1.1.1.2 Hướng tiếp cận phân tích cấu trúc
Hướng tiếp cận này xuất phát từ ý tưởng biểu diễn một mẫu phức

tạp bằng các mẫu đơn giản hơn dựa trên hình dạng của đối tượng. Các
mẫu này được sử dụng để mô tả và phân lớp các kí tự tro ng hệ thống
OCR. Hai phương pháp điển hình trong hướng tiếp cận này là phân tích cú
pháp văn phạm (grammatical) v à đồ thị (graphical).
Các phương pháp phân tch văn phạm thường bắt đầu bằng việc tạo
một số luật để sinh ra một kí tự từ tập các nét cơ bản th ông qua các
văn phạm hình thức. Các phương pháp này có thể kết hợp các đặc trưng
tô pô với bất kỳ kiểu đặc trưng nào theo một số luật cú pháp và ngữ nghĩa.
Các công cụ hình thức chẳng hạn như lý thuyết ngôn ngữ cho phép mô
tả các cấu trúc và trích chọn thô ng tin ngữ cảnh về người viết bằng cách
sử dụng các kiểu văn phạm khác nhau. Trong các phương pháp văn
phạm, việc huấn luyện được thực hiện bằng cách mô tả mỗi kí tự bởi
một văn phạm G. Trong quá trình nhận dạng, mỗi chuỗi, cây hoặc đồ thị
của các đơn vị viết bất kỳ (kí tự, từ, câu) đ ược phân tích để quyết định
xem nó thuộc vào văn phạm mẫu nào. Các phương pháp phân tích dưới
lên (bottom -up) hoặc


9

trên xuống (top -down) được sử dụng cho việc phân tích cú pháp.
Phương pháp phân tích văn phạm có thể áp dụng cho các mức kí tự, từ
và câu. Ở


10

mức kí tự, ngôn ngữ mô tả hình ảnh (PDL) đ ược sử dụng để mô hình hóa
mỗi kí tự bằng tập các nét và các mối quan hệ giữa chúng. Quá trình
phân lớp sẽ tìm kiếm lớp mẫu phù hợp nhất cho mỗi đối tượng đầu vào

dựa trên các mô tả đã được lưu trữ. Ở mức từ, các thống kê bi -gram
và tri-gram được sử dụng để tạo ra các văn phạm sinh từ (word). Việc mô
tả từ v à câu sử dụng các tri thức dựa trên các luật ngôn ngữ. Các
phương pháp văn phạm cũng được sử dụng trong công đoạn hậu xử lý để
tăng độ chính xác nhận dạng.
Với phương pháp đồ thị , các đơn vị viết (kí tự/từ) được thể hiện
bởi các cây hoặc đồ thị. Trong quá trình huấn luyện, một đồ thị hoặc
cây sẽ được tạo ra để biểu diễn các nét cơ bản tương ứng với mỗi lớp
mẫu. Quá trình nhận dạng sẽ gán mỗi đồ thị chưa biết cho một trong
các lớp mẫu dựa trên các độ đo cụ thể.
1.1.1.3 Hướng tiếp cận dựa trên học máy
Các phương pháp học máy được ứng dụng phổ biến trong phân
lớp/nhận dạng mẫu. Lợi điểm của các phương pháp học máy là không yêu
cầu phải đầu tư quá nhiều thời gian và công sức cho việc xây dựng tập
mẫu như các hướng tiếp cận cấu trúc hay văn phạm. Ngoài ra, các phương
pháp học máy còn cải thiện đáng kể độ chính xác nhận dạng do đ ã
được huấn luyện với một tập mẫu học lớn. Các phương pháp học máy đ
iển hình được áp dụng trong bài toán nhận dạng chữ là các phương pháp
thống kê , mạng nơron nhân tạo (ANN), các phương pháp hàm nhân,
và kết hợp nhiều phương pháp phân lớp .
 Các phương pháp thống kê : Lý thuyết quyết định thống kê thường
liên quan tới các hà m quyết định thống kê và tập các tiêu chuẩn tối
ưu,


11

cực đại hóa xác xuất của mẫu quan sát được bởi mô hình của một lớp mẫu
cụ thể. Các kỹ thuật thống kê chủ yếu dựa trên ba giả thiết cơ bản sau:
i) Phân bố của tập đặc trưng là phân bố Gaussian hoặc phân bố c huẩn.

ii) Có các biến thống kê đầy đủ cho mỗi lớp.
iii)Với mỗi ảnh I cho trước sẽ trích chọn được một tập các đặc trưng
f i | i 1, , đại diện cho các lớp mẫu riêng biệt.
n
Các kỹ thuật điển hình trong phân lớp thống kê gồm có: Phân lớp có
tham số, phân lớ p không tham số và phân lớp dựa trên các mô
hình Markov ẩn.
Các phương pháp phân lớp không tham số thường được sử dụng
để phân tách các lớp mẫu khác nhau theo các siêu phẳng trong một
không gian cho trước. Phương pháp k -láng giềng gần nhất (k -nn) là
phương pháp phân lớp không tham số được sử dụng phổ biến nhất trong
bài toán nhận dạng.
Trong trường hợp biết trước thông tin về các kí tự trong tập dữ
liệu huấn luyện, có thể xây dựng được một mô hình tham số cho mỗi
kí tự. Khi các tham số của mô hình đã được xác định, các kí tự sẽ được
phân lớp theo một số luật quyết định (MLE, Bayes).
Mô hình Markov ẩn được ứng dụng phổ biến nhất trong bài toán nhận
dạng chữ viết tay trực tuyến (online -handwriting). Mô hình này
được định nghĩa là một tiến trình ngẫu nhiên đư ợc sinh ra bởi hai cơ chế
có liên quan mật thiết với nhau: một xích Markov có hữu hạn trạng thái
và một tập các hàm ngẫu nhiên, trong đó mỗi hàm được liên kết với
một trạng thái. Tại mỗi thời điểm, một quan sát được sinh ra bởi hàm
ngẫu nhiên tương ứng với trạng thái đang xét. Xích Markov sau đó sẽ
thay đổi các


trạng thái theo các xác suất chuyển của chúng. Các mô hình MD -HMM
(model discriminant HMM) thư ờng được sử dụng cho bài toán phân lớp
kí tự. Trong đó mô hình này, mỗi HMM sẽ được xây dựng cho một lớp
mẫu kí tự trong quá trình huấn luyện. Các trạng thái thể hiện các trọng tâm

của cụm trong không gian đặc trưng. Nhiệm vụ của quá trình phân lớp là
xác định mô hình đã sinh ra chuỗi quan sát đầu vào.
 Mô hình mạng nơron : Mạng nơron nhân tạo (Artificial Neur al
Network) là một mô hình tính toán mô phỏng theo hoạt động của bộ
não
và nơron sinh học của con người.
Cấu trúc của một mô hình mạng nơron bao gồm nhiều nút (đơn vị
xử lý, nơron) được nối với nhau bởi các liên kết nơron . Mỗi liên kết
kèm theo một trọng số nào đó, đặc trưng cho đặc tính kích hoạt/ức
chế các nơron. Có thể xem các trọng số như là thành phần để lưu giữ
thông tin dài hạn trong mạng nơron. Nhiệm vụ của quá trình huấn
luyện mạng là cập nhật các trọng số khi có thêm các thông tin về các
mẫu học, hay nói một cách khác là các tr ọng số được điều chỉnh sao cho
dáng điệu vào ra của nó mô phỏng hoàn toàn phù hợp với tập mẫu đang
xét.
Các mô hình mạng MLP (multilayer layer perceptron), RBF (radial
basis function), HONN (higher -order neural network), Kohonen, mạng
xoắn (convolutional neural network) đ ã được đã được ứng dụng rộng
rãi trong bài toán phân lớp mẫu nói chung và phân lớp kí tự nói riêng.
Trong quá trình huấn luyện mạng, m ỗi mẫu huấn luyện được cung cấp dưới
dạng cặp vector: {(x = x 1,..., xp) , (t = t 1,...,tq)}, với x là vector đặc trưng p
chiều được trích chọn từ mẫu đầu vào, các phần tử x1,..., xp thường có
giá trị


[-1,1] hoặc

[0,1] và t là giá trị mục tiêu tương ứng của mẫu đó , các

trọng số liên kết thường được hiệu chỉnh nhằm cực tiểu hó a sai số

bình


phương trung bình trên các mẫu huấn luyện . Sau khi mạng được
huấn huấn thành công, các tri thức tích l uỹ được trong quá luyện mạng
(các ma trận trọng số, các tham số tự do, v.v) sẽ được cập nhật vào cơ
sở tri thức để sử dụng trong quá trình nhận dạng.
 Các phương pháp phân lớp sử dụng hàm nhân : Các phương pháp
phân lớp sử dụng hàm nhân bao gồm SVM (support vector machine),
KPCA

(kernel

principal

component

analysis),

KFD (kernel

Fisher

discriminant analysis), v.v đã được ứng dụng phổ biến và th u được
những kết quả đáng kể trong bài toán nhận dạng mẫu nói chung.
SVM là một kỹ thuật phân lớp nhị phân dựa trên lý thuyết cực tiểu
hoá rủi ro theo cấu trúc (Structural Risk Minimization) của Vapnik với
các hàm phân biệt là sự kết hợp có trọng số của các hàm nhân trên toàn
b ộ tập mẫu huấn luyện.


Việc huấn luyện SVM dựa trên ý tưởng tìm

siêu phẳng tối ưu trong không gian đặc trưng để cực đại khoảng cách
giữa hai lớp mẫu huấn luyện trong bài toán phân lớp nhị phân.
Các thuật toán huấn luyện SVM thường d ựa trên ý tưởng phân tích
bài toán qui hoạch toàn phương (quadratic programming -QP) ban đầu
thành dãy các bài toán QP nhỏ hơn. Sau khi huấn luyện, các mẫu có
trọng số khác 0 sẽ được gọi là các vector hỗ trợ (support vector -SV).
Đối với bài toán phân nhiề u lớp, các SVM nhị phân sẽ được kết hợp
theo các chiến lược one-vs-one hoặc one-vs-all. Ưu điểm của SVM là khả
năng phân lớp với độ chính xác cao. Tuy nhiên, tốc độ phân lớp của SVM bị
đánh giá là chậm hơn so với các phương pháp phân lớp khác.
Trong quá trình phân lớp, SVM phải duyệt qua tất cả các SV để so
sánh với mẫu cần nhận dạng, khi số SV tăng lên thì tốc độ phân lớp sẽ
giảm xuống tương ứng. Vì lý do đó, vấn đề giảm thiểu số SV nhằm tăng


tốc độ phân lớp thường được đặt ra đối với phương pháp này. Tuy vậy,
việc giảm số lượng các SV có thể bị trả giá bởi độ chính xác phân lớp.
1.1.2 Nhận dạng văn bản
Các bước cần thực hiện trong giai đoạn n ày được thể hiện cụ thể trên
hình 1.1, bao gồm 7 bước xử lý cơ bản, bao gồm: Thu nhận và lưu trữ
ảnh, tiền xử lý, phân tích trang văn bản, nhận dạng, hậu xử lý, l ưu văn
bản.

Hình 1. 1: Qui trình chung của một hệ thống nhận dạng chữ
1. Thu nhận và lưu trữ ảnh : Đây là công đoạn đầu tiên trong một
quá trình nhận dạng ảnh. Trong một hệ thống nhận dạng, ả nh thường
được thu nhận qua scanner, sau đó được lưu trữ dưới các định dạng file
( .pcx,



.bmp, .jpg, .tif, .gif, .png, ...). Nhìn chung việc lựa chọn định dạng
file lưu trữ sẽ tuỳ thuộc vào các văn bản đầu vào cần nhận dạng và
các yêu cầu cụ thể của t ừng hệ thống.
2. Tiền xử lý ảnh: Đây là công đoạn sử dụng các kỹ thuật xử lý ảnh để
nâng cao chất lượng ảnh đầu vào. Nhìn chung, chất lượng của ảnh đầu vào sẽ
ảnh hưởng nhiều đến chất lượng nhận dạng. Vì vậy, tiền xử lý ảnh là
một bước không thể thiếu được t rong một hệ thống nhận dạng hay xử lý
ảnh. Các kỹ thuật thường được sử dụng trong quá trình tiền xử lý là: Phân
ngưỡng, căn chỉnh độ lệch trang văn bản, lọc nhiễu, nối nét đứt trên ảnh , ....
3. Phân đoạn ảnh: đây là một trong những công đoạn quan trọng
nhất trọng nhất của quá trình nhận dạng và có ảnh hưởng lớn đến kết
quả nhận dạng. Hai cách tiếp cận phổ biến được lựa chọn trong quá trình
phân đoạn ảnh là:
Cách tiếp cận trên xuống (top -down): Toàn bộ ảnh văn bản cần
phân đoạn được coi là một khối lớn, sau đó khối này được phân thành các
khối nhỏ hơn, các khối nhỏ này lại tiếp tục được phân thành các khối
nhỏ hơn nữa cho đến khi thu được các kí tự hoặc không thể phân
nhỏ hơn được nữa. Nhìn chung, với cách tiếp cận này, phương pháp
thường dùng để phân đoạn ảnh là sử dụng các biểu đồ tần suất
ngang và dọc. Tuy nhiên, do biểu đồ tần suất bị ảnh hưởng nhiều bởi
độ nghiêng trang văn bản nên trước khi xử lý phân đoạn, ta thường phải
căn chỉnh độ lệch của trang văn bản.
Cách tiếp cận dưới lên (bottom -up): Quá trình phân đoạn bắt
đầu bằng việc xác định những thành phần nhỏ nhất, sau đó gộp
chúng lại thành những thành phần lớn hơn, cho đến khi thu được tất
cả các khối trong trang văn bản.



4. Nhận dạng: Đây chính là thao tác gán nhãn cho đối tượng dựa
trên những tri thức đã học được , nói cách khác đây là thao tác tìm
kiếm một lớp mẫu phù hợp nhất với đối tượng đầu vào .
5.

Học mẫu mới : Do tập mẫu huấn luyện không thể bao quát

được toàn bộ các mẫu trong thực tế nên trong quá trình nhận dạng có thể
sẽ gặp những mẫu mới mới mà hệ t hống không thể nhận dạng chính
xác được. Khi đó việc học thêm những mẫu này sẽ góp phần làm tăng
chất lượng của hệ thống nhận dạng.
6. Hậu xử lý: Đây là một trong những công đoạn cuối cùng của quá
trình nhận dạng. Trong nhận dạng chữ, có thể hiểu hậu xử lý là bước
ghép nối các kí tự đã nhận dạng được thành các từ, các câu, các đoạn văn
nhằm tái hiện lại văn bản đồng thời phát hiện ra các lỗi nhận dạng
bằng cách kiểm tra chính tả dựa trên cấu trúc và ngữ nghĩa của câu,
đoạn văn. Việc phát hiện ra các lỗi, các sai sót trong nhận dạng ở bước
này đã góp phần đáng kể vào việc nâng cao kết quả nhận dạng. Đặc
biệt đối với các ảnh văn bản đầu vào không tốt (chẳng hạn: Bản in bị mờ,
bị đứt nét do photo nhiều lần,...) hoặc các văn bản in chứa nhiều thông
tin hỗn hợp (chẳng hạn: Trong văn bản có cả số lẫn chữ và các kí hiệu),
điều này rất dễ gây nhầm lẫn trong nhận dạng. Thậm chí có những
trường hợp nhập nhằng chỉ có thể giải quyết được bằng ngữ cảnh bằng
cách phân tích ngữ cảnh của câu, chẳng hạn như trường hợp nh ập
nhằng giữa từ “lO” với số “10”.
7. Lưu văn bản : Sau khi văn bản cần nhận dạng đã được tái tạo về
dạng nguyên bản sẽ được lưu lại ở các định dạng file được hệ thống
hỗ trợ, chẳng hạn như file dạng (.doc, .rtf, .xls, ...).



×