Tải bản đầy đủ (.pdf) (73 trang)

Nhận dạng chữ Nôm bằng máy véc - tơ hỗ trợ (SVM)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.7 MB, 73 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ



TRẦN NGHI PHÚ

NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM)






LUẬN VĂN THẠC SĨ







Hà Nội – 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ



TRẦN NGHI PHÚ

NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM)








LUẬN VĂN THẠC SĨ

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN NGỌC BÌNH




Hà Nội – 2013





MỤC LỤC
MỞ ĐẦU 1

Chƣơng 1. TỔNG QUAN CHỮ NÔM 4

1.1. Lịch sử và một số đặc điểm của chữ Nôm 4
1.2. Cấu tạo chữ Nôm 5
1.2.1. Chữ Nôm mượn nguyên dạng chữ Hán. 5
1.2.2. Chữ Nôm được tạo trên cơ sở kết hợp hai chữ Hán 5
1.2.3. Chữ Nôm được tạo trên cơ sở kết hợp chữ Hán và chữ Nôm 6
1.3. Một số thống kê về chữ Nôm 7

Tổng kết chƣơng 1 10
Chƣơng 2. NHẬN DẠNG CHỮ NÔM 11

2.1. Nhận dạng ký tự quang học 11
2.2.1. CherryBlossom 12
2.2.2. Tesseract 13
2.3. Mô hình OCR chữ Trung Quốc 16
2.3.2. Phân đoạn 18
2.3.3. Chuẩn hóa ký tự 19
2.3.4. Nhận dạng 19
2.3.5. Các kết quả đạt được và những vấn đề đặt ra 20
2.4. Bài toán nhận dạng chữ Nôm 21
Tổng kết chƣơng 2 23
Chƣơng 3. MÁY VÉC-TƠ HỖ TRỢ (SVM) 24

3.1. Tổng quan về SVM 24
3.2. SVM tuyến tính 24
3.2. Lề mềm 26
3.3. SVM phi tuyến 26
3.4. SVM cho bài toán phân đa lớp 28
Tổng kết chƣơng 3 30
Chƣơng 4. GIẢI THUẬT KSVM CHO NHẬN DẠNG CHỮ NÔM 31

4.1. Giải thuật KSVM cho nhận dạng chữ Nôm 31
4.2. Phƣơng pháp trích chọn đặng trƣng trọng số vùng (Zoning) 32
4.3. Huấn luyện (trainning) 33
3.2.1. Xây dựng bộ nhận dạng OVOF 34
3.2.2. Tạo mẫu đại diện 34
3.2.3. Phân cụm bằng K-Mean 35
4.4. Nhận dạng (Recognition) 36

Tổng kết chƣơng 4 37
Chƣơng 5. THỰC NGHIỆM, ĐÁNH GIÁ 38

5.1. Quy trình thực nghiệm 38
5.2. Xây dựng bộ dữ liệu thực nghiệm 39
5.3. Tiến hành thực nghiệm 42
5.3.1. Mục tiêu 42
5.3.2.Cách thực hiện 43
5.4. Kết quả thực nghiệm 43
5.5. Đánh giá kết quả 44
Tổng kết chƣơng 5 45
KẾT LUẬN 46

TÀI LIỆU THAM KHẢO 48

PHỤ LỤC A 50

PHỤ LỤC B 62

DANH MỤC CÁC TỪ VIẾT TẮT
STT
Từ viết tắt
Từ đầy đủ
Tiếng Việt
1
ANN
Artificial Neural Network
M-ron nhân to
2
BMP

Bitmap
nh dng nh bitmap
3
FC
First Class
Lp th nht
4
GIF
Graphic Interface Format
nh dng giao di ha
5
ISO
International Organization for
Standardization
T chc chun hóa quc t
6
JOCR
Japanese Optical Character
Recognition
Nhn dng ký t quang hc Nht
7
k-NN
K Nearest Neighbor
K láng ging gn nht
8
KSVM
K-Mean & Support Vector Machine
K cm và máy véc- tr
9
OCR

Optical Character Recognition
Nhn dng ký t quang hc
10
OS
Operating System
H u hành
11
OVO
One Versus One
Mt vi mt
12
OVR
One Versus The Rest
Mt vi phn còn li
13
PD
Probability Distribution of Black
Pixels
Phân b xác su
14
PDA
Personal Digital Asisstant
Thit b s cá nhân
15
PDF
Portable Document Format
nh dng tài ling
16
PNG
Portable Network Graphics

 ha mng
17
SC
Second Class
Lp th 2
18
SVM
Support Vector Machine
Máy véc- tr

DANH MỤC BẢNG BIỂU
Bng 1.1. Mt s hình thc ch n nguyên dng ch Hán
Bng 1.2. Mt s b th dùng trong ch Nôm
Bng 1.3. T l ch n qua các thi k

Bng 2.2. Kt qu so sánh kh n dng gia FineReader và Tesseract
B chính xác mt s p
Bng 5.1. Kt qu thc nghim KSVM vi b d liu NOM-DB0


DANH MỤC HÌNH VẼ



Hình 2.2. Framework nhn dng ch ng hình ca JOCR.
Hình 2.3. .
c trong nhn dng ch Trung Quc
Hình 2.5. Quy trình nhn d quy
Hình 2.6. Quá trình phn ting Trung Quc
Hình 2 c trong nhn dng ch Hán

 tng th mô hình nhn dng ch  xut.
Hình 2.9. Mô hình nhn dng ch Nôm trong lu
Hình 3.1. Tìm siêu phng có l ci

Hình 3.3. Ánh x u sang 3 chiu.
Hình 3.4. Kh p khi kt hp SVM vi hàm nhân
Hình 3.5. Minh hc nhn dng bng OVO
Hình 4.1. Gii thut trích chtrng s vùng (Zoning)
Hình 4.2. nh nh phân ca mt ký t ting Trung Quc
Hình 4.3. S i 3x3
Hình 4.4. M s i 3x3
Hình 4.5 hun luyn trong gii thut KSVM
Hình 4.6-Mean
Hình 4.7. Nhn dng trong KSVM
Hình 5.1. Quy trình tin hành thc nghim
Hình 5.2. Giao din chính cc nghim
Hình 5.3. Bn s hóa và da mt trong trong truyn Kiu
Hình 5.4. Kt qu  c mã ch Nôm trong truyn kiu t kho nomna.org
Hình 5.5. Tách ch Nôm t nh.
Hình 5.6. Mt s mu ch  d liu NomDB0.



MỞ ĐẦU
1. Tính cấp thiết
 
. 

 


-
Nôm-OCR.

. V
 

  




 




-
 

 

2. Tình hình nghiên cứu
Nghiên cu ch c nhiu nhóm g v n ngôn
ng hc và công ngh thông tin. Mt trong nhng thành tu u tiên là vic hình thành các t
n ch Nôm, hình thành các kho ch c s hóa, s hóa và gii mã nhiu tài liu ch
n Kiu ca Hán Nôm Foundation. Tip ti, sau nhng n lc trong thi gian
dài, ch c xác lp v trí trong b ký t th gi
có 5067 ký t trùng hình vi ch Trung Quc, 4232 ch thun Nôm và hi ngh 
vào thêm 2200. K tiu b font Nôm, b gõ ch c xây dng.
Và mt trong nhp ca l trình trên là xây dng OCR-n ti vn

t qu nghiên c cn v trên, có th do có nht
nh và mt trong nhng gp là v v d li nghiên cu.
Các b ng Trung, Nhc nghiên cu nhic
nhng kt qu kh c ng dng rng rãi trong thc t có th k n sn phm ngun
m Tesseract, KanjiPad - phn mm nhn dng ch vit tay Nht Bn, Readiris Pro 11
Corporate Edition - phn mm nhn dng ch Trung Qut t chính xác 98%, HWPen
- phn mm nhn dng ch vit tay Trung Quc tích hc bit sn phm
 chính xác gi vi ký t in các ngôn ng.
Nói tóm li, các ch  n ch c quan tâm và
t nhiu thành qu c nghiên cu kt hp 2 yu t này vn là bài toán m,
cn nhng nghiên cu mi.
3. Đối tƣợng và phạm vi nghiên cứu
Chúng tôi tp trung nghiên cu bài toàn nhn dng ch Nôm nhm xây dng b phn
mm nhn dng chuyi t nh ca mt ký t Nôm v mã Unicode ca ký t n hành
tra c trên t n hoc kt hp vi các h thng khác.
H thng OCR bao gm nhiu thành phn x lý, trích chn
dng, hu x lý.  tài tp trung nghiên cc trích chn dng. Vi tp
d liu vào  hun luyn và nhn dng là kho mu NOM-DB0 cha 495 ch Nôm, mi
ch 24 mu, mi ch trên 1 c ct bó sát.
4. Mục đích và nhiệm vụ nghiên cứu
 tài tc trích chvà nhn dng  h thng
nhn dng ch Nôm tng th do LES-Nom xây dngc trích chn
ng s vùng (Zoning)c nhn d tài tìm
hiu k thut Máy véc- tr (SVM) hình ng dng SVM trong nhn dng ch
Nôm t  xung nghiên cu ci tin.
5. Những nội dung nghiên cứu
Chúng tôi tìm hiu tng quan v ch Nôm và bài toán nhn dng ch Nôm nhm mc
 xây dng b nhn dng Nôm- tin hành các nghiên c
gi cùng nghiên cu v ch Nôm trong LES-Nôm tin hành xây dng b d liu mu Nôm-
 nhng kt qu v nhn dng cho các b c bit là

OCR ch ng hình, lun hành nghiên c xut thut toán nhn dng KSVM,
tit thut toán, tin hành thc nghi chính xác ca KSVM.
6. Kết cấu luận văn
Ngoài phn m u, kt lun, ph lc và danh mc tài liu tham kho, lum 5
u tng quan ch Nômp trung các yu
t n nhn du trúc ch Nôm, s ng t Nôm không có hình trong b
ch ng hình khác. Ting ni dung v bài toán nhn dng ch
 tìm hiu các OCR nói chung và OCR dành cho ch ng hình v
n kt qu c, mô hình và các gii thut cc tip tc nghiên cu. Trong
p trung tìm hing ci dung liên quan
nhin lup, vn là mt trong nhng ch 
c quan tâm nhi c bit khi áp dng cho ch Nôm có s ch l 
nhng kin thc t i thut KSVM cho bài toán
nhn dng ch Nôm do tác gi  xu thc hiu qu ca KSVM, trong
        c tin hành xây dng thc nghi   
c k tha t kt qu nghiên cu nào vi ch Nôm, nên lun
hành thc nghim t u tiên là t xây d d liu mn phn mm tách
ch, tin x ng kch bn và tin hành 








Chƣơng 1. TỔNG QUAN CHỮ NÔM

1.1. Lịch sử và một số đặc điểmcủa chữ Nôm
Sau khi Vit Nam thoát kh ca Trung Qu Nôm ln

u tiên thành ch quc ng  dit ting Vit qua mu t bi
t th k n th k 20, mt phn ln các tài lic, trit hc, s hc, lut pháp,
y khoa, tôn giáo và hành chíc vit bng ch Nôm. Su n 1802)
di tri n hành chíc vit bng ch Nôm. Nói
cách khác, ch Nôm là công c duy nht hoàn toàn Vit Nam ghi li lch s a dân
tc trong khong 10 th k.
 
             . Nôm‖  
―Nam‖, ý ch ch ci Nam Vic khi ch n ch Hán
 ghi li âm ting Vit. Ting Hán ch có 4 thanh, ting vin
n ch   phn ánh ht các thanh ca ting Vit. Ví d eo, ăn,
ươi, on… , yêu cu tt yu cn b sung mt h thng ch  ng các yêu cu ghi
âm trong các hong thi ct, xã h

  



-   





-  

nghĩa phùthanh phù).
 






máy ("máy móc")

mộc (ý)
+
mãi (âm)

×