ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN NGHI PHÚ
NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM)
LUẬN VĂN THẠC SĨ
Hà Nội – 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN NGHI PHÚ
NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM)
LUẬN VĂN THẠC SĨ
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN NGỌC BÌNH
Hà Nội – 2013
MỤC LỤC
MỞ ĐẦU 1
Chƣơng 1. TỔNG QUAN CHỮ NÔM 4
1.1. Lịch sử và một số đặc điểm của chữ Nôm 4
1.2. Cấu tạo chữ Nôm 5
1.2.1. Chữ Nôm mượn nguyên dạng chữ Hán. 5
1.2.2. Chữ Nôm được tạo trên cơ sở kết hợp hai chữ Hán 5
1.2.3. Chữ Nôm được tạo trên cơ sở kết hợp chữ Hán và chữ Nôm 6
1.3. Một số thống kê về chữ Nôm 7
Tổng kết chƣơng 1 10
Chƣơng 2. NHẬN DẠNG CHỮ NÔM 11
2.1. Nhận dạng ký tự quang học 11
2.2.1. CherryBlossom 12
2.2.2. Tesseract 13
2.3. Mô hình OCR chữ Trung Quốc 16
2.3.2. Phân đoạn 18
2.3.3. Chuẩn hóa ký tự 19
2.3.4. Nhận dạng 19
2.3.5. Các kết quả đạt được và những vấn đề đặt ra 20
2.4. Bài toán nhận dạng chữ Nôm 21
Tổng kết chƣơng 2 23
Chƣơng 3. MÁY VÉC-TƠ HỖ TRỢ (SVM) 24
3.1. Tổng quan về SVM 24
3.2. SVM tuyến tính 24
3.2. Lề mềm 26
3.3. SVM phi tuyến 26
3.4. SVM cho bài toán phân đa lớp 28
Tổng kết chƣơng 3 30
Chƣơng 4. GIẢI THUẬT KSVM CHO NHẬN DẠNG CHỮ NÔM 31
4.1. Giải thuật KSVM cho nhận dạng chữ Nôm 31
4.2. Phƣơng pháp trích chọn đặng trƣng trọng số vùng (Zoning) 32
4.3. Huấn luyện (trainning) 33
3.2.1. Xây dựng bộ nhận dạng OVOF 34
3.2.2. Tạo mẫu đại diện 34
3.2.3. Phân cụm bằng K-Mean 35
4.4. Nhận dạng (Recognition) 36
Tổng kết chƣơng 4 37
Chƣơng 5. THỰC NGHIỆM, ĐÁNH GIÁ 38
5.1. Quy trình thực nghiệm 38
5.2. Xây dựng bộ dữ liệu thực nghiệm 39
5.3. Tiến hành thực nghiệm 42
5.3.1. Mục tiêu 42
5.3.2.Cách thực hiện 43
5.4. Kết quả thực nghiệm 43
5.5. Đánh giá kết quả 44
Tổng kết chƣơng 5 45
KẾT LUẬN 46
TÀI LIỆU THAM KHẢO 48
PHỤ LỤC A 50
PHỤ LỤC B 62
DANH MỤC CÁC TỪ VIẾT TẮT
STT
Từ viết tắt
Từ đầy đủ
Tiếng Việt
1
ANN
Artificial Neural Network
M-ron nhân to
2
BMP
Bitmap
nh dng nh bitmap
3
FC
First Class
Lp th nht
4
GIF
Graphic Interface Format
nh dng giao di ha
5
ISO
International Organization for
Standardization
T chc chun hóa quc t
6
JOCR
Japanese Optical Character
Recognition
Nhn dng ký t quang hc Nht
7
k-NN
K Nearest Neighbor
K láng ging gn nht
8
KSVM
K-Mean & Support Vector Machine
K cm và máy véc- tr
9
OCR
Optical Character Recognition
Nhn dng ký t quang hc
10
OS
Operating System
H u hành
11
OVO
One Versus One
Mt vi mt
12
OVR
One Versus The Rest
Mt vi phn còn li
13
PD
Probability Distribution of Black
Pixels
Phân b xác su
14
PDA
Personal Digital Asisstant
Thit b s cá nhân
15
PDF
Portable Document Format
nh dng tài ling
16
PNG
Portable Network Graphics
ha mng
17
SC
Second Class
Lp th 2
18
SVM
Support Vector Machine
Máy véc- tr
DANH MỤC BẢNG BIỂU
Bng 1.1. Mt s hình thc ch n nguyên dng ch Hán
Bng 1.2. Mt s b th dùng trong ch Nôm
Bng 1.3. T l ch n qua các thi k
Bng 2.2. Kt qu so sánh kh n dng gia FineReader và Tesseract
B chính xác mt s p
Bng 5.1. Kt qu thc nghim KSVM vi b d liu NOM-DB0
DANH MỤC HÌNH VẼ
Hình 2.2. Framework nhn dng ch ng hình ca JOCR.
Hình 2.3. .
c trong nhn dng ch Trung Quc
Hình 2.5. Quy trình nhn d quy
Hình 2.6. Quá trình phn ting Trung Quc
Hình 2 c trong nhn dng ch Hán
tng th mô hình nhn dng ch xut.
Hình 2.9. Mô hình nhn dng ch Nôm trong lu
Hình 3.1. Tìm siêu phng có l ci
Hình 3.3. Ánh x u sang 3 chiu.
Hình 3.4. Kh p khi kt hp SVM vi hàm nhân
Hình 3.5. Minh hc nhn dng bng OVO
Hình 4.1. Gii thut trích chtrng s vùng (Zoning)
Hình 4.2. nh nh phân ca mt ký t ting Trung Quc
Hình 4.3. S i 3x3
Hình 4.4. M s i 3x3
Hình 4.5 hun luyn trong gii thut KSVM
Hình 4.6-Mean
Hình 4.7. Nhn dng trong KSVM
Hình 5.1. Quy trình tin hành thc nghim
Hình 5.2. Giao din chính cc nghim
Hình 5.3. Bn s hóa và da mt trong trong truyn Kiu
Hình 5.4. Kt qu c mã ch Nôm trong truyn kiu t kho nomna.org
Hình 5.5. Tách ch Nôm t nh.
Hình 5.6. Mt s mu ch d liu NomDB0.
MỞ ĐẦU
1. Tính cấp thiết
.
-
Nôm-OCR.
. V
-
2. Tình hình nghiên cứu
Nghiên cu ch c nhiu nhóm g v n ngôn
ng hc và công ngh thông tin. Mt trong nhng thành tu u tiên là vic hình thành các t
n ch Nôm, hình thành các kho ch c s hóa, s hóa và gii mã nhiu tài liu ch
n Kiu ca Hán Nôm Foundation. Tip ti, sau nhng n lc trong thi gian
dài, ch c xác lp v trí trong b ký t th gi
có 5067 ký t trùng hình vi ch Trung Quc, 4232 ch thun Nôm và hi ngh
vào thêm 2200. K tiu b font Nôm, b gõ ch c xây dng.
Và mt trong nhp ca l trình trên là xây dng OCR-n ti vn
t qu nghiên c cn v trên, có th do có nht
nh và mt trong nhng gp là v v d li nghiên cu.
Các b ng Trung, Nhc nghiên cu nhic
nhng kt qu kh c ng dng rng rãi trong thc t có th k n sn phm ngun
m Tesseract, KanjiPad - phn mm nhn dng ch vit tay Nht Bn, Readiris Pro 11
Corporate Edition - phn mm nhn dng ch Trung Qut t chính xác 98%, HWPen
- phn mm nhn dng ch vit tay Trung Quc tích hc bit sn phm
chính xác gi vi ký t in các ngôn ng.
Nói tóm li, các ch n ch c quan tâm và
t nhiu thành qu c nghiên cu kt hp 2 yu t này vn là bài toán m,
cn nhng nghiên cu mi.
3. Đối tƣợng và phạm vi nghiên cứu
Chúng tôi tp trung nghiên cu bài toàn nhn dng ch Nôm nhm xây dng b phn
mm nhn dng chuyi t nh ca mt ký t Nôm v mã Unicode ca ký t n hành
tra c trên t n hoc kt hp vi các h thng khác.
H thng OCR bao gm nhiu thành phn x lý, trích chn
dng, hu x lý. tài tp trung nghiên cc trích chn dng. Vi tp
d liu vào hun luyn và nhn dng là kho mu NOM-DB0 cha 495 ch Nôm, mi
ch 24 mu, mi ch trên 1 c ct bó sát.
4. Mục đích và nhiệm vụ nghiên cứu
tài tc trích chvà nhn dng h thng
nhn dng ch Nôm tng th do LES-Nom xây dngc trích chn
ng s vùng (Zoning)c nhn d tài tìm
hiu k thut Máy véc- tr (SVM) hình ng dng SVM trong nhn dng ch
Nôm t xung nghiên cu ci tin.
5. Những nội dung nghiên cứu
Chúng tôi tìm hiu tng quan v ch Nôm và bài toán nhn dng ch Nôm nhm mc
xây dng b nhn dng Nôm- tin hành các nghiên c
gi cùng nghiên cu v ch Nôm trong LES-Nôm tin hành xây dng b d liu mu Nôm-
nhng kt qu v nhn dng cho các b c bit là
OCR ch ng hình, lun hành nghiên c xut thut toán nhn dng KSVM,
tit thut toán, tin hành thc nghi chính xác ca KSVM.
6. Kết cấu luận văn
Ngoài phn m u, kt lun, ph lc và danh mc tài liu tham kho, lum 5
u tng quan ch Nômp trung các yu
t n nhn du trúc ch Nôm, s ng t Nôm không có hình trong b
ch ng hình khác. Ting ni dung v bài toán nhn dng ch
tìm hiu các OCR nói chung và OCR dành cho ch ng hình v
n kt qu c, mô hình và các gii thut cc tip tc nghiên cu. Trong
p trung tìm hing ci dung liên quan
nhin lup, vn là mt trong nhng ch
c quan tâm nhi c bit khi áp dng cho ch Nôm có s ch l
nhng kin thc t i thut KSVM cho bài toán
nhn dng ch Nôm do tác gi xu thc hiu qu ca KSVM, trong
c tin hành xây dng thc nghi
c k tha t kt qu nghiên cu nào vi ch Nôm, nên lun
hành thc nghim t u tiên là t xây d d liu mn phn mm tách
ch, tin x ng kch bn và tin hành
Chƣơng 1. TỔNG QUAN CHỮ NÔM
1.1. Lịch sử và một số đặc điểmcủa chữ Nôm
Sau khi Vit Nam thoát kh ca Trung Qu Nôm ln
u tiên thành ch quc ng dit ting Vit qua mu t bi
t th k n th k 20, mt phn ln các tài lic, trit hc, s hc, lut pháp,
y khoa, tôn giáo và hành chíc vit bng ch Nôm. Su n 1802)
di tri n hành chíc vit bng ch Nôm. Nói
cách khác, ch Nôm là công c duy nht hoàn toàn Vit Nam ghi li lch s a dân
tc trong khong 10 th k.
. Nôm‖
―Nam‖, ý ch ch ci Nam Vic khi ch n ch Hán
ghi li âm ting Vit. Ting Hán ch có 4 thanh, ting vin
n ch phn ánh ht các thanh ca ting Vit. Ví d eo, ăn,
ươi, on… , yêu cu tt yu cn b sung mt h thng ch ng các yêu cu ghi
âm trong các hong thi ct, xã h
-
-
nghĩa phùthanh phù).
máy ("máy móc")
mộc (ý)
+
mãi (âm)