Tải bản đầy đủ (.pdf) (99 trang)

Thiết kế hệ thống nhúng nhận dạng chữ viết tay tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4 MB, 99 trang )

Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang v

MCăLC

TRANG
Trangăta
QuytăđnhăgiaoăđătƠi
LỦălchăkhoaăhc
Liăcmăn i
Liăcamăđoană ii
Tómătt iii
Abstract iv
Mcălcă v
Danh sách các hình ix
Danhăsáchăcácăbng xi

Chngă1ăTNGăQUAN 1
1.1ăGiiăthiuăđătƠi 1
1.2 Tình hình nghiên cu 2
1.3ăụănghƿaăkhoaăhcăvƠăthcătin 5
1.3.1ăụănghƿaăkhoaăhc 5
1.3.2ăụănghƿaăthcătin 5
1.4ăNhimăvăvƠăgiiăhnăcaăđătƠi 6
1.4.1ăNhimăvăcaăđătƠi 6
1.4.2ăGiiăhnăcaăđătƠi 6
1.5ăPhngăphápăthcăhin 6
1.5.1ăPhngăphápătƠiăliu 6
1.5.2ăPhngăphápăthcănghim 7
1.6ăBăccăcaălunăvĕn 7
Chngă2ăCăSăLụăTHUYT 8


2.1ăCácăbcătrongămtăhăthngănhnădngăchăvit [19] 8
2.1.1 TinăxălỦ 8
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang vi

2.1.2 PhơnăvùngăkỦăt 9
2.1.3ăTríchăchnăđcătrng 9
2.1.4ăPhơnălp 10
2.1.5 HuăxălỦ 11
2.2 Phơnălpădăliuă[6]ă[22] 11
2.2.1 Khái nim 11
2.2.2 Cácăvnăđăliênăquanăđnăphơnălpădăliu 13
2.2.3 PhngăphápăphơnălpăSVMă[5]ă[23-27] 14
2.2.3.1 SVM là gì? 14
2.2.3.3 Phân lớp tập dữ liệu không khả tách tuyến tính 19
2.2.4ăSVMăchoănhnădngăđaălpă[28] 24
2.2.4.1 Một chống phần còn lại (OVR: One-vs-Rest) 24
2.2.4.2 Một chống một (OVO: One-vs-One) 25
2.3 XălỦănh 26
2.3.1 VaiătròăcaăxălỦănhătrongănhnădng 26
2.3.2 XălỦănhăviăOpenCVă[10] [29-30] 27
2.3.2.1 Giới thiệu về OpenCV 27
2.3.2.2 Các hàm cơ bản 27
2.4 Hăthngănhúng 34
2.4.1ăHăđiuăhƠnhănhúng 34
2.4.1.1 Hệ điều hành Angstrom (Ångström) [31] 34
2.4.1.2 Các lệnh cơ bản trên hệ điều hành Angstrom 35
2.4.2ăHăthngăphnăcng 36
2.4.2.1 Giới thiệu về board nhúng BBxM [32] 36
2.4.2.2 Cấu trúc hệ thống của BBxM [33]. 37

2.4.2.3 Một số ứng dụng của BBxM 38
Chngă3 NHNăDNGăCHăVITăTAY TINGăVIT 39
3.1ăBăkỦătănhnădng [14] [35] 39
3.2 Môăhìnhănhnădngăchăvitătayăriărc 40
3.2.1 Thuănhnănh 41
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang vii

3.2.2 TinăxălỦ 42
3.2.3 TáchăkỦătăvƠădu 44
3.2.3.1 Tách dòng 45
3.2.3.2 Tách chữ 47
3.2.3.3 Tách ký tự và dấu 48
3.2.4 Tríchăđcătrng 49
3.2.4.1 Đặc trưng theo chu tuyến 51
3.2.4.2 Phân bố điểm ảnh 52
3.2.5 HunăluynăvƠănhnădng 53
3.2.5.1 Xây dựng bộ huấn luyện 54
3.2.5.2 Nhận dạng 58
3.2.6 Ghiăktăqu 59
Chngă4 XỂYăDNGăNGăDNGăTRểNăBOARDăNHỎNG 62
4.1ăSăđăhăthng 62
4.2ăXơyădngăhăđiuăhƠnhănhúng 63
4.3ăBiênădchăngădngătrênăboardănhúng 63
4.3.1 Biênădch OpenCV cho ARM 64
4.3.2 ThitălpăQtăchoăBBxM 64
4.3.2.1 Cài đặt trình biên dịch chéo 64
4.3.2.2 Biên dịch Qt Everywhere 64
4.3.2.3 Thiết lập Qt Creator để biên dịch với nền tảng Qt Everywhere 65
4.3.2.4 Biên dịch ứng dụng Qt với thư viện OpenCV cho BBxM 65

4.3.2.5 Thiết lập BBxM 65
4.3.2.6 Biên dịch và thực thi ứng dụng trên BBxM 66
Chngă5 KTăQUăVẨăKTăLUN 67
5.1ăKtăquăđtăđc 67
5.1.1ăHotăđngăcaăchngătrình 68
5.1.2ăMtăsăktăquăđtăđcăcaăchngătrìnhănhnădng 71
5.1.3ăKtăquăthngăkê 74
5.2ăKtălun 77
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang viii

5.2.1ăKtăquănghiênăcu 77
5.2.2ăHnăch 78
5.2.3ăHngănghiênăcuăvƠăphátătrin 78
TẨIăLIUăTHAMăKHO 80
PHăLC 84




























Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang ix

DANH SÁCH CÁC HÌNH

HÌNH TRANG
Hình 1.1: CácămuăchăsătríchătătpăMNISTădataăbaseă[17]. 2
Hình 2.1: CácăbcăcăbnătrongănhnădngăkỦăt [19] 8
Hình 2.2: Môăhìnhăphơnălpădăliu 12
Hình 2.3: SiêuăphngăphơnătáchătpădăliuăthƠnhăhaiălpăơmăvƠădng 15
Hình 2.4: HăcácăsiêuăphngătngăngăviăcácăthamăsăwăvƠăb 15
Hình 2.5: KhongăcáchătăsiêuăphngăHăđnăgcătaăđ 16
Hình 2.6: Phơnălpăbngălămm 20
Hình 2.7: ỄnhăxămuăvƠoăkhôngăgianăđcătrng 22
Hình 2.8: MinhăhaăchinălcăOVR 24
Hình 2.9: MinhăhaăphngăphápăloiătrăcaăchinălcăOVOă[28] 25
Hình 2.10: nhăthcătăcaăBeagleBoard-xM RevC [32] 37

Hình 2.11: SăđăhăthngăcaăOMAPăDM3730ă[33] 37
H̀nhă3.1: Săđôăkhôiăhê
̣
ăthôngănhơ
̣
năda
̣
ng ch
̃
ăviêtătay 41
Hình 3.2: Quáătrìnhăthuănhnănhăbngăcamera 41
Hình 3.3:ăMinhăhaăktăquălcănh 43
Hình 3.4:ăMinhăhaăsădòngăchătiăđaăchaătrongăkhungănhănhnădng 43
H̀nhă3.5: MinhăhaăktăquănhăcaăquáătrìnhătinăxălỦ 44
H̀nhă3.6: QuáătrìnhătáchăkỦătăvƠădu 45
Hình 3.7: Giiăthutăxácăđnhăcácădòngăch 46
Hình 3.8: Minhăhaăquáătrìnhătáchădòng 47
Hình 3.9: Minhăhaăquáătrìnhătáchăch 47
Hình 3.10: Giiăthutăxácăđnhăcácăch 48
Hình 3.11: MinhăhaăquáătrìnhătáchăkỦătăvƠădu 49
Hình 3.12: Phân nhóm theo vùng liên thông [2] [11] 50
Hình 3.13: Quáătrìnhătríchăđcătrng 50
Hình 3.14: Minhăha tríchăđcătrngătheoăchuătuyn 51
Hình 3.15: Minhăha tríchăđcătrngătheoăphơnăbăđimănh 53
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang x

H̀nhă3.16: Quáătrìnhăxơyădngăbăhunăluyn 54
H̀nhă3.17: Formălyămuăchăvitătayătingăvită(form1) 56
H̀nhă3.18: Mtăsămuăđcătríchătrongătpădăliuă[9] 57

H̀nhă3.19: Săđăhunăluynămu 57
Hình 3.20: Săđănhnădngămu 58
Hình 4.1: Hăthngăphnăcng 62
Hình 4.2: Hăthngăphnămm 62
Hình 5.1: Giaoădinăchínhăcaăchngătrìnhănhnădng 67
Hình 5.2: GiaoădinăcaăchngătrìnhătáchăkỦăt,ăhunăluynăvƠăkimătra 68
Hình 5.3: MôăhìnhăhunăluynămuăSVM 69
Hình 5.4: Ktăquănhnădngăchăcóăkíchăthcăln 71
Hình 5.5: Ktăquănhnădngăchăcóăkíchăthcănh 71
Hình 5.6: Ktăquănhnădngădòngăchăbănghiêng 72
Hình 5.7: Ktăquănhnănhăcóănhiuăsáng 72
Hình 5.8: Ktăquănhnănhăcóănhiuănn 73
Hình 5.9: Ktăquănhnănhăchăvităkhôngălinănét,ăkhôngăriărc 73
Hình 5.10: Phngăphápătáchăhaiăphnăduădínhălinănhau 78
Hình 5.11: MinhăhaăỦătngăghépăniăkỦătăvƠădu 79












Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang xi


DANHăSÁCHăCÁCăBNG

BNG TRANG
Bngă1.1: HiuăsutăcaăphngăphápăSVMătrênăcácătpămuă[16] 3
Bngă1.2: SoăsánhăktăquănhnădngăcaăSVMăviămôăhìnhăn-ron [1] 4
Bngă1.3: Ktăquănhnădngătrênădăliuătingăvităvitătayăhnăchă[2] 4
Bngă1.4: KtăquănhnădngătrênătpădăliuăMNISTăviăcácăđcătrngă[3] 5
Bngă3.1: ThngăkêăsăđcătrngăcaăkỦătăvƠăduătheoăcácăphngăpháp 51
Bngă3.2:ăTpăcăsădăliuăchăvitătayătingăvit 54
Bngă3.3:ăMƣăhóaăkỦătătheoănhƣn 60
Bngă5.1:ăSoăsánhăktăquănhnădngătheoăcácăphngăphápătríchăđcătrng 75
Bngă5.2:ăThiăgianăhunăluynăvƠănhnădng 76
Bngă5.3:ăKíchăthcăluătrăbăhunăluyn 76
Bngă5.4:ăSoăsánhăthiăgianănhnădngătrênămáyătínhăvƠăBBxM 77

Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 1

Chngă1
TNGăQUAN

1.1 GiiăthiuăđătƠi
NgƠyănƠyăvicăsădngămáyătínhăđăluătrătƠiăliu,ăthôngătinăcáănhơnăkhôngăcònă
lƠăvnăđămiămăvƠăcnăphiăchngăminhătínhăanătoƠn,ăthunătinăcaănó.ăXuăhngă
săhóaăttăcănhngăthôngătinăngiădùngăđangădnătrănênăphăbin.ăĐiăviămtăsă
lƿnhăvcănhăyăt,ătƠiăchínhăngơnăhƠng,ăbuăchínhầăphnălnăcácăthôngătinăkháchă
hƠngăcnăđcăthcăhinăbngăchăvitătayăvƠăchínhăđiuănƠyăsăgơyănhiuăkhóăkhĕnă
trongă vică luătră hă s.ă Cácă phnă mmă nhnă dngă chă vită tayă să giúpă săhóaă
nhngăthôngătinănƠy,ăgiúpădădƠngăluătrăvƠătruyăsutănhanhăkhiăcnăthit.
NhnădngăchăvitătayălƠămtăngădngăcaămôăhìnhăphơnălpădăliu,ănóăđcă

phátătrinădaătrênăkăthut xălỦănhăvƠăcácăphngăphápăsădngămáyăhc. Hai
hngănghiênăcuăchínhăbaoăgm:ănhnădngăchăvităon-lineăvƠănhnădngăoff-line
[14]. Nhnădngăon-line lƠăhìnhăthcăđcăsădngăphăbinătrênăhuăhtăcácăthităbă
cmătayăcóăhătrămƠnăhìnhăcmăng nhăSmartPhone, Table, v.v. Viăphngăphápă
này nhngăthôngătin caăchăvit tay nhăta đ,ăápălcăvƠăhngăvităsăđcămáyă
thuăthpăvƠăxălỦătrongăthiăgianăthc, đăchoăraăktăquăkỦătătngăngăviăngună
dngătext. Nhnădngăoff-lineălƠăquáătrìnhănhnădngăchăvitădaătrênăcácăthông tin
tƿnh. ĐóălƠăquáătrìnhăchuynăđiăthôngătinăchăvitădiădngăhìnhănhăsangădngă
tp, cóăkhănĕngăchnhăsaăvƠăluătrătrênămáyătính,ădoăđóăchtălngăvƠăđăchínhă
xácăcaăhăthngănhnădngăphăthucărtănhiuăvƠo chtălngănhăvĕnăbn.
Nhnă dngă chă vită bngă tayă đcă thcă hină daă trênă haiă giiă thută chính:ă
memoryăbaseă vƠălearningăbase.ăMemoryăbaseăluătrănhăcácăkỦătămuăvƠănhnă
dngămtăkỦătăchaăbităbngăcáchăsoăsánhăviăcácăkỦătămu.ăLearningăbase hay
cònăgiălƠăhcămáy (Machine Learning) lƠăgiiăthutăcăgngăhcăcácă muăkỦătă
chaăbit (dăliuăhunăluyn) vƠăxơyădngăhƠmănhnădng (function) tngăng.ă
HngătipăcnăcaăđătƠiănghiênăcuănƠyălƠănhnădngădaătrênăthôngătinătƿnh và
máyăhc. Quá trình nƠyăgmăhaiăbcăc bn:ăđuătiên là tách ký t và rútătríchăđcă
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 2

trngăcaăkỦăt.ăTipătheoălƠăcnăxơyădngămtămôăhìnhămáyăvécătăhătr SVM đă
giúpăhcăcácăđcăđimăriêngăcaăkỦătăvƠăto raăcăsădăliuătriăthcăchoăquáătrìnhă
nhnădng.
1.2 T̀nhăh̀nhănghiênăcu
NhnădngăchăvitătayăvnăcònălƠătháchăthcălnăđiăviăcácănhƠănghiênăcu.ăĐƣă
cóănhiuăcôngătrìnhănghiênăcuăvănhnădng cácămuăchăvitătayăcaăcácăhăchă
cáiăLatinh,ărp,ăTrungăQuc, v.v. nhngăktăquăvnăcònăkháăhnăchădoăchăvită
tayărtăđaădngăvămuăchăcǜngănhăcácăbinăth.ăCácămuăchăvitătayăphăthucă
nhiuăvƠoăcáchăvit,ătrngătháiătinhăthnăcaăngiăvit.ăCácănghiênăcuătrongăncă
cǜngăchădngăliăăvicănhnădngătngăkỦătăriêngăl,ămcăđănhnădng cơuăhoc

vĕnăbn vn chaăthcăhinăhoƠnăchnhăđc.
Vicănhnădngăchăvitătayăthngăđcăbtăđuănghiênăcuăviănhnădngăcácă
s.ă Bă că să dă liuă chună choă vică nghiênă cuă nƠyă gmă haiă bă dă liuă chính:ă
USPSă(UnitedăStateăPostalăService)ăgmă7291ămuădùngăđătrainingăvƠă2007ămuă
khácăđătesting,ămiămuălƠămtănhăxámăcóăkíchăthcă16x16; MNIST (National
Institute of Standard and Technology of the United States) [15] lƠămtăphiênăbnă
đcăchnhăsaătăbădăliuăNISTăcaătpăđoƠnăAT&T.ăBădăliuănƠyăbaoăgmă
60.000ămuădùngăđătrainingăvƠă10.000ămuădùngăđătesting,ămiămuălƠămtănhă
xámăcóăkíchăthcă28x28.

Hình 1.1: Cácămuăchăs trích t tp MNIST data base [17].
BƠiă toánă nhnă dngă chă vită tayă đcă thcă hină kháă nhiuă trênă tpă chă să
MNIST. Nhiuăphngăpháp phân lp khác nhau đƣăđcăthcăhinătrên trênăhaiătpă
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 3

hună luynă vƠă kimă tra caă bă dă liuă nƠyă vƠă trongă să đóă phiă kă đnă mtă să
phngăpháp thôngădngănh mô hình mngăn-ron, mô hình Markov n,ăthutătoánă
K-láng ging hay phngăphápămáyăvécătăhătr SVM.ăTălănhnădngăcaăcácă
phngăphápănày đcăđăcpătrong [15]. RiêngăđiăviăphngăphápăSVM, mtăsă
ktăquănghiênăcuătrênăcácătpădăliuăkătrênăđc thăhin nhătrongăbngă1.1
Bngă1.1: HiuăsutăcaăphngăphápăSVMătrênăcácătpămu [16]
Author
Database
Tr Size
Test Size
Error
Rate
Krebel et al, 1998
NIST

10000
10000
1.09
Ayat et al, 2002
NIST
18000
10000
1.02
Scholkopf et al, 1996
USPS
7291
2007
3.2
Dong et al, 2002
USPS
7291
2007
2.24
LeCun et al, 1998
MNIST
60000
10000
1.1
Li et al, 2002
MNIST
60000
10000
0.76
DeCoste and Scholkopf, 2003
MNIST

60000
10000
0.56
Liu et al, 2002
MNIST
60000
10000
0.42
Nghiênăcuăca nhóm Liu et al [18]ăđiăviătpădăliuăMNISTăcǜngăchăraărngă
phngăphápăSVMăsădngăhƠmănhơnăGaussianăttăhnăcácăkăthutătruynăthngă
nhămngăn-ron (sădngămôăhìnhămngătruynăthngăMLP và RBF). H cǜngăchă
raăvicăsădngăphngăphápăSVMăsăcnăphiăquanătơmănhiuăđnăkhôngăgianăbă
nhăvƠătcăđătínhătoánăchoăquáătrìnhăphơnălp soăviăcácăphngăphápăkhác.
KtăquănghiênăcuătrongăncăcƠngăcǜngăcăthêm tínhăhiuăquăphơnălpăcaă
SVMăsoăviăphngăphápăsădngămôăhìnhămngăn-ron, căthăkhiăsoăsánhăSVMă
viăphngăphápăsădngămôăhìnhămngăn-ronă4ălpă(144ăn-ronălpăvƠo,ă72+36ă
n-ronăăcácălpăn,ă10ăn-ronălpăra)ătrênăcùngămtăbădăliuăchunăMNIST,ăktă
quănhnădngăchínhăxácăhnăsoăviămôăhìnhămngăn-ronă(bngă1.2).ăVnăđăhn
chăhăchăraălƠăsăbùngănăsăphơnălpăvƠăsălngăvécătăhătr thuăđcăsauăkhiă
hunăluynăsădnăđnăvicăphơnălpăchm.

Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 4

Bngă1.2: SoăsánhăktăquănhnădngăcaăSVMăviămôăhìnhăn-ron [1]
Cácăthôngăs
Mngăn-ron
SVM
Sămuăhc
60.000

60.000
Thiăgianăhc
~24ăgi
~2ăgi
Sămuătest
10.000
10.000
Thiăgianătest
~2 phút
~5 phút
Tălăli
4.6
2.8
Trongănghiênăcuăvănhnădngăchăvitătingăvit sădngăphngăphápăSVM,ă
ktă quă đtă đcă caă nhómă nghiên cu Phmă Anhă Phng,ă Ngôă Qucă Toă vƠ
LngăChi Mai [2]ăđcătrìnhăbƠy nh trong bngă1.3. Đơy là môăhìnhănhnădngă
chăVităvitătayăhnăchădaătrênăcăsăSVMăktăhpăviăphng pháp tríchăchnă
đcătrng wavelet Haar đtăđăchínhăxácătngăđiăkhăquan.
Bngă1.3: Ktăquănhnădngătrênădăliuăting vit vitătayăhnăchă[2]
Tpămu
Sămu
Đăchínhăxác
TestData1
7143
82.24%
TestData2
16856
90.69%
TestData3
12219

87.78%
TestData4
36218
88.04%
Bênăcnhămôăhìnhăphơnălp,ăphngăphápătríchăđcătrngăcǜngăcóăỦănghƿaăhtăscă
quanătrng,ănóăcóănhăhng ln đnăchtălngăcǜngănhătcăđăcaămtăhăthngă
nhnădng. TríchăchnăđcătrngănhăthănƠoăđăvnăđmăboăkhôngămtămátăthôngă
tinăvƠăthuăgnăkíchăthcăcaătpădăliuăđuăvƠoălƠăđiuămƠănhiuănhƠănghiênăcuă
vnăđangăquanătơm. Có khá nhiuăphngăphápătríchăđc trngăđcăsădngăchoă
bƠiătoánănhnădngăchăvit.ăKtăquăthcăhinătrênătpădăliuăMNISTătheoăthută
toánăSVMăviăchinălcăOVOă[3]ăđtăđcănh bngă1.4. KtăquănƠyăchoăthyăsă
dngăcácăđcătrngă Zoneă 2x2ăvƠăHaarăWaveletă đtăđăchínhăxác caoă hnăkhiăsă
dngăđcătrngămaătrnănhăphơn.ăVicăsădngăcácăđcătrngăProjectionăvƠăContour
Profileă đtă đă chínhă xácă caoă khôngă bngă nhă phơnă nhngă să dngă să lngă đcă
trngăítăhnănhiu,ăvìăvyătcăđănhnădngăcǜngătĕngălênăđángăk.
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 5

Bngă1.4: KtăquănhnădngătrênătpădăliuăMNISTăviăcácăđcătrngă[3]
Đcătrng
Săđcătrng
Đăchínhăxác
MaăTrnănhăphơn
256
97.20%
Zone 2x2
64
97.90%
Projection
94

97.00%
Coutour Profile
64
95.50%
Haar wavelet
256
97.80%
CácăhăthngănhnădngăchăvitătayănóiăchungăvƠănhnădngăchăVitănóiăriêngă
hinăvnăđangăđiămt viănhiuăvnăđădoăsăđaădngăvăcáchăvit.ăăVităNamăvn
chaăcóămtătpădăliu chunănƠoăđcătoăraăđăphcăvăchoăvicăhunăluyn và
kimătra,ăcácăktăquăcǜngăchădngăliăăvicănhnădngătngăkỦătăriêngăbit.ăSă
lngăcácăphnămmăđcăthngămiăhóa vnăăconăsăkhiêmătnăvƠădng nhăcóă
rtăítăphnămmămƣăngunămăphcăvăchoăvicănghiênăcuăvƠăphátătrin. Doăđóă
trongă tìnhă hìnhă hină ti,ă bƠiă toánă nƠyă vnă đangă đcă nghiênă cuă nhmă đem liă
nhngăngădngăthităthcăchoăđiăsng.
1.3ăụănghƿaăkhoaăhcăvƠăthcătin
1.3.1ăụănghƿaăkhoaăhc
NghiênăcuăcácăkăthutăxălỦănhăvƠămtăsăthutătoánătrongăvic phơnătíchăcuă
trúcăvùngăvĕnăbn, táchăvƠăphnăvùngăkỦăt.
Nghiênăcuăphngăphápăphơnălp sădngămô hình hcămáyăvécătăhătrăSVMă
cho bài toánănhnădngăchăvitătayătingăvit.
Xơyădngămôăhình táchăkỦăt,ăhunăluynăvƠăkimătraămuămtăcáchătăđng.
1.3.2ăụănghƿaăthcătin
GiiăquytăbƠiătoánănhnădngăchăvitătayătingăvit cóădu ămc đănhnădngă
mtăsăcơuăđnăgin.
Tácăgi mongămunănhngăđóngăgópăvămtăniădungăsălƠămtănnătngăđăcácă
nhƠănghiênăcuăkhácătipătcăphátătrin. Môăhìnhănhnădngăchăvitătingăvităcó
phátătrinăsongăsongăviămôăhìnhăxălỦătingănói giúp to ra các ngădngămangătínhă
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 6


thcătăcaoăti VităNamănhăđcăcácăvĕnăbnăvitătrênăgiyăcǜngănhăngădngăvƠoă
khănĕngăđcăvƠăhiuăchăcaărobotăhayăkínhăhătrăthălc,ăv.v.
1.4 NhimăvăvƠăgiiăhnăcaăđătƠi
1.4.1ăNhimăvăcaăđătƠi
TìmăhiuăvƠăphátătrin mô hìnhănhnădngăchăvitătayătingăvit riărcăcóăkhă
nĕngănhnădngăđc nhăvĕnăbnătingăvit cóădu.ăTrênăcăsăđóăsăxơyădngăngă
dngănhnădngăchăvitătrênănnăhăthngănhúng,ăcăthălƠătrênămáyătínhănhúngă
BeagleBoard-xM.
1.4.2ăGiiăhnăcaăđătƠi
BƠiătoánăsăđcăhinăviăchăvitătayătingăvit viămtăsăgiiăhnăvăngônătă
vƠăvĕnăphongănhăsau:
 BăkỦăt: nhnădngăttăcă93ăkỦăt đcătoăraăbiă29ăchăcái {A,ăB,ăC,ăD,ăĐ,ă
E,ăG,ăH,ăI,ăK,ăL,ăM,ăN,ăO,ăP,ăQ,ăR,ăS,ăT,ăU,ăV,ăX,ăY,ă,ă,ăZ,ăW,ăF,ăJ}ăvà 6
thanhăđiuătrongătingăvit {duăngang,ăduăsc, đuăhuyn,duănng, duăhi,
duăngƣ}.
 Vĕnăphong:ăChăinăhoa,ăriărc, nét ch liênătc, phnăduăvƠăkỦătăkhôngăbă
dínhălinăhocăchngălpălênănhau.ăChăđcăvităthngăhàng, khongă cáchă
giaăcácăchăvƠăgiaăcácădòngăphiăđcăđmăbo.
1.5 Phngăphápăthcăhin
Đăcóăđcănhngăktăquămangătínhăkhoaăhcăcǜngănhăthcătin,ăđătƠiăcnă
đcăxơyădngădaătrênămtălătrìnhăđúngăđn.ăNóăphiăcóăsăgnăktătăkhơuălaă
chnăđătƠi,ălpăkăhochăthcăhin,ăđtăvnăđ,ăthuăthpădăliuăchoăđnăkhơuăvită
báoăcáoăvƠăkimănghim.ăTrênăcăsăđƣăcóăđcăđătƠiăvƠăcácămcătiêuăđcăđtăthìă
vicăcònăliăchínhălƠătìmăkimăcácăphngăphápăhiu quăđăđtăđcăcácămcătiêuă
nhămongămun.
1.5.1ăPhngăphápătƠiăliu
TìmăhiuăcácăkăthutăxălỦănhăs;ătìmăhiuăcácăkăthutănhnădngăđiătng,ă
nhnădngămu;ătìmăhiuăcácăphngăphápătríchăđcătrngăhiuăquăchoăchăvitătay.
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang

HVTH: Lê Hồng Phúc Trang 7

TìmăhiuăcôngăcălpătrìnhăQtăCreator,ăthăvinăxălỦ nhăOpenCVăvƠămtăsăthă
vinăliên quan phcăvăchoăvicăhunăluynăvƠănhnădng.
1.5.2 Phngăphápăthcănghim
Xơyădngăc sădăliuăkỦătăhunăluynăbngăcáchăthuăthpămuăvitătayăca
nhiuănhómăđiătngăkhácănhauăvƠăđngăthiăsădngăliămtăsătpămuăđƣăđcă
thcăhinătrênăcácăđătƠiătngătătrcăđó.
XơyădngăngădngătrênămáyătínhăvƠăđánh giá t lănhnădngătheoăcácăphngă
phápătríchăchnăđcătrng.
TiăuăhóaăchngătrìnhăvƠăthcăthi ngădngătrênătrênăBeagleBoard-xM.
1.6ăBăccăcaălunăvĕn
NiădungăcaălunăvĕnăđcăchiaălƠmă5ăchng:
 Chng 1: GiiăthiuătngăquanăvăđătƠi,ătìnhăhìnhănghiênăcu,ămcătiêuăvƠ
giiăhnăcaăđătƠi.ă
 Chngă2: PhnăcăsălỦăthuyt.ăTrìnhăbƠyăcácăbcăcăbnăcaămtăhăthng
nhnădngămuătrongăxălyănh;ăkhái nimăvăphơnălpădăliuăvƠăchiătităvă
phngă pháp phơnă lpă SVM.ă Niă dungă caă chngă cǜngă trìnhă bƠy mtă să
nguyênălỦăcăbnăcaămtăsăhƠmătrongăOpenCV.ăPhnăcuiăcaăchngă s
giiăthiuăsăquaăv hăđiuăhƠnhăAngstromăvƠăboard nhúng BeagleBoard-xM.
 Chngă3: Mô hình nhnădngăchăvitătay tingăvit. TrcăhtătrìnhăbƠy vă
băkỦătătingăvit, cách phân chia thành các nhóm kỦătădaătrên thƠnhăphnă
liên thông. Phn quanătrngăđcăđăcp chínhălƠăvic đi sơuăgiiăthiu vƠăgiiă
thíchăchiătit vămtăsăsăđăthutătoánătrongăquáătrìnhăphơnătáchăkỦăt.
 Chngă4: XơyădngăngădngătrênăBoardănhúngăBeagleBoard-xM.ăNiădungă
chngă nƠyă să môă tă cácă bcă xơyă dngă ngă dngă trênă boardă nhúng,ă cácă
phngăphápăcǜngănhăcácăcôngăcăđcăsădngăchoăvicăbiênădchăngădngă
đăcóăthăthcăthiătrênămtăhăđiuăhƠnhănhúng.
 Chngă5: Ktăqu vƠăktălun. TrìnhăbƠyăvƠăđánh giá các ktăquăđtăđcă
caăđătƠi,ăđaăraăđnhăhngănghiênăcuăvƠăphátătrinăcaăđătƠi.


Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 8

Chngă2
CăSăLụăTHUYT

2.1 Cácăbcătrongămtăhăthngănhnădngăchăvit [19]
NhnădngăkỦătălƠămtănhánh caăkăthutăxălỦănhăs,ămt hăthngănhnădngă
kỦătăcnăcóămtăsăbcăcăbnănhăsau:

Hình 2.1: CácăbcăcăbnătrongănhnădngăkỦăt [19]
2.1.1 Tinăxălý
nhăbanăđuăcóăthăđcăthuănhnăthông qua nhiuăthităbăkhácănhauănhămáyă
chpănh,ămáyăquayăhocămáyăscan. ChtălngănhăđcăxălỦăthôngăquaăcácăthită
bănƠyăcóăchtălngărtăthpăvà bănhăhngăbi nhiu.
MtăsăkhơuătrongătinăxălỦăs giúpătaăloi băbtăcácăthƠnhăphnănhiu,ăgópă
phnălƠmătĕngăđăchínhăxácăcho mtăhăthngănhnădng.ănhăs đc lƠmătrn,
TinăxălỦ

Phân vùng
kỦăt

Tríchăđcătrng
Phơnălp
HuăxălỦ
KỦătăđcă
nhnădng
nhăkỦăt
Băhunăluyn

Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 9

tĕngă gimă đă sáng,ă táchă ngng,ă bină điă cpă xámă hayă thcă hină cơnă bngă
histogram, v.v. Điăviămôăhìnhănhnădngăchăvit,ăchúngătaăcnăthêmămtăsăkhơuă
nhăđiuăchnhăđănghiêngăhayălƠmămƣnhăch.ăTùyătheoămcăđíchătaăsăuătiênăđă
loiăbămtăsăkhơuănhm tĕngătcăđănhnădng.ăKtăquăcaăbcătinăxălỦăsă
choămtănhănhăphơnăviăhaiăphn riêngăbit:ăphnănn đen vƠăphnăch trngăhay
ngcăli.ăViăktăquănƠy săgiúpătaădădƠngăthcăhinăcácăphépătoánătrênăđimănhă
vƠăkhiăđóătáchăriătngăkỦătăđăđaăvƠoălyămuăvƠăphơnălp.
2.1.2 Phơnăvùngăkýăt
LƠăquáătrìnhă phơnătíchăcuătrúcăvtălỦăcaă trangăvĕnăbnănhmăxácă đnhăvătríă
tngăđiăcaăcácăvùngăthôngătin, thôngătinătaăquanătơmăăđơyăchínhălƠăkỦăt.ăĐây có
thăcoiălƠăbcăquanătrngănht trongăbtăkǶămtăhăthngănhnădngănƠoăbiănuă
khôngătáchăđcăkỦătăs đngănghƿaăviăvicăkỦătăđóăsăkhôngăđcănhnădng.
Haiăhngătipăcnăphăbinătrongăphơn tích trangăvĕnăbnălƠ:
 Hngătipăcnătătrênăxung:ătoƠnăbăvĕnăbnăsăđcăcoiălƠămtăkhi,ă
bngăcáchăsădngăphngăphápăchiuăbiuăđătnăsutătheoăcăchiuăngangăvƠăchiuă
dc.ăNuăchiuătheoăchiuăngangătaăsătáchăđcăcácădòngăvĕnăbnăvƠăsauăđóălƠăcácă
thƠnhăphnăcăbnăcaămtădòngănh:ăbaseline, ascenders, descenders. Nuăchiuă
theoăchiuădcătaăsătáchăđcătngăchăsauăđóălƠătngăkỦăt.
 Hngă tipă cnă tă diă lên: quáă trìnhă phơnă đonă btă đuă bngă vică xácă
đnhănhngăthƠnhăphnăliênăthôngănhănht,ăsauăđóăgpăchúngăliăthƠnhănhngăthƠnhă
phnălnăhn,ăchoăđnăkhiăthuăđcăttăcăcácăkhiătrongăvĕnăbn.
2.1.3 Tríchăchnăđặcătrng
Nhăchúngătaăđƣăbit,ătríchăchnăđcătrngăđóngăvaiătròăhtăscăquanătrngăbiănóă
cungăcpătriăthcăhunăluyn vƠănhnădng choăcămtăhăthngănhnădng.ăNhngă
thôngătinăhuăích tănhăđuăvƠoăsăđcăthăhinănhămtătpăhpăcácăvécătăđcă
trng.ăTpăcácăđcătrngănƠyăcóăthăđcăsădngătrongănhiuămôăhìnhămáyăhcă
khácănhau.ăDoăđóăvicăđánhăgiáăvƠălaăchnăphngăphápăthíchăhpăchoăquáătrìnhă

nƠyălƠăđiuăhtăscăcnăthit.ăMtăphngăphápătríchăđcătrngăhiuăquăphiăđmă
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 10

boă nhngă tiêuă chíă nhă khôngă nhyă cmă viă nhiu,ă kiuă ch,ă kíchă thc,ă đă
nghiêng,ăđădchăchuynăvƠănhiuăsăthayăđiăkhácăcaăchăvit.ă
Chúngătaăcóăthăktăhpănhiuăphngăphápătríchăđcătrngăkhácănhauătrongămtă
bƠiătoánănhnădngămu.ăMtătpăcácăvécătăđcătrngălnăsăgópăphnănơngăcaoăđă
chínhă xácă choă hă thngă nhngă nóă liă lƠă mtă vnă đă tháchă thcă choă btă kǶă mtă
phngăphápăphơnăloiănƠo,ănhtăđiăviăphngăphápăsădngămáyăhc,ăbiănóăsă
lƠmătĕngăđángăkăthiăgian hunăluynăcǜngănh nhnădng.ăDoăđóăcnăphiăđánhă
giáăvƠălaăchnănhngăđcătrngăquanătrng,ăcóăthăbiuădinăttăđcăđimăcaămtă
kỦătăhayăconăsăsălƠmăchoăhăthngăhotăđngănhanhăhn.
TngăquanăvăcácăphngăphápătríchăchnăđcătrngăchoănhnădngăkỦătăđcă
đăcpătrongă[3] [20] [21],ăvăcăbnăcóăthăchiaăthƠnhă3ăhngătipăcnăchính:
 Tríchăchnăđặcătrngăthngăkê:ă Mtăsăphngăphápăphăbinănhăchiaă
liă(Zoning), phngăphápăchiuă(Projection histograms),ăphngăphápăgiaoăđimă
(Crossing)ă vƠă khongă cáchă (Distance).ă Cácă phngă phápă nƠyăđcă đánhă giáă kháă
cao,ăchoăphépăgiiăquytăcácăvnăđăvănhiu,ăkíchăcăvƠămtăsăthayăđiănhătrênă
nhănhngăliăkháănhyăcmăviăđădchăchuynăvƠăđănghiêng.
 Tríchăchnăđặcătrngăcấuătrúc:ăTríchăchn đcătrngăvămtăcuătrúcăphnă
lnădaătrênătínhăchtăhìnhăhcăcaăchăvitănhăcácăđimăung,ăđimănút,ăđimăccă
tr,ă v.v. Hngă tipă cnă nƠyă să khcă phcă đcă vnă đă vă đă nghiêng,ă đă dchă
chuynănhngăkhóăxơyădngăđcătpămuăhunăluyn.ă
 TríchăchnăđặcădaăvƠoăphépăbinăđiătoƠnăcc:ă Cácăphngăphápăbină
điă toƠnă ccă thngăđcă să dngă nhă bină điă Cosineă riă rcă(DCT),ă bină điă
Fourier,ăbinăđiăWaveletăHaarăvƠăcácăphngăphápămoment.ăĐcăđimăcaăphngă
phápănƠyălƠăkhănĕngăbtăbinăviănhăbăxoay hayădchăchuynănhngăliăkhôngăgiiă
quytăttăcácăvnăđăvănhiu.ăDoăđóăcác phngăphápănƠyăyêuăcuăgiiăquytăttă
khơuătinăxălỦăđăgiaătĕngăchtălngănhăđuăvƠo.

2.1.4 Phơnălp
ĐơyălƠăgiaiăđonăquanătrngănht,ăgiaiăđonănƠyăquytăđnhăđăchínhăxácăcaăhă
thngănhnădng.ăTrongăgiaiăđonănƠy,ănhngăđcătrngămiăđcărútătríchătăcácă
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 11

nhăcaăcácăkỦătăcnăđcănhnădngăsăđcăđaăvào bănhnădngăđƣăđcăxơyă
dngătăcácămuăhunăluyn.ăKtăquătaăsăcóăđcăcácăquytăđnhăđúngăđnăvăloiă
(nhãn) caăcácămuămi.
Cóănhiuăkăthutăphơnălpătiênătin đƣăvƠ đangăđcăápădngăchoăbƠiătoánănhnă
dngăchăvitătayănhăHMM,ămngăn-ron, K-lángăgingăgnănht,ălutăquytăđnhă
Bayes, máyăvécătăhătr SVM, v.v. TrongăsăcácăkăthutănƠyăthìăSVMăđcăđánhă
giáălƠăphngăphápăcóăđăchínhăxácăphơnălpăcaoăvƠăphngăphápălunăcaănóăđcă
xơyădngădaătrênămtănnătngătoánăhcărtăchtăch. Mtăsăkháiănimăvăphngă
phápăSVMăsăđcătrìnhăbƠyătrongăphnăkătip.
2.1.5 Huăxălý
Mtăbănhnădngăhimăkhiăchăđădùngăđnăl.ăThayăvƠoăđóănóăthngădùngăđă
đaăraăthaoătácătngăng,ămiăthaoătácămtămtăchiăphíătngăng.ăHuăxălỦăsă
dùngăđuăraăcaăbăphơnălpăđăquytăđnhăthaoătácătngăng.ăTheoăquanănim,ă
cáchăđnăginănhtăđăđánhăgiáăhotăđngăcaămtăbănhn dngălƠăxemătălănhnă
dngăsaiăviăcácămuămi.ăDoăđóăchúngătaăcnăphiănhnădngăviătălăliăthpă
nht.ăTuyănhiênăchúngătaăcnăcácăthaoătácătngăngăphiălƠmăchoătngăchiăphíălƠă
thpănht.ăCóăthăphiăktăhpăcácătriăthcăđƣăbităvăchiăphí,ăvƠănóăs cóănhăhngă
đnăvicăraăcácăquytăđnhăhƠnh đng.ăChúngătaăcǜngăcnăcălngătrcăchiăphíă
đăxemăcóăthaămƣnăhayăkhông.ă
2.2 Phơnălpădăliu [6] [22]
2.2.1 Khái nim
Phơnălp dăliu (Classify data) đcăxemălƠămtăbƠiătoánăquanătrng trongănhnă
dngămu,ăđơy lƠăquáătrìnhăgánănhƣnăhocătênălpăchoămtădăliuămiăvƠoămtăhocă
nhiuălpăchoătrcădaătrênămtăquyălutănƠoăđó.

Có nhiuăbƠiătoánăphơnălpădăliu nhăphơnălpănhăphơn,ăphơnălpăđaălp,ăphơn
lpăđaătr,ăv.v. PhơnălpănhăphơnălƠăquáătrìnhătinăhƠnhăvicăphơnălpădăliuăvƠoă
mtătrongăhaiălpăkhácănhauădaăvƠoăvicădăliuăđóăcóăhayăkhôngămtăsăđcătính
theoăquyăđnhăcaăbăphơnălp.ăPhơnălpăđaălpălƠăquáătrìnhăphơnălpăviăsălng
lpălnăhnăhai.ăNhăvy,ătpăhpădăliuătrongăminăxemăxétăđcăphơnăchiaăthƠnhă
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 12

nhiuălpăchăkhôngăđnăthunăchălƠăhaiălpănhătrongăbƠiătoánăphơnălpănhăphơn.ă
Văbnăcht,ăbƠiătoánăphơnălpănhăphơnălƠătrngăhpăriêngăcaăbƠiătoánăphơnălpă
đaălp.ă

Hình 2.2: Môăhìnhăphơnălpăd liu
Quá trình phơnălpădăliuăgmăhaiăbc căbn:
 Hunăluyn/hc (learning step): ĐơyălƠăbcătoăraăbăhunăluynădaăvƠoă
cácăthutătoánăphơnălp. Dăliuăhunăluynă(Trainingăset) lƠănhngădăliuă
cóăthucătínhănhƣn,ăcácănhƣnănƠyăđcăxácăđnhăbiăngi thcăhinăcôngă
vicăhunăluyn. Quá trìnhăgánănhƣnăchoăcácătpădăliuăhcăđcăgiălƠăquáă
trìnhăhcăcóăgiámăsát.
 Phơnălp (classiẻcationăstep):ăTrongăbcănƠy,ămôăhìnhăhunăluyn đcăxây
dngăăbcătrênăsăđcădngăđădăđoánănhƣnăcaătp kimătraă(testing set)
và thông qua tăl nhnădngăđ călngăđăchínhăxácăcaăbăphơnălp.
NuăđăchínhăxácălƠăchpănhnăđcăthìăcóăthăsădngăbăphơnălpăđcătoă
taătrongăquáătrìnhăhcăđăphơnălpădăliuămi.
ĐiăviăbƠiătoánăphơnălp,ăthutătoánăphơnălpăgiăvaiătròăquytăđnhătiăsăthƠnhă
côngăcaămôăhìnhăphơnălp.ăDoăvyăvnăđătìmăraăđcămtăthutătoánăphơnălpă
nhanh,ăhiuăqu,ăcóăđăchínhăxácăcaoă vƠă cóă khă nĕngă mărngăđc lƠă rtăquană
trng. Vă că bnă chúngă taă cóă hcă máyă (Machineă Learning)ă lƠă mtă trongă nhngă
phngăpháp đcăsădngăchoămcăđíchăphơnălp. Cóăthălităkêămtăs kăthută
phơnălp sădngăphngăphápăhcămáyăđƣăđcăsădng phăbinăhinănay [19]:

 MôăhìnhăphơnălpăK-lángăging gnănhtă(k-Nearest Neighbor - k-NN)
 Mngăn- ron (Neural Networks - NN)
Thutătoánă
phơnălp
Dăliuă
đuăvƠo
Lpă1
Lpă2
Lpăn
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 13

 Môăhìnhămngănă(Hidden Markov Model - HMM)
 Máyăvécătăhătr (Support Vector Machine - SVM)
 Phơnălpăcơyăquytăđnhă(Decisionătreeăclassification)
 ThutătoánăBayes
2.2.2 Cácăvấnăđăliênăquanăđnăphơnălpădăliu
2.2.2.1 So sánh các mô hình phân lớp
KhôngăcóămtăphngăphápăphơnălpănƠoăđcăcoiălƠăttănhtăđăđcăsădngă
doăđóătùyăvƠoăcácăngădngăkhácănhauătaăsăápădngăphngăphápăphơnălpăchoăphùă
hp. Đăsoăsánhătínhăhiuăquăcaăcácăphngăphápătaăcóăthădaătrênămtăsătiêuă
chí sau:
 Đăchínhăxácăcaădăđoán:ăĐơyăchínhălƠăkhănĕngăbăphơnălpădăđoánăđúngă
dăliuăchaăbitănhƣn.ă
 Tcăđ:ăTcăđălƠănhngăchiăphíătínhătoánăliênăquanăđnăquáătrìnhătoăraăvƠă
sădngămôăhình.
 Tínhăbnăvng:ăLƠăkhănĕngăcaăbăphơnălpăthcăhinădăđoánăđúngăvi dă
liuănhiuăhayăthiuăgiáătr.
 Tínhăkíchăc:ăLƠăkhănĕngătoăbăphơnălpăhiuăquăviăsălngădăliuăln.
 Tínhănĕngădinăgii:ăBăphơnălpăcungăcpătriăthcăcóăthăhiuăđc.

2.2.2.2 Đánh giá độ chính xác của mô hình phân lớp [22]
călngăđăchínhăxácăcaăbăphơnălpălƠăquanătrngăăchănóăchoăphépădă
đoánăđcăđăchínhăxácăcaăcácăktăquăphơnălpănhngădăliuătngălai.ăĐăchínhă
xácăcònăgiúpăsoăsánhăcácămôăhìnhăphơnălpăkhácănhau.ăHai phngăphápăđánhăgiáă
phăbinălƠăholdoutăvƠăk-fold cross-validation.ăCă2ăkăthutănƠyăđuădaătrênăcácă
phơnăhochănguănhiênătpădăliuăbanăđu.ă
 Trong phngăphápăholdout,ădăliuăđaăraăđcăphơnăchiaănguănhiênăthƠnhă
2ăphn:ătpădăliuăđƠoătoăvƠătpădăliuăkimătra.ăThôngăthng ngiătaă
chn 2/3ădăliuăcpăchoătpădăliuăhunăluyn,ăphnăcònăliăchoătpădăliuă
kimătra. ĐăchínhăxácăđcăxácăđnhălƠăphnătrĕmăcaăcácămuătrongătpă
kimătraăđcăbăphơnălpăxpălpăđúng.
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 14

 Trong phng pháp k-fold cross validation tp d liu ban đu đc chia
nguănhiênăthƠnh kătpăconă(fold)ăcóăkíchăthcăxpăxănhănhau D1,ăD2,ăầ,ă
Dk.ăQuáătrìnhăhcăvƠătestăđcăthcăhinăkăln.ăTiălnălpăthăi,ăDi lƠătpădă
liuăkimătra,ăcácătpăcònăliăhpăthƠnhătpădăliuăđƠoăto.ăCóănghƿaălƠ,ăđu
tiênăvicădyăđcăthcăhinătrênăcácătpăD2, D3ầ,ăDk, sauăđóătestătrênătpă
D1;ătipătcăquáătrìnhădyăđcăthcăhinătrênătpăD1, D3, D4,ầ,ăDk,ăsauăđóă
testătrênătpăD2;ăvƠăcăthătipătc nhăthăchoăđnătpăthăk.ăĐăchínhăxácălƠă
toƠnăbăsăphơnălpăđúngătăkălnălpăchiaăchoătngăsămuăca tpădăliuă
banăđu.
2.2.3 Phngăphápăphơnălp SVM [5] [23-27]
2.2.3.1 SVM là gì?
PhngăphápăSVM hay máy vécătăhătr đcăVapnikăđăxutăvƠoănĕmă1995
[23].ăĐơyălƠămtă phngăpháp phơnălpădăliu daă trênălỦăthuytăhcăthngăkêă
(Statistical Learning Theory)ănênăcóămtănnătngătoánăhcăchtăchăđăboăđmă
rngă ktă quă đtă đcă tiă u. Đơyă cǜngă lƠă mtă phngă phápă hcă cóă giámă sátă
(Supervisedă learning)ă biă cácă tpă dă liuăhună luynă đuă đcă gánă nhƣnă vƠă quáă

trìnhăhunăluynăsătoăraămtăsiêuăphngăphơnătách tiăuăgiúpăcóăthăphơnăloiădă
liuămi.ă
2.2.3.2 Phân lớp tập dữ liệu khả tách tuyến tính
Xétătrngăhpăđnăginănhtă- Phơnăloiăhaiăphơnălpănhăphơn.ăGiăs tpădă
liuă hună luynă gmă nă mu đcă choă diă dngă
 
, , 1, , N
ii
x y i 

. Trong
đó
m
i
xR

là vécătăbaoăgmămăphnătăchaăgiáătrăcaămăthucătínhăhayăđcătrng.ă
Các vécătănƠyăđcăphơnăloiăthƠnhăcácămuădngăvƠămuăơm.ăMuădngăsă
đcăgánănhƣnălƠă
1
i
y 
vƠămuăơmăsălƠ
1
i
y 
.
TpădăliuănƠyăđcăxemălƠăkhătáchătuynătínhănuătaăcóăthăxơyădngăđcă
mtăsiêuăphngăcóăthăphơnăchiaăhoƠnătoƠnătpădăliuăvăhaiăphíaăcaănó.ăNhătrongă
hình 2.3 taăcóăthăthyătoƠnăbăcácămuăđngănmăvăphíaănaătrênăcaăsiêuăphngă

và toàn băsămuăơmăđcănmăvăphíaănaădiăcaăsiêuăphng.
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 15


Hình 2.3: SiêuăphngăphơnătáchătpădăliuăthƠnhăhaiălpăơmăvƠădng
Giăsăphngătrình caăsiêuăphngătrongăkhôngăgian là
w0
T
xb
.ăTrongăđóă
T
wx
là phép nhân vécătăvôăhng,ăw là vécăt trngăsăhayăvécătăphápătuynăcaă
siêuăphng vƠăbălƠăđădch.ăKhiăthayăđiăwăvƠăb,ăhngăcaăvƠăkhongăcáchătăgcă
taăđnăsiêuăphngăsăthayăđi. DóăđóătaăcnăxácăđnhăgiáătrănƠoăcaăwăvƠăbălƠătt
nhtăchoăphngătrìnhăcaăsiêuăphng. Sauăkhiătìmăđcăsiêuăphngăphơnăcách,ămt
băphơnăloiăSVMăđcăđnhănghƿaănhăsau:
 
 
f =sign w
T
x x b
(2.1)
Trongăđó:
 
sign w 1
T
xb  
nuă

 
w0
T
xb

 
sign w 1
T
xb  
nuă
 
w0
T
xb

Taăthyăsăcóărtănhiuăcác siêuăphngăphăthucăvƠoăcácătham săwăvƠăbăvƠănhă
trong hình 2.4 vƠăvnăđăcaăSVMăsătìmăraăsiêuăphngătiăuăcóălălnănht.

Hình 2.4: HăcácăsiêuăphngătngăngăviăcácăthamăsăwăvƠăb
Muădngă
Muăơm
 
w0
T
i
xb

 
w0
T

i
xb
 
w0
T
i
xb

Muăơm
Muădng
w

Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 16

Giai đoạn huấn luyện
GiaiăđonăhunăluynăSVMăthcăchtălƠ quáătrìnhăđiătìmăsiêuăphngătiău nht.
TrongăsăhăcácăsiêuăphngăphăthucăvƠo cácăthamăsăwăvƠăbătaăsătìmăđcăsiêuă
phngăHăviălăccăđiănhătrongăhìnhă2.5.ăLăcc điăchínhălƠăkhongăcáchălnănhtă
giaăhaiălpădăliuăơmăvƠădng.
GiăsătpădăliuăhunăluynălƠăkhătáchătuynătính,ăkhiăđóătaăcóărƠngăbucăsau:

1, y 1
1, 1
T
ii
T
ii
w x b
w x b y


    

    

(2.2)
Ktăhpăhaiăbtăphngătrìnhătrên taăđc:

( ) 1 0
T
ii
y w x b  
(2.3)
Khiăđóăchănhng vécătăthaăphngătrìnhă
1
T
i
w x b  
s nmătrênăsiêuăphng
H1 và thaă phngătrìnhă
1
T
i
w x b
s nmătrênăsiêuăphngăH2. Các vécătănày
đcăgi là các vécătăhătrăvƠăH1, H2 tngăngălƠăhai siêuăphngăhătr. Nhngă
vécătăh tr sălƠănhngăthƠnhăphnăquanătrngănhtăcaătpădăliuăhunăluyn và
chăcóăchúngămiăthamăgiaăvƠoăvicăxácăđnhăsiêuăphngătiău,ăcácămuăkhácăcóăthă
đcăloiăb.


Hình 2.5: KhongăcáchătăsiêuăphngăHăđnăgcătaăđ
H1
H
H2
Lăccăđi
Muădng
Muăơm
Siêuăphngă
tiău
w
b

Vécătăhătr
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 17

Gi:ă d1ălƠăkhongăcáchătăgcăta đăđnăH1,
1
(1 b)
w
d



d2ălƠăkhongăcáchătăgcătaăđăđnăH2,
2
( 1 b)
w
d




d lƠălătcălƠăkhong cáchăt H1ăđn H2,
12
2
w
d d d  

Doăđóăđăcóădălnănhtăthìă
w
phiănhănhtăhayănóiăcáchăkhácăchúngătaăphiăđiă
tìmăccătiuăcaă
2
1
w
2
.ăVicătìmăccătiuăchínhălƠăquáătrìnhătìmăwăvƠăbătăđóătìmăraă
siêuăphngălătiăuăH.ăNhăvyăbƠiătoánăđcăđtăraălƠ:

Đơyă lƠă bƠiă toánă quyă hochă toƠnă phngă bcă haiă (Quadratic programing) và
phngăánătìmăccătiuăđcătrinăkhai nhătrongă[25],ătrongăđóăngiătaăsăchuynă
bài oánăcăsangăbƠiătoánăđiăngu bngăcáchăs dngănhơnătăLagrange nhătrong
[8] [25-26] nhăsau:

KhiăđóătaăvităliăbƠiătoánăđiănguăcaăbƠiătoánă1ănhăsau:

Ccătiuăcaăă
2
1
(x) w

2
f 
theo w và b (Bài toán 1)
ThaărƠngăbuc:
 
( ) 1 0, 1, ,N
T
i i i
g x y w x b i    

Ccăđiăhóaăă
()

viă
0
i


,
M
R



Trongăđó
 
2
1
1
( ) inf w w 1

2
N
T
i i i
i
y x b
  



   




w,
n
R b R



Cho bài toán gốc: Cực tiểu
(x)f

Dựa trên:
(x) 0
i
g 
với
1, ,iN


Bài toán đối ngẫu được phát biểu: Cực đại hóa
 


Thỏa ràng buộc:
0
i


,
M
R



Với
 
1
inf (x) (x)
N
ii
i
fg
  








Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 18

Trongăđó
i

(hăsănhơnăLagrange)ăchínhălƠănghimăcaăbƠiătoánăđiăngu,ătngă
ngăviămi hăs
i

taăsăcóămtămuăhunăluyn
i
x
.ăĐăgiiăbƠiătoánăđiănguă
trcătiênătaăphiătìmăccătiuăca:
 
 
2
1
1
w, w w 1 0
2
N
T
i i i
i
L b y x b




    


theo w và b.

 
1
w,
w0
w
N
i i i
i
Lb
yx



  




1
w
N
i i i
i

yx




(2.4)

 
1
w,
0
N
ii
i
Lb
y
b






(2.5)
LúcăđóăgiáătrăccătiuăcaăLălƠ:

 
 
2
0

1
1 1 1
1
w, w w 1
2
1
2
N
T
i i i
i
N N N
i i j i j i j
i i j
L b y x b
y y x x

  

  

   



 
(2.6)
NhăvyăbƠiătoánăđiănguăcóăthăđcăvităliănhăsau:

GiiăbƠiătoánănƠyătaăsătìmăđcă


,ătăđóăxácăđnhăvécătăwătheoăcôngăthcă2.4.
Đăxácăđnhăđădchăb,ătaăchnămtămu
i
x
vƠăvnădngăđiuăkinăKarush-Kuhn
Tucker (KKT) [25] nhăsau:

( ) 1 0
T
i i i
y w x b


  

(2.7)
+ Trngăhpă
0 ( ) 1 0
T
i i i
y w x b

    
, suy ra
i
x
khôngănmătrênăsiêuăphngăhă
trăH1ăhocăH2ădoăđóănóăsăkhôngăđcăsădngăđătínhăw.
Ccăđiăhóaăă

1 1 1
1
2
N N N
i i j i j i j
i i j
y y x x
  
  

 
(ĐiănguăcaăbƠiătoánă1)
ThaărƠngăbuc:
0, 1, ,
i
iN




1
0
N
ii
i
y






×