Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang v
MCăLC
TRANG
Trangăta
QuytăđnhăgiaoăđătƠi
LỦălchăkhoaăhc
Liăcmăn i
Liăcamăđoană ii
Tómătt iii
Abstract iv
Mcălcă v
Danh sách các hình ix
Danhăsáchăcácăbng xi
Chngă1ăTNGăQUAN 1
1.1ăGiiăthiuăđătƠi 1
1.2 Tình hình nghiên cu 2
1.3ăụănghƿaăkhoaăhcăvƠăthcătin 5
1.3.1ăụănghƿaăkhoaăhc 5
1.3.2ăụănghƿaăthcătin 5
1.4ăNhimăvăvƠăgiiăhnăcaăđătƠi 6
1.4.1ăNhimăvăcaăđătƠi 6
1.4.2ăGiiăhnăcaăđătƠi 6
1.5ăPhngăphápăthcăhin 6
1.5.1ăPhngăphápătƠiăliu 6
1.5.2ăPhngăphápăthcănghim 7
1.6ăBăccăcaălunăvĕn 7
Chngă2ăCăSăLụăTHUYT 8
2.1ăCácăbcătrongămtăhăthngănhnădngăchăvit [19] 8
2.1.1 TinăxălỦ 8
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang vi
2.1.2 PhơnăvùngăkỦăt 9
2.1.3ăTríchăchnăđcătrng 9
2.1.4ăPhơnălp 10
2.1.5 HuăxălỦ 11
2.2 Phơnălpădăliuă[6]ă[22] 11
2.2.1 Khái nim 11
2.2.2 Cácăvnăđăliênăquanăđnăphơnălpădăliu 13
2.2.3 PhngăphápăphơnălpăSVMă[5]ă[23-27] 14
2.2.3.1 SVM là gì? 14
2.2.3.3 Phân lớp tập dữ liệu không khả tách tuyến tính 19
2.2.4ăSVMăchoănhnădngăđaălpă[28] 24
2.2.4.1 Một chống phần còn lại (OVR: One-vs-Rest) 24
2.2.4.2 Một chống một (OVO: One-vs-One) 25
2.3 XălỦănh 26
2.3.1 VaiătròăcaăxălỦănhătrongănhnădng 26
2.3.2 XălỦănhăviăOpenCVă[10] [29-30] 27
2.3.2.1 Giới thiệu về OpenCV 27
2.3.2.2 Các hàm cơ bản 27
2.4 Hăthngănhúng 34
2.4.1ăHăđiuăhƠnhănhúng 34
2.4.1.1 Hệ điều hành Angstrom (Ångström) [31] 34
2.4.1.2 Các lệnh cơ bản trên hệ điều hành Angstrom 35
2.4.2ăHăthngăphnăcng 36
2.4.2.1 Giới thiệu về board nhúng BBxM [32] 36
2.4.2.2 Cấu trúc hệ thống của BBxM [33]. 37
2.4.2.3 Một số ứng dụng của BBxM 38
Chngă3 NHNăDNGăCHăVITăTAY TINGăVIT 39
3.1ăBăkỦătănhnădng [14] [35] 39
3.2 Môăhìnhănhnădngăchăvitătayăriărc 40
3.2.1 Thuănhnănh 41
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang vii
3.2.2 TinăxălỦ 42
3.2.3 TáchăkỦătăvƠădu 44
3.2.3.1 Tách dòng 45
3.2.3.2 Tách chữ 47
3.2.3.3 Tách ký tự và dấu 48
3.2.4 Tríchăđcătrng 49
3.2.4.1 Đặc trưng theo chu tuyến 51
3.2.4.2 Phân bố điểm ảnh 52
3.2.5 HunăluynăvƠănhnădng 53
3.2.5.1 Xây dựng bộ huấn luyện 54
3.2.5.2 Nhận dạng 58
3.2.6 Ghiăktăqu 59
Chngă4 XỂYăDNGăNGăDNGăTRểNăBOARDăNHỎNG 62
4.1ăSăđăhăthng 62
4.2ăXơyădngăhăđiuăhƠnhănhúng 63
4.3ăBiênădchăngădngătrênăboardănhúng 63
4.3.1 Biênădch OpenCV cho ARM 64
4.3.2 ThitălpăQtăchoăBBxM 64
4.3.2.1 Cài đặt trình biên dịch chéo 64
4.3.2.2 Biên dịch Qt Everywhere 64
4.3.2.3 Thiết lập Qt Creator để biên dịch với nền tảng Qt Everywhere 65
4.3.2.4 Biên dịch ứng dụng Qt với thư viện OpenCV cho BBxM 65
4.3.2.5 Thiết lập BBxM 65
4.3.2.6 Biên dịch và thực thi ứng dụng trên BBxM 66
Chngă5 KTăQUăVẨăKTăLUN 67
5.1ăKtăquăđtăđc 67
5.1.1ăHotăđngăcaăchngătrình 68
5.1.2ăMtăsăktăquăđtăđcăcaăchngătrìnhănhnădng 71
5.1.3ăKtăquăthngăkê 74
5.2ăKtălun 77
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang viii
5.2.1ăKtăquănghiênăcu 77
5.2.2ăHnăch 78
5.2.3ăHngănghiênăcuăvƠăphátătrin 78
TẨIăLIUăTHAMăKHO 80
PHăLC 84
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang ix
DANH SÁCH CÁC HÌNH
HÌNH TRANG
Hình 1.1: CácămuăchăsătríchătătpăMNISTădataăbaseă[17]. 2
Hình 2.1: CácăbcăcăbnătrongănhnădngăkỦăt [19] 8
Hình 2.2: Môăhìnhăphơnălpădăliu 12
Hình 2.3: SiêuăphngăphơnătáchătpădăliuăthƠnhăhaiălpăơmăvƠădng 15
Hình 2.4: HăcácăsiêuăphngătngăngăviăcácăthamăsăwăvƠăb 15
Hình 2.5: KhongăcáchătăsiêuăphngăHăđnăgcătaăđ 16
Hình 2.6: Phơnălpăbngălămm 20
Hình 2.7: ỄnhăxămuăvƠoăkhôngăgianăđcătrng 22
Hình 2.8: MinhăhaăchinălcăOVR 24
Hình 2.9: MinhăhaăphngăphápăloiătrăcaăchinălcăOVOă[28] 25
Hình 2.10: nhăthcătăcaăBeagleBoard-xM RevC [32] 37
Hình 2.11: SăđăhăthngăcaăOMAPăDM3730ă[33] 37
H̀nhă3.1: Săđôăkhôiăhê
̣
ăthôngănhơ
̣
năda
̣
ng ch
̃
ăviêtătay 41
Hình 3.2: Quáătrìnhăthuănhnănhăbngăcamera 41
Hình 3.3:ăMinhăhaăktăquălcănh 43
Hình 3.4:ăMinhăhaăsădòngăchătiăđaăchaătrongăkhungănhănhnădng 43
H̀nhă3.5: MinhăhaăktăquănhăcaăquáătrìnhătinăxălỦ 44
H̀nhă3.6: QuáătrìnhătáchăkỦătăvƠădu 45
Hình 3.7: Giiăthutăxácăđnhăcácădòngăch 46
Hình 3.8: Minhăhaăquáătrìnhătáchădòng 47
Hình 3.9: Minhăhaăquáătrìnhătáchăch 47
Hình 3.10: Giiăthutăxácăđnhăcácăch 48
Hình 3.11: MinhăhaăquáătrìnhătáchăkỦătăvƠădu 49
Hình 3.12: Phân nhóm theo vùng liên thông [2] [11] 50
Hình 3.13: Quáătrìnhătríchăđcătrng 50
Hình 3.14: Minhăha tríchăđcătrngătheoăchuătuyn 51
Hình 3.15: Minhăha tríchăđcătrngătheoăphơnăbăđimănh 53
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang x
H̀nhă3.16: Quáătrìnhăxơyădngăbăhunăluyn 54
H̀nhă3.17: Formălyămuăchăvitătayătingăvită(form1) 56
H̀nhă3.18: Mtăsămuăđcătríchătrongătpădăliuă[9] 57
H̀nhă3.19: Săđăhunăluynămu 57
Hình 3.20: Săđănhnădngămu 58
Hình 4.1: Hăthngăphnăcng 62
Hình 4.2: Hăthngăphnămm 62
Hình 5.1: Giaoădinăchínhăcaăchngătrìnhănhnădng 67
Hình 5.2: GiaoădinăcaăchngătrìnhătáchăkỦăt,ăhunăluynăvƠăkimătra 68
Hình 5.3: MôăhìnhăhunăluynămuăSVM 69
Hình 5.4: Ktăquănhnădngăchăcóăkíchăthcăln 71
Hình 5.5: Ktăquănhnădngăchăcóăkíchăthcănh 71
Hình 5.6: Ktăquănhnădngădòngăchăbănghiêng 72
Hình 5.7: Ktăquănhnănhăcóănhiuăsáng 72
Hình 5.8: Ktăquănhnănhăcóănhiuănn 73
Hình 5.9: Ktăquănhnănhăchăvităkhôngălinănét,ăkhôngăriărc 73
Hình 5.10: Phngăphápătáchăhaiăphnăduădínhălinănhau 78
Hình 5.11: MinhăhaăỦătngăghépăniăkỦătăvƠădu 79
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang xi
DANHăSÁCHăCÁCăBNG
BNG TRANG
Bngă1.1: HiuăsutăcaăphngăphápăSVMătrênăcácătpămuă[16] 3
Bngă1.2: SoăsánhăktăquănhnădngăcaăSVMăviămôăhìnhăn-ron [1] 4
Bngă1.3: Ktăquănhnădngătrênădăliuătingăvităvitătayăhnăchă[2] 4
Bngă1.4: KtăquănhnădngătrênătpădăliuăMNISTăviăcácăđcătrngă[3] 5
Bngă3.1: ThngăkêăsăđcătrngăcaăkỦătăvƠăduătheoăcácăphngăpháp 51
Bngă3.2:ăTpăcăsădăliuăchăvitătayătingăvit 54
Bngă3.3:ăMƣăhóaăkỦătătheoănhƣn 60
Bngă5.1:ăSoăsánhăktăquănhnădngătheoăcácăphngăphápătríchăđcătrng 75
Bngă5.2:ăThiăgianăhunăluynăvƠănhnădng 76
Bngă5.3:ăKíchăthcăluătrăbăhunăluyn 76
Bngă5.4:ăSoăsánhăthiăgianănhnădngătrênămáyătínhăvƠăBBxM 77
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 1
Chngă1
TNGăQUAN
1.1 GiiăthiuăđătƠi
NgƠyănƠyăvicăsădngămáyătínhăđăluătrătƠiăliu,ăthôngătinăcáănhơnăkhôngăcònă
lƠăvnăđămiămăvƠăcnăphiăchngăminhătínhăanătoƠn,ăthunătinăcaănó.ăXuăhngă
săhóaăttăcănhngăthôngătinăngiădùngăđangădnătrănênăphăbin.ăĐiăviămtăsă
lƿnhăvcănhăyăt,ătƠiăchínhăngơnăhƠng,ăbuăchínhầăphnălnăcácăthôngătinăkháchă
hƠngăcnăđcăthcăhinăbngăchăvitătayăvƠăchínhăđiuănƠyăsăgơyănhiuăkhóăkhĕnă
trongă vică luătră hă s.ă Cácă phnă mmă nhnă dngă chă vită tayă să giúpă săhóaă
nhngăthôngătinănƠy,ăgiúpădădƠngăluătrăvƠătruyăsutănhanhăkhiăcnăthit.
NhnădngăchăvitătayălƠămtăngădngăcaămôăhìnhăphơnălpădăliu,ănóăđcă
phátătrinădaătrênăkăthut xălỦănhăvƠăcácăphngăphápăsădngămáyăhc. Hai
hngănghiênăcuăchínhăbaoăgm:ănhnădngăchăvităon-lineăvƠănhnădngăoff-line
[14]. Nhnădngăon-line lƠăhìnhăthcăđcăsădngăphăbinătrênăhuăhtăcácăthităbă
cmătayăcóăhătrămƠnăhìnhăcmăng nhăSmartPhone, Table, v.v. Viăphngăphápă
này nhngăthôngătin caăchăvit tay nhăta đ,ăápălcăvƠăhngăvităsăđcămáyă
thuăthpăvƠăxălỦătrongăthiăgianăthc, đăchoăraăktăquăkỦătătngăngăviăngună
dngătext. Nhnădngăoff-lineălƠăquáătrìnhănhnădngăchăvitădaătrênăcácăthông tin
tƿnh. ĐóălƠăquáătrìnhăchuynăđiăthôngătinăchăvitădiădngăhìnhănhăsangădngă
tp, cóăkhănĕngăchnhăsaăvƠăluătrătrênămáyătính,ădoăđóăchtălngăvƠăđăchínhă
xácăcaăhăthngănhnădngăphăthucărtănhiuăvƠo chtălngănhăvĕnăbn.
Nhnă dngă chă vită bngă tayă đcă thcă hină daă trênă haiă giiă thută chính:ă
memoryăbaseă vƠălearningăbase.ăMemoryăbaseăluătrănhăcácăkỦătămuăvƠănhnă
dngămtăkỦătăchaăbităbngăcáchăsoăsánhăviăcácăkỦătămu.ăLearningăbase hay
cònăgiălƠăhcămáy (Machine Learning) lƠăgiiăthutăcăgngăhcăcácă muăkỦătă
chaăbit (dăliuăhunăluyn) vƠăxơyădngăhƠmănhnădng (function) tngăng.ă
HngătipăcnăcaăđătƠiănghiênăcuănƠyălƠănhnădngădaătrênăthôngătinătƿnh và
máyăhc. Quá trình nƠyăgmăhaiăbcăc bn:ăđuătiên là tách ký t và rútătríchăđcă
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 2
trngăcaăkỦăt.ăTipătheoălƠăcnăxơyădngămtămôăhìnhămáyăvécătăhătr SVM đă
giúpăhcăcácăđcăđimăriêngăcaăkỦătăvƠăto raăcăsădăliuătriăthcăchoăquáătrìnhă
nhnădng.
1.2 T̀nhăh̀nhănghiênăcu
NhnădngăchăvitătayăvnăcònălƠătháchăthcălnăđiăviăcácănhƠănghiênăcu.ăĐƣă
cóănhiuăcôngătrìnhănghiênăcuăvănhnădng cácămuăchăvitătayăcaăcácăhăchă
cáiăLatinh,ărp,ăTrungăQuc, v.v. nhngăktăquăvnăcònăkháăhnăchădoăchăvită
tayărtăđaădngăvămuăchăcǜngănhăcácăbinăth.ăCácămuăchăvitătayăphăthucă
nhiuăvƠoăcáchăvit,ătrngătháiătinhăthnăcaăngiăvit.ăCácănghiênăcuătrongăncă
cǜngăchădngăliăăvicănhnădngătngăkỦătăriêngăl,ămcăđănhnădng cơuăhoc
vĕnăbn vn chaăthcăhinăhoƠnăchnhăđc.
Vicănhnădngăchăvitătayăthngăđcăbtăđuănghiênăcuăviănhnădngăcácă
s.ă Bă că să dă liuă chună choă vică nghiênă cuă nƠyă gmă haiă bă dă liuă chính:ă
USPSă(UnitedăStateăPostalăService)ăgmă7291ămuădùngăđătrainingăvƠă2007ămuă
khácăđătesting,ămiămuălƠămtănhăxámăcóăkíchăthcă16x16; MNIST (National
Institute of Standard and Technology of the United States) [15] lƠămtăphiênăbnă
đcăchnhăsaătăbădăliuăNISTăcaătpăđoƠnăAT&T.ăBădăliuănƠyăbaoăgmă
60.000ămuădùngăđătrainingăvƠă10.000ămuădùngăđătesting,ămiămuălƠămtănhă
xámăcóăkíchăthcă28x28.
Hình 1.1: Cácămuăchăs trích t tp MNIST data base [17].
BƠiă toánă nhnă dngă chă vită tayă đcă thcă hină kháă nhiuă trênă tpă chă să
MNIST. Nhiuăphngăpháp phân lp khác nhau đƣăđcăthcăhinătrên trênăhaiătpă
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 3
hună luynă vƠă kimă tra caă bă dă liuă nƠyă vƠă trongă să đóă phiă kă đnă mtă să
phngăpháp thôngădngănh mô hình mngăn-ron, mô hình Markov n,ăthutătoánă
K-láng ging hay phngăphápămáyăvécătăhătr SVM.ăTălănhnădngăcaăcácă
phngăphápănày đcăđăcpătrong [15]. RiêngăđiăviăphngăphápăSVM, mtăsă
ktăquănghiênăcuătrênăcácătpădăliuăkătrênăđc thăhin nhătrongăbngă1.1
Bngă1.1: HiuăsutăcaăphngăphápăSVMătrênăcácătpămu [16]
Author
Database
Tr Size
Test Size
Error
Rate
Krebel et al, 1998
NIST
10000
10000
1.09
Ayat et al, 2002
NIST
18000
10000
1.02
Scholkopf et al, 1996
USPS
7291
2007
3.2
Dong et al, 2002
USPS
7291
2007
2.24
LeCun et al, 1998
MNIST
60000
10000
1.1
Li et al, 2002
MNIST
60000
10000
0.76
DeCoste and Scholkopf, 2003
MNIST
60000
10000
0.56
Liu et al, 2002
MNIST
60000
10000
0.42
Nghiênăcuăca nhóm Liu et al [18]ăđiăviătpădăliuăMNISTăcǜngăchăraărngă
phngăphápăSVMăsădngăhƠmănhơnăGaussianăttăhnăcácăkăthutătruynăthngă
nhămngăn-ron (sădngămôăhìnhămngătruynăthngăMLP và RBF). H cǜngăchă
raăvicăsădngăphngăphápăSVMăsăcnăphiăquanătơmănhiuăđnăkhôngăgianăbă
nhăvƠătcăđătínhătoánăchoăquáătrìnhăphơnălp soăviăcácăphngăphápăkhác.
KtăquănghiênăcuătrongăncăcƠngăcǜngăcăthêm tínhăhiuăquăphơnălpăcaă
SVMăsoăviăphngăphápăsădngămôăhìnhămngăn-ron, căthăkhiăsoăsánhăSVMă
viăphngăphápăsădngămôăhìnhămngăn-ronă4ălpă(144ăn-ronălpăvƠo,ă72+36ă
n-ronăăcácălpăn,ă10ăn-ronălpăra)ătrênăcùngămtăbădăliuăchunăMNIST,ăktă
quănhnădngăchínhăxácăhnăsoăviămôăhìnhămngăn-ronă(bngă1.2).ăVnăđăhn
chăhăchăraălƠăsăbùngănăsăphơnălpăvƠăsălngăvécătăhătr thuăđcăsauăkhiă
hunăluynăsădnăđnăvicăphơnălpăchm.
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 4
Bngă1.2: SoăsánhăktăquănhnădngăcaăSVMăviămôăhìnhăn-ron [1]
Cácăthôngăs
Mngăn-ron
SVM
Sămuăhc
60.000
60.000
Thiăgianăhc
~24ăgi
~2ăgi
Sămuătest
10.000
10.000
Thiăgianătest
~2 phút
~5 phút
Tălăli
4.6
2.8
Trongănghiênăcuăvănhnădngăchăvitătingăvit sădngăphngăphápăSVM,ă
ktă quă đtă đcă caă nhómă nghiên cu Phmă Anhă Phng,ă Ngôă Qucă Toă vƠ
LngăChi Mai [2]ăđcătrìnhăbƠy nh trong bngă1.3. Đơy là môăhìnhănhnădngă
chăVităvitătayăhnăchădaătrênăcăsăSVMăktăhpăviăphng pháp tríchăchnă
đcătrng wavelet Haar đtăđăchínhăxácătngăđiăkhăquan.
Bngă1.3: Ktăquănhnădngătrênădăliuăting vit vitătayăhnăchă[2]
Tpămu
Sămu
Đăchínhăxác
TestData1
7143
82.24%
TestData2
16856
90.69%
TestData3
12219
87.78%
TestData4
36218
88.04%
Bênăcnhămôăhìnhăphơnălp,ăphngăphápătríchăđcătrngăcǜngăcóăỦănghƿaăhtăscă
quanătrng,ănóăcóănhăhng ln đnăchtălngăcǜngănhătcăđăcaămtăhăthngă
nhnădng. TríchăchnăđcătrngănhăthănƠoăđăvnăđmăboăkhôngămtămátăthôngă
tinăvƠăthuăgnăkíchăthcăcaătpădăliuăđuăvƠoălƠăđiuămƠănhiuănhƠănghiênăcuă
vnăđangăquanătơm. Có khá nhiuăphngăphápătríchăđc trngăđcăsădngăchoă
bƠiătoánănhnădngăchăvit.ăKtăquăthcăhinătrênătpădăliuăMNISTătheoăthută
toánăSVMăviăchinălcăOVOă[3]ăđtăđcănh bngă1.4. KtăquănƠyăchoăthyăsă
dngăcácăđcătrngă Zoneă 2x2ăvƠăHaarăWaveletă đtăđăchínhăxác caoă hnăkhiăsă
dngăđcătrngămaătrnănhăphơn.ăVicăsădngăcácăđcătrngăProjectionăvƠăContour
Profileă đtă đă chínhă xácă caoă khôngă bngă nhă phơnă nhngă să dngă să lngă đcă
trngăítăhnănhiu,ăvìăvyătcăđănhnădngăcǜngătĕngălênăđángăk.
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 5
Bngă1.4: KtăquănhnădngătrênătpădăliuăMNISTăviăcácăđcătrngă[3]
Đcătrng
Săđcătrng
Đăchínhăxác
MaăTrnănhăphơn
256
97.20%
Zone 2x2
64
97.90%
Projection
94
97.00%
Coutour Profile
64
95.50%
Haar wavelet
256
97.80%
CácăhăthngănhnădngăchăvitătayănóiăchungăvƠănhnădngăchăVitănóiăriêngă
hinăvnăđangăđiămt viănhiuăvnăđădoăsăđaădngăvăcáchăvit.ăăVităNamăvn
chaăcóămtătpădăliu chunănƠoăđcătoăraăđăphcăvăchoăvicăhunăluyn và
kimătra,ăcácăktăquăcǜngăchădngăliăăvicănhnădngătngăkỦătăriêngăbit.ăSă
lngăcácăphnămmăđcăthngămiăhóa vnăăconăsăkhiêmătnăvƠădng nhăcóă
rtăítăphnămmămƣăngunămăphcăvăchoăvicănghiênăcuăvƠăphátătrin. Doăđóă
trongă tìnhă hìnhă hină ti,ă bƠiă toánă nƠyă vnă đangă đcă nghiênă cuă nhmă đem liă
nhngăngădngăthităthcăchoăđiăsng.
1.3ăụănghƿaăkhoaăhcăvƠăthcătin
1.3.1ăụănghƿaăkhoaăhc
NghiênăcuăcácăkăthutăxălỦănhăvƠămtăsăthutătoánătrongăvic phơnătíchăcuă
trúcăvùngăvĕnăbn, táchăvƠăphnăvùngăkỦăt.
Nghiênăcuăphngăphápăphơnălp sădngămô hình hcămáyăvécătăhătrăSVMă
cho bài toánănhnădngăchăvitătayătingăvit.
Xơyădngămôăhình táchăkỦăt,ăhunăluynăvƠăkimătraămuămtăcáchătăđng.
1.3.2ăụănghƿaăthcătin
GiiăquytăbƠiătoánănhnădngăchăvitătayătingăvit cóădu ămc đănhnădngă
mtăsăcơuăđnăgin.
Tácăgi mongămunănhngăđóngăgópăvămtăniădungăsălƠămtănnătngăđăcácă
nhƠănghiênăcuăkhácătipătcăphátătrin. Môăhìnhănhnădngăchăvitătingăvităcó
phátătrinăsongăsongăviămôăhìnhăxălỦătingănói giúp to ra các ngădngămangătínhă
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 6
thcătăcaoăti VităNamănhăđcăcácăvĕnăbnăvitătrênăgiyăcǜngănhăngădngăvƠoă
khănĕngăđcăvƠăhiuăchăcaărobotăhayăkínhăhătrăthălc,ăv.v.
1.4 NhimăvăvƠăgiiăhnăcaăđătƠi
1.4.1ăNhimăvăcaăđătƠi
TìmăhiuăvƠăphátătrin mô hìnhănhnădngăchăvitătayătingăvit riărcăcóăkhă
nĕngănhnădngăđc nhăvĕnăbnătingăvit cóădu.ăTrênăcăsăđóăsăxơyădngăngă
dngănhnădngăchăvitătrênănnăhăthngănhúng,ăcăthălƠătrênămáyătínhănhúngă
BeagleBoard-xM.
1.4.2ăGiiăhnăcaăđătƠi
BƠiătoánăsăđcăhinăviăchăvitătayătingăvit viămtăsăgiiăhnăvăngônătă
vƠăvĕnăphongănhăsau:
BăkỦăt: nhnădngăttăcă93ăkỦăt đcătoăraăbiă29ăchăcái {A,ăB,ăC,ăD,ăĐ,ă
E,ăG,ăH,ăI,ăK,ăL,ăM,ăN,ăO,ăP,ăQ,ăR,ăS,ăT,ăU,ăV,ăX,ăY,ă,ă,ăZ,ăW,ăF,ăJ}ăvà 6
thanhăđiuătrongătingăvit {duăngang,ăduăsc, đuăhuyn,duănng, duăhi,
duăngƣ}.
Vĕnăphong:ăChăinăhoa,ăriărc, nét ch liênătc, phnăduăvƠăkỦătăkhôngăbă
dínhălinăhocăchngălpălênănhau.ăChăđcăvităthngăhàng, khongă cáchă
giaăcácăchăvƠăgiaăcácădòngăphiăđcăđmăbo.
1.5 Phngăphápăthcăhin
Đăcóăđcănhngăktăquămangătínhăkhoaăhcăcǜngănhăthcătin,ăđătƠiăcnă
đcăxơyădngădaătrênămtălătrìnhăđúngăđn.ăNóăphiăcóăsăgnăktătăkhơuălaă
chnăđătƠi,ălpăkăhochăthcăhin,ăđtăvnăđ,ăthuăthpădăliuăchoăđnăkhơuăvită
báoăcáoăvƠăkimănghim.ăTrênăcăsăđƣăcóăđcăđătƠiăvƠăcácămcătiêuăđcăđtăthìă
vicăcònăliăchínhălƠătìmăkimăcácăphngăphápăhiu quăđăđtăđcăcácămcătiêuă
nhămongămun.
1.5.1ăPhngăphápătƠiăliu
TìmăhiuăcácăkăthutăxălỦănhăs;ătìmăhiuăcácăkăthutănhnădngăđiătng,ă
nhnădngămu;ătìmăhiuăcácăphngăphápătríchăđcătrngăhiuăquăchoăchăvitătay.
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 7
TìmăhiuăcôngăcălpătrìnhăQtăCreator,ăthăvinăxălỦ nhăOpenCVăvƠămtăsăthă
vinăliên quan phcăvăchoăvicăhunăluynăvƠănhnădng.
1.5.2 Phngăphápăthcănghim
Xơyădngăc sădăliuăkỦătăhunăluynăbngăcáchăthuăthpămuăvitătayăca
nhiuănhómăđiătngăkhácănhauăvƠăđngăthiăsădngăliămtăsătpămuăđƣăđcă
thcăhinătrênăcácăđătƠiătngătătrcăđó.
XơyădngăngădngătrênămáyătínhăvƠăđánh giá t lănhnădngătheoăcácăphngă
phápătríchăchnăđcătrng.
TiăuăhóaăchngătrìnhăvƠăthcăthi ngădngătrênătrênăBeagleBoard-xM.
1.6ăBăccăcaălunăvĕn
NiădungăcaălunăvĕnăđcăchiaălƠmă5ăchng:
Chng 1: GiiăthiuătngăquanăvăđătƠi,ătìnhăhìnhănghiênăcu,ămcătiêuăvƠ
giiăhnăcaăđătƠi.ă
Chngă2: PhnăcăsălỦăthuyt.ăTrìnhăbƠyăcácăbcăcăbnăcaămtăhăthng
nhnădngămuătrongăxălyănh;ăkhái nimăvăphơnălpădăliuăvƠăchiătităvă
phngă pháp phơnă lpă SVM.ă Niă dungă caă chngă cǜngă trìnhă bƠy mtă să
nguyênălỦăcăbnăcaămtăsăhƠmătrongăOpenCV.ăPhnăcuiăcaăchngă s
giiăthiuăsăquaăv hăđiuăhƠnhăAngstromăvƠăboard nhúng BeagleBoard-xM.
Chngă3: Mô hình nhnădngăchăvitătay tingăvit. TrcăhtătrìnhăbƠy vă
băkỦătătingăvit, cách phân chia thành các nhóm kỦătădaătrên thƠnhăphnă
liên thông. Phn quanătrngăđcăđăcp chínhălƠăvic đi sơuăgiiăthiu vƠăgiiă
thíchăchiătit vămtăsăsăđăthutătoánătrongăquáătrìnhăphơnătáchăkỦăt.
Chngă4: XơyădngăngădngătrênăBoardănhúngăBeagleBoard-xM.ăNiădungă
chngă nƠyă să môă tă cácă bcă xơyă dngă ngă dngă trênă boardă nhúng,ă cácă
phngăphápăcǜngănhăcácăcôngăcăđcăsădngăchoăvicăbiênădchăngădngă
đăcóăthăthcăthiătrênămtăhăđiuăhƠnhănhúng.
Chngă5: Ktăqu vƠăktălun. TrìnhăbƠyăvƠăđánh giá các ktăquăđtăđcă
caăđătƠi,ăđaăraăđnhăhngănghiênăcuăvƠăphátătrinăcaăđătƠi.
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 8
Chngă2
CăSăLụăTHUYT
2.1 Cácăbcătrongămtăhăthngănhnădngăchăvit [19]
NhnădngăkỦătălƠămtănhánh caăkăthutăxălỦănhăs,ămt hăthngănhnădngă
kỦătăcnăcóămtăsăbcăcăbnănhăsau:
Hình 2.1: CácăbcăcăbnătrongănhnădngăkỦăt [19]
2.1.1 Tinăxălý
nhăbanăđuăcóăthăđcăthuănhnăthông qua nhiuăthităbăkhácănhauănhămáyă
chpănh,ămáyăquayăhocămáyăscan. ChtălngănhăđcăxălỦăthôngăquaăcácăthită
bănƠyăcóăchtălngărtăthpăvà bănhăhngăbi nhiu.
MtăsăkhơuătrongătinăxălỦăs giúpătaăloi băbtăcácăthƠnhăphnănhiu,ăgópă
phnălƠmătĕngăđăchínhăxácăcho mtăhăthngănhnădng.ănhăs đc lƠmătrn,
TinăxălỦ
Phân vùng
kỦăt
Tríchăđcătrng
Phơnălp
HuăxălỦ
KỦătăđcă
nhnădng
nhăkỦăt
Băhunăluyn
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 9
tĕngă gimă đă sáng,ă táchă ngng,ă bină điă cpă xámă hayă thcă hină cơnă bngă
histogram, v.v. Điăviămôăhìnhănhnădngăchăvit,ăchúngătaăcnăthêmămtăsăkhơuă
nhăđiuăchnhăđănghiêngăhayălƠmămƣnhăch.ăTùyătheoămcăđíchătaăsăuătiênăđă
loiăbămtăsăkhơuănhm tĕngătcăđănhnădng.ăKtăquăcaăbcătinăxălỦăsă
choămtănhănhăphơnăviăhaiăphn riêngăbit:ăphnănn đen vƠăphnăch trngăhay
ngcăli.ăViăktăquănƠy săgiúpătaădădƠngăthcăhinăcácăphépătoánătrênăđimănhă
vƠăkhiăđóătáchăriătngăkỦătăđăđaăvƠoălyămuăvƠăphơnălp.
2.1.2 Phơnăvùngăkýăt
LƠăquáătrìnhă phơnătíchăcuătrúcăvtălỦăcaă trangăvĕnăbnănhmăxácă đnhăvătríă
tngăđiăcaăcácăvùngăthôngătin, thôngătinătaăquanătơmăăđơyăchínhălƠăkỦăt.ăĐây có
thăcoiălƠăbcăquanătrngănht trongăbtăkǶămtăhăthngănhnădngănƠoăbiănuă
khôngătáchăđcăkỦătăs đngănghƿaăviăvicăkỦătăđóăsăkhôngăđcănhnădng.
Haiăhngătipăcnăphăbinătrongăphơn tích trangăvĕnăbnălƠ:
Hngătipăcnătătrênăxung:ătoƠnăbăvĕnăbnăsăđcăcoiălƠămtăkhi,ă
bngăcáchăsădngăphngăphápăchiuăbiuăđătnăsutătheoăcăchiuăngangăvƠăchiuă
dc.ăNuăchiuătheoăchiuăngangătaăsătáchăđcăcácădòngăvĕnăbnăvƠăsauăđóălƠăcácă
thƠnhăphnăcăbnăcaămtădòngănh:ăbaseline, ascenders, descenders. Nuăchiuă
theoăchiuădcătaăsătáchăđcătngăchăsauăđóălƠătngăkỦăt.
Hngă tipă cnă tă diă lên: quáă trìnhă phơnă đonă btă đuă bngă vică xácă
đnhănhngăthƠnhăphnăliênăthôngănhănht,ăsauăđóăgpăchúngăliăthƠnhănhngăthƠnhă
phnălnăhn,ăchoăđnăkhiăthuăđcăttăcăcácăkhiătrongăvĕnăbn.
2.1.3 Tríchăchnăđặcătrng
Nhăchúngătaăđƣăbit,ătríchăchnăđcătrngăđóngăvaiătròăhtăscăquanătrngăbiănóă
cungăcpătriăthcăhunăluyn vƠănhnădng choăcămtăhăthngănhnădng.ăNhngă
thôngătinăhuăích tănhăđuăvƠoăsăđcăthăhinănhămtătpăhpăcácăvécătăđcă
trng.ăTpăcácăđcătrngănƠyăcóăthăđcăsădngătrongănhiuămôăhìnhămáyăhcă
khácănhau.ăDoăđóăvicăđánhăgiáăvƠălaăchnăphngăphápăthíchăhpăchoăquáătrìnhă
nƠyălƠăđiuăhtăscăcnăthit.ăMtăphngăphápătríchăđcătrngăhiuăquăphiăđmă
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 10
boă nhngă tiêuă chíă nhă khôngă nhyă cmă viă nhiu,ă kiuă ch,ă kíchă thc,ă đă
nghiêng,ăđădchăchuynăvƠănhiuăsăthayăđiăkhácăcaăchăvit.ă
Chúngătaăcóăthăktăhpănhiuăphngăphápătríchăđcătrngăkhácănhauătrongămtă
bƠiătoánănhnădngămu.ăMtătpăcácăvécătăđcătrngălnăsăgópăphnănơngăcaoăđă
chínhă xácă choă hă thngă nhngă nóă liă lƠă mtă vnă đă tháchă thcă choă btă kǶă mtă
phngăphápăphơnăloiănƠo,ănhtăđiăviăphngăphápăsădngămáyăhc,ăbiănóăsă
lƠmătĕngăđángăkăthiăgian hunăluynăcǜngănh nhnădng.ăDoăđóăcnăphiăđánhă
giáăvƠălaăchnănhngăđcătrngăquanătrng,ăcóăthăbiuădinăttăđcăđimăcaămtă
kỦătăhayăconăsăsălƠmăchoăhăthngăhotăđngănhanhăhn.
TngăquanăvăcácăphngăphápătríchăchnăđcătrngăchoănhnădngăkỦătăđcă
đăcpătrongă[3] [20] [21],ăvăcăbnăcóăthăchiaăthƠnhă3ăhngătipăcnăchính:
Tríchăchnăđặcătrngăthngăkê:ă Mtăsăphngăphápăphăbinănhăchiaă
liă(Zoning), phngăphápăchiuă(Projection histograms),ăphngăphápăgiaoăđimă
(Crossing)ă vƠă khongă cáchă (Distance).ă Cácă phngă phápă nƠyăđcă đánhă giáă kháă
cao,ăchoăphépăgiiăquytăcácăvnăđăvănhiu,ăkíchăcăvƠămtăsăthayăđiănhătrênă
nhănhngăliăkháănhyăcmăviăđădchăchuynăvƠăđănghiêng.
Tríchăchnăđặcătrngăcấuătrúc:ăTríchăchn đcătrngăvămtăcuătrúcăphnă
lnădaătrênătínhăchtăhìnhăhcăcaăchăvitănhăcácăđimăung,ăđimănút,ăđimăccă
tr,ă v.v. Hngă tipă cnă nƠyă să khcă phcă đcă vnă đă vă đă nghiêng,ă đă dchă
chuynănhngăkhóăxơyădngăđcătpămuăhunăluyn.ă
TríchăchnăđặcădaăvƠoăphépăbinăđiătoƠnăcc:ă Cácăphngăphápăbină
điă toƠnă ccă thngăđcă să dngă nhă bină điă Cosineă riă rcă(DCT),ă bină điă
Fourier,ăbinăđiăWaveletăHaarăvƠăcácăphngăphápămoment.ăĐcăđimăcaăphngă
phápănƠyălƠăkhănĕngăbtăbinăviănhăbăxoay hayădchăchuynănhngăliăkhôngăgiiă
quytăttăcácăvnăđăvănhiu.ăDoăđóăcác phngăphápănƠyăyêuăcuăgiiăquytăttă
khơuătinăxălỦăđăgiaătĕngăchtălngănhăđuăvƠo.
2.1.4 Phơnălp
ĐơyălƠăgiaiăđonăquanătrngănht,ăgiaiăđonănƠyăquytăđnhăđăchínhăxácăcaăhă
thngănhnădng.ăTrongăgiaiăđonănƠy,ănhngăđcătrngămiăđcărútătríchătăcácă
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 11
nhăcaăcácăkỦătăcnăđcănhnădngăsăđcăđaăvào bănhnădngăđƣăđcăxơyă
dngătăcácămuăhunăluyn.ăKtăquătaăsăcóăđcăcácăquytăđnhăđúngăđnăvăloiă
(nhãn) caăcácămuămi.
Cóănhiuăkăthutăphơnălpătiênătin đƣăvƠ đangăđcăápădngăchoăbƠiătoánănhnă
dngăchăvitătayănhăHMM,ămngăn-ron, K-lángăgingăgnănht,ălutăquytăđnhă
Bayes, máyăvécătăhătr SVM, v.v. TrongăsăcácăkăthutănƠyăthìăSVMăđcăđánhă
giáălƠăphngăphápăcóăđăchínhăxácăphơnălpăcaoăvƠăphngăphápălunăcaănóăđcă
xơyădngădaătrênămtănnătngătoánăhcărtăchtăch. Mtăsăkháiănimăvăphngă
phápăSVMăsăđcătrìnhăbƠyătrongăphnăkătip.
2.1.5 Huăxălý
Mtăbănhnădngăhimăkhiăchăđădùngăđnăl.ăThayăvƠoăđóănóăthngădùngăđă
đaăraăthaoătácătngăng,ămiăthaoătácămtămtăchiăphíătngăng.ăHuăxălỦăsă
dùngăđuăraăcaăbăphơnălpăđăquytăđnhăthaoătácătngăng.ăTheoăquanănim,ă
cáchăđnăginănhtăđăđánhăgiáăhotăđngăcaămtăbănhn dngălƠăxemătălănhnă
dngăsaiăviăcácămuămi.ăDoăđóăchúngătaăcnăphiănhnădngăviătălăliăthpă
nht.ăTuyănhiênăchúngătaăcnăcácăthaoătácătngăngăphiălƠmăchoătngăchiăphíălƠă
thpănht.ăCóăthăphiăktăhpăcácătriăthcăđƣăbităvăchiăphí,ăvƠănóăs cóănhăhngă
đnăvicăraăcácăquytăđnhăhƠnh đng.ăChúngătaăcǜngăcnăcălngătrcăchiăphíă
đăxemăcóăthaămƣnăhayăkhông.ă
2.2 Phơnălpădăliu [6] [22]
2.2.1 Khái nim
Phơnălp dăliu (Classify data) đcăxemălƠămtăbƠiătoánăquanătrng trongănhnă
dngămu,ăđơy lƠăquáătrìnhăgánănhƣnăhocătênălpăchoămtădăliuămiăvƠoămtăhocă
nhiuălpăchoătrcădaătrênămtăquyălutănƠoăđó.
Có nhiuăbƠiătoánăphơnălpădăliu nhăphơnălpănhăphơn,ăphơnălpăđaălp,ăphơn
lpăđaătr,ăv.v. PhơnălpănhăphơnălƠăquáătrìnhătinăhƠnhăvicăphơnălpădăliuăvƠoă
mtătrongăhaiălpăkhácănhauădaăvƠoăvicădăliuăđóăcóăhayăkhôngămtăsăđcătính
theoăquyăđnhăcaăbăphơnălp.ăPhơnălpăđaălpălƠăquáătrìnhăphơnălpăviăsălng
lpălnăhnăhai.ăNhăvy,ătpăhpădăliuătrongăminăxemăxétăđcăphơnăchiaăthƠnhă
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 12
nhiuălpăchăkhôngăđnăthunăchălƠăhaiălpănhătrongăbƠiătoánăphơnălpănhăphơn.ă
Văbnăcht,ăbƠiătoánăphơnălpănhăphơnălƠătrngăhpăriêngăcaăbƠiătoánăphơnălpă
đaălp.ă
Hình 2.2: Môăhìnhăphơnălpăd liu
Quá trình phơnălpădăliuăgmăhaiăbc căbn:
Hunăluyn/hc (learning step): ĐơyălƠăbcătoăraăbăhunăluynădaăvƠoă
cácăthutătoánăphơnălp. Dăliuăhunăluynă(Trainingăset) lƠănhngădăliuă
cóăthucătínhănhƣn,ăcácănhƣnănƠyăđcăxácăđnhăbiăngi thcăhinăcôngă
vicăhunăluyn. Quá trìnhăgánănhƣnăchoăcácătpădăliuăhcăđcăgiălƠăquáă
trìnhăhcăcóăgiámăsát.
Phơnălp (classiẻcationăstep):ăTrongăbcănƠy,ămôăhìnhăhunăluyn đcăxây
dngăăbcătrênăsăđcădngăđădăđoánănhƣnăcaătp kimătraă(testing set)
và thông qua tăl nhnădngăđ călngăđăchínhăxácăcaăbăphơnălp.
NuăđăchínhăxácălƠăchpănhnăđcăthìăcóăthăsădngăbăphơnălpăđcătoă
taătrongăquáătrìnhăhcăđăphơnălpădăliuămi.
ĐiăviăbƠiătoánăphơnălp,ăthutătoánăphơnălpăgiăvaiătròăquytăđnhătiăsăthƠnhă
côngăcaămôăhìnhăphơnălp.ăDoăvyăvnăđătìmăraăđcămtăthutătoánăphơnălpă
nhanh,ăhiuăqu,ăcóăđăchínhăxácăcaoă vƠă cóă khă nĕngă mărngăđc lƠă rtăquană
trng. Vă că bnă chúngă taă cóă hcă máyă (Machineă Learning)ă lƠă mtă trongă nhngă
phngăpháp đcăsădngăchoămcăđíchăphơnălp. Cóăthălităkêămtăs kăthută
phơnălp sădngăphngăphápăhcămáyăđƣăđcăsădng phăbinăhinănay [19]:
MôăhìnhăphơnălpăK-lángăging gnănhtă(k-Nearest Neighbor - k-NN)
Mngăn- ron (Neural Networks - NN)
Thutătoánă
phơnălp
Dăliuă
đuăvƠo
Lpă1
Lpă2
Lpăn
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 13
Môăhìnhămngănă(Hidden Markov Model - HMM)
Máyăvécătăhătr (Support Vector Machine - SVM)
Phơnălpăcơyăquytăđnhă(Decisionătreeăclassification)
ThutătoánăBayes
2.2.2 Cácăvấnăđăliênăquanăđnăphơnălpădăliu
2.2.2.1 So sánh các mô hình phân lớp
KhôngăcóămtăphngăphápăphơnălpănƠoăđcăcoiălƠăttănhtăđăđcăsădngă
doăđóătùyăvƠoăcácăngădngăkhácănhauătaăsăápădngăphngăphápăphơnălpăchoăphùă
hp. Đăsoăsánhătínhăhiuăquăcaăcácăphngăphápătaăcóăthădaătrênămtăsătiêuă
chí sau:
Đăchínhăxácăcaădăđoán:ăĐơyăchínhălƠăkhănĕngăbăphơnălpădăđoánăđúngă
dăliuăchaăbitănhƣn.ă
Tcăđ:ăTcăđălƠănhngăchiăphíătínhătoánăliênăquanăđnăquáătrìnhătoăraăvƠă
sădngămôăhình.
Tínhăbnăvng:ăLƠăkhănĕngăcaăbăphơnălpăthcăhinădăđoánăđúngăvi dă
liuănhiuăhayăthiuăgiáătr.
Tínhăkíchăc:ăLƠăkhănĕngătoăbăphơnălpăhiuăquăviăsălngădăliuăln.
Tínhănĕngădinăgii:ăBăphơnălpăcungăcpătriăthcăcóăthăhiuăđc.
2.2.2.2 Đánh giá độ chính xác của mô hình phân lớp [22]
călngăđăchínhăxácăcaăbăphơnălpălƠăquanătrngăăchănóăchoăphépădă
đoánăđcăđăchínhăxácăcaăcácăktăquăphơnălpănhngădăliuătngălai.ăĐăchínhă
xácăcònăgiúpăsoăsánhăcácămôăhìnhăphơnălpăkhácănhau.ăHai phngăphápăđánhăgiáă
phăbinălƠăholdoutăvƠăk-fold cross-validation.ăCă2ăkăthutănƠyăđuădaătrênăcácă
phơnăhochănguănhiênătpădăliuăbanăđu.ă
Trong phngăphápăholdout,ădăliuăđaăraăđcăphơnăchiaănguănhiênăthƠnhă
2ăphn:ătpădăliuăđƠoătoăvƠătpădăliuăkimătra.ăThôngăthng ngiătaă
chn 2/3ădăliuăcpăchoătpădăliuăhunăluyn,ăphnăcònăliăchoătpădăliuă
kimătra. ĐăchínhăxácăđcăxácăđnhălƠăphnătrĕmăcaăcácămuătrongătpă
kimătraăđcăbăphơnălpăxpălpăđúng.
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 14
Trong phng pháp k-fold cross validation tp d liu ban đu đc chia
nguănhiênăthƠnh kătpăconă(fold)ăcóăkíchăthcăxpăxănhănhau D1,ăD2,ăầ,ă
Dk.ăQuáătrìnhăhcăvƠătestăđcăthcăhinăkăln.ăTiălnălpăthăi,ăDi lƠătpădă
liuăkimătra,ăcácătpăcònăliăhpăthƠnhătpădăliuăđƠoăto.ăCóănghƿaălƠ,ăđu
tiênăvicădyăđcăthcăhinătrênăcácătpăD2, D3ầ,ăDk, sauăđóătestătrênătpă
D1;ătipătcăquáătrìnhădyăđcăthcăhinătrênătpăD1, D3, D4,ầ,ăDk,ăsauăđóă
testătrênătpăD2;ăvƠăcăthătipătc nhăthăchoăđnătpăthăk.ăĐăchínhăxácălƠă
toƠnăbăsăphơnălpăđúngătăkălnălpăchiaăchoătngăsămuăca tpădăliuă
banăđu.
2.2.3 Phngăphápăphơnălp SVM [5] [23-27]
2.2.3.1 SVM là gì?
PhngăphápăSVM hay máy vécătăhătr đcăVapnikăđăxutăvƠoănĕmă1995
[23].ăĐơyălƠămtă phngăpháp phơnălpădăliu daă trênălỦăthuytăhcăthngăkêă
(Statistical Learning Theory)ănênăcóămtănnătngătoánăhcăchtăchăđăboăđmă
rngă ktă quă đtă đcă tiă u. Đơyă cǜngă lƠă mtă phngă phápă hcă cóă giámă sátă
(Supervisedă learning)ă biă cácă tpă dă liuăhună luynă đuă đcă gánă nhƣnă vƠă quáă
trìnhăhunăluynăsătoăraămtăsiêuăphngăphơnătách tiăuăgiúpăcóăthăphơnăloiădă
liuămi.ă
2.2.3.2 Phân lớp tập dữ liệu khả tách tuyến tính
Xétătrngăhpăđnăginănhtă- Phơnăloiăhaiăphơnălpănhăphơn.ăGiăs tpădă
liuă hună luynă gmă nă mu đcă choă diă dngă
, , 1, , N
ii
x y i
. Trong
đó
m
i
xR
là vécătăbaoăgmămăphnătăchaăgiáătrăcaămăthucătínhăhayăđcătrng.ă
Các vécătănƠyăđcăphơnăloiăthƠnhăcácămuădngăvƠămuăơm.ăMuădngăsă
đcăgánănhƣnălƠă
1
i
y
vƠămuăơmăsălƠ
1
i
y
.
TpădăliuănƠyăđcăxemălƠăkhătáchătuynătínhănuătaăcóăthăxơyădngăđcă
mtăsiêuăphngăcóăthăphơnăchiaăhoƠnătoƠnătpădăliuăvăhaiăphíaăcaănó.ăNhătrongă
hình 2.3 taăcóăthăthyătoƠnăbăcácămuăđngănmăvăphíaănaătrênăcaăsiêuăphngă
và toàn băsămuăơmăđcănmăvăphíaănaădiăcaăsiêuăphng.
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 15
Hình 2.3: SiêuăphngăphơnătáchătpădăliuăthƠnhăhaiălpăơmăvƠădng
Giăsăphngătrình caăsiêuăphngătrongăkhôngăgian là
w0
T
xb
.ăTrongăđóă
T
wx
là phép nhân vécătăvôăhng,ăw là vécăt trngăsăhayăvécătăphápătuynăcaă
siêuăphng vƠăbălƠăđădch.ăKhiăthayăđiăwăvƠăb,ăhngăcaăvƠăkhongăcáchătăgcă
taăđnăsiêuăphngăsăthayăđi. DóăđóătaăcnăxácăđnhăgiáătrănƠoăcaăwăvƠăbălƠătt
nhtăchoăphngătrìnhăcaăsiêuăphng. Sauăkhiătìmăđcăsiêuăphngăphơnăcách,ămt
băphơnăloiăSVMăđcăđnhănghƿaănhăsau:
f =sign w
T
x x b
(2.1)
Trongăđó:
sign w 1
T
xb
nuă
w0
T
xb
sign w 1
T
xb
nuă
w0
T
xb
Taăthyăsăcóărtănhiuăcác siêuăphngăphăthucăvƠoăcácătham săwăvƠăbăvƠănhă
trong hình 2.4 vƠăvnăđăcaăSVMăsătìmăraăsiêuăphngătiăuăcóălălnănht.
Hình 2.4: HăcácăsiêuăphngătngăngăviăcácăthamăsăwăvƠăb
Muădngă
Muăơm
w0
T
i
xb
w0
T
i
xb
w0
T
i
xb
Muăơm
Muădng
w
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 16
Giai đoạn huấn luyện
GiaiăđonăhunăluynăSVMăthcăchtălƠ quáătrìnhăđiătìmăsiêuăphngătiău nht.
TrongăsăhăcácăsiêuăphngăphăthucăvƠo cácăthamăsăwăvƠăbătaăsătìmăđcăsiêuă
phngăHăviălăccăđiănhătrongăhìnhă2.5.ăLăcc điăchínhălƠăkhongăcáchălnănhtă
giaăhaiălpădăliuăơmăvƠădng.
GiăsătpădăliuăhunăluynălƠăkhătáchătuynătính,ăkhiăđóătaăcóărƠngăbucăsau:
1, y 1
1, 1
T
ii
T
ii
w x b
w x b y
(2.2)
Ktăhpăhaiăbtăphngătrìnhătrên taăđc:
( ) 1 0
T
ii
y w x b
(2.3)
Khiăđóăchănhng vécătăthaăphngătrìnhă
1
T
i
w x b
s nmătrênăsiêuăphng
H1 và thaă phngătrìnhă
1
T
i
w x b
s nmătrênăsiêuăphngăH2. Các vécătănày
đcăgi là các vécătăhătrăvƠăH1, H2 tngăngălƠăhai siêuăphngăhătr. Nhngă
vécătăh tr sălƠănhngăthƠnhăphnăquanătrngănhtăcaătpădăliuăhunăluyn và
chăcóăchúngămiăthamăgiaăvƠoăvicăxácăđnhăsiêuăphngătiău,ăcácămuăkhácăcóăthă
đcăloiăb.
Hình 2.5: KhongăcáchătăsiêuăphngăHăđnăgcătaăđ
H1
H
H2
Lăccăđi
Muădng
Muăơm
Siêuăphngă
tiău
w
b
Vécătăhătr
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 17
Gi:ă d1ălƠăkhongăcáchătăgcăta đăđnăH1,
1
(1 b)
w
d
d2ălƠăkhongăcáchătăgcătaăđăđnăH2,
2
( 1 b)
w
d
d lƠălătcălƠăkhong cáchăt H1ăđn H2,
12
2
w
d d d
Doăđóăđăcóădălnănhtăthìă
w
phiănhănhtăhayănóiăcáchăkhácăchúngătaăphiăđiă
tìmăccătiuăcaă
2
1
w
2
.ăVicătìmăccătiuăchínhălƠăquáătrìnhătìmăwăvƠăbătăđóătìmăraă
siêuăphngălătiăuăH.ăNhăvyăbƠiătoánăđcăđtăraălƠ:
Đơyă lƠă bƠiă toánă quyă hochă toƠnă phngă bcă haiă (Quadratic programing) và
phngăánătìmăccătiuăđcătrinăkhai nhătrongă[25],ătrongăđóăngiătaăsăchuynă
bài oánăcăsangăbƠiătoánăđiăngu bngăcáchăs dngănhơnătăLagrange nhătrong
[8] [25-26] nhăsau:
KhiăđóătaăvităliăbƠiătoánăđiănguăcaăbƠiătoánă1ănhăsau:
Ccătiuăcaăă
2
1
(x) w
2
f
theo w và b (Bài toán 1)
ThaărƠngăbuc:
( ) 1 0, 1, ,N
T
i i i
g x y w x b i
Ccăđiăhóaăă
()
viă
0
i
,
M
R
Trongăđó
2
1
1
( ) inf w w 1
2
N
T
i i i
i
y x b
w,
n
R b R
Cho bài toán gốc: Cực tiểu
(x)f
Dựa trên:
(x) 0
i
g
với
1, ,iN
Bài toán đối ngẫu được phát biểu: Cực đại hóa
Thỏa ràng buộc:
0
i
,
M
R
Với
1
inf (x) (x)
N
ii
i
fg
Hệ Thống Nhúng Nhận Dạng Chữ Viết Tay Tiếng Việt CBHD: TS. Hoàng Trang
HVTH: Lê Hồng Phúc Trang 18
Trongăđó
i
(hăsănhơnăLagrange)ăchínhălƠănghimăcaăbƠiătoánăđiăngu,ătngă
ngăviămi hăs
i
taăsăcóămtămuăhunăluyn
i
x
.ăĐăgiiăbƠiătoánăđiănguă
trcătiênătaăphiătìmăccătiuăca:
2
1
1
w, w w 1 0
2
N
T
i i i
i
L b y x b
theo w và b.
1
w,
w0
w
N
i i i
i
Lb
yx
1
w
N
i i i
i
yx
(2.4)
1
w,
0
N
ii
i
Lb
y
b
(2.5)
LúcăđóăgiáătrăccătiuăcaăLălƠ:
2
0
1
1 1 1
1
w, w w 1
2
1
2
N
T
i i i
i
N N N
i i j i j i j
i i j
L b y x b
y y x x
(2.6)
NhăvyăbƠiătoánăđiănguăcóăthăđcăvităliănhăsau:
GiiăbƠiătoánănƠyătaăsătìmăđcă
,ătăđóăxácăđnhăvécătăwătheoăcôngăthcă2.4.
Đăxácăđnhăđădchăb,ătaăchnămtămu
i
x
vƠăvnădngăđiuăkinăKarush-Kuhn
Tucker (KKT) [25] nhăsau:
( ) 1 0
T
i i i
y w x b
(2.7)
+ Trngăhpă
0 ( ) 1 0
T
i i i
y w x b
, suy ra
i
x
khôngănmătrênăsiêuăphngăhă
trăH1ăhocăH2ădoăđóănóăsăkhôngăđcăsădngăđătínhăw.
Ccăđiăhóaăă
1 1 1
1
2
N N N
i i j i j i j
i i j
y y x x
(ĐiănguăcaăbƠiătoánă1)
ThaărƠngăbuc:
0, 1, ,
i
iN
1
0
N
ii
i
y