B GIÁO DC VÀ ÀO TO
TRNG I HC LC HNG
***
NGUYN C NNG
NGHIÊN CU VÀ XÂY DNG B LC NH THÔNG
QUA PHÂN LOI NH KT HP VI GOM CM
LUN VN THC S CÔNG NGH THÔNG TIN
ng Nai, 2013
B GIÁO DC VÀ ÀO TO
TRNG I HC LC HNG
***
NGUYN C NNG
NGHIÊN CU VÀ XÂY DNG B LC NH THÔNG
QUA PHÂN LOI NH KT HP VI GOM CM
Chuyên ngành: CÔNG NGH THÔNG TIN
Mã s: 60.48.02.01
LUN VN THC S CÔNG NGH THÔNG TIN
NGI HNG DN KHOA HC
TS PHM TRN V
ng Nai, 2013
I
LI CAM OAN
Tôi xin cam đoan đây là công trình nghiên cu ca bn thân. Các s liu,
kt qu trình bày trong lun vn này là trung thc. Nhng t liu đc s dng
trong lun vn có ngun gc và trích dn rõ ràng, đy đ.
Hc viên
Nguyn c Nng
II
LI CM N
Tôi xin bày t lòng bit n sâu sc đn TS Phm Trn V đã hng dn
nhit tình, tn tâm trong sut quá trình tôi thc hin lun vn này.
Tôi xin chân thành cm n Quý thy cô trong Khoa Công ngh thông tin
trng i hc Lc Hng đã to điu kin thun li cho tôi trong sut thi gian
hc tp và nghiên cu ti trng.
Tôi cng xin chân thành cm n Quý thy cô ngoài trng đã tn tâm dy
bo tôi trong sut quá trình hc tp và giúp đ tôi trong quá trình nghiên cu.
Xin chân thành cm n nhng ngi thân trong gia đình, cùng các anh ch
em, bn bè, đng nghip đã giúp đ, đng viên tôi trong quá trình thc hin và
hoàn thành lun vn này.
ng Nai, ngày 12 tháng 12 nm 2012
Hc viên
Nguyn c Nng
III
MC LC
LI CAM OAN I
LI CM N II
MC LC III
DANH MC HÌNH VI
DANH MC BNG VIII
DANH MC CÁC T VIT TT IX
M U 1
CHNG 1: TNG QUAN V PHÂN LOI HÌNH NH. 4
1.1. Tng quan v phân loi hình nh. 4
1.1.1. Gii thiu v bài toán phân loi. 4
1.1.2. Tng quan. 4
1.2. Quy trình phân loi nh. 9
CHNG 2: CÁC PHNG PHÁP TRÍCH CHN C TRNG VÀ
O TNG NG GIA CÁC NH. 10
2.1. Harris. 10
2.2. SIFT (Scale Invarian Feature Transform) 12
2.2.1. Phát hin cc tr. 12
2.2.2. nh v chính xác đim khóa 15
2.2.3. Gán hng cho các đim khóa 18
2.2.4. Xây dng b mô t cc b 19
2.3. Harris-Laplace 21
2.3.1. Không gian t l 21
2.3.2. Hàm Harris thích nghi t l 24
2.3.3. S la chn t l t đng 25
2.3.4. Thut toán phát hin đim bt đng 26
2.4. Harris-Affine 28
2.4.1. Mc tiêu 29
2.4.2. Ma trn Moment cp hai Affine 29
2.4.3. K thut phát hin đim bt đng 33
IV
2.5. Phng pháp SURF (Speed Up Robust Feature) 39
2.5.1. nh tích hp (integral image) 40
2.5.2. Phát hin Fast-Hessian: 40
2.5.3. S biu din không gian t l: 42
2.5.4. nh v đim quan tâm 43
2.5.5. B mô t đim quan tâm và so khp 44
2.6. So sánh - Kt lun 49
2.7. La chn đc trng. 51
CHNG 3: CÁC PHNG PHÁP PHÂN LOI NH. 55
3.1. Tng quan. 55
3.2. Các phng pháp phân loi nh. 57
3.2.1. Phng pháp phân loi K-Means. (tham kho web) 57
3.2.2. Phng pháp pháp Naïve Bayes (NB). 62
3.2.3. Phng pháp Support Vector Machine (SVM) 64
3.2.4. Phng pháp K-Nearest Neighbor (KNN) 65
3.2.5. Phng pháp Linear Least Square Fit (LLSF) 66
3.2.6. Phng pháp Centroid – based vector 67
3.2.7. Kt lun 68
CHNG 4: NG DNG C TRNG BT BIN KT HP K-MEAN
TRONG PHÂN LOI NH. 69
4.1. Bài toán phân loi nh 69
4.1.1. Mô hình bài toán phân loi nh 70
4.1.2. Thut toán s dng: 70
4.2. Hin thc bài toán 73
4.2.1. Môi trng 73
4.1.2. Công c s dng 73
4.1.3. D liu 74
4.1.4. Chng trình 74
4.1.5. ánh giá. 77
KT LUN VÀ KIN NGH. 80
V
VI
DANH MC HÌNH
Hinh 1.1: Quy trình hun luyn nh. 9
Hình 1.2: Quy trình kim th nh. 9
Hình 2.1. Mô phng vic tính toán các DoG nh t các nh k m 13
Hình 2.2: Mi đim nh đc so sánh vi 26 láng ging ca nó 14
Hình 2.3. Các giai đon la chn các đim khóa. 16
Hình 2.4. B mô t đim khóa 19
Hình 2.5. Mt th hin đa t l ca mt tín hiu 22
Hình 2.6. Các mc khác nhau trong mt th hin không gian t l 23
Hình 2.7. Ví d v các t l đc trng 26
Hình 2.8. Phát hin đim quan tâm bt bin t l 28
Hình 2.9. im quan tâm bt bin t l trong các nh b bin đi affine . 30
Hình 2.10. Biu đ gii thích phép chun hóa affine 32
Hình 2.11. Phát hin lp li ca mt đim quan tâm bt bin affine 37
Hình 2.12. Phát hin đim quan tâm bt bin affine 39
Hình 2.13: T trái sang phi: đo hàm riêng bc hai ca hàm Gaussian 41
Hình 2.14: Thay vì lp li vic gim kích c nh (bên trái), vic s dng
nh tích hp cho phép tng t l lc vi giá tr không đi (bên phi).
42
Hình 2.15: Biu đ t l phát hin. S lng đim quan tâm đc phát
hin trên mi octave phân rã nhanh chóng 43
Hình 2.16: Nhng đim quan tâm đc phát hin trên mt cánh đng hoa
hng dng. 44
Hình 2.17: Phép lc Haar wavelet đ tính toán đc trng x (bên trái) và
y hng (bên phi). Vùng đen có trng s -1 và vùng trng có trng s +1 45
Hình 2.18: Gán hng: mt ca s dch hng ca kích thc 3 phát
hin hng tri ca các đc trng Haar wavelet có trng s Gaussian mi
đim mu trong vòng tròn láng ging quanh đim quan tâm. 46
Hình 2.19: Chi tit ca nh Graffiti th hin kích thc ca ca s b mô
t hng các t l khác nhau. 46
Hình 2.20: xây dng b mô t, mt khung li hng bc hai vi 4x4
vùng con hình vuông đc đt trên các đim quan tâm (bên trái). mi hình
vuông đc trng wavelet đc tính toán. S chia nh 2x2 ca mi hình vuông
tng ng vi các trng thc ca b mô t. Nhng cái này là tng ca dx, dy,
|dx| và |dy|, tính toán tng đi hng ca li (bên phi). 47
Hình 2.21. Các mc mô t ca min con đi din cho tính cht ca mu
cng đ c bn. Hình trái: trong trng hp ca mt min con đng nht, tt
c các giá tr là tng đi thp. Hình gia: s có mt ca tn s trong x hng,
VII
giá tr ca là cao, nhng tt c các trng hp khác vn thp. Nu cng đ
tng dn theo x hng, c và đu cao. 48
Hình 2.22: Nu đ tng phn gia hai đim quan tâm khác nhau (ti trên
nn sáng vi sáng trên nn ti), ng viên s không đc xem là so khp có giá
tr. 49
Hình 2.24: So sánh v góc nhìn (Bên trái). nh so sánh (bên phi) 50
Hình 2.25: So sánh v cng đ sáng (Bên trái). nh so sánh (bên phi) 50
Hình 2.26: So sánh v t l (Bên trái). nh so sánh (bên phi) 51
Hình 3.1: Mô hình SVM 64
Hình 4.1. Ví d v bài toán phân loi nh 69
Hình 4.2. S đ chc nng nhn dng đi tng 70
Hình 4.3: Phng pháp SURF 71
Hình 4.4: Phng pháp Hessian-Laplace 71
Hình 4.4: Phng pháp SIFT 72
Hình 4.5: giao din chng trình. 74
Hình 4.6: Công đon rút trích đc trng. 75
Hình 4.7: mt phn góc nhìn ca tp đc trng. 75
Hình 4.8: Công đon phân cm các đc trng. 76
Hình 4.9: Sau khi phân thành 2 cm. 76
Hình 4.10: c trng nhóm 1 (class1.lhu). 77
Hình 4.11: Kt qu kim th. 77
VIII
DANH MC BNG
Bng 2.1: Mt s phng pháp la chn đc trng. 52
Bng 4.1: Bng so sánh kt qu các phng pháp 72
Bng 4.2: Môi trng thc nghim 73
Bng 4.3: Công c mã ngun m s dng 73
Bng 4.4: 4 nhóm nh và s lng mu dùng trong thc nghim. 78
Bng 4.5: Kt qu kim chng sau khi chy chng trình. 79
Bng 4.6: Xác sut ca chng trình. 79
IX
DANH MC CÁC T VIT TT
T vit tt Ý nghĩa
KNN
K-Nearest Neighbor
LDA
Latent Drichlet Allocation
LLSF
Linear Least Square Fit
MM
Maximum Matching
NB
Naïve Bayes
SVM
Support Vector Machine
TF
Term Frequency
ROI
Regions Of Interest
SIFT Scale-invariant feature transform
SURF Speeded-up Robust Features
BAN Bayesian Networks Augmented Naive Bayes
NBC Naive Bayes Classifiers
PCA Principal Components Analysis
JSD Jensen-Shannon divergence
DoG difference-of-Gaussian
BDA biased Discriminant analysis
MDA Mutiple Discriminant analysis
DA Discriminant analysis
SMMS
symmetric maximized minimal distance in
subspace
CBIR Content-based image retrieval
BOF Bags of Features
X
BOW Bags of Words
CLDA Constrained linear discriminant analysis
VQ Vector-Quantization
1
M U
Trong nhng nm gn đây, s phát trin vt bc ca Công ngh thông tin đã
làm tng s lng giao dch thông tin trên mng Internet mt cách đáng k đc bit là
th vin đin t, tin tc đin t, hình nh, … Do đó mà s lng vn bn cng nh
hình nh xut hin trên mng Internet cng tng vi mt tc đ chóng mt, và tc đ
thay đi thông tin là cc k nhanh chóng. Vi s lng thông tin đ s nh vy, mt
yêu cu ln đt ra là làm sao t chc và tìm kim thông tin, d liu có hiu qu nht.
Bài toán phân lp là mt trong nhng gii pháp hp lý cho yêu cu trên. Nhng mt
thc t là khi lng thông tin quá ln, vic phân lp d liu th công là điu không
th. Hng gii quyt là mt chng trình máy tính t đng phân lp các thông tin
d liu trên.
Trong các loi d liu thì hình nh là loi d liu ph bin mà con ngi
thng gp phi. Chính vì l đó mà hãng Google đã đa thêm chc nng tìm kim
hình nh vào th vin chc nng ca mình, các công c tìm kim hình nh ngày
càng tng lên. Nhm tng s lng truy cp, h đã không ngng phát trin module
tìm kim hình nh cng nh các module khác ca mình. Vy h đã làm ra sao vi
khi lng hình nh đ s đn nh vy ?. Mô hình biu din hình nh ph bin
hin nay là mô hình không gian vector, trong đó mi hình nh đc biu din bng
mt vector ca các đim đc trng (keypoint). Tuy nhiên bài toán khai phá d liu
hình nh thng gp phi mt s khó khn nh tính nhiu chiu ca nh, đ nhiu
ca nh, đ bin dng … ng thi, khi x lý các bài toán phân lp t đng thì
cng gp phi mt s khó khn là đ xây dng đc b phân lp có đ tin cy cao
đòi hi phi có mt lng các mu d liu hun luyn tc là các hình nh đã đc
gán nhãn ch đ lp tng ng. Các d liu hun luyn này thng rt him và đt
vì đi hi thi gian và công sc ca con ngi. Do vy, cn phi có h thng x lý
hình nh hiu qu và mt phng pháp hc không cn nhiu d liu đc phân loi
và có kh nng tn dng đc các ngun d liu cha phân loi rt phong phú nh
hin nay. Nhn thy đây là lnh vc mang tính khoa hc cao, ng dng rt nhiu
trong các bài toán thc t ví d nh: ng dng lc ni dung nh, bài toán phân lp
2
sau tìm kim, … Tác gi quyt đnh chn đ tài “Nghiên cu và xây dng b lc
nh thông qua phân loi nh kt hp vi gom cm.” là mt vic làm không ch
có ý ngha khoa hc, mà còn mang tính thc tin.
Trong lun vn s trình bày mt s thut toán phân lp tiêu biu và đa ra
hng thc nghim cho h thng phân lp.
Lun vn áp dng phân tích thành phn đc trng bt bin ca tm nh c th
là thut toán Scale-invariant feature transform (SIFT) phc v cho vic tin hành
rút ly nhng đc trng bt bin ca nh sau đó dùng gii thut clustering đ tin
hành phân lp. Thc nghim cho thy đ chính xác tng đi, phù hp đ áp dng
vào h thng phân lp t đng.
Mc tiêu ca lun vn:
- Nghiên cu các k thut x lý hình nh đ ly ra đc các vector đc trng.
- Nghiên cu các phng pháp gom cm d liu đin hình là K-Means nhm
mc đích phân nhóm các đc trng thành các nhóm riêng l.
- Xây dng ng dng hin thc cho vic phân loi nh vào các nhóm nh theo
ni dung.
- ánh giá và đa ra kin ngh cho đ tài.
i tng nghiên cu: Các tp tin hình nh.
Phm vi nghiên cu: Phân loi hình nh vào các th loi tng ng vi ni
dung tm nh. Trong khuôn kh lun vn các th loi đc nghiên cu x lý còn ít
cha đc phong phú.
Nhng vn đ cn gii quyt trong phm vi lun vn:
- Tìm hiu tng quan v vn đ cn nghiên cu.
- Tìm hiu cách thc tng tác vi tp tin nh đ rút ra đc trng.
- Tìm hiu các gii thut clustering.
- Xây dng b d liu
dùng đ hun luyn máy.
- Xây dng quy trình phân loi nh.
- Hin thc quy trình phân loi nh.
B cc trình bày ca lun vn:
Chng 1: Gii thiu tng quan v bài toán phân loi nh và đa ra quy trình
phân loi.
3
Chng 2: Trình bày các phng pháp trích chn đc trng và đ đo tng
đng gia các nh
đ phc v cho bài toán.
Chng 3: Trình bày
các phng pháp phân loi nh.
Chng 4:
Thc nghim và đánh giá chng trình.
Kt lun nhng đim chính, ch ra nhng đim cn khc phc đng thi đt
ra hng phát trin.
4
CHNG 1: TNG QUAN V PHÂN LOI HÌNH NH.
1.1. Tng quan v phân loi hình nh.
1.1.1. Gii thiu v bài toán phân loi.
Phân loi hình nh là mt trong nhiu lnh vc đc chú ý nht và đã đc
nghiên cu trong nhng nm gn đây.
Phân loi hình nh (hay Image Classification hoc Image Categorization)
là quá trình gán các nh vào mt hay nhiu lp nh đã đc xác đnh t trc.
Ngi ta có th phân loi nh bng cách th công, tc là nhìn vào ni dung tm
nh sau đó gán chúng vào mt hay nhiu lp c th nào đó. H thng qun lý tp
tin nh gm nhiu nh cho nên vic làm này s tn rt nhiu thi gian, công sc
và do đó là không kh thi. Do vy mà phi có các phng pháp phân loi t
đng. phân loi t đng, ngi ta s dng các phng pháp máy hc trong trí
tu nhân to nh cây quyt đnh, Naïve Bayes, K láng ging gn nht, gii thut
clustering, …
Mt trong nhng ng dng quan trng nht ca phân loi nh t đng là
ng dng trong các h thng tìm kim nh. T mt tp con các nh đã phân lp
sn, tt c các nh trong min tìm kim s đc x lý rút ra nhng vector đc
trng sau đó đc đa qua clustering đ hình thành các nhóm đc trng và đc
gán nhãn lp tng ng.
Mt ng dng khác ca phân loi nh là trong lnh vc hiu nh. Phân loi
nh có th đc s dng đ nhóm các nh vào các nhóm mà ni dung tm nh đ
cp. Bt lun tm nh có b xoay, co giãn, hay nói cách khác là hình nh có b
nhiu.
Trong phân loi nh, s tng ng gia mt nh vi mt lp hoc thông
qua vic gán giá tr đúng sai (True – nh thuc lp, hay False – nh không thuc
lp) hoc thông qua mt đ ph thuc (đo đ ph thuc ca nh vào lp). Trong
trng hp có nhiu lp thì phân loi đúng sai s là vic xem mt nh có thuc
vào mt lp duy nht nào đó hay không.
1.1.2. Tng quan.
X lý nh, phân loi nh trong nhng nm gn đây là lnh vc đang đc
gii khoa hc quan tâm không nhng trong nc mà còn ngoài nc. Các công
trình liên quan đn vn đ x lý nh đc bit là phân loi nh đã đc công b
nh sau:
5
Ngoài nc:
• tài “ Beyond Bags of Features: Spatial Pyramid Matching for
Recognizing Natural Scene Categories” ca đng tác gi Svetlana
Lazebnik, Cordelia Schmid, Jean Ponce. [2]
Trong đ tài này tác gi đa ra phng pháp xác đnh loi quang
cnh da vào đ xp x hình hc toàn cc. Trong nhng nm gn thì các
công trình nghiên cu đã đa ra các khái nim v đc trng cc b và đc
trng toàn cc nhng vic tính toán trên các đc trng này còn gp rt
nhiu hn ch vì lý do có rt nhiu đc trng trong mt bc nh khin cho
vic tính toán tr nên phc tp và hao tn nhiu tài nguyên h thng.
Chính vì l đó mà các tác gi trong đ tài [2] đã nghiên cu và đa ra khái
nim Bags of Features hay Bags of Words (BOF hay BOW) nhm mc
đích gim thiu thi gian tính toán cho h thng.
• Bài báo “Boosting Image Classification with LDA-based Feature
Combination for Digital Photograph Management” ca đng tác gi
Xuezheng Liu, Lei Zhang, Mingjing Li, Hongjiang Zhang, Dingxing
Wang. [3]
ã có s dng thut toán LDA đ gán tên lp cho nhng thuc tính
mà đã rút ra đc. LDA – SVM thng đc thy trong các đ tài tính
toán hoc làm vic trên vn bn. LDA dùng đ gán nhãn vào các đc trng
sau đó các đc trng s đc tính toán và phân vào các nhóm theo mt
tiêu chí nào đó nh vào SVM. Trong đ tài [3] các tác gi đã dùng LDA
cho vic gán nhãn các đc trng hình nh nhm mc đích tránh s dng
thut toán phân cm, mt trong nhng nguyên nhân gây hao tn tài
nguyên h thng khi phi làm vic trên mt s lng ln các đc trng.
• Bài báo “Unsupervised real-time constrained linear discriminant analysis
to hyperspectral image classification”, Qian Du, Department of Electrical
and Computer Engineering, Missisippi State University, MS 39762, USA.
Accepted 14 August 2006. [17]
Khi s lng các đc trng tr lên nhiu thì vic tính toán s gp
nhiu khó khn tác gi Qian Du [17] đã ci thin đc thut toán CLDA
theo cách không giám sát nhm mc đích các đc trng đc phân vào các
nhóm trong khi các khái nim nhóm đó là cha có. Vn d CLDA là mt
phng pháp có giám sát tc là các đc trng cn đc gán cho mt trng
s, mt nhãn nào đó mà đã có khái nim trc đó. Trong thc t thì vic
làm này gp khó khn vì phi phân đnh rõ ràng trng s hay tên nhóm
trc.
6
• Bài báo “SVM-KNN: Discriminative Nearest Neighbor Classification for
Visual Category Recognition” ca đng tác gi Hao Zhang, Alexander C.
Berg, Michael Maire, Jitendra Malik thuc khoa khoa hc máy tính trng
đi hc Berkeley, California. [15]
Vi mi nh cn phân loi s rút ra nhng đc trng sau đó ly ra
vùng lân cn ca các đim đc trng này và tính toán khong cách cho các
đc trng, dùng thut toán KNN-SVM đ tính trng s cho các đim đc
trng đó. Vi mi nh cn phân loi s tìm ra trong c s d liu k láng
ging gn nht gn nht, nu mi nh này thuc vào mt nhóm thì s kt
thúc tin trình phân loi, ngc li dùng SVM cho k đim đc trng đó.
ó là ý tng ca bài báo [15] nhng khi thc hin li gp phi khó khn
là vic tính đc k láng ging gn nht li tr lên lâu và hao tn nhiu tài
nguyên máy tính.
• Bài báo “Image Classification using Super-Vector Coding of Local Image
Descriptors” ca tác gi XiZhou, Kai Yu, Tong Zhang, Thomas S.
Huang.[9]
Trong bài báo tác gi đã đ xut mt phng thc mi trong vic
phân loi nh đó là s dng vector đ miêu t nh cc b. Công vic đc
thc hin bng cách tìm ra các nhóm đc trng đi din cho mt bc nh.
Phng pháp phân loi nh tri qua 3 bc: Mô t mã hóa, tính toán
không gian tng hp, và phân loi nh. Trong vic mô t mã hóa ca mt
tm nh đc ánh x phi tuyn tính đ to ra mt vector vi s chiu ti
thiu, trong bài báo có đ xut mt phng pháp tam gi là Super-vector
mã hóa, thut toán là mt m rng ca Vector-Quantization (VQ). bc
tính toán không gian tng hp, đi vi mi khu vc đa phng, các mã
hóa ca tt c các mô t trong đó đc tng hp li đ to thành mt
vector duy nht sau đó các vector này đc tng hp li to thành c s
dùng đ tính toán đ tng đng gia các miêu t cc b. SVMs tuyn
tính là cách thc đc chn trong bài báo này dùng đ phân loi nh.
• tài “Object Recognitionusing Local Descriptors” ca tác gi Javier
Ruiz và Patricio Loncomila thuc trung tâm nghiên cu khoa hc
Chile.[10]
Trong đ tài tác gi đã s dng đc trng cc b bt bin đ xác
thc đi tng trong nh, mc đích chính là dùng đ tìm nh và cng đã
đa ra cách xây dng c s d liu đ ci tin tc đ tìm kim đó là s
dng Kd-trees.
7
• Bài báo “Object Recognition from Local Scale-Invariant Features” ca tác
gi David G. Lowe, thuc khoa khoa hc máy tính, trng đi hc British
Columbia. [9]
David G. Lowe cng chính là tác gi đa ra khái nim v đc trng
cc b bt bin Local Scale-Invariant Features (SIFT), đc ng dng
nhiu trong các bài toán truy tìm nh, phân loi nh và xác thc.
Các đc trng hình nh bao gm nhiu loi: màu sc, kt cu, hình
dng, … tuy nhiên các đc trng này ít nhiu li ph thuc vào không gian
nh, bin đi nh.
Trong công vic xác đnh đi tng trong nh, tác gi đã lu tr các
đc trng và đánh ch mc cho chúng khi các nh tham gia truy vn s
đc rút ra các đc trng SIFT và đem ra so sánh vi các đc trng đã có
trong c s d liu. Vic làm này s làm hao tn rt nhiu thi gian tính
toán ca h thng.
• Bài báo “Texture classification of aerial image based on bayesian network
augmanted naïve bayes”, YU Xin, ZHENG Zhaobao, ZHANG Haitao, YE
Zhiwei. [16]
Bài báo đã có s so sánh hai phng thc Bayesian Networks
Augmented Naive Bayes (BAN) và Naive Bayes Classifiers (NBC) and
PCA-NBC trong phân loi nh và nhn thy BAN chy tt hn NBC và
PCA-NBC.
• Bài báo “Speeded-up Robust Features (SURF), Herbert Bay, Andreas Ess,
Tinne Tuytelaars, Luc Van Gool, 12/2007. [14]
Bài báo vi mong mun thay th đc trng SIFT bng SURF và s
dng ma trn Hessian đ đo b phát hin đc trng, nhm ng dng trong
các h thng camera.
• Bài báo “Recognizing Indoor Scenes”, Ariadna Quattoni, Antonio
Torralba.[12]
Trong khi các công c xác đnh quang cnh ch tp trung không
gian ngoài tri thì bài báo đã chn không gian trong nhà đ xác đnh, vì
nhng nhc đim ca các công c xác đnh loi quang cnh ngoài tri s
kém linh hot trong không gian trong nhà, tác gi bài báo đã đa ra mt
phng thc hin đi đó là Regions Of Interest (ROI), tm gi vùng đc
trng bng cách di chuyn khung đi chiu đc lp vi nhau.
• Bài báo “Combining Local and Global Image Feature for Object Class
Recognition” ca tác gi Dimitri A. Lisin, Marwan A. Mattar, Matthew B.
Blaschko, Mark C. Benfield, Erik G. Learned-Miller. [4]
8
Bài báo đã nêu ra rng các đc trng toàn cc hay cc b đu có th
dùng đ xác đnh đi tng trong tm nh.
Các đ tài trên mi mt đ tài mnh v mt đim nhng cha thc
s đa ra đc cách ti u trên mt tp nh ln. Vi các đnh dng nh
*.PNG, *.PGM thì đc trng SIFT đc rút ra nhanh, nhng vi đnh dng
*.JPG thì còn là tr ngi. ng thi trong vic đi sánh hai nh vi nhau
SIFT còn hn ch v mt thi gian thc hin do s lng tp key point còn
quá ln.
Trong nc:
Trong nc tuy còn ít đ tài nghiên cu v lnh vc phân loi nh, mà ch
tp chung ch yu vào nghiên cu các công c đi sánh nh, tìm nh nhng có
s dng các đc trng bt bin cùng các k thut phân cm và cây quyt đnh.
in hình cho vn đ này có các bài báo sau:
• tài “Gii thiu ng dng phng pháp phân loi da trên đi tng
(Object-based classification) trong thành lp bn đ rng t nh v tinh”,
Ts. V Anh Tuân. [18]
ây là đ tài đã phân loi nh da vào phng pháp phân loi có
kim đnh và phân loi da vào decision tree.
• tài “ phng pháp trích chn đc trng nh trong thut toán hc máy
tìm kim nh áp dng vào bài toán tìm kim sn phm”, Nguyn Th
Hoàn. [20]
tài có gii thiu và ng dng đc trng SIFT cho bài toán ca
mình.
• tài “Xác đnh cm xúc mt ngi”, Trn Ngc Phm. [21]
tài đã s dng PCA trên tp hun luyn nh đ rút trích đc
trng. Phng pháp AdaBoost và đc trng Haar-like đc áp dng đ
hun luyn các b phân loi.
• tài “Nghiên cu phng pháp kt hp các đc trng màu sc hình dng
và v trí đ truy vn nh” lun vn thc s ca tác gi Trn Sn Hi, nm
2007 [19].
Lun vn này đã đ xut mt phng pháp kt hp các đc trng
màu sc, hình dng và v trí bng h thng liên mng meta-Nron. H
thng liên mng meta-Nron không nhng áp dng vào các đc trng màu
sc, hình dng và v trí ca nh mà còn có th áp dng cho các đc trng
lng t khác. Các đc trng lng t bt k rút trích t nh s qua các
9
mng Nron con cho ra các output cc b. Các output ca các mng con
s là ngõ vào ca mng meta-Nron đ cho ra các kt qu output cui
cùng ca toàn h thng liên mng.
1.2. Quy trình phân loi nh.
Hinh 1.1: Quy trình hun luyn nh.
Hình 1.2: Quy trình kim th nh.
i vi tp hun luyn thì s lng nh cn nhiu vì th tin trình hun
luyn s rt lâu. im quan trng nm ch rút đc trng, phi xác đnh đc
trng thích hp cho bài toán vì nh hng đn đ chính xác ca chng trình.
10
CHNG 2: CÁC PHNG PHÁP TRÍCH CHN C
TRNG VÀ O TNG NG GIA CÁC NH.
Chng này trình bày mt s k thut đc s dng hiu qu trong cách
tip cn đ xác đnh các đim bt bin trong nh nhm trích chn các đc trng
bt bin ca đi tng và s dng các đc trng này trong vic so khp, nhn
dng đi tng. Ngoài ra các đim này tác gi cng s dng nhm mc đích
phân loi nh theo nh mc tiêu ca cun báo cáo.
Trong nhng nm gn đây vic s dng các đc trng cc b đã tr thành
mt trong nhng hng tip cn có nh hng ln trong vic nhn dng đi
tng da vào ni dung nh. Vic phát hin các đim đc bit là bc đu tiên
trong quá trình so khp và nhn dng. Vì vy, mt thut toán đáng tin cy cho
vic trích chn các đim bt bin là rt cn thit cho nhiu ng dng. Chng
này trình bày mt s k thut mi cho vic trích chn các đim bt đng trong
nh. Các hng tip cn này bt bin đi vi các phép bin đi hình hc và phép
bin đi trc quang. đây cng nhn mnh vn đ bt bin đi vi phép bin đi
affine.
2.1. Harris.
Phát hin góc (corner detection) hoc mt thut ng tng quát hn là phát
hin đim quan tâm (interest point detection) là mt hng tip cn đc s
dng trong các h thng th giác máy tính đ trích chn các loi đc trng và suy
lun ra các ni dung ca mt nh. Vic phát hin góc đc dùng thng xuyên
trong phát hin, theo dõi chuyn đng, mô hình 3D và nhn dng đi tng.
Mt góc đc xác đnh bi ni giao nhau ca hai cnh. Mt góc cng có
th đc xác đnh nh mt đim có hai hng khác nhau trong mt vùng cc b
ca đim đó. Mt đim quan tâm là mt đim trong mt nh mà đim này có v
trí đc xác đnh tt và có th đc phát hin nhanh chóng. iu này có ngha là
mt đim quan tâm có th là mt góc nhng cng có th là mt đim đn có giá
tr cng đ cc đi hoc cc tiu cc b, các đim kt thúc ca đng thng
hoc mt đim trên mt đng cong mà đó đ cong là ti đa cc b. Trên thc
t, hu ht các phng pháp phát hin góc phát hin các đim hn là các góc nói
riêng.
Phng pháp phát hin góc Harris là mt phng pháp phát hin đim
quan tâm ph bin vì nó bt bin đi vi phép quay, thay đi đ sáng và tp
nhiu nh. Phng pháp này da trên hàm tng quan t đng cc b ca mt
11
tín hiu; đó hàm tng quan t đng cc b đo các thay đi cc b ca tín hiu
vi các mnh nh đc dch chuyn mt lng nh theo các hng khác nhau.
Cho trc s dch chuyn (x, y) và mt đim (x,y), hàm tng quan t
đng đc đnh ngha nh sau:
(
,
)
=
[
(
,
)
(
+ x,
+ y
)
]
(2.1)
Trong đó I(·,·) biu th hàm nh và (x
i
,y
i
) là các đim trong ca s W đt
v trí (x,y). nh đc dch chuyn đc xp x bi phép khai trin Taylor đc
lt bt thành các hng thc bc nht
(
+ x,
+ y
)
I
(
,
)
+ [
(
,
)
(
,
)
]
x
y
(2.2)
đây I
x
(·,·) và I
y
(·,·) biu th các đo hàm tng phn tng ng theo x và
y.
Th công thc (2.2) vào (2.1), ta đc:
(
,
)
=
[
(
,
)
(
+
x,
+ y)]
=
(
,
)
(
,
)
[
(
,
)
(
,
)
]
x
y
=
[
(
,
)
(
,
)
]
x
y
=
[
(
,
)
(
,
)
]
x
y
=
[
x y
]
(
,
)
(
,
)
(
,
)
(
,
)
(
,
)
(
,
)
x
y
=
[
x y
]
(
,
)
x
y
đây ma trn C(x,y) bt gi cu trúc cng đ ca mt vùng lân cn cc
b quanh đim (x,y). Ly
1
,
2
là các giá tr riêng ca ma trn C(x,y). Các giá
tr riêng này to nên mt s mô t bt bin đi vi phép quay. Có 3 trng hp
cn đc xét:
1. Nu c 1, 2 đu nh, đ hàm tng quan t đng cc b không thay
đi (tc là ít thay đi ti c(x,y) theo bt k hng nào) thì vùng nh nm trong
12
ca s gn nh không thay đi v cng đ. Tc là trong trng hp này, không
có đim quan tâm nào đc tìm thy ti đim nh (x,y).
2. Nu mt giá tr riêng là ln và mt giá tr riêng là nh, thì ch có các
dch chuyn cc b theo mt hng (dc theo đnh đó) gây nên s thay đi nh
c(x,y) và thay đi đáng k hng trc giao, điu này biu th cho mt cnh.
3. Nu c hai giá tr riêng đu ln, thì các s dch chuyn theo bt k
hng nào cng s đa đn kt qu là làm tng đáng k; điu này biu th cho
mt góc.
Thut toán này đn gin d hiu, phát hin đc nhanh chóng các đim
quan tâm trong nh tuy nhiên phng pháp này không bt bin đi vi vic thay
đi t l và các phép bin đi affine.
2.2. SIFT (Scale Invarian Feature Transform)
ây là mt trong nhng phng pháp hiu qu đ trích chn các đim bt
bin t các nh đc dùng đ thc hin so khp tin cy gia các tm nhìn khác
nhau ca cùng mt đi tng hoc quang cnh. Phng pháp này đc gi là
“Phép bin đi đc trong bt bin t l” (Scale Invariant Feature Transform –
SIFT) vì nó bin đi d liu nh thành các ta đ bt bin t l có liên quan ti
các đc trng cc b. Thut toán này gm 4 giai đon chính: phát hin các cc tr
trong không gian t l, đnh v chính xác đim khóa, gán hng cho các đim
khóa, xây dng đc trng.
2.2.1. Phát hin cc tr.
Giai đon đu tiên ca phát hin đim khóa là tìm ra các v trí và các t l
có th đc gán lp đi lp li di các tm nhìn khác nhau ca cùng mt đi
tng. Vic phát hin các v trí bt bin khi có s thay đi t l ca nh có th
đc thc hin bng vic tìm kim các đc trng n đnh qua tt c các t l có
th, s dng mt hàm liên tc t l đc hiu nh không gian t l.
Dùng hàm Gaussian làm hàm nhân ca không gian t l. Vì vy, không
gian t l ca mt nh đc xác đnh bi hàm L(x,y, ), hàm này đc to ra t
phép cun Gaussian bin thiên t l, G(x,y, ), vi nh đu vào I(x,y):
(
, ,
)
=
(
, ,
)
(
,
)
trong đó * là phép toán cun theo x và y, và
(
, ,
)
=
1
2
(
)
13
phát hin hiu qu các v trí đim khóa n đnh trong không gian t l,
ta s dng các cc tr không gian t l trong hàm Difference-of-Gaussian đc
cun vi nh đó, D(x,y, ), hàm này có th đc tính t s chênh lch gia hai t
l lân cn đc phân bit bi tha s k:
D(x,y,) = (G(x,y,k) - G(x,y,))*I(x,y) = L(x,y,k ) – L(x,y, ) (2.3)
Hình 2.1. Mô phng vic tính toán các DoG nh t các nh k m
Hình 2.1 th hin mt phng pháp hiu qu cho vic xây dng hàm
D(x,y, ). nh ban đu đc cun theo kiu gia tng vi các hàm Gaussian đ
to ra các nh đc phân bit bi tha s k trong không gian t l, đc xp
thành chng ct bên trái. Ta chia mi quãng ca không gian t l (ngha là gp
đôi ) thành s khong (s là s nguyên), vì vy k = 2
1/s
. Chúng ta phi to ra s+3
nh trong chng các nh b làm m cho mi quãng, đ vic phát hin cc tr cui
cùng bao ph trn vn mt quãng. Các t l nh gn k đc tr vi nhau đ to
ra các nh Difference-of-Gaussian đc th hin hình bên phi. Mt khi mt
quãng trn vn đc x lý, chúng ta tái ly mu nh Gaussian gp đôi giá tr ban
đu và vic x lý đc lp li.