TRNG I HC KHOA HC T NHIÊN
KHOA CÔNG NGH THÔNG TIN
B MÔN H THNG THÔNG TIN
SINH VIÊN THC HIN
NGUYN TRN THIÊN THANH - TRN KHI HOÀNG
TÌM HIU CÁC HNG TIP CN
BÀI TOÁN PHÂN LOI VN BN VÀ
XÂY DNG PHN MM
PHÂN LOI TIN TC BÁO IN T
KHÓA LUN C NHÂN TIN HC
Tp.HCM, 2005
TRNG I HC KHOA HC T NHIÊN
KHOA CÔNG NGH THÔNG TIN
B MÔN H THNG THÔNG TIN
SINH VIÊN THC HIN
̇ NGUYN TRN THIÊN THANH - 0112243
̇ TRN KHI HOÀNG - 0112305
TÌM HIU CÁC HNG TIP CN
BÀI TOÁN PHÂN LOI VN BN VÀ
XÂY DNG PHN MM
PHÂN LOI TIN TC BÁO IN T
KHÓA LUN C NHÂN TIN HC
GIÁO VIÊN HNG DN
C nhân : NGUYN VIT THÀNH
Thc s : NGUYN THANH HÙNG
Niên khóa 2001-2005
i
LI CM N
Chúng em xin gi li cm n chân thành và sâu sc nht đn thy Nguyn
Vit Thành và thy Nguyn Thanh Hùng đã tn ty hng dn, đng viên,
giúp đ chúng em trong sut thi gian thc hin đ tài.
Chúng em xin chân thành cm n quý Thy Cô trong Khoa Công Ngh
Thông Tin truyn đt kin thc quý báu cho chúng em trong nhng nm hc
va qua.
Chúng con xin nói lên lòng bit n đi vi Ông Bà, Cha M luôn là ngun
chm sóc, đng viên trên mi bc
đng hc vn ca chúng con.
Xin chân thành cám n các anh ch và bn bè đã ng h, giúp đ và đng
viên chúng em trong thi gian hc tp và nghiên cu.
Mc dù chúng em đã c gng hoàn thành lun vn trong phm vi và kh
nng cho phép nhng chc chn s không tránh khi nhng thiu sót. Chúng
em kính mong nhn đc s cm thông và tn tình ch bo ca quý Thy Cô
và các bn.
Sinh viên thc hin,
Nguyn Trn Thiên Thanh & Trn Khi Hoàng
07/2005
ii
LI NÓI U
Trong nhng nm gn đây, s phát trin vt bc ca công ngh thông tin đã
làm tng s lng giao dch thông tin trên mng Internet mt cách đáng k đc bit
là th vin đin t, tin tc đin t Do đó mà s lng vn bn xut hin trên
mng Internet cng tng theo vi mt tc đ chóng mt. Theo s lng thng kê t
Broder et al (2003), lng thông tin đó li tng gp đôi sau t 9 đn 12 tháng, và tc
đ thay đi thông tin là cc k nhanh chóng.
Vi lng thông tin đ s nh vy, mt yêu cu ln đt ra đi vi chúng ta là
làm sao t chc và tìm kim thông tin có hiu qu nht. Phân loi thông tin là mt
trong nhng gii pháp hp lý cho yêu cu trên. Nhng mt thc t là khi lng
thông tin quá ln, vic phân loi d li
u th công là điu không tng. Hng gii
quyt là mt chng trình máy tính t đng phân loi các thông tin trên.
Chúng em đã tp trung thc hin đ tài “Tìm hiu các hng tip cn cho bài
toán phân loi vn bn và xây dng ng dng phân loi tin tc báo đin t”
nhm tìm hiu và th nghim các phng pháp phân loi vn bn áp dng trên ting
Vit. thc hin vic phân lo
i, điu bt buc đi vi ting Vit đó là vic tách t.
Trong lun vn này, chúng em cng tìm hiu mt s cách tách t ting Vit và th
nghim mt phng pháp tách t mi thích hp cho vic phân loi mà không dùng
bt k t đin hoc tp ng liu nào. Cui cùng, chúng em xây dng phn mm
phân loi vn bn tích hp vào trang web “Toà son báo đ
in t” (Lun vn khoá
2000 - Hoàng Minh Ngc Hi (0012545), Nguyn Duy Hip (0012038)) nhm phc
v cho vic phân loi tin tc báo đin t.
Hin nay, trang web ca khoa chúng ta vn cha thc hin đc vic phân loi
t đng các tin tc ly v, do đó gây ra rt nhiu lãng phí v thi gian và công sc
ca nhà qun tr cng nh làm gii hn vic thu thp tin tc t
nhiu ngun khác
nhau. ng dng phân loi tin tc báo đin t tích hp vi vic ly tin tc t đng
ca chúng em hy vng s đem đn mt cách qun tr mi, nhanh chóng và hiu qu
hn cách ly tin truyn thng. Ngoài ra, trong điu kin cn cp nht thông tin mt
iii
cách nhanh chóng nh hin nay, phn mm phân loi vn bn t đng ca chúng
em còn có kh nng ng dng cho nhiu loi trang báo đin t ting Vit khác.
Ni dung ca lun vn đc trình bày bao gm 8 chng; trong đó, 3 chng
đu trình bày các hng tip cn cho phân loi vn bn và tách t ting Vit hin
nay; 2 chng tip theo trình bày hng tip cn ca lun v
n đi vi phân loi vn
bn và tách t ting Vit; 3 chng cui trình bày h thng th nghim vn bn,
ng dng vào phân loi tin tc bán t đng, và cui cùng là đánh giá, kt lun quá
trình nghiên cu ca lun vn.
Ü Chng 1. Tng quan: gii thiu s lc v các phng pháp phân loi vn
bn và các hng tip cn cho vic tách t ti
ng Vit; đng thi xác đnh
mc tiêu ca đ tài.
Ü Chng 2. Mt s phng pháp phân loi vn bn: gii thiu tóm tt mt
s phng pháp phân loi vn bn dành cho ting Anh.
Ü Chng 3. Phng pháp tách t ting Vit hin nay: trình bày tóm tt
mt s phng pháp tách t ting Vit hin nay, u đim và hn ch ca các
ph
ng pháp đó.
Ü Chng 4. Phng Tách t Ting Vit không da trên tp ng liu
đánh du (annotated corpus) hay t đin (lexicon) – Mt thách thc:
trình bày phng pháp tách t ting Vit mi ch da vào vic thng kê t
Internet thông qua Google mà không cn bt k t đin hay tp ng liu nào.
Ü Chng 5. Bài toán phân loi tin tc báo đin t: trình bày hng tip c
n
cho bài toán phân loi tin tc báo đin t.
Ü Chng 6. H thng th nghim phân loi vn bn: gii thiu v h thng
th nghim các phng pháp tách t và phân loi vn bn do chúng em xây
dng. Ngoài ra, trong chng 6, chúng em trình bày v d liu dùng đ th
nghim và các kt qu th nghim thu đc.
Ü Chng 7. ng dng phân loi tin tc báo đi
n t bán t đng: gii
thiu ng dng phân loi tin tc báo đin t do chúng em xây dng tích hp
iv
trên trang web do lun vn “Tòa son báo đin t” khóa 2000 xây dng ca
sinh viên Hoàng Minh Ngc Hi (0012545), Nguyn Duy Hip (0012038)
Ü Chng 8. Tng kt: là chng cui cùng ca đ tài, tóm li các vn đ đã
gii quyt và nêu mt s hng phát trin trong tng lai.
v
MC LC
Chng 1. TNG QUAN 2
1.1. t vn đ 2
1.2. Các phng pháp phân loi vn bn 2
1.3. Tách t Ting Vit – Mt thách thc thú v 3
1.4. Mc tiêu ca lun vn 5
1.4.1. Phn tìm hiu các thut toán phân loi vn bn 5
1.4.2. Phn tách t ting Vit 5
1.4.3. Phn mm phân loi tin tc báo đin t bán t đng 5
1.4.4. óng góp ca lun vn 6
Chng 2. CÁC PHNG PHÁP PHÂN LOI VN BN TING ANH 8
2.1. Bi cnh các phng pháp phân loi vn bn hin nay 8
2.2. Các phng pháp phân loi vn bn ting Anh hin hành 8
2.2.1. Biu din vn bn 8
2.2.2. Support vector Machine(SVM) 10
2.2.3. K–Nearest Neighbor (kNN) 12
2.2.4. Naïve Bayes (NB) 13
2.2.5. Neural Network (NNet) 15
2.2.6. Linear Least Square Fit (LLSF) 17
2.2.7. Centroid- based vector 18
2.3. Kt lun 19
Chng 3. CÁC PHNG PHÁP TÁCH T TING VIT HIN NAY 22
3.1. Ti sao tách t ting Vit là mt thách thc? 22
3.1.1. So sánh gia ting Vit và ting Anh 22
3.1.2. Nhn xét 23
3.2. Bi cnh các phng pháp tách t hin nay 23
3.2.1. Bi cnh chung 23
3.2.2. Các hng tip cn da trên t (Word-based approaches) 24
3.2.3. Các hng tip cn da trên ký t (Character-based approaches) 26
3.3. Mt s phng pháp tách t ting Vit hin nay 28
3.3.1. Phng pháp Maximum Matching: forward/backward 28
vi
3.3.2. Phng pháp gii thut hc ci bin ( TBL) 30
3.3.3. Mô hình tách t bng WFST và mng Neural 31
3.3.4. Phng pháp quy hoch đng (dynamic programming) 34
3.3.5. Phng pháp tách t ting Vit da trên thng kê t Internet và thut
toán di truyn (Internet and Genetics Algorithm-based Text Categorization for
Documents in Vietnamese - IGATEC) 34
3.4. So sánh các phng pháp tách t Ting Vit hin nay 37
3.5. Kt lun 37
Chng 4. TÁCH T TING VIT KHÔNG DA TRÊN TP NG LIU ÁNH
DU (ANNOTATED CORPUS) HAY T IN (LEXICON) – MT THÁCH THC 40
4.1. Gii thiu 40
4.2. Các nghiên cu v thng kê da trên Internet 40
4.2.1. Gii thiu 40
4.2.2. Mt s công trình nghiên cu v thng kê da trên Internet 41
4.2.3. Nhn xét 43
4.3. Các phng pháp tính đ liên quan gia các t da trên thng kê 43
4.3.1. Thông tin tng h và t-score dùng trong ting Anh 44
4.3.2. Mt s ci tin trong cách tính đ liên quan ng dng trong tách t ting
Hoa và ting Vit 46
4.3.3. Nhn xét v các cách tính đ liên quan khi áp dng cho ting Vit 48
4.4. Tin x lý (Pre-processing) 49
4.4.1. X lý vn bn đu vào 49
4.4.2. Tách ng & tách stopwords 50
4.5. Hng tip cn tách t da trên thng kê t Internet và thut toán di truyn
(Internet and Genetic Algorithm - based ) 51
4.5.1. Công c trích xut thông tin t Google 51
4.5.2. Công c tách t dùng thut toán di truyn (Genetic Algorithm – GA) 53
4.6. Kt lun 61
Chng 5. BÀI TOÁN PHÂN LOI TIN TC IN T 63
5.1. Lý do chn phng pháp Naïve Bayes 63
5.2. Thut toán Naïve Bayes 64
5.2.1. Công thc xác sut đy đ Bayes 64
vii
5.2.2. Tính đc lp có điu kin (Conditional Independence) 65
5.2.3. Ngun gc thut toán Naïve Bayes 65
5.2.4. Phng pháp Naïve Bayes trong phân loi vn bn 66
5.2.5. Hai mô hình s kin trong phân loi vn bn bng phng pháp Naïve
Bayes 68
5.3. Bài toán phân loi tin tc đin t ting Vit 70
5.3.1. Quy c 70
5.3.2. Công thc phân loi vn bn trong IGATEC [H. Nguyen et al, 2005] 71
5.3.3. Công thc Naïve Bayes trong bài toán phân loi tin tc đin t ting Vit
s dng thng kê t Google 72
5.4. Kt lun 74
Chng 6. H THNG TH NGHIM PHÂN LOI VN BN 76
6.1. Gii thiu h thng th nghim Vikass 76
6.1.1. Chc nng h thng Vikass 76
6.1.2. T chc và x lý d liu 76
6.1.3. Mt s màn hình ca h thng Vikass 79
6.2. Th nghim các cách trích xut thông tin 82
6.2.1. Các phng pháp th nghim 82
6.2.2. Nhn xét 84
6.3. D liu th nghim 84
6.3.1. Ngun d liu 84
6.3.2. S lng d liu th nghim 84
6.3.3. Nhn xét 86
6.4. Th nghim các công thc tính đ tng h MI 87
6.4.1. Các phng pháp th nghim 87
6.4.2. Kt qu 87
6.4.3. Nhn xét 88
6.5. Th nghim phân loi tin tc đin t 89
6.5.1. Thc đo kt qu phân loi vn bn 89
6.5.2. Các phng pháp th nghim 91
6.5.3. Kt qu 91
6.5.4. Nhn xét 96
viii
Chng 7. NG DNG PHÂN LOI TIN TC IN T T NG 99
7.1. Gii thiu tòa son báo đin t 99
7.2. Tính cn thit ca phân loi tin tc t đng 99
7.3. Phân tích hin trng 100
7.3.1. Mô hình DFD quan nim cp 2 hin hành cho ô x lý Nhn bài và Tr bài
100
7.3.2. Phê phán hin trng 103
7.3.3. Mô hình DFD quan nim cp 2 mi cho ô x lý Nhn bài và Tr bài 104
7.4. Trin khai DLL 105
7.5. Chng trình cài đt “Tòa son báo đin t” đã tích hp module phân loi tin
tc 106
7.6. Kt qu 110
Chng 8. TNG KT 112
8.1. Kt qu đt đc 112
8.1.1. V mt lý thuyt 112
8.1.2. V mt thc nghim 113
8.2. Hn ch và hng phát trin 113
8.3. Kt lun 114
ix
DANH SÁCH HÌNH
Hình 2. 1. Biu din vn bn 9
Hình 2. 2. Siêu mt phng h phân chia d liu hun huyn thành 2 lp + và – vi khong
cách biên ln nht. Các đim gn h nht là các vector h tr ,Support Vector (đc
khoanh tròn) 11
Hình 2. 3. Hình Kin trúc mô đun (Modular Architecture) . Các kt qu ca tng mng con
s là giá tr đu vào cho mng siêu ch đ và đc nhân li vi nhau đ d đoán
ch đ cui cùng . 16
Hình 3.4. Các hng tip cn c bn trong tách t ting Hoa và các hng tip cn hin ti
đc công b trong tách t ting Vit 24
Hình 3.5. S đ h thng WFST 31
Hình 3.6. Toàn cnh h thng IGATEC 35
Hình 4. 1. Ni dung thông tin cn ly 50
Hình 4. 2. Biu din cá th bng các bit 0,1 55
Hình 4. 3. Thang t l phát sinh loi t 57
Hình 4. 4.Quá trình lai ghép 58
Hình 4. 5. Quá trình đt bin 59
Hình 4. 6. Quá trình sinh sn 59
Hình 4. 7. Quá trình chn cá th 60
Hình 5. 1. Minh ha quy c cho vn bn 70
Hình 5. 2.Minh ha ch đ “Xã hi” 70
Hình 6. 1. T chc file d liu 77
Hình 6. 2. Ch đ Th thao 77
Hình 6. 3. Màn hình tách t 79
Hình 6. 4. Màn hình trích xut t Google 80
Hình 6. 5. Màn hình phân loi tin tc đin t 81
Hình 6. 6. Cây ch đ 86
Hình 6. 7. Biu đ so sánh kt qu các công thc tính đ tng h MI 88
Hình 6. 8. Các thông s dùng tính đ thu v, đ chính xác 89
Hình 6. 9. Biu đ F1 cho cp 1 94
Hình 6. 10. Biu đ F1 cho cp 2 96
x
Hình 7. 1.Mô hình DFD hin hành 100
Hình 7. 2. Mô hình DFD ci tin 104
Hình 7. 3. Màn hình ly tin tc cho phép phân loi t đng 106
Hình 7. 4. Màn hình bt đu. Click Next đ bt đu cài đt 107
Hình 7. 5.Màn hình chn ch đ cài đt hoc tháo g chng trình 107
Hình 7. 6.Màn hình chn đng dn đ cài đt chng trình. 108
Hình 7. 7.Màn hình cài đt chng trình 108
Hình 7. 8.Màn hình chn chc nng g chng trình 109
Hình 7. 9.Màn hình g chng trình thành công 109
xi
DANH SÁCH BNG
Bng 3. 1. So sánh gia ting Vit và ting Anh 23
Bng 4. 1. Thng kê đ dài t trong t đin 54
Bng 4. 2. Tham s thc hin GA 56
Bng 6. 1. Mô t mt s control ca màn hình tách t 79
Bng 6.2. Mô t mt s control ca màn hình trích t Google 80
Bng 6.3. Bng mô t mt s control ca màn hình phân loi tin tc đin t 81
Bng 6. 4. Tham s s dng dch v Google 82
Bng 6. 5. Mt s câu truy vn đc bit ca Google 83
Bng 6. 6. Kt qu thc nghim các công thc tính đ tng h MI 87
Bng 6. 7. Bn trng hp ca phân loi vn bn 90
Bng 6. 8. Kt qu phân loi vn bn cho tng ch đ 94
Bng 7. 1. Bng kho d liu nhng bài vit cha đc đng 102
Bng 7. 2. Bng mô t các ô x lý ca mô hình DFD hin hành 103
Bng 7. 3. Bng mô t ô x lý phân loi tin tc t đng 105
1
C
C
h
h
n
n
g
g
1
1
T
T
N
N
G
G
Q
Q
U
U
A
A
N
N
t vn đ
Các phng pháp phân loi vn bn
Tách t ting Vit – Mt thách thc thú v
Mc tiêu ca lun vn
Phn tìm hiu các thut toán phân loi vn bn
Phn tách t ting Vit
Phn mm phân loi tin tc báo đin t bán t đng
2
Chng 1. TNG QUAN
1.1. t vn đ
Trong thi đi bùng n công ngh thông tin hin nay, phng thc s dng giy
t trong giao dch đã dn đc s hoá chuyn sang các dng vn bn lu tr trên
máy tính hoc truyn ti trên mng. Bi nhiu tính nng u vit ca tài liu s nh
cách lu tr gn nh, thi gian lu tr lâu dài, tin dng trong trao đi đc bit là
qua Internet, d dàng s
a đi… nên ngày nay, s lng vn bn s tng lên mt
cách chóng mt đc bit là trên world-wide-web. Cùng vi s gia tng v s lng
vn bn, nhu cu tìm kim vn bn cng tng theo. Vi s lng vn bn đ s thì
vic phân loi vn bn t đng là mt nhu cu bc thit.
Ti sao phi phân loi vn bn t
đng? Vic phân loi vn bn s giúp chúng ta
tìm kim thông tin d dàng và nhanh chóng hn rt nhiu so vi vic phi bi tung
mi th trong đa lu tr đ tìm kim thông tin. Mt khác, lng thông tin ngày
mt tng lên đáng k, vic phân loi vn bn t đng s giúp con ngi tit kim
đc rt nhiu thi gian và công sc.
Do vy, các phng pháp phân loi v
n bn t đng đã ra đi đ phc v cho
nhu cu chính đáng đó.
1.2. Các phng pháp phân loi vn bn
Theo Yang & Xiu (1999), “vic phân loi vn bn t đng là vic gán các nhãn
phân loi lên mt vn bn mi da trên mc đ tng t ca vn bn đó so vi các
vn bn đã đc gán nhãn trong tp hun luyn”.
T trc đn nay, phân loi vn bn t đng trong ting Anh đã có rt nhiu
công trình nghiên cu và đt đc kt qu đáng khích l
. Da trên các thng kê ca
Yang & Xiu (1999) và nghiên cu ca chúng em, mt s phng pháp phân loi
thông dng hin nay là: Support Vector Machine [Joachims, 1998], k-Nearest
Neighbor [Yang, 1994], Linear Least Squares Fit [Yang and Chute, 1994] Neural
Network [Wiener et al, 1995], Naïve Bayes [Baker and Mccallum, 2000], Centroid-
based [Shankar and Karypis, 1998]. Các phng pháp trên đu da vào xác sut
3
thng kê hoc thông tin v trng s ca t trong vn bn. Chi tit v ý tng và
công thc tính toán ca mi phng pháp s đc chúng em trình bày chng 3,
mc 3.3.
Mi phng pháp phân loi vn bn đu có cách tính toán khác nhau, tuy nhiên,
nhìn mt cách tng quan thì các phng pháp đó đu phi thc hin mt s bc
chung nh sau: đu tiên, mi phng pháp s da trên các thông tin v s xut hi
n
ca t trong vn bn (ví d tn s, s vn bn cha t…) đ biu din vn bn thành
dng vector; sau đó, tu tng phng pháp mà ta s áp dng công thc và phng
thc tính toán khác nhau đ thc hin vic phân loi.
i vi ting Anh, các kt qu trong lnh vc này rt kh quan, còn đi vi ting
Vit, các công trình nghiên cu v phân lo
i vn bn gn đây đã có mt s kt qu
ban đu nhng vn còn nhiu hn ch. Nguyên nhân là ngay bc đu tiên, chúng
ta đã gp khó khn trong vic x lý vn bn đ rút ra tn s xut hin ca t. Trong
khi đó, đ phân loi vn bn thì có th nói bc đu tiên là quan trng nht bi vì
nu bc tách t đ
ã sai thì vic phân loi hu nh không th thành công đc.
Phn trình bày tip theo s cho chúng ta bit nhng thách thc đt ra trong vic tách
t ting Vit, cng nh nhng ng dng thú v ca nó.
1.3. Tách t Ting Vit – Mt thách thc thú v
i vi ting Anh, “t là mt nhóm các ký t có ngha đc tách bit vi nhau
bi khong trng trong câu” (Webster Dictionary), do vy vic tách t tr nên rt
đn gin. Trong khi đi vi ting Vit, ranh gii t không đc xác đnh mc đnh
là khong trng mà tùy thuc vào ng cnh dùng câu ting Vit. Ví d các t trong
ting Anh là “book” , “cat”, “stadium” thì trong ting Vit là “quyn sách”, “con
mèo”, “sân vn đng” … V
n đ trên thc s đa ra mt thách thc đi vi chúng
ta - nhng ngi làm tin hc.
Tuy nhiên, thách thc nào cng có cái thú v ca nó. Nu chúng ta gii quyt
đc vic tách t mt cách tho đáng, thì thành qu mà chúng ta đt đc là mt
nn tng đ phát trin cho các hng nghiên cu khác có liên quan đn vic x lý
ngôn ng t nhiên nh: phân loi vn bn, dch t đng, ki
m tra li chính t, kim
4
tra ng pháp… ó là các ng dng rt thit thc vi đi sng con ngi và là mc
tiêu ca con ngi đang chinh phc.
Mt s nc châu Á nh Trung Quc, Nht Bn, Hàn Quc, Vit Nam s dng
loi hình ngôn ng gn nh tng t nhau v mt hình thái và cú pháp. Do đó ta có
th áp dng, ci tin mt s phng pháp tách t ca các nc bn đc bi
t là Trung
Quc vào vic tách t ting Vit.
Theo inh in (2004), các phng pháp tách t sau có ngun gc t ting Hoa
đã đc th nghim trên ting Vit : Maximum Matching: forward/backward hay
còn gi LRMM (Left Right Maximum Matching); gii thut hc ci bin TBL;
mng chuyn dch trng thái hu hn có trng s WFST (Weighted finite-state
Transducer); gii thut da trên nén (compression);….Theo các cách tip cn trên,
điu kin quan trng cn có là mt h
thng t đin (LRMM) và ng liu đánh du
(TBL, WFST) đy đ, chun xác. Mt t đin hay mt tp ng liu không hoàn
chnh s làm gim hiu sut ca thut toán.
Tuy nhiên, khó có th to ra đc mt t đin hoàn chnh nht là trong thi đi
ngày nay, ngôn ng còn tip tc phát trin và thay đi tng ngày. Xét v mt ph
bin, ti
ng Anh là ngôn ng đc dùng rng rãi trong giao dch trên th gii. Do đó
đ to ra mt tp ng liu ting Anh tha các tiêu chí chn mu ng liu là không
quá phc tp. Trong khi đó, Vit Nam ch mi cho phép truy cp Internet trong
vòng chc nm tr li đây, do đó s lng trang web ting Vit là không nhiu. Cho
đn nay, vn cha có mt tp ng liu hun luyn chun nào dành cho vic tách t
và phân loi trang web ting Vit đc công b.
Gn đây, mt phng pháp tách t mi đc gii thiu có u đim là không cn
dùng tp ng liu hay t đin đ ly thông tin thng kê hay trng s ca t, đó là
phng pháp Internet and Genetics Algorithm-based Text Categorization
(IGATEC) ca H. Nguyen et al (2005). im sáng to ca thut toán là kt hp
thut toán di truyn vi vic trích xut thông tin th
ng kê t Internet thông qua mt
công c tìm kim (nh Google chng hn) thay vì ly t tp ng liu nh các
phng pháp trc.
5
Chúng em thc hin bc tách t trong lun vn này da trên ý tng ca thut
toán IGATEC nhng có b sung nhiu ci tin đáng k đ tng đ chính xác đng
thi thc hin các thí nghim chi tit nhm so sánh các cách áp dng thut toán đ
tìm ra cách ti u nht.
1.4. Mc tiêu ca lun vn
1.4.1. Phn tìm hiu các thut toán phân loi vn bn
Trong khuôn kh lun vn này, chúng em tìm hiu mc c bn mt s phng
pháp phân loi vn bn hin có đang áp dng cho ting Anh và đa ra mt s so
sánh nht đnh gia các phng pháp: Support Vector Machine (Joachims, 1998), k-
Nearest Neighbor (Yang, 1994), Linear Least Squares Fit (Yang and Chute, 1994)
Neural Network (Wiener et al, 1995), Naïve Bayes (Baker and Mccallum, 2000),
Centroid-based (Shankar and Karypis, 1998).
Sau đó, chúng em s chn và áp dng mt phng pháp cho bài toán phân loi
tin tc báo đin t ting Vit chp nhn đc, phù h
p vi mc đ và thi gian cho
phép ca mt lun vn đi hc.
1.4.2. Phn tách t ting Vit
Hin nay các phng pháp tách t ting Vit đc công b vn cha nhiu và
hng tip cn ch yu da vào tp hun luyn và t đin. Nh chúng ta đã bit,
vic to ra h thng d liu đó không phi là mt sm mt chiu, mà yêu cu đu t
khá nhiu công sc, thi gian và tin bc.
Trong lun vn này, chúng em c g
ng tìm hiu, ci tin, cài đt, th nghim
mt phng pháp tách t ting Vit theo hng tip cn IGATEC, có đ chính xác
chp nhn đc, và điu quan trng là không cn dùng tp ng liu (corpus) đ
phân đnh ranh gii t.
Sau đó, chúng em s cài đt, th nghim đ chính xác ca phng pháp tách t
này trong khía cnh phân loi vn bn
1.4.3. Phn mm phân loi tin tc báo đin t bán t đng
6
th nghim hng nghiên cu tách t ting Vit và phân loi vn bn ca
lun vn, chúng em tích hp phn mm phân loi tin tc vào trang web báo đin t
có sn đc xây dng trên nn DotNetNuke Portal ca lun vn khoá 2000 ( Hoàng
Minh Ngc Hi (0012545), Nguyn Duy Hip (0012038) )
Nh chúng ta đu bit, điu kin mng cung cp cho các trng đi hc nc
ta hin nay là khá hn ch
, khó đáp ng đc hoàn toàn vic cho phép các sinh viên
lên mng Internet đ xem các tin tc mi hng ngày. gii quyt phn nào vn đ
trên, chúng ta có th chn lc mt s tin tc t các ngun khác, đng ti trên trang
web ni b ca trng. Trên c s đó, chúng em tích hp phn mm phân loi tin
tc báo đin t t đng vào toà son báo đin t cho phép ly tin t
đng t các
trang web khác. Nh vy, công vic ly tin và phân loi tin tc gi đây đã tr nên
rt d dàng và nhanh chóng, tit kim nhiu công sc và thi gian cho nhà qun tr.
Không ch ng dng cho các trng đi hc, phn mm phân loi tin tc ca
chúng em còn có th ng dng, h tr cho nhiu công vic khác nh : lu tr
(clipping) báo chí, xây dng b ng liu cho các bài toán cn d
liu đc phân
loi, tin đ cho các bài toán khác nh phân loi website.
1.4.4. óng góp ca lun vn
Lun vn đã thc hin vic đc nhiu ci tin ca hng tip cn tách t ting
Vit dùng trong phân loi vn bn theo phng pháp da trên thng kê Internet.
i vi tách t ting Vit, chúng em đ ngh thêm mt công thc tính toán đ
tng h mi, t đó thc hin th nghim tính hiu qu ca cách tính này so vi
cách công thc nh
ng công trình khác.
Trong quá trình xây dng thut toán di truyn dùng trong tách t, chúng em đã
ci tin hình thc đt bin mi phù hp vi hình thc cu to t trong câu.
i vi vic phân loi vn bn, chúng em ci tin công thc tính trong hng
tip cn Naïve Bayes phù hp vi phng pháp tính da trên thng kê t Google.
7
C
C
h
h
n
n
g
g
2
2
C
C
Á
Á
C
C
P
P
H
H
N
N
G
G
P
P
H
H
Á
Á
P
P
P
P
H
H
Â
Â
N
N
L
L
O
O
I
I
V
V
N
N
B
B
N
N
T
T
I
I
N
N
G
G
A
A
N
N
H
H
Bi cnh các phng pháp phân loi vn bn hin nay
Các phng pháp phân loi vn bn ting Anh hin hành
Biu din vn bn
Support vector Machine (SVM)
K–Nearest Neighbor (kNN)
Naïve Bayes (NB)
Neural Network (NNet)
Linear Least Square Fit (LLSF)
Centroid- based vector
Kt lun
8
Chng 2. CÁC PHNG PHÁP PHÂN LOI VN BN
TING ANH
2.1. Bi cnh các phng pháp phân loi vn bn hin nay
Phân loi vn bn t đng là mt lnh vc đc chú ý nht trong nhng nm
gn đây. phân loi ngi ta s dng nhiu cách tip cn khác nhau nh da trên
t khóa, da trên ng ngha các t có tn s xut hin cao, mô hình Maximum
Entropy, tp thô … Ting Anh là mt trong nhng ngôn ng đc nghiên cu sm
và rng rãi nht vi kt qu đt đc r
t kh quan. Mt s lng ln các phng
pháp phân loi đã đc áp dng thành công trên ngôn ng này : mô hình hi quy
[Fuhr et al,1991], phân loi da trên láng ging gn nht (k-nearest neighbors)
[Dasarathy, 1991], phng pháp da trên xác sut Naïve Bayes [Joachims, 1997],
cây quyt đnh [Fuhr et al,1991], hc lut quy np [William & Yoram, 1996], mng
nron (neural network)[Wiener et al, 1995], hc trc tuyn[William & Yoram,
1996], và máy vector h tr (SVM-support vector machine) [Vapnik, 1995]. Hiu
qu ca các phng pháp này rt khác nhau ngay c khi áp dng cho ti
ng Anh.
Vic đánh giá gp nhiu khó khn do vic thiu các tp ng liu hun luyn chun.
Thm chí đi vi tp d liu đc s dng rng rãi nht, Reuter cng có nhiu
phiên bn khác nhau. Hn na, có rt nhiu đ đo đc s dng nh recall,
precision, accuracy hoc error, break-even point, F-measure …Chng này gii
thiu các thut toán phân loi đc s dng ph bi
n nht đng thi so sánh gia
các phng pháp s dng kt qu ca [Yang, 1997].
2.2. Các phng pháp phân loi vn bn ting Anh hin hành
2.2.1. Biu din vn bn
Bc đu tiên ca mi phng pháp phân loi là chuyn vic mô t vn bn
dùng chui ký t thành mt dng mô t khác, phù hp vi các thut toán hc theo
mu và phân lp. Hu ht các thut toán đu s dng cách biu din vn bn s
dng vector đc trng, s khác nhau có chng là vic chn không gian đc trng
khác nhau. Vì vy phn này chúng em s trình bày s lc v
vector đc trng.
9
Ý tng chính là xem mi vn bn
i
d tng ng là mt vector đc trng
()
12
( ), ( ), , ( )
in
d TFw TFw TFw
iif
trong không gian các t
n
W (
i
w là mt t, mt đc
trng, tng ng mt chiu ca không gian). Gía tr ca
()
i
TF w chính là s ln xut
hin ca t
i
w trong vn bn
i
d . T đc chn là mt đc trng khi nó xut hin
trong ít nht 3 vn bn [Joachims, 1997]. không b ph thuc vào chiu dài vn
bn vector đc trng s đc chun hóa v chiu dài đn v :
12
22 2
()
() ()
( , , , )
() () ()
n
ii i
TF w
TF w TF w
di
TF w TF w TF w
∑∑ ∑
iif
Hình 2. 1. Biu din vn bn
Trong thc t đ ci thin tc đ và kt qu ngi ta thng s dng
)(
i
wIDF
hoc
i
(w )TFIDF thay cho ()
i
TF w :
( ) log( )
()
i
i
m
IDF w
DF w
=
() (). ()
iii
TFIDF w TF w IDF w
=
Vi
Ü m chính là s vn bn hun luyn
10
Ü DF(w
i
) là s vn bn có cha t
i
w .
Mt vn đ ny sinh khi biu din vn bn theo hng vector đc trng chính là
vic chn đc trng và s chiu cho không gian. Cn phi chn bao nhiêu t và
chn nhng t nào ? theo nhng cách nào ? Có nhiu hng tip cn trong vn đ
này mà tiêu biu là s dng Information Gain [Yang & Petersen, 1997] ngoài ra còn
có các phng pháp nh DF-Thresolding [Yang & Petersen, 1997],
Test−
2
χ
[Schütze et al,1995] hoc Term Strength [Yang & Wilbur,1997]. Phng pháp
Information Gain s dng đ đo Mutual Information(MI) [Yang & Petersen, 1997]
đ chn ra tp đc trng con
f gm nhng t có giá tr MI cao nht.
Các đc trng ca vn bn khi biu din di dng vector :
Ü S chiu không gian đc trng thng rt ln (trên 10000)
Ü Có các đc trng đc lp nhau, s kt hp các đc trng này thng không
có ý ngha trong phân loi
Ü c trng ri rc : vector
i
d có rt nhiu giá tr 0 do có nhiu đc trng
không xut hin trong vn bn
i
d .
Ü Hu ht các vn bn có th đc phân chia mt cách tuyn tính bng các
hàm tuyn tính.
Vic phân loi s tt hn nu các thut toán tn dng đc nhng đc trng này.
Phn tip theo s nói rõ hn v các thut toán phân loi.
2.2.2. Support vector Machine(SVM)
SVM là phng pháp tip cn phân loi rt hiu qu đc Vapnik gii thiu
nm 1995 [Vapnik, 1995] đ gii quyt vn đ nhn dng mu 2 lp s dng
nguyên lý Cc tiu hóa Ri ro có Cu trúc (Structural Risk Minimization) [Vapnik,
Cortes, 1995].
11
2.2.2.1. Ý tng
Cho trc mt tp hun luyn đc biu din trong không gian vector trong đó
mi tài liu là mt đim, phng pháp này tìm ra mt siêu mt phng
h quyt đnh
tt nht có th chia các đim trên không gian này thành hai lp riêng bit tng ng
lp + và lp –. Cht lng ca siêu mt phng này đc quyt đnh bi khong
cách (gi là biên) ca đim d liu gn nht ca mi lp đn mt phng này.
Khong cách biên càng ln thì mt phng quyt đnh càng tt đng thi vic phân
lo
i càng chính xác. Mc đích thut toán SVM tìm đc khong cách biên ln nht.
Hình sau minh ha cho thut toán này :
Hình 2. 2. Siêu mt phng h phân chia d liu hun huyn thành 2 lp + và –
vi khong cách biên ln nht. Các đim gn h nht là các vector h tr
,Support Vector (đc khoanh tròn)
2.2.2.2. Công thc chính
SVM thc cht là mt bài toán ti u, mc tiêu ca thut toán này là tìm đc
mt không gian H và siêu mt phng quyt đnh h trên H sao cho sai s phân loi là
thp nht
Phng trình siêu mt phng cha vector
i
d trong không gian nh sau :
0=+⋅ bwd
i
t
⎪
⎩
⎪
⎨
⎧
<+⋅−
>+⋅+
=+⋅=
0,1
0,1
)()(
bwd
bwd
bwdsigndh
i
i
ii
12
Nh th )(
i
dh biu din s phân lp ca
i
d
vào hai lp nh đã nói. Gi
{
}
1
±
=
i
y ,
i
y = + 1, vn bn
i
d ∈ lp +;
i
y = - 1, vn bn
i
d ∈ lp - Khi này đ có siêu mt
phng h ta s phi gii bài toán sau :
Tìm Min
w vi w và b thõa điu kiên sau :
(
)
1)(:,1 ≥+⋅∈∀ bwdsignyni
ii
Bài toán SVM có th gii bng k thut s dng toán t Lagrange đ bin đi
thành dng đng thc.
im thú v SVM là mt phng quyt đnh ch ph thuc vào các vector h tr
(Support Vector) có khong cách đn mt phng quyt đnh là
w
1
. Khi các đim
khác b xóa đi thì thut toán vn cho kt qu ging nh ban đu. Chính đc đim
này làm cho SVM khác vi các thut toán khác nh kNN,LLSF, NNet và NB vì tt
c d liu trong tp hun luyn đu đc dùng đ ti u hóa kt qu. Các phiên bn
SVM tt có th k đn là SVM
Light
[Joachims, 1998] và Sequential Minimal
Optimization (SMO) [Platt, 1998]
2.2.3. K–Nearest Neighbor (kNN)
kNN là phng pháp truyn thng khá ni ting v hng tip cn da trên
thng kê đã đc nghiên cu trong nhn dng mu hn bn thp k qua [Dasarathy,
1991]. kNN đc đánh giá là mt trong nhng phng pháp tt nht (áp dng trên
tp d liu Reuters phiên bn 21450), đc s dng t nhng thi k đu ca vic
phân loi vn bn [Marsand et al, 1992] [Yang, 1994] [Iwayama, Tokunaga, 1995].
2.2.3.1.
Ý tng
Khi cn phân loi mt vn bn mi, thut toán s tính khong cách (khong cách
Euclide, Cosine ) ca tt c các vn bn trong tp hun luyn đn vn bn này đ
tìm ra k vn bn gn nht (gi là k “láng ging”), sau đó dùng các khong cách này
đánh trng s cho tt c ch đ. Trng s ca mt ch đ chính là tng tt c
khong cách
trên ca các vn bn trong k láng ging có cùng ch đ, ch đ nào