Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 1 Nguyn Trung Hiu - 0112216
I CM N
Chúng em xin gi li cm n chân thành nht n thy H Bo Quc, ngi ã
n tình hng dn, giúp chúng em trong sut thi gian thc hin lun vn này.
Chúng con cm n Cha, M và gia ình, nhng ngi ã dy d, khuyn khích,
ng viên chúng con trong nhng lúc khó khn, to mi u kin cho chúng con
nghiên cu hc tp.
Chúng em cm n các thy, cô trong khoa Công Ngh Thông Tin ã dìu dt,
ging dy chúng em, giúp chúng em có nhng kin thc quý báu trong nhng nm hc
qua.
m n ch Lê Thúy Ngc và các bn ã tn tình óng góp ý kin cho lun vn
a chúng tôi.
c dù rt c gng nhng lun vn ca chúng em không tránh khi sai sót,
mong nhn c s thông cm và góp ý ca thy cô và các bn.
Tháng 7 nm 2005
Sinh viên
Nguyn Th Thanh Hà – Nguyn Trung Hiu
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 2 Nguyn Trung Hiu - 0112216
NHN XÉT CA GIÁO VIÊN HNG DN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………
……………………………………………………………………………………
Ngày…… tháng……nm 2005
Ký tên
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 3 Nguyn Trung Hiu - 0112216
NHN XÉT CA GIÁO VIÊN PHN BIN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………
……………………………………………………………………………………
Ngày…… tháng……nm 2005
Ký tên
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 4 Nguyn Trung Hiu - 0112216
C LC
DANH SÁCH CÁC BNG 8
DANH SÁCH CÁC HÌNH V 8
Phn 1 : TÌM HIU LÝ THUYT 11
Chng 1: TNG QUAN V TÌM KIM THÔNG TIN 11
1. Gii thiu v tìm kim thông tin 11
1.1 Khái nim v tìm kim thông tin 11
1.2 Mt s vn trong vic tìm kim thông tin: 11
2. H tìm kim thông tin – IRS 12
3. Các thành phn ca mt h tìm kim thông tin [1.1] 13
4. So sánh IRS vi các h thng thông tin khác 14
4.1 H qun tr c s d liu (DBMS) 15
4.2 H qun lý thông tin (IMS) 15
4.3 H h tr ra quyt nh (DSS) 16
4.4 H tr li câu hi (QAS) 16
4.5 So sánh IRS vi các h thng thông tin khác 17
Chng 2: XÂY DNG MT H THNG TÌM KIM THÔNG TIN 18
1. Kin trúc ca h tìm kim thông tin. [1.3] 18
2. Mt s mô hình xây dng mt h tìm kim thông tin [1.2] 19
2.1 Mô hình không gian vector 19
2.2 Tìm kim Boolean 21
2.3 Tìm kim Boolean m rng 22
2.4 M rng trong vic thêm vào trng s ca câu hi 23
2.4.1 M rng cho s t tu ý 23
2.4.2 Thêm toán t tng 24
2.5 Mô hình xác sut 24
2.6 ánh giá chung v các mô hình 25
3. Các bc xây dng mt h tìm kim thông tin. [3.2] 25
3.1 Tách t tng cho tp các tài liu 25
3.2 Lp ch mc cho tài liu 25
3.3 Tìm kim 26
3.4 Sp xp các tài liu tr v (Ranking) 26
4. Nhng khó khn trong vic xây dng mt h thng tìm kim thông tin ting
Vit 26
4.1 Khó khn trong vic tách t ting Vit 27
4.2 Vn bng mã ting Vit 27
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 5 Nguyn Trung Hiu - 0112216
4.3 Các khó khn khác 27
Chng 3: TÁCH T TNG 29
1. Tách t trong Ting Anh 29
2. Tách t trong Ting Vit 29
2.1 Mt sc m chính v t ting Vit [2.2] 29
2.1.1 Ting 29
2.1.2 T 30
2.2 Tách t tng ting Vit 30
3. Các phng pháp tách t ting Vit 30
3.1 fnTBL (Fast Transformation-based learning) [3.1] 30
3.1.1 Mô t 30
3.1.2 Áp dng tách t ting Vit 31
3.2 Longest Matching [1.4] .37
3.3 Kt hp gia fnTBL và Longest Matching 37
Chng 4: LP CH MC 38
1. Khái quát v h thng lp ch mc 38
2. Phng pháp lp ch mc [1.1] 38
2.1 Xác nh các t ch mc 38
2.2 Các phng pháp tính trng s ca t 40
2.2.1 Tn s tài liu nghch o 40
2.2.2 nhiu tín hiu (The Signal – Noise Ratio) 40
2.2.3 Giá tr phân bit t (The Term Discrimination Value) 42
2.3 Lp ch mc tng cho tài liu ting Anh 43
3. Lp ch mc cho tài liu ting Vit 45
4. Tp tin nghch o tài liu 46
4.1 Phân bit gia tp tin nghch o và tp tin trc tip 46
4.2 Ti sao s dng tp tin nghch o lp ch mc 47
Phn 2 : PHÂN TÍCH VÀ THIT K 49
Chn g 5: PHÂN TÍCH 49
1. S UseCase h thng 49
2. S Lp 51
2.1 S các lp th hin 51
2.2 S các lp x lý 52
3. Tách t 53
3.1 S UseC ase 53
3.2 S Tun t 53
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 6 Nguyn Trung Hiu - 0112216
3.3 S Cng tác 54
3.4 S L p 54
4. L p ch m c 55
4.1 S UseC ase 55
4.2 S Tun t 56
4.2.1 To mi ch mc 56
4.2.2 Cp nht ch mc 57
4.3 S Cng tác 58
4.3.1 To mi ch mc 58
4.3.2 Cp nht ch mc 59
4.4 S L p 60
5. Tìm kim 61
5.1 S UseC ase 61
5.2 S Tun t 61
5.3 S Cng tác 62
5.4 S L p 63
Chng 6: THIT K VÀ CÀI T 64
1. Cu trúc lu tr d liu 64
1.1 Tp tin lu ni dung tài liu 64
1.1.1 Cu trúc DTD / XSD 64
1.1.2 Tài li u XML 66
1.2 Tp tin sau khi tách t tài liu 67
1.2.1 Cu trúc DTD / XSD 67
1.2.2 Tài li u XML 68
1.3 Tp tin cha các t không th hin ni dung ca vn bn (stop list) 70
1.3.1 Cu trúc DTD / XSD 70
1.3.2 Tài li u XML 71
1.4 Tp tin ch mc o ( Inverted ). 71
1.4.1 Cu trúc DTD / XSD 71
1.4.2 Tài li u XML 73
1.5 Tp tin sau khi tách t câu hi 74
1.5.1 Cu trúc DTD / XSD 74
1.5.2 Tài li u XML 75
1.6 Tp tin cha các t ca câu hi sau khi loi b các t trong danh sách
StopList 76
1.6.1 Cu trúc DTD / XSD 76
1.6.2 Tài li u XML 77
1.7 Tp tin cha các t trong câu hi và các tài liu liên quan 77
1.7.1 Cu trúc DTD / XSD 77
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 7 Nguyn Trung Hiu - 0112216
1.7.2 Tài li u XML 79
1.8 Tp tin cha tng quan gia câu hi và các tài liu 80
1.8.1 Cu trúc DTD / XSD 80
1.8.2 Tài li u XML 82
2. Chi tit các lp i tng 83
2.1 Các lp trong quá trình tách t 83
2.1.1 S các lp 83
2.1.2 Lp tách t ghép 83
2.1.3 L p tách t 86
2.1.4 Lp giao din tách t 89
2.2 Các lp trong quá trình lp ch mc 91
2.2.1 S các lp 91
2.2.2 Lp lp ch mc 92
2.2.3 Lp giao din to mi ch mc 94
2.2.4 Lp giao din cp nht ch mc 96
2.3 Các lp trong quá trình tìm kim 98
2.3.1 S các lp 98
2.3.2 Lp tìm kim 99
2.3.3 Lp giao din tìm kim 105
3. Mt s màn hình giao din khác 109
3.1 Màn hình chính ca chng trình 109
3.2 Màn hình tìm kim nhiu câu hi 110
3.3 Màn hình tìm kim chính ( giao din Web) 112
3.4 Màn hình tr v các tài liu tìm c ( giao din Web) 113
3.5 Màn hình chi tit ca mt tài liu ( giao din Web) 114
Phn 3 : TNG KT 115
1. Chng trình th nghim 115
2. ánh giá kt qut c 115
3. Hng phát tri n 116
TÀI LIU THAM KHO 117
1. Sách 117
2. Lun vn 117
3. Website 117
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 8 Nguyn Trung Hiu - 0112216
DANH SÁCH CÁC BNG
ng 1-1 So sánh IRS vi các h thng thông tin khác 17
ng 4-1 Cách tp tin nghch o lu tr 47
ng 4-2 Cách tp tin trc tip lu tr 47
ng 4-3 Thêm mt tài liu mi vào tp tin nghch o 48
ng 5-1 Danh sách các Actor 50
ng 5-2 Danh sách các UseCase 50
DANH SÁCH CÁC HÌNH V
Hình 1-1 Môi trng ca h tìm kim thông tin 13
Hình 1-2 Tng quan v chc nng ca mt h tìm kim thông tin 14
Hình 2-1 H tìm kim thông tin tiêu biu 18
Hình 3-1 Quá trình hc 35
Hình 3-2 Giai n xác nh t cho tài liu mi 36
Hình 4-1 Các tc sp theo th t 39
Hình 4-2 Quá trình chn t làm ch mc 45
Hình 5-1 S Use-case ca h thng 49
Hình 5-2 S các lp th hin 51
Hình 5-3 S các lp x lý 52
Hình 5-4 S Use-case tách t 53
Hình 5-5 S tun t tách t 53
Hình 5-6 S cng tác tách t 54
Hình 5-7 S lp tách t 54
Hình 5-8 S use-case lp ch mc 55
Hình 5-9 S tun t to mi ch mc 56
Hình 5-10 S tun t cp nht ch mc 57
Hình 5-11 S cng tác to mi ch mc 58
Hình 5-12 S cng tác cp nht ch mc 59
Hình 5-13 S lp lp ch mc 60
Hình 5-14 S use-case tìm kim 61
Hình 5-15 S tun t tìm kim 61
Hình 5-16 S cng tác tìm kim 62
Hình 5-17 S lp tìm kim 63
Hình 6-1 S lp tách t 83
Hình 6-2 Lp tách t ghép 83
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 9 Nguyn Trung Hiu - 0112216
Hình 6-3 Lp tách t 86
Hình 6-4 Lp giao din tách t 89
Hình 6-5 Màn hình tách t 89
Hình 6-6 Màn hình chi tit tách t 90
Hình 6-7 S lp lp ch mc 91
Hình 6-8 Lp lp ch mc 92
Hình 6-9 Lp giao din to mi ch mc 94
Hình 6-10 Màn hình to mi ch mc 95
Hình 6-11 Lp Màn hình cp nht ch mc 96
Hình 6-12 Màn hình cp nht ch mc 97
Hình 6-13 S lp tìm kim 98
Hình 6-14 Lp x lý tìm kim 99
Hình 6-15 Lp giao din tìm kim 105
Hình 6-16 Màn hình tìm kim 106
Hình 6-17 Xem t khóa câu hi 106
Hình 6-18 Xem t khóa tài liu 107
Hình 6-19 Màn hình chính 109
Hình 6-20 Màn hình tìm kim nhiu câu hi 110
Hình 6-21 Giao din tìm kim trên Web 112
Hình 6-22 Giao din các tài liu tr v sau khi tìm kim 113
Hình 6-23 Giao din chi tit ni dung ca tài liu 114
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 10 Nguyn Trung Hiu - 0112216
U
Trong thi i bùng n thông tin nh hin nay, thông tin c lu tr trên máy
tính ngày càng nhiu do ó vic tìm kim thông tin chính xác là nhu cu thit yu i
i mi ngi trong mi lnh vc. Internet hin nay ã tr thành mt kho t liu khng
mà vic tìm kim thông tin trên kho t liu này cn phi c h tr bi các công c
tìm kim (search engine) tt. Các h thng tìm kim thông tin thông dng nh Google,
Yahoo Search ã áp ng c phn nào nhu cu ó ca mi ngi. Tuy nhiên, các h
thng này c xây dng x lý và tìm kim các vn bn ting Châu Âu, chúng cha
tht s phù hp cho các vn bn ting Vit. Do ó nhu cu phi có mt công c tìm
kim “hiu” và x lý tt các vn bn tíng Vit.
Các h tìm kim thông tin u phi thc hin giai n lp ch mc (indexing)
cho vn bn trích các t ch mc (index term) biu din tt nht ni dung ca vn
n. Giai n này ph thuc vào ngôn ng ca vn bn và phng pháp x lý tng
ngôn ngó. Hin nay cha có nhiu h thng tìm kim thông tin trên kho tài liu
ting Vit có khai thác các c trng ca ting Vit cho vic lp ch mc.
Vì vy mc tiêu ca lun vn này nhm xây dng mt h thng tìm kim thông
tin bng ting Vit có s dng các kt qu ca x lý ngôn ng t nhiên tng xác
nh c các ch mc là các t (word) hay t ghép (compound word) ca ting Vit.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 11 Nguyn Trung Hiu - 0112216
Phn 1 : TÌM HIU LÝ THUYT
Chng 1: NG QUAN V TÌM KIM THÔNG TIN
1. Gii thiu v tìm kim thông tin
1.1 Khái nim v tìm kim thông tin
Tìm kim thông tin là tìm kim trong mt tp tài liu ly ra các thông tin mà
ngi tìm kim quan tâm.
1.2 t s vn trong vic tìm kim thông tin:
t nhng nm 40, các vn trong vic lu tr thông tin và tìm kim thông
tin ã thu hút s chú ý rt ln. Vi mt lng thông tin khng l thì vic tìm kim
chính xác và nhanh chóng càng tr nên khó khn hn. Vi s ra i ca máy tính, rt
nhiu ý tng ln c a ra nhm cung cp mt h thng tìm kim thông minh và
chính xác. Tuy nhiên, vn tìm kim sao cho hiu qu vn cha c gii quyt.
nguyên tc, vic lu tr thông tin và tìm kim thông tin thì n gin. Gi s
có mt kho cha các tài liu và mt ngi mun tìm các tài liu liên quan n yêu cu
a mình. Ngi ó có thc tt c các tài liu trong kho, gi li các tài liu liên quan
và bi các tài liu không liên quan. Rõ ràng gii pháp này không thc t bi vì tn rt
nhiu thi gian.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 12 Nguyn Trung Hiu - 0112216
i s ra i ca máy vi tính tc cao, máy tính có th “c” thay cho con
ngi trích ra các tài liu có liên quan trong toàn b tp d liu. Tuy nhiên vn
lúc này là làm sao xác nh c tài liu nào liên quan n câu hi. Mc ích ca
t h thng tìm kim thông tin tng là truy lc c tt c các tài liu có liên quan
n yêu cu.
2. tìm kim thông tin – IRS
Sau ây là nh ngha v h thng tìm kim thông tin ca mt s tác gi: [2.1]
Salton (1989):
“H thng tìm kim thông tin x lý các tp tin lu tr và nhng yêu cu v
thông tin, xác nh và tìm t các tp tin nhng thông tin phù hp vi nhng yêu cu v
thông tin. Vic truy tìm nhng thông tin c thù ph thuc vào s tng t gia các
thông tin c lu tr và các yêu cu, c ánh giá bng cách so sánh các giá tr ca
các thuc tính i vi thông tin c lu tr và các yêu cu v thông tin.”
Kowalski (1997) :
“H thng truy tìm thông tin là mt h thng có kh nng lu tr, truy tìm và
duy trì thông tin. Thông tin trong nhng trng hp này có th bao gm vn bn, hình
nh, âm thanh, video và nhng i tng a phng tin khác.”
Hiu n gin thng tìm kim thông tin là mt h thng h tr cho ngi
dng tìm kim thông tin mt cách nhanh chóng và d dàng. Ngi s dng có
tha vào nhng câu hi, nhng yêu cu (dng ngôn ng t nhiên) và h thng s tìm
kim trong tp các tài liu (dng ngôn ng t nhiên) ã c lu tr tìm ra nhng
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 13 Nguyn Trung Hiu - 0112216
tài liu có liên quan, sau ó s sp xp các tài liu theo mc liên quan gim dn và
tr v cho ngi s dng.
3. Các thành phn ca mt h tìm kim thông tin [1.1]
m: tp các tài liu (DOCS) ã c lu tr trong kho d liu, tp các yêu cu
(REQS) ca ngi dùng, và mt s phng pháp tính tng quan (SIMILAR)
xác nh các tài liu áp ng cho các yêu cu.
Hình 1-1 Môi trng ca h tìm kim thông tin
Theo lý thuyt thì mi liên h gia các câu hi và các tài liu có th so sánh mt
cách trc tip. Nhng trên thc t thì u này không thc vì các câu hi và các tp
tài liu u dng vn bn, ch có con ngi c vào thì thy ngay c mi liên h
gia chúng, nhng ây ch là mt h thng máy móc không th suy lun nh con
ngi c. Chính vì th xác nh c mi liên h gia các câu hi và các tp tài
liu phi qua mt bc trung gian.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 14 Nguyn Trung Hiu - 0112216
Hình 1-2 Tng quan v chc nng ca mt h tìm kim thông tin
Trc ht chuyn i các câu hi thành các t riêng bit biu hin cho ni
dung ca câu hi gi là ngôn ng ch mc (Indexing language - LANG). Tách t trong
các tp tài liu và lp ch mc cho tài liu. Lúc này có th so sánh trc tip gia các t
a câu hi và các t ch mc ca tp tài liu. Và tó ta s d dàng hn xác nh
tng quan gia các câu hi và tp tài liu.
4. So sánh IRS vi các h thng thông tin khác
thng tìm kim thông tin cng tng t nh nhiu h thng x lý thông tin
khác. Hin nay các h thng thông tin quan trng nht là: h qun tr c s d liu
(DBMS), h qun lý thông tin (MIS), h h tr ra quyt nh (DSS), h tr li câu hi
(QAS) và h tìm kim thông tin (IR).
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 15 Nguyn Trung Hiu - 0112216
4.1 qun tr c s d liu (DBMS)
t c h thng thông tin tng nào cng da trên mt tp các mc c lu
tr (gi là s d liu) cn thit cho vic truy cp. Do ó h qun tr c s d liu
n gin là mt h thng c thit k nhm thao tác và duy trì u khin c s d
liu.
DBMS t chc lu tr các d liu ca mình di dng các bng. Mi mt c s
liu c lu tr thành nhiu bng khác nhau. Mi mt ct trong bng là mt thuc
tính, và mi mt dòng là mt b d liu c th. Trong mi mt bng có mt thuc tính
duy nht i din cho bng, nó không c trùng lp và ta gi ó là khoá chính. Các
ng có mi liên h vi nhau thông qua các khoá ngoi. DBMS có mt tp các lnh
tr cho ngi s dng truy vn n d liu ca mình. Vì vy mun truy vn n
CSDL trong DBMS ta phi hc ht các tp lnh này. Nhng ngc li nó s cung cp
cho ta các d liu y và hoàn toàn chính xác. Hin nay DBMS c s dng rng
rãi trên th gii. Mt s DBMS thông dng : Access, SQL Server, Oracle.
4.2 qun lý thông tin (IMS)
qun lý thông tin là h qun tr c s d liu nhng có thêm nhiu chc
nhng v vic qun lý. Nhng chc nng qun lý này ph thuc vào giá tr ca nhiu
kiu d liu khác nhau. Nói chung bt k h thng nào có mc ích c bit phc v
cho vic qun lý thì ta gi nó là h qun lý thông tin.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 16 Nguyn Trung Hiu - 0112216
4.3 h tr ra quyt nh (DSS)
h tr ra quyt nh s da vào các tp lut c hc, t nhng lut ã hc
rút ra nhng lut mi, sau khi gp mt vn nó s cn c vào vào tp các lut a
ra nhng quyt nh thay cho con ngi.
thng này ang c áp dng nhiu cho công vic nhn dng và chun óan
nh.
4.4 tr li câu hi (QAS)
tr li câu hi cung cp vic truy cp n các thông tin bng ngôn ng t
nhiên. Vic lu tr c s d liu thng bao gm mt s lng ln các vn liên
quan n các lnh vc riêng bit và các kin thc tng quát. Câu hi ca ngi dùng có
th dng ngôn ng t nhiên. Công vic ca h tr li câu hi là phân tích câu truy
n ca ngi dùng, so sánh vi các tri thc c lu tr, và tp hp các vn có liên
quan li a ra câu tr li thích hp.
Tuy nhiên, h tr li câu hi ch còn ang th nghim. Vic xác nh ý ngha
a ngôn ng t nhiên dng nh vn là chng ngi ln có th s dng rng rãi h
thng này.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 17 Nguyn Trung Hiu - 0112216
4.5 So sánh IRS vi các h thng thông tin khác
IRS DBMS QAS MIS
Tìm kim
i dung
trong các tài
liu.
Các phn t
có kiu d
liu ã c
nh ngha.
Các s kin
rõ ràng.
u tr
Các vn bn
ngôn ng t
nhiên.
Các phn t
liu
ng bng.
Các s kin
rõ ràng và các
kin thc
ng quát.
lý
Các câu truy
n không
chính xác.
Các câu truy
n có cu
trúc.
Các câu truy
n không
gii hn.
Ging DBMS
nhng h tr
thêm nhng
th tc( Tính
ng, tính
trung bình,
phép chiu…)
ng 1-1 So sánh IRS vi các h thng thông tin khác
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 18 Nguyn Trung Hiu - 0112216
Chng 2: XÂY DNG MT H THNG TÌM KIM
THÔNG TIN
1. Kin trúc ca h tìm kim thông tin. [1.3]
t h thng thông tin tiêu biu nh sau:
Hình 2-1 H tìm kim thông tin tiêu biu
thng tìm kim thông tin gm có 3 b phn chính : b phn phân tích vn
n, b phn lp ch mc, b phn so khp và sp xp các tài liu tr v.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 19 Nguyn Trung Hiu - 0112216
(1) phn phân tích vn bn: b phn này có nhim v phân tích các vn
n thu thp c thành các t riêng bit. Tng t, khi ngi dùng nhp câu truy vn
thì câu truy vn cng c phân tích thành các t riêng bit.
(2) phn lp ch mc : các t trích c t các vn bn thu thp c s
c b phn này la chn làm các t ch mc. Các t ch mc phi là các t th
hin c ni dung ca vn bn.
(3) phn so khp và sp xp các tài liu tr v: Các t trích c t câu
truy vn và các t ch mc ca vn bn sc so khp vi nhau tìm ra các tài liu
liên quan n câu truy vn. Mi tài liu có mt tng quan vi câu hi. Các tài liu
này sc sp xp theo tng quan gim dn và tr v cho ngi s dng.
2. t s mô hình xây dng mt h tìm kim thông tin [1.2]
c tiêu ca các h thng tìm kim thông tin là tr v các tài liu càng liên
quan n câu hi càng tt. Vì th ngi ta ã a ra rt nhiu mô hình tìm kim nhm
tính toán mt cách chính xác tng quan này. Sau ây là mt s mô hình tìm kim
bn:
2.1 Mô hình không gian vector
Mô hình không gian vector tính toán tng quan gia câu hi và tài liu bng
cách nh ngha mt vector biu din cho mi tài liu, và mt vector biu din cho câu
i [ Salton, 1875]. Mô hình da trên ý tng chính là ý ngha ca mt tài liu thì ph
thuc vào các tc s dng bên trong nó. Vector tài liu và vector câu hi sau ó s
c tính toán xác nh tng quan gia chúng. tng quan càng ln chng
tài liu ó càng liên quan n câu hi.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 20 Nguyn Trung Hiu - 0112216
Gi s mt tp tài liu ch gm có hai t là t
1
và t
2
. Vector xây dng c s
m có 2 thành phn: thành phn th nht biu din s xut hin ca t
1
, và thành phn
th hai biu din cho s xut hin ca t
2
. Cách n gin nht xây dng vector là
ánh 1 vào thành phn tng ng nu tó xut hin, và ánh 0 nu tó không xut
hin. Gi s tài liu ch gm có 2 t t
1
. Ta biu din cho tài liu này bi vector nh
phân nh sau: <1,0> Tuy nhiên, biu din nh vy không cho thy c tn s xut
hin ca mi t trong tài liu. Trong trng hp này, vector nên c biu din nh
sau: <2,0>
i vi mt câu hi ã cho, thay vì ch cn c so sánh các t trong tài liu vi
p các t trong câu hi, ta nên xem xét n tm quan trng ca mi t. Ý tng chính
là mt t xut hin tp trung trong mt s tài liu thì có trng s cao hn so vi mt t
phân b trong nhiu tài liu. Trng sc tính da trên tn s tài liu nghch o
(Inverse Document Frequency) liên quan n các tc cho:
n: s t phân bit trong tp tài liu
tf
ij
: s ln xut hin ca t t
j
trong tài liu D
i
(tn s)
df
j
: s tài liu có cha t t
j
idf
j
=
10
log
j
d
df
trong ó d là tng s tài liu
Vector c xây dng cho mi tài liu gm có n thành phn, mi thành phn là
giá tr trng sã c tính toán cho mi t trong tp tài liu. Các t trong tài liu
c gán trng s tng da vào tn s xut hin ca chúng trong tp tài liu và s
xut hin ca mi t trong mt tài liu riêng bit. Trng s ca mt t tng nu tó
xut hin thng xuyên trong mt tài liu và gim nu tó xut hin thng xuyên
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 21 Nguyn Trung Hiu - 0112216
trong tt c các tài liu. tính trng s ca t th t
j
trong tài liu D
i
, da vào công
thc:
d
ij
= tf
ij
* idf
j
d
ij
: là trng s ca t t
j
trong tài liu D
i
i vi h thng tìm kim thông tin theo mô hình vector, mi tài liu là mt
vector có dng : D
i
(d
i1
, d
i2
, …, d
in
) . Tng t, câu truy vn Q cng là mt vector có
ng : Q(w
q1
, w
q2
, …, w
qn
)
w
qj
: là trng s ca t t
j
trong câu truy vn Q.
tng quan (SC: similarity coeficient) gia câu truy vn Q và tài liu D
i
c tính nh sau:
SC(Q,D
i
) =
ij
1
w*
n
qj
j
d
=
∑
2.2 Tìm kim Boolean
Mô hình tìm kim Boolean khá n gin. Câu hi a vào phi dng biu thc
Boolean. Ngha là phi tha:
Ø Ng ngha rõ ràng
Ø Hình thc ngn gn
Do các t hoc xut hin hoc là không xut hin, nên trng s w
ij
ε {0,1}
Gi sa vào mt câu hi dng biu thc Boolean nh sau: t
1
and t
2
. Sau khi tìm
kim ta xác nh c các tài liu liên quan n t
1
là { d
1
, d
3
, d
5
} và các tài liu liên
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 22 Nguyn Trung Hiu - 0112216
quan n t
2
là {d
3
, d
5
, d
7
}. Nh vy vi phép and, các tài liu tha yêu cu ca ngi
dùng là {d
3
, d
5
}. Phng pháp này có mt s khuyt m nh sau:
Ø Các tài liu tr v không c sp xp (ranking)
Ø Câu hi tìm kim òi hi phi úng nh dng ca biu thc Boolean gây
khó khn cho ngi dùng
Ø t qu tr v có th là quá ít hoc quá nhiu tài liu
2.3 Tìm kim Boolean m rng
Mô hình tìm kim Boolean không h tr vic sp xp kt qu tr v bi vì các
tài liu hoc tha hoc không tha yêu cu Boolean. Tt c các tài liu tha mãn u
c tr v, nhng không có sc lng nào c tính toán cho s liên quan ca
chúng i vi câu hi.
Mô hình tìm kim Boolean m rng ra i nhm h tr vic sp xp (ranking)
t qu tr v da trên ý tng c bn là ánh trng s cho mi t trong câu hi và
trong tài liu. Gi s mt câu hi yêu cu (t
1
OR t
2
) và mt tài liu D có cha t
1
vi
trng s w
1
và t
2
vi trng s w
2
. Nu w
1
và w
2
u bng 1 thì tài liu nào có cha c
hai t này s có th t sp xp cao nht. Tài liu nào không cha mt trong hai t này
có th t sp xp thp nht. Ý tng n gin là tính khong cách Eclide tm
(w
1
, w
2
) ti gc:
SC(Q,D
i
) =
22
12
(w) (w)
+
i trng s 0.5 và 0.5, SC(Q,D
i
) =
22
(0.5) (0.5)
+ =0.707
SC cao nht nu w
1
và w
2
u bng 1. Khi ó:
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 23 Nguyn Trung Hiu - 0112216
SC(Q,D
i
) =
2
= 1.414
a SC vào khong [0,1], SC c tính nh sau:
SC( Q
t1 v t2
, d
i
) =
22
12
(w) (w)
2
+
Công thc này gi s là câu hi ch có toán t OR . i vi toán t AND, thay
vì tính khong cách ti gc, ta s tính khong cách n m (1,1). Câu hi nào càng
n n m (1,1) thì nó càng tho yêu cu ca toán t AND:
SC(Q
t1 ^ t2
, d
i
) = 1-
22
12
(1-w ) (1 w )
2
+−
2.4 rng trong vic thêm vào trng s ca câu hi
u câu hi có trng s là q
1
và q
2
thì tng quan sc tính nh sau:
SC(Q
q1 v q2
, d
i
) =
22 22
1 1 22
22
12
qw
qw
qq
+
+
SC(Q
q1 ^ q2
, d
i
) = 1- (
2222
1122
22
12
q (1-w ) (1 )
qw
qq
+−
+
)
2.4.1 rng cho s t tu ý
tính khong cách Euclide trong không gian a chiu, tham s p c s
ng. Tham s p ch s bin i tm quan trng ca trng s trong vic ánh giá
thích hp.
tng quan SC tng quát nh sau:
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 24 Nguyn Trung Hiu - 0112216
SC(D, Q
( q i v q j )
) =
1
p p pp
p
i i jj
pp
ij
qw
qq
qw
+
+
SC(D, Q
( q i ^ q j )
) = 1 -
1
pppp
p
iijj
pp
ij
q(1-w ) q(1 w )
qq
+−
+
u p
→∞
: chuyn v h thng Boolean thông thng (không có trng s)
u p = 1 : chuyn v h thng không gian vector
2.4.2 Thêm toán t tng
Các chin lc tìm kim không òi hi ngi dùng nhn bit các toán t phc
p. Trng s có thc gán tng và tài liu c sp xp bng cách chèn toán t
OR vào gia các t. Bt k tài liu nào có cha ít nht mt t trong câu hi sc sp
th t vi mt sm ln hn 0.
2.5 Mô hình xác sut
Mô hình tìm kim xác sut tính toán tng quan gia câu hi và tài liu da
vào xác sut mà tài liu ó liên quan n câu hi. Các lý thuyt v xác sut c áp
ng tính toán liên quan gia câu hi và tài liu. Các t trong câu hi c xem
là u mi xác nh tài liu liên quan. Ý tng chính là tính xác sut ca mi t
trong câu hi và sau ó s dng chúng tính xác sut mà tài liu liên quan n câu
i.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 25 Nguyn Trung Hiu - 0112216
2.6 ánh giá chung v các mô hình
Ø Mô hình Boolean c xem là mô hình yu nht trong các mô hình bi vì
nhã trình bày nó còn rt nhiu khuyt m.
Ø Theo kinh nghim ca Salton và Buckley thì nhìn chung mô hình vector
làm tt hn mô hình xác sut.
Lun vn ca chúng em s dng mô hình không gian vector xây dng mt
thng tìm kim thông tin ting Vit.
3. Các bc xây dng mt h tìm kim thông tin. [3.2]
3.1 Tách t tng cho tp các tài liu
i vi ting Anh, ta tách t da vào khong trng. Tuy nhiên i vi ting
Vit, giai n này tng i khó khn. Cu trúc ting Vit rt phc tp, không chn
thun da vào khong trng tách t. Hin nay có rt nhiu công c dùng tách t
ting Vit, mi phng pháp có u, khuyt m riêng. Các phng pháp này sc
trình bày chi tit hn chng III : Tách t tng.
3.2 p ch mc cho tài liu
Sau khi có c tp các tã c trích, ta s chn các t làm t ch mc.
Tuy nhiên, không phi t nào cng c chn làm t ch mc. Các t có kh nng i
din cho tài liu sc chn, các t này c gi là key word, do ó trc khi lp ch
c s là giai n tin x lý i vi các t trích c chn ra các key word thích
p. Ta s loi b danh sách các t ít có kh nng i din cho ni dung vn bn da