Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 1 Nguyn Trung Hiu - 0112216
I CM N
Chúng em xin gi li cm n chân thành nht n thy H Bo Quc, ngi ã
n tình hng dn, giúp chúng em trong sut thi gian thc hin lun vn này.
Chúng con cm n Cha, M và gia ình, nhng ngi ã dy d, khuyn khích,
ng viên chúng con trong nhng lúc khó khn, to mi u kin cho chúng con
nghiên cu hc tp.
Chúng em cm n các thy, cô trong khoa Công Ngh Thông Tin ã dìu dt,
ging dy chúng em, giúp chúng em có nhng kin thc quý báu trong nhng nm hc
qua.
m n ch Lê Thúy Ngc và các bn ã tn tình óng góp ý kin cho lun vn
a chúng tôi.
c dù rt c gng nhng lun vn ca chúng em không tránh khi sai sót,
mong nhn c s thông cm và góp ý ca thy cô và các bn.
Tháng 7 nm 2005
Sinh viên
Nguyn Th Thanh Hà – Nguyn Trung Hiu
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 2 Nguyn Trung Hiu - 0112216
NHN XÉT CA GIÁO VIÊN HNG DN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……nm 2005
Ký tên
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 3 Nguyn Trung Hiu - 0112216
NHN XÉT CA GIÁO VIÊN PHN BIN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……nm 2005
Ký tên
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 4 Nguyn Trung Hiu - 0112216
C LC
DANH SÁCH CÁC BNG...................................................................................8
DANH SÁCH CÁC HÌNH V..............................................................................8
Phn 1 : TÌM HIU LÝ THUYT..........................................................................11
Chng 1: TNG QUAN V TÌM KIM THÔNG TIN...................................11
1. Gii thiu v tìm kim thông tin......................................................................11
1.1 Khái nim v tìm kim thông tin................................................................11
1.2 Mt s vn trong vic tìm kim thông tin: .............................................11
2. H tìm kim thông tin – IRS............................................................................12
3. Các thành phn ca mt h tìm kim thông tin [1.1]........................................13
4. So sánh IRS vi các h thng thông tin khác ...................................................14
4.1 H qun tr c s d liu (DBMS)..............................................................15
4.2 H qun lý thông tin (IMS) ........................................................................15
4.3 H h tr ra quyt nh (DSS)....................................................................16
4.4 H tr li câu hi (QAS) ............................................................................16
4.5 So sánh IRS vi các h thng thông tin khác..............................................17
Chng 2: XÂY DNG MT H THNG TÌM KIM THÔNG TIN............18
1. Kin trúc ca h tìm kim thông tin. [1.3]........................................................18
2. Mt s mô hình xây dng mt h tìm kim thông tin [1.2]..........................19
2.1 Mô hình không gian vector ........................................................................19
2.2 Tìm kim Boolean .....................................................................................21
2.3 Tìm kim Boolean m rng .......................................................................22
2.4 M rng trong vic thêm vào trng s ca câu hi.....................................23
2.4.1 M rng cho s t tu ý ......................................................................23
2.4.2 Thêm toán t tng ..........................................................................24
2.5 Mô hình xác sut........................................................................................24
2.6 ánh giá chung v các mô hình .................................................................25
3. Các bc xây dng mt h tìm kim thông tin. [3.2]...................................25
3.1 Tách t tng cho tp các tài liu............................................................25
3.2 Lp ch mc cho tài liu.............................................................................25
3.3 Tìm kim ...................................................................................................26
3.4 Sp xp các tài liu tr v (Ranking)..........................................................26
4. Nhng khó khn trong vic xây dng mt h thng tìm kim thông tin ting
Vit .....................................................................................................................26
4.1 Khó khn trong vic tách t ting Vit.......................................................27
4.2 Vn bng mã ting Vit.........................................................................27
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 5 Nguyn Trung Hiu - 0112216
4.3 Các khó khn khác.....................................................................................27
Chng 3: TÁCH T TNG........................................................................29
1. Tách t trong Ting Anh .................................................................................29
2. Tách t trong Ting Vit .................................................................................29
2.1 Mt sc m chính v t ting Vit [2.2]..............................................29
2.1.1 Ting...................................................................................................29
2.1.2 T .......................................................................................................30
2.2 Tách t tng ting Vit .........................................................................30
3. Các phng pháp tách t ting Vit.................................................................30
3.1 fnTBL (Fast Transformation-based learning) [3.1].....................................30
3.1.1 Mô t...................................................................................................30
3.1.2 Áp dng tách t ting Vit...................................................................31
3.2 Longest Matching [1.4]..............................................................................37
3.3 Kt hp gia fnTBL và Longest Matching.................................................37
Chng 4: LP CH MC ..................................................................................38
1. Khái quát v h thng lp ch mc...................................................................38
2. Phng pháp lp ch mc [1.1]........................................................................38
2.1 Xác nh các t ch mc.............................................................................38
2.2 Các phng pháp tính trng s ca t........................................................40
2.2.1 Tn s tài liu nghch o....................................................................40
2.2.2 nhiu tín hiu (The Signal – Noise Ratio) ......................................40
2.2.3 Giá tr phân bit t (The Term Discrimination Value) .........................42
2.3 Lp ch mc tng cho tài liu ting Anh................................................43
3. Lp ch mc cho tài liu ting Vit..................................................................45
4. Tp tin nghch o tài liu ...............................................................................46
4.1 Phân bit gia tp tin nghch o và tp tin trc tip..................................46
4.2 Ti sao s dng tp tin nghch o lp ch mc .....................................47
Phn 2 : PHÂN TÍCH VÀ THIT K....................................................................49
Chng 5: PHÂN TÍCH.......................................................................................49
1. S UseCase h thng..................................................................................49
2. S Lp........................................................................................................51
2.1 S các lp th hin................................................................................51
2.2 S các lp x lý ....................................................................................52
3. Tách t............................................................................................................53
3.1 S UseCase...........................................................................................53
3.2 S Tun t ............................................................................................53
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 6 Nguyn Trung Hiu - 0112216
3.3 S Cng tác...........................................................................................54
3.4 S Lp..................................................................................................54
4. Lp ch mc.....................................................................................................55
4.1 S UseCase...........................................................................................55
4.2 S Tun t ............................................................................................56
4.2.1 To mi ch mc .................................................................................56
4.2.2 Cp nht ch mc.................................................................................57
4.3 S Cng tác...........................................................................................58
4.3.1 To mi ch mc .................................................................................58
4.3.2 Cp nht ch mc.................................................................................59
4.4 S Lp..................................................................................................60
5. Tìm kim.........................................................................................................61
5.1 S UseCase...........................................................................................61
5.2 S Tun t ............................................................................................61
5.3 S Cng tác...........................................................................................62
5.4 S Lp..................................................................................................63
Chng 6: THIT K VÀ CÀI T..................................................................64
1. Cu trúc lu tr d liu....................................................................................64
1.1 Tp tin lu ni dung tài liu.......................................................................64
1.1.1 Cu trúc DTD / XSD...........................................................................64
1.1.2 Tài liu XML ......................................................................................66
1.2 Tp tin sau khi tách t tài liu....................................................................67
1.2.1 Cu trúc DTD / XSD...........................................................................67
1.2.2 Tài liu XML ......................................................................................68
1.3 Tp tin cha các t không th hin ni dung ca vn bn (stop list)...........70
1.3.1 Cu trúc DTD / XSD...........................................................................70
1.3.2 Tài liu XML ......................................................................................71
1.4 Tp tin ch mc o ( Inverted ).................................................................71
1.4.1 Cu trúc DTD / XSD...........................................................................71
1.4.2 Tài liu XML ......................................................................................73
1.5 Tp tin sau khi tách t câu hi....................................................................74
1.5.1 Cu trúc DTD / XSD...........................................................................74
1.5.2 Tài liu XML ......................................................................................75
1.6 Tp tin cha các t ca câu hi sau khi loi b các t trong danh sách
StopList...........................................................................................................76
1.6.1 Cu trúc DTD / XSD...........................................................................76
1.6.2 Tài liu XML ......................................................................................77
1.7 Tp tin cha các t trong câu hi và các tài liu liên quan..........................77
1.7.1 Cu trúc DTD / XSD...........................................................................77
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 7 Nguyn Trung Hiu - 0112216
1.7.2 Tài liu XML ......................................................................................79
1.8 Tp tin cha tng quan gia câu hi và các tài liu.............................80
1.8.1 Cu trúc DTD / XSD...........................................................................80
1.8.2 Tài liu XML ......................................................................................82
2. Chi tit các lp i tng ................................................................................83
2.1 Các lp trong quá trình tách t...................................................................83
2.1.1 S các lp......................................................................................83
2.1.2 Lp tách t ghép..................................................................................83
2.1.3 Lp tách t..........................................................................................86
2.1.4 Lp giao din tách t...........................................................................89
2.2 Các lp trong quá trình lp ch mc ...........................................................91
2.2.1 S các lp.......................................................................................91
2.2.2 Lp lp ch mc...................................................................................92
2.2.3 Lp giao din to mi ch mc ............................................................94
2.2.4 Lp giao din cp nht ch mc...........................................................96
2.3 Các lp trong quá trình tìm kim................................................................98
2.3.1 S các lp.......................................................................................98
2.3.2 Lp tìm kim.......................................................................................99
2.3.3 Lp giao din tìm kim .....................................................................105
3. Mt s màn hình giao din khác ....................................................................109
3.1 Màn hình chính ca chng trình.............................................................109
3.2 Màn hình tìm kim nhiu câu hi.............................................................110
3.3 Màn hình tìm kim chính ( giao din Web)..............................................112
3.4 Màn hình tr v các tài liu tìm c ( giao din Web) ............................113
3.5 Màn hình chi tit ca mt tài liu ( giao din Web)..................................114
Phn 3 : TNG KT..............................................................................................115
1. Chng trình th nghim...............................................................................115
2. ánh giá kt qut c .............................................................................115
3. Hng phát trin............................................................................................116
TÀI LIU THAM KHO .................................................................................117
1. Sách...............................................................................................................117
2. Lun vn........................................................................................................117
3. Website .........................................................................................................117
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 8 Nguyn Trung Hiu - 0112216
DANH SÁCH CÁC BNG
ng 1-1 So sánh IRS vi các h thng thông tin khác ..........................................................17
ng 4-1 Cách tp tin nghch o lu tr...............................................................................47
ng 4-2 Cách tp tin trc tip lu tr...................................................................................47
ng 4-3 Thêm mt tài liu mi vào tp tin nghch o.........................................................48
ng 5-1 Danh sách các Actor...............................................................................................50
ng 5-2 Danh sách các UseCase..........................................................................................50
DANH SÁCH CÁC HÌNH V
Hình 1-1 Môi trng ca h tìm kim thông tin.....................................................................13
Hình 1-2 Tng quan v chc nng ca mt h tìm kim thông tin..........................................14
Hình 2-1 H tìm kim thông tin tiêu biu...............................................................................18
Hình 3-1 Quá trình hc..........................................................................................................35
Hình 3-2 Giai n xác nh t cho tài liu mi.....................................................................36
Hình 4-1 Các tc sp theo th t ....................................................................................39
Hình 4-2 Quá trình chn t làm ch mc................................................................................45
Hình 5-1 S Use-case ca h thng...................................................................................49
Hình 5-2 S các lp th hin.............................................................................................51
Hình 5-3 S các lp x lý.................................................................................................52
Hình 5-4 S Use-case tách t............................................................................................53
Hình 5-5 S tun t tách t...............................................................................................53
Hình 5-6 S cng tác tách t.............................................................................................54
Hình 5-7 S lp tách t.....................................................................................................54
Hình 5-8 S use-case lp ch mc.....................................................................................55
Hình 5-9 S tun t to mi ch mc ................................................................................56
Hình 5-10 S tun t cp nht ch mc ............................................................................57
Hình 5-11 S cng tác to mi ch mc ............................................................................58
Hình 5-12 S cng tác cp nht ch mc...........................................................................59
Hình 5-13 S lp lp ch mc ...........................................................................................60
Hình 5-14 S use-case tìm kim .......................................................................................61
Hình 5-15 S tun t tìm kim..........................................................................................61
Hình 5-16 S cng tác tìm kim .......................................................................................62
Hình 5-17 S lp tìm kim ...............................................................................................63
Hình 6-1 S lp tách t.....................................................................................................83
Hình 6-2 Lp tách t ghép.....................................................................................................83
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 9 Nguyn Trung Hiu - 0112216
Hình 6-3 Lp tách t.............................................................................................................86
Hình 6-4 Lp giao din tách t..............................................................................................89
Hình 6-5 Màn hình tách t.....................................................................................................89
Hình 6-6 Màn hình chi tit tách t.........................................................................................90
Hình 6-7 S lp lp ch mc.............................................................................................91
Hình 6-8 Lp lp ch mc......................................................................................................92
Hình 6-9 Lp giao din to mi ch mc................................................................................94
Hình 6-10 Màn hình to mi ch mc ....................................................................................95
Hình 6-11 Lp Màn hình cp nht ch mc............................................................................96
Hình 6-12 Màn hình cp nht ch mc...................................................................................97
Hình 6-13 S lp tìm kim ...............................................................................................98
Hình 6-14 Lp x lý tìm kim...............................................................................................99
Hình 6-15 Lp giao din tìm kim.......................................................................................105
Hình 6-16 Màn hình tìm kim .............................................................................................106
Hình 6-17 Xem t khóa câu hi...........................................................................................106
Hình 6-18 Xem t khóa tài liu ...........................................................................................107
Hình 6-19 Màn hình chính...................................................................................................109
Hình 6-20 Màn hình tìm kim nhiu câu hi........................................................................110
Hình 6-21 Giao din tìm kim trên Web..............................................................................112
Hình 6-22 Giao din các tài liu tr v sau khi tìm kim......................................................113
Hình 6-23 Giao din chi tit ni dung ca tài liu................................................................114
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 10 Nguyn Trung Hiu - 0112216
U
Trong thi i bùng n thông tin nh hin nay, thông tin c lu tr trên máy
tính ngày càng nhiu do ó vic tìm kim thông tin chính xác là nhu cu thit yu i
i mi ngi trong mi lnh vc. Internet hin nay ã tr thành mt kho t liu khng
mà vic tìm kim thông tin trên kho t liu này cn phi c h tr bi các công c
tìm kim (search engine) tt. Các h thng tìm kim thông tin thông dng nh Google,
Yahoo Search ã áp ng c phn nào nhu cu ó ca mi ngi. Tuy nhiên, các h
thng này c xây dng x lý và tìm kim các vn bn ting Châu Âu, chúng cha
tht s phù hp cho các vn bn ting Vit. Do ó nhu cu phi có mt công c tìm
kim “hiu” và x lý tt các vn bn tíng Vit.
Các h tìm kim thông tin u phi thc hin giai n lp ch mc (indexing)
cho vn bn trích các t ch mc (index term) biu din tt nht ni dung ca vn
n. Giai n này ph thuc vào ngôn ng ca vn bn và phng pháp x lý tng
ngôn ngó. Hin nay cha có nhiu h thng tìm kim thông tin trên kho tài liu
ting Vit có khai thác các c trng ca ting Vit cho vic lp ch mc.
Vì vy mc tiêu ca lun vn này nhm xây dng mt h thng tìm kim thông
tin bng ting Vit có s dng các kt qu ca x lý ngôn ng t nhiên tng xác
nh c các ch mc là các t (word) hay t ghép (compound word) ca ting Vit.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 11 Nguyn Trung Hiu - 0112216
Phn 1 : TÌM HIU LÝ THUYT
Chng 1: NG QUAN V TÌM KIM THÔNG TIN
1. Gii thiu v tìm kim thông tin
1.1 Khái nim v tìm kim thông tin
Tìm kim thông tin là tìm kim trong mt tp tài liu ly ra các thông tin mà
ngi tìm kim quan tâm.
1.2 t s vn trong vic tìm kim thông tin:
t nhng nm 40, các vn trong vic lu tr thông tin và tìm kim thông
tin ã thu hút s chú ý rt ln. Vi mt lng thông tin khng l thì vic tìm kim
chính xác và nhanh chóng càng tr nên khó khn hn. Vi s ra i ca máy tính, rt
nhiu ý tng ln c a ra nhm cung cp mt h thng tìm kim thông minh và
chính xác. Tuy nhiên, vn tìm kim sao cho hiu qu vn cha c gii quyt.
nguyên tc, vic lu tr thông tin và tìm kim thông tin thì n gin. Gi s
có mt kho cha các tài liu và mt ngi mun tìm các tài liu liên quan n yêu cu
a mình. Ngi ó có thc tt c các tài liu trong kho, gi li các tài liu liên quan
và bi các tài liu không liên quan. Rõ ràng gii pháp này không thc t bi vì tn rt
nhiu thi gian.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 12 Nguyn Trung Hiu - 0112216
i s ra i ca máy vi tính tc cao, máy tính có th “c” thay cho con
ngi trích ra các tài liu có liên quan trong toàn b tp d liu. Tuy nhiên vn
lúc này là làm sao xác nh c tài liu nào liên quan n câu hi. Mc ích ca
t h thng tìm kim thông tin tng là truy lc c tt c các tài liu có liên quan
n yêu cu.
2. tìm kim thông tin – IRS
Sau ây là nh ngha v h thng tìm kim thông tin ca mt s tác gi: [2.1]
Salton (1989):
“H thng tìm kim thông tin x lý các tp tin lu tr và nhng yêu cu v
thông tin, xác nh và tìm t các tp tin nhng thông tin phù hp vi nhng yêu cu v
thông tin. Vic truy tìm nhng thông tin c thù ph thuc vào s tng t gia các
thông tin c lu tr và các yêu cu, c ánh giá bng cách so sánh các giá tr ca
các thuc tính i vi thông tin c lu tr và các yêu cu v thông tin.”
Kowalski (1997) :
“H thng truy tìm thông tin là mt h thng có kh nng lu tr, truy tìm và
duy trì thông tin. Thông tin trong nhng trng hp này có th bao gm vn bn, hình
nh, âm thanh, video và nhng i tng a phng tin khác.”
Hiu n gin thng tìm kim thông tin là mt h thng h tr cho ngi
dng tìm kim thông tin mt cách nhanh chóng và d dàng. Ngi s dng có
tha vào nhng câu hi, nhng yêu cu (dng ngôn ng t nhiên) và h thng s tìm
kim trong tp các tài liu (dng ngôn ng t nhiên) ã c lu tr tìm ra nhng
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 13 Nguyn Trung Hiu - 0112216
tài liu có liên quan, sau ó s sp xp các tài liu theo mc liên quan gim dn và
tr v cho ngi s dng.
3. Các thành phn ca mt h tìm kim thông tin [1.1]
m: tp các tài liu (DOCS) ã c lu tr trong kho d liu, tp các yêu cu
(REQS) ca ngi dùng, và mt s phng pháp tính tng quan (SIMILAR)
xác nh các tài liu áp ng cho các yêu cu.
Hình 1-1 Môi trng ca h tìm kim thông tin
Theo lý thuyt thì mi liên h gia các câu hi và các tài liu có th so sánh mt
cách trc tip. Nhng trên thc t thì u này không thc vì các câu hi và các tp
tài liu u dng vn bn, ch có con ngi c vào thì thy ngay c mi liên h
gia chúng, nhng ây ch là mt h thng máy móc không th suy lun nh con
ngi c. Chính vì th xác nh c mi liên h gia các câu hi và các tp tài
liu phi qua mt bc trung gian.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 14 Nguyn Trung Hiu - 0112216
Hình 1-2 Tng quan v chc nng ca mt h tìm kim thông tin
Trc ht chuyn i các câu hi thành các t riêng bit biu hin cho ni
dung ca câu hi gi là ngôn ng ch mc (Indexing language - LANG). Tách t trong
các tp tài liu và lp ch mc cho tài liu. Lúc này có th so sánh trc tip gia các t
a câu hi và các t ch mc ca tp tài liu. Và tó ta s d dàng hn xác nh
tng quan gia các câu hi và tp tài liu.
4. So sánh IRS vi các h thng thông tin khác
thng tìm kim thông tin cng tng t nh nhiu h thng x lý thông tin
khác. Hin nay các h thng thông tin quan trng nht là: h qun tr c s d liu
(DBMS), h qun lý thông tin (MIS), h h tr ra quyt nh (DSS), h tr li câu hi
(QAS) và h tìm kim thông tin (IR).
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 15 Nguyn Trung Hiu - 0112216
4.1 qun tr c s d liu (DBMS)
t c h thng thông tin tng nào cng da trên mt tp các mc c lu
tr (gi là s d liu) cn thit cho vic truy cp. Do ó h qun tr c s d liu
n gin là mt h thng c thit k nhm thao tác và duy trì u khin c s d
liu.
DBMS t chc lu tr các d liu ca mình di dng các bng. Mi mt c s
liu c lu tr thành nhiu bng khác nhau. Mi mt ct trong bng là mt thuc
tính, và mi mt dòng là mt b d liu c th. Trong mi mt bng có mt thuc tính
duy nht i din cho bng, nó không c trùng lp và ta gi ó là khoá chính. Các
ng có mi liên h vi nhau thông qua các khoá ngoi. DBMS có mt tp các lnh
tr cho ngi s dng truy vn n d liu ca mình. Vì vy mun truy vn n
CSDL trong DBMS ta phi hc ht các tp lnh này. Nhng ngc li nó s cung cp
cho ta các d liu y và hoàn toàn chính xác. Hin nay DBMS c s dng rng
rãi trên th gii. Mt s DBMS thông dng : Access, SQL Server, Oracle.
4.2 qun lý thông tin (IMS)
qun lý thông tin là h qun tr c s d liu nhng có thêm nhiu chc
nhng v vic qun lý. Nhng chc nng qun lý này ph thuc vào giá tr ca nhiu
kiu d liu khác nhau. Nói chung bt k h thng nào có mc ích c bit phc v
cho vic qun lý thì ta gi nó là h qun lý thông tin.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 16 Nguyn Trung Hiu - 0112216
4.3 h tr ra quyt nh (DSS)
h tr ra quyt nh s da vào các tp lut c hc, t nhng lut ã hc
rút ra nhng lut mi, sau khi gp mt vn nó s cn c vào vào tp các lut a
ra nhng quyt nh thay cho con ngi.
thng này ang c áp dng nhiu cho công vic nhn dng và chun óan
nh.
4.4 tr li câu hi (QAS)
tr li câu hi cung cp vic truy cp n các thông tin bng ngôn ng t
nhiên. Vic lu tr c s d liu thng bao gm mt s lng ln các vn liên
quan n các lnh vc riêng bit và các kin thc tng quát. Câu hi ca ngi dùng có
th dng ngôn ng t nhiên. Công vic ca h tr li câu hi là phân tích câu truy
n ca ngi dùng, so sánh vi các tri thc c lu tr, và tp hp các vn có liên
quan li a ra câu tr li thích hp.
Tuy nhiên, h tr li câu hi ch còn ang th nghim. Vic xác nh ý ngha
a ngôn ng t nhiên dng nh vn là chng ngi ln có th s dng rng rãi h
thng này.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 17 Nguyn Trung Hiu - 0112216
4.5 So sánh IRS vi các h thng thông tin khác
IRS DBMS QAS MIS
Tìm kim
i dung
trong các tài
liu.
Các phn t
có kiu d
liu ã c
nh ngha.
Các s kin
rõ ràng.
u tr
Các vn bn
ngôn ng t
nhiên.
Các phn t
liu
ng bng.
Các s kin
rõ ràng và các
kin thc
ng quát.
lý
Các câu truy
n không
chính xác.
Các câu truy
n có cu
trúc.
Các câu truy
n không
gii hn.
Ging DBMS
nhng h tr
thêm nhng
th tc( Tính
ng, tính
trung bình,
phép chiu…)
ng 1-1 So sánh IRS vi các h thng thông tin khác
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 18 Nguyn Trung Hiu - 0112216
Chng 2: XÂY DNG MT H THNG TÌM KIM
THÔNG TIN
1. Kin trúc ca h tìm kim thông tin. [1.3]
t h thng thông tin tiêu biu nh sau:
Hình 2-1 H tìm kim thông tin tiêu biu
thng tìm kim thông tin gm có 3 b phn chính : b phn phân tích vn
n, b phn lp ch mc, b phn so khp và sp xp các tài liu tr v.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 19 Nguyn Trung Hiu - 0112216
(1) phn phân tích vn bn: b phn này có nhim v phân tích các vn
n thu thp c thành các t riêng bit. Tng t, khi ngi dùng nhp câu truy vn
thì câu truy vn cng c phân tích thành các t riêng bit.
(2) phn lp ch mc : các t trích c t các vn bn thu thp c s
c b phn này la chn làm các t ch mc. Các t ch mc phi là các t th
hin c ni dung ca vn bn.
(3) phn so khp và sp xp các tài liu tr v: Các t trích c t câu
truy vn và các t ch mc ca vn bn sc so khp vi nhau tìm ra các tài liu
liên quan n câu truy vn. Mi tài liu có mt tng quan vi câu hi. Các tài liu
này sc sp xp theo tng quan gim dn và tr v cho ngi s dng.
2. t s mô hình xây dng mt h tìm kim thông tin [1.2]
c tiêu ca các h thng tìm kim thông tin là tr v các tài liu càng liên
quan n câu hi càng tt. Vì th ngi ta ã a ra rt nhiu mô hình tìm kim nhm
tính toán mt cách chính xác tng quan này. Sau ây là mt s mô hình tìm kim
bn:
2.1 Mô hình không gian vector
Mô hình không gian vector tính toán tng quan gia câu hi và tài liu bng
cách nh ngha mt vector biu din cho mi tài liu, và mt vector biu din cho câu
i [ Salton, 1875]. Mô hình da trên ý tng chính là ý ngha ca mt tài liu thì ph
thuc vào các tc s dng bên trong nó. Vector tài liu và vector câu hi sau ó s
c tính toán xác nh tng quan gia chúng. tng quan càng ln chng
tài liu ó càng liên quan n câu hi.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 20 Nguyn Trung Hiu - 0112216
Gi s mt tp tài liu ch gm có hai t là t
1
và t
2
. Vector xây dng c s
m có 2 thành phn: thành phn th nht biu din s xut hin ca t
1
, và thành phn
th hai biu din cho s xut hin ca t
2
. Cách n gin nht xây dng vector là
ánh 1 vào thành phn tng ng nu tó xut hin, và ánh 0 nu tó không xut
hin. Gi s tài liu ch gm có 2 t t
1
. Ta biu din cho tài liu này bi vector nh
phân nh sau: <1,0> Tuy nhiên, biu din nh vy không cho thy c tn s xut
hin ca mi t trong tài liu. Trong trng hp này, vector nên c biu din nh
sau: <2,0>
i vi mt câu hi ã cho, thay vì ch cn c so sánh các t trong tài liu vi
p các t trong câu hi, ta nên xem xét n tm quan trng ca mi t. Ý tng chính
là mt t xut hin tp trung trong mt s tài liu thì có trng s cao hn so vi mt t
phân b trong nhiu tài liu. Trng sc tính da trên tn s tài liu nghch o
(Inverse Document Frequency) liên quan n các tc cho:
n: s t phân bit trong tp tài liu
tf
ij
: s ln xut hin ca t t
j
trong tài liu D
i
(tn s)
df
j
: s tài liu có cha t t
j
idf
j
=
10
log
j
d
df
trong ó d là tng s tài liu
Vector c xây dng cho mi tài liu gm có n thành phn, mi thành phn là
giá tr trng sã c tính toán cho mi t trong tp tài liu. Các t trong tài liu
c gán trng s tng da vào tn s xut hin ca chúng trong tp tài liu và s
xut hin ca mi t trong mt tài liu riêng bit. Trng s ca mt t tng nu tó
xut hin thng xuyên trong mt tài liu và gim nu tó xut hin thng xuyên
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 21 Nguyn Trung Hiu - 0112216
trong tt c các tài liu. tính trng s ca t th t
j
trong tài liu D
i
, da vào công
thc:
d
ij
= tf
ij
* idf
j
d
ij
: là trng s ca t t
j
trong tài liu D
i
i vi h thng tìm kim thông tin theo mô hình vector, mi tài liu là mt
vector có dng : D
i
(d
i1
, d
i2
, …, d
in
) . Tng t, câu truy vn Q cng là mt vector có
ng : Q(w
q1
, w
q2
, …, w
qn
)
w
qj
: là trng s ca t t
j
trong câu truy vn Q.
tng quan (SC: similarity coeficient) gia câu truy vn Q và tài liu D
i
c tính nh sau:
SC(Q,D
i
) =
ij
1
w*
n
qj
j
d
=
∑
2.2 Tìm kim Boolean
Mô hình tìm kim Boolean khá n gin. Câu hi a vào phi dng biu thc
Boolean. Ngha là phi tha:
Ø Ng ngha rõ ràng
Ø Hình thc ngn gn
Do các t hoc xut hin hoc là không xut hin, nên trng s w
ij
ε {0,1}
Gi sa vào mt câu hi dng biu thc Boolean nh sau: t
1
and t
2
. Sau khi tìm
kim ta xác nh c các tài liu liên quan n t
1
là { d
1
, d
3
, d
5
} và các tài liu liên
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 22 Nguyn Trung Hiu - 0112216
quan n t
2
là {d
3
, d
5
, d
7
}. Nh vy vi phép and, các tài liu tha yêu cu ca ngi
dùng là {d
3
, d
5
}. Phng pháp này có mt s khuyt m nh sau:
Ø Các tài liu tr v không c sp xp (ranking)
Ø Câu hi tìm kim òi hi phi úng nh dng ca biu thc Boolean gây
khó khn cho ngi dùng
Ø t qu tr v có th là quá ít hoc quá nhiu tài liu
2.3 Tìm kim Boolean m rng
Mô hình tìm kim Boolean không h tr vic sp xp kt qu tr v bi vì các
tài liu hoc tha hoc không tha yêu cu Boolean. Tt c các tài liu tha mãn u
c tr v, nhng không có s c lng nào c tính toán cho s liên quan ca
chúng i vi câu hi.
Mô hình tìm kim Boolean m rng ra i nhm h tr vic sp xp (ranking)
t qu tr v da trên ý tng c bn là ánh trng s cho mi t trong câu hi và
trong tài liu. Gi s mt câu hi yêu cu (t
1
OR t
2
) và mt tài liu D có cha t
1
vi
trng s w
1
và t
2
vi trng s w
2
. Nu w
1
và w
2
u bng 1 thì tài liu nào có cha c
hai t này s có th t sp xp cao nht. Tài liu nào không cha mt trong hai t này
có th t sp xp thp nht. Ý tng n gin là tính khong cách Eclide tm
(w
1
, w
2
) ti gc:
SC(Q,D
i
) =
22
12
(w) (w)+
i trng s 0.5 và 0.5, SC(Q,D
i
) =
22
(0.5) (0.5)+ =0.707
SC cao nht nu w
1
và w
2
u bng 1. Khi ó:
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 23 Nguyn Trung Hiu - 0112216
SC(Q,D
i
) =
2
= 1.414
a SC vào khong [0,1], SC c tính nh sau:
SC( Q
t1 v t2
, d
i
) =
22
12
(w) (w)
2
+
Công thc này gi s là câu hi ch có toán t OR . i vi toán t AND, thay
vì tính khong cách ti gc, ta s tính khong cách n m (1,1). Câu hi nào càng
n n m (1,1) thì nó càng tho yêu cu ca toán t AND:
SC(Q
t1 ^ t2
, d
i
) = 1-
22
12
(1-w ) (1 w )
2
+−
2.4 rng trong vic thêm vào trng s ca câu hi
u câu hi có trng s là q
1
và q
2
thì tng quan sc tính nh sau:
SC(Q
q1 v q2
, d
i
) =
22 22
1 1 22
22
12
qw
qw
qq
+
+
SC(Q
q1 ^ q2
, d
i
) = 1- (
2222
1122
22
12
q (1-w ) (1 )qw
qq
+−
+
)
2.4.1 rng cho s t tu ý
tính khong cách Euclide trong không gian a chiu, tham s p c s
ng. Tham s p ch s bin i tm quan trng ca trng s trong vic ánh giá
thích hp.
tng quan SC tng quát nh sau:
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 24 Nguyn Trung Hiu - 0112216
SC(D, Q
( q i v q j )
) =
1
p p pp
p
i i jj
pp
ij
qw
qq
qw
+
+
SC(D, Q
( q i ^ q j )
) = 1 -
1
pppp
p
iijj
pp
ij
q(1-w ) q(1 w )
qq
+−
+
u p →∞ : chuyn v h thng Boolean thông thng (không có trng s)
u p = 1 : chuyn v h thng không gian vector
2.4.2 Thêm toán t tng
Các chin lc tìm kim không òi hi ngi dùng nhn bit các toán t phc
p. Trng s có thc gán tng và tài liu c sp xp bng cách chèn toán t
OR vào gia các t. Bt k tài liu nào có cha ít nht mt t trong câu hi sc sp
th t vi mt sm ln hn 0.
2.5 Mô hình xác sut
Mô hình tìm kim xác sut tính toán tng quan gia câu hi và tài liu da
vào xác sut mà tài liu ó liên quan n câu hi. Các lý thuyt v xác sut c áp
ng tính toán liên quan gia câu hi và tài liu. Các t trong câu hi c xem
là u mi xác nh tài liu liên quan. Ý tng chính là tính xác sut ca mi t
trong câu hi và sau ó s dng chúng tính xác sut mà tài liu liên quan n câu
i.
Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 25 Nguyn Trung Hiu - 0112216
2.6 ánh giá chung v các mô hình
Ø Mô hình Boolean c xem là mô hình yu nht trong các mô hình bi vì
nhã trình bày nó còn rt nhiu khuyt m.
Ø Theo kinh nghim ca Salton và Buckley thì nhìn chung mô hình vector
làm tt hn mô hình xác sut.
Lun vn ca chúng em s dng mô hình không gian vector xây dng mt
thng tìm kim thông tin ting Vit.
3. Các bc xây dng mt h tìm kim thông tin. [3.2]
3.1 Tách t tng cho tp các tài liu
i vi ting Anh, ta tách t da vào khong trng. Tuy nhiên i vi ting
Vit, giai n này tng i khó khn. Cu trúc ting Vit rt phc tp, không chn
thun da vào khong trng tách t. Hin nay có rt nhiu công c dùng tách t
ting Vit, mi phng pháp có u, khuyt m riêng. Các phng pháp này sc
trình bày chi tit hn chng III : Tách t tng.
3.2 p ch mc cho tài liu
Sau khi có c tp các tã c trích, ta s chn các t làm t ch mc.
Tuy nhiên, không phi t nào cng c chn làm t ch mc. Các t có kh nng i
din cho tài liu sc chn, các t này c gi là key word, do ó trc khi lp ch
c s là giai n tin x lý i vi các t trích c chn ra các key word thích
p. Ta s loi b danh sách các t ít có kh nng i din cho ni dung vn bn da