Tải bản đầy đủ (.pdf) (118 trang)

Xây dựng hệ thống tìm kiếm thông tin tiếng việt dựa trên các chỉ mục là các từ ghép

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.12 MB, 118 trang )


Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 1 Nguyn Trung Hiu - 0112216
I CM N
Chúng em xin gi li cm n chân thành nht n thy H Bo Quc, ngi ã
n tình hng dn, giúp  chúng em trong sut thi gian thc hin lun vn này.
Chúng con cm n Cha, M và gia ình, nhng ngi ã dy d, khuyn khích,
ng viên chúng con trong nhng lúc khó khn, to mi u kin cho chúng con
nghiên cu hc tp.
Chúng em cm n các thy, cô trong khoa Công Ngh Thông Tin ã dìu dt,
ging dy chúng em, giúp chúng em có nhng kin thc quý báu trong nhng nm hc
qua.
m n ch Lê Thúy Ngc và các bn ã tn tình óng góp ý kin cho lun vn
a chúng tôi.
c dù rt c gng nhng lun vn ca chúng em không tránh khi sai sót,
mong nhn c s thông cm và góp ý ca thy cô và các bn.
Tháng 7 nm 2005
Sinh viên
Nguyn Th Thanh Hà – Nguyn Trung Hiu

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 2 Nguyn Trung Hiu - 0112216
NHN XÉT CA GIÁO VIÊN HNG DN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………


……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……nm 2005
Ký tên

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 3 Nguyn Trung Hiu - 0112216
NHN XÉT CA GIÁO VIÊN PHN BIN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………

Ngày…… tháng……nm 2005
Ký tên

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 4 Nguyn Trung Hiu - 0112216
C LC
DANH SÁCH CÁC BNG...................................................................................8
DANH SÁCH CÁC HÌNH V..............................................................................8
Phn 1 : TÌM HIU LÝ THUYT..........................................................................11
Chng 1: TNG QUAN V TÌM KIM THÔNG TIN...................................11
1. Gii thiu v tìm kim thông tin......................................................................11
1.1 Khái nim v tìm kim thông tin................................................................11
1.2 Mt s vn  trong vic tìm kim thông tin: .............................................11
2. H tìm kim thông tin – IRS............................................................................12
3. Các thành phn ca mt h tìm kim thông tin [1.1]........................................13
4. So sánh IRS vi các h thng thông tin khác ...................................................14
4.1 H qun tr c s d liu (DBMS)..............................................................15
4.2 H qun lý thông tin (IMS) ........................................................................15
4.3 H h tr ra quyt nh (DSS)....................................................................16
4.4 H tr li câu hi (QAS) ............................................................................16
4.5 So sánh IRS vi các h thng thông tin khác..............................................17
Chng 2: XÂY DNG MT H THNG TÌM KIM THÔNG TIN............18
1. Kin trúc ca h tìm kim thông tin. [1.3]........................................................18
2. Mt s mô hình  xây dng mt h tìm kim thông tin [1.2]..........................19
2.1 Mô hình không gian vector ........................................................................19
2.2 Tìm kim Boolean .....................................................................................21
2.3 Tìm kim Boolean m rng .......................................................................22
2.4 M rng trong vic thêm vào trng s ca câu hi.....................................23
2.4.1 M rng cho s t tu ý ......................................................................23
2.4.2 Thêm toán t tng ..........................................................................24

2.5 Mô hình xác sut........................................................................................24
2.6 ánh giá chung v các mô hình .................................................................25
3. Các bc  xây dng mt h tìm kim thông tin. [3.2]...................................25
3.1 Tách t tng cho tp các tài liu............................................................25
3.2 Lp ch mc cho tài liu.............................................................................25
3.3 Tìm kim ...................................................................................................26
3.4 Sp xp các tài liu tr v (Ranking)..........................................................26
4. Nhng khó khn trong vic xây dng mt h thng tìm kim thông tin ting
Vit .....................................................................................................................26
4.1 Khó khn trong vic tách t ting Vit.......................................................27
4.2 Vn  bng mã ting Vit.........................................................................27

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 5 Nguyn Trung Hiu - 0112216
4.3 Các khó khn khác.....................................................................................27
Chng 3: TÁCH T TNG........................................................................29
1. Tách t trong Ting Anh .................................................................................29
2. Tách t trong Ting Vit .................................................................................29
2.1 Mt sc m chính v t ting Vit [2.2]..............................................29
2.1.1 Ting...................................................................................................29
2.1.2 T .......................................................................................................30
2.2 Tách t tng ting Vit .........................................................................30
3. Các phng pháp tách t ting Vit.................................................................30
3.1 fnTBL (Fast Transformation-based learning) [3.1].....................................30
3.1.1 Mô t...................................................................................................30
3.1.2 Áp dng tách t ting Vit...................................................................31
3.2 Longest Matching [1.4]..............................................................................37
3.3 Kt hp gia fnTBL và Longest Matching.................................................37
Chng 4: LP CH MC ..................................................................................38
1. Khái quát v h thng lp ch mc...................................................................38

2. Phng pháp lp ch mc [1.1]........................................................................38
2.1 Xác nh các t ch mc.............................................................................38
2.2 Các phng pháp tính trng s ca t........................................................40
2.2.1 Tn s tài liu nghch o....................................................................40
2.2.2  nhiu tín hiu (The Signal – Noise Ratio) ......................................40
2.2.3 Giá tr phân bit t (The Term Discrimination Value) .........................42
2.3 Lp ch mc tng cho tài liu ting Anh................................................43
3. Lp ch mc cho tài liu ting Vit..................................................................45
4. Tp tin nghch o tài liu ...............................................................................46
4.1 Phân bit gia tp tin nghch o và tp tin trc tip..................................46
4.2 Ti sao s dng tp tin nghch o  lp ch mc .....................................47
Phn 2 : PHÂN TÍCH VÀ THIT K....................................................................49
Chng 5: PHÂN TÍCH.......................................................................................49
1. S UseCase h thng..................................................................................49
2. S Lp........................................................................................................51
2.1 S các lp th hin................................................................................51
2.2 S các lp x lý ....................................................................................52
3. Tách t............................................................................................................53
3.1 S UseCase...........................................................................................53
3.2 S Tun t ............................................................................................53

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 6 Nguyn Trung Hiu - 0112216
3.3 S Cng tác...........................................................................................54
3.4 S Lp..................................................................................................54
4. Lp ch mc.....................................................................................................55
4.1 S UseCase...........................................................................................55
4.2 S Tun t ............................................................................................56
4.2.1 To mi ch mc .................................................................................56
4.2.2 Cp nht ch mc.................................................................................57

4.3 S Cng tác...........................................................................................58
4.3.1 To mi ch mc .................................................................................58
4.3.2 Cp nht ch mc.................................................................................59
4.4 S Lp..................................................................................................60
5. Tìm kim.........................................................................................................61
5.1 S UseCase...........................................................................................61
5.2 S Tun t ............................................................................................61
5.3 S Cng tác...........................................................................................62
5.4 S Lp..................................................................................................63
Chng 6: THIT K VÀ CÀI T..................................................................64
1. Cu trúc lu tr d liu....................................................................................64
1.1 Tp tin lu ni dung tài liu.......................................................................64
1.1.1 Cu trúc DTD / XSD...........................................................................64
1.1.2 Tài liu XML ......................................................................................66
1.2 Tp tin sau khi tách t tài liu....................................................................67
1.2.1 Cu trúc DTD / XSD...........................................................................67
1.2.2 Tài liu XML ......................................................................................68
1.3 Tp tin cha các t không th hin ni dung ca vn bn (stop list)...........70
1.3.1 Cu trúc DTD / XSD...........................................................................70
1.3.2 Tài liu XML ......................................................................................71
1.4 Tp tin ch mc o ( Inverted ).................................................................71
1.4.1 Cu trúc DTD / XSD...........................................................................71
1.4.2 Tài liu XML ......................................................................................73
1.5 Tp tin sau khi tách t câu hi....................................................................74
1.5.1 Cu trúc DTD / XSD...........................................................................74
1.5.2 Tài liu XML ......................................................................................75
1.6 Tp tin cha các t ca câu hi sau khi loi b các t trong danh sách
StopList...........................................................................................................76
1.6.1 Cu trúc DTD / XSD...........................................................................76
1.6.2 Tài liu XML ......................................................................................77

1.7 Tp tin cha các t trong câu hi và các tài liu liên quan..........................77
1.7.1 Cu trúc DTD / XSD...........................................................................77

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 7 Nguyn Trung Hiu - 0112216
1.7.2 Tài liu XML ......................................................................................79
1.8 Tp tin cha  tng quan gia câu hi và các tài liu.............................80
1.8.1 Cu trúc DTD / XSD...........................................................................80
1.8.2 Tài liu XML ......................................................................................82
2. Chi tit các lp i tng ................................................................................83
2.1 Các lp trong quá trình tách t...................................................................83
2.1.1 S  các lp......................................................................................83
2.1.2 Lp tách t ghép..................................................................................83
2.1.3 Lp tách t..........................................................................................86
2.1.4 Lp giao din tách t...........................................................................89
2.2 Các lp trong quá trình lp ch mc ...........................................................91
2.2.1 S các lp.......................................................................................91
2.2.2 Lp lp ch mc...................................................................................92
2.2.3 Lp giao din to mi ch mc ............................................................94
2.2.4 Lp giao din cp nht ch mc...........................................................96
2.3 Các lp trong quá trình tìm kim................................................................98
2.3.1 S các lp.......................................................................................98
2.3.2 Lp tìm kim.......................................................................................99
2.3.3 Lp giao din tìm kim .....................................................................105
3. Mt s màn hình giao din khác ....................................................................109
3.1 Màn hình chính ca chng trình.............................................................109
3.2 Màn hình tìm kim nhiu câu hi.............................................................110
3.3 Màn hình tìm kim chính ( giao din Web)..............................................112
3.4 Màn hình tr v các tài liu tìm c ( giao din Web) ............................113
3.5 Màn hình chi tit ca mt tài liu ( giao din Web)..................................114

Phn 3 : TNG KT..............................................................................................115
1. Chng trình th nghim...............................................................................115
2. ánh giá kt qut c .............................................................................115
3. Hng phát trin............................................................................................116
TÀI LIU THAM KHO .................................................................................117
1. Sách...............................................................................................................117
2. Lun vn........................................................................................................117
3. Website .........................................................................................................117

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 8 Nguyn Trung Hiu - 0112216
DANH SÁCH CÁC BNG
ng 1-1 So sánh IRS vi các h thng thông tin khác ..........................................................17
ng 4-1 Cách tp tin nghch o lu tr...............................................................................47
ng 4-2 Cách tp tin trc tip lu tr...................................................................................47
ng 4-3 Thêm mt tài liu mi vào tp tin nghch o.........................................................48
ng 5-1 Danh sách các Actor...............................................................................................50
ng 5-2 Danh sách các UseCase..........................................................................................50
DANH SÁCH CÁC HÌNH V
Hình 1-1 Môi trng ca h tìm kim thông tin.....................................................................13
Hình 1-2 Tng quan v chc nng ca mt h tìm kim thông tin..........................................14
Hình 2-1 H tìm kim thông tin tiêu biu...............................................................................18
Hình 3-1 Quá trình hc..........................................................................................................35
Hình 3-2 Giai n xác nh t cho tài liu mi.....................................................................36
Hình 4-1 Các tc sp theo th t ....................................................................................39
Hình 4-2 Quá trình chn t làm ch mc................................................................................45
Hình 5-1 S Use-case ca h thng...................................................................................49
Hình 5-2 S các lp th hin.............................................................................................51
Hình 5-3 S các lp x lý.................................................................................................52
Hình 5-4 S Use-case tách t............................................................................................53

Hình 5-5 S tun t tách t...............................................................................................53
Hình 5-6 S cng tác tách t.............................................................................................54
Hình 5-7 S lp tách t.....................................................................................................54
Hình 5-8 S use-case lp ch mc.....................................................................................55
Hình 5-9 S tun t to mi ch mc ................................................................................56
Hình 5-10 S tun t cp nht ch mc ............................................................................57
Hình 5-11 S cng tác to mi ch mc ............................................................................58
Hình 5-12 S cng tác cp nht ch mc...........................................................................59
Hình 5-13 S lp lp ch mc ...........................................................................................60
Hình 5-14 S use-case tìm kim .......................................................................................61
Hình 5-15 S tun t tìm kim..........................................................................................61
Hình 5-16 S cng tác tìm kim .......................................................................................62
Hình 5-17 S lp tìm kim ...............................................................................................63
Hình 6-1 S lp tách t.....................................................................................................83
Hình 6-2 Lp tách t ghép.....................................................................................................83

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 9 Nguyn Trung Hiu - 0112216
Hình 6-3 Lp tách t.............................................................................................................86
Hình 6-4 Lp giao din tách t..............................................................................................89
Hình 6-5 Màn hình tách t.....................................................................................................89
Hình 6-6 Màn hình chi tit tách t.........................................................................................90
Hình 6-7 S lp lp ch mc.............................................................................................91
Hình 6-8 Lp lp ch mc......................................................................................................92
Hình 6-9 Lp giao din to mi ch mc................................................................................94
Hình 6-10 Màn hình to mi ch mc ....................................................................................95
Hình 6-11 Lp Màn hình cp nht ch mc............................................................................96
Hình 6-12 Màn hình cp nht ch mc...................................................................................97
Hình 6-13 S lp tìm kim ...............................................................................................98
Hình 6-14 Lp x lý tìm kim...............................................................................................99

Hình 6-15 Lp giao din tìm kim.......................................................................................105
Hình 6-16 Màn hình tìm kim .............................................................................................106
Hình 6-17 Xem t khóa câu hi...........................................................................................106
Hình 6-18 Xem t khóa tài liu ...........................................................................................107
Hình 6-19 Màn hình chính...................................................................................................109
Hình 6-20 Màn hình tìm kim nhiu câu hi........................................................................110
Hình 6-21 Giao din tìm kim trên Web..............................................................................112
Hình 6-22 Giao din các tài liu tr v sau khi tìm kim......................................................113
Hình 6-23 Giao din chi tit ni dung ca tài liu................................................................114

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 10 Nguyn Trung Hiu - 0112216
U
Trong thi i bùng n thông tin nh hin nay, thông tin c lu tr trên máy
tính ngày càng nhiu do ó vic tìm kim thông tin chính xác là nhu cu thit yu i
i mi ngi trong mi lnh vc. Internet hin nay ã tr thành mt kho t liu khng
 mà vic tìm kim thông tin trên kho t liu này cn phi c h tr bi các công c
tìm kim (search engine) tt. Các h thng tìm kim thông tin thông dng nh Google,
Yahoo Search ã áp ng c phn nào nhu cu ó ca mi ngi. Tuy nhiên, các h
thng này c xây dng  x lý và tìm kim các vn bn ting Châu Âu, chúng cha
tht s phù hp cho các vn bn ting Vit. Do ó nhu cu phi có mt công c tìm
kim “hiu” và x lý tt các vn bn tíng Vit.
Các h tìm kim thông tin u phi thc hin giai n lp ch mc (indexing)
cho vn bn  trích các t ch mc (index term) biu din tt nht ni dung ca vn
n. Giai n này ph thuc vào ngôn ng ca vn bn và phng pháp x lý tng
ngôn ngó. Hin nay cha có nhiu h thng tìm kim thông tin trên kho tài liu
ting Vit có khai thác các c trng ca ting Vit cho vic lp ch mc.
Vì vy mc tiêu ca lun vn này nhm xây dng mt h thng tìm kim thông
tin bng ting Vit có s dng các kt qu ca x lý ngôn ng t nhiên tng  xác
nh c các ch mc là các t (word) hay t ghép (compound word) ca ting Vit.


Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 11 Nguyn Trung Hiu - 0112216
Phn 1 : TÌM HIU LÝ THUYT
Chng 1: NG QUAN V TÌM KIM THÔNG TIN
1. Gii thiu v tìm kim thông tin
1.1 Khái nim v tìm kim thông tin
Tìm kim thông tin là tìm kim trong mt tp tài liu  ly ra các thông tin mà
ngi tìm kim quan tâm.
1.2 t s vn  trong vic tìm kim thông tin:
 t nhng nm 40, các vn  trong vic lu tr thông tin và tìm kim thông
tin ã thu hút s chú ý rt ln. Vi mt lng thông tin khng l thì vic tìm kim
chính xác và nhanh chóng càng tr nên khó khn hn. Vi s ra i ca máy tính, rt
nhiu ý tng ln c a ra nhm cung cp mt h thng tìm kim thông minh và
chính xác. Tuy nhiên, vn  tìm kim sao cho hiu qu vn cha c gii quyt.
 nguyên tc, vic lu tr thông tin và tìm kim thông tin thì n gin. Gi s
có mt kho cha các tài liu và mt ngi mun tìm các tài liu liên quan n yêu cu
a mình. Ngi ó có thc tt c các tài liu trong kho, gi li các tài liu liên quan
và bi các tài liu không liên quan. Rõ ràng gii pháp này không thc t bi vì tn rt
nhiu thi gian.

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 12 Nguyn Trung Hiu - 0112216
i s ra i ca máy vi tính tc  cao, máy tính có th “c” thay cho con
ngi  trích ra các tài liu có liên quan trong toàn b tp d liu. Tuy nhiên vn 
lúc này là làm sao  xác nh c tài liu nào liên quan n câu hi. Mc ích ca
t h thng tìm kim thông tin tng là truy lc c tt c các tài liu có liên quan
n yêu cu.
2.  tìm kim thông tin – IRS
Sau ây là nh ngha v h thng tìm kim thông tin ca mt s tác gi: [2.1]

Salton (1989):
“H thng tìm kim thông tin x lý các tp tin lu tr và nhng yêu cu v
thông tin, xác nh và tìm t các tp tin nhng thông tin phù hp vi nhng yêu cu v
thông tin. Vic truy tìm nhng thông tin c thù ph thuc vào s tng t gia các
thông tin c lu tr và các yêu cu, c ánh giá bng cách so sánh các giá tr ca
các thuc tính i vi thông tin c lu tr và các yêu cu v thông tin.”
Kowalski (1997) :
“H thng truy tìm thông tin là mt h thng có kh nng lu tr, truy tìm và
duy trì thông tin. Thông tin trong nhng trng hp này có th bao gm vn bn, hình
nh, âm thanh, video và nhng i tng a phng tin khác.”
Hiu n gin  thng tìm kim thông tin là mt h thng h tr cho ngi
 dng tìm kim thông tin mt cách nhanh chóng và d dàng. Ngi s dng có
tha vào nhng câu hi, nhng yêu cu (dng ngôn ng t nhiên) và h thng s tìm
kim trong tp các tài liu (dng ngôn ng t nhiên) ã c lu tr tìm ra nhng

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 13 Nguyn Trung Hiu - 0112216
tài liu có liên quan, sau ó s sp xp các tài liu theo mc  liên quan gim dn và
tr v cho ngi s dng.
3. Các thành phn ca mt h tìm kim thông tin [1.1]
m: tp các tài liu (DOCS) ã c lu tr trong kho d liu, tp các yêu cu
(REQS) ca ngi dùng, và mt s phng pháp tính  tng quan (SIMILAR) 
xác nh các tài liu áp ng cho các yêu cu.
Hình 1-1 Môi trng ca h tìm kim thông tin
Theo lý thuyt thì mi liên h gia các câu hi và các tài liu có th so sánh mt
cách trc tip. Nhng trên thc t thì u này không thc vì các câu hi và các tp
tài liu u  dng vn bn, ch có con ngi c vào thì thy ngay c mi liên h
gia chúng, nhng ây ch là mt h thng máy móc không th suy lun nh con
ngi c. Chính vì th xác nh c mi liên h gia các câu hi và các tp tài
liu phi qua mt bc trung gian.


Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 14 Nguyn Trung Hiu - 0112216
Hình 1-2 Tng quan v chc nng ca mt h tìm kim thông tin
Trc ht chuyn i các câu hi thành các t riêng bit  biu hin cho ni
dung ca câu hi gi là ngôn ng ch mc (Indexing language - LANG). Tách t trong
các tp tài liu và lp ch mc cho tài liu. Lúc này có th so sánh trc tip gia các t
a câu hi và các t ch mc ca tp tài liu. Và tó ta s d dàng hn  xác nh
 tng quan gia các câu hi và tp tài liu.
4. So sánh IRS vi các h thng thông tin khác
 thng tìm kim thông tin cng tng t nh nhiu h thng x lý thông tin
khác. Hin nay các h thng thông tin quan trng nht là: h qun tr c s d liu
(DBMS), h qun lý thông tin (MIS), h h tr ra quyt nh (DSS), h tr li câu hi
(QAS) và h tìm kim thông tin (IR).

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 15 Nguyn Trung Hiu - 0112216
4.1  qun tr c s d liu (DBMS)
t c h thng thông tin tng nào cng da trên mt tp các mc c lu
tr (gi là  s d liu) cn thit cho vic truy cp. Do ó h qun tr c s d liu
n gin là mt h thng c thit k nhm thao tác và duy trì u khin c s d
liu.
DBMS t chc lu tr các d liu ca mình di dng các bng. Mi mt c s
 liu c lu tr thành nhiu bng khác nhau. Mi mt ct trong bng là mt thuc
tính, và mi mt dòng là mt b d liu c th. Trong mi mt bng có mt thuc tính
duy nht i din cho bng, nó không c trùng lp và ta gi ó là khoá chính. Các
ng có mi liên h vi nhau thông qua các khoá ngoi. DBMS có mt tp các lnh 
 tr cho ngi s dng truy vn n d liu ca mình. Vì vy mun truy vn n
CSDL trong DBMS ta phi hc ht các tp lnh này. Nhng ngc li nó s cung cp
cho ta các d liu y  và hoàn toàn chính xác. Hin nay DBMS c s dng rng

rãi trên th gii. Mt s DBMS thông dng : Access, SQL Server, Oracle.
4.2  qun lý thông tin (IMS)
 qun lý thông tin là h qun tr c s d liu nhng có thêm nhiu chc
nhng v vic qun lý. Nhng chc nng qun lý này ph thuc vào giá tr ca nhiu
kiu d liu khác nhau. Nói chung bt k h thng nào có mc ích c bit phc v
cho vic qun lý thì ta gi nó là h qun lý thông tin.

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 16 Nguyn Trung Hiu - 0112216
4.3  h tr ra quyt nh (DSS)
 h tr ra quyt nh s da vào các tp lut c hc, t nhng lut ã hc
rút ra nhng lut mi, sau khi gp mt vn  nó s cn c vào vào tp các lut a
ra nhng quyt nh thay cho con ngi.
 thng này ang c áp dng nhiu cho công vic nhn dng và chun óan
nh.
4.4  tr li câu hi (QAS)
 tr li câu hi cung cp vic truy cp n các thông tin bng ngôn ng t
nhiên. Vic lu tr c s d liu thng bao gm mt s lng ln các vn  liên
quan n các lnh vc riêng bit và các kin thc tng quát. Câu hi ca ngi dùng có
th dng ngôn ng t nhiên. Công vic ca h tr li câu hi là phân tích câu truy
n ca ngi dùng, so sánh vi các tri thc c lu tr, và tp hp các vn  có liên
quan li a ra câu tr li thích hp.
Tuy nhiên, h tr li câu hi ch còn ang th nghim. Vic xác nh ý ngha
a ngôn ng t nhiên dng nh vn là chng ngi ln  có th s dng rng rãi h
thng này.

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 17 Nguyn Trung Hiu - 0112216
4.5 So sánh IRS vi các h thng thông tin khác
IRS DBMS QAS MIS

Tìm kim
i dung
trong các tài
liu.
Các phn t
có kiu d
liu ã c
nh ngha.
Các s kin
rõ ràng.
u tr
Các vn bn
ngôn ng t
nhiên.
Các phn t
 liu 
ng bng.
Các s kin
rõ ràng và các
kin thc
ng quát.
 lý
Các câu truy
n không
chính xác.
Các câu truy
n có cu
trúc.
Các câu truy
n không

gii hn.
Ging DBMS
nhng h tr
thêm nhng
th tc( Tính
ng, tính
trung bình,
phép chiu…)
ng 1-1 So sánh IRS vi các h thng thông tin khác

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 18 Nguyn Trung Hiu - 0112216
Chng 2: XÂY DNG MT H THNG TÌM KIM
THÔNG TIN
1. Kin trúc ca h tìm kim thông tin. [1.3]
t h thng thông tin tiêu biu nh sau:
Hình 2-1 H tìm kim thông tin tiêu biu
 thng tìm kim thông tin gm có 3 b phn chính : b phn phân tích vn
n, b phn lp ch mc, b phn so khp và sp xp các tài liu tr v.

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 19 Nguyn Trung Hiu - 0112216
(1)  phn phân tích vn bn: b phn này có nhim v phân tích các vn
n thu thp c thành các t riêng bit. Tng t, khi ngi dùng nhp câu truy vn
thì câu truy vn cng c phân tích thành các t riêng bit.
(2)  phn lp ch mc : các t trích c t các vn bn thu thp c s
c b phn này la chn  làm các t ch mc. Các t ch mc phi là các t th
hin c ni dung ca vn bn.
(3)  phn so khp và sp xp các tài liu tr v: Các t trích c t câu
truy vn và các t ch mc ca vn bn sc so khp vi nhau  tìm ra các tài liu

liên quan n câu truy vn. Mi tài liu có mt  tng quan vi câu hi. Các tài liu
này sc sp xp theo  tng quan gim dn và tr v cho ngi s dng.
2. t s mô hình  xây dng mt h tìm kim thông tin [1.2]
c tiêu ca các h thng tìm kim thông tin là tr v các tài liu càng liên
quan n câu hi càng tt. Vì th ngi ta ã a ra rt nhiu mô hình tìm kim nhm
tính toán mt cách chính xác  tng quan này. Sau ây là mt s mô hình tìm kim
 bn:
2.1 Mô hình không gian vector
Mô hình không gian vector tính toán  tng quan gia câu hi và tài liu bng
cách nh ngha mt vector biu din cho mi tài liu, và mt vector biu din cho câu
i [ Salton, 1875]. Mô hình da trên ý tng chính là ý ngha ca mt tài liu thì ph
thuc vào các tc s dng bên trong nó. Vector tài liu và vector câu hi sau ó s
c tính toán  xác nh  tng quan gia chúng.  tng quan càng ln chng
 tài liu ó càng liên quan n câu hi.

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 20 Nguyn Trung Hiu - 0112216
Gi s mt tp tài liu ch gm có hai t là t
1
và t
2
. Vector xây dng c s
m có 2 thành phn: thành phn th nht biu din s xut hin ca t
1
, và thành phn
th hai biu din cho s xut hin ca t
2
. Cách n gin nht  xây dng vector là
ánh 1 vào thành phn tng ng nu tó xut hin, và ánh 0 nu tó không xut
hin. Gi s tài liu ch gm có 2 t t

1
. Ta biu din cho tài liu này bi vector nh
phân nh sau: <1,0> Tuy nhiên, biu din nh vy không cho thy c tn s xut
hin ca mi t trong tài liu. Trong trng hp này, vector nên c biu din nh
sau: <2,0>
i vi mt câu hi ã cho, thay vì ch cn c so sánh các t trong tài liu vi
p các t trong câu hi, ta nên xem xét n tm quan trng ca mi t. Ý tng chính
là mt t xut hin tp trung trong mt s tài liu thì có trng s cao hn so vi mt t
phân b trong nhiu tài liu. Trng sc tính da trên tn s tài liu nghch o
(Inverse Document Frequency) liên quan n các tc cho:
n: s t phân bit trong tp tài liu
tf
ij
: s ln xut hin ca t t
j
trong tài liu D
i
(tn s)
df
j
: s tài liu có cha t t
j
idf
j
=
10
log
j
d
df

trong ó d là tng s tài liu
Vector c xây dng cho mi tài liu gm có n thành phn, mi thành phn là
giá tr trng sã c tính toán cho mi t trong tp tài liu. Các t trong tài liu
c gán trng s tng da vào tn s xut hin ca chúng trong tp tài liu và s
xut hin ca mi t trong mt tài liu riêng bit. Trng s ca mt t tng nu tó
xut hin thng xuyên trong mt tài liu và gim nu tó xut hin thng xuyên

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 21 Nguyn Trung Hiu - 0112216
trong tt c các tài liu.  tính trng s ca t th t
j
trong tài liu D
i
, da vào công
thc:
d
ij
= tf
ij
* idf
j
d
ij
: là trng s ca t t
j
trong tài liu D
i
i vi h thng tìm kim thông tin theo mô hình vector, mi tài liu là mt
vector có dng : D
i

(d
i1
, d
i2
, …, d
in
) . Tng t, câu truy vn Q cng là mt vector có
ng : Q(w
q1
, w
q2
, …, w
qn
)
w
qj
: là trng s ca t t
j
trong câu truy vn Q.
 tng quan (SC: similarity coeficient) gia câu truy vn Q và tài liu D
i
c tính nh sau:
SC(Q,D
i
) =
ij
1
w*
n
qj

j
d
=

2.2 Tìm kim Boolean
Mô hình tìm kim Boolean khá n gin. Câu hi a vào phi  dng biu thc
Boolean. Ngha là phi tha:
Ø Ng ngha rõ ràng
Ø Hình thc ngn gn
Do các t hoc xut hin hoc là không xut hin, nên trng s w
ij
ε {0,1}
Gi sa vào mt câu hi dng biu thc Boolean nh sau: t
1
and t
2
. Sau khi tìm
kim ta xác nh c các tài liu liên quan n t
1
là { d
1
, d
3
, d
5
} và các tài liu liên

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 22 Nguyn Trung Hiu - 0112216
quan n t

2
là {d
3
, d
5
, d
7
}. Nh vy vi phép and, các tài liu tha yêu cu ca ngi
dùng là {d
3
, d
5
}. Phng pháp này có mt s khuyt m nh sau:
Ø Các tài liu tr v không c sp xp (ranking)
Ø Câu hi tìm kim òi hi phi úng nh dng ca biu thc Boolean gây
khó khn cho ngi dùng
Ø t qu tr v có th là quá ít hoc quá nhiu tài liu
2.3 Tìm kim Boolean m rng
Mô hình tìm kim Boolean không h tr vic sp xp kt qu tr v bi vì các
tài liu hoc tha hoc không tha yêu cu Boolean. Tt c các tài liu tha mãn u
c tr v, nhng không có s c lng nào c tính toán cho s liên quan ca
chúng i vi câu hi.
Mô hình tìm kim Boolean m rng ra i nhm h tr vic sp xp (ranking)
t qu tr v da trên ý tng c bn là ánh trng s cho mi t trong câu hi và
trong tài liu. Gi s mt câu hi yêu cu (t
1
OR t
2
) và mt tài liu D có cha t
1

vi
trng s w
1
và t
2
vi trng s w
2
. Nu w
1
và w
2
u bng 1 thì tài liu nào có cha c
hai t này s có th t sp xp cao nht. Tài liu nào không cha mt trong hai t này
 có th t sp xp thp nht. Ý tng n gin là tính khong cách Eclide tm
(w
1
, w
2
) ti gc:
SC(Q,D
i
) =
22
12
(w) (w)+
i trng s 0.5 và 0.5, SC(Q,D
i
) =
22
(0.5) (0.5)+ =0.707

SC cao nht nu w
1
và w
2
u bng 1. Khi ó:

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 23 Nguyn Trung Hiu - 0112216
SC(Q,D
i
) =
2
= 1.414
a SC vào khong [0,1], SC c tính nh sau:
SC( Q
t1 v t2
, d
i
) =
22
12
(w) (w)
2
+
Công thc này gi s là câu hi ch có toán t OR . i vi toán t AND, thay
vì tính khong cách ti gc, ta s tính khong cách n m (1,1). Câu hi nào càng
n n m (1,1) thì nó càng tho yêu cu ca toán t AND:
SC(Q
t1 ^ t2
, d

i
) = 1-
22
12
(1-w ) (1 w )
2
+−
2.4  rng trong vic thêm vào trng s ca câu hi
u câu hi có trng s là q
1
và q
2
thì  tng quan sc tính nh sau:
SC(Q
q1 v q2
, d
i
) =
22 22
1 1 22
22
12
qw
qw
qq
+
+
SC(Q
q1 ^ q2
, d

i
) = 1- (
2222
1122
22
12
q (1-w ) (1 )qw
qq
+−
+
)
2.4.1  rng cho s t tu ý
 tính khong cách Euclide trong không gian a chiu, tham s p c s
ng. Tham s p ch s bin i tm quan trng ca trng s trong vic ánh giá 
thích hp.
 tng quan SC tng quát nh sau:

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 24 Nguyn Trung Hiu - 0112216
SC(D, Q
( q i v q j )
) =
1
p p pp
p
i i jj
pp
ij
qw
qq

qw

+

+


SC(D, Q
( q i ^ q j )
) = 1 -
1
pppp
p
iijj
pp
ij
q(1-w ) q(1 w )
qq

+−

+


u p →∞ : chuyn v h thng Boolean thông thng (không có trng s)
u p = 1 : chuyn v h thng không gian vector
2.4.2 Thêm toán t tng
Các chin lc tìm kim không òi hi ngi dùng nhn bit các toán t phc
p. Trng s có thc gán tng và tài liu c sp xp bng cách chèn toán t
OR vào gia các t. Bt k tài liu nào có cha ít nht mt t trong câu hi sc sp

th t vi mt sm ln hn 0.
2.5 Mô hình xác sut
Mô hình tìm kim xác sut tính toán  tng quan gia câu hi và tài liu da
vào xác sut mà tài liu ó liên quan n câu hi. Các lý thuyt v xác sut c áp
ng  tính toán  liên quan gia câu hi và tài liu. Các t trong câu hi c xem
là u mi  xác nh tài liu liên quan. Ý tng chính là tính xác sut ca mi t
trong câu hi và sau ó s dng chúng  tính xác sut mà tài liu liên quan n câu
i.

Xây dng h thng tìm kim thông tin ting Vit da trên các ch mc là các t ghép
Nguyn Th Thanh Hà - 0112215 25 Nguyn Trung Hiu - 0112216
2.6 ánh giá chung v các mô hình
Ø Mô hình Boolean c xem là mô hình yu nht trong các mô hình bi vì
nhã trình bày nó còn rt nhiu khuyt m.
Ø Theo kinh nghim ca Salton và Buckley thì nhìn chung mô hình vector
làm tt hn mô hình xác sut.
Lun vn ca chúng em s dng mô hình không gian vector xây dng mt
 thng tìm kim thông tin ting Vit.
3. Các bc  xây dng mt h tìm kim thông tin. [3.2]
3.1 Tách t tng cho tp các tài liu
i vi ting Anh, ta tách t da vào khong trng. Tuy nhiên i vi ting
Vit, giai n này tng i khó khn. Cu trúc ting Vit rt phc tp, không chn
thun da vào khong trng  tách t. Hin nay có rt nhiu công c dùng  tách t
ting Vit, mi phng pháp có u, khuyt m riêng. Các phng pháp này sc
trình bày chi tit hn  chng III : Tách t tng.
3.2 p ch mc cho tài liu
Sau khi có c tp các tã c trích, ta s chn các t làm t ch mc.
Tuy nhiên, không phi t nào cng c chn làm t ch mc. Các t có kh nng i
din cho tài liu sc chn, các t này c gi là key word, do ó trc khi lp ch
c s là giai n tin x lý i vi các t trích c  chn ra các key word thích

p. Ta s loi b danh sách các t ít có kh nng i din cho ni dung vn bn da

×