Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
IC
M N
Chúng em xin g
i l
i c
m
n chân thành nh
t n th
y H
B
o Qu
c, ng
i
ã
n tình h ng d
n, giúp chúng em trong su
t th
i gian th
c hi
n lu
n v
n này.
Chúng con c
m
n Cha, M
và gia
ình, nh
ng ng i
ã d
y d
, khuy
n
khích,
ng
viên
chúng
con
trong
nh
ng
lúc
khó
kh
n,
t
o
m
i u
ki
n
cho
chúng
con
nghiên c
u h
c t
p.
Chúng
em
c
m
n
các
th
y,
cô
trong
khoa
Công
Ngh
Thông
Tin
ã
dìu
d
t,
gi
ng d
y chúng em, giúp chúng em có nh
ng ki
n th
c quý báu trong nh
ng n
m h
c
qua.
m
n ch
Lê Thúy Ng
c và các b
n
ã t
n tình
óng góp ý ki
n cho lu
n v
n
a chúng tôi.
c
dù
r
t
c
g
ng
nh
ng
lu
n
v
n
c
a
chúng
em
không
tránh
kh
i
sai
sót
,
mong nh
n c s
thông c
m và góp ý c
a th
y cô và các b
n.
Tháng 7 n
m 2005
Sinh viên
Nguy
n Th
Thanh Hà – Nguy
n Trung Hi
u
Nguy
n Th
Thanh Hà - 0112215 1 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
NH
N
XÉT
C
A
GIÁO
VIÊN
H NG
D
N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………
……………………………………………………………………………………
Ngày…… tháng……n
m 2005
Ký tên
Nguy
n Th
Thanh Hà - 0112215 2 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
NH
N
XÉT
C
A
GIÁO
VIÊN
PH
N
BI
N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………
……………………………………………………………………………………
Ngày…… tháng……n
m 2005
Ký tên
Nguy
n Th
Thanh Hà - 0112215 3 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
C L
C
DANH SÁCH CÁC B
NG
8
DANH SÁCH CÁC HÌNH V
8
Ph
n
1
:
TÌM
HI
U
LÝ
THUY
T
11
Ch ng
1:
T
NG
QUAN
V TÌM
KI
M
THÔNG
TIN
11
1. Gi
i thi
u v
tìm ki
m thông tin
11
1.1 Khái ni
m v
tìm ki
m thông tin
11
1.2 M
t s
v
n trong vi
c tìm ki
m thông tin:
11
2. H
tìm ki
m thông tin – IRS
12
3. Các thành ph
n c
a m
t h
tìm ki
m thông tin [1.1]
13
4. So sánh IRS v
i các h
th
ng thông tin khác
14
4.1 H
qu
n tr
c
s
d
li
u (DBMS)
15
4.2 H
qu
n lý thông tin (IMS)
15
4.3 H
h
tr
ra quy
t nh (DSS)
16
4.4 H
tr
l
i câu h
i (QAS)
16
4.5 So sánh IRS v
i các h
th
ng thông tin khác
17
Ch ng
2:
XÂY
D
NG
M
T
H TH
NG
TÌM
KI
M
THÔNG
TIN
18
1. Ki
n trúc c
a h
tìm ki
m thông tin. [1.3]
18
2. M
t s
mô hình xây d
ng m
t h
tìm ki
m thông tin [1.2]
19
2.1 Mô hình không gian vector
19
2.2 Tìm ki
m Boolean
21
2.3 Tìm ki
m Boolean m
r
ng
22
2.4 M
r
ng trong vi
c thêm vào tr
ng s
c
a câu h
i
23
2.4.1 M
r
ng cho s
t
tu
ý
23
2.4.2 Thêm toán t
t ng
24
2.5 Mô hình xác su
t
24
2.6 ánh giá chung v
các mô hình
25
3. Các b c xây d
ng m
t h
tìm ki
m thông tin. [3.2]
25
3.1 Tách t
t ng cho t
p các tài li
u
25
3.2 L
p ch
m
c cho tài li
u
25
3.3 Tìm ki
m
26
3.4 S
p x
p các tài li
u tr
v
(Ranking)
26
4. Nh
ng khó kh
n trong vi
c xây d
ng m
t h
th
ng tìm ki
m thông tin ti
ng
Vi
t
26
4.1 Khó kh
n trong vi
c tách t
ti
ng Vi
t
27
4.2 V
n b
ng mã ti
ng Vi
t
27
Nguy
n Th
Thanh Hà - 0112215 4 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
4.3 Các khó kh
n khác
27
Ch ng
3:
TÁCH
T T NG
29
1. Tách t
trong Ti
ng Anh
29
2. Tách t
trong Ti
ng Vi
t
29
2.1 M
t s c m chính v
t
ti
ng Vi
t [2.2]
29
2.1.1 Ti
ng
29
2.1.2 T
30
2.2 Tách t
t ng ti
ng Vi
t
30
3. Các ph ng pháp tách t
ti
ng Vi
t
30
3.1 fnTBL (Fast Transformation-based learning) [3.1]
30
3.1.1 Mô t
30
3.1.2 Áp d
ng tách t
ti
ng Vi
t
31
3.2 Longest Matching [1.4]
37
3.3 K
t h
p gi
a fnTBL và Longest Matching
37
Ch ng
4:
L
P
CH
M
C
38
1. Khái quát v
h
th
ng l
p ch
m
c
38
2. Ph ng pháp l
p ch
m
c [1.1]
38
2.1 Xác nh các t
ch
m
c
38
2.2 Các ph ng pháp tính tr
ng s
c
a t
40
2.2.1 T
n s
tài li
u ngh ch o
40
2.2.2 nhi
u tín hi
u (The Signal – Noise Ratio)
40
2.2.3 Giá tr
phân bi
t t
(The Term Discrimination Value)
42
2.3 L
p ch
m
c t ng cho tài li
u ti
ng Anh
43
3. L
p ch
m
c cho tài li
u ti
ng Vi
t
45
4. T
p tin ngh ch o tài li
u
46
4.1 Phân bi
t gi
a t
p tin ngh ch o và t
p tin tr
c ti
p
46
4.2 T
i sao s
d
ng t
p tin ngh ch o l
p ch
m
c
47
Ph
n
2
:
PHÂN
TÍCH
VÀ
THI
T
K
49
Ch ng
5:
PHÂN
TÍCH
49
1. S UseCase h
th
ng
49
2. S L
p
51
2.1 S các l
p th
hi
n
51
2.2 S các l
p x
lý
52
3. Tách t
53
3.1 S UseCase
53
3.2 S Tu
n t
53
Nguy
n Th
Thanh Hà - 0112215 5 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
3.3 S C
ng tác
54
3.4 S L
p
54
4. L
p ch
m
c
55
4.1 S UseCase
55
4.2 S Tu
n t
56
4.2.1 T
o m
i ch
m
c
56
4.2.2 C
p nh
t ch
m
c
57
4.3 S C
ng tác
58
4.3.1 T
o m
i ch
m
c
58
4.3.2 C
p nh
t ch
m
c
59
4.4 S L
p
60
5. Tìm ki
m
61
5.1 S UseCase
61
5.2 S Tu
n t
61
5.3 S C
ng tác
62
5.4 S L
p
63
Ch ng
6:
THI
T
K VÀ
CÀI T
64
1. C
u trúc l
u tr
d
li
u
64
1.1 T
p tin l
u n
i dung tài li
u
64
1.1.1 C
u trúc DTD / XSD
64
1.1.2 Tài li
u XML
66
1.2 T
p tin sau khi tách t
tài li
u
67
1.2.1 C
u trúc DTD / XSD
67
1.2.2 Tài li
u XML
68
1.3 T
p tin ch
a các t
không th
hi
n n
i dung c
a v
n b
n (stop list)
70
1.3.1 C
u trúc DTD / XSD
70
1.3.2 Tài li
u XML
71
1.4 T
p tin ch
m
c o ( Inverted ).
71
1.4.1 C
u trúc DTD / XSD
71
1.4.2 Tài li
u XML
73
1.5 T
p tin sau khi tách t
câu h
i
74
1.5.1 C
u trúc DTD / XSD
74
1.5.2 Tài li
u XML
75
1.6 T
p tin ch
a các t
c
a câu h
i sau khi lo
i b
các t
trong danh sách
StopList
76
1.6.1 C
u trúc DTD / XSD
76
1.6.2 Tài li
u XML
77
1.7 T
p tin ch
a các t
trong câu h
i và các tài li
u liên quan
77
1.7.1 C
u trúc DTD / XSD
77
Nguy
n Th
Thanh Hà - 0112215 6 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
1.7.2 Tài li
u XML
79
1.8 T
p tin ch
a t ng quan gi
a câu h
i và các tài li
u
8
0
1.8.1 C
u trúc DTD / XSD
80
1.8.2 Tài li
u XML
82
2. Chi ti
t các l
p it ng
83
2.1 Các l
p trong quá trình tách t
83
2.1.1 S các l
p
83
2.1.2 L
p tách t
ghép
83
2.1.3 L
p tách t
86
2.1.4 L
p giao di
n tách t
89
2.2 Các l
p trong quá trình l
p ch
m
c
91
2.2.1 S các l
p
91
2.2.2 L
p l
p ch
m
c
92
2.2.3 L
p giao di
n t
o m
i ch
m
c
94
2.2.4 L
p giao di
n c
p nh
t ch
m
c
96
2.3 Các l
p trong quá trình tìm ki
m
98
2.3.1 S các l
p
98
2.3.2 L
p tìm ki
m
99
2.3.3 L
p giao di
n tìm ki
m
105
3. M
t s
màn hình giao di
n khác
109
3.1 Màn hình chính c
a ch ng trình
109
3.2 Màn hình tìm ki
m nhi
u câu h
i
110
3.3 Màn hình tìm ki
m chính ( giao di
n Web)
112
3.4 Màn hình tr
v
các tài li
u tìm c ( giao di
n Web)
11
3
3.5 Màn hình chi ti
t c
a m
t tài li
u ( giao di
n Web)
114
Ph
n
3
:
T
NG
K
T
115
1. Ch ng trình th
nghi
m 115
2. ánh giá k
t qu t c 115
3. H ng phát tri
n 116
TÀI LI
U THAM KH
O
117
1. Sách
117
2. Lu
n v
n
117
3. Website
117
Nguy
n Th
Thanh Hà - 0112215 7 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
DANH
SÁCH
CÁC
B
NG
ng 1-1 So sánh IRS v
i các h
th
ng thông tin khác
17
ng 4-1 Cách t
p tin ngh ch o l
u tr
47
ng 4-2 Cách t
p tin tr
c ti
p l
u tr
47
ng 4-3 Thêm m
t tài li
u m
i vào t
p tin ngh ch
o 48
ng 5-1 Danh sách các
Actor
50
ng 5-2 Danh sách các UseCase
50
DANH
SÁCH
CÁC
HÌNH
V
Hình 1-1 Môi tr ng c
a h
tìm ki
m thông tin
13
Hình 1-2 T
ng quan v
ch
c n
ng c
a m
t h
tìm ki
m thông
tin
14
Hình 2-1 H
tìm ki
m thông tin tiêu bi
u
18
Hình 3-1 Quá trình h
c
35
Hình 3-2 Giai n xác nh t
cho tài li
u m
i 36
Hình 4-1 Các t c s
p theo th
t
39
Hình 4-2 Quá trình ch
n t
làm ch
m
c
45
Hình 5-1 S Use-case c
a h
th
n
g 49
Hình 5-2 S các l
p th
hi
n 51
Hình 5-3 S các l
p x
lý
52
Hình 5-4 S Use-case tách t
53
Hình 5-5 S tu
n t
tách t
53
Hình 5-6 S c
ng tác tách t
54
Hình 5-7 S l
p tách t
.54
Hình 5-8 S use-case l
p ch
m
c
55
Hình 5-9 S tu
n t
t
o m
i ch
m
c
56
Hình 5-10 S tu
n t
c
p nh
t ch
m
c
57
Hình 5-11 S c
ng tác t
o m
i ch
m
c
58
Hình 5-12 S c
ng tác c
p nh
t ch
m
c
59
Hình 5-13 S l
p l
p ch
m
c
60
Hình 5-14 S use-case tìm ki
m
61
Hình 5-15 S tu
n t
tìm ki
m 61
Hình 5-16 S c
ng tác tìm ki
m
62
Hình 5-17 S l
p tìm ki
m
63
Hình 6-1 S l
p tách t
.83
Hình 6-2 L
p tách t
ghép
83
Nguy
n Th
Thanh Hà - 0112215 8 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
Hình 6-3 L
p tách t
86
Hình 6-4 L
p giao di
n tách t
89
Hình 6-5 Màn hình tách t
89
Hình 6-6 Màn hình chi ti
t tách t
90
Hình 6-7 S l
p l
p ch
m
c
91
Hình 6-8 L
p l
p ch
m
c
92
Hình 6-9 L
p giao di
n t
o m
i ch
m
c
94
Hình 6-10 Màn hình t
o m
i ch
m
c
95
Hình 6-11 L
p Màn hình c
p nh
t ch
m
c
96
Hình 6-12 Màn hình c
p nh
t ch
m
c
97
Hình 6-13 S l
p tìm ki
m
98
Hình 6-14 L
p x
lý tìm ki
m
99
Hình 6-15 L
p giao di
n tìm ki
m
105
Hình 6-16 Màn hình tìm ki
m
106
Hình 6-17 Xem t
khóa câu h
i
106
Hình 6-18 Xem t
khóa tài li
u
107
Hình 6-19 Màn hình chính
109
Hình 6-20 Màn hình tìm ki
m nhi
u câu h
i
110
Hình 6-21 Giao di
n tìm ki
m trên Web
112
Hình 6-22 Giao di
n các tài li
u tr
v
sau khi tìm ki
m
113
Hình 6-23 Giao di
n chi ti
t n
i dung c
a tài li
u
114
Nguy
n Th
Thanh Hà - 0112215 9 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
U
Trong th
i i bùng n
thông tin nh
hi
n nay, thông tin c l
u tr
trên
máy
tính ngày càng nhi
u do
ó vi
c tìm ki
m thông tin chính xác là nhu c
u thi
t y
u
i
i m
i ng i trong m
i l nh v
c. Internet hi
n nay
ã tr
thành m
t kho t
li
u kh
n
g
mà vi
c tìm ki
m thông tin trên kho t
li
u này c
n ph
i c h
tr
b
i các
công c
tìm ki
m (search engine) t
t. Các h
th
ng tìm ki
m thông tin thông d
ng nh
Google,
Yahoo Search
ã
áp
ng c ph
n nào nhu c
u
ó c
a m
i ng i. Tuy nhiên,
các h
th
ng này c xây d
ng x
lý và tìm ki
m các v
n b
n ti
ng Châu Âu, chúng ch
a
th
t s
phù h
p cho các
v
n b
n ti
ng Vi
t.
Do
ó nhu c
u ph
i có m
t công c
tìm
ki
m “hi
u” và x
lý t
t các v
n b
n tí
ng Vi
t.
Các h
tìm ki
m thông tin u ph
i th
c hi
n giai n l
p ch
m
c
(indexing)
cho v
n b
n trích các t
ch
m
c (index term) bi
u di
n t
t nh
t n
i dung c
a v
n
n. Giai n này ph
thu
c vào ngôn ng
c
a v
n b
n và ph ng pháp x
lý t
ng
ngôn
ng ó.
Hi
n
nay
ch
a
có
nhi
u
h
th
ng tìm
ki
m
thông tin
trên
kho
tài
li
u
ti
ng Vi
t có khai thác các c tr
ng c
a ti
ng Vi
t cho vi
c l
p ch
m
c.
Vì v
y m
c tiêu c
a lu
n v
n này nh
m xây d
ng m
t h
th
ng tìm ki
m thông
tin b
ng ti
ng Vi
t có s
d
ng các k
t qu
c
a x
lý ngôn ng
t
nhiên t ng
xác
nh c các ch
m
c là các t
(word) hay t
ghép (compound word) c
a ti
ng Vi
t.
Nguy
n Th
Thanh Hà - 0112215 10 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
Ph
n
1
:
TÌM
HI
U
LÝ
THUY
T
Ch ng
1: NG
QUAN
V
TÌM
KI
M
THÔNG
TIN
1.
Gi
i
thi
u
v
tìm
ki
m
thông
tin
1.1
Khái
ni
m
v
tìm
ki
m
thông
tin
Tìm ki
m thông tin là tìm ki
m trong m
t t
p tài li
u l
y ra các thông tin
mà
ng i tìm ki
m quan tâm.
1.2 t s
v
n trong
vi
c
tìm
ki
m
thông
tin:
t
nh
ng n
m 40, các v
n trong vi
c l
u tr
thông tin và tìm ki
m
thông
tin
ã
thu
hút
s
chú
ý
r
t
l
n.
V
i m
t
l ng thông tin
kh
ng l
thì
vi
c
tìm
ki
m
chính xác và nhanh chóng càng tr
nên khó kh
n h
n. V
i s
ra i c
a máy
tính, r
t
nhi
u ý t ng l
n c a ra nh
m cung c
p m
t h
th
ng tìm ki
m thông minh
và
chính xác. Tuy nhiên, v
n tìm ki
m sao cho hi
u qu
v
n ch
a c gi
i quy
t.
nguyên
t
c
, vi
c l
u tr
thông tin và tìm ki
m thông tin thì n gi
n. Gi
s
có m
t kho ch
a các tài li
u và m
t ng i mu
n tìm các tài li
u liên quan n yêu
c
u
a mình. Ng i
ó có th c t
t c
các tài li
u trong kho, gi
l
i các tài li
u liên
quan
và b i các tài li
u không liên quan. Rõ ràng gi
i pháp này không th
c t
b
i vì t
n r
t
nhi
u th
i gian.
Nguy
n Th
Thanh Hà - 0112215 11 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
i
s
ra i
c
a
máy
vi
tính
t
c cao,
máy tính có th
“ c” thay cho
con
ng i trích ra các tài li
u có liên quan trong toàn b
t
p d
li
u. Tuy nhiên v
n
lúc này là làm sao xác nh c tài li
u nào liên quan n câu h
i. M
c
ích
c
a
t h
th
ng tìm ki
m thông tin t ng là truy l
c c t
t c
các tài li
u có liên
quan
n yêu c
u.
2. tìm
ki
m
thông
tin
–
IRS
Sau
ây là nh ngh a v
h
th
ng tìm ki
m thông tin c
a m
t s
tác gi
:
[2.1]
Salton (1989):
“H
th
ng
tìm
ki
m
thông
tin
x
lý
các
t
p
tin
l
u
tr và
nh
ng
yêu
c
u
v
thông tin, xác nh và tìm t
các t
p tin nh
ng
thông tin phù h
p v
i nh
ng yêu c
u v
thông tin. Vi
c truy tìm nh
ng thông tin c thù ph
thu
c
vào s
t ng t
gi
a
các
thông tin c l
u tr
và các yêu c
u, c
ánh giá b
ng cách so sánh các giá tr
c
a
các thu
c tính i v
i thông tin c l
u tr
và các yêu c
u v
thông tin.”
Kowalski (1997) :
“H
th
ng truy tìm thông tin là
m
t h
th
ng có kh
n
ng l
u tr
, truy
tìm và
duy trì thông tin. Thông tin trong nh
ng tr ng h
p này có th
bao g
m v
n b
n,
hình
nh, âm thanh, video và nh
ng
it
ng
a ph ng ti
n khác.”
Hi
u n gi
n
th
ng
tìm
ki
m
thông
tin
là
m
t
h
th
ng
h
tr
cho
ng
i
d
ng
tìm
ki
m
thông
tin
m
t
cách
nhanh
chóng
và
d
dàng.
Ng i s
d
n
g có
th a vào nh
ng câu h
i, nh
ng yêu c
u (d
ng ngôn ng
t
nhiên) và h
th
ng s
tìm
ki
m trong t
p các tài li
u (d
ng ngôn ng
t
nhiên)
ã c l
u tr tìm ra nh
ng
Nguy
n Th
Thanh Hà - 0112215 12 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
tài li
u có liên quan, sau
ó s
s
p x
p các tài li
u theo m
c liên quan gi
m d
n và
tr
v
cho ng i s
d
ng.
3.
Các
thành
ph
n
c
a
m
t
h
tìm
ki
m
thông
tin
[1.1]
m: t
p các tài li
u (DOCS)
ã c l
u tr
trong kho d
li
u, t
p các yêu c
u
(REQS)
c
a
ng i
dùng,
và
m
t
s
ph ng
pháp
tính t ng quan
(SIMILAR)
xác nh các tài li
u
áp
ng cho các yêu c
u.
Hình
1-1
Môi
tr ng
c
a
h
tìm
ki
m
thông
tin
Theo lý thuy
t thì m
i liên h
gi
a các câu h
i và các tài li
u có th
so sánh m
t
cách tr
c ti
p. Nh
ng trên th
c t
thì u này không th c vì các câu h
i và các
t
p
tài li
u u d
ng v
n b
n, ch
có con ng i c vào thì th
y ngay c m
i
liên h
gi
a
chúng,
nh
ng ây
ch
là
m
t
h
th
ng
máy
móc
không th
suy
lu
n
nh
co
n
ng i c. Chính vì th xác nh c m
i liên h
gi
a các câu h
i và các t
p
tài
li
u ph
i qua m
t b c trung gian.
Nguy
n Th
Thanh Hà - 0112215 13 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
Hình
1-2
T
ng
quan
v
ch
c
n
ng
c
a
m
t
h
tìm
ki
m
thông
tin
Tr c h
t chuy
n i các câu h
i thành các t
riêng bi
t bi
u hi
n cho
n
i
dung c
a câu h
i g
i là ngôn ng
ch
m
c (Indexing language - LANG). Tách t
trong
các t
p tài li
u và l
p ch
m
c cho tài li
u. Lúc này có th
so sánh tr
c ti
p gi
a các t
a câu h
i và các t
ch
m
c c
a t
p tài li
u. Và t ó ta s
d
dàng h
n xác
nh
t ng quan gi
a các câu h
i và t
p tài li
u.
4.
So
sánh
IRS
v
i
các
h
th
ng
thông
tin
khác
th
ng tìm ki
m thông tin c
ng t ng t
nh
nhi
u h
th
ng x
lý thông
tin
khác.
Hi
n
nay
các
h
th
ng
thông tin
quan
tr
ng
nh
t
là:
h
qu
n
tr
c
s
d
li
u
(DBMS), h
qu
n lý thông tin (MIS), h
h
tr
ra quy
t nh (DSS), h
tr
l
i câu
h
i
(QAS) và h
tìm ki
m thông tin (IR).
Nguy
n Th
Thanh Hà - 0112215 14 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
4.1 qu
n
tr
c
s
d
li
u
(DBMS)
t c
h
th
ng thông tin t ng nào c
ng d
a trên m
t t
p các m
c
cl
u
tr
(g
i là s
d
li
u) c
n thi
t cho vi
c truy c
p. Do
ó h
qu
n tr
c
s
d
li
u
n gi
n là m
t h
th
ng c thi
t k
nh
m thao tác và duy trì u khi
n c
s
d
li
u.
DBMS t
ch
c l
u tr
các d
li
u c
a mình d i d
ng các b
ng. M
i m
t c
s
li
u c l
u tr
thành nhi
u b
ng khác nhau. M
i m
t c
t trong b
ng là m
t thu
c
tính, và m
i m
t dòng là m
t b
d
li
u c
th
. Trong m
i m
t b
ng có m
t thu
c tính
duy nh
t i di
n cho b
ng, nó không c trùng l
p và ta g
i
ó là khoá chính.
Các
ng có m
i liên h
v
i nhau thông qua các khoá ngo
i. DBMS có m
t t
p các l
nh
tr
cho
ng i
s
d
ng truy
v
n n
d
li
u
c
a
mình.
Vì
v
y
mu
n
truy
v
n
n
CSDL trong DBMS ta ph
i h
c h
t các t
p l
nh này. Nh
ng ng c l
i nó s
cung
c
p
cho ta các d
li
u y và hoàn toàn chính xác. Hi
n nay DBMS c s
d
ng
r
ng
rãi trên th
gi
i. M
t s
DBMS thông d
ng : Access, SQL Server, Oracle.
4.2 qu
n
lý
thông
tin
(IMS)
qu
n
lý
thông
tin
là
h
qu
n
tr
c s d li
u
nh
ng
có
thêm
nhi
u
c
h
c
nh
ng v
vi
c qu
n lý. Nh
ng ch
c n
ng qu
n lý này ph
thu
c vào giá tr
c
a nhi
u
ki
u d
li
u khác nhau. Nói chung b
t k
h
th
ng nào có m
c
ích c bi
t ph
c v
cho vi
c qu
n lý thì ta g
i nó là h
qu
n lý thông tin.
Nguy
n Th
Thanh Hà - 0112215 15 Nguy
n Trung Hi
u -
0112216
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
4.3 h
tr
ra
quy
t nh
(DSS)
h
tr
ra quy
t nh s
d
a vào các t
p lu
t c h
c, t
nh
ng lu
t
ã
h
c
rút ra nh
ng lu
t m
i, sau khi g
p m
t v
n nó s
c
n c
vào vào t
p các lu
t
a
ra nh
ng quy
t nh thay cho con ng i.
th
ng này
ang c áp d
ng nhi
u cho công vi
c nh
n d
ng và chu
n
óa
n
nh.
4.4 tr
l
i
câu
h
i
(QAS)
tr
l
i câu h
i cung c
p
vi
c truy c
p n các thông tin b
ng ngôn ng
t
nhiên.
Vi
c
l
u
tr
c
s
d
li
u
th ng bao
g
m
m
t
s
l ng
l
n
các
v
n
liên
quan n các l nh v
c riêng bi
t và các ki
n th
c t
ng quát. Câu h
i c
a ng i
dùng có
th d
ng ngôn ng
t
nhiên. Công vi
c c
a h
tr
l
i câu h
i là phân tích câu truy
n c
a ng i dùng, so sánh v
i các tri th
c c l
u tr
, và t
p h
p các v
n có
liên
quan l
i a ra câu tr
l
i thích h
p.
Tuy nhiên, h
tr
l
i câu h
i ch
còn
ang th
nghi
m. Vi
c xác nh ý
ngh a
a ngôn ng
t
nhiên d ng nh
v
n là ch ng ng
i l
n có th
s
d
ng r
ng
rãi h
th
ng này.
Nguy
n Th
Thanh Hà - 0112215 16 Nguy
n Trung Hi
u -
0112216
IRS DBMS QAS MIS
Tìm ki
m
i dung
trong các tài
li
u.
Các ph
n t
có ki
u d
li
u
ã c
nh ngh a.
Các s
ki
n
rõ ràng.
Gi
ng DBMS
nh
ng h
tr
thêm nh
ng
th
t
c( Tính
ng, tính
trung bình,
phép chi
u…)
u tr
Các v
n b
n
ngôn ng
t
nhiên.
Các ph
n t
li
u
ng b
ng.
Các s
ki
n
rõ ràng và các
ki
n th
c
ng quát.
lý
Các câu truy
n không
chính xác.
Các câu truy
n có c
u
trúc.
Các câu truy
n không
gi
i h
n.
Xây d
ng h
th
ng tìm ki
m thông tin ti
ng Vi
t d
a trên các ch
m
c là các t
ghé
p
4.5
So
sánh
IRS
v
i
các
h
th
ng
thông
tin
khác