Tải bản đầy đủ (.docx) (138 trang)

Xây dựng hệ thống tìm kiếm thông tin tiếng việt dựa trên các chỉ mục là các từ ghép

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.3 MB, 138 trang )

Xây d

ng h

th

ng tìm ki

m thông tin ti

ng Vi

t d

a trên các ch

m

c là các t

ghé
p
IC

M N
Chúng em xin g

i l

i c


m

n chân thành nh

t n th

y H

B

o Qu

c, ng
i

ã
n tình h ng d

n, giúp chúng em trong su

t th

i gian th

c hi

n lu

n v


n này.
Chúng con c

m

n Cha, M

và gia

ình, nh

ng ng i

ã d

y d

, khuy

n
khích,
ng

viên

chúng

con

trong


nh

ng

lúc

khó

kh

n,

t

o

m

i u

ki

n

cho

chúng

con

nghiên c

u h

c t

p.
Chúng

em

c

m

n

các

th

y,



trong

khoa

Công


Ngh

Thông

Tin

ã

dìu

d

t,
gi

ng d

y chúng em, giúp chúng em có nh

ng ki

n th

c quý báu trong nh

ng n

m h


c
qua.
m

n ch

Lê Thúy Ng

c và các b

n

ã t

n tình

óng góp ý ki

n cho lu

n v

n
a chúng tôi.
c



r


t

c

g

ng

nh

ng

lu

n

v

n

c

a

chúng

em

không


tránh

kh

i

sai

sót
,
mong nh

n c s

thông c

m và góp ý c

a th

y cô và các b

n.
Tháng 7 n

m 2005
Sinh viên
Nguy

n Th


Thanh Hà – Nguy

n Trung Hi

u
Nguy

n Th

Thanh Hà - 0112215 1 Nguy

n Trung Hi

u -
0112216
Xây d

ng h

th

ng tìm ki

m thông tin ti

ng Vi

t d


a trên các ch

m

c là các t

ghé
p
NH

N

XÉT

C

A

GIÁO

VIÊN

H NG

D

N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………

……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………
……………………………………………………………………………………
Ngày…… tháng……n

m 2005
Ký tên
Nguy

n Th

Thanh Hà - 0112215 2 Nguy

n Trung Hi

u -
0112216
Xây d

ng h


th

ng tìm ki

m thông tin ti

ng Vi

t d

a trên các ch

m

c là các t

ghé
p
NH

N

XÉT

C

A

GIÁO


VIÊN

PH

N

BI

N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………
……………………………………………………………………………………
Ngày…… tháng……n

m 2005
Ký tên

Nguy

n Th

Thanh Hà - 0112215 3 Nguy

n Trung Hi

u -
0112216
Xây d

ng h

th

ng tìm ki

m thông tin ti

ng Vi

t d

a trên các ch

m

c là các t


ghé
p
C L

C
DANH SÁCH CÁC B

NG
8
DANH SÁCH CÁC HÌNH V


8
Ph

n

1

:

TÌM

HI

U



THUY


T


11
Ch ng

1:

T

NG

QUAN

V TÌM

KI

M

THÔNG

TIN



11
1. Gi


i thi

u v

tìm ki

m thông tin

11
1.1 Khái ni

m v

tìm ki

m thông tin

11
1.2 M

t s

v

n trong vi

c tìm ki

m thông tin:


11
2. H

tìm ki

m thông tin – IRS

12
3. Các thành ph

n c

a m

t h

tìm ki

m thông tin [1.1]



13
4. So sánh IRS v

i các h

th

ng thông tin khác


14
4.1 H

qu

n tr

c

s

d

li

u (DBMS)

15
4.2 H

qu

n lý thông tin (IMS)

15
4.3 H

h


tr

ra quy

t nh (DSS)

16
4.4 H

tr

l

i câu h

i (QAS)

16
4.5 So sánh IRS v

i các h

th

ng thông tin khác

17
Ch ng

2:


XÂY

D

NG

M

T

H TH

NG

TÌM

KI

M

THÔNG

TIN



18
1. Ki


n trúc c

a h

tìm ki

m thông tin. [1.3]

18
2. M

t s

mô hình xây d

ng m

t h

tìm ki

m thông tin [1.2]

19
2.1 Mô hình không gian vector

19
2.2 Tìm ki

m Boolean


21
2.3 Tìm ki

m Boolean m

r

ng

22
2.4 M

r

ng trong vi

c thêm vào tr

ng s

c

a câu h

i

23
2.4.1 M


r

ng cho s

t

tu

ý

23
2.4.2 Thêm toán t

t ng

24
2.5 Mô hình xác su

t

24
2.6 ánh giá chung v

các mô hình

25
3. Các b c xây d

ng m


t h

tìm ki

m thông tin. [3.2]

25
3.1 Tách t

t ng cho t

p các tài li

u

25
3.2 L

p ch

m

c cho tài li

u

25
3.3 Tìm ki

m


26
3.4 S

p x

p các tài li

u tr

v

(Ranking)

26
4. Nh

ng khó kh

n trong vi

c xây d

ng m

t h

th

ng tìm ki


m thông tin ti

ng
Vi

t

26
4.1 Khó kh

n trong vi

c tách t

ti

ng Vi

t

27
4.2 V

n b

ng mã ti

ng Vi


t

27
Nguy

n Th

Thanh Hà - 0112215 4 Nguy

n Trung Hi

u -
0112216
Xây d

ng h

th

ng tìm ki

m thông tin ti

ng Vi

t d

a trên các ch

m


c là các t

ghé
p
4.3 Các khó kh

n khác

27
Ch ng

3:

TÁCH

T T NG

29
1. Tách t

trong Ti

ng Anh

29
2. Tách t

trong Ti


ng Vi

t

29
2.1 M

t s c m chính v

t

ti

ng Vi

t [2.2]

29
2.1.1 Ti

ng

29
2.1.2 T



30
2.2 Tách t


t ng ti

ng Vi

t

30
3. Các ph ng pháp tách t

ti

ng Vi

t

30
3.1 fnTBL (Fast Transformation-based learning) [3.1]

30
3.1.1 Mô t



30
3.1.2 Áp d

ng tách t

ti


ng Vi

t

31
3.2 Longest Matching [1.4]

37
3.3 K

t h

p gi

a fnTBL và Longest Matching



37
Ch ng

4:

L

P

CH

M


C



38
1. Khái quát v

h

th

ng l

p ch

m

c



38
2. Ph ng pháp l

p ch

m

c [1.1]


38
2.1 Xác nh các t

ch

m

c

38
2.2 Các ph ng pháp tính tr

ng s

c

a t



40
2.2.1 T

n s

tài li

u ngh ch o


40
2.2.2 nhi

u tín hi

u (The Signal – Noise Ratio)

40
2.2.3 Giá tr

phân bi

t t

(The Term Discrimination Value)

42
2.3 L

p ch

m

c t ng cho tài li

u ti

ng Anh

43

3. L

p ch

m

c cho tài li

u ti

ng Vi

t

45
4. T

p tin ngh ch o tài li

u

46
4.1 Phân bi

t gi

a t

p tin ngh ch o và t


p tin tr

c ti

p

46
4.2 T

i sao s

d

ng t

p tin ngh ch o l

p ch

m

c

47
Ph

n

2


:

PHÂN

TÍCH



THI

T

K


49
Ch ng

5:

PHÂN

TÍCH



49
1. S UseCase h

th


ng

49
2. S L

p

51
2.1 S các l

p th

hi

n



51
2.2 S các l

p x



52
3. Tách t




53
3.1 S UseCase



53
3.2 S Tu

n t



53
Nguy

n Th

Thanh Hà - 0112215 5 Nguy

n Trung Hi

u -
0112216
Xây d

ng h

th


ng tìm ki

m thông tin ti

ng Vi

t d

a trên các ch

m

c là các t

ghé
p
3.3 S C

ng tác

54
3.4 S L

p

54
4. L

p ch


m

c

55
4.1 S UseCase



55
4.2 S Tu

n t



56
4.2.1 T

o m

i ch

m

c

56
4.2.2 C


p nh

t ch

m

c

57
4.3 S C

ng tác

58
4.3.1 T

o m

i ch

m

c

58
4.3.2 C

p nh

t ch


m

c

59
4.4 S L

p

60
5. Tìm ki

m



61
5.1 S UseCase



61
5.2 S Tu

n t



61

5.3 S C

ng tác

62
5.4 S L

p

63
Ch ng

6:

THI

T

K VÀ

CÀI T



64
1. C

u trúc l

u tr


d

li

u

64
1.1 T

p tin l

u n

i dung tài li

u

64
1.1.1 C

u trúc DTD / XSD

64
1.1.2 Tài li

u XML

66
1.2 T


p tin sau khi tách t

tài li

u

67
1.2.1 C

u trúc DTD / XSD

67
1.2.2 Tài li

u XML

68
1.3 T

p tin ch

a các t

không th

hi

n n


i dung c

a v

n b

n (stop list)

70
1.3.1 C

u trúc DTD / XSD

70
1.3.2 Tài li

u XML

71
1.4 T

p tin ch

m

c o ( Inverted ).

71
1.4.1 C


u trúc DTD / XSD

71
1.4.2 Tài li

u XML

73
1.5 T

p tin sau khi tách t

câu h

i

74
1.5.1 C

u trúc DTD / XSD

74
1.5.2 Tài li

u XML

75
1.6 T

p tin ch


a các t

c

a câu h

i sau khi lo

i b

các t

trong danh sách
StopList

76
1.6.1 C

u trúc DTD / XSD

76
1.6.2 Tài li

u XML

77
1.7 T

p tin ch


a các t

trong câu h

i và các tài li

u liên quan

77
1.7.1 C

u trúc DTD / XSD

77
Nguy

n Th

Thanh Hà - 0112215 6 Nguy

n Trung Hi

u -
0112216
Xây d

ng h

th


ng tìm ki

m thông tin ti

ng Vi

t d

a trên các ch

m

c là các t

ghé
p
1.7.2 Tài li

u XML

79
1.8 T

p tin ch

a t ng quan gi

a câu h


i và các tài li

u

8
0
1.8.1 C

u trúc DTD / XSD

80
1.8.2 Tài li

u XML

82
2. Chi ti

t các l

p it ng

83
2.1 Các l

p trong quá trình tách t



83

2.1.1 S các l

p

83
2.1.2 L

p tách t

ghép

83
2.1.3 L

p tách t



86
2.1.4 L

p giao di

n tách t



89
2.2 Các l


p trong quá trình l

p ch

m

c

91
2.2.1 S các l

p

91
2.2.2 L

p l

p ch

m

c

92
2.2.3 L

p giao di

n t


o m

i ch

m

c

94
2.2.4 L

p giao di

n c

p nh

t ch

m

c

96
2.3 Các l

p trong quá trình tìm ki

m


98
2.3.1 S các l

p

98
2.3.2 L

p tìm ki

m

99
2.3.3 L

p giao di

n tìm ki

m
105
3. M

t s

màn hình giao di

n khác
109

3.1 Màn hình chính c

a ch ng trình

109
3.2 Màn hình tìm ki

m nhi

u câu h

i



110
3.3 Màn hình tìm ki

m chính ( giao di

n Web)

112
3.4 Màn hình tr

v

các tài li

u tìm c ( giao di


n Web)

11
3
3.5 Màn hình chi ti

t c

a m

t tài li

u ( giao di

n Web)



114
Ph

n

3

:

T


NG

K

T

115
1. Ch ng trình th

nghi

m 115
2. ánh giá k

t qu t c 115
3. H ng phát tri

n 116
TÀI LI

U THAM KH

O
117
1. Sách
117
2. Lu

n v


n

117
3. Website
117
Nguy

n Th

Thanh Hà - 0112215 7 Nguy

n Trung Hi

u -
0112216
Xây d

ng h

th

ng tìm ki

m thông tin ti

ng Vi

t d

a trên các ch


m

c là các t

ghé
p
DANH

SÁCH

CÁC

B

NG
ng 1-1 So sánh IRS v

i các h

th

ng thông tin khác

17
ng 4-1 Cách t

p tin ngh ch o l

u tr



47
ng 4-2 Cách t

p tin tr

c ti

p l

u tr



47
ng 4-3 Thêm m

t tài li

u m

i vào t

p tin ngh ch
o 48
ng 5-1 Danh sách các
Actor
50
ng 5-2 Danh sách các UseCase


50
DANH

SÁCH

CÁC

HÌNH

V
Hình 1-1 Môi tr ng c

a h

tìm ki

m thông tin


13
Hình 1-2 T

ng quan v

ch

c n

ng c


a m

t h

tìm ki

m thông
tin
14
Hình 2-1 H

tìm ki

m thông tin tiêu bi

u
18
Hình 3-1 Quá trình h

c
35
Hình 3-2 Giai n xác nh t

cho tài li

u m

i 36
Hình 4-1 Các t c s


p theo th

t


39
Hình 4-2 Quá trình ch

n t

làm ch

m

c
45
Hình 5-1 S Use-case c

a h

th

n
g 49
Hình 5-2 S các l

p th

hi


n 51
Hình 5-3 S các l

p x


52
Hình 5-4 S Use-case tách t


53
Hình 5-5 S tu

n t

tách t


53
Hình 5-6 S c

ng tác tách t


54
Hình 5-7 S l

p tách t



.54
Hình 5-8 S use-case l

p ch

m

c
55
Hình 5-9 S tu

n t

t

o m

i ch

m

c
56
Hình 5-10 S tu

n t

c


p nh

t ch

m

c
57
Hình 5-11 S c

ng tác t

o m

i ch

m

c
58
Hình 5-12 S c

ng tác c

p nh

t ch

m


c
59
Hình 5-13 S l

p l

p ch

m

c
60
Hình 5-14 S use-case tìm ki

m
61
Hình 5-15 S tu

n t

tìm ki

m 61
Hình 5-16 S c

ng tác tìm ki

m
62
Hình 5-17 S l


p tìm ki

m
63
Hình 6-1 S l

p tách t


.83
Hình 6-2 L

p tách t

ghép
83
Nguy

n Th

Thanh Hà - 0112215 8 Nguy

n Trung Hi

u -
0112216
Xây d

ng h


th

ng tìm ki

m thông tin ti

ng Vi

t d

a trên các ch

m

c là các t

ghé
p
Hình 6-3 L

p tách t


86
Hình 6-4 L

p giao di

n tách t




89
Hình 6-5 Màn hình tách t



89
Hình 6-6 Màn hình chi ti

t tách t



90
Hình 6-7 S l

p l

p ch

m

c
91
Hình 6-8 L

p l


p ch

m

c
92
Hình 6-9 L

p giao di

n t

o m

i ch

m

c
94
Hình 6-10 Màn hình t

o m

i ch

m

c


95
Hình 6-11 L

p Màn hình c

p nh

t ch

m

c
96
Hình 6-12 Màn hình c

p nh

t ch

m

c

97
Hình 6-13 S l

p tìm ki

m
98

Hình 6-14 L

p x

lý tìm ki

m

99
Hình 6-15 L

p giao di

n tìm ki

m
105
Hình 6-16 Màn hình tìm ki

m
106
Hình 6-17 Xem t

khóa câu h

i
106
Hình 6-18 Xem t

khóa tài li


u
107
Hình 6-19 Màn hình chính
109
Hình 6-20 Màn hình tìm ki

m nhi

u câu h

i
110
Hình 6-21 Giao di

n tìm ki

m trên Web
112
Hình 6-22 Giao di

n các tài li

u tr

v

sau khi tìm ki

m

113
Hình 6-23 Giao di

n chi ti

t n

i dung c

a tài li

u
114
Nguy

n Th

Thanh Hà - 0112215 9 Nguy

n Trung Hi

u -
0112216
Xây d

ng h

th

ng tìm ki


m thông tin ti

ng Vi

t d

a trên các ch

m

c là các t

ghé
p
U
Trong th

i i bùng n

thông tin nh

hi

n nay, thông tin c l

u tr

trên
máy

tính ngày càng nhi

u do

ó vi

c tìm ki

m thông tin chính xác là nhu c

u thi

t y

u
i
i m

i ng i trong m

i l nh v

c. Internet hi

n nay

ã tr

thành m


t kho t

li

u kh

n
g
mà vi

c tìm ki

m thông tin trên kho t

li

u này c

n ph

i c h

tr

b

i các
công c
tìm ki


m (search engine) t

t. Các h

th

ng tìm ki

m thông tin thông d

ng nh

Google,
Yahoo Search

ã

áp

ng c ph

n nào nhu c

u

ó c

a m

i ng i. Tuy nhiên,

các h
th

ng này c xây d

ng x

lý và tìm ki

m các v

n b

n ti

ng Châu Âu, chúng ch

a
th

t s

phù h

p cho các

v

n b


n ti

ng Vi

t.

Do

ó nhu c

u ph

i có m

t công c

tìm
ki

m “hi

u” và x

lý t

t các v

n b

n tí


ng Vi

t.
Các h

tìm ki

m thông tin u ph

i th

c hi

n giai n l

p ch

m

c
(indexing)
cho v

n b

n trích các t

ch


m

c (index term) bi

u di

n t

t nh

t n

i dung c

a v

n
n. Giai n này ph

thu

c vào ngôn ng

c

a v

n b

n và ph ng pháp x


lý t
ng
ngôn

ng ó.

Hi

n

nay

ch

a



nhi

u

h

th

ng tìm

ki


m

thông tin

trên

kho

tài

li

u
ti

ng Vi

t có khai thác các c tr

ng c

a ti

ng Vi

t cho vi

c l


p ch

m

c.
Vì v

y m

c tiêu c

a lu

n v

n này nh

m xây d

ng m

t h

th

ng tìm ki

m thông
tin b


ng ti

ng Vi

t có s

d

ng các k

t qu

c

a x

lý ngôn ng

t

nhiên t ng
xác
nh c các ch

m

c là các t

(word) hay t


ghép (compound word) c

a ti

ng Vi

t.
Nguy

n Th

Thanh Hà - 0112215 10 Nguy

n Trung Hi

u -
0112216
Xây d

ng h

th

ng tìm ki

m thông tin ti

ng Vi

t d


a trên các ch

m

c là các t

ghé
p
Ph

n

1

:

TÌM

HI

U



THUY

T
Ch ng


1: NG

QUAN

V

TÌM

KI

M

THÔNG

TIN
1.

Gi

i

thi

u

v

tìm

ki


m

thông

tin
1.1

Khái

ni

m

v

tìm

ki

m

thông

tin
Tìm ki

m thông tin là tìm ki

m trong m


t t

p tài li

u l

y ra các thông tin

ng i tìm ki

m quan tâm.
1.2 t s

v

n trong

vi

c

tìm

ki

m

thông


tin:
t

nh

ng n

m 40, các v

n trong vi

c l

u tr

thông tin và tìm ki

m
thông
tin

ã

thu

hút

s

chú


ý

r

t

l

n.

V

i m

t

l ng thông tin

kh

ng l

thì

vi

c

tìm


ki

m
chính xác và nhanh chóng càng tr

nên khó kh

n h

n. V

i s

ra i c

a máy
tính, r

t
nhi

u ý t ng l

n c a ra nh

m cung c

p m


t h

th

ng tìm ki

m thông minh

chính xác. Tuy nhiên, v

n tìm ki

m sao cho hi

u qu

v

n ch

a c gi

i quy

t.
nguyên

t

c

, vi

c l

u tr

thông tin và tìm ki

m thông tin thì n gi

n. Gi

s
có m

t kho ch

a các tài li

u và m

t ng i mu

n tìm các tài li

u liên quan n yêu
c

u
a mình. Ng i


ó có th c t

t c

các tài li

u trong kho, gi

l

i các tài li

u liên
quan
và b i các tài li

u không liên quan. Rõ ràng gi

i pháp này không th

c t

b

i vì t

n r

t

nhi

u th

i gian.
Nguy

n Th

Thanh Hà - 0112215 11 Nguy

n Trung Hi

u -
0112216
Xây d

ng h

th

ng tìm ki

m thông tin ti

ng Vi

t d

a trên các ch


m

c là các t

ghé
p
i

s

ra i

c

a

máy

vi

tính

t

c cao,
máy tính có th

“ c” thay cho
con

ng i trích ra các tài li

u có liên quan trong toàn b

t

p d

li

u. Tuy nhiên v

n
lúc này là làm sao xác nh c tài li

u nào liên quan n câu h

i. M

c

ích
c

a
t h

th

ng tìm ki


m thông tin t ng là truy l

c c t

t c

các tài li

u có liên
quan
n yêu c

u.
2. tìm

ki

m

thông

tin



IRS
Sau

ây là nh ngh a v


h

th

ng tìm ki

m thông tin c

a m

t s

tác gi

:
[2.1]

Salton (1989):
“H

th

ng

tìm

ki

m


thông

tin

x



các

t

p

tin

l

u

tr và

nh

ng

yêu

c


u

v
thông tin, xác nh và tìm t

các t

p tin nh

ng

thông tin phù h

p v

i nh

ng yêu c

u v
thông tin. Vi

c truy tìm nh

ng thông tin c thù ph

thu

c


vào s

t ng t

gi

a
các
thông tin c l

u tr

và các yêu c

u, c

ánh giá b

ng cách so sánh các giá tr

c

a
các thu

c tính i v

i thông tin c l


u tr

và các yêu c

u v

thông tin.”
Kowalski (1997) :
“H

th

ng truy tìm thông tin là

m

t h

th

ng có kh

n

ng l

u tr

, truy


tìm và
duy trì thông tin. Thông tin trong nh

ng tr ng h

p này có th

bao g

m v

n b

n,
hình
nh, âm thanh, video và nh

ng
it
ng

a ph ng ti

n khác.”
Hi

u n gi

n
th


ng

tìm

ki

m

thông

tin



m

t

h

th

ng

h

tr

cho


ng
i
d

ng

tìm

ki

m

thông

tin

m

t

cách

nhanh

chóng



d


dàng.
Ng i s

d

n
g có
th a vào nh

ng câu h

i, nh

ng yêu c

u (d

ng ngôn ng

t

nhiên) và h

th

ng s

tìm
ki


m trong t

p các tài li

u (d

ng ngôn ng

t

nhiên)

ã c l

u tr tìm ra nh

ng
Nguy

n Th

Thanh Hà - 0112215 12 Nguy

n Trung Hi

u -
0112216
Xây d


ng h

th

ng tìm ki

m thông tin ti

ng Vi

t d

a trên các ch

m

c là các t

ghé
p
tài li

u có liên quan, sau

ó s

s

p x


p các tài li

u theo m

c liên quan gi

m d

n và
tr

v

cho ng i s

d

ng.
3.

Các

thành

ph

n

c


a

m

t

h

tìm

ki

m

thông

tin


[1.1]

m: t

p các tài li

u (DOCS)

ã c l

u tr


trong kho d

li

u, t

p các yêu c

u
(REQS)

c

a

ng i

dùng,



m

t

s

ph ng


pháp

tính t ng quan

(SIMILAR)
xác nh các tài li

u

áp

ng cho các yêu c

u.
Hình

1-1

Môi

tr ng

c

a

h

tìm


ki

m

thông

tin
Theo lý thuy

t thì m

i liên h

gi

a các câu h

i và các tài li

u có th

so sánh m

t
cách tr

c ti

p. Nh


ng trên th

c t

thì u này không th c vì các câu h

i và các
t

p
tài li

u u d

ng v

n b

n, ch

có con ng i c vào thì th

y ngay c m

i
liên h
gi

a


chúng,

nh

ng ây

ch



m

t

h

th

ng

máy

móc

không th

suy

lu


n

nh

co
n
ng i c. Chính vì th xác nh c m

i liên h

gi

a các câu h

i và các t

p
tài
li

u ph

i qua m

t b c trung gian.
Nguy

n Th

Thanh Hà - 0112215 13 Nguy


n Trung Hi

u -
0112216
Xây d

ng h

th

ng tìm ki

m thông tin ti

ng Vi

t d

a trên các ch

m

c là các t

ghé
p
Hình

1-2


T

ng

quan

v

ch

c

n

ng

c

a

m

t

h

tìm

ki


m

thông

tin
Tr c h

t chuy

n i các câu h

i thành các t

riêng bi

t bi

u hi

n cho
n

i
dung c

a câu h

i g


i là ngôn ng

ch

m

c (Indexing language - LANG). Tách t

trong
các t

p tài li

u và l

p ch

m

c cho tài li

u. Lúc này có th

so sánh tr

c ti

p gi

a các t

a câu h

i và các t

ch

m

c c

a t

p tài li

u. Và t ó ta s

d

dàng h

n xác
nh
t ng quan gi

a các câu h

i và t

p tài li


u.
4.

So

sánh

IRS

v

i

các

h

th

ng

thông

tin

khác
th

ng tìm ki


m thông tin c

ng t ng t

nh

nhi

u h

th

ng x

lý thông
tin
khác.

Hi

n

nay

các

h

th


ng

thông tin

quan

tr

ng

nh

t

là:

h

qu

n

tr

c

s

d


li

u
(DBMS), h

qu

n lý thông tin (MIS), h

h

tr

ra quy

t nh (DSS), h

tr

l

i câu
h

i
(QAS) và h

tìm ki

m thông tin (IR).

Nguy

n Th

Thanh Hà - 0112215 14 Nguy

n Trung Hi

u -
0112216
Xây d

ng h

th

ng tìm ki

m thông tin ti

ng Vi

t d

a trên các ch

m

c là các t


ghé
p
4.1 qu

n

tr

c

s

d

li

u

(DBMS)
t c

h

th

ng thông tin t ng nào c

ng d

a trên m


t t

p các m

c
cl

u
tr

(g

i là s

d

li

u) c

n thi

t cho vi

c truy c

p. Do

ó h


qu

n tr

c

s

d

li

u
n gi

n là m

t h

th

ng c thi

t k

nh

m thao tác và duy trì u khi


n c

s

d
li

u.
DBMS t

ch

c l

u tr

các d

li

u c

a mình d i d

ng các b

ng. M

i m


t c

s
li

u c l

u tr

thành nhi

u b

ng khác nhau. M

i m

t c

t trong b

ng là m

t thu

c
tính, và m

i m


t dòng là m

t b

d

li

u c

th

. Trong m

i m

t b

ng có m

t thu

c tính
duy nh

t i di

n cho b

ng, nó không c trùng l


p và ta g

i

ó là khoá chính.
Các
ng có m

i liên h

v

i nhau thông qua các khoá ngo

i. DBMS có m

t t

p các l

nh
tr

cho

ng i

s


d

ng truy

v

n n

d

li

u

c

a

mình.



v

y

mu

n


truy

v

n
n
CSDL trong DBMS ta ph

i h

c h

t các t

p l

nh này. Nh

ng ng c l

i nó s

cung
c

p
cho ta các d

li


u y và hoàn toàn chính xác. Hi

n nay DBMS c s

d

ng
r

ng
rãi trên th

gi

i. M

t s

DBMS thông d

ng : Access, SQL Server, Oracle.
4.2 qu

n



thông

tin


(IMS)
qu

n



thông

tin



h

qu

n

tr

c s d li

u

nh

ng




thêm

nhi

u

c
h

c
nh

ng v

vi

c qu

n lý. Nh

ng ch

c n

ng qu

n lý này ph


thu

c vào giá tr

c

a nhi

u
ki

u d

li

u khác nhau. Nói chung b

t k

h

th

ng nào có m

c

ích c bi

t ph


c v
cho vi

c qu

n lý thì ta g

i nó là h

qu

n lý thông tin.
Nguy

n Th

Thanh Hà - 0112215 15 Nguy

n Trung Hi

u -
0112216
Xây d

ng h

th

ng tìm ki


m thông tin ti

ng Vi

t d

a trên các ch

m

c là các t

ghé
p
4.3 h

tr

ra

quy

t nh

(DSS)
h

tr


ra quy

t nh s

d

a vào các t

p lu

t c h

c, t

nh

ng lu

t

ã
h

c
rút ra nh

ng lu

t m


i, sau khi g

p m

t v

n nó s

c

n c

vào vào t

p các lu

t
a
ra nh

ng quy

t nh thay cho con ng i.
th

ng này

ang c áp d

ng nhi


u cho công vi

c nh

n d

ng và chu

n

óa
n
nh.
4.4 tr

l

i

câu

h

i

(QAS)
tr

l


i câu h

i cung c

p

vi

c truy c

p n các thông tin b

ng ngôn ng

t
nhiên.

Vi

c

l

u

tr

c


s

d

li

u

th ng bao

g

m

m

t

s

l ng

l

n

các

v


n
liên
quan n các l nh v

c riêng bi

t và các ki

n th

c t

ng quát. Câu h

i c

a ng i
dùng có
th d

ng ngôn ng

t

nhiên. Công vi

c c

a h


tr

l

i câu h

i là phân tích câu truy
n c

a ng i dùng, so sánh v

i các tri th

c c l

u tr

, và t

p h

p các v

n có
liên
quan l

i a ra câu tr

l


i thích h

p.
Tuy nhiên, h

tr

l

i câu h

i ch

còn

ang th

nghi

m. Vi

c xác nh ý
ngh a
a ngôn ng

t

nhiên d ng nh


v

n là ch ng ng

i l

n có th

s

d

ng r

ng
rãi h
th

ng này.
Nguy

n Th

Thanh Hà - 0112215 16 Nguy

n Trung Hi

u -
0112216
IRS DBMS QAS MIS

Tìm ki

m
i dung
trong các tài
li

u.
Các ph

n t
có ki

u d
li

u

ã c
nh ngh a.
Các s

ki

n
rõ ràng.
Gi

ng DBMS
nh


ng h

tr
thêm nh

ng
th

t

c( Tính
ng, tính
trung bình,
phép chi

u…)
u tr
Các v

n b

n
ngôn ng

t
nhiên.
Các ph

n t

li

u
ng b

ng.
Các s

ki

n
rõ ràng và các
ki

n th

c
ng quát.

Các câu truy
n không
chính xác.
Các câu truy
n có c

u
trúc.
Các câu truy
n không
gi


i h

n.
Xây d

ng h

th

ng tìm ki

m thông tin ti

ng Vi

t d

a trên các ch

m

c là các t

ghé
p
4.5

So


sánh

IRS

v

i

các

h

th

ng

thông

tin

khác

×