Tải bản đầy đủ (.doc) (51 trang)

Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (252.97 KB, 51 trang )

MỦC LỦC
M Í ÂÁƯ ........................................................................................................................3
1. Gi ïi thi ûu chung:å ã ....................................................................................................3
2. C s d ỵ li ûu vàn ba n:å åí ỉ ã í ...........................................................................................4
3. Y u c u v n tin:ã áư áú ......................................................................................................7
4. K t lu ûn:ãú á ................................................................................................................8
KHA I NI M V CH MU C A O VA C CH V N TINÏ ÃÛ ÃƯ È Û Â Í Ì Å ÃÚ ÁÚ ..........................................9
1. Chè mủc âa o:í ..........................................................................................................9
1.1 Danh sạch âa o:í ................................................................................................10
1.2 T ûp âa o:ã í ...........................................................................................................10
1.3 T âi n va trng l üng vàn ba n:ỉì ãø ì ỉå í ..................................................................11
2. C ch v n tin:å ãú áú ......................................................................................................12
2.1 V n tin dảng x p hảng:áú ãú ................................................................................12
2.2 V n tin dảng logic:áú ..........................................................................................14
3. K t lu ûn:ãú á ..............................................................................................................15
X Y D NG CH MU C A Ố ỈÛ È Û Â Í .......................................................................................17
1. C u trục d ỵ li ûu:áú ỉ ã ................................................................................................17
2. X y d ûng c u trục t âi ná ỉ áú ỉì ãø .................................................................................21
3. X y d ûng t ûp âa o:á ỉ ã í ................................................................................................24
4. Gia i thu ût x y d ûng chè mủc âa o:í á á ỉ í ....................................................................27
X LY V N TIN LOGICỈÍ Ï ÁÚ ...............................................................................................28
1. Ph n têch y u c u v n tin :á ã áư áú ...................................................................................28
2. X l cạc phẹp logic:ỉí ............................................................................................34
2.1 Phẹp AND:........................................................................................................35
2.2 Phẹp OR:...........................................................................................................36
3. K t lu ûn:ãú á ..............................................................................................................38
THI T K H TH NG VA TH C NGHI MÃÚ ÃÚ ÃÛ ÄÚ Ì ỈÛ ÃÛ .......................................................39
1. Mủc âêch x y d ûng h û th ng:á ỉ ã äú ............................................................................39
2. M hçnh ph n c p ch ïc nàng:ä á áú ỉ ...............................................................................40
3. X y d ûng ch ng trçnhá ỉ ỉå ........................................................................................42
3.1 Ng n ng ỵ s dủngä ỉ ỉí ...........................................................................................42


3.2 X y d ûng c s d ỵ li ûu á ỉ å åí ỉ ã .................................................................................42
3.3 X y d ûng ch ng trçnhá ỉ ỉå ....................................................................................43
4. Th ûc nghi ûm:ỉ ã ......................................................................................................46
K T LU NÃÚ ÁÛ ..................................................................................................................49
1. K t qu a âảt â ücãú í ỉå ................................................................................................49
2. Hản chãú...............................................................................................................50
3. H ïng phạt tri nỉå ãø ..................................................................................................50
LÅÌI GIÅÏI THIÃÛU
Trong th i õaỷi nga y nay, c ng ngh ỷ th ng tin õaợ coù nh ợngồỡ ỡ ọ ó ọ ổ
ti n b ỹ v ỹt b ỷc tr n nhi u lộnh v ỷc, õỷc bi ỷt trong õoù pha ióỳ ọ ổồ ỏ ó óử ổ ó ớ
noùi õ n kha nng ùng duỷng tin hoỹc va o cu ỹc s ng nh m õaùpóỳ ớ ổ ỡ ọ ọỳ ũ
ùng moỹi nhu c u th ỷc t cu a con ng i.ổ ỏử ổ óỳ ớ ổồỡ
Th ng tin la m ỹt ph n cu a cu ỹc s ng, con ng i õangọ ỡ ọ ỏử ớ ọ ọỳ ổồỡ
pha i õ i õ u v ùi khoù khn la la m sao n m b t õ ỹc th ng tinớ ọỳ ỏử ồ ỡ ỡ ừ ừ ổồ ọ
m ỹt caùch nhanh nh t va chờnh xaùc tr ùc s ỷ phaùt tri n nhanhọ ỏỳ ỡ ổồ ổ óứ
choùng cu a caùc ngu n th ng tin. Cu ng v ùi s ỷ bu ng n cu aớ ọử ọ ỡ ồ ổ ỡ ọứ ớ
th ng tin, caùc nhu c u v dởch vuỷ tra c ùu th ng tin cuợng tng l nọ ỏử óử ổ ọ ó
kh ng ng ng. Nga y nay coù r t nhi u sa n ph m ph n m mọ ổỡ ỡ ỏỳ óử ớ ỏứ ỏử óử
kh ng nh ợng õaùp ùng õ ỹc caùc nhu c u õoù ma nga y ca ng phaùtọ ổ ổ ổồ ỏử ỡ ỡ ỡ
tri n va hoa n thi ỷn h n. où la caùc h ỷ th ng tra c ùu th ng tin.óứ ỡ ỡ ó ồ ỡ ó ọỳ ổ ọ
Xu t phaùt t th ỷc t õoù, õ ỹc s ỷ g ỹi yù cu a th y Voợỏỳ ổỡ ổ óỳ ổồ ổ ồ ớ ỏử
Ngoỹc Anh, trong quaù trỗnh la m õ aùn t t nghi ỷp em choỹn õỡ ọử ọỳ ó óử
ta i C ch v n tin daỷng logic cho c s d ợ li ỷu vn ba n kh ngỡ ồ óỳ ỏỳ ồ ồớ ổ ó ớ ọ
c u truùc . B ng nh ợng ki n th ùc õaợ hoỹc, em õaợ hoa n tha nhỏỳ ũ ổ óỳ ổ ỡ ỡ
õ aùn cu a mỗnh v ùi n ỹi dung sau:ọử ớ ồ ọ
Ch ng 1: M õ uổồ ồớ ỏử
Ch ng 2: Khaùi ni ỷm v chố muỷc õa o va c ch v n tinổồ ó óử ớ ỡ ồ óỳ ỏỳ
Ch ng 3: X y d ỷng chố muỷc õa oổồ ỏ ổ ớ
Ch ng 4: X lyù v n tin logicổồ ổớ ỏỳ
Ch ng 5: Thi t k h ỷ th ng va th ỷc nghi ỷmổồ óỳ óỳ ó ọỳ ỡ ổ ó

Ch ng 6: K t lu ỷnổồ óỳ ỏ
Vỗ th i gian coù haỷn va ki n th ùc co n haỷn ch n n ch cồỡ ỡ óỳ ổ ỡ óỳ ó ừ
ch n trong õ aùn na y kh ng traùnh kho i nh ợng thi u soùt. Emừ ọử ỡ ọ ớ ổ óỳ
r t mong õ ỹc s ỷ goùp yù, chố ba o cu a caùc Th y c giaùo va caùcỏỳ ổồ ổ ớ ớ ỏử ọ ỡ
baỷn.
Em xin ch n tha nh ca m n khoa C ng Ngh ỷ Th ng Tinỏ ỡ ớ ồ ọ ó ọ
tr ng aỷi Hoỹc Kyợ Thu ỷt cu ng caùc Th y c õaợ taỷo õi u ki ỷnổồỡ ỏ ỡ ỏử ọ óử ó
cho em hoa n tha nh õ aùn na y. ỷc bi ỷt em xin ch n tha nhỡ ỡ ọử ỡ ó ỏ ỡ
ca m n th y Voợ Ngoỹc Anh õaợ giuùp õ ợ em t ỷn tỗnh trong th iớ ồ ỏử ồ ỏ ồỡ
gian qua. Cu i cu ng xin ca m n cạc bản â â üng vi n va giụpäú ì í å ä ã ì
â ỵ t i trong quạ trçnh la m vi ûc. å ä ì ã
a Nàơng, thạng 5 nàm 2000. ì
Sinh vi nã
L Ngc Quangã
CHỈÅNG 1
MÅÍ ÂÁƯU
1. Giåïi thiãûu chung:
X h üi nga y ca ng phạt tri n, thç nhu c u âo i ho i s ûä ì ì ãø áư ì í ỉ
âạp ïng cạc y u c u nhanh va chênh xạc cu a con ng i nga ã áư ì í ỉåì ì
ca ng cao. Nga y nay v ïi m üt l üng th ng tin kh ng l v miì ì å ä ỉå ä äø äư ãư
màût nh khoa hc k thu ût, vàn hc, ngh û thu ût, gia i trê...ỉ á ã á í
thç â âạp ïng â üc cạc y u c u th ng tin thêch h üp v m ütãø ỉ ỉå ã áư ä å ãư ä
th loải hay nhi u th loải na o âọ â i v ïi ng i v n tin la r tãø ãư ãø ì äú å ỉåì áú ì áú
quan trng.
Trong th vi ûn, â bản âc kh ng pha i m t c ng lủcỉ ã ãø ä í áú ä
tung ca â ng sạch â tçm cho mçnh m üt quy n sạch nh í äú ãø ä ãø ỉ
thç ng i ta â â a ra m üt ph ng phạp giụp tçm ki m r tỉåì ỉ ä ỉå ãú áú
nhanh la x y d ûng chè mủc. T âọ bản âc cọ th tçm ki mì á ỉ ỉì ãø ãú
nhanh cạc y u c u cu a mçnh v ïi cạc chè mủc â l ûp sàơn theỗ áư í å á
t n sạch, t n tạc gia hồûc n üi dung.ã ã í ä

S û phạt tri n v üt b ûc cu a c ng ngh û th ng tin la m ch ãø ỉå á í ä ã ä ì
b ü màût x h üi cọ nh ỵng thay â i âạng k . Con ng i miä ä ỉ äø ãø ỉåì åí
lục mi n i â u cọ th nà m bà t m üt cạch nhanh chọng cạcå ãư ãø õ õ ä
th ng tin ma mçnh quan t m. ọ la nh cạc h û th ng truy tçmä ì á Â ì åì ã äú
th ng tin. Cạc h û th ng truy tçm th ng tin ra â i â gọp ph nä ã äú ä åì áư
kh ng nho trong lénh v ûc tra c ïu âạp ïng â üc m üt ph n y í ỉ ỉ ỉ ỉå ä áư ã
c u cu a ng i v n tin.áư í ỉåì áú
Vi ûc x y d ûng h û th ng truy tçm th ng tin trong lénh v ûcã á ỉ ã äú ä ỉ
tin hc cng d ûa tr n nguy n tà c x y d ûng chè mủc. i ã ã õ á ỉ Â ãư
na y â â üc d û âoạn tr ïc khi ng i ta ti n ha nh x y d ûngì ỉå ỉ ỉå ỉåì ãú ì á ỉ
chè mủc m üt cạch thu c ng va la t t y u khi mạy tênh ra â i.ä í ä ì ì áú ãú åì
V ïi vi ûc s dủng chè mủc ta cọ kha nàng tçm â üc nh ỵngå ã ỉí í ỉå ỉ
th ng tin c n thi t va âàûc bi ût la khi th ng tin â üc vi t bà ngä áư ãú ì ã ì ä ỉå ãú ò
nh ỵng ng n ng ỵ khạc. Th ûc v ûy, n u ta mu n tçm â ücỉ ä ỉ ỉ á ãú äú ỉå
th ng tin t m üt quy n sạch â üc vi t bà ng m üt ng n ng ỵä ỉì ä ãø ỉå ãú ò ä ä ỉ
khạc thç tr n c s chè mủc cu a quy n sạch âọ ta xạc âënh vẫ å åí í ãø ì
dëch nh ỵng trang ch ïa th ng tin y u c u h n la dëch toa n b üỉ ỉ ä ã áư å ì ì ä
quy n sạch y. M üt quy n sạch kh ng cọ chè mủc s mangãø áú ä ãø ä
â n cho âc gia s û b t l üi l ïn. a ph n mi ng i lục na ú í ỉ áú å å Â áư ỉåì ì
hay lục khạc â âc k quy n sạch â tçm ki m m üt âi u gçãø ãø ãú ä ãư
âọ ma h chà c chà n la cọ âọ nh ng â n gia n la tçm hoa iì õ õ ì åí ỉ å í ì ì
kh ng th y.ä áú
i v ïi m üt d ỵ li ûu nho th ng th ng, â tçm m üt th ngÂäú å ä ỉ ã í ä ỉåì ãø ä ä
tin na o âọ ta cọ th tçm ki m m üt cạch tu n t û va v ïi m ütì ãø ãú ä áư ỉ ì å ä
s û may mà n na o âọ bà ng nh ỵng â u m i ng ỵ ca nh khạcỉ õ ì ò ỉ áư äú ỉ í
nhau cọ th tçm â üc n üi dung mong mu n. Nh ng v ïi m ütãø ỉå ä äú ỉ å ä
d ỵ li ûu l ïn c ỵ Gigabyte t ïc la ha ng tràm ha ng tri ûu trang thçỉ ã å å ỉ ì ì ì ã
xem ra ph ng th ïc na y la kh ng hi ûu qua . V ïi d ỵ li ûu âọ,ỉå ỉ ì ì ä ã í å ỉ ã
n u nh kh ng du ng chè mủc ma th ûc hi ûn tçm ki m â tçmãú ỉ ä ì ì ỉ ã ãú ãø
th ng tin quan t m thç th i gian th ûc hi ûn la r t l u. V ïi l dộ á åì ỉ ã ì áú á å

âọ thç x y d ûng chè mủc cho h û th ng truy tçm th ng tin mấ ỉ ã äú ä ì
âụng h n la x y d ûng chè mủc cho c s d ỵ li ûu vàn ba n cu ẩ ì á ỉ å åí ỉ ã í í
h û th ng la c n thi t.ã äú ì áư ãú
2. Cå såí dỉỵ liãûu vàn bn:
Th ng tin la m üt ph n quan trng cu a cu üc s ng conä ì ä áư í ä äú
ng i, nh t la trong x h üi hi ûn âải nga y nay. Ha ng nga åì áú ì ä ã ì ì ì
chụng ta th ng xuy n âọn nh ûn th ng tin t nhi u ngu nỉåì ã á ä ỉì ãư äư
khạc nhau. ïng tr ïc s û bu ng n th ng tin cu ng v ïi vi ûc ạpÂỉ ỉå ỉ ì äø ä ì å ã
dủng c ng ngh û th ng tin, â giụp cho con ng i cọ th nà mä ã ä ãø ỉåì ãø õ
bà t â üc th ng tin mçnh quan t m m üt cạch nhanh chọng thçõ ỉå ä á ä
cạc h û th ng tra c ïu th ng tin â â a ra cạc th ng tin â üc t ngã äú ỉ ä ỉ ä ỉå äø
h üp v ïi n üi dung khại quạt nh t. T ûp h üp nh ỵng th ng tinå å ä áú á å ỉ ä
t ng h üp âọ â üc gi la c s d ỵ li ûu cu a h û th ng.äø å ỉå ì å åí ỉ ã í ã äú
Trong â ạn na y v ïi mủc âêch x y d ûng h û th ng truư ì å á ỉ ã äú
tçm th ng tin ïng dủng trong cạc th vi ûn nhà m giụp âc giậ ỉ ỉ ã ò í
tçm â üc n üi dung th ng tin c n truy v n m üt cạch nhanhỉå ä ä áư áú ä
nh t thç h û th ng â üc x y d ûng v ïi m üt c s d ỵ li ûu lấú ã äú ỉå á ỉ å ä å åí ỉ ã ì
t ûp h üp nh ỵng l i gi ïi thi ûu khại quạt v n üi dung cu a t ngá å ỉ åì å ã ãư ä í ỉì
cu n sạch. â n gia n, m ùi n üi dung tọm tà t â üc trçnh ba ú Âãø å í ä ä õ ỉå ì
theo m üt âoản vàn ba n ri ng bi ût, ngàn cạch nhau b i d í ã ã åí áú
cạch do ng va m üt khoa ng trà ng. M üt c s d ỵ li ûu nh v û ì ä í õ ä å åí ỉ ã ỉ á
gi la c s d ỵ li ûu vàn ba n hay co n gi la b ü s u t ûp vànì å åí ỉ ã í ì ì ä ỉ á
ba n.í
M üt minh hoả v c s d ỵ li ûu vàn ba nä ãư å åí ỉ ã í
nh sau:ỉ
M y nụi thại ha ng (NXB h üi nha vàn)á ì ä ì
15 truy ûn ngà n cu a Ba o V trong t ûp sạchã õ í í á
na y, d ùu vi t v tçnh y u cu üc s ng v ïiì á ãú ãư ã ä äú å
nh ỵng b n cha i cu a l ïp ng i tre tu i, vỉ ỉå í í å ỉåì í äø ãư
tçnh ca m, n p s ng, suy t cu a ng i gia trongí ãú äú ỉ í ỉåì ì

hi ûn tải hay khi l ût lải nh ỵng têch c v ùnã á ỉ á
lu n lu n th i va o nh ỵng trang vàn h i th cu ậ ä äø ì ỉ å åí í
nhëp s ng â ng âải, t i m ïi. Trong t ûp cọäú ỉå ỉå å á
nhi u tạc ph m l i cu n nh : Tr u t m cạnhãư áø ä äú ỉ áư ã
ph üng, m y nụi thại ha ng...ỉå á ì

Giọ nà ng Tr ng S n (NXB vàn ngh û TP HCM )õ ỉåì å ã
T ûp bụt k ghi lải ca m xục cu a tạc gia Phaná í í í
Lai Tri u qua nh ỵng thạng nga y s ng chi nãư ỉ ì äú ãú
â u tr n di Tr ng S n trong cu üc khạngáú ã ỉåì å ä
chi n ch ng M c ïu n ïc. Tạc gia khà c hoảãú äú ỉ ỉå í õ
hỗnh a nh ng i lờnh tr ùc bom õaỷn ke thuớ ổồỡ ổồ ớ ỡ
v ựn laỷc quan y u õ i, hỗnh a nh caùc anh chởuỏ ó ồỡ ớ
õ ỷng gian kh , hy sinh anh duợng, c ng hi n caổ ọứ ọỳ óỳ ớ
tu i xu n cu a mỗnh cho õ t n ùc...ọứ ỏ ớ ỏỳ ổồ
Hỗnh 1.1
:
Trờch mọỹt cồ sồớ dổợ lióỷu vn baớn
Nh v ỷy c s d ợ li ỷu vn ba n õ ỹc õởnh nghộa nh laổ ỏ ồ ồớ ổ ó ớ ổồ ổ ỡ
t ỷp caùc vn ba n ri ng leợ va m ựi vn ba n õ ỹc coi la m ỹt m ựuỏ ớ ó ỡ ọ ớ ổồ ỡ ọ ỏ
tin õ ỹc l u d ùi daỷng ma maùy tờnh coù th õoỹc õ ỹc. V ùiổồ ổ ổồ ỡ óứ ổồ ồ
vi ỷc x y d ỷng chố muỷc, m ựi vn ba n õ ỹc coi la m ỹt chu ựió ỏ ổ ọ ớ ổồ ỡ ọ ọ
n i ti p caùc t . T coù th la t õ n hay x u kyù t ỷ coù õ ỹcọỳ óỳ ổỡ ổỡ óứ ỡ ổỡ ồ ỏ ổ ổồ
b ng m ỹt quy ùc na o õoù trong vn ba n. Caùch õởnh nghộa na yũ ọ ổồ ỡ ớ ỡ
la kh ng õ ng nh t trong nhi u vn ba n.ỡ ọ ọử ỏỳ óử ớ
M ỹt c s d ợ li ỷu vn ba n cuợng nh ba n th n caùc vn ba nọ ồ ồớ ổ ó ớ ổ ớ ỏ ớ
kh ng coù s ỷ gi ùi haỷn v õ ỹ da i. M ỹt vn ba n coù th g mọ ổ ồ óử ọ ỡ ọ ớ óứ ọử
m ỹt va i byte hoỷc va i Megabyte. M ỹt c s d ợ li ỷu vn ba nọ ỡ ỡ ọ ồ ồớ ổ ó ớ
g m va i trm hoỷc va i tri ỷu vn ba n nh th .ọử ỡ ỡ ó ớ ổ óỳ
Caùc õỷc tr ng quan troỹng cu a c s d ợ li ỷu vn ba n õ ỹcổ ớ ồ ồớ ổ ó ớ ổồ

li ỷt k trong ba ng sau:ó ó ớ
Kyù hi ỷuó Y nghộaẽ Vờ duỷ
N
F
n
D
f
S caùc vn ba n trongọỳ ớ
CSDL
T ng s t xu tọứ ọỳ ổỡ ỏỳ
hi ỷnó
S caùc t khaùc bi ỷtọỳ ổỡ ó
Kờch th ùc CSDLổồ
(Mbyte)
S con tro chố muỷcọỳ ớ
31 102
884 988
9 020
4,33
699 131
Baớng 1.1: Caùc õỷc trổng cuớa CSDL vn baớn
M ựi vn ba n trong c s d ợ li ỷu vn ba n coù m ỹt õởnhọ ớ ồ ồớ ổ ó ớ ọ
danh duy nh t. õ n gia n, ta gia s caùc vn ba n õ ỹc õởnhỏỳ óứ ồ ớ ớ ổớ ớ ổồ
danh b ng caùc s t ỷ nhi n ( t 1 õ n N ) theo th ù t ỷ nh ỷpũ ọỳ ổ ó ổỡ óỳ ổ ổ ỏ
va o c s d ợ li ỷu. Trong õ aùn na y õởnh danh co n goỹi la sỡ ồ ồớ ổ ó ọử ỡ ỡ ỡ ọỳ
hi ỷu vn ba n.ó ớ
Hỗnh sau õ y la m ỹt vờ duỷ v õởnh danh cu a vn ba n:ỏ ỡ ọ óử ớ ớ
S hi ỷu vnọỳ ó
ba nớ
Vn ba nớ

1
2
3
4
Taùc ph m va taùc gia õ ỹc y uỏứ ỡ ớ ổồ ó
thờch
Th va truy ỷn ng n caùch maỷngồ ỡ ó ừ
Gi ùi thi ỷu taùc ph m m ùi, taùcồ ó ỏứ ồ
ph m õ ỹc gia iỏứ ổồ ớ
Caùc taùc ph m truy ỷn ng n cu aỏứ ó ừ ớ
taùc gia Ba oVuợớ ớ
Hỗnh 1.2 : Vờ duỷ vóử õởnh danh cuớa vn baớn
Vờ duỷ tr n õ ỹc xem nh la m ỹt vờ duỷ xuy n su t ca õó ổồ ổ ỡ ọ ó ọỳ ớ óử
ta i na y v ùi m ựi do ng la m ỹt vn ba n.ỡ ỡ ồ ọ ỡ ỡ ọ ớ
3. Yóu cỏửu vỏỳn tin:
M ỹt tha nh ph n r t quan troỹng õ i v ùi h ỷ th ng truyọ ỡ ỏử ỏỳ ọỳ ồ ó ọỳ
tỗm th ng tin la caùc y u c u v n tin. y la m i tr ng giao ti pọ ỡ ó ỏử ỏỳ ỏ ỡ ọ ổồỡ óỳ
chênh gi ỵa ng i v n tin va h û th ng truy tçm th ng tin. M ütỉ ỉåì áú ì ã äú ä ä
y u c u v n tin la m üt y u c u d ûa tr n ng n ng ỵ t û nhi n, cọã áư áú ì ä ã áư ỉ ã ä ỉ ỉ ã
th la m üt t hay m üt chu ùi cạc t â üc li n k t v ïi nhaø ì ä ỉì ä ä ỉì ỉå ã ãú å
b i cạc phẹp toạn logic nh : AND, OR, XOR, NOT. Tr n c s cạcåí ỉ ã å åí
y u c u âọ, h û th ng truy tçm th ng tin s tçm cạc vàn ba nã áư ã äú ä í
ch ïa th ng tin t ng ïng trong c s d ỵ li ûu vàn ba n va hi n thëỉ ä ỉå ỉ å åí ỉ ã í ì ãø
cho ng i c n v n tin.ỉåì áư áú
Vê dủ v y u c u v n tin nh :ãư ã áư áú ỉ
- Tạc ph m AND Tạc giấø í
- Th OR Truy ûn ngà nå ã õ
- (Tạc ph m OR Tạc gia ) AND (Th OR Truy ûn ngà n)áø í å ã õ
............
4. Kãút lûn:

V ïi nh ỵng gç trçnh ba y tr n, ph n na o â hçnh tha nhå ỉ ì åí ã áư ì ì
m üt h û th ng truy tçm th ng tin m üt cạch t ng quạt nh t.ä ã äú ä ä äø áú
Qua âọ bi t â üc cạch th ïc t ch ïc m üt c s d ỵ li ûu vànãú ỉå ỉ äø ỉ ä å åí ỉ ã
ba n, m üt y u c u v n tin la gç va h û th ng â üc x y d ûngí ä ã áư áú ì ì ã äú ỉå á ỉ
tr n c s na o. Tuy nhi n â y m ïi chè la cại nhçn t ng quan vã å åí ì ã á å ì äø ãư
dạng mảo cu a h û th ng, cạc ch ng ti p theo s trçnh ba y chií ã äú ỉå ãú ì
ti t v c u tảo va nguy n tà c hoảt â üng b n trong cu a h ûãú ãư áú ì ã õ ä ã í ã
th ng truy tçm th ng tin.äú ä
CHỈÅNG 2
KHẠI NIÃÛM VÃƯ CHÈ MỦC ÂO V CÅ CHÃÚ VÁÚN TIN
1. Chè mủc âo:
Nh â â c ûp trong ch ng tr ïc, nga y nay v ïi s û ti nỉ ãư á ỉå ỉå ì å ỉ ãú
b ü cu a khoa hc c ng ngh û âàûc bi ût la c ng ngh û th ng tin,ä í ä ã ã ì ä ã ä
cu ng v ïi s û bu ng n cu a th ng tin thç cạc h û th ng truy tçmì å ỉ ì äø í ä ã äú
th ng tin ra â i. Nhi ûm vủ cu a h û th ng truy tçm th ng tin lậ åì ã í ã äú ä ì
tçm va hi n thë nh ỵng th ng tin thoa mn y u c u na o âọ cu ãø ỉ ä í ã áư ì í
ng i v n tin. Trong â lu ûn na y âọ la cạc vàn ba n trong c sỉåì áú ãư á ì ì í å åí
d ỵ li ûu vàn ba n.ỉ ã í
V ïi m üt c s d ỵ li ûu c ûc l ïn, gia s g m ha ng tri û ä å åí ỉ ã ỉ å í ỉí äư ì ã
vàn ba n, thç âọ la thạch th ïc â i v ïi cạc h û th ng truy tçmí ì ỉ äú å ã äú
th ng tin. Vi ûc tçm l i gia i cho cạc y u c u theo h ïng tr ûcä ã åì í ã áư ỉå ỉ
ti p â n t ng vàn ba n trong c s d ỵ li ûu s a nh h ng l ïnãú ãú ỉì í å åí ỉ ã í ỉåí å
â n th i gian truy tçm. Vç v ûy â n ng cao t c â ü truy tçm cu ẫú åì á ãø á äú ä í
h û th ng ta ti n ha nh x y d ûng chè mủc cho c s d ỵ li ûu.ã äú ãú ì á ỉ å åí ỉ ã
Cọ nhi u k thu ût x y d ûng chè mủc nh chè mủc âa o, chèãư á á ỉ ỉ í
mủc ch ỵ k, chè mủc hçnh a nh. Tuy nhi n chè mủc ch ỵ kỉ í ã ỉ
va chè mủc hçnh a nh âo i ho i dung l üng b ü nh ï l ïn n n trongì í ì í ỉå ä å å ã
â ạn na y em chn cạch x y d ûng chè mủc d ûa tr n m üt käư ì á ỉ ỉ ã ä
thu ût gi la k thu ût chè mủc âa o. Tr n c s chè mủc âa ố ì á í ã å åí í
na y, cạc hçnh th ïc v n tin s â üc x y d ûng phu h üp v ïi cạcì ỉ áú ỉå á ỉ ì å å

y u c u cu a ng i v n tin.ã áư í ỉåì áú
Ph n na y tha o lu ûn v cạch th ïc ca i âàût h û th ng truư ì í á ãư ỉ ì ã äú
tçm vàn ba n â cọ th tçm c u tra l i cho cạc y u c u dảngí ãø ãø á í åì ã áư
logic va x p hảng. M üt y u c u logic âo i ho i, â i v ïi m ùi tì ãú ä ã áư ì í äú å ä ỉì
cu a y u c u, m üt ph ng phạp xạc âënh m ùi vàn ba n cọ ch ï ã áư ä ỉå ä í ỉ
t âọ hay kh ng. Y u c u x p hảng b n cảnh âi u na y co n âo iỉì ä ã áư ãú ã ãư ì ì ì
ho i th ng tin v t m quan trng cu a t trong vàn ba n. Cạchí ä ãư áư í ỉì í
th ïc ca i âàût h üp l âạp ïng ca hai y u c u tr n la chè mủcỉ ì å ỉ í ã áư ã ì
âa o.í
Chè mủc âa o â üc x y d ûng tr n c s ba tha nh ph n:í ỉå á ỉ ã å åí ì áư
danh sạch âa o, t âi n va trng l üng vàn ba n, t ûp âa o. H ûí ỉì ãø ì ỉå í ã í ã
th ng s x l tr ûc ti p tr n cạc tha nh ph n na y â â a rậú ỉí ỉ ãú ã ì áư ì ãø ỉ
cạc vàn ba n cọ th ng tin âạp ïng â üc y u c u cu a ng i v ní ä ỉ ỉå ã áư í ỉåì áú
tin.
1.1 Danh sạch âo:
Danh sạch âa o la tha nh ph n quan trng nh t trong chèí ì ì áư áú
mủc âa o, â üc x y d ûng t c s d ỵ li ûu vàn ba n ban â u. V ïií ỉå á ỉ ỉì å åí ỉ ã í áư å
m ùi t khạc bi ût trong c s d ỵ li ûu, danh sạch âa o t ng ïngä ỉì ã å åí ỉ ã í ỉå ỉ
cho phẹp xạc âënh t âọ cọ màût trong nh ỵng vàn ba n na o vì ỉ í ì ì
cọ t m quan trng ra sao trong cạc vàn ba n âọ. Nh v ûy danháư í ỉ á
sạch âa o la danh sạch cạc càûp nh n t < s hi ûu vàn ba n ,í ì á äú äú ã í
trng l üng >.ỉå
l u tr ỵ m üt càûp nh n t nh v ûy c n 8 byte, 4 bytãø ỉ ỉ ä á äú ỉ á áư
cho s hi ûu vàn ba n va 4 byte cho trng l üng. V ïi m üt c säú ã í ì ỉå å ä å åí
d ỵ li ûu l ïn thç s càûp nh n t s r t l ïn va âo i ho i kh ng gianỉ ã å äú á äú áú å ì ì í ä
nh ï cng l ïn. ti t ki ûm kh ng gian nh ï, ta thay nh n tå å Âãø ãú ã ä å á äú
trng l üng bà ng t n su t t trong vàn ba n. T n su t na å ò áư áú ỉì í áư áú ì
â üc bi u di ùn b i s nguy n 2 byte hồûc 1 byte. V ïi cạch thaå ãø ã åí äú ã å
th na y thç danh sạch âa o cu a t t la m üt danh sạch cạc càûpãú ì í í ỉì ì ä
< d,f

d,t
>, trong âọ d la s hi ûu vàn ba n ch ïa t t va fì äú ã í ỉ ỉì ì
d,t
la s l nì äú áư
t t xu t hi ûn trong d. ỉì áú ã
1.2 Tãûp âo:
T ûp âa o la m üt t ûp du ng â l u tr ỵ trng l üng cu ẫ í ì ä ã ì ãø ỉ ỉ ỉå í
m ùi vàn ba n t ïc la bao g m cạc danh sạch âa o cu a t t ca cạcä í ỉ ì äư í í áú í
t khạc bi ût trong c s d ỵ li ûu vàn ba n. Cọ th coi t ûp âa o lì ã å åí ỉ ã í ãø ã í ì
m üt chu ùi n i ti p cạc s th ûc t üng tr ng cho trng l üngä ä äú ãú äú ỉ ỉå ỉ ỉå
cu a cạc vàn ba n theo th ï t û tàng cu a s hi ûu vàn ba n. Chi ti tí í ỉ ỉ í äú ã í ãú
v c u trục cu a t ûp âa o va ph ng phạp truy c ûp cạc tha nhãư áú í ã í ì ỉå á ì
ph n trong t ûp âa o s â üc tha o lu ûn ch ng ti p theo.áư ã í ỉå í á åí ỉå ãú
Xẹt m üt vê dủ â n gia n v t ûp âa o v ïi m ùi vàn ba n â ücä å í ãư ã í å ä í ỉå
â n gia n hoạ tha nh m üt chu ùi n i ti p cạc ch ỵ cại va xem âọå í ì ä ä äú ãú ỉ ì
nh la cạc t cu a c s d ỵ li ûu.ỉ ì ỉì í å åí ỉ ã
Hçnh 2.1 : Vê dủ vãư tãûp âo
Trong vê dủ na y, c s d ỵ li ûu vàn ba n bao g m 6 vàn ba nì å åí ỉ ã í äư í
â üc âạnh s t 1 â n 6 va s cạc t khạc bi ût la 5 ïng v ïiỉå äú ỉì ãú ì äú ỉì ã ì ỉ å
danh sạch âa o â üc bi u di ùn nh tr n.í ỉå ãø ã ỉ ã
1.3 Tỉì âiãøn v trng lỉåüng vàn bn:
M üt tha nh ph n cng r t quan trng khạc trong chèä ì áư áú
mủc âa o la t âi n. T âi n du ng â ghi lải t t ca cạc tí ì ỉì ãø ỉì ãø ì ãø áú í ỉì
S hi ûu vàn äú ã
ba ní
c b b c a c
a b b e a
c b e
a b c b
b b b b e

e e e c e
1
2
3
4
5
6
1,3 2,1
1,2 2,2 3,5 4,1
2,3 4,1 5,1
1,3
1,1 3,1 4,1
a
b
c
d
e
Vàn ba ní
Danh sạch
âa
Tỉì
t
T ûp ã
âa
CSDL vàn
ba ní
khaùc bi ỷt cu a c s d ợ li ỷu cu ng v ùi õởa chố cu a danh saùchó ớ ồ ồớ ổ ó ỡ ồ ớ
õa o t ng ùng cu a noù trong t ỷp õa o. Ch ùc nng chờnh cu a tớ ổồ ổ ớ ó ớ ổ ớ ổỡ
õi n la du ng õ tỗm ki m t va t õi n th ng õ ỹc x yóứ ỡ ỡ óứ óỳ ổỡ ỡ ổỡ óứ ổồỡ ổồ ỏ
d ỷng theo c u truùc c y nhở ph n õ õaùp ùng õ ỹc y u c u cu aổ ỏỳ ỏ ỏ óứ ổ ổồ ó ỏử ớ

h ỷ th ng. C u truùc cu a t õi n seợ õ ỹc m ta chi ti t ó ọỳ ỏỳ ớ ổỡ óứ ổồ ọ ớ óỳ ồớ
ch ng sau.ổồ
Nh õaợ õ c ỷp t ỷp õa o, troỹng l ỹng cu a th ỷcổ óử ỏ ồớ ó ớ ổồ ớ ổ
th vn ba n coù th õ ỹc tờnh theo nhi u ph ng phaùp nh ngóứ ớ óứ ổồ óử ổồ ổ
h u h t la d ỷa tr n hai th a s sau: TF va IDF.ỏử óỳ ỡ ổ ó ổỡ ọỳ ỡ
- TF goỹi la t n su t t t ùc la s l n xu t hi ỷnỡ ỏử ỏỳ ổỡ ổ ỡ ọỳ ỏử ỏỳ ó
cu a t t trong th ỷc th vn ba n d va õ ỹc kyùớ ổỡ ổ óứ ớ ỡ ổồ
hi ỷu la fó ỡ
d,t
.
- IDF la t n su t vn ba n ng ỹc th ng õ ỹc tờnhỡ ỏử ỏỳ ớ ổồ ổồỡ ổồ
theo c ng th ùc log(N/fọ ổ
t
) , trong õoù N la s vn ba nỡ ọỳ ớ
trong c s d ợ li ỷu va fồ ồớ ổ ó ỡ
t
la s vn ba n coù ch ùa tỡ ọỳ ớ ổ ổỡ
t.
Th ng th ng troỹng l ỹng cu a th ỷc th vn ba n :ọ ổồỡ ổồ ớ ổ óứ ớ
TF* IDF.
2. Cồ chóỳ vỏỳn tin:
Trong ph n na y gi ùi thi ỷu khaùi quaùt v hai c ch v n tinỏử ỡ ồ ó óử ồ óỳ ỏỳ
daỷng logic va daỷng x p haỷng.ỡ óỳ
2.1 Vỏỳn tin daỷng xóỳp haỷng:
Gia s ta coù m ỹt y u c u q (g m m ỹt s t t = 1..n) vaớ ổớ ọ ó ỏử ọử ọ ọỳ ổỡ ỡ
m ỹt c s d ợ li ỷu l ùn g m N vn ba n kh ng c u truùc. õaùpọ ồ ồớ ổ ó ồ ọử ớ ọ ỏỳ óứ
ùng õ ỹc y u c u v n tin q thỗ h ỷ th ng pha i th ỷc hi ỷnổ ổồ ó ỏử ỏỳ ó ọỳ ớ ổ ó
vi ỷc tờnh toaùn troỹng l ỹng va õ ỹ t ng h ỹp cu a y u c u õoùó ổồ ỡ ọ ổồ ồ ớ ó ỏử
v ùi m ựi vn ba n coù ch ùa th ng tin c n tỗm. Sau õoù caùc vn ba nồ ọ ớ ổ ọ ỏử ớ
seợ õ ỹc hi n thở cho ng i v n tin theo th ù t ỷ gia m d n cu aổồ óứ ổồỡ ỏỳ ổ ổ ớ ỏử ớ

õ ỹ t ng h ỹp. Theo nh ta i li ỷu Managing Gigabytes, õ ỹ t ngọ ổồ ồ ổ ỡ ó ọ ổồ
h ỹp cu a y u c u q va vn ba n d õ ỹc tờnh nh sau:ồ ớ ó ỏử ỡ ớ ổồ ổ
( )

=
=
n
t
tdtq
dq
WW
WW
dqS
1
,,
*
1
,

=
=
n
t
tq
q
WW
1
,
2
t

tdtd
f
N
fW log*
,,
=
Trong õoù
la troỹng l ỹng cu a y u c u q.ỡ ổồ ớ ó ỏử
laỡ troỹng l ỹng cu a vn ba n d.ổồ ớ ớ
Va ỡ
Nh v ỷyổ ỏ
Vờ duỷ v õ ỹ t ng h ỹp nh sau:óử ọ ổồ ồ ổ
Gia s ta coù c s d ợ li ỷu nh hỗnh 2.1.ớ ổớ ồ ồớ ổ ó ổ
Caùc giaù trở f
d,t
va Wỡ
d
t ng ùng õ ỹc li ỷt k trongổồ ổ ổồ ó ó
ba ng 2.1ớ
D T tổỡ
a b C d e
W
d
1
2
3
4
5
6
3

1
0
0
1
0
2
2
5
1
2
0
0
3
0
1
1
1
0
1
0
0
0
0
1
0
1
1
0
4
3,10

3,31
1,42
0,86
1,27
2,39
f
t
W
t
3
1,00
5
0,26
4
0,58
1
2,58
4
0,58
Baớng 2.1 : Caùc giaù trở f
d,t
vaỡ W
d
tổồng ổùng vồùi CSDL hỗnh 2.1
ỹ t ng h ỹp gi ợa y u c u q va vn ba n d õ ỹc tờnhọ ổồ ồ ổ ó ỏử ỡ ớ ổồ
toaùn nh vờ duỷ li ỷt k trong ba ng sau:ổ ó ó ớ
D Y u c uó ỏử
d
W
q

=2,58
C
W
q
=0,58
c,d
W
q
=2,64
a,b,e
W
q
=1,18
a,b,c,d,e
W
q
=2,90

=
=
n
t
td
d
WW
1
,
2
( )



=
qt
t
td
dq
f
N
f
WW
dqS
2
,
)(log*
1
,
1
2
3
4
5
6
0,00
0,78
0,00
0,00
0,00
0,00
0,00
0,53

0,00
0,67
0,46
0,24
0,00
0,88
0,00
0,15
0,10
0,05
0,95
0,29
0,40
0,40
0,76
0,48
0,39
0,92
0,16
0,30
0,40
0,24
Top 2 4 2 1 2
Bng 2.2 : Âäü tỉång håüp giỉỵa u cáưu q v vàn bn d
2.2 Váún tin dảng logic:
C ch v n tin na y â üc th ûc hi ûn d ûa tr n cạc phẹpå ãú áú ì ỉå ỉ ã ỉ ã
toạn logic la cạc phẹp toạn AND , OR va NOT va s dủng kì ì ì ỉí
thu ût chè mủc âa o. V ïi m üt y u c u q g m m üt s t t â ücá í å ä ã áư äư ä äú ỉì ỉå
li n k t b i cạc phẹp toạn logic nh tr n thç â u ti n cạc t sã ãú åí ỉ ã áư ã ỉì
â üc tçm trong t âi n , xạc âënh cạc danh sạch âa o t ng ïngỉå ỉì ãø í ỉå ỉ

va sau âọ d ûa tr n cạc phẹp toạn logic t ng ïng â xạc âënhì ỉ ã ỉå ỉ ãø
t ûp cạc vàn ba n thoa mn y u c u va trçnh ba y cho ng i v ná í í ã áư ì ì ỉåì áú
tin.
C ch v n tin dảng logic cho k t qua cọ â ü chênhå ãú áú ãú í ä
xạc cao h n so v ïi v n tin dảng x p hảng. Trong â lu ûn na å áú ãú ãư á ì
chè xẹt c ch v n tin dảng logic. Chi ti t v x l v n tinå ãú áú ãú ãư ỉí áú
dảng na y s â üc trçnh ba y ch ng b n.ì ỉå ì åí ỉå äú
M üt vê dủ minh ha cho c ch v n tin dảng logic :ä å ãú áú
Cho c s d ỵ li ûu nh hçnh 1.2, ta x y d ûng t ûp âa ổ åí ỉ ã ỉ á ỉ ã í
nh sau:ỉ
T tỉì Danh sạch âa o Ií
t
Ba o V í
Cạc
Cạch mảng
Cu
ücÂỉå
Gia ií
Gi ïi thi û ã
M ïiå
Tạc ph máø
Tạc gi
Thå
Truy ûn ngà nã õ
V
Y u thêchã
Gia s cọ y u c u v n tin q= ( tạc gia AND tạc ph m ).í ỉí ã áư áú í áø
Sau khi th ûc hi ûn tçm ki m trong t âi n ta cọ k t qu ã ãú ỉì ãø ãú í
nh sau:ỉ
t ∈ q D

Tạc gi
Tạc ph máø
1 , 4
1 , 3 , 4
V ïi phẹp toạn logic la AND n n cạc vàn ba n ( 1 , 4 ) s â ücå ì ã í ỉå
ghi nh ûn va trçnh ba y cho ng i v n tin.á ì ì ỉåì áú
3. Kãút lûn:
Ch ng na y â a ra nh ỵng khại ni ûm c ba n v ph ngỉå ì ỉ ỉ ã å í ãư ỉå
phạp x y d ûng chè mủc d ûa tr n k thu ût chè mủc âa o vấ ỉ ỉ ã á í ì
cạc c ch v n tin, t âọ giụp cho vi ûc x y d ûng h û th ng tru ãú áú ỉì ã á ỉ ã äú
tçm th ng tin m üt cạch nhanh chọng va chênh xạc. Chi ti t vä ä ì ãú ãư
k thu ût chè mủc âa o s â üc trçnh ba y ch ng ba.á í ỉå ì åí ỉå
4 , 1
2 , 1
4 , 1
3 , 1
3 , 1
3 , 1
4 , 1
1 , 1
4 , 1
1 , 1 3 , 1
4 , 1
1 , 1 3 , 2 4 , 1
1 , 1 4 , 1
2 , 1 4 , 1
1 , 1 2 , 1
CHÆÅNG 3
XÁY DỈÛNG CHÈ MỦC ÂO
1. Cáúu trục dỉỵ liãûu:

C u trục d ỵ li ûu la thạch th ïc pha i â ng â u khi x ú ỉ ã ì ỉ í ỉå áư á
d ûng chè mủc. Cạch â n gia n nh t â m ta c u trục chèỉ å í áú ãø ä í áú
mủc âa o cho c s d ỵ li ûu la ma tr ûn tu n t û c p hai (m,n).í å åí ỉ ã ì á áư ỉ áú
V ïi c s d ỵ li ûu nh hçnh 1.2 ta cọ ma tr ûn tu n t û nh sau:å å åí ỉ ã ỉ á áư ỉ ỉ
T tỉì S hi ûu vàn ba näú ã í
1 2 3 4
Ba o V í
Cạc
Cạch mảng
Cu a í
ücÂỉå
Gia ií
Gi ïi thi ûu å ã
M ïiå
Tạc ph máø
Tạc gia í
Thå
Truy ûn ngà nã õ
V
Y u thêchã
-
-
-
-
1
-
-
-
1
1

-
-
1
1
-
-
1
-
-
-
-
-
-
-
1
1
1
-
-
-
-
-
1
1
1
1
2
-
-
-

-
-
1
1
-
1
-
-
-
-
1
1
-
1
-
-
Hçnh 3.1 : Biãøu diãùn chè mủc bàòng ma tráûn tưn tỉû
Ma tr ûn tu n t û c p hai m ha ng, n c üt v ïi cạc tha nhá áư ỉ áú ì ä å ì
ph n c üt la s hi ûu vàn ba n va cạc tha nh ph n ha ng la t táư ä ì äú ã í ì ì áư ì ì ỉì
trong c s d ỵ li ûu. Giạ trë gi ỵa ha ng va c üt la s l n t tå åí ỉ ã ỉ ì ì ä ì äú áư ỉì
xu t hi ûn trong vàn ba n âọ, k hi ûu la f áú ã í ã ì  t , d .
Gia s giạ trë f í ỉí  t , d cọ â ü da i la 4 byte thç kêch th ïcä ì ì ỉå
cu a c s d ỵ li ûu chè mủc la :í å åí ỉ ã ì
S = 4*m*n (byte)
V ïi vê dủ tr n thç kh ng gian nh ï c n thi t cho c s d ỵå ã ä å áư ãú å åí ỉ
li ûu chè mủc la :ã ì
S = 4*7*4 = 112 (byte)
Vi ûc x y d ûng c u trục chè mủc âa o cho c s d ỵ li û á ỉ áú í å åí ỉ ã
theo ma tr ûn tu n t û nh tr n la r t t n kh ng gian nh ï. B iá áư ỉ ỉ ã ì áú äú ä å åí
vç theo cạch x y d ûng tr n thç cạc vàn ba n kh ng ch ïa t tá ỉ ã í ä ỉ ỉì

nh ng v ùn chi m gi ỵ 4 byte nh ï trong ma tr ûn. Nh v ûy, v ïiỉ á ãú ỉ å á ỉ á å
m üt c s d ỵ li ûu r t l ïn thç dung l üng nh ï chi phê cho vi ûcä å åí ỉ ã áú å ỉå å ã
l u tr ỵ cạc vàn ba n kh ng ỉ ỉ í ä
ch ïa t t cng r t l ïn. Cho n n c u trục tr n la kh ng thêchỉ ỉì áú å ã áú ã ì ä
h üp.å
khà c phủc nh üc âi m cu a c u trục chè mủc theãø õ ỉå ãø í áú
ma tr ûn tu n t û, ta s dủng m üt c u trục khạc, âọ la danhá áư ỉ ỉí ä áú ì
sạch li n k t.ã ãú
i v ïi m üt t khạc bi ût trong c s d ỵ li ûu s cọ m ütÂäú å ä ỉì ã å åí ỉ ã ä
danh sạch li n k t t ng ïng va chè cọ nh ỵng vàn ba n cọ ch ïẫ ãú ỉå ỉ ì ỉ í ỉ
t âọ m ïi â üc l u tr ỵ trong danh sạch na y. S dủng danhỉì å ỉå ỉ ỉ ì ỉí
sạch li n k t â bi u thë giạ trë f ã ãú ãø ãø  t , d â gia m âạng k kh ngí ãø ä
gian nh ï kh ng c n thi t trong ma tr ûn tu n t û. B n cảnh âọå ä áư ãú á áư ỉ ã
s dủng danh sạch li n k t cọ th truy c ûp â üc theo m ütỉí ã ãú ãø á ỉå ä
ki u ng ùu nhi n, b i vç m ùi ph n t cu a th ng tin mang theỗø á ã åí ä áư ỉí í ä
nọ m üt m i li n k t â n ph n t li n k ti p trong d äú ã ãú ãú áư ỉí ãư ãú ãú á
chuy n va â ng th i nọ cho phẹp kha nàng b sung va o danhãư ì äư åì í äø ì
sạch. i u na y r t quan trng, b i vç tr n th ûc t ta kh ng ãư ì áú åí ã ỉ ãú ä
chè x y d ûng chè mủc cho c s d ỵ li ûu vàn ba n ténh ma co ná ỉ å åí ỉ ã í ì ì
cho cạc c s d ỵ li ûu vàn ba n â üng t ïc la cạc vàn ba n lu n lu nå åí ỉ ã í ä ỉ ì í ä ä
â üc b sung hồûc loải bo .ỉå äø í
Vê dủ sau minh hoả cho vi ûc x y d ûng c u trục chèã á ỉ áú
mủc âa o v ïi c s d ỵ li ûu hçnh1.2.í å å åí ỉ ã
Ba o V 1 í
Cạc 1
Cạch mảng 1
Cu a 1 í
üc 2 Âỉå
Th 1 å
Truy ûn ngà n 2 ã õ

Va 2 ì
Y u thêch 1 ã
Gia i 1 í
Gi ïi thi ûu 1 å ã
M ïi 1 å
Tạc ph m 3 áø
Tạc gia 2 í
3 1 X
4 1 X
4 1 X
4 1 X
4 1 X
4 1 X
4 1 X
4 1 X
4 1 X
2 1 X
4 1 X
1 1
3 1 X
3 1 X
3 1 X
1 1
1 1
2 1 X
2 1
1 1
1 1 X
4 1 X
4 1 X

3 2
4 1 X
2 1 X
C u trụcáú
Danh sạch li n ã
k tãú
Hçnh 3.2 : Biãøu diãùn chè mủc cho cå såí dỉỵ liãûu bàòng danh sạch liãn kãút
Trong vê dủ tr n, X quy ïc nh ûn giạ trë NULL.ã ỉå á
i v ïi m üt c s d ỵ li ûu nho thç khọ cọ th âạnh giạÂäú å ä å åí ỉ ã í ãø
tênh hi ûu qua cu a cạc c u trục d ỵ li ûu nh ng v ïi m üt c sã í í áú ỉ ã ỉ å ä å åí
d ỵ li ûu l ïn bao g m ha ng tri ûu vàn ba n thç m hçnh c u trụcỉ ã å äư ì ã í ä áú
du ng danh sạch li n k t la r t hi ûu qua .ì ã ãú ì áú ã í
Th i gian cng la m üt trong nh ỵng y u t quan trngåì ì ä ỉ ãú äú
du ng â âạnh giạ hi ûu qua cu a h û th ng. Vç v ûy vi ûc gia mì ãø ã í í ã äú á ã í
t i thi u th i gian th ûc thi ch ng trçnh la v n â â üc âàût rậú ãø åì ỉ ỉå ì áú ãư ỉå
trong â ạn na y. C u trục c y nhë ph n gia i quy t â üc v n âäư ì áú á á í ãú ỉå áú ãư
na y b i c y nhë ph n v ùn â üc xem la âàûc bi ût vç khi sà p x pì åí á á á ỉå ì ã õ ãú
chụng t û la m cho cạc phẹp che n, tçm ki m va xoạ â ücỉ ì ì ãú ì ỉå
nhanh h n.å
Theo cạc nha nghi n c ïu thç m üt c y nhë ph n cọ dảngì ã ỉ ä á á
nh sau:ỉ
T1
• •
T2
• •
T4
0 0
T5
0 0
T3

0 •
T6
0 0
Hçnh 3.3 : Mäüt cáy nhë phán biãøu diãùn bàòng danh sạch liãn kãút
Ph n t â u ti n cu a c y gi la Root, m ùi ph n t d ỵáư ỉí áư ã í á ì ä áư ỉí ỉ
li ûu â üc gi la m üt node cu a c y va b t c ï m üt ph n na ỗ ỉå ì ä í á ì áú ỉ ä áư ì
cu a c y â u â üc gi la c y con. M üt node kh ng cọ c y con n ií á ãư ỉå ì á ä ä á äú
va o thç â üc gi la node k t thục hay la lạ. M ùi ph n t cu ỉå ì ãú ì ä áư ỉí í
m üt c y bao g m th ng tin cu ng v ïi m üt li n k t â n ph n tä á äư ä ì å ä ã ãú ãú áư ỉí
b n trại va m üt li n k t â n ph n t b n pha i.ã ì ä ã ãú ãú áư ỉí ã í
C y nhë ph n cng cọ th â üc bi u di ùn b i danh sạchá á ãø ỉå ãø ã åí
âàûc. Cạc nụt tr n c y nhë ph n â üc âạnh s bà t â u t 1 tr âiã á á ỉå äú õ áư ỉì åí
theo th ï t û t m ïc na y â n m ïc khạc va cạc nụt tr n cu ngỉ ỉ ỉì ỉ ì ãú ỉ ì ã ì
m üt m ïc thç â üc âạnh t trại sang pha i. Nụt i s cọ 2 con lậ ỉ ỉå ỉì í ì
nụt 2i va nụt 2i+1. Du ng vecto V â l u tr ỵ cạc ph n t cu ì ãø ỉ ỉ áư ỉí í
c y, trong âọ ph n t Vá áư ỉí  i s ch ïa nụt i cu a c y.ỉ í á
T1 T2 T3 T4 T5 T6
Hçnh 3.4 : Mäüt cáy nhë phán biãøu diãùn bàòng danh sạch âàûc
Cạc c y nhë ph n cho chụng ta m üt s ïc mảnh, s û linhá á ä ỉ ỉ
â üng va hi ûu qua r t l ïn, khi chụng ta s dủng v ïi cạcä ì ã í áú å ỉí å
ch ng trçnh qua n l c s d ỵ li ûu. Cọ âi u na y la vç cạcỉå í å åí ỉ ã ãư ì ì
th ng tin cho c s d ỵ li ûu na y pha i nà m tr n âéa, va th i gianä å åí ỉ ã ì í ò ã ì åì
truy c ûp la r t quan trng. Vç m üt c y c n bà ng cọ logá ì áú ä á á ò
2
n phẹp
so sạnh trong phẹp tçm ki m (trong tr ng h üp t i nh t ), nọãú ỉåì å äư áú
t t h n r t nhi u so v ïi danh sạch li n k t ma pha i tçm ki mäú å áú ãư å ã ãú ì í ãú
tu n t û.áư ỉ
T nh ợng u õi m cu a c y nhở ph n n n trong õ aùn na yổỡ ổ ổ óứ ớ ỏ ỏ ó ọử ỡ
em choỹn c u truùc c y nhở ph n õ x y d ỷng chố muỷc õa o.ỏỳ ỏ ỏ óứ ỏ ổ ớ

Trong õ aùn na y m ỹt c u truùc c y nhở ph n coù th õ ỹcọử ỡ ọ ỏỳ ỏ ỏ óứ ổồ
õởnh nghộa b ng ng n ng ợ l ỷp trỗnh nh sau :ũ ọ ổ ỏ ổ
Struct tree
char t 20 ;
long f
t
;
dsd I
t
;
tree left;
tree right;
;
Trong õoù dsd la c u truùc cu a m ỹt danh saùch õa o õ ỹcỡ ỏỳ ớ ọ ớ ổồ
õởnh nghộa nh sau:ổ
Struct dsd
long d;
int f
d,t
;
dsd next ;
;
2. Xỏy dổỷng cỏỳu truùc tổỡ õióứn
Trong ch ng 2 õaợ õởnh nghộa v t õi n, õoù la m ỹt c uổồ óử ổỡ óứ ỡ ọ ỏỳ
truùc bao g m caùc tha nh ph n : t t, t n su t fọử ỡ ỏử ổỡ ỏử ỏỳ
t
va õởa chố cu aỡ ớ
danh saùch õa o Iớ
t
. Vi ỷc tỗm ki m õ ỷ c th ỷc hi ỷn tr n t õi nó óỳ ổ ồ ổ ó ó ổỡ óứ

va th ng qua õởa chố cu a Iỡ ọ ớ
t
xaùc õởnh õ ỹc danh saùch õa o t ngổồ ớ ổồ
ùng trong t ỷp õa o.ổ ó ớ
C u truùc õ n gia n nh t cu a t õi n la daỷng ma ng caùcỏỳ ồ ớ ỏỳ ớ ổỡ óứ ỡ ớ
ba ng ghi bao g m m ỹt chu ựi cu ng v ùi hai tr ng nguy n. C uớ ọử ọ ọ ỡ ồ ổồỡ ó ỏỳ
truùc õoù õ ỹc m ta nh hỗnh 3.5.ổồ ọ ớ ổ
Vi ỷc l u t ợ theo ph ng th ùc na y seợ laợng phờ khoa ngó ổ ổ ổồ ổ ỡ ớ
kh ng gian nh ù r t l ùn. Gia s , õ l u tr ợ m ỹt chu ựi c n 20ọ ồ ỏỳ ồ ớ ổớ óứ ổ ổ ọ ọ ỏử
byte cu ng v ùi 4 byte cho giaù trở fỡ ồ
t
va 4 byte cho õởa chố cu a danhỡ ớ
sạch âa o Ií
t
thç kh ng gian nh ï ma t âi n c n â l u tr ỵ s l ïnä å ì ỉì ãø áư ãø ỉ ỉ å
h n 28 Mbyte.å
Kh ng gian nh ï c n â l u tr ỵ cạc chu ùi s gia m n å áư ãø ỉ ỉ ä í ãú
nh t t ca cạc chu ùi âọ k t n i tha nh m üt chu ùi da i li nỉ áú í ä ãú äú ì ä ä ì ã
ti p va s dủng con tro 4 byte â truy c ûp. Lục na y, m ùi m ütãú ì ỉí í ãø á ì ä ä
chu ùi s bao g m chênh xạc s k t û cu a chu ùi âọ c üngä äư äú ỉ í ä ä
th m 4 cho con tro truy c ûp. C u trục na y â üc phạt tha o trongã í á áú ì ỉå í
hçnh 3.6. Khi m üt chu ùi â üc chè mủc thç nọ kh ng c n thi tä ä ỉå ä áư ãú
pha i l u tr ng chi u da i hồûc k t û k t thục vç con tro ti pí ỉ ỉåì ãư ì ỉ ãú í ãú
theo trong ma ng s xạc âënh vë trê k t thục cu a chu ùi. Theo gi ãú í ä í
thuy t nh th , n u m üt t âi n khoa ng m üt tri ûu t thçãú ỉ ãú ãú ä ỉì ãø í ä ã ỉì
kh ng gian nh ï s gia m t 8 Mbyte â n 20Mbyte.ä å í ỉì ãú
T tỉì f
t
ë
chè I

t
Ba o V í 1
Cạc 1
Cạch
mảng
1
Cu a í 1
üc Âỉå 2
Gia i í 1
Gi ïi thi û ã 1
M ïi å 1
Tạc ph máø 3
Tạc gi 2
............
Hçnh 3.5 :Lỉu trỉỵ tỉì âiãøn nhỉ mäüt mng cạc bng ghi
.......
â ücgia igi ïithi ûum ïitạcph mtạcgiỉå í å ã å áø
f
t
âc
t
âc
I
t
2
1
1
1
3
2

Hçnh 3.6 :Lỉu trỉỵ tỉì âiãøn nhỉ mäüt mng cạc con tr
gia m h n n ỵa kh ng gian nh ï va n ng cao t c â üÂãø í å ỉ ä å ì á äú ä
tçm ki m thç ta lải x y d ûng chè mủc cho chè mủc âa o t ïcãú á ỉ í ỉ
la loải bo nhi u h n n ỵa cạc con tro chè mủc tr n. Cọ n tì í ãư å ỉ í åí ã ỉì
nh ng kh ng nh t thi t pha i s dủng n con tro chè mủc, gi ä áú ãú í ỉí í í
s c ï 4 t thç cọ 1 t â üc chè mủc. Nh v ûy chè c n 4 bytí ỉ ỉì ỉì ỉå ỉ á áư
â l u tr ỵ th ng tin v chi u da i cu a ca nhọm. C u trục na ø ỉ ỉ ä ãư ãư ì í í áú ì
â üc minh hoả nh hçnh d ïi â y:ỉå ỉ ỉå á
........4â üc4gia i9gi ïithi ûu3m ïi7tạcỉå í å ã å
ph m6tạcgiấø í
k
k +1
ëa Â
chè I
t
2
1
1
2
3
1
f
t
4k
4k + 1
4k + 2
4k + 3
4(k +
1)
Hỗnh 3.7 : Lổu trổợ tổỡ õióứn vồùi xỏy dổỷng chố muỷc cho chố muỷc õaớo

V ùi m hỗnh t õi n õ ỹc x y d ỷng nh tr n seợ thờch h ỹpồ ọ ổỡ óứ ổồ ỏ ổ ổ ó ồ
cho vi ỷc x lyù tỗm ki m nhở ph n õ ng th i ti t ki ỷm õ ỹcó ổớ óỳ ỏ ọử ồỡ óỳ ó ổồ
kh ng gian nh ù va n ng cao t c õ ỹ x lyù cu a h ỷ th ng.ọ ồ ỡ ỏ ọỳ ọ ổớ ớ ó ọỳ
3. Xỏy dổỷng tóỷp õaớo:
Nh õaợ kha o saùt caùc ch ng tr ùc, õ i v ùi m ựi t t baoổ ớ ồớ ổồ ổồ ọỳ ồ ọ ổỡ
g m caùc tha nh ph n:ọử ỡ ỏử
- t tổỡ
- t n su t fỏử ỏỳ
t
- danh saùch õa o Iớ
t
M ỹt t ỷp õa o cuợng bao g m caùc tha nh ph n tr n. Tr n cọ ó ớ ọử ỡ ỏử ó ó ồ
s caùc tha nh ph n cu a t ỷp õa o seợ xaùc õởnh chờnh xaùc caùc vnồớ ỡ ỏử ớ ó ớ
ba n ch ùa th ng tin c n truy v n. C u truùc cu a m ỹt t ỷp õa oớ ổ ọ ỏử ỏỳ ỏỳ ớ ọ ó ớ
õ ỹc x y d ỷng theo caùch th ùc truy n th ng nh sau:ổồ ỏ ổ ổ óử ọỳ ổ
Hỗnh 3.8 : Mọ hỗnh tóỷp õaớo õồn giaớn
Theo m hỗnh na y thỗ caùc tha nh ph n trong c s d ợ li ỷuọ ỡ ỡ ỏử ồ ồớ ổ ó
õ ỹc chố muỷc nh H 3.2 seợ õ ỹc l u tr ợ nh sau:ổồ ổ ổồ ổ ổ ổ
t
1
f
t1
d
1
f
d1 , t1
d
2
f
d2 , t2

.......... d
i
f
di , ti
t
2

f
t2

f
d1 , tn
d
2
f
d2 , tn
....... d
i
f
di ,
tn

d
1
f
d1 , t2
d
2
f
d2 , t2

......... d
i
f
di , ti
.......... t
n
f
tn

d
1

Baợo Vuợ 1 4 1 Caùc 1 4 1 Caùch maỷng 1 2 1
Cu a 1ớ
4 1 ỹc 2 1 1 3 1 Gia i 1 3 1 Gi ùi ổồ ớ ồ
thi ỷu 1 ó
3 1 M ùi 1 3 1 Taùc ph m 3 1 1 3 2 4 ồ ỏứ
1
Taùc gia 2 1 1 4 1 Th 1 2 1 Truy ỷn ớ ồ ó
ng n 2 ừ
2 1 4 1 Va 2 1 1 2 1 Y u thờch 1 1 ỡ ó
1
Hỗnh 3.9 : Vờ duỷ vóử chố muỷc tóỷp õaớo
Theo caùch x y d ỷng t ỷp õa o nh tr n thỗ vi ỷc x lyù truyỏ ổ ó ớ ổ ó ó ổớ
tỗm tr n t ỷp õa o õ ỹc ti n ha nh tu n t ỷ õ n t ng tha nhó ó ớ ổồ óỳ ỡ ỏử ổ óỳ ổỡ ỡ
ph n. V ùi c s d ợ li ỷu c ỷc l ùn thỗ ph ng th ùc truy c ỷpỏử ồ ồ ồớ ổ ó ổ ồ ổồ ổ ỏ
tu n t ỷ la kh ng hi ỷu qua va vỗ th m hỗnh t ỷp õa o n u tr nỏử ổ ỡ ọ ó ớ ỡ óỳ ọ ó ớ ó ó
la kh ng thờch h ỹp.ỡ ọ ồ
M ỹt caùch t ch ùc khaùc cu a t ỷp õa o kh c phuỷc õ ỹcọ ọứ ổ ớ ó ớ ừ ổồ
nh ỹc õi m tr n la x y d ỷng chố muỷc cho t ỷp õa o. u ti n,ổồ óứ ó ỡ ỏ ổ ó ớ ỏử ó

xaùc õởnh kờch th ùc kh i chố muỷc, chu y u la chố muỷc tổồ ọỳ ớ óỳ ỡ ổỡ
t ,m ựi t b t õ u cu a kh i seợ õ ỹc õ a l n ph n ti u õ cu ngọ ổỡ ừ ỏử ớ ọỳ ổồ ổ ó ỏử ó óử ỡ
v ùi õởa chố ồ
b t õ u cu a kh i õoù. Ti p tuỷc caùc tha nh ph n khaùc seợ õ ỹcừ ỏử ớ ọỳ óỳ ỡ ỏử ổồ
x y d ỷng chố muỷc t ng t ỷ. C u truùc õ ỹc m ta nh hỗnhỏ ổ ổồ ổ ỏỳ ổồ ọ ớ ổ
d ùi õ y :ổồ ỏ
t
1
150 t
2
400 ........
..
t
n
4250
T
1
F
t1
6250 .........
15
0
40
0
425
0

×