MỦC LỦC
M Í ÂÁƯ ........................................................................................................................3
1. Gi ïi thi ûu chung:å ã ....................................................................................................3
2. C s d ỵ li ûu vàn ba n:å åí ỉ ã í ...........................................................................................4
3. Y u c u v n tin:ã áư áú ......................................................................................................7
4. K t lu ûn:ãú á ................................................................................................................8
KHA I NI M V CH MU C A O VA C CH V N TINÏ ÃÛ ÃƯ È Û Â Í Ì Å ÃÚ ÁÚ ..........................................9
1. Chè mủc âa o:í ..........................................................................................................9
1.1 Danh sạch âa o:í ................................................................................................10
1.2 T ûp âa o:ã í ...........................................................................................................10
1.3 T âi n va trng l üng vàn ba n:ỉì ãø ì ỉå í ..................................................................11
2. C ch v n tin:å ãú áú ......................................................................................................12
2.1 V n tin dảng x p hảng:áú ãú ................................................................................12
2.2 V n tin dảng logic:áú ..........................................................................................14
3. K t lu ûn:ãú á ..............................................................................................................15
X Y D NG CH MU C A Ố ỈÛ È Û Â Í .......................................................................................17
1. C u trục d ỵ li ûu:áú ỉ ã ................................................................................................17
2. X y d ûng c u trục t âi ná ỉ áú ỉì ãø .................................................................................21
3. X y d ûng t ûp âa o:á ỉ ã í ................................................................................................24
4. Gia i thu ût x y d ûng chè mủc âa o:í á á ỉ í ....................................................................27
X LY V N TIN LOGICỈÍ Ï ÁÚ ...............................................................................................28
1. Ph n têch y u c u v n tin :á ã áư áú ...................................................................................28
2. X l cạc phẹp logic:ỉí ............................................................................................34
2.1 Phẹp AND:........................................................................................................35
2.2 Phẹp OR:...........................................................................................................36
3. K t lu ûn:ãú á ..............................................................................................................38
THI T K H TH NG VA TH C NGHI MÃÚ ÃÚ ÃÛ ÄÚ Ì ỈÛ ÃÛ .......................................................39
1. Mủc âêch x y d ûng h û th ng:á ỉ ã äú ............................................................................39
2. M hçnh ph n c p ch ïc nàng:ä á áú ỉ ...............................................................................40
3. X y d ûng ch ng trçnhá ỉ ỉå ........................................................................................42
3.1 Ng n ng ỵ s dủngä ỉ ỉí ...........................................................................................42
3.2 X y d ûng c s d ỵ li ûu á ỉ å åí ỉ ã .................................................................................42
3.3 X y d ûng ch ng trçnhá ỉ ỉå ....................................................................................43
4. Th ûc nghi ûm:ỉ ã ......................................................................................................46
K T LU NÃÚ ÁÛ ..................................................................................................................49
1. K t qu a âảt â ücãú í ỉå ................................................................................................49
2. Hản chãú...............................................................................................................50
3. H ïng phạt tri nỉå ãø ..................................................................................................50
LÅÌI GIÅÏI THIÃÛU
Trong th i õaỷi nga y nay, c ng ngh ỷ th ng tin õaợ coù nh ợngồỡ ỡ ọ ó ọ ổ
ti n b ỹ v ỹt b ỷc tr n nhi u lộnh v ỷc, õỷc bi ỷt trong õoù pha ióỳ ọ ổồ ỏ ó óử ổ ó ớ
noùi õ n kha nng ùng duỷng tin hoỹc va o cu ỹc s ng nh m õaùpóỳ ớ ổ ỡ ọ ọỳ ũ
ùng moỹi nhu c u th ỷc t cu a con ng i.ổ ỏử ổ óỳ ớ ổồỡ
Th ng tin la m ỹt ph n cu a cu ỹc s ng, con ng i õangọ ỡ ọ ỏử ớ ọ ọỳ ổồỡ
pha i õ i õ u v ùi khoù khn la la m sao n m b t õ ỹc th ng tinớ ọỳ ỏử ồ ỡ ỡ ừ ừ ổồ ọ
m ỹt caùch nhanh nh t va chờnh xaùc tr ùc s ỷ phaùt tri n nhanhọ ỏỳ ỡ ổồ ổ óứ
choùng cu a caùc ngu n th ng tin. Cu ng v ùi s ỷ bu ng n cu aớ ọử ọ ỡ ồ ổ ỡ ọứ ớ
th ng tin, caùc nhu c u v dởch vuỷ tra c ùu th ng tin cuợng tng l nọ ỏử óử ổ ọ ó
kh ng ng ng. Nga y nay coù r t nhi u sa n ph m ph n m mọ ổỡ ỡ ỏỳ óử ớ ỏứ ỏử óử
kh ng nh ợng õaùp ùng õ ỹc caùc nhu c u õoù ma nga y ca ng phaùtọ ổ ổ ổồ ỏử ỡ ỡ ỡ
tri n va hoa n thi ỷn h n. où la caùc h ỷ th ng tra c ùu th ng tin.óứ ỡ ỡ ó ồ ỡ ó ọỳ ổ ọ
Xu t phaùt t th ỷc t õoù, õ ỹc s ỷ g ỹi yù cu a th y Voợỏỳ ổỡ ổ óỳ ổồ ổ ồ ớ ỏử
Ngoỹc Anh, trong quaù trỗnh la m õ aùn t t nghi ỷp em choỹn õỡ ọử ọỳ ó óử
ta i C ch v n tin daỷng logic cho c s d ợ li ỷu vn ba n kh ngỡ ồ óỳ ỏỳ ồ ồớ ổ ó ớ ọ
c u truùc . B ng nh ợng ki n th ùc õaợ hoỹc, em õaợ hoa n tha nhỏỳ ũ ổ óỳ ổ ỡ ỡ
õ aùn cu a mỗnh v ùi n ỹi dung sau:ọử ớ ồ ọ
Ch ng 1: M õ uổồ ồớ ỏử
Ch ng 2: Khaùi ni ỷm v chố muỷc õa o va c ch v n tinổồ ó óử ớ ỡ ồ óỳ ỏỳ
Ch ng 3: X y d ỷng chố muỷc õa oổồ ỏ ổ ớ
Ch ng 4: X lyù v n tin logicổồ ổớ ỏỳ
Ch ng 5: Thi t k h ỷ th ng va th ỷc nghi ỷmổồ óỳ óỳ ó ọỳ ỡ ổ ó
Ch ng 6: K t lu ỷnổồ óỳ ỏ
Vỗ th i gian coù haỷn va ki n th ùc co n haỷn ch n n ch cồỡ ỡ óỳ ổ ỡ óỳ ó ừ
ch n trong õ aùn na y kh ng traùnh kho i nh ợng thi u soùt. Emừ ọử ỡ ọ ớ ổ óỳ
r t mong õ ỹc s ỷ goùp yù, chố ba o cu a caùc Th y c giaùo va caùcỏỳ ổồ ổ ớ ớ ỏử ọ ỡ
baỷn.
Em xin ch n tha nh ca m n khoa C ng Ngh ỷ Th ng Tinỏ ỡ ớ ồ ọ ó ọ
tr ng aỷi Hoỹc Kyợ Thu ỷt cu ng caùc Th y c õaợ taỷo õi u ki ỷnổồỡ ỏ ỡ ỏử ọ óử ó
cho em hoa n tha nh õ aùn na y. ỷc bi ỷt em xin ch n tha nhỡ ỡ ọử ỡ ó ỏ ỡ
ca m n th y Voợ Ngoỹc Anh õaợ giuùp õ ợ em t ỷn tỗnh trong th iớ ồ ỏử ồ ỏ ồỡ
gian qua. Cu i cu ng xin ca m n cạc bản â â üng vi n va giụpäú ì í å ä ã ì
â ỵ t i trong quạ trçnh la m vi ûc. å ä ì ã
a Nàơng, thạng 5 nàm 2000. ì
Sinh vi nã
L Ngc Quangã
CHỈÅNG 1
MÅÍ ÂÁƯU
1. Giåïi thiãûu chung:
X h üi nga y ca ng phạt tri n, thç nhu c u âo i ho i s ûä ì ì ãø áư ì í ỉ
âạp ïng cạc y u c u nhanh va chênh xạc cu a con ng i nga ã áư ì í ỉåì ì
ca ng cao. Nga y nay v ïi m üt l üng th ng tin kh ng l v miì ì å ä ỉå ä äø äư ãư
màût nh khoa hc k thu ût, vàn hc, ngh û thu ût, gia i trê...ỉ á ã á í
thç â âạp ïng â üc cạc y u c u th ng tin thêch h üp v m ütãø ỉ ỉå ã áư ä å ãư ä
th loải hay nhi u th loải na o âọ â i v ïi ng i v n tin la r tãø ãư ãø ì äú å ỉåì áú ì áú
quan trng.
Trong th vi ûn, â bản âc kh ng pha i m t c ng lủcỉ ã ãø ä í áú ä
tung ca â ng sạch â tçm cho mçnh m üt quy n sạch nh í äú ãø ä ãø ỉ
thç ng i ta â â a ra m üt ph ng phạp giụp tçm ki m r tỉåì ỉ ä ỉå ãú áú
nhanh la x y d ûng chè mủc. T âọ bản âc cọ th tçm ki mì á ỉ ỉì ãø ãú
nhanh cạc y u c u cu a mçnh v ïi cạc chè mủc â l ûp sàơn theỗ áư í å á
t n sạch, t n tạc gia hồûc n üi dung.ã ã í ä
S û phạt tri n v üt b ûc cu a c ng ngh û th ng tin la m ch ãø ỉå á í ä ã ä ì
b ü màût x h üi cọ nh ỵng thay â i âạng k . Con ng i miä ä ỉ äø ãø ỉåì åí
lục mi n i â u cọ th nà m bà t m üt cạch nhanh chọng cạcå ãư ãø õ õ ä
th ng tin ma mçnh quan t m. ọ la nh cạc h û th ng truy tçmä ì á Â ì åì ã äú
th ng tin. Cạc h û th ng truy tçm th ng tin ra â i â gọp ph nä ã äú ä åì áư
kh ng nho trong lénh v ûc tra c ïu âạp ïng â üc m üt ph n y í ỉ ỉ ỉ ỉå ä áư ã
c u cu a ng i v n tin.áư í ỉåì áú
Vi ûc x y d ûng h û th ng truy tçm th ng tin trong lénh v ûcã á ỉ ã äú ä ỉ
tin hc cng d ûa tr n nguy n tà c x y d ûng chè mủc. i ã ã õ á ỉ Â ãư
na y â â üc d û âoạn tr ïc khi ng i ta ti n ha nh x y d ûngì ỉå ỉ ỉå ỉåì ãú ì á ỉ
chè mủc m üt cạch thu c ng va la t t y u khi mạy tênh ra â i.ä í ä ì ì áú ãú åì
V ïi vi ûc s dủng chè mủc ta cọ kha nàng tçm â üc nh ỵngå ã ỉí í ỉå ỉ
th ng tin c n thi t va âàûc bi ût la khi th ng tin â üc vi t bà ngä áư ãú ì ã ì ä ỉå ãú ò
nh ỵng ng n ng ỵ khạc. Th ûc v ûy, n u ta mu n tçm â ücỉ ä ỉ ỉ á ãú äú ỉå
th ng tin t m üt quy n sạch â üc vi t bà ng m üt ng n ng ỵä ỉì ä ãø ỉå ãú ò ä ä ỉ
khạc thç tr n c s chè mủc cu a quy n sạch âọ ta xạc âënh vẫ å åí í ãø ì
dëch nh ỵng trang ch ïa th ng tin y u c u h n la dëch toa n b üỉ ỉ ä ã áư å ì ì ä
quy n sạch y. M üt quy n sạch kh ng cọ chè mủc s mangãø áú ä ãø ä
â n cho âc gia s û b t l üi l ïn. a ph n mi ng i lục na ú í ỉ áú å å Â áư ỉåì ì
hay lục khạc â âc k quy n sạch â tçm ki m m üt âi u gçãø ãø ãú ä ãư
âọ ma h chà c chà n la cọ âọ nh ng â n gia n la tçm hoa iì õ õ ì åí ỉ å í ì ì
kh ng th y.ä áú
i v ïi m üt d ỵ li ûu nho th ng th ng, â tçm m üt th ngÂäú å ä ỉ ã í ä ỉåì ãø ä ä
tin na o âọ ta cọ th tçm ki m m üt cạch tu n t û va v ïi m ütì ãø ãú ä áư ỉ ì å ä
s û may mà n na o âọ bà ng nh ỵng â u m i ng ỵ ca nh khạcỉ õ ì ò ỉ áư äú ỉ í
nhau cọ th tçm â üc n üi dung mong mu n. Nh ng v ïi m ütãø ỉå ä äú ỉ å ä
d ỵ li ûu l ïn c ỵ Gigabyte t ïc la ha ng tràm ha ng tri ûu trang thçỉ ã å å ỉ ì ì ì ã
xem ra ph ng th ïc na y la kh ng hi ûu qua . V ïi d ỵ li ûu âọ,ỉå ỉ ì ì ä ã í å ỉ ã
n u nh kh ng du ng chè mủc ma th ûc hi ûn tçm ki m â tçmãú ỉ ä ì ì ỉ ã ãú ãø
th ng tin quan t m thç th i gian th ûc hi ûn la r t l u. V ïi l dộ á åì ỉ ã ì áú á å
âọ thç x y d ûng chè mủc cho h û th ng truy tçm th ng tin mấ ỉ ã äú ä ì
âụng h n la x y d ûng chè mủc cho c s d ỵ li ûu vàn ba n cu ẩ ì á ỉ å åí ỉ ã í í
h û th ng la c n thi t.ã äú ì áư ãú
2. Cå såí dỉỵ liãûu vàn bn:
Th ng tin la m üt ph n quan trng cu a cu üc s ng conä ì ä áư í ä äú
ng i, nh t la trong x h üi hi ûn âải nga y nay. Ha ng nga åì áú ì ä ã ì ì ì
chụng ta th ng xuy n âọn nh ûn th ng tin t nhi u ngu nỉåì ã á ä ỉì ãư äư
khạc nhau. ïng tr ïc s û bu ng n th ng tin cu ng v ïi vi ûc ạpÂỉ ỉå ỉ ì äø ä ì å ã
dủng c ng ngh û th ng tin, â giụp cho con ng i cọ th nà mä ã ä ãø ỉåì ãø õ
bà t â üc th ng tin mçnh quan t m m üt cạch nhanh chọng thçõ ỉå ä á ä
cạc h û th ng tra c ïu th ng tin â â a ra cạc th ng tin â üc t ngã äú ỉ ä ỉ ä ỉå äø
h üp v ïi n üi dung khại quạt nh t. T ûp h üp nh ỵng th ng tinå å ä áú á å ỉ ä
t ng h üp âọ â üc gi la c s d ỵ li ûu cu a h û th ng.äø å ỉå ì å åí ỉ ã í ã äú
Trong â ạn na y v ïi mủc âêch x y d ûng h û th ng truư ì å á ỉ ã äú
tçm th ng tin ïng dủng trong cạc th vi ûn nhà m giụp âc giậ ỉ ỉ ã ò í
tçm â üc n üi dung th ng tin c n truy v n m üt cạch nhanhỉå ä ä áư áú ä
nh t thç h û th ng â üc x y d ûng v ïi m üt c s d ỵ li ûu lấú ã äú ỉå á ỉ å ä å åí ỉ ã ì
t ûp h üp nh ỵng l i gi ïi thi ûu khại quạt v n üi dung cu a t ngá å ỉ åì å ã ãư ä í ỉì
cu n sạch. â n gia n, m ùi n üi dung tọm tà t â üc trçnh ba ú Âãø å í ä ä õ ỉå ì
theo m üt âoản vàn ba n ri ng bi ût, ngàn cạch nhau b i d í ã ã åí áú
cạch do ng va m üt khoa ng trà ng. M üt c s d ỵ li ûu nh v û ì ä í õ ä å åí ỉ ã ỉ á
gi la c s d ỵ li ûu vàn ba n hay co n gi la b ü s u t ûp vànì å åí ỉ ã í ì ì ä ỉ á
ba n.í
M üt minh hoả v c s d ỵ li ûu vàn ba nä ãư å åí ỉ ã í
nh sau:ỉ
M y nụi thại ha ng (NXB h üi nha vàn)á ì ä ì
15 truy ûn ngà n cu a Ba o V trong t ûp sạchã õ í í á
na y, d ùu vi t v tçnh y u cu üc s ng v ïiì á ãú ãư ã ä äú å
nh ỵng b n cha i cu a l ïp ng i tre tu i, vỉ ỉå í í å ỉåì í äø ãư
tçnh ca m, n p s ng, suy t cu a ng i gia trongí ãú äú ỉ í ỉåì ì
hi ûn tải hay khi l ût lải nh ỵng têch c v ùnã á ỉ á
lu n lu n th i va o nh ỵng trang vàn h i th cu ậ ä äø ì ỉ å åí í
nhëp s ng â ng âải, t i m ïi. Trong t ûp cọäú ỉå ỉå å á
nhi u tạc ph m l i cu n nh : Tr u t m cạnhãư áø ä äú ỉ áư ã
ph üng, m y nụi thại ha ng...ỉå á ì
Giọ nà ng Tr ng S n (NXB vàn ngh û TP HCM )õ ỉåì å ã
T ûp bụt k ghi lải ca m xục cu a tạc gia Phaná í í í
Lai Tri u qua nh ỵng thạng nga y s ng chi nãư ỉ ì äú ãú
â u tr n di Tr ng S n trong cu üc khạngáú ã ỉåì å ä
chi n ch ng M c ïu n ïc. Tạc gia khà c hoảãú äú ỉ ỉå í õ
hỗnh a nh ng i lờnh tr ùc bom õaỷn ke thuớ ổồỡ ổồ ớ ỡ
v ựn laỷc quan y u õ i, hỗnh a nh caùc anh chởuỏ ó ồỡ ớ
õ ỷng gian kh , hy sinh anh duợng, c ng hi n caổ ọứ ọỳ óỳ ớ
tu i xu n cu a mỗnh cho õ t n ùc...ọứ ỏ ớ ỏỳ ổồ
Hỗnh 1.1
:
Trờch mọỹt cồ sồớ dổợ lióỷu vn baớn
Nh v ỷy c s d ợ li ỷu vn ba n õ ỹc õởnh nghộa nh laổ ỏ ồ ồớ ổ ó ớ ổồ ổ ỡ
t ỷp caùc vn ba n ri ng leợ va m ựi vn ba n õ ỹc coi la m ỹt m ựuỏ ớ ó ỡ ọ ớ ổồ ỡ ọ ỏ
tin õ ỹc l u d ùi daỷng ma maùy tờnh coù th õoỹc õ ỹc. V ùiổồ ổ ổồ ỡ óứ ổồ ồ
vi ỷc x y d ỷng chố muỷc, m ựi vn ba n õ ỹc coi la m ỹt chu ựió ỏ ổ ọ ớ ổồ ỡ ọ ọ
n i ti p caùc t . T coù th la t õ n hay x u kyù t ỷ coù õ ỹcọỳ óỳ ổỡ ổỡ óứ ỡ ổỡ ồ ỏ ổ ổồ
b ng m ỹt quy ùc na o õoù trong vn ba n. Caùch õởnh nghộa na yũ ọ ổồ ỡ ớ ỡ
la kh ng õ ng nh t trong nhi u vn ba n.ỡ ọ ọử ỏỳ óử ớ
M ỹt c s d ợ li ỷu vn ba n cuợng nh ba n th n caùc vn ba nọ ồ ồớ ổ ó ớ ổ ớ ỏ ớ
kh ng coù s ỷ gi ùi haỷn v õ ỹ da i. M ỹt vn ba n coù th g mọ ổ ồ óử ọ ỡ ọ ớ óứ ọử
m ỹt va i byte hoỷc va i Megabyte. M ỹt c s d ợ li ỷu vn ba nọ ỡ ỡ ọ ồ ồớ ổ ó ớ
g m va i trm hoỷc va i tri ỷu vn ba n nh th .ọử ỡ ỡ ó ớ ổ óỳ
Caùc õỷc tr ng quan troỹng cu a c s d ợ li ỷu vn ba n õ ỹcổ ớ ồ ồớ ổ ó ớ ổồ
li ỷt k trong ba ng sau:ó ó ớ
Kyù hi ỷuó Y nghộaẽ Vờ duỷ
N
F
n
D
f
S caùc vn ba n trongọỳ ớ
CSDL
T ng s t xu tọứ ọỳ ổỡ ỏỳ
hi ỷnó
S caùc t khaùc bi ỷtọỳ ổỡ ó
Kờch th ùc CSDLổồ
(Mbyte)
S con tro chố muỷcọỳ ớ
31 102
884 988
9 020
4,33
699 131
Baớng 1.1: Caùc õỷc trổng cuớa CSDL vn baớn
M ựi vn ba n trong c s d ợ li ỷu vn ba n coù m ỹt õởnhọ ớ ồ ồớ ổ ó ớ ọ
danh duy nh t. õ n gia n, ta gia s caùc vn ba n õ ỹc õởnhỏỳ óứ ồ ớ ớ ổớ ớ ổồ
danh b ng caùc s t ỷ nhi n ( t 1 õ n N ) theo th ù t ỷ nh ỷpũ ọỳ ổ ó ổỡ óỳ ổ ổ ỏ
va o c s d ợ li ỷu. Trong õ aùn na y õởnh danh co n goỹi la sỡ ồ ồớ ổ ó ọử ỡ ỡ ỡ ọỳ
hi ỷu vn ba n.ó ớ
Hỗnh sau õ y la m ỹt vờ duỷ v õởnh danh cu a vn ba n:ỏ ỡ ọ óử ớ ớ
S hi ỷu vnọỳ ó
ba nớ
Vn ba nớ
1
2
3
4
Taùc ph m va taùc gia õ ỹc y uỏứ ỡ ớ ổồ ó
thờch
Th va truy ỷn ng n caùch maỷngồ ỡ ó ừ
Gi ùi thi ỷu taùc ph m m ùi, taùcồ ó ỏứ ồ
ph m õ ỹc gia iỏứ ổồ ớ
Caùc taùc ph m truy ỷn ng n cu aỏứ ó ừ ớ
taùc gia Ba oVuợớ ớ
Hỗnh 1.2 : Vờ duỷ vóử õởnh danh cuớa vn baớn
Vờ duỷ tr n õ ỹc xem nh la m ỹt vờ duỷ xuy n su t ca õó ổồ ổ ỡ ọ ó ọỳ ớ óử
ta i na y v ùi m ựi do ng la m ỹt vn ba n.ỡ ỡ ồ ọ ỡ ỡ ọ ớ
3. Yóu cỏửu vỏỳn tin:
M ỹt tha nh ph n r t quan troỹng õ i v ùi h ỷ th ng truyọ ỡ ỏử ỏỳ ọỳ ồ ó ọỳ
tỗm th ng tin la caùc y u c u v n tin. y la m i tr ng giao ti pọ ỡ ó ỏử ỏỳ ỏ ỡ ọ ổồỡ óỳ
chênh gi ỵa ng i v n tin va h û th ng truy tçm th ng tin. M ütỉ ỉåì áú ì ã äú ä ä
y u c u v n tin la m üt y u c u d ûa tr n ng n ng ỵ t û nhi n, cọã áư áú ì ä ã áư ỉ ã ä ỉ ỉ ã
th la m üt t hay m üt chu ùi cạc t â üc li n k t v ïi nhaø ì ä ỉì ä ä ỉì ỉå ã ãú å
b i cạc phẹp toạn logic nh : AND, OR, XOR, NOT. Tr n c s cạcåí ỉ ã å åí
y u c u âọ, h û th ng truy tçm th ng tin s tçm cạc vàn ba nã áư ã äú ä í
ch ïa th ng tin t ng ïng trong c s d ỵ li ûu vàn ba n va hi n thëỉ ä ỉå ỉ å åí ỉ ã í ì ãø
cho ng i c n v n tin.ỉåì áư áú
Vê dủ v y u c u v n tin nh :ãư ã áư áú ỉ
- Tạc ph m AND Tạc giấø í
- Th OR Truy ûn ngà nå ã õ
- (Tạc ph m OR Tạc gia ) AND (Th OR Truy ûn ngà n)áø í å ã õ
............
4. Kãút lûn:
V ïi nh ỵng gç trçnh ba y tr n, ph n na o â hçnh tha nhå ỉ ì åí ã áư ì ì
m üt h û th ng truy tçm th ng tin m üt cạch t ng quạt nh t.ä ã äú ä ä äø áú
Qua âọ bi t â üc cạch th ïc t ch ïc m üt c s d ỵ li ûu vànãú ỉå ỉ äø ỉ ä å åí ỉ ã
ba n, m üt y u c u v n tin la gç va h û th ng â üc x y d ûngí ä ã áư áú ì ì ã äú ỉå á ỉ
tr n c s na o. Tuy nhi n â y m ïi chè la cại nhçn t ng quan vã å åí ì ã á å ì äø ãư
dạng mảo cu a h û th ng, cạc ch ng ti p theo s trçnh ba y chií ã äú ỉå ãú ì
ti t v c u tảo va nguy n tà c hoảt â üng b n trong cu a h ûãú ãư áú ì ã õ ä ã í ã
th ng truy tçm th ng tin.äú ä
CHỈÅNG 2
KHẠI NIÃÛM VÃƯ CHÈ MỦC ÂO V CÅ CHÃÚ VÁÚN TIN
1. Chè mủc âo:
Nh â â c ûp trong ch ng tr ïc, nga y nay v ïi s û ti nỉ ãư á ỉå ỉå ì å ỉ ãú
b ü cu a khoa hc c ng ngh û âàûc bi ût la c ng ngh û th ng tin,ä í ä ã ã ì ä ã ä
cu ng v ïi s û bu ng n cu a th ng tin thç cạc h û th ng truy tçmì å ỉ ì äø í ä ã äú
th ng tin ra â i. Nhi ûm vủ cu a h û th ng truy tçm th ng tin lậ åì ã í ã äú ä ì
tçm va hi n thë nh ỵng th ng tin thoa mn y u c u na o âọ cu ãø ỉ ä í ã áư ì í
ng i v n tin. Trong â lu ûn na y âọ la cạc vàn ba n trong c sỉåì áú ãư á ì ì í å åí
d ỵ li ûu vàn ba n.ỉ ã í
V ïi m üt c s d ỵ li ûu c ûc l ïn, gia s g m ha ng tri û ä å åí ỉ ã ỉ å í ỉí äư ì ã
vàn ba n, thç âọ la thạch th ïc â i v ïi cạc h û th ng truy tçmí ì ỉ äú å ã äú
th ng tin. Vi ûc tçm l i gia i cho cạc y u c u theo h ïng tr ûcä ã åì í ã áư ỉå ỉ
ti p â n t ng vàn ba n trong c s d ỵ li ûu s a nh h ng l ïnãú ãú ỉì í å åí ỉ ã í ỉåí å
â n th i gian truy tçm. Vç v ûy â n ng cao t c â ü truy tçm cu ẫú åì á ãø á äú ä í
h û th ng ta ti n ha nh x y d ûng chè mủc cho c s d ỵ li ûu.ã äú ãú ì á ỉ å åí ỉ ã
Cọ nhi u k thu ût x y d ûng chè mủc nh chè mủc âa o, chèãư á á ỉ ỉ í
mủc ch ỵ k, chè mủc hçnh a nh. Tuy nhi n chè mủc ch ỵ kỉ í ã ỉ
va chè mủc hçnh a nh âo i ho i dung l üng b ü nh ï l ïn n n trongì í ì í ỉå ä å å ã
â ạn na y em chn cạch x y d ûng chè mủc d ûa tr n m üt käư ì á ỉ ỉ ã ä
thu ût gi la k thu ût chè mủc âa o. Tr n c s chè mủc âa ố ì á í ã å åí í
na y, cạc hçnh th ïc v n tin s â üc x y d ûng phu h üp v ïi cạcì ỉ áú ỉå á ỉ ì å å
y u c u cu a ng i v n tin.ã áư í ỉåì áú
Ph n na y tha o lu ûn v cạch th ïc ca i âàût h û th ng truư ì í á ãư ỉ ì ã äú
tçm vàn ba n â cọ th tçm c u tra l i cho cạc y u c u dảngí ãø ãø á í åì ã áư
logic va x p hảng. M üt y u c u logic âo i ho i, â i v ïi m ùi tì ãú ä ã áư ì í äú å ä ỉì
cu a y u c u, m üt ph ng phạp xạc âënh m ùi vàn ba n cọ ch ï ã áư ä ỉå ä í ỉ
t âọ hay kh ng. Y u c u x p hảng b n cảnh âi u na y co n âo iỉì ä ã áư ãú ã ãư ì ì ì
ho i th ng tin v t m quan trng cu a t trong vàn ba n. Cạchí ä ãư áư í ỉì í
th ïc ca i âàût h üp l âạp ïng ca hai y u c u tr n la chè mủcỉ ì å ỉ í ã áư ã ì
âa o.í
Chè mủc âa o â üc x y d ûng tr n c s ba tha nh ph n:í ỉå á ỉ ã å åí ì áư
danh sạch âa o, t âi n va trng l üng vàn ba n, t ûp âa o. H ûí ỉì ãø ì ỉå í ã í ã
th ng s x l tr ûc ti p tr n cạc tha nh ph n na y â â a rậú ỉí ỉ ãú ã ì áư ì ãø ỉ
cạc vàn ba n cọ th ng tin âạp ïng â üc y u c u cu a ng i v ní ä ỉ ỉå ã áư í ỉåì áú
tin.
1.1 Danh sạch âo:
Danh sạch âa o la tha nh ph n quan trng nh t trong chèí ì ì áư áú
mủc âa o, â üc x y d ûng t c s d ỵ li ûu vàn ba n ban â u. V ïií ỉå á ỉ ỉì å åí ỉ ã í áư å
m ùi t khạc bi ût trong c s d ỵ li ûu, danh sạch âa o t ng ïngä ỉì ã å åí ỉ ã í ỉå ỉ
cho phẹp xạc âënh t âọ cọ màût trong nh ỵng vàn ba n na o vì ỉ í ì ì
cọ t m quan trng ra sao trong cạc vàn ba n âọ. Nh v ûy danháư í ỉ á
sạch âa o la danh sạch cạc càûp nh n t < s hi ûu vàn ba n ,í ì á äú äú ã í
trng l üng >.ỉå
l u tr ỵ m üt càûp nh n t nh v ûy c n 8 byte, 4 bytãø ỉ ỉ ä á äú ỉ á áư
cho s hi ûu vàn ba n va 4 byte cho trng l üng. V ïi m üt c säú ã í ì ỉå å ä å åí
d ỵ li ûu l ïn thç s càûp nh n t s r t l ïn va âo i ho i kh ng gianỉ ã å äú á äú áú å ì ì í ä
nh ï cng l ïn. ti t ki ûm kh ng gian nh ï, ta thay nh n tå å Âãø ãú ã ä å á äú
trng l üng bà ng t n su t t trong vàn ba n. T n su t na å ò áư áú ỉì í áư áú ì
â üc bi u di ùn b i s nguy n 2 byte hồûc 1 byte. V ïi cạch thaå ãø ã åí äú ã å
th na y thç danh sạch âa o cu a t t la m üt danh sạch cạc càûpãú ì í í ỉì ì ä
< d,f
d,t
>, trong âọ d la s hi ûu vàn ba n ch ïa t t va fì äú ã í ỉ ỉì ì
d,t
la s l nì äú áư
t t xu t hi ûn trong d. ỉì áú ã
1.2 Tãûp âo:
T ûp âa o la m üt t ûp du ng â l u tr ỵ trng l üng cu ẫ í ì ä ã ì ãø ỉ ỉ ỉå í
m ùi vàn ba n t ïc la bao g m cạc danh sạch âa o cu a t t ca cạcä í ỉ ì äư í í áú í
t khạc bi ût trong c s d ỵ li ûu vàn ba n. Cọ th coi t ûp âa o lì ã å åí ỉ ã í ãø ã í ì
m üt chu ùi n i ti p cạc s th ûc t üng tr ng cho trng l üngä ä äú ãú äú ỉ ỉå ỉ ỉå
cu a cạc vàn ba n theo th ï t û tàng cu a s hi ûu vàn ba n. Chi ti tí í ỉ ỉ í äú ã í ãú
v c u trục cu a t ûp âa o va ph ng phạp truy c ûp cạc tha nhãư áú í ã í ì ỉå á ì
ph n trong t ûp âa o s â üc tha o lu ûn ch ng ti p theo.áư ã í ỉå í á åí ỉå ãú
Xẹt m üt vê dủ â n gia n v t ûp âa o v ïi m ùi vàn ba n â ücä å í ãư ã í å ä í ỉå
â n gia n hoạ tha nh m üt chu ùi n i ti p cạc ch ỵ cại va xem âọå í ì ä ä äú ãú ỉ ì
nh la cạc t cu a c s d ỵ li ûu.ỉ ì ỉì í å åí ỉ ã
Hçnh 2.1 : Vê dủ vãư tãûp âo
Trong vê dủ na y, c s d ỵ li ûu vàn ba n bao g m 6 vàn ba nì å åí ỉ ã í äư í
â üc âạnh s t 1 â n 6 va s cạc t khạc bi ût la 5 ïng v ïiỉå äú ỉì ãú ì äú ỉì ã ì ỉ å
danh sạch âa o â üc bi u di ùn nh tr n.í ỉå ãø ã ỉ ã
1.3 Tỉì âiãøn v trng lỉåüng vàn bn:
M üt tha nh ph n cng r t quan trng khạc trong chèä ì áư áú
mủc âa o la t âi n. T âi n du ng â ghi lải t t ca cạc tí ì ỉì ãø ỉì ãø ì ãø áú í ỉì
S hi ûu vàn äú ã
ba ní
c b b c a c
a b b e a
c b e
a b c b
b b b b e
e e e c e
1
2
3
4
5
6
1,3 2,1
1,2 2,2 3,5 4,1
2,3 4,1 5,1
1,3
1,1 3,1 4,1
a
b
c
d
e
Vàn ba ní
Danh sạch
âa
Tỉì
t
T ûp ã
âa
CSDL vàn
ba ní
khaùc bi ỷt cu a c s d ợ li ỷu cu ng v ùi õởa chố cu a danh saùchó ớ ồ ồớ ổ ó ỡ ồ ớ
õa o t ng ùng cu a noù trong t ỷp õa o. Ch ùc nng chờnh cu a tớ ổồ ổ ớ ó ớ ổ ớ ổỡ
õi n la du ng õ tỗm ki m t va t õi n th ng õ ỹc x yóứ ỡ ỡ óứ óỳ ổỡ ỡ ổỡ óứ ổồỡ ổồ ỏ
d ỷng theo c u truùc c y nhở ph n õ õaùp ùng õ ỹc y u c u cu aổ ỏỳ ỏ ỏ óứ ổ ổồ ó ỏử ớ
h ỷ th ng. C u truùc cu a t õi n seợ õ ỹc m ta chi ti t ó ọỳ ỏỳ ớ ổỡ óứ ổồ ọ ớ óỳ ồớ
ch ng sau.ổồ
Nh õaợ õ c ỷp t ỷp õa o, troỹng l ỹng cu a th ỷcổ óử ỏ ồớ ó ớ ổồ ớ ổ
th vn ba n coù th õ ỹc tờnh theo nhi u ph ng phaùp nh ngóứ ớ óứ ổồ óử ổồ ổ
h u h t la d ỷa tr n hai th a s sau: TF va IDF.ỏử óỳ ỡ ổ ó ổỡ ọỳ ỡ
- TF goỹi la t n su t t t ùc la s l n xu t hi ỷnỡ ỏử ỏỳ ổỡ ổ ỡ ọỳ ỏử ỏỳ ó
cu a t t trong th ỷc th vn ba n d va õ ỹc kyùớ ổỡ ổ óứ ớ ỡ ổồ
hi ỷu la fó ỡ
d,t
.
- IDF la t n su t vn ba n ng ỹc th ng õ ỹc tờnhỡ ỏử ỏỳ ớ ổồ ổồỡ ổồ
theo c ng th ùc log(N/fọ ổ
t
) , trong õoù N la s vn ba nỡ ọỳ ớ
trong c s d ợ li ỷu va fồ ồớ ổ ó ỡ
t
la s vn ba n coù ch ùa tỡ ọỳ ớ ổ ổỡ
t.
Th ng th ng troỹng l ỹng cu a th ỷc th vn ba n :ọ ổồỡ ổồ ớ ổ óứ ớ
TF* IDF.
2. Cồ chóỳ vỏỳn tin:
Trong ph n na y gi ùi thi ỷu khaùi quaùt v hai c ch v n tinỏử ỡ ồ ó óử ồ óỳ ỏỳ
daỷng logic va daỷng x p haỷng.ỡ óỳ
2.1 Vỏỳn tin daỷng xóỳp haỷng:
Gia s ta coù m ỹt y u c u q (g m m ỹt s t t = 1..n) vaớ ổớ ọ ó ỏử ọử ọ ọỳ ổỡ ỡ
m ỹt c s d ợ li ỷu l ùn g m N vn ba n kh ng c u truùc. õaùpọ ồ ồớ ổ ó ồ ọử ớ ọ ỏỳ óứ
ùng õ ỹc y u c u v n tin q thỗ h ỷ th ng pha i th ỷc hi ỷnổ ổồ ó ỏử ỏỳ ó ọỳ ớ ổ ó
vi ỷc tờnh toaùn troỹng l ỹng va õ ỹ t ng h ỹp cu a y u c u õoùó ổồ ỡ ọ ổồ ồ ớ ó ỏử
v ùi m ựi vn ba n coù ch ùa th ng tin c n tỗm. Sau õoù caùc vn ba nồ ọ ớ ổ ọ ỏử ớ
seợ õ ỹc hi n thở cho ng i v n tin theo th ù t ỷ gia m d n cu aổồ óứ ổồỡ ỏỳ ổ ổ ớ ỏử ớ
õ ỹ t ng h ỹp. Theo nh ta i li ỷu Managing Gigabytes, õ ỹ t ngọ ổồ ồ ổ ỡ ó ọ ổồ
h ỹp cu a y u c u q va vn ba n d õ ỹc tờnh nh sau:ồ ớ ó ỏử ỡ ớ ổồ ổ
( )
=
=
n
t
tdtq
dq
WW
WW
dqS
1
,,
*
1
,
=
=
n
t
tq
q
WW
1
,
2
t
tdtd
f
N
fW log*
,,
=
Trong õoù
la troỹng l ỹng cu a y u c u q.ỡ ổồ ớ ó ỏử
laỡ troỹng l ỹng cu a vn ba n d.ổồ ớ ớ
Va ỡ
Nh v ỷyổ ỏ
Vờ duỷ v õ ỹ t ng h ỹp nh sau:óử ọ ổồ ồ ổ
Gia s ta coù c s d ợ li ỷu nh hỗnh 2.1.ớ ổớ ồ ồớ ổ ó ổ
Caùc giaù trở f
d,t
va Wỡ
d
t ng ùng õ ỹc li ỷt k trongổồ ổ ổồ ó ó
ba ng 2.1ớ
D T tổỡ
a b C d e
W
d
1
2
3
4
5
6
3
1
0
0
1
0
2
2
5
1
2
0
0
3
0
1
1
1
0
1
0
0
0
0
1
0
1
1
0
4
3,10
3,31
1,42
0,86
1,27
2,39
f
t
W
t
3
1,00
5
0,26
4
0,58
1
2,58
4
0,58
Baớng 2.1 : Caùc giaù trở f
d,t
vaỡ W
d
tổồng ổùng vồùi CSDL hỗnh 2.1
ỹ t ng h ỹp gi ợa y u c u q va vn ba n d õ ỹc tờnhọ ổồ ồ ổ ó ỏử ỡ ớ ổồ
toaùn nh vờ duỷ li ỷt k trong ba ng sau:ổ ó ó ớ
D Y u c uó ỏử
d
W
q
=2,58
C
W
q
=0,58
c,d
W
q
=2,64
a,b,e
W
q
=1,18
a,b,c,d,e
W
q
=2,90
=
=
n
t
td
d
WW
1
,
2
( )
=
qt
t
td
dq
f
N
f
WW
dqS
2
,
)(log*
1
,
1
2
3
4
5
6
0,00
0,78
0,00
0,00
0,00
0,00
0,00
0,53
0,00
0,67
0,46
0,24
0,00
0,88
0,00
0,15
0,10
0,05
0,95
0,29
0,40
0,40
0,76
0,48
0,39
0,92
0,16
0,30
0,40
0,24
Top 2 4 2 1 2
Bng 2.2 : Âäü tỉång håüp giỉỵa u cáưu q v vàn bn d
2.2 Váún tin dảng logic:
C ch v n tin na y â üc th ûc hi ûn d ûa tr n cạc phẹpå ãú áú ì ỉå ỉ ã ỉ ã
toạn logic la cạc phẹp toạn AND , OR va NOT va s dủng kì ì ì ỉí
thu ût chè mủc âa o. V ïi m üt y u c u q g m m üt s t t â ücá í å ä ã áư äư ä äú ỉì ỉå
li n k t b i cạc phẹp toạn logic nh tr n thç â u ti n cạc t sã ãú åí ỉ ã áư ã ỉì
â üc tçm trong t âi n , xạc âënh cạc danh sạch âa o t ng ïngỉå ỉì ãø í ỉå ỉ
va sau âọ d ûa tr n cạc phẹp toạn logic t ng ïng â xạc âënhì ỉ ã ỉå ỉ ãø
t ûp cạc vàn ba n thoa mn y u c u va trçnh ba y cho ng i v ná í í ã áư ì ì ỉåì áú
tin.
C ch v n tin dảng logic cho k t qua cọ â ü chênhå ãú áú ãú í ä
xạc cao h n so v ïi v n tin dảng x p hảng. Trong â lu ûn na å áú ãú ãư á ì
chè xẹt c ch v n tin dảng logic. Chi ti t v x l v n tinå ãú áú ãú ãư ỉí áú
dảng na y s â üc trçnh ba y ch ng b n.ì ỉå ì åí ỉå äú
M üt vê dủ minh ha cho c ch v n tin dảng logic :ä å ãú áú
Cho c s d ỵ li ûu nh hçnh 1.2, ta x y d ûng t ûp âa ổ åí ỉ ã ỉ á ỉ ã í
nh sau:ỉ
T tỉì Danh sạch âa o Ií
t
Ba o V í
Cạc
Cạch mảng
Cu
ücÂỉå
Gia ií
Gi ïi thi û ã
M ïiå
Tạc ph máø
Tạc gi
Thå
Truy ûn ngà nã õ
V
Y u thêchã
Gia s cọ y u c u v n tin q= ( tạc gia AND tạc ph m ).í ỉí ã áư áú í áø
Sau khi th ûc hi ûn tçm ki m trong t âi n ta cọ k t qu ã ãú ỉì ãø ãú í
nh sau:ỉ
t ∈ q D
Tạc gi
Tạc ph máø
1 , 4
1 , 3 , 4
V ïi phẹp toạn logic la AND n n cạc vàn ba n ( 1 , 4 ) s â ücå ì ã í ỉå
ghi nh ûn va trçnh ba y cho ng i v n tin.á ì ì ỉåì áú
3. Kãút lûn:
Ch ng na y â a ra nh ỵng khại ni ûm c ba n v ph ngỉå ì ỉ ỉ ã å í ãư ỉå
phạp x y d ûng chè mủc d ûa tr n k thu ût chè mủc âa o vấ ỉ ỉ ã á í ì
cạc c ch v n tin, t âọ giụp cho vi ûc x y d ûng h û th ng tru ãú áú ỉì ã á ỉ ã äú
tçm th ng tin m üt cạch nhanh chọng va chênh xạc. Chi ti t vä ä ì ãú ãư
k thu ût chè mủc âa o s â üc trçnh ba y ch ng ba.á í ỉå ì åí ỉå
4 , 1
2 , 1
4 , 1
3 , 1
3 , 1
3 , 1
4 , 1
1 , 1
4 , 1
1 , 1 3 , 1
4 , 1
1 , 1 3 , 2 4 , 1
1 , 1 4 , 1
2 , 1 4 , 1
1 , 1 2 , 1
CHÆÅNG 3
XÁY DỈÛNG CHÈ MỦC ÂO
1. Cáúu trục dỉỵ liãûu:
C u trục d ỵ li ûu la thạch th ïc pha i â ng â u khi x ú ỉ ã ì ỉ í ỉå áư á
d ûng chè mủc. Cạch â n gia n nh t â m ta c u trục chèỉ å í áú ãø ä í áú
mủc âa o cho c s d ỵ li ûu la ma tr ûn tu n t û c p hai (m,n).í å åí ỉ ã ì á áư ỉ áú
V ïi c s d ỵ li ûu nh hçnh 1.2 ta cọ ma tr ûn tu n t û nh sau:å å åí ỉ ã ỉ á áư ỉ ỉ
T tỉì S hi ûu vàn ba näú ã í
1 2 3 4
Ba o V í
Cạc
Cạch mảng
Cu a í
ücÂỉå
Gia ií
Gi ïi thi ûu å ã
M ïiå
Tạc ph máø
Tạc gia í
Thå
Truy ûn ngà nã õ
V
Y u thêchã
-
-
-
-
1
-
-
-
1
1
-
-
1
1
-
-
1
-
-
-
-
-
-
-
1
1
1
-
-
-
-
-
1
1
1
1
2
-
-
-
-
-
1
1
-
1
-
-
-
-
1
1
-
1
-
-
Hçnh 3.1 : Biãøu diãùn chè mủc bàòng ma tráûn tưn tỉû
Ma tr ûn tu n t û c p hai m ha ng, n c üt v ïi cạc tha nhá áư ỉ áú ì ä å ì
ph n c üt la s hi ûu vàn ba n va cạc tha nh ph n ha ng la t táư ä ì äú ã í ì ì áư ì ì ỉì
trong c s d ỵ li ûu. Giạ trë gi ỵa ha ng va c üt la s l n t tå åí ỉ ã ỉ ì ì ä ì äú áư ỉì
xu t hi ûn trong vàn ba n âọ, k hi ûu la f áú ã í ã ì t , d .
Gia s giạ trë f í ỉí t , d cọ â ü da i la 4 byte thç kêch th ïcä ì ì ỉå
cu a c s d ỵ li ûu chè mủc la :í å åí ỉ ã ì
S = 4*m*n (byte)
V ïi vê dủ tr n thç kh ng gian nh ï c n thi t cho c s d ỵå ã ä å áư ãú å åí ỉ
li ûu chè mủc la :ã ì
S = 4*7*4 = 112 (byte)
Vi ûc x y d ûng c u trục chè mủc âa o cho c s d ỵ li û á ỉ áú í å åí ỉ ã
theo ma tr ûn tu n t û nh tr n la r t t n kh ng gian nh ï. B iá áư ỉ ỉ ã ì áú äú ä å åí
vç theo cạch x y d ûng tr n thç cạc vàn ba n kh ng ch ïa t tá ỉ ã í ä ỉ ỉì
nh ng v ùn chi m gi ỵ 4 byte nh ï trong ma tr ûn. Nh v ûy, v ïiỉ á ãú ỉ å á ỉ á å
m üt c s d ỵ li ûu r t l ïn thç dung l üng nh ï chi phê cho vi ûcä å åí ỉ ã áú å ỉå å ã
l u tr ỵ cạc vàn ba n kh ng ỉ ỉ í ä
ch ïa t t cng r t l ïn. Cho n n c u trục tr n la kh ng thêchỉ ỉì áú å ã áú ã ì ä
h üp.å
khà c phủc nh üc âi m cu a c u trục chè mủc theãø õ ỉå ãø í áú
ma tr ûn tu n t û, ta s dủng m üt c u trục khạc, âọ la danhá áư ỉ ỉí ä áú ì
sạch li n k t.ã ãú
i v ïi m üt t khạc bi ût trong c s d ỵ li ûu s cọ m ütÂäú å ä ỉì ã å åí ỉ ã ä
danh sạch li n k t t ng ïng va chè cọ nh ỵng vàn ba n cọ ch ïẫ ãú ỉå ỉ ì ỉ í ỉ
t âọ m ïi â üc l u tr ỵ trong danh sạch na y. S dủng danhỉì å ỉå ỉ ỉ ì ỉí
sạch li n k t â bi u thë giạ trë f ã ãú ãø ãø t , d â gia m âạng k kh ngí ãø ä
gian nh ï kh ng c n thi t trong ma tr ûn tu n t û. B n cảnh âọå ä áư ãú á áư ỉ ã
s dủng danh sạch li n k t cọ th truy c ûp â üc theo m ütỉí ã ãú ãø á ỉå ä
ki u ng ùu nhi n, b i vç m ùi ph n t cu a th ng tin mang theỗø á ã åí ä áư ỉí í ä
nọ m üt m i li n k t â n ph n t li n k ti p trong d äú ã ãú ãú áư ỉí ãư ãú ãú á
chuy n va â ng th i nọ cho phẹp kha nàng b sung va o danhãư ì äư åì í äø ì
sạch. i u na y r t quan trng, b i vç tr n th ûc t ta kh ng ãư ì áú åí ã ỉ ãú ä
chè x y d ûng chè mủc cho c s d ỵ li ûu vàn ba n ténh ma co ná ỉ å åí ỉ ã í ì ì
cho cạc c s d ỵ li ûu vàn ba n â üng t ïc la cạc vàn ba n lu n lu nå åí ỉ ã í ä ỉ ì í ä ä
â üc b sung hồûc loải bo .ỉå äø í
Vê dủ sau minh hoả cho vi ûc x y d ûng c u trục chèã á ỉ áú
mủc âa o v ïi c s d ỵ li ûu hçnh1.2.í å å åí ỉ ã
Ba o V 1 í
Cạc 1
Cạch mảng 1
Cu a 1 í
üc 2 Âỉå
Th 1 å
Truy ûn ngà n 2 ã õ
Va 2 ì
Y u thêch 1 ã
Gia i 1 í
Gi ïi thi ûu 1 å ã
M ïi 1 å
Tạc ph m 3 áø
Tạc gia 2 í
3 1 X
4 1 X
4 1 X
4 1 X
4 1 X
4 1 X
4 1 X
4 1 X
4 1 X
2 1 X
4 1 X
1 1
3 1 X
3 1 X
3 1 X
1 1
1 1
2 1 X
2 1
1 1
1 1 X
4 1 X
4 1 X
3 2
4 1 X
2 1 X
C u trụcáú
Danh sạch li n ã
k tãú
Hçnh 3.2 : Biãøu diãùn chè mủc cho cå såí dỉỵ liãûu bàòng danh sạch liãn kãút
Trong vê dủ tr n, X quy ïc nh ûn giạ trë NULL.ã ỉå á
i v ïi m üt c s d ỵ li ûu nho thç khọ cọ th âạnh giạÂäú å ä å åí ỉ ã í ãø
tênh hi ûu qua cu a cạc c u trục d ỵ li ûu nh ng v ïi m üt c sã í í áú ỉ ã ỉ å ä å åí
d ỵ li ûu l ïn bao g m ha ng tri ûu vàn ba n thç m hçnh c u trụcỉ ã å äư ì ã í ä áú
du ng danh sạch li n k t la r t hi ûu qua .ì ã ãú ì áú ã í
Th i gian cng la m üt trong nh ỵng y u t quan trngåì ì ä ỉ ãú äú
du ng â âạnh giạ hi ûu qua cu a h û th ng. Vç v ûy vi ûc gia mì ãø ã í í ã äú á ã í
t i thi u th i gian th ûc thi ch ng trçnh la v n â â üc âàût rậú ãø åì ỉ ỉå ì áú ãư ỉå
trong â ạn na y. C u trục c y nhë ph n gia i quy t â üc v n âäư ì áú á á í ãú ỉå áú ãư
na y b i c y nhë ph n v ùn â üc xem la âàûc bi ût vç khi sà p x pì åí á á á ỉå ì ã õ ãú
chụng t û la m cho cạc phẹp che n, tçm ki m va xoạ â ücỉ ì ì ãú ì ỉå
nhanh h n.å
Theo cạc nha nghi n c ïu thç m üt c y nhë ph n cọ dảngì ã ỉ ä á á
nh sau:ỉ
T1
• •
T2
• •
T4
0 0
T5
0 0
T3
0 •
T6
0 0
Hçnh 3.3 : Mäüt cáy nhë phán biãøu diãùn bàòng danh sạch liãn kãút
Ph n t â u ti n cu a c y gi la Root, m ùi ph n t d ỵáư ỉí áư ã í á ì ä áư ỉí ỉ
li ûu â üc gi la m üt node cu a c y va b t c ï m üt ph n na ỗ ỉå ì ä í á ì áú ỉ ä áư ì
cu a c y â u â üc gi la c y con. M üt node kh ng cọ c y con n ií á ãư ỉå ì á ä ä á äú
va o thç â üc gi la node k t thục hay la lạ. M ùi ph n t cu ỉå ì ãú ì ä áư ỉí í
m üt c y bao g m th ng tin cu ng v ïi m üt li n k t â n ph n tä á äư ä ì å ä ã ãú ãú áư ỉí
b n trại va m üt li n k t â n ph n t b n pha i.ã ì ä ã ãú ãú áư ỉí ã í
C y nhë ph n cng cọ th â üc bi u di ùn b i danh sạchá á ãø ỉå ãø ã åí
âàûc. Cạc nụt tr n c y nhë ph n â üc âạnh s bà t â u t 1 tr âiã á á ỉå äú õ áư ỉì åí
theo th ï t û t m ïc na y â n m ïc khạc va cạc nụt tr n cu ngỉ ỉ ỉì ỉ ì ãú ỉ ì ã ì
m üt m ïc thç â üc âạnh t trại sang pha i. Nụt i s cọ 2 con lậ ỉ ỉå ỉì í ì
nụt 2i va nụt 2i+1. Du ng vecto V â l u tr ỵ cạc ph n t cu ì ãø ỉ ỉ áư ỉí í
c y, trong âọ ph n t Vá áư ỉí i s ch ïa nụt i cu a c y.ỉ í á
T1 T2 T3 T4 T5 T6
Hçnh 3.4 : Mäüt cáy nhë phán biãøu diãùn bàòng danh sạch âàûc
Cạc c y nhë ph n cho chụng ta m üt s ïc mảnh, s û linhá á ä ỉ ỉ
â üng va hi ûu qua r t l ïn, khi chụng ta s dủng v ïi cạcä ì ã í áú å ỉí å
ch ng trçnh qua n l c s d ỵ li ûu. Cọ âi u na y la vç cạcỉå í å åí ỉ ã ãư ì ì
th ng tin cho c s d ỵ li ûu na y pha i nà m tr n âéa, va th i gianä å åí ỉ ã ì í ò ã ì åì
truy c ûp la r t quan trng. Vç m üt c y c n bà ng cọ logá ì áú ä á á ò
2
n phẹp
so sạnh trong phẹp tçm ki m (trong tr ng h üp t i nh t ), nọãú ỉåì å äư áú
t t h n r t nhi u so v ïi danh sạch li n k t ma pha i tçm ki mäú å áú ãư å ã ãú ì í ãú
tu n t û.áư ỉ
T nh ợng u õi m cu a c y nhở ph n n n trong õ aùn na yổỡ ổ ổ óứ ớ ỏ ỏ ó ọử ỡ
em choỹn c u truùc c y nhở ph n õ x y d ỷng chố muỷc õa o.ỏỳ ỏ ỏ óứ ỏ ổ ớ
Trong õ aùn na y m ỹt c u truùc c y nhở ph n coù th õ ỹcọử ỡ ọ ỏỳ ỏ ỏ óứ ổồ
õởnh nghộa b ng ng n ng ợ l ỷp trỗnh nh sau :ũ ọ ổ ỏ ổ
Struct tree
char t 20 ;
long f
t
;
dsd I
t
;
tree left;
tree right;
;
Trong õoù dsd la c u truùc cu a m ỹt danh saùch õa o õ ỹcỡ ỏỳ ớ ọ ớ ổồ
õởnh nghộa nh sau:ổ
Struct dsd
long d;
int f
d,t
;
dsd next ;
;
2. Xỏy dổỷng cỏỳu truùc tổỡ õióứn
Trong ch ng 2 õaợ õởnh nghộa v t õi n, õoù la m ỹt c uổồ óử ổỡ óứ ỡ ọ ỏỳ
truùc bao g m caùc tha nh ph n : t t, t n su t fọử ỡ ỏử ổỡ ỏử ỏỳ
t
va õởa chố cu aỡ ớ
danh saùch õa o Iớ
t
. Vi ỷc tỗm ki m õ ỷ c th ỷc hi ỷn tr n t õi nó óỳ ổ ồ ổ ó ó ổỡ óứ
va th ng qua õởa chố cu a Iỡ ọ ớ
t
xaùc õởnh õ ỹc danh saùch õa o t ngổồ ớ ổồ
ùng trong t ỷp õa o.ổ ó ớ
C u truùc õ n gia n nh t cu a t õi n la daỷng ma ng caùcỏỳ ồ ớ ỏỳ ớ ổỡ óứ ỡ ớ
ba ng ghi bao g m m ỹt chu ựi cu ng v ùi hai tr ng nguy n. C uớ ọử ọ ọ ỡ ồ ổồỡ ó ỏỳ
truùc õoù õ ỹc m ta nh hỗnh 3.5.ổồ ọ ớ ổ
Vi ỷc l u t ợ theo ph ng th ùc na y seợ laợng phờ khoa ngó ổ ổ ổồ ổ ỡ ớ
kh ng gian nh ù r t l ùn. Gia s , õ l u tr ợ m ỹt chu ựi c n 20ọ ồ ỏỳ ồ ớ ổớ óứ ổ ổ ọ ọ ỏử
byte cu ng v ùi 4 byte cho giaù trở fỡ ồ
t
va 4 byte cho õởa chố cu a danhỡ ớ
sạch âa o Ií
t
thç kh ng gian nh ï ma t âi n c n â l u tr ỵ s l ïnä å ì ỉì ãø áư ãø ỉ ỉ å
h n 28 Mbyte.å
Kh ng gian nh ï c n â l u tr ỵ cạc chu ùi s gia m n å áư ãø ỉ ỉ ä í ãú
nh t t ca cạc chu ùi âọ k t n i tha nh m üt chu ùi da i li nỉ áú í ä ãú äú ì ä ä ì ã
ti p va s dủng con tro 4 byte â truy c ûp. Lục na y, m ùi m ütãú ì ỉí í ãø á ì ä ä
chu ùi s bao g m chênh xạc s k t û cu a chu ùi âọ c üngä äư äú ỉ í ä ä
th m 4 cho con tro truy c ûp. C u trục na y â üc phạt tha o trongã í á áú ì ỉå í
hçnh 3.6. Khi m üt chu ùi â üc chè mủc thç nọ kh ng c n thi tä ä ỉå ä áư ãú
pha i l u tr ng chi u da i hồûc k t û k t thục vç con tro ti pí ỉ ỉåì ãư ì ỉ ãú í ãú
theo trong ma ng s xạc âënh vë trê k t thục cu a chu ùi. Theo gi ãú í ä í
thuy t nh th , n u m üt t âi n khoa ng m üt tri ûu t thçãú ỉ ãú ãú ä ỉì ãø í ä ã ỉì
kh ng gian nh ï s gia m t 8 Mbyte â n 20Mbyte.ä å í ỉì ãú
T tỉì f
t
ë
chè I
t
Ba o V í 1
Cạc 1
Cạch
mảng
1
Cu a í 1
üc Âỉå 2
Gia i í 1
Gi ïi thi û ã 1
M ïi å 1
Tạc ph máø 3
Tạc gi 2
............
Hçnh 3.5 :Lỉu trỉỵ tỉì âiãøn nhỉ mäüt mng cạc bng ghi
.......
â ücgia igi ïithi ûum ïitạcph mtạcgiỉå í å ã å áø
f
t
âc
t
âc
I
t
2
1
1
1
3
2
Hçnh 3.6 :Lỉu trỉỵ tỉì âiãøn nhỉ mäüt mng cạc con tr
gia m h n n ỵa kh ng gian nh ï va n ng cao t c â üÂãø í å ỉ ä å ì á äú ä
tçm ki m thç ta lải x y d ûng chè mủc cho chè mủc âa o t ïcãú á ỉ í ỉ
la loải bo nhi u h n n ỵa cạc con tro chè mủc tr n. Cọ n tì í ãư å ỉ í åí ã ỉì
nh ng kh ng nh t thi t pha i s dủng n con tro chè mủc, gi ä áú ãú í ỉí í í
s c ï 4 t thç cọ 1 t â üc chè mủc. Nh v ûy chè c n 4 bytí ỉ ỉì ỉì ỉå ỉ á áư
â l u tr ỵ th ng tin v chi u da i cu a ca nhọm. C u trục na ø ỉ ỉ ä ãư ãư ì í í áú ì
â üc minh hoả nh hçnh d ïi â y:ỉå ỉ ỉå á
........4â üc4gia i9gi ïithi ûu3m ïi7tạcỉå í å ã å
ph m6tạcgiấø í
k
k +1
ëa Â
chè I
t
2
1
1
2
3
1
f
t
4k
4k + 1
4k + 2
4k + 3
4(k +
1)
Hỗnh 3.7 : Lổu trổợ tổỡ õióứn vồùi xỏy dổỷng chố muỷc cho chố muỷc õaớo
V ùi m hỗnh t õi n õ ỹc x y d ỷng nh tr n seợ thờch h ỹpồ ọ ổỡ óứ ổồ ỏ ổ ổ ó ồ
cho vi ỷc x lyù tỗm ki m nhở ph n õ ng th i ti t ki ỷm õ ỹcó ổớ óỳ ỏ ọử ồỡ óỳ ó ổồ
kh ng gian nh ù va n ng cao t c õ ỹ x lyù cu a h ỷ th ng.ọ ồ ỡ ỏ ọỳ ọ ổớ ớ ó ọỳ
3. Xỏy dổỷng tóỷp õaớo:
Nh õaợ kha o saùt caùc ch ng tr ùc, õ i v ùi m ựi t t baoổ ớ ồớ ổồ ổồ ọỳ ồ ọ ổỡ
g m caùc tha nh ph n:ọử ỡ ỏử
- t tổỡ
- t n su t fỏử ỏỳ
t
- danh saùch õa o Iớ
t
M ỹt t ỷp õa o cuợng bao g m caùc tha nh ph n tr n. Tr n cọ ó ớ ọử ỡ ỏử ó ó ồ
s caùc tha nh ph n cu a t ỷp õa o seợ xaùc õởnh chờnh xaùc caùc vnồớ ỡ ỏử ớ ó ớ
ba n ch ùa th ng tin c n truy v n. C u truùc cu a m ỹt t ỷp õa oớ ổ ọ ỏử ỏỳ ỏỳ ớ ọ ó ớ
õ ỹc x y d ỷng theo caùch th ùc truy n th ng nh sau:ổồ ỏ ổ ổ óử ọỳ ổ
Hỗnh 3.8 : Mọ hỗnh tóỷp õaớo õồn giaớn
Theo m hỗnh na y thỗ caùc tha nh ph n trong c s d ợ li ỷuọ ỡ ỡ ỏử ồ ồớ ổ ó
õ ỹc chố muỷc nh H 3.2 seợ õ ỹc l u tr ợ nh sau:ổồ ổ ổồ ổ ổ ổ
t
1
f
t1
d
1
f
d1 , t1
d
2
f
d2 , t2
.......... d
i
f
di , ti
t
2
f
t2
f
d1 , tn
d
2
f
d2 , tn
....... d
i
f
di ,
tn
d
1
f
d1 , t2
d
2
f
d2 , t2
......... d
i
f
di , ti
.......... t
n
f
tn
d
1
Baợo Vuợ 1 4 1 Caùc 1 4 1 Caùch maỷng 1 2 1
Cu a 1ớ
4 1 ỹc 2 1 1 3 1 Gia i 1 3 1 Gi ùi ổồ ớ ồ
thi ỷu 1 ó
3 1 M ùi 1 3 1 Taùc ph m 3 1 1 3 2 4 ồ ỏứ
1
Taùc gia 2 1 1 4 1 Th 1 2 1 Truy ỷn ớ ồ ó
ng n 2 ừ
2 1 4 1 Va 2 1 1 2 1 Y u thờch 1 1 ỡ ó
1
Hỗnh 3.9 : Vờ duỷ vóử chố muỷc tóỷp õaớo
Theo caùch x y d ỷng t ỷp õa o nh tr n thỗ vi ỷc x lyù truyỏ ổ ó ớ ổ ó ó ổớ
tỗm tr n t ỷp õa o õ ỹc ti n ha nh tu n t ỷ õ n t ng tha nhó ó ớ ổồ óỳ ỡ ỏử ổ óỳ ổỡ ỡ
ph n. V ùi c s d ợ li ỷu c ỷc l ùn thỗ ph ng th ùc truy c ỷpỏử ồ ồ ồớ ổ ó ổ ồ ổồ ổ ỏ
tu n t ỷ la kh ng hi ỷu qua va vỗ th m hỗnh t ỷp õa o n u tr nỏử ổ ỡ ọ ó ớ ỡ óỳ ọ ó ớ ó ó
la kh ng thờch h ỹp.ỡ ọ ồ
M ỹt caùch t ch ùc khaùc cu a t ỷp õa o kh c phuỷc õ ỹcọ ọứ ổ ớ ó ớ ừ ổồ
nh ỹc õi m tr n la x y d ỷng chố muỷc cho t ỷp õa o. u ti n,ổồ óứ ó ỡ ỏ ổ ó ớ ỏử ó
xaùc õởnh kờch th ùc kh i chố muỷc, chu y u la chố muỷc tổồ ọỳ ớ óỳ ỡ ổỡ
t ,m ựi t b t õ u cu a kh i seợ õ ỹc õ a l n ph n ti u õ cu ngọ ổỡ ừ ỏử ớ ọỳ ổồ ổ ó ỏử ó óử ỡ
v ùi õởa chố ồ
b t õ u cu a kh i õoù. Ti p tuỷc caùc tha nh ph n khaùc seợ õ ỹcừ ỏử ớ ọỳ óỳ ỡ ỏử ổồ
x y d ỷng chố muỷc t ng t ỷ. C u truùc õ ỹc m ta nh hỗnhỏ ổ ổồ ổ ỏỳ ổồ ọ ớ ổ
d ùi õ y :ổồ ỏ
t
1
150 t
2
400 ........
..
t
n
4250
T
1
F
t1
6250 .........
15
0
40
0
425
0