Tải bản đầy đủ (.pdf) (44 trang)

báo cáo đề tài xây dựng thư viện số

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (379.77 KB, 44 trang )

1
2
THƯ VIӊN SӔ
QUÁCH TUҨN NGӐC
ĐӚ QUANG VINH
HÀ NӜI - 2008
3
 Tính cҩp thiӃt
 World Wide Web đã xâm nhұp vào cuӝc sӕng
hàng ngày
 Giao diӋn cho Web tiӃn triӇn tӯ duyӋt đӃn tìm
kiӃm
 DL là mӝt trong nhӳng hưӟng nghiên cӭu
chính vӅ công nghӋ thông tin trên thӃ giӟi
 Tәng quan hoҥt đӝng nghiên cӭu DL
 Sӵ bùng nә vӅ nghiên cӭu DL, các dӵ án và
chương trình DL ӣ Mӻ và trên thӃ giӟi
 Trӑng tâm cӫa các dӵ án DL
 VӅ công nghӋ: các phương pháp và công nghӋ
mӟi vӅ lưu trӳ và tìm kiӃm thông tin
4
(tiӃp)
 V͙ xã hͱi: khҧo sát CSDL tài liӋu và các vҩn đӅ
xã hӝi liên quan tӟi DL
 Hoҥt đӝng nghiên cӭu DL ӣ Mӻ
 Có nhiӅu hoҥt đӝng và chương trình nghiên
cӭu DL đang đưӧc tiӃn hành ӣ Mӻ và sӕ lưӧng
tăng nhanh
 2 dӵ án DL đưӧc tài trӧ bӣi chính phӫ Mӻ là Dӵ
án thư viӋn sӕ - giai đoҥn 2 (DLI-2) và Dӵ án
thư viӋn sӕ quӕc tӃ


 Dӵ án thư viӋn sӕ DLI:
 Dӵ án thư viӋn video sӕ Informedia cӫa Đҥi hӑc
Carnegie Mellon CMU
5
(tiӃp)
 Dӵ án dӏch vө thông tin sӕ cӫa Đҥi hӑc
California ӣ Berkeley
 Dӵ án Alexandria cӫa Đҥi hӑc California ӣ
Santa Barbara
 Dӵ án Interspace cӫa Đҥi hӑc Illinois ӣ Urbana-
Champaign
 Dӵ án UMDL cӫa Đҥi hӑc Michigan
 Dӵ án InfoBus cӫa Đҥi hӑc Stanford
 Các dӵ án DL chӫ yӃu khác ӣ Mӻ:
 Thư viӋn quӕc hӝi (Library of Congress)
 Dӵ án công nghӋ thư viӋn sӕ DLT cӫa NASA
 Dӵ án FedStats cӫa hơn 70 cơ quan chính phӫ
khác nhau cӫa Mӻ
6
(tiӃp)
 Dӵ án thư viӋn sӕ cӫa IBM
 Dӵ án thư viӋn sӕ California CDL
 Chương trình thư viӋn sӕ D-Lib cӫa DARPA
(the Defence Advanced Researh Project
Agency)
 Dӵ án MOA cӫa hai Đҥi hӑc Cornel và Michigan
 Dӵ án Open Book cӫa Đҥi hӑc Yale
 Dӵ án hӧp tác Red Sage cӫa Đҥi hӑc California
ӣ San Francisco, Công ty AT&T Laboratories và
Springer-Verlag

 Dӵ án TULIP cӫa nhà xuҩt bҧn Elsevier Science
Publisher
7
(tiӃp)
 Hoҥt đӝng DL ӣ các nưӟc khác:
Tұp trung vào các CSDL tài liӋu, nói riêng vào
nâng cao truy cұp tӟi các CSDL tài liӋu vӅ lӏch
sӱ, văn hoá và nghӋ thuұt:
Canada, Anh, Pháp, Đӭc, Nhұt, Hàn quӕc,
Singapore, Trung quӕc, Hӗng Kông, Đài loan,
Australia, New Zealand
8
(tiӃp)
 ViӋt Nam
 Nhu cҫu nghiên cӭu DL bҳt đҫu tӯ khi hoҥch
đӏnh chiӃn lưӧc phát triӇn thông tin - thư viӋn
cho đӃn năm 2010, 2020, trưӟc xu thӃ cӫa sӵ
chuyӇn hưӟng toàn cҫu sang xã hӝi thông tin
 Xây dӵng DL lý tưӣng, đӝc lұp, vӟi vӕn tư liӋu
hoàn toàn sӕ hoá, vӟi toàn bӝ dӏch vө chuyӇn
sang phương thӭc điӋn tӱ, là không khҧ thi
 Xu hưӟng sӁ xuҩt hiӋn nhiӅu thư viӋn điӋn tӱ là
kӃt quҧ cӫa quá trình tin hӑc hoá, là các cәng
vào thông tin và là mӝt bӝ phұn cӫa các thư
viӋn lӟn truyӅn thӕng ӣ ViӋt Nam
9
(tiӃp)
 Con đưӡng mà đҥi bӝ phұn thư viӋn sӁ đi là:
kӃt hӧp các nguӗn tin truyӅn thӕng vӟi hiӋn
đҥi, bә sung thêm các tҥp chí điӋn tӱ toàn văn

trên CD-ROM, đһt mua các tҥp chí điӋn tӱ toàn
văn trên mҥng, sӕ hoá mӝt phҫn vӕn tư liӋu, tӵ
đӝng hoá các dӏch vө và tҥo điӅu kiӋn cho NSD
chӫ đӝng khai thác thông tin
 HiӋn nay, mӝt sӕ phҫn mӅm đưӧc cài đһt:
 Giҧi pháp thư viӋn điӋn tӱ ILIB cӫa công ty
CMC ӣ Thư viӋn Quӕc gia ViӋt Nam
 Giҧi pháp thư viӋn điӋn tӱ LIBOL cӫa công ty
Tinh vân ӣ Trung tâm Thông tin khoa hӑc và
công nghӋ Quӕc gia
 HӋ phҫn mӅm thư viӋn sӕ Greenstone cӫa dӵ
án New Zealand Digital Library ӣ thư viӋn Đҥi
hӑc Khoa hӑc tӵ nhiên TP Hӗ Chí Minh
10
I. TӘNG QUAN Vӄ THƯ VIӊN SӔ
1. ĐӎNH NGHĨA
 Đ͓nh nghĩa 1.1 (Arms W.Y.): DL là mӝt kho thông
tin có quҧn lý vӟi các dӏch vө liên kӃt, trong đó thông
tin đưӧc lưu trӳ ӣ dҥng sӕ và có thӇ truy cұp qua mӝt
mҥng.
 Đ͓nh nghĩa 1.2 (Chen H., Houston A.L.): DL là mӝt
thӵc thӇ liên quan tӟi sӵ tҥo ra các nguӗn tin và sӵ
hoҥt đӝng thông tin qua các mҥng toàn cҫu.
 Đ͓nh nghĩa 1.3 (Reddy R., Wladawsky-Berger I.): DL
là các kho dӳ liӋu mҥng vӅ tài liӋu văn bҧn sӕ, ҧnh,
âm thanh, dӳ liӋu khoa hӑc và phҫn mӅm là lõi cӫa
Internet hiӋn nay và các kho dӳ liӋu sӕ có thӇ truy
cұp phә biӃn vӅ tҩt cҧ tri thӭc cӫa loài ngưӡi trong
tương lai.
11

(tiӃp)
 Đ͓nh nghĩa 1.4 (Sun Microsystems) [135]: DL là sӵ
mӣ rӝng điӋn tӱ vӅ các chӭc năng điӇn hình NSD
thӵc hiӋn và các tài nguyên NSD truy cұp trong thư
viӋn truyӅn thӕng.
 Đ͓nh nghĩa 1.5 (Witten I.H., Bainbridge D.): DL là
các kho đӕi tưӧng sӕ, bao gӗm văn bҧn, video và
audio cùng vӟi các phương pháp truy cұp và tìm
kiӃm, lӵa chӑn, tә chӭc và bҧo trì.
 Tóm lҥi, thư viӋn sӕ là mӝt kho thông tin sӕ khәng
lӗ có tә chӭc vӟi các dӏch vө liên kӃt qua mҥng.
 LÝ DO CHÍNH XÂY DӴNG DL
Thư viӋn sӕ phân phát thông tin tӕt hơn thư viӋn
truyӅn thӕng
12
(tiӃp)
 LӦI ÍCH CӪA DL
1. Thư viӋn sӕ mang thư viӋn đӃn ngưӡi sӱ dөng
2. Máy tính đưӧc sӱ dөng đӇ tìm kiӃm và duyӋt
3. Thông tin có thӇ đưӧc chia sҿ
4. Thông tin dӉ dàng cұp nhұt hơn
5. Thông tin luôn sҹn có
6. Các dҥng thông tin mӟi trӣ thành thӵc hiӋn
đưӧc
7. Giá cӫa DL
 4 lĩnh vӵc kӻ thuұt nәi bұt đӕi vӟi DL
1. Lưu trӳ điӋn tӱ trӣ nên rҿ hơn giҩy
2. HiӇn thӏ máy tính cá nhân trӣ nên dùng thích
hӧp hơn
3. Mҥng tӕc đӝ cao trӣ nên phә biӃn

4. Máy tính trӣ nên di đӝng
13
(tiӃp)
 NGHIÊN CӬU TIN HӐC TRONG DL
1. Mô hình đӕi tưӧng
2. Giao diӋn NSD
3. ChӍ mөc và Tìm kiӃm thông tin
4. Quҧn trӏ và bҧo trì CSDL
5. Tính liên tác
 CHӌ MӨC & TÌM KIӂM THÔNG TIN
1. Siêu dӳ liӋu mô tҧ
2. ChӍ mөc tӵ đӝng
3. Xӱ lý ngôn ngӳ tӵ nhiên
4. Tài liӋu phi văn bҧn
14
(tiӃp)
Hình - Máy tính trong thư viӋn sӕ (W.Y.Arms)

NSD
Kho lưu trӳ
HӋ thӕng đӏnh vӏ HӋ thӕng tìm kiӃm
15
(tiӃp)
2. Mô hình hình thӭc cho DL
1. Cơ sӣ toán hӑc
2. Dòng
Đ͓nh nghĩa 1.14: Mӝt dòng là mӝt dãy có miӅn giá
trӏ là mӝt tұp không rӛng.
3. Cҩu trúc
Đ͓nh nghĩa 1.15: Mӝt c̭u trúc là mӝt bӝ (G, L, F),

trong đó G = (V, E) là mӝt dӗ thӏ có hưӟng vӟi tұp
đӍnh V và tұp cҥnh E, L là mӝt tұp giá trӏ nhãn và
F là mӝt hàm gán nhãn F : (V  E) p L
4. Không gian
Đ͓nh nghĩa 1.23: Mӝt không gian là mӝt không
gian đo đưӧc, không gian đӝ đo, không gian xác
suҩt, không gian vector hoһc mӝt không gian topo
16
(tiӃp)
5. Kӏch bҧn
Đ͓nh nghĩa 1.26: Mӝt k͓ch b̫n là mӝt dãy sӵ kiӋn
chuyӇn trҥng thái liên quan (e
1
, e
2
, , e
n
) trên
tұp trҥng thái S sao cho e
k
= (s
k
, s
k+1
) đӕi vӟi 1 e k
e n
6. Cӝng đӗng
Đ͓nh nghĩa 1.29: Mӝt c͡ng đ͛ng là mӝt bӝ (C, R),
trong đó:
C = {c

1
, c
2
, , c
n
} là mӝt tұp cӫa các cӝng
đӗng khái niӋm, mӛi mӝt cӝng đӗng quy vӅ mӝt
tұp cá thӇ có cùng lӟp hoһc kiӇu;
R = {r
1
, r
2
, , r
n
} là mӝt tұp quan hӋ, mӛi mӝt
quan hӋ là mӝt bӝ r
j
= (e
j
, i
j
) trong đó e
j
là mӝt
tích ĐӅ các c
k1
x c
k2
x x c
knj

, 1 e k
1
< k
2
< <
k
nj
e n, đӏnh rõ các cӝng đӗng bӏ dính vào quan
hӋ và i
j
là mӝt hoҥt đӝng mô tҧ tương tác hoһc
truyӅn thông giӳa các cá thӇ
17
(tiӃp)
7. Đӏnh nghĩa hình thӭc thư viӋn sӕ
Đ͓nh nghĩa 1.41: Mӝt thư vi͏n s͙ là mӝt bӝ bӕn
(R, MC, DV, XH)
trong đó:
R là mӝt kho;
MC là mӝt mөc lөc siêu dӳ liӋu;
DV là mӝt tұp dӏch vө chӭa tӕi thiӇu các dӏch
vө chӍ mөc, tìm kiӃm và duyӋt;
XH là mӝt cӝng dӗng NSD thư viӋn sӕ.
18
II. CHӌ MӨC TÀI LIӊU VĂN BҦN
2.1 MӢ ĐҪU
 Đ͓nh nghĩa 2.1 (tͳ đӇ nhұn dҥng đӕi vӟi chӍ mөc): là
mӝt dãy cӵc đҥi cӫa các ký tӵ chӳ và sӕ, nhưng giӟi
hҥn tӕi đa 256 ký tӵ và tӕi đa 4 ký tӵ sӕ
 Bҧng 2.1 - CSDL TREC

Sӕ tài liӋu N 741856
Sӕ thuұt ngӳ F 333338738
Sӕ thuұt ngӳ riêng biӋt n 535346
Sӕ con trӓ chӍ mөc f 134994414
Kích thưӟc tәng (MB) 2070.29
19
(tiӃp)
2.2 CHӌ MӨC TӊP ĐҦO IFID
 Đ͓nh nghĩa 2.2 (Đӛ Trung Tuҩn): Ch͑ mͭc là bҧng dӳ liӋu
hay cҩu trúc dӳ liӋu dùng đӇ xác đӏnh vӏ trí cӫa các dòng
trong tӋp theo điӅu kiӋn nào đó
 Đ͓nh nghĩa 2.3 (Folk M.J., Zoellick B., Riccardi G.): Ch͑
mͭc là mӝt cách tìm kiӃm thông tin
 Đ͓nh nghĩa 2.4: Ch͑ mͭc là mӝt cơ chӃ nhҵm đӏnh vӏ thuұt
ngӳ cho trưӟc trong văn bҧn
 Đ͓nh nghĩa 2.5 (chӍ mөc tӋp đҧo IFID): Đӕi vӟi mӛi mӝt
thuұt ngӳ trong tӯ điӇn, mӝt IF chӭa mӝt danh sách đҧo
(IL) lưu trӳ mӝt danh sách con trӓ tӟi tҩt cҧ xuҩt hiӋn cӫa
thuұt ngӳ đó trong văn bҧn chính, trong đó mӛi mӝt con
trӓ trong thӵc tӃ là sӕ tài liӋu mà thuұt ngӳ đó xuҩt hiӋn.
IL đôi khi đưӧc coi là mӝt danh sách mөc lөc và các con
trӓ là mөc lөc
 Đây là phương pháp chӍ mөc tӵ nhiên nhҩt, gҫn tương
ӭng vӟi chӍ mөc cӫa mӝt cuӕn sách và vӟi cách dùng mөc
lөc truyӅn thӕng
20
(tiӃp)
Bҧng 2.2 - Văn bҧn mүu; mӛi dòng là mӝt tài liӋu
TÀI LIӊU VĂN BҦN
1 Information retrieval is searching and indexing

2 Indexing is building an index
3 An inverted file is an index
4 Building an inverted file is indexing
21
(tiӃp)
Bҧng 2.3 - IF đӕi vӟi văn bҧn cӫa bҧng 2.2
Sӕ Thuұt ngӳ IL(tài liӋu; vӏ trí)
1 an (2;4), (3;1), (3;5), (4;2)
2 and (1;5)
3 building (2;3), (4;1)
4 file (3;3), (4;4)
5 index (2;5), (3;6)
6 indexing (1;6), (2;1), (4;6)
7 information (1;1)
8 inverted (3;2), (4;3)
9 is (1;3), (2;2), (3;4), (4;5)
10 retrieval (1;2)
11 searching (1;4)
22
(tiӃp)
 Đ͓nh nghĩa 2.6: Đ͡ h̩t (granularity) cӫa mӝt chӍ mөc
là tính chính xác đӇ nhұn dҥng vӏ trí cӫa thuұt ngӳ
Bҧng 2.4 - IF mӭc tӯ đӕi vӟi văn bҧn cӫa bҧng 2.2
Sӕ Thuұt ngӳ (Tài liӋu; tӯ)
1 an <4; (2;4), (3;1), (3;5), (4;2)>
2 and <1; (1;5)>
3 building <2; (2;3), (4;1)>
4 file <2; (3;3), (4;4)>
5 index <2; (2;5), (3;6)>
6 indexing <3; (1;6), (2;1), (4;6)>

7 information <1; (1;1)>
8 inverted <2; (3;2), (4;3)>
9 is <4; (1;3), (2;2), (3;4), (4;5)>
10 retrieval <1; (1;2)>
11 searching <1; (1;4)>
23
(tiӃp)
2.3 CHӌ MӨC TӊP KÝ SӔ SFID
Bҧng 2.5 ± Mã hoá chӗng lên cӫa tài liӋu 2 đӕi vӟi SF
Thuұt ngӳ Ký sӕ thuұt ngӳ
indexing 0001 0000 1100 0100
is 0100 0100 0001 0000
building 0101 0011 0000 0000
an 0000 0100 0100 1100
index 1100 1000 0010 0000
Ký sӕ bloc 1101 1111 1111 1110
 TӋp ký sӕ SF: là mӝt phương pháp xác suҩt đӇ chӍ mөc
văn bҧn. Mӛi mӝt tài liӋu có mӝt ký sӕ liên kӃt, mӝt xâu
bit bҳt nӝi dung tài liӋu theo mӝt nghĩa nào đó
 TӋp ký sӕ bitslice: Sӵ truy cұp SF có thӇ đưӧc tăng
nhanh hơn bҵng cách dùng kӻ thuұt bitslicing, tӭc là kӻ
thuұt chuyӇn vӏ ma trұn bit
24
(tiӃp)
2.4 SO SÁNH CÁC PHƯƠNG PHÁP CHӌ MӨC
 Phương pháp chӍ mөc tӋp đҧo IFID và chӍ mөc tӋp ký sӕ
SFID là hai phương pháp chӍ mөc chính tài liӋu trong thư
viӋn sӕ.
 Quy lu̵t ch͑ mͭc tài li͏u trong DL: Ӣ hҫu hӃt các ӭng dөng,
IF thӵc hiӋn tӕt hơn SF trong phҥm vi cӫa cҧ hai kích

thưӟc chӍ mөc và tӕc đӝ truy vҩn.
IF nén là phương pháp chӍ mөc hӳu ích nhҩt mӝt CSDL lӟn
các tài liӋu văn bҧn có đӝ dài có thӇ thay đәi.
2.5 CÁC MÔ HÌNH NÉN IFID
2.5.1 Đһt vҩn đӅ
Khҧo sát các mô hình và phương pháp mã hoá đӇ nén IFID
CSDL tài liӋu trong thư viӋn sӕ.
Chìa khoá cӫa bài toán nén là nhұn xét mӛi mӝt IL có thӇ
đưӧc lưu trӳ như mӝt dãy sӕ nguyên tăng dҫn.
25
(tiӃp)
2.5.2 Mô hình nén toàn cөc
 Mô hình không tham sӕ
 Mô hình Bernoulli toàn cөc
2.5.3 Các mô hình nén cөc bӝ
 Mô hình hyperbol cөc bӝ
 Mô hình Bernoulli cөc bӝ
 Mô hình Bernoulli lӋch
 Mô hình nén nӝi suy

×