1
2
THƯ VIỆN SỐ
QUÁCH TUẤN NGỌC
ĐỖ QUANG VINH
HÀ NỘI - 2008
3
Tính cấp thiết
World Wide Web đã xâm nhập vào cuộc sống
hàng ngày
Giao diện cho Web tiến triển từ duyệt đến tìm
kiếm
DL là một trong những hướng nghiên cứu chính
về công nghệ thông tin trên thế giới
Tổng quan hoạt động nghiên cứu DL
Sự bùng nổ về nghiên cứu DL, các dự án và
chương trình DL ở Mỹ và trên thế giới
Trọng tâm của các dự án DL
Về công nghệ: các phương pháp và công nghệ
mới về lưu trữ và tìm kiếm thông tin
4
(tiếp)
Về xã hội: khảo sát CSDL tài liệu và các vấn đề
xã hội liên quan tới DL
Hoạt động nghiên cứu DL ở Mỹ
Có nhiều hoạt động và chương trình nghiên cứu
DL đang được tiến hành ở Mỹ và số lượng tăng
nhanh
2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự
án thư viện số - giai đoạn 2 (DLI-2) và Dự án thư
viện số quốc tế
Dự án thư viện số DLI:
Dự án thư viện video số Informedia của Đại học
Carnegie Mellon CMU
5
(tiếp)
Dự án dịch vụ thông tin số của Đại học
California ở Berkeley
Dự án Alexandria của Đại học California ở Santa
Barbara
Dự án Interspace của Đại học Illinois ở Urbana-
Champaign
Dự án UMDL của Đại học Michigan
Dự án InfoBus của Đại học Stanford
Các dự án DL chủ yếu khác ở Mỹ:
Thư viện quốc hội (Library of Congress)
Dự án công nghệ thư viện số DLT của NASA
Dự án FedStats của hơn 70 cơ quan chính phủ
khác nhau của Mỹ
6
(tiếp)
Dự án thư viện số của IBM
Dự án thư viện số California CDL
Chương trình thư viện số D-Lib của DARPA (the
Defence Advanced Researh Project Agency)
Dự án MOA của hai Đại học Cornel và Michigan
Dự án Open Book của Đại học Yale
Dự án hợp tác Red Sage của Đại học California
ở San Francisco, Công ty AT&T Laboratories và
Springer-Verlag
Dự án TULIP của nhà xuất bản Elsevier Science
Publisher
7
(tiếp)
Hoạt động DL ở các nước khác:
Tập trung vào các CSDL tài liệu, nói riêng vào
nâng cao truy cập tới các CSDL tài liệu về lịch
sử, văn hoá và nghệ thuật:
Canada, Anh, Pháp, Đức, Nhật, Hàn quốc,
Singapore, Trung quốc, Hồng Kông, Đài loan,
Australia, New Zealand
8
(tiếp)
Việt Nam
Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch
định chiến lược phát triển thông tin - thư viện
cho đến năm 2010, 2020, trước xu thế của sự
chuyển hướng toàn cầu sang xã hội thông tin
Xây dựng DL lý tưởng, độc lập, với vốn tư liệu
hoàn toàn số hoá, với toàn bộ dịch vụ chuyển
sang phương thức điện tử, là không khả thi
Xu hướng sẽ xuất hiện nhiều thư viện điện tử là
kết quả của quá trình tin học hoá, là các cổng
vào thông tin và là một bộ phận của các thư viện
lớn truyền thống ở Việt Nam
9
(tiếp)
Con đường mà đại bộ phận thư viện sẽ đi là: kết
hợp các nguồn tin truyền thống với hiện đại, bổ
sung thêm các tạp chí điện tử toàn văn trên CD-
ROM, đặt mua các tạp chí điện tử toàn văn trên
mạng, số hoá một phần vốn tư liệu, tự động hoá
các dịch vụ và tạo điều kiện cho NSD chủ động
khai thác thông tin
Hiện nay, một số phần mềm được cài đặt:
Giải pháp thư viện điện tử ILIB của công ty CMC
ở Thư viện Quốc gia Việt Nam
Giải pháp thư viện điện tử LIBOL của công ty
Tinh vân ở Trung tâm Thông tin khoa học và
công nghệ Quốc gia
Hệ phần mềm thư viện số Greenstone của dự án
New Zealand Digital Library ở thư viện Đại học
Khoa học tự nhiên TP Hồ Chí Minh
10
I. TỔNG QUAN VỀ THƯ VIỆN SỐ
1. ĐỊNH NGHĨA
Định nghĩa 1.1 (Arms W.Y.): DL là một kho thông tin
có quản lý với các dịch vụ liên kết, trong đó thông tin
được lưu trữ ở dạng số và có thể truy cập qua một
mạng.
Định nghĩa 1.2 (Chen H., Houston A.L.): DL là một
thực thể liên quan tới sự tạo ra các nguồn tin và sự
hoạt động thông tin qua các mạng toàn cầu.
Định nghĩa 1.3 (Reddy R., Wladawsky-Berger I.): DL
là các kho dữ liệu mạng về tài liệu văn bản số, ảnh, âm
thanh, dữ liệu khoa học và phần mềm là lõi của
Internet hiện nay và các kho dữ liệu số có thể truy cập
phổ biến về tất cả tri thức của loài người trong tương
lai.
11
(tiếp)
Định nghĩa 1.4 (Sun Microsystems) [135]: DL là sự
mở rộng điện tử về các chức năng điển hình NSD
thực hiện và các tài nguyên NSD truy cập trong thư
viện truyền thống.
Định nghĩa 1.5 (Witten I.H., Bainbridge D.): DL là
các kho đối tượng số, bao gồm văn bản, video và
audio cùng với các phương pháp truy cập và tìm
kiếm, lựa chọn, tổ chức và bảo trì.
Tóm lại, thư viện số là một kho thông tin số khổng lồ
có tổ chức với các dịch vụ liên kết qua mạng.
LÝ DO CHÍNH XÂY DỰNG DL
Thư viện số phân phát thông tin tốt hơn thư viện
truyền thống
12
(tiếp)
LỢI ÍCH CỦA DL
1. Thư viện số mang thư viện đến người sử dụng
2. Máy tính được sử dụng để tìm kiếm và duyệt
3. Thông tin có thể được chia sẻ
4. Thông tin dễ dàng cập nhật hơn
5. Thông tin luôn sẵn có
6. Các dạng thông tin mới trở thành thực hiện
được
7. Giá của DL
4 lĩnh vực kỹ thuật nổi bật đối với DL
1. Lưu trữ điện tử trở nên rẻ hơn giấy
2. Hiển thị máy tính cá nhân trở nên dùng thích
hợp hơn
3. Mạng tốc độ cao trở nên phổ biến
4. Máy tính trở nên di động
13
(tiếp)
NGHIÊN CỨU TIN HỌC TRONG DL
1. Mô hình đối tượng
2. Giao diện NSD
3. Chỉ mục và Tìm kiếm thông tin
4. Quản trị và bảo trì CSDL
5. Tính liên tác
CHỈ MỤC & TÌM KIẾM THÔNG TIN
1. Siêu dữ liệu mô tả
2. Chỉ mục tự động
3. Xử lý ngôn ngữ tự nhiên
4. Tài liệu phi văn bản
14
(tiếp)
Hình - Máy tính trong thư viện số (W.Y.Arms)
NSD
Kho lưu trữ
Hệ thống định vị Hệ thống tìm kiếm
15
(tiếp)
2. Mô hình hình thức cho DL
1. Cơ sở toán học
2. Dòng
Định nghĩa 1.14: Một dòng là một dãy có miền giá
trị là một tập không rỗng.
3. Cấu trúc
Định nghĩa 1.15: Một cấu trúc là một bộ (G, L, F),
trong đó G = (V, E) là một dồ thị có hướng với tập
đỉnh V và tập cạnh E, L là một tập giá trị nhãn và F
là một hàm gán nhãn F : (V ∪ E) → L
4. Không gian
Định nghĩa 1.23: Một không gian là một không gian
đo được, không gian độ đo, không gian xác suất,
không gian vector hoặc một không gian topo
16
(tiếp)
5. Kịch bản
Định nghĩa 1.26: Một kịch bản là một dãy sự kiện
chuyển trạng thái liên quan (e
1
, e
2
, ... , e
n
) trên tập
trạng thái S sao cho e
k
= (s
k
, s
k+1
) đối với 1 ≤ k ≤ n
6. Cộng đồng
Định nghĩa 1.29: Một cộng đồng là một bộ (C, R),
trong đó:
C = {c
1
, c
2
, ... , c
n
} là
một tập của các cộng đồng khái niệm, mỗi một
cộng đồng quy về một tập cá thể có cùng lớp hoặc
kiểu; R =
{r
1
, r
2
, ... , r
n
} là một tập quan hệ, mỗi một quan hệ
là một bộ r
j
= (e
j
, i
j
) trong đó e
j
là một tích Đề các
c
k1
x c
k2
x ... x c
knj
, 1 ≤ k
1
< k
2
< ... < k
nj
≤ n, định rõ
các cộng đồng bị dính vào quan hệ và i
j
là một
hoạt động mô tả tương tác hoặc truyền thông giữa
các cá thể
17
(tiếp)
7. Định nghĩa hình thức thư viện số
Định nghĩa 1.41: Một thư viện số là một bộ bốn
(R, MC, DV, XH)
trong đó:
R là một kho;
MC là một mục lục siêu dữ liệu;
DV là một tập dịch vụ chứa tối thiểu các dịch
vụ chỉ mục, tìm kiếm và duyệt;
XH là một cộng dồng NSD thư viện số.