Tải bản đầy đủ (.pdf) (63 trang)

Nghiên cứu một số mô hình và giao thức thư viện điện tử

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.26 MB, 63 trang )


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ









NGUYỄN THỊ NGỌC HÀ






NGHIÊN CỨU MỘT SỐ MÔ HÌNH VÀ GIAO THỨC THƯ
VIỆN ĐIỆN TỬ






LUẬN VĂN THẠC SĨ














Hà Nội 2010




1
1
PHẦN MỞ ĐẦU

Sự phát triển của khoa học công nghệ đặc biệt là công nghệ thông tin và
viễn thông trong những năm gần đây đã và đang tác động đến mọi mặt của
ngành Thƣ viện. Chính vì vậy thƣ viện điện tử là xu hƣớng tất yếu trong quá
trình phát triển của ngành thƣ viện ở trên thế giới nói chung và ở Việt Nam nói
riêng.
Thƣ viện điện tử chính là quá trình mà mọi hoạt động nghiệp vụ thƣ viện
truyền thống từng bƣớc hiện đại hoá. Quá trình ứng dụng khoa học công nghệ
thông tin từng bƣớc tự động hoá mọi hoạt động thông tin thƣ viện nhằm tăng
cƣờng và nâng cao năng suất, hiệu quả hoạt động và kiểm soát nguồn nhân lực
thông tin cũng nhƣ tăng cƣờng khả năng đáp ứng nhu cầu tin của ngƣời dung
một cách hiệu quả nhất.

Trong những năm gần đây, tại Việt Nam một số hệ thống thƣ viện điện tử
đã đƣợc Nhà nƣớc và các tổ chức quốc tế…đầu tƣ khá nhiều kinh phí để trang bị
cơ sở vật chất, máy móc thiết bị công nghệ thông tin hiện đại, đào tạo đội ngũ
chuyên gia và ngƣời dùng tin…để từng bƣớc tự động hoá thƣ viện điện tử.
Xuất phát trong hoàn cảnh đó, luận văn lựa chọn đề tài “Nghiên cứu một
số mô hình và giao thức thư viện điện tử” cấu trúc luận văn gồm phần mở đầu,
phần kết luận và ba chƣơng cụ thể nhƣ sau:
Chƣơng 1: Khái quát về thƣ viện và tra cứu
Tìm hiểu chung về thƣ viện truyền thống, thƣ viện điện tử, thƣ viện số, thƣ viện
ảo, thƣ viện lai và tra cứu .
Chƣơng 2: Các chuẩn trong thƣ viện điện tử
Giới thiệu các chuẩn biên mục và siêu dữ liệu, chuẩn trao đổi dữ liệu, chuẩn tra
cứu liên thƣ viện và chuẩn mƣợn liên thƣ viện trong thƣ viện điện tử.
Chƣơng 3: Chƣơng trình thử nghiệm
Nêu bài toán, thiết kế chƣơng trình, viết chƣơng trình thử nghiệm.



2
2
DANH MỤC HÌNH

Hình 1. Thành phần MARC21 155

Bảng 1: Một số địa chỉ Z39.50 trên Inter 27

Hình 2. Chuẩn trao đổi dữ liệu 25

Hình 3: Mô phỏng mƣợn liên thƣ viện 36


Hình 4: Mô hình lớp 43

Hình 5: Giao diện tìm kiếm đơn giản 55

Hình 6: Giao diện tìm kiếm nâng cao 56

Hình 7: Kết quả tìm kiếm qua Z39.50 57

Hình 8: Các biểu ghi đƣợc chọn 57

Hình 9: Thông tin cơ sở dữ liệu 58


3
3
BẢNG KÝ HIỆU CÁC TỪ VIẾT TẮT

OPAC
Open Public Access Catalog
MARC
Machine Readable Cataloguning
XML
eXtennsible Markup Language
BITS
Banking Industry Technology Secretariat
IFX
Financial Exchange
BIPS
Banking Internet Payment System
TIM

Telecommunicaton Interchange Markup
FIX
Fixed – Length Fields
CML
Chemical Markup Language
OCLC
Ohio Cumputer Libray Center
NCSA
National Center for Suppercomputing Application
CEN/ISSS
European Committee for Standarization / Information Sociecty Standard
System
HTML
Hyper Text Markup Language
BDF
Biliogarphic Description Format
ADF
Authority Description Format
CDF
Community Description Format
HDF
Holading Description Format
CMDF
Communities Description Format
ISBD
International Standard Book Description
AACR2
AACR2 là Anglo American Cataloguing Rules













4
4
Mục Lục
PHẦN MỞ ĐẦU 1
DANH MỤC HÌNH 2
Chƣơng 1: KHÁI QUÁT VỀ THƢ VIỆN VÀ TRA CỨU 6
1.1 Khái niệm về thƣ viện và tra cứu 6
1.1.1 Thƣ viện truyền thống: 6
1.1.2. Thƣ viện điện tử: 7
1.1.3 Thƣ viện số: 9
1.1.4 Quy tắc xây dựng và phát triển thƣ viện số và thƣ viện điện tử 11
1.1.5 Quá trình hình thành thƣ viện điện tử và thƣ viện số 11
1.1.6 Sự phát triển Thƣ viện điện tử và Thƣ viện số ở nƣớc ta trong những năm hiện nay
12
1.1.4 Thƣ viện ảo 13
1.2 Tra cứu trực tuyến OPAC 14
Chƣơng 2: CÁC CHUẨN TRONG THƯ VIỆN ĐIỆN TỬ 15
2.1 Chuẩn biên mục và siêu dữ liệu: 15
2.1.1 Khổ mẫu biên mục – MARC 15
2.1.2 Siêu dữ liệu: 17

2.1.3 Ngôn ngữ đánh giá mở rộng XML 20
2.1.4 Khổ mẫu MARCXML 22
2.2 Chuẩn trao đổi dữ liệu 24
2.3 Chuẩn tra cứu liên thƣ viện Z39.50 26
2.3.1 Khái niệm về Z39.50 27
2.3.2 Giải pháp và lợi ích của Z39.50 28
2.3.3 Tóm lƣợc lịch sử phát triển của Z39.50 29
2.3.4 Một số tính năng chính của Z39.50 31
2.4 Chuẩn mƣợn liên thƣ viện 35
2.4.1 Chuẩn ISO10160, 10161 35
2.4.2. Chuẩn IPIG v2.0 36
Chƣơng 3: CHƢƠNG TRÌNH THỬ NGHIỆM 38
3.1 Bài toán 38
3.2 Thiết kế chƣơng trình 38
3.2.1 Công cụ lập trình YAZ của IndexData 38
3.2.2 Xây dựng ứng dụng đa luồng với Microsoft.Net 39
3.2.2.1 Khái niệm về luồng(thread) 39
3.2.2.2 Căn bản về mô hình luồng 40


5
5
3.2.3 Cấu trúc và Giải thuật 41
3.2.4 Sơ đồ lớp và mã nguồn chính 43
3.2.4.1 Class Diagram 43
3.2.4.2 Lớp ThreadHelper 43
3.2.4.3 Lớp ZetThread 44
3.2.4.4 Lớp ZetMonitor 47
3.3 Thử nghiệm 54
3.3.1 Cấu hình 54

3.3.2 Giao diện và kết quả thử nghiệm 55
PHẦN KẾT LUẬN 59
TÀI LIỆU THAM KHẢO 61










6
6


Chƣơng 1: KHÁI QUÁT VỀ THƢ VIỆN VÀ TRA CỨU

1.1 Khái niệm về thƣ viện và tra cứu
1.1.1 Thƣ viện truyền thống:

Ngày nay vẫn còn nhiều ngƣời cho rằng thƣ viện là một nơi yên tĩnh trong
đó sách đƣợc cất giữ và ngƣời ta đánh giá thƣ viện theo tiêu chí số lƣợng sách
đƣợc cất giữ nhiều hay ít. Đối với những ngƣời quản thủ thƣ viện có chuyên
môn thì thƣ viện là một cơ sở có tổ chức để bảo quản tài liệu, sƣu tập và để truy
cập đến những thƣ viện khác; không những chỉ sách mà còn có phim ảnh, băng
đĩa âm thanh, mẫu vật thực vật, sản phẩm văn hoá, vv… Đối với nhà nghiên
cứu, thƣ viện là một mạng lƣới cung cấp việc truy cập đến tri thức nhân loại
đƣợc lƣu giữ khắp mọi nơi.


Đối với một thƣ viện truyền thống, điều quan trọng là việc bổ sung nguồn
tài nguyên ngày càng nhiều trên giá kệ trong kho thƣ viện. Sự thay đổi bộ mặt
thƣ viện là kho tri thức của xã hội; có ngƣời còn cho rằng thƣ viện là đền đài
của văn hoá và sự uyên thâm. Đƣợc hình thành trong thời kỳ nông nghiệp thống
trị trong tƣ duy của nhân loại, thƣ viện đã trải nghiệm qua một cuộc hồi sinh với
việc phát minh ngành in trong thời kỳ Phục hƣng, và thực sự bắt đầu khởi sắc
khi cuộc cách mạng công nghiệp bùng phát với hàng loạt những phát minh cơ
giới hoá quy trình in ấn.

Lịch sử thƣ viện đã trải qua hơn 25 thế kỷ. Hình ảnh thƣ viện của thời xa
xƣa đƣợc hình dung nhƣ là một cơ sở vững chắc trong đó chứa hàng ngàn phiến
đá khổng lồ đƣợc khắc chữ - thƣờng đƣợc gọi là "rừng bia" [6]. Qua nhiều năm
cùng với sự tiến hoá của nhân loại, con ngƣời càng tiến bộ trong nhận thức và
thƣ viện ngày càng đƣợc phát triển. Giai đoạn Quản lý tƣ liệu đã trải qua một
thời gian dài theo sự phát triển đó. Cho đến một lúc, cũng xuất phát từ ý định
ban đầu là làm tốt công việc lƣu trữ và bảo quản, thƣ viện đã chú trọng đến việc
xem ngƣời sử dụng là trung tâm, với sự nhấn mạnh đến việc trao đổi thông tin.
Điều này cũng đồng thời để đáp ứng yêu cầu thông tin ngày càng gia tăng. Thƣ
viện cổ đại chỉ hữu ích đối với một thiểu số những ngƣời biết chữ và bị giới hạn
trong một tầng lớp, giai cấp theo điều kiện xã hội. Hoạt động thƣ viện công cộng
đƣợc bắt đầu phát triển trong thế kỷ 19. Nhƣng vẫn là những thƣ viện đóng: sách
đƣợc xếp theo kích cỡ trong những kho kín trong thƣ viện, độc giả chỉ tiếp cận
với thủ thƣ ở quầy để yêu cầu mƣợn sách. Hầu hết những thƣ viện trong lục địa
châu Âu đã áp dụng phƣơng thức này trong một thời gian dài. Đến thế kỷ 20
một số quản thủ thƣ viện nhận thức đƣợc tiện ích của việc cho độc giả tiếp cận
với kho sách đã đề xuất phƣơng thức phục vụ kho mở với tài liệu đƣợc xếp theo


7

7
môn loại. Phƣơng thức này đƣợc bắt đầu áp dụng và nhanh chóng phát triển
trong những quốc gia nói tiếng Anh hồi đó.
1.1.2. Thƣ viện điện tử:

Thƣ viện điện tử có thể đƣợc hiểu theo nghĩa tổng quát nhất cho mọi loại
hình thƣ viện đã tin học hoá toàn bộ hoặc một số dịch vụ, và các hoạt động của
ngành thƣ viện. Thƣ viện điện tử có thể đƣợc coi nhƣ là nơi ngƣời sử dụng có
thể tới để thực hiện những công việc mà họ vẫn thƣờng làm với thƣ viện truyền
thống nhƣ là mƣợn trả sách hoặc tài liệu, nhƣng đã đƣợc tự động hoá các hoạt
động này. Theo tiến sĩ Ching-chih Chen, ngƣời đã có sáng kiến tổ chức một loạt
hội nghị quốc tế về công nghệ thông tin mới (NIT) [6] hơn mƣời năm gần đây
(từ 1987) thì hiện không có một tiêu chuẩn cố định, chính thức nào cho thƣ viện
điện tử. Ta có thể nhận biết một số đặc điểm của thƣ viện điện tử lý tƣởng nhƣ
sau:

- Thƣ viện phải có vốn tƣ liệu điện tử .Tƣ liệu điện tử là những tƣ liệu đƣợc
lƣu trữ dƣới dạng số sao cho có thể truy nhập đƣợc bằng các thiết bị xử lý
dữ liệu.
- Phải đƣợc tin học hoá trong thƣ viện. Phải có một hệ quản trị thƣ viện tích
hợp nhƣ bổ sung, biên mục, quản trị xuất bản phẩm định kỳ, kiểm soát
lƣu thông tƣ liệu, tổ chức mục lục truy nhập công cộng trực tuyến, .Thƣ
viện phải đƣợc kết nối mạng, tối thiểu cũng phải là mạng cục bộ hoặc
Internet.
- Phải cung cấp và tạo điều kiện cho ngƣời dùng sử dụng các dịch vụ điện
tử nhƣ yêu cầu và gia hạn mƣợn qua mạng, tìm tin trong các cơ sở dữ
liệu, truy nhập và khai thác các nguồn tin tại chỗ và với tới các nguồn tin
ở nơi khác,
Tóm lại, thƣ viện điện tử phải sử dụng các phƣơng tiện điện tử trong thu
thập, lƣu trữ, xử lý, tìm kiếm thông tin. Thƣ viện điện tử ra đời là kết quả của sự

hợp tác giữa các chuyên gia thƣ viện, nhà xuất bản, các nhà khoa học và công
nghệ thông tin hƣớng về mục tiêu tiếp cận tới đầy đủ thông tin, ở mọi nơi và
mọi lúc.

Thư viện điện tử là cổng vào thông tin
Thƣ viện có thể chỉ chọn phƣơng án tạo lập những kết nối với các nguồn
lực trên Internet, chứ không tổ chức cung cấp tƣ liệu đọc tại chỗ và điện tử hoá
các dịch vụ truyền thống. Những Thƣ viện nhƣ vậy dồn sức để thực hiện chức
năng của một cổng vào thông tin và chỉ giới thiệu thƣ viện nhƣ một kho tƣ liệu
ảo . Xu hƣớng hiện nay là xây dựng các thƣ viện điện tử dƣới hình thức các
trang web trên mạng thông tin toàn cầu.
Trƣớc khi lập một Website tức là địa chỉ cung cấp tin trên mạng, cần phải
xác định loại thông tin và dịch vụ nào cần đƣa lên mạng, liệu thƣ viện có xuất
bản các tƣ liệu riêng của mình hay sẽ xây dựng một sƣu tập từ các nguồn lực của
nơi khác hoặc kết hợp cả hai, liệu thƣ viện có tạo lập rất nhiều mối liên kết để


8
8
bao quát một phạm vi chủ đề rộng hay chỉ tập trung vào một số lĩnh vực chuyên
ngành hay thậm chí chỉ một chuyên ngành sau đó chia thành những mục hẹp
hơn, những vấn đề gì đang đƣợc ngƣời dùng quan tâm và đối tƣợng sử dụng là
ai , nguyên tắc nhóm hợp tài liệu nào đối với ngƣời dùng là thích hợp và dễ tìm
nhất trong quá trình tra cứu các trang web, thời gian và kinh phí phải mất thêm
khi thiết lập và duy trì thƣ viện điện tử.
Những dịch vụ có thể đƣa lên mạng là:
- Truy nhập các cơ sở dữ liệu do thƣ viện xây dựng hoặc do nơi khác làm,
có thu hoặc không thu lệ phí.
- Cung cấp tƣ liệu: cách này tiết kiệm đƣợc thời gian biên chế và ngƣời
dùng cũng nhƣ cuớc phí bƣu điện. Hiện nay phổ biến dùng e-mail để

chuyển yêu cầu, dùng e-mail hoặc fax để cung cấp tƣ liệu.
- Gia hạn mƣợn
- Gửi các thông báo của thƣ viện qua e-mail: về sách đặt đã tới lƣợt hoặc
đòi sách
- Tra cứu điện tử
- Dịch vụ trả lời bạn đọc ( trong vòng 24 giờ )

Nhiều thƣ viện đã có dạng điện tử (thƣ viện ảo) trên Internet, có nhiều phƣơng
án sử dụng công nghệ mới để đáp ứng nhu cầu và yêu cầu của bạn đọc. Có nhiều
ý kiến tán thành nhƣng cũng có không ít ý kiến hoài nghi, thậm chí phản bác
việc xây dựng thƣ viện số ở các nƣớc đang phát triển. Nhiều vấn đề còn phải cân
nhắc và giải quyết trƣớc khi các thƣ viện đó hoạt động nhƣ một bộ phận thông
tin ổn định.
Về phƣơng diện kinh tế:
Bƣớc đầu tiên và khó khăn nhất trong việc phát triển thƣ viện số là
chuyển đổi các xuất bản phẩm truyền thống trên giấy sang dạng số. Vấn đề giá
thành / hiệu quả của quá trình số hoá khó thuyết phục do chi phí công nghệ và
sự cần thiết phải đầu tƣ liên tục vào công nghệ mới: Số hoá một trang tài liệu giá
thành khoảng 0,1 - 0,5 đôla (cách đây 10 năm là 2 đôla). Một thƣ viện lớn có
hàng triệu đơn vị tài liệu khó có thể số hoá toàn bộ kho tài liệu. Thiết bị cũng rất
tốn kém vì các dự án đòi hỏi những siêu máy tính có trang bị các bộ vi xử lý cực
mạnh, bộ nhớ và khối lƣợng lƣu trữ trong ổ cứng cực lớn. Kể cả trƣờng hợp
chuyển đổi số hoá toàn bộ ấn phẩm vào thƣ viện (số) truy nhập toàn cầu, thì
chắc chắn phần lớn các tƣ liệu này sẽ lại in ra từ máy để đọc trên giấy.
Về phƣơng diện kỹ thuật:
Mặc dầu vấn đề chất lƣợng sao lại chính xác dữ liệu trong quá trình số
hoá đã từng đặt ra và đến nay hầu nhƣ đã đƣợc giải quyết đƣợc bằng các máy
quét hiện đại chất lƣợng cao, nhƣng vấn đề vật liệu lƣu trữ vẫn không thể bền
đƣợc bằng các giấy không có axit.
Vấn đề bản quyền:

Bản quyền là một trở ngại đối với việc phát triển thƣ viện số, bởi vì thƣ
viện số bị ràng buộc bởi những điều khoản của luật bản quyền có liên quan đến
việc xuất bản lại các tƣ liệu dƣới hình thức mới, không có phép. Một thƣ viện
phải dung hoà giữa quyền sở hữu trí tuệ và quyền lợi của công chúng. Một mặt


9
9
tính chất công cộng của các thƣ viện xuất phát từ nguyên tắc phục vụ không lấy
tiền và không vụ lợi và bình đẳng trong truy nhập thông tin và tri thức. Khi
chuyển sang thƣ viện số thì chức năng này cũng không thể thay đổi. Mặt khác,
truy nhập toàn cầu tới thƣ viện số là điều kiện tiên quyết để phát triển thị trƣờng
số, nhƣ vậy việc truy nhập công cộng miễn phí khó có thể dung hoà với cơ chế
thị trƣờng của việc phổ biến thông tin trong một nền kinh tế mà thông tin đƣợc
coi là hàng hoá.

1.1.3 Thƣ viện số:

Thƣ viện số là một bƣớc tiến xa hơn của thƣ viện điện tử hay có thể nói
cách khác, là thƣ viện điện tử cấp cao, cho phép đọc đƣợc thông tin toàn văn sau
khi đã số hoá hầu hết tƣ liệu, đặc biệt là các tƣ liệu dƣới dạng đồ hoạ nhƣ tranh
ảnh, bản đồ, và các tƣ liệu đa phƣơng tiện (multimedia) .

Philip Baker cũng phân biệt thƣ viện điện tử và thƣ viện số theo một kiểu
khác. Ông cho rằng thƣ viện điện tử lƣu trữ và phục vụ cả ấn phẩm lẫn tƣ liệu
điện tử hoặc tƣ liệu đã đƣợc số hoá, trong khi đó thƣ viện số chỉ lƣu trữ các tƣ
liệu điện tử mà thôi [6]. Một thƣ viện điện tử có thiên hƣớng sử dụng linh hoạt
và phổ biến các nguồn tin điện tử nhƣng đồng thời cũng tham gia vào việc tạo ra
các nguồn tin đó. Các thƣ viện số cũng có nhiều định nghĩa khác nhau và nhiều
công trình nghiên cứu với quan điểm khác nhau.


Thƣ viện số là hình thức kết hợp giữa thiết bị tính toán, lƣu trữ và truyền
thông số với nội dung và phần mềm cần thiết để tái tạo, thúc đẩy và mở rộng các
dịch vụ của các thƣ viện truyền thống vốn dựa trên các biện pháp thu thập, biên
mục [9] và phổ biến thông tin trên giấy và các vật liệu khác.

Thƣ viện số là tập hợp của các thiết bị tính toán, lƣu trữ và truyền thông
số với nội dung và phần mềm để tái tạo, thúc đẩy và mở rộng các dịch vụ của
thƣ viện truyền thống nhƣ thu thập, biên mục, tìm kiếm và phổ biến thông tin.
Một thƣ viện số hoàn chỉnh phải thực hiện tất cả các dịch vụ cơ bản của thƣ viện
truyền thống kết hợp với việc khai thác các lợi thế của công nghệ lƣu trữ, tìm
kiếm và truyền thông số. Nghiên cứu về thƣ viện số bao gồm một loạt các vấn
đề kỹ thuật, xã hội và chính trị quyện lẫn vào nhau. Khái niệm thƣ viện số không
chỉ tƣơng đƣơng với một sƣu tập số hoá và các công cụ quản trị thông tin. Đúng
ra đó là một môi trƣờng tập hợp các sƣu tập, dịch vụ và con ngƣời để hỗ trợ cho
một chu trình hoàn chỉnh của việc sáng tạo, phổ biến, sử dụng và bảo quản dữ
liệu, thông tin và tri thức ( Hội thảo Santa Fe về môi trƣờng làm việc phổ biến
tri thức) và có hàm ý về một môi trƣờng mạng cung cấp nội dung.

Ngày nay ngƣời ta đang nghiên cứu thế hệ tiếp theo của các thƣ viện số
nhằm thúc đẩy việc sử dụng và nâng cao tính khả dụng của các nguồn tin đƣợc
nối mạng và phổ biến trên phạm vi toàn cầu, đồng thời cũng nhằm động viên


10
10
khuyến khích các dự án phát triển các công cụ phát hiện, quản trị, tìm và phân
tích thông tin hƣớng về các lĩnh vực ứng dụng và cải tiến đổi mới. Ngƣời ta
cũng tập trung nghiên cứu định nghĩa thƣ viện số và quan hệ của nó với thƣ viện
truyền thống cũng nhƣ quan hệ với các hệ thống rộng hơn có liên quan đến xuất

bản khoa học và thƣơng mại.

Thƣ viện số đƣợc xem nhƣ là các hệ thống cung cấp cho cộng đồng ngƣời
sử dụng cách tiếp cận lôgíc tới một kho tin và tri thức lớn, có tổ chức. Kỹ thuật
số đã làm tăng khả năng cho ngƣời sử dụng tiếp cận, tổ chức lại và sử dụng kho
tin. Một số ngƣời cho rằng trong một tƣơng lai không xa, thƣ viện số cần phải
liên kết cả ấn phẩm và tƣ liệu số và vấn đề chính yếu là phải cho phép bao quát
đƣợc một kho tin cực lớn. Theo ý kiến này nếu chỉ nhấn mạnh đến nội dung tƣ
liệu dƣới dạng số thì chƣa đủ. Lúc này, vô hình chung đã đề cập tới thƣ viện
điện tử. Có thể nói thƣ viện điện tử là thƣ viện lai giữa thƣ viện truyền thống và
thƣ viện số .

Trong thực tế hiện nay, mục tiêu là phải phát triển đƣợc các hệ thống công
nghệ thông tin cho phép tiếp cận đƣợc các kho tƣ liệu đƣợc số hoá ngày một
nhiều và khai thác đƣợc đầy đủ các tƣ liệu dƣới dạng số hoá. Nhƣ vậy, tính chất
đầy đủ và giá trị của vốn tƣ liệu có thể đƣợc gia tăng do khả năng tích hợp tƣ
liệu dƣới dạng số hoá và phƣơng pháp truy nhập thông tin dễ dàng hơn.

Thực tế có một sự kế thừa giữa vai trò, chức năng của thƣ viện truyền
thống và các mục tiêu của hệ thống thƣ viện số, nghĩa là chức năng phát triển, tổ
chức vốn tƣ liệu, tạo phƣơng tiện truy nhập và bảo quản của thƣ viện truyền
thống phải đƣợc mở rộng sang môi trƣờng thƣ viện số. Thƣ viện số sẽ là một bộ
phận của hệ thống dịch vụ thƣ viện rộng lớn trong tƣơng lai và các cán bộ thƣ
viện sẽ đóng một vai trò trung tâm trong phát triển và quản trị thƣ viện số.
Một thƣ viện số phải bao quát đƣợc các kho tƣ liệu số hoá, nghĩa là sẽ
phải tiến tới chỉ có một hệ thống thƣ viện số duy nhất nơi mà ngƣời sử dụng
ngày càng có khả năng truy nhập tới các loại hình sƣu tập số và hệ thống thông
tin số khác nhau: các nguồn tin của cá nhân, tập thể, cơ quan tổ chức, các môi
trƣờng hợp tác và các thƣ viện số công cộng.


Ƣu điểm của thƣ viện điện tử và thƣ viện số so với thƣ viện truyền thống
cũng giống nhƣ những lợi thế của cơ sở dữ liệu so với hệ thống mục lục và thƣ
mục thủ công: bổ sung vào sƣu tập nhanh hơn với sự kiểm soát về chất lƣợng tốt
hơn, các chức năng tìm kiếm thông tin đƣợc cải thiện, ngƣời sử dụng đƣợc truy
nhập nhanh hơn tới thông tin tìm đƣợc.

Các chức năng chính và dịch vụ của Thư viện số

Chức năng và dịch vụ của Thƣ viện số bao gồm ba chức năng sau:
- Ngƣời dùng có thể với tới đƣợc các dạng nguồn tri thức, thông tin.


11
11
- Tạo cơ chế phát hiện nguồn, cho phép ngƣời dùng nhận dạng, xác định
đƣợc các nguồn tin cần tìm và vị trí lƣu giữ các nguồn tin ấy.
- Cung cấp cơ chế chuyển giao các nguồn tin riêng biệt tới ngƣời dùng, kể cả
quá trình nhận các nguồn tin ở nơi khác và chuyển cho ngƣời dùng.

Một số dịch vụ cơ bản của thƣ viện số:
- Dịch vụ tàng trữ, nơi các đối tƣợng số đƣợc ký gửi và lƣu giữ.
- Dịch vụ định danh đảm bảo cho mỗi đối tƣợng số có một tên duy nhất và có
ít nhất một vị trí lƣu trữ.
- Dịch vụ chỉ mục: mô tả tập hợp các đối tƣợng số, chuyển đổi các câu hỏi
thành tập hợp kết quả tìm có chứa các tên nguồn duy nhất.
- Dịch vụ thu thập: lựa chọn theo các tiêu chí xác định, dựa vào các mục lục
chuyên môn hoá hoặc các phƣơng tiện trợ giúp phát hiện nguồn khác.
1.1.4 Quy tắc xây dựng và phát triển thƣ viện số và thƣ viện điện tử

- Cần phải có những dạng tƣ liệu tiêu biểu. Các thành phần tƣ liệu phải đƣợc

trình bày dƣới hình thức tự nhiên, cụ thể là những đối tƣợng có thể đƣợc vận
hành bởi ngƣời dùng quen thuộc với chúng.


- Kết hợp ba lĩnh vực :
+ Xã hội: nhƣ kỹ năng và kiến thức thông tin của ngƣời sử dụng, ảnh
hƣởng xã hội đối với dây chuyền chuyển giao công nghệ thông tin, luật
pháp và chính sách.
+ Thông tin: tổ chức, phát hiện nguồn, vai trò của siêu dữ liệu,
+ Hệ thống: tƣơng tác ngƣời - máy, phần mềm và cấu trúc, qui mô và
tƣơng tác
- Các đƣờng liên kết phải đƣợc ghi lại, giữ gìn, tổ chức và tổng quát hoá.
- Phải có sự phân tách giữa thƣ viện số và giao diện ngƣời dùng cho thƣ viện đó.
Đối tƣợng của thƣ viện số đƣợc sử dụng khác với đối tƣợng đƣợc lƣu trữ. Ngƣời
dùng tin cần nội dung trí tuệ của tƣ liệu chứ không phải là đối tƣợng số.
- Sử dụng những phƣơng pháp tìm kiếm tiên tiến nhƣ tìm kiếm liên thƣ viện
Z39.50.
- Phải phát triển các hệ thống mở, bao gồm ngƣời dùng và địa điểm nơi mà một
số chức năng của cán bộ thƣ viện sẽ đƣợc tự động hoá do máy tính thực hiện.
- Phải hỗ trợ việc truy nhập theo nhiệm vụ tới các nguồn lƣu trữ điện tử
- Phải có quan điểm phát triển lấy ngƣời dùng làm trung tâm. Ngƣời dùng phải
làm việc với những đối tƣợng ở mức tổng quát hoá thích hợp.
1.1.5 Quá trình hình thành thƣ viện điện tử và thƣ viện số

Ngày nay công nghệ thông tin đã và đang phát triển mạnh trong tất cả các
lĩnh vực nhƣ ngành kinh tế, khoa học, giao dục,…trong đó ngành thƣ viện đã và
đang từng bƣớc tự động hoá những hoạt động trong ngành thƣ viện. Những


12

12
thành tựu của Công nghệ thông tin nhƣ công nghệ máy tính và truyền thông,
xuất bản điện tử, công nghệ truyên thông đa phƣơng tiện, Internet và mạng toàn
cầu, giúp cho các thƣ viện và cơ quan thông tin – thƣ viện đƣa ra những dịch vụ
và phƣơng pháp quản trị thông tin, cơ sơ dữ liệu hữu hiệu cũng nhƣ việc truy
nhập thông tin và chia sẻ nguồn lực, tạo điều kiện cho việc xây dựng thƣ viện
điện tử hay thƣ viện số.
Thƣ viện điện tử và thƣ viện số đã đƣợc xây dựng ở các nƣớc phát triển
nhƣ Mỹ, Anh, Canada, Úc…. Thƣ viện Quốc hội Hoa kỳ đã tiến hành một
chƣơng trình thƣ viện số khổng lồ nhằm chuyển đổi vốn tƣ liệu in truyền thống
sang các nguồn tin điện tử linh hoạt và nếu công việc thực hiện đúng tiến độ kế
hoạch thì độc giả và những ngƣời dùng tin ở khắp nơi trên thế giới trong thế kỷ
21 sẽ có thể bật máy tính, tìm đến cơ sở dữ liệu và truy nhập tới kho tƣ liệu số
hoá của Thƣ viện Quốc hội Hoa kỳ, ngoài ra nhiều thƣ viện đại học Mỹ cũng
đang tìm cách để đƣa các sƣu tập thƣ viện vào máy tính và đƣa lên mạng để bạn
đọc truy nhập sử dụng rộng rãi, các chuyên gia cũng có tham vọng tập hợp tƣ
liệu số từ nhiều nơi và thậm chí trên phạm vi toàn cầu, xây dựng thƣ viện toàn
cầu để thông qua Internet, mọi ngƣời ở bất cứ nơi nào cũng có thể truy nhập.




Các vấn đề thường gặp khi xây dựng thư viện điện tử và thư viện số

- Khó tìm do thiếu công cụ hoặc do bộ máy tìm kiếm tổ chức kém.
- Thiếu các tham chiếu qua lại và mối liên kết với các tƣ liệu khác.
- Quá nhiều đƣờng liên kết không hợp lý hoặc dẫn tới các thông tin vô
dụng.
- Thƣờng xuyên nâng cấp khiến ngƣời dùng nhiều khi phải phán đoán mò
mẫm nơi có các thông tin đã đƣợc định vị trƣớc đây.

- Thiếu sự nhất quán trong khi trình bày những thông tin tƣơng tự.
- Thông tin lạc hậu, không cập nhật, sai ngữ pháp và chính tả.
- Khổ mẫu không thống nhất nên gặp rắc rối khi tham chiếu trực tuyến và
in ra.


1.1.6 Sự phát triển Thƣ viện điện tử và Thƣ viện số ở nƣớc ta trong những
năm hiện nay

Khái niệm " Thƣ viện điện tử" và "Thƣ viện số" còn tƣơng đối mới đối
với cộng đồng thƣ viện Việt Nam. Có lẽ nhu cầu chung nghiên cứu vấn đề này
bắt đầu từ khi vạch định chiến lƣợc phát triển thông tin - thƣ viện cho đến năm
2010, 2020, trƣớc xu thế của sự chuyển hƣớng toàn cầu sang xã hội thông tin và
sự xuất hiện của thời đại công nghệ thông tin. Ngoài ra, vấn đề không gian lƣu
trữ các tƣ liệu truyền thống dƣới dạng ấn phẩm trong phần lớn các thƣ viện Việt


13
13
Nam đã trở nên cấp bách khiến cho nhiều ngƣời đã mơ ƣớc thực hiện giải pháp
cứu cánh: số hoá kho tƣ liệu, ngoài xu hƣớng vi hình hoá nay đã lỗi thời, hi
vọng rằng bằng cách phát triển các thƣ viện điện tử và thƣ viện số, sẽ không
phải xây thêm kho tàng, nhà cửa, mặc dầu động cơ chính của việc thành lập các
thƣ viện số là nhằm để chia sẻ nguồn lực với tác dụng chẳng những tăng khả
năng truy nhập thông tin, sử dụng hợp lý và tiết kiệm nguồn kinh phí mua sách
báo trƣớc tình hình giá xuất bản phẩm trên thị trƣờng sách thế giới tăng vọt, mà
còn khắc phục tình trạng trùng lặp, dƣ thừa trong các kho tƣ liệu.

Trong trào lƣu toàn cầu hƣớng về các thƣ viện điện tử và thƣ viện số, khó khăn
nhất cho nƣớc ta, trong việc xây dựng các loại hình thƣ viện này theo đúng

nghĩa của nó, là vấn đề kinh tế. Xây dựng những thƣ viện điện tử "lý tƣởng",
độc lập, với vốn tƣ liệu hoàn toàn số hoá, với toàn bộ dịch vụ chuyển sang
phƣơng thức điện tử, sẽ không khả thi, mà xu hƣớng sẽ xuất hiện nhiều thƣ viện
điện tử (theo ý nghĩa tƣơng đối) nhƣ là kết quả của quá trình tin học hoá, nhƣ là
các cổng vào thông tin và nhƣ một bộ phận của các thƣ viện lớn truyền thống ở
Việt Nam.
Trong chừng mực nào đó, có thể nói chúng ta đã đang tiến trên con đƣờng xây
dựng thƣ viện điện tử hoặc ở trong giai đoạn quá độ xây dựng thƣ viện điện tử.
Mặc dầu vậy, có lẽ tốt hơn hết là đừng quá vội sử dụng các thuật ngữ nói trên
(thƣ viện điện tử, thƣ viện số và thƣ viện ảo) trong lúc khái niệm và thuật ngữ
còn chƣa thống nhất và ổn định, để gọi tên một thƣ viện. Tạo nên sự chuyển
biến về chất trong vốn tƣ liệu, dịch vụ và ngƣời sử dụng là điều quan trọng hơn
để minh chứng cho việc đặt tên. Bao giờ lƣợng đổi thành chất trong quá trình số
hoá vốn tƣ liệu, điện tử hoá dịch vụ và chuyển đổi phƣơng cách sử dụng thƣ
viện sẽ là lúc chúng ta có thể nói về một thƣ viện điện tử thực thụ. Con đƣờng
mà đại bộ phận thƣ viện chúng ta sẽ đi là: kết hợp các nguồn tin truyền thống
với hiện đại, bổ sung thêm các tạp chí điện tử toàn văn trên CD-ROM ( hiện còn
quá ít), đặt mua ( trả tiền thuê bao truy nhập) các tạp chí điện tử toàn văn trên
mạng ( hầu nhƣ chƣa nơi nào làm); số hoá một phần vốn tƣ liệu ( đặc biệt là các
sƣu tập quí hiếm và nơi khác không có, những sƣu tập là thế mạnh của mình, ),
điện tử hoá một phần dịch vụ và tạo điều kiện cho ngƣời sử dụng chủ động khai
thác các mạng diện rộng, kể cả truy nhập Internet.

1.1.4 Thƣ viện ảo

Thƣ viện ảo là một dạng của thực tế ảo (virtual reality), đƣợc xây dựng trên cơ
sở công nghệ ảo ( đôi khi phối hợp với kỹ thuật âm thanh nổi và hình ảnh nổi để
tạo ảo giác nhƣ thực), nhấn mạnh đến tính chất "phi không gian" của loại hình
thƣ viện này về phƣơng diện vốn tƣ liệu và dịch vụ. Bất cứ thƣ viện nào tạo điều
kiện cho ngƣời đọc tiếp cận đƣợc những tƣ liệu nằm tại bất cứ nơi nào khác trên

thế giới đều có thể đƣợc coi là "thƣ viện ảo" [6]. Nói cách khác, thƣ viện ảo
không phụ thuộc vào một địa điểm cố định và cho phép truy nhập thông tin từ xa
thông qua mạng. Còn thƣ viện điện tử có một địa điểm cụ thể, hữu hình, nơi bạn


14
14
đọc hay ngƣời sử dụng có thể tới để nhận những sản phẩm và dịch vụ đƣợc cung
cấp dƣới dạng điện tử. Tuy nhiên, cũng có ý kiến cho rằng thƣ viện ảo nằm
trong phạm trù thƣ viện điện tử, trong thƣ viện điện tử có thƣ viện ảo.
1.2 Tra cứu trực tuyến OPAC
OPAC là một mục lục điện tử. Nó tƣơng đƣơng với mục lục phiếu nhƣng
có khả năng tìm kiếm trực tuyến. OPAC cũng có thể là chạy trên Web và đƣợc
gọi là Web OPAC [1]. Web OPAC dùng cho các thƣ viện để chia sẻ thông tin
thƣ mục.
OPAC là cổng kết nối với ngƣời dùng tin với cơ sở dữ liệu của cơ quan thông
tin – thƣ viện. Cung cấp khả năng tìm kiếm các biểu thức tìm tin từ đơn giản đến
phức tạp cả về các thông tin mô tả lẫn thông tin toàn văn. Khả năng khai thông
tin bằng công cụ tìm kiếm theo khái niệm của OPAC tạo ra một cuộc cách mạng
trong tìm kiếm thông tin. Với khả năng sẵn sàng đƣa lên Internet, OPAC cho
phép ngƣời dùng ở bất kỳ nơi nào cũng có thể truy cập đƣợc nguồn thông tin của
các cơ quan thông tin – thƣ viện thông qua trình duyệt Web.
Một số dịch vụ đƣợc cung cấp trên OPAC : mục lục tra cứu tìm tin trực tuyến;
lƣu thông trực tuyến; dịch vụ thông tin trực tuyến; dịch vụ liên thƣ viện; khai
thác dữ liệu số trực tuyến, tra cứu liên thƣ viện qua giao thức Z39.50 tại nhiều
máy chủ Z39.50 cùng một lúc.






15
15


Chƣơng 2: CÁC CHUẨN TRONG THƯ VIỆN ĐIỆN TỬ
2.1 Chuẩn biên mục và siêu dữ liệu:
2.1.1 Khổ mẫu biên mục – MARC

Phƣơng pháp tạo lập bản ghi thƣ mục ở phần lớn các cơ quan thông tin –
thƣ viện hiện nay dựa vào khổ mẫu MARC (Machine Readable Cataloguning) –
Biên mục có thể đọc bằng máy. Khổ mẫu MARC là một cấu trúc dành riêng cho
các dữ liệu thƣ mục quản lý bằng máy tính điện tử. Nét đọc đáo của nó là đƣa ra
một phƣơng pháp mã hóa dựa trên cơ sở phân tích sâu sắc nhữn yếu tố thƣ mục
(trong đó chịu ảnh hƣởng rất lớn của quy tắc biện mục Anh - Mỹ AACR)
Đến nay đã có rất nhiều khổ mẫu MARC ra đời UNIMARC của IFLA ra đời
giữa những nămn 70, NORMARC 1971 (NaUy), IBERMARC 1976 (Tây Ba
Nha), DANMARC 1976 (Đan Mạch), LIBRISMARC 1976 (Thụy Điển),
FINMARC1977 (Phần Lan), MALMARC 1978 (Malaysia), PHILMARC 1979
(Philippin), KORMARC 1981 (Hàn Quốc), Janpa /MARC 1981 (Nhật Bản),
Chinese MARC 1982 (Đài Loan), SAMARC 1982 (Nam Phi), NewZealand
MARC 1982 (Tân Tây Lan), SBN\ANAMARC 1983 (Italia), SINGMARC
(Singapore), Indian MARC 1985 (Ấn Độ), PUL MARC 1985 (Trung Quốc),
INDOMARC 1990 (Indonesia) [1, 2] vv…,tuy nhiện đƣợc sử dụng nhiều nhất là
khổ MARC21 do Thƣ viện Quốc hội Mỹ phát triển.









Hình 1. Thành phần MARC21

Khổ mẫu biên mục (BDF – Biliographic): đƣợc thiết kế chứa dữ liệu liên quan
đến thông tin hình thức (tác giả, nhan đề, thông tin xuất bản) và nội dung của tài
liệu (chỉ số phân loại, chủ đề, từ khoá,…)
Khổ mẫu nhất quán –ADF: đƣợc thiết kế để mang thông tin có liên quan đến
những hình thức chuẩn của tên và chủ đề đƣợc dùng nhƣ là điểm truy nhập trong
các bản ghi MARC, các hình thức tên, chủ đề và phụ đề này đƣợc dùng nhƣ
những tham chiếu tới các hình thức chuẩn và các mối quan hệ qua lại giữa
những hình thức này. Một tên có thể đƣợc dùng nhƣ là một tiêu đề (điểm truy
nhập) chính, bổ sung, tiêu đề bổ sung theo chủ đề, tiêu đề bổ sung theo tùng thƣ.
MARC 21
Bibliographic
KM biên mục
Authority
KM nhất quán
Classification
KM phân loại
Holding
KM lƣu trữ
Community
KM cộng đồng


16
16
Khổ mẫu phân loại – CDF: đƣợc thiết kế phản ánh thông tin về các số phân loại

và các định danh liên quan đƣợc tạo lập theo một khung phân loại chuẩn.
Khổ mẫu lƣ trữ dự liệu – HDF đƣợc thiết kế nhằm:
- Nhận dạng các yếu tố dữ liệu trong các thông báo về tƣ liệu của từng thƣ
viện
- Giao diện với các hệ thống điều khiển tự động nhƣ: mục lục liên hợp và
mƣợn liên thƣ viện, nập các xuất bản phảm nhiều kỳ (bổ sung)
- Dùng cho các chuyên gia thông tin – thƣ viện tham gia tạo lập và duy trì
thông tin về vốn tƣ liệu theo MARC21.

Khổ mẫu cộng đồng – CMDF: đƣợc thiết kế để mang các yếu tố mô tả các loại
nguồn lực không phải là thƣ mục. Nó ra đời nhằm đáp ứng nhu cầu thông tin của
cộng đồng.

Cấu trúc bản ghi Biên mục MARC21

Cấu trúc của một biểughi biênmục MARC21 [1, 3] gồm ba phần:
- Đầu biểu (LEADER): là một trƣờng dữ liệu đặc biệt có độ dài cố định 24
ký tự chứa các thông tin về quá trình xử lý bản ghi.
- Thƣ mục (DIRECTORY): là phần tiếp sau ngay đầu biểu, là một loạt
nhóm dữ liệu chỉ dẫn về các trƣờng dữ liệu có trong bản ghi.
- Các trƣờng dữ liệu:là những trƣờng của bản ghi chứa các dữ liệu mô tả.
Các trƣờng dữ liệu có thể có độ dài thay đổi (Variable Fields) hoặc độ dài
cố định (Fixed – Length Fields).
Bên trong vùng các trƣờng dữ liệu, mỗi trƣờng dữ liệu có hai loại mà xác định
nội dung là: Chỉ thị (gồm hai ký tự, nếu có) và dấu phân cách trƣờng con (gốm
hai ký tự). Giữa các trƣờng sẽ có mã kết thúc trƣờng. Cuối mỗi bản ghi có mã
kết thúc bản ghi.
Các trƣờng dữ liệu chia thành các khối sau đây:
00X. Khối trƣờng điều khiển (số và mã)
1XX. Khối trƣờng tiêu đề chính

2XX. Khối trƣờng nhan đề và thông tin liên quan đến nhan đề
3XX. Khối trƣờng mô tả đặc trƣng vật lý.
4XX. Khối trƣờng tùng thƣ.
5XX. Khối trƣờng tùng phụ chủ
6XX. Khối trƣờng điểm truy cập chủ đề
7XX. Khối trƣờng tiêu đề bổ sung
8XX. Khối trƣờng liên quan đến vốn tài liệu, nơi và vị trí lƣu giữ
9XX. Khối trƣờng cục bộ

Một số thuật ngữ trong MARC
Chỉ thị
Chỉ thị trƣờng là hai ký tự đầu tiên của mỗi trƣờng dữ liệu và đứng trƣớc dấu
phân cách trƣờng con. Mỗi chỉ thị có giá trị là một số con số hoặc một dấu trống
(#) khi không đƣợc xác định. Mỗi trƣờng có hai chỉ thị.


17
17
Trƣờng con
Trƣờng con xác định từng yếu tố dữ liệu riêng biệt của trƣờng dữ liệu. Mỗi
trƣờng có ít nhất một trƣờng con ký hiệu phân cách trƣờng con gồm hai ký tự:
dấu phân chác ($) và mã trƣờng con (a, b, c…1, 2, 3…)
Dữ liệu của các trƣờng
Dữ liệu của các trƣờng tuân thủ các chuẩn mô tả (ISBD) hoặc (AACR2)
Mã kết thúc trƣờng
Mã này sẽ đƣợc thiết lập ngầm định nhắm thông báo cho máy tính biết dấu hiện
kết thúc của các trƣờng trong bản ghi MARC.
2.1.2 Siêu dữ liệu:

Thuật ngữ :”siêu dữ liệu” đƣợc các chuyên gia công nghệ thông tin, thông

tin – thƣ viện của Việt Nam dịch thuật ngữ tiếng Anh “METADATA” [1, 2].
Siêu dữ liệu có thể định nghĩa đơn giản là dữ liệu về dữ liệu. Theo tiến sỹ
Warwick Carthri [Cathro, 1999], “siêu dữ liệu là những thành phần mô tả tài
nguyên thông tin hoặc hỗ trợ thông tin truy cập đến tài nguyên thông tin”. Trong
tài liệu hƣớng dẫn số hoá tài liệu Moving theory into practice: digital imaging
tutorial [Kenney, 2001] , siêu dữ liệu đƣợc xác định là “ dữ liệu mô tả các thuộc
tính của đối tƣợng thông tin và trao cho các thuộc tính này ý nghĩa, khung cảnh
và tổ chức. Siêu dữ liệu còn có thể đƣợc định nghĩa là dữ liệu có cấu trúc về dữ
liệu”. Gail Hodge định nghĩa siêu dữ liệu là “ thông tin có cấu trúc mà nó mô tả,
giải thích, định vị, hoặc làm cho nguồn tin trở nên dễ tìm kiểm, sử dụng và quản
lý hơn. Siêu dữ liệu đƣợc hiểu là dữ liệu về dữ liệu hoặc thông tin mô tả tài
nguyên thông tin.
Mục đích của siêu dữ liệu:
- Mục đích đầu tiên và cốt yếu nhất của siêu dữ liệu là góp phần mô tả và
tìm lại các tài liệu nguyên điện tử.
- Hỗ trợ cho việc sử dụng hiệu quả tài nguyên. Một khi tài nguyên đƣợc tìm
trong môi trƣờng điện tử, siêu dữ liệu cung cấp cho ngƣời sử dụng những
thông tin về kỹ thuật, về khuôn khổ kinh doanh (bản quyền, quyền truy
cập,…)
- Đảm bảo sự liên tác (interoperability) giữa các hệ thống. Những sơ đồ
siêu dữ liệu đƣợc thống nhất sẽ giúp cho các hệ thống có thể nhận dạng
đúng các yếu tố, có thể chuyển đổi dữ liệu dễ dàng, đảm bảo hoạt động
trên mạng hiệu quả hơn.
Một trong những sơ đồ yếu tố siêu dữ liệu phổ biến và đƣợc nhiều ngƣời biết
đến là Yếu tố siêu dữ liệu cốt lõi Dublin Core (Dublin Core Metadata Ele mnet
Inuttiative). Tại cuộc Hội thảo về siêu dữ liệu do Trung tâm Thƣ viện máy tính
hoá OCLC ( Ohio Cumputer Libray Center) và Trung tâm Quốc gia về ứng dụng
siêu máy tính NCSA (National Center for Suppẻcomputing Application) phối
hợp tài trợ, tổ chức tại Dublin, Ohio, Mỹ, vào tháng 03/1995, các chuên gia đã
đè xuất bộ yếu tố siêu dữ liệu cốt lõi Dublin Core. Tập hợp yếu tố siêu dữ liệu

đƣợc gọi là “cốt lõi” (Core) vì nói đƣợc thiết kế đơn giản và chỉ bao quát 15 yếu
tố cốt lõi nhất (trong MARC21 có hơn 200 trƣờng và rất nhiều trƣờng con). Do


18
18
đƣợc đề xuất tại Hội thảo tổ chức tại Dunlin nên có tiền tố Dublin. Bộ yếu tố
siêu dữ liệu Dublin Core thƣờng đƣợc gọi tắt là Dublin Core. Tháng 06/2000,
Dublin Core đƣợc Uỷ ban châu Âu về tiêu chuẩn hoá/ Hệ thống tiêu chuẩn hoá
cho xã hội thông tin (CEN/ISSS – European Committee for Standarization /
Information Sociecty Standard System) [1,5] coi là tiêu chuẩn. Tháng 09/2001,
Dublin Core đƣợc ban hành thành tiêu chuẩn quốc gia Mỹ, gọi là tiêu chuẩn
“The Dublin Core Metadata Element Set” ANSI/NISO Z39.85-2001.
Khổ mẫu tiêu chuẩn siêu dữ liệu Dublin Core là tập hợp các yếu tố đơn giản
nhƣng hữu hiệu trong công việc mô tả một loạt nguồn tin trên mạng. DC gồm 15
yếu tố, mà ngữ nghĩa đƣợc xác lập của nhiều chuyên gia. Các yếu tố mô tả trong
DC đều không bắt buộc và có thể lặp, ngoài ra còn có một số lƣợng hạn chế các
từ hạn định và định ngữ có thể sử dụng để tiếp tục tinh chỉnh ý nghĩa các yếu tố.

Các yêu tố mô tả: 15 yếu tố

- Nhan đề: tên của tài liệu đƣợc đặt bởi tác giả hoặc nhà xuất bản.
- Tác giả (ngƣời sáng tác): cá nhân hoặc tổ chức sáng tạo ra nguồn thông
tin. Ví dụ: nhà văn, hoạ sỹ, nhà nhiếp ảnh, ngƣời minh hoạ.
- Chủ đề và từ khoá: là chủ đề của nguồn tin, điển hình, chủ đề có thể đƣợc
hiểu tƣơng đƣơng nhƣ từ khoá nhằm mô tả về một chủ đề hoặc một nội
dung của nguòn thông tin. Ngƣời ta rất khuyến khích việc sử dụng các
quyến từ vựng có kiểm soát và các khung phân loại.
- Mô tả: miêu tả nguyên văn về nội dung của nguồn thông tin, có thể bao
gồm cả tóm tắt trong trƣờng hợp tài liệu thành văn hoạc mô tả nội dung

trong trƣờng hợp không xác định rõ.
- Nhà xuất bản: một thực thể chịu trách nhiệm về việc xây dựng nên hình
thức của tài liệu. Ví dụ: nhà xuất bản, một khoa trong trƣờng đại học,
hoặc một tổ chức.
- Những ngƣời cộng tác: là cá nhân hoặc một tổ chức trên danh nghĩa cùng
một ngƣời đóng góp trong việc xây dựng nguồn thông tin, tuy nhiên đối
với những cá nhân hoặc tổ chức xây dựng nên nguồn tin thì họ chỉ đóng
vai trò phụ, thứ yếu. Ví dụ: ngƣời biên tập, ngƣời dịch, ngƣời hiệu đính…
- Thời gian xuất bản: thời gian xuất bản nguồn tin , đƣợc diễn tả theo cấu
trúc Năm/Tháng/Ngày/ Ví dụ: 1994-11-05
- Loại dữ liệu: kiểu mô tả cho nguồn thông tin, ví dụ: trang chủ, bài thơ,
quyển sách, báo cáo kỹ thuật, bài luận, từ điển, nhằm mục đích quốc tế
hoá, kiểu mô tả nên nguồn tin nến lấy trong danh sách đã đƣợc xây dựng.
- Khổ mẫu (định dạng): kiểu của dữ liệu tuỳ thuộc vào tài liệu, ví dụ: khối
lƣợng và thời gian của những nguồn thông tin. Kiểu dữ liệu đƣợc dùng để
mô tả cho nguồn thông tin, nhằm mục đích quốc tê hoá. Định dạng nguồn
tin nên chọn trong danh sách mới nhất do tổ chức quốc tế xây dựng.
- Yếu tố nhận dạng: mã nhận dạng là một từ hoặc con số đƣợc sử dụng để
nhận dạng nguồn thông tin. Ví dụ: các nguồn thông tin trên mạng bao
gồm cả URL và UNs. Có một số mã nhận dạng duy nhất nhƣ: ISBN, chỉ


19
19
số sách theo tiêu chuẩn quốc tế, hoặc một số tên tƣơng tự khác cũng có
thể đại diện cho yếu tố này.
- Nguồn: những thông tin nguồn dữ liệu
- Ngôn ngữ: Ngôn ngữ của nội dung thông tin.
- Quan hệ: là một yêu tố nhận dạng về nguồn thông tin thứ hai có liên quan
đến nguồn thông tin hiện thời. Yếu tố này đƣợc sử dụng để mô tả cho mối

quan hệ của các nguồn thông tin, nhằm mục đích quốc tế hoá.
- Phạm vi (mức độ bao phủ): không gian và thời gian tạo ra tài liệu
- Bản quyền: sự xác định về quyền hạn của ngƣời quản lý nguồn thông tin.

Chia nhóm trong DC:
1- Các đối tƣợng về nội dung thông tin
o Nhan đề
o Chủ đề (từ khóa)
o Mô tả
o Nguồn
o Ngôn ngữ
o Quan hệ
o Phạm vi (mức độ bao phủ)
2- Các đối tƣợng liên quan đến sở hữu trí tuệ
o Tác giả (ngƣời sáng tác)
o Nhà xuất bản
o Nhà phân phối, cộng tác
o Quản lý bản quyền
3- Các đối tƣợng cá biệt
o Thời gian xuất bản
o Loại dữ liệu
o Khổ mẫu (định dạng)
o Yếu tố nhận dạng
Các từ chuẩn giới hạn của Dublin Core [1, 4]
- Lọc yếu tố mô tả: làm cho nghĩa của một yếu tố mô tả hẹp hơn hoặc cụ
thể hơn.
- Khung mã hoá: nhận diện các quy tắc trợ giúp diễn giải giá tị của một yếu
tố mô tả nào đó, bao gồm các từ vựng kiểm soát và các ký hiệu hình thức
hay các quy tắc cú pháp.
- Từ vựng cho các yếu tố mô tả: bộ sƣu tập; bộ dữ liệu; sự kiện; hình ảnh;

các nguồn dữ liệu có tƣơng tác; dịch vụ; phần mềm; âm thanh; văn bản.

Công cụ và phần mềm Dublin Core:
Công cụ:
- Các tiện ích
o Tạo siêu dữ liệu theo mẫu
o Công cụ tạo/ thay đổi mẫu
o Tự động trích dẫn/ tập hợ lại siêu dữ liệu
o Tự động tạo siêu dữ liệu


20
20
o Chuyển đổi giữa các khổ mẫu siêu dữ liệu
o Tự động tạo siêu dữ liệu
o Chuyển đổi giữa các khổ mẫu siêu dữ liệu
o Các môi trƣờng (công cụ) tích hợp
o Các phần mềm thƣơng mại sẵn có.

Hƣớng dẫn sử dụng Duble Core:
- Hƣớng dẫn sử dụng cho những ngƣời không phải là chuyên gia về tạo
bản ghi mô tả Dublin Core.
- Cho các chuyên gia tham khảo về Dublin Core
- Giới thiệu và diễn giải về Dublin Core

Đặc điểm Dublin Core
- Tạo lập và duy trì bản ghi một cách dễ dàng.
- Ngữ nghĩa dễ hiểu
- Phạm vị sử dụng quốc tế rộng lớn với các phiên bản đa ngôn ngữ.
- Khả năng mở rộng các yếu tố thuận tiện

2.1.3 Ngôn ngữ đánh giá mở rộng XML

XML (eXtennsible Markup Language) là ngôn ngữ đánh dấu mở rộng có nguồn
gốc từ ngôn ngữ định dạng siêu văn bản HTML (Hyper Text Markup
Language), cả hai ngôn ngữ này đều bắt nguồn từ chuẩn ngôn ngữ định dạng
văn bản tổng quát có cấu trúc SGML (Structured General Markup Language).
XML là ngôn ngữ đƣợc định nghĩa bởi tổ chức mạng toàn cầu (Word Wide Web
Consortium), thƣờng đƣợc viết tắt theo cách chơi chữ là W3G. Đây là tổ chức
quốc tế định ra các chuẩn web và internet.

Cấu trúc XML

Một văn bản XML hình thành từ các thẻ (tag) với tên gọi phần tử (element).
Khác với ngôn ngữ HTML, số lƣợng và tên gọi trong XML là không hạn chế.
XML là ngôn ngữ tổng quát dụng định nghĩa dữ liệu thông qua các thẻ. Trong
HTML các thể đƣợc định nghĩa và quy định trƣớc [27]. Trong khi đó, với XML
ta có thể tuỳ ý định nghĩa mọi thẻ. Nhƣ vậy có thể coi XML nhƣ tập cha của
ngôn ngữ HTML. Dựa vào một số quy tắc, XML tự tồn tại và phát triển tự thân
thành các ngôn ngữ định nghĩa khác.

Điểm quan trọng nhất là XML cho phép dễ dàng xử lý, chuyển tải và trao đổi dữ
liệu giữa rất nhiều ứng dụng và tài liệu ngƣời dùng với các định dạng khác nhau.
Nếu đã quen với máy tính, hẳn ta biết rằng có rất nhiều định dạng tệp khác nhau.
Việc chuyển đổi dự liệu giữa chúng quả là nan giải mặc dù có không ít trình ứng
dụng hỗ trợ. Ví dụ nhƣ tệp .DOC, .XLS, .DBF, .MDB (lập trình Access), .TXT
(tệp văn bản), .RTF(Rich Text Format) và mới đây là .HTML. Chỉ riêng các tệp
văn bản thôi đã gặp rất nhiều khó khăn, nếu bận nhận đƣợc một tệp Word 2000


21

21
mà máy tính của bạn dùng Word 7.0, cố gắng lắm cũng chỉ đọc đƣợc phần văn
bản có các nội dung khác thƣờng bị biến dạng.

Trong XML, dữ liệu và định dạng đƣợc lƣu ở dạng văn bản và có thể dễ dàng
cấu hình cũng nhƣ thay đổi chúng bằng các trình soạn thảo thông thƣờng nếu
không có trong tay trình soạn thảo XML chuyên nghiệp. Dữ liệu và các thẻ
trong XML không mã hoá, không đòi hỏi bản quyền.
Tháng 12/1997, phiên bản đầu tiên XML 1.0 (Extensible Markup Language –
Ngôn ngữ đánh dấu mở rộng) ra đoìƣ và là chuẩn đơn giản của SGML. Từ đó,
nhiều công ty phần mềm đã chạy ứng dụng dựa trên XML đã ra đời. Điển hình
một số tuỳ biến ngôn ngữ định dạng dựa trên XML cho thấy sức mạnh của
XML:
- BITS – Banking Industry Technology Secretariat: ngôn ngữ văn
phòng về kỹ thuật nghiệp vụ ngân hàng.
- IFX – Financial Exchange: trao đổi dữ liệu tài chính.
- BIPS – Banking Internet Payment System: hệ thống thanh toán qua
internet của nghiệp vụ ngân hàng.
- TIM – Telecommunicaton Interchange Markup: định dạng trao đổi
viễn thông.
- EbXML – XML: kinh doanh điện tử
- PDML – Product Data Markup Language: ngôn ngữ định dạng dữ
liệu sản phẩm.
- FIX – Financial Information eXchange Protocol: giao thức trao đổi
thông tin tài chính.
- CML – Chemical Markup Language: ngôn ngữ định dạng trong
lĩnh vực hoá học, cho phép biểu diễn các công thức hoá học, cho
phép biểu diễn các công thức hoá học, hoá trị phân tử ở dạng đồ
hoạ.


Ƣu điểm của XML:

- Có thể tạo bản ghi thƣ mục một lần và xuất bản chúng theo các
dạng khác nhau.
- Hiển thị bản ghi thƣ mục trực tiếp trên trình duyết Web, search
engines (công cụ tìm kiếm) và các hệ thống thƣ viện tiềm năng
khác mà không cần chuyển đổi.
- Bản ghi thƣ mục có thể đƣợc chuyển đổi qua lại giữa XML và
MARC mà không bị tổn thất.
- Nhiều vấn đề tồn tại trong định dạng MARC đƣợc khắc phục, ví dụ
nhƣ việc kiểm soát tiêu chuẩn.
- Năm 1995, thƣ viện Quốc hội Mỹ bắt đầu nghiên cứu tính khả thi
của việc dùng SGML (Standard Generalized Markup Language -
Chuẩn ngôn ngữ định dạng văn bản tổng quát có cấu trúc) để mã
hoá định dạng MARC21. Sau đó, phiên bản MARC DTDs
(Document Type Definitions) định nghĩa laọi văn bản MARC để


22
22
định nghĩa dữ liệu MARC21 trong dạng thức SGML đƣợc phát
hành năm 1998. Cùng năm này, Thƣ viện Quốc hội Mỹ công bố
phần mềm chuyển đổi giữa MARC21 và SGML.
2.1.4 Khổ mẫu MARCXML

Khổ mẫu MARC21 đã đƣợc biết đến rộng rãi trên thế giới nhƣ một khổ
mẫu cho dữ liệu thƣ mục. MARC21 đƣợc ứng dụng rộng rãi trong việc xây
dựng các mục lục sách truy cập trực tuyến và trao đổi dữ liệu thƣ mục giữa các
thƣ viện. Xét về khía cạnh lý luận, MARC21 đƣợc coi là một khổ mẫu siêu dữ
liệu, nhƣng là siêu dữ liệu truyền thống. Với sự phát triển của những ứng dụng

XML, nhu cầu về khổ mẫu MARC21 trong môi trƣờng XML trở nên cấp bách
và đƣợc quan tâm.

Từ năm 1995, Thƣ viện Quốc hội Mỹ, đã có đề án phát triển MARC DTD.
MARC DTD có thể đƣợc dịch tạm là Định nghĩa phần tử tài liệu theo MARC.
Thuật ngữ “MARC DTD” đƣợc tạo ra từ cụm tiếng Anh Machine Readable
Cataloging Document Type Definition, đề cập đến việc ứng dụng ngôn ngữ
đánh dấu tổng quát chuẩn, viết tắt là SGML (Standard Generalized Markup
Language). SGML là một ký thuật trình bày tài liệu ở dạng máy tính đọc đƣợc,
đƣợc xây dựng thành tiêu chuẩn quốc tế ISO 8879 (Xử lý thông tin - Hệ thống
văn phòng và văn bản – Ngôn ngữ đánh dấu tổng quát chuẩn). SGML đƣợc phát
hiện để đáp ứng nhu cầu về chuẩn không độc quyền cho đánh dấu văn bản mà
dữ liệu máy tính có thể đọc đƣợc, có thể trao đổi giữa các môi trƣờng mã hoá
không giống nhau. SGML đƣợc sử dụng rộng rãi trong xuất bản nơi các tài liệu
đƣợc tạo ra bằng cách sử dụng những hệ thống máy tính khác nhau. SGML hỗ
trợ việc xác định tập hợp các yếu tố mô tả tài liệu.

Mục đích đầu tiên của dự án MARC DTD là tạo ra một DTD theo SGML chuẩn
để hỗ trợ việc chuyển đổi dữ liệu theo cấu trúc MARC sang dữ liệu theo cấu trúc
SGLM (và ngƣợc lại). Dữ liệu theo cấu trúc MARC là ứng dụng của các tiêu
chuẩn quốc tế về trao đổi thông tin ISO 2709 đã đƣợc thông qua từ hàng chục
năm trƣớc đây. Để việc chuyển đổi này đƣợc chuẩn hoá, cần thiết phải có DTD
chuẩn.
MARC DTD xử lý mỗi bản ghi thƣ mục nhƣ một tài liệu điện tử. Nó xác định
(định nghĩa) mọi yếu tố có thể trong bản ghi MARC theo một quy định riêng.

MARC XML DTD

Với sự phát triển của các ứng dụng ngôn ngữ XML trong tạo lập tài liệu điện tử,
Thƣ viện Quốc hội Mỹ đã phát triển MARC XML DTD. Phƣơng án này đƣợc

coi là hiệu quả hơn phƣơng án đầu tiên gọi là Lƣợc đồ MARCXML
(MARCXML Schema). MARC XML DTD đã xác định mỗi yếu tố theo XML.
Việc này tạo ra một bộ DTD rất lớn, khá phức tạp.



23
23
Về nguyên tắc, các yếu tố dữ liệu trong SGML đƣợc quy định bằng những cặp
thẻ. Để áp dụng cho dữ liệu theo MARC, mọi thẻ quy định yếu tố dữ liệu trong
SGML đề sử dụng tiền tố “mrc” (có lẽ là viết tắt từ chữ MARC để thể hiện sự
liên quan đến MARC). Điều này để đảm bảo không có sự trung lặp với những
DTD có thể sử dụng một số yếu tố MARC trong tạo lập tài liệu điện tử (thí dụ
nhƣ trong trƣờng hợp cho tài liệu theo kiêu TEL)

Mọi dữ liệu liên quan đến dữ liệu mô tả thƣ mục đề sử dụng tiền tố “mrcb”. Mọi
yếu tố trong nhóm DTD về kiểm soát tính nhất quán (MARC Authority DTD
group, bao gồm authority and classification records) bắt dầu bằng tiền tố
“mrca”.
Để làm cho DTD thể hiện đƣợc tính chất MARC, các trƣờng dữ liệu (yếu tố)
đƣợc thể hiện bằng số của nhãn trƣờng trong MARC và đi kèm với tiền tố Tiêu
đề tác giả, tƣơng ứng với trƣơng 100 của mARC; “mrc245” cho dữ liệu thuộc
trƣờng 245 của MARC. Có ngƣời cho rằng việc dùng có số là không thuận tiện
vì khó nhớ. Tuy nhiên, ngƣời ta cho rằng các chuyên gia làm việc lâu năm với
MARC đã quen thuộc với nhãn trƣờng ba chữ số MARC, do đó vấn đề này
không phải là điều phức tạp. Hơn nữa việc sử dụng con số tránh việc phải sử
dụng các từ làm thẻ nhãn trƣờng (thí dụ với tiếng Trung Quốc,…)

Hầu hết các nhãn trƣờng theo MARC đều có trƣờng con. Trong MARC DTD
ngƣời ta cũng sử dụng một mã ký tự làm thẻ cho trƣờng con. Trƣờng con sẽ

đƣợc gán cùng với thẻ nhãn trƣờng bằng dấu gạch ngang. Ví dự: mrcb245-a,
mrcb245-b, mrcb245-6.

Trong các bản ghi MARC, ngoài nhãn trƣờng, trƣờng con có chỉ thị. Để chỉ dẫn
rằng đây là dữ liệu liên quan đến chỉ thị, ngƣời ta đã đề xuất sử dụng các định
danh “i1” và “i2” chi chỉ thị 1 và chỉ thị 2.

Một số đặc trƣng khác của dữ liệu MARC là sự có mặt của một số trƣờng có độ
dài cố định, trong đó mỗi vị trí đều đƣợc quy định cụ thể loại dữ liệu. Thí dụ
những trƣờng này là trƣờng 006-008. Cú pháp đối với các trƣờng này sẽ nhƣ
sau:
 Tiền tố chỉ thị nhãn trƣờng “mrcb” hoặc “mrca”;
 Ba chữ chỉ thị nhãn trƣờng;
 Mã dữ liệu và dấu gạch ngang;
 Định danh số chỉ thị vị trí của dữ liệu theo MARC
Thí dụ: mrcb008-BK-22
Đối với phần đầu bản ghi, ngƣời ta đề nghị sử dụng tiền tố, mã dữ liệu và vị trí
của mã để làm thẻ meta. Quy định cụ thể nhƣ sau:
 Tiền tố phần dầu biểu “mrcaldr” hoặc mrcbldr”;
 Mã dữ liệu theo MARC, dấu gạch ngang;
 Số định danh thông báo vị trí đối với mã dữ liệu
Thí dụ: mrcbldr-bd-05


24
24
Marc XML:
Metadata Object Description Schema – MODS
Nhóm nghiên cứu của Thƣ viện Quốc hội Mỹ dã phát triển một khuon khổ cho
thao tác với dữ liệu theo khổ mẫu MARC trong môi trƣờng XML. Trên cơ sở

những nghiên cứu về MARC – DTD, Thƣ viện quốc hội Mỹ cùng các nhóm
chuyên gia dã phát triển Sơ đồ mô tả đối tƣợng siêu dữ liệu – MODS ( viết tắt từ
tiếng Anh Metadata Object Description Schema). Mục đích của MODS là tạo
khổ mẫu để mang dữ liệu từ bản ghi MARC21 cũng nhƣ cho phép tạo bản ghi
môt tả của tài liệu điện tử nagy từ đầu theo SGML [1, 3].
2.2 Chuẩn trao đổi dữ liệu

Ngày nay, sự phát triển vƣợt bậc của công nghệ thông tin và viễn thông đã và
đang tạo ra nhiều cơ hội song cũng ít thách thức cho hoạt động thông tin – thƣ
viện. Ngay từ khi còn hoạt động trong môi trƣờng truyền thống, thực tế đã cho
thấy: Vốn tài liệu của cơ quan thông tin – thƣ viện không thể dáp ứng đƣợc hết
các nhu cầu của ngƣời dùng tin. Trong môi trƣờng hiện đại, ngƣời dùng tin chìm
ngập trong biển thông tin nhƣng lại rất khó khăn trong việc tìm kiếm đâu là
thông tin chất lƣợng, có giá trị, phù hợp với nhu cầu…Vì vây, hệ thống các cơ
quan thông tin – thƣ viện cần phải liên kết để khắc phục tình trạng phân tán về
nguồn thông tin. Đáp ứng nhu cầu thông tin ngày càng cao của ngƣời dùng tin.
Các cơ quan thông tin – thƣ viện không đáp ứng một cách nhanh chóng mà còn
đầy đủ về nội dung và hình thức tài liệu cho ngƣời dùng tin. Chính vì vậy cần có
sự trao đổi, hợp tác liên thông giữa các cơ quan thông tin – thƣ viện. Sử dụng lại
các bản ghi biên mục chuẩn, tiết kiệm thời gian, công sức, sự trùng lặp và kinh
phí xử lý tài liệu. Tuy nhiên, hiện nay, các cơ quan thông tin – thƣ viện chƣa có
sự liên thông, trao đổi thông tin/tài liệu.

Nguyên nhân chƣa có sự liên thông trao đổi

- Các quy tắc mô tả chƣa thống nhất.
- Công cụ sử dụng chƣa đáp ứng đƣợc nhu cầu trao đổi.
- Nền tảng về tiềm lực công nghệ thông tin chƣa có.

×