Tải bản đầy đủ (.ppt) (133 trang)

Bài Giảng Thư Viện Số Ts. Đỗ Quang Vinh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.48 MB, 133 trang )

PHD. DO QUANG VINH
Email:

HANOI - 2013
1


BÀI GIẢNG THƯ VIỆN SỐ

TS. ĐỖ QUANG VINH
Email:

HÀ NỘI - 2013
2


NỘI DUNG
I.

TỔNG QUAN VỀ THƯ VIỆN SỐ DL

II.

MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL

III.

CHỈ MỤC TÀI LIỆU

IV.


TÌM KIẾM THÔNG TIN

V.

CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ

VI.

THỰC HÀNH HỆ PHẦN MỀM
THƯ VIỆN SỐ GREENSTONE

3


V.

CÁC CHUẨN SỬ DỤNG TRONG DL

5.1. Chuẩn trình bày
ASCII, Unicode, SGML, HTML, XML, GIF, JPG, TIF, PNP
a.

ASCII



American Standard Code for Information Exchange




Tiêu chuẩn Việt Nam: TCVN 5712-1993



Văn bản chỉ có ký tự, không có lệnh trình bày (plain
text file). Văn bản bằng ký tự ASCII không có khả năng
trình bày các công thức toán học và hoá học.



Thường phải được nhập thủ công vào CSDL

4


− Ưu điểm:
+ Tìm kiếm được theo toàn văn
+ Tìm kiếm nhanh
+ Dữ liệu có kích thước tệp nhỏ, dễ truyền trên mạng
− Nhược điểm:
+ Hình thức đơn giản
+ Không bảo toàn được nguyên dạng của trang.
+ Không hỗ trợ đa ngôn ngữ (255 ký tự)

5


b.

UNICODE




Dùng cho văn bản



Tiêu chuẩn Việt Nam: TCVN 6909-2001



Hỗ trợ đa ngôn ngữ: 16 triệu mã ký tự



Vẫn còn ít chương trình hỗ trợ UNICODE

6


c.

NGÔN NGỮ ĐÁNH DẤU



Tài liệu số


Ngày càng nhiều




Chuẩn đa dạng:
 Chuẩn độc quyền: DOC của MS; PDF của Adobe
 Chuẩn mở: SGML





Chuẩn độc quyền


Phụ thuộc phần mềm



Phụ thuộc sự phát triển của công ty



Đòi hỏi bản quyền
Sự phát triển tài liệu số dẫn đến nhu cầu về chuẩn mở
7


 Sự phát triển của tài liệu số đã đặt ra yêu cầu mới: chuẩn

dữ liệu không độc quyền

 Có tính mở
 Không phụ thuộc phần mềm, nền tảng máy tính (Platform

independent)
 Ngôn ngữ đánh dấu (Markup Language)
 Sử dụng các cặp thẻ đánh dấu: bao gồm thẻ mở và thẻ

đóng:
– <Title> và </Title>
 Hiện nay: SGML, HTML và XML
8


 Ngôn ngữ đánh dấu tổng quát chuẩn SGML
Standard Generalized Markup Language


SGML là cách thức trình bày tài liệu số bằng các mã đánh
dấu



Là tiêu chuẩn ISO 8879 (Information processing--Text and
office systems - Standard Generalized Markup Language)



Là một chuẩn không độc quyền để soạn thảo tài liệu số có cấu
trúc




Sử dụng các nhãn (thẻ) để đánh dấu và gán ý nghĩa cho dữ
liệu. Thí dụ:



<Title>Đây là nhan đề tài liệu</Title>



Có thể tự phát triển khổ mẫu riêng, chỉ cần tuân thủ nguyên
tắc.
9


 Cấu trúc tài liệu SGML
Gồm 3 phần
– Phần 1: Phần thông báo (Statement)
<?sgml version="1.0" encoding="ISO-8859-1"?>
– Phần 2: Định nghĩa phần tử tài liệu
– DTD - Document Type Definition
Thông báo mô hình logic của tài liệu (có các kiểu yếu tố
nào, thẻ mô tả là gì,...)
– Phần 3: Nội dung tài liệu
 Định nghĩa phần tử dữ liệu (DTD)
DTD Document Type Definition
 DTD xác định các khối thông tin hợp lệ của một tài liệu
SGML
 DTD xác định cấu trúc của tài liệu thông qua một danh

mục các yếu tố và thuộc tính

10


 Ví dụ DTD
(to,from,heading,body)>
<!ELEMENT to (#PCDATA)>
<!ELEMENT from (#PCDATA)>
<!ELEMENT heading (#PCDATA)>
<!ELEMENT body (#PCDATA)> ]>
<note>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don't forget me this
weekend</body>
</note>

Tài liệu là Note
Có 4 yếu tố: to, from,
heading, body
Những yếu tố này đều dạng
dữ liệu Character (ký tự)

Nội dung của văn bản

11



 #PCDATA
− CDATA: cho biết đây là dữ liệu dạng ký tự (character
data), sử dụng trong ngôn ngữ đánh dấu SGML and XML.
− Dùng để phân biệt với dữ liệu không phải ký tự dùng cho
các chức năng cấu trúc đặc thù

12


 Ngôn ngữ SGML mạnh cho xây dựng tài liệu có cấu trúc
 Phức tạp, phát triển ứng dụng tốn kém
 Phải có trình duyệt riêng để đọc
 Điều quan trọng để ứng dụng SGML là xây dựng DTD
 Ví dụ về ứng dụng:
TEI – Text Encoding Initiative

13




HTML
HyperText Mark-up Language



Là một ứng dụng của SGML dùng cho tài liệu WEB




Đơn giản hoá SGML



Thẻ HTML là một kiểu DTD nhưng được chấp nhận bởi
cộng đồng sử dụng Web



Các thẻ HTML được thống nhất toàn cầu (W3C –
WWW Consortium)

14


 Ưu nhược điểm của HTML
 Ưu điểm
– Đơn giản
– Có định hướng đến trình bày
– Được đọc bằng những trình duyệt (Browser)
– Được các công ty hỗ trợ phát triển trình duyệt: Internet
Explorer, Netscape Navigator, Mosaic,...
 Nhược điểm
– Phải chờ thông qua cho thẻ mới
– Số thẻ hạn chế
15



 Cấu trúc của tài liệu HTML
<Html>
<Head>
<Title>Nhan đề trang Web</Title>
content=“Thông tin”>
</head>
<Body>
Dữ liệu hiển thị
......
</Body>
</Html>

Dữ liệu
không hiển thị

Dữ liệu hiển thị
trên màn hình

16


 Thẻ trợ giúp mô tả tài liệu HTML
 Thẻ trợ giúp mô tả (còn gọi là thẻ siêu dữ liệu) nằm trong
phần <Head> của tài liệu
 Hai loại thẻ chính:
– <title>...........</title>
– <meta name="..." content="......>
 Ví dụ:
 Thẻ HTML phải được quy định thống nhất trên toàn mạng


17


 Ví dụ đánh dấu HTML
<HTML><HEAD><TITLE>Giống lúa lai Trung Quốc và kỹ thuật
gieo trồng</TITLE>


<META NAME="DC.SUBJECT" CONTENT="Lúa lai">

<META NAME="DC.SUBJECT" CONTENT="Gieo trồng">
CONTENT="/THUVIENDIENTU/BOOK/Vb/2001/Vb44.pdf">
</HEAD><BODY>......</BODY></HTML>

18




Ngôn ngữ đánh dấu mở rộng XML
XML eXtensible Markup Language



Là một dạng của SGML và được World Wide Web

Consortium (W3C) đề xuất



Đơn giản hơn SGML



Linh hoạt hơn HTML



Hiện được coi là một dạng ngôn ngữ được coi là chủ đạo
trong tạo lập các tài nguyên điện tử

19


 Đặc điểm của XML
− XML là ngôn ngữ đánh dấu tương tự HTML
− Được thiết kế để chứa/trao đổi dữ liệu nhưng không để
trình bày dữ liệu
− Các thẻ XML không được xác định trước. Người dùng tự
xác định các thẻ của mình
− XML được thiết kế để tự mô tả (self-descriptive)
− Tổ chức 3WC gọi XML là:
"một cú pháp thông dụng cho việc biểu thị cấu trúc trong dữ
liệu"
20



 Sự khác biệt giữa XML và HTML
 XML không thay thế HTML
 XML và HTML được thiết kế cho 2 mục đích khác nhau:
– XML dùng để chứa và chuyển tải dữ liệu. XML định
hướng dữ liệu
– HTML được thiết kế để trình bày dữ liệu
 XML không xử lý thông tin; chỉ chứa các thẻ và dữ liệu.
Phải có phần mềm để xử lý.
 XML là tệp văn bản không mã hóa
 Người dùng tự quy định thẻ cho tài liệu (thí dụ <title> and
<author>).
 Không có thẻ XML mặc định
21


 XML được sử dụng để tạo ra nhiều ngôn ngữ mới cho
Internet
 XHTML: phiên bản mới nhất của HTML
 RDF and OWL for describing resources and ontology
RDF = Resource Description Format
OWL = Ontology Web Language
 Cấu trúc tài liệu XML
 Tương tự như SGML
 Gồm 3 phần
– Phần 1: Phần thông báo
– Phần 2: Định nghĩa phần tử tài liệu
DTD - Document Type Definition
Thông báo mô hình logic của tài liệu (có các kiểu yếu tố nào,
thẻ mô tả là gì,...)

– Phần 3: Nội dung tài liệu
22


 Ví dụ về tài liệu XML
<?xml version="1.0" standalone="yes"?>
<gicungduoc>
Chào các bạn
</gicungduoc>

hoặc
<?xml version="1.0" encoding="ISO-8859-1"?>
<note>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don't forget me this weekend!</body>
</note>

23


 Định nghĩa phần tử dữ liệu XML DTD
 Mục tiêu của DTD là xác định cấu trúc của một tài liệu
XML
 Thông báo các yếu tố hợp lệ trong tài liệu
– – <!ELEMENT note (to,from,heading,body)>


(#PCDATA)>
(#PCDATA)


(#PCDATA)>]>
24


 Giải thích thí dụ XML DTD
!DOCTYPE note:
xác định yếu tố gốc của tài liệu là note.
!ELEMENT note
Xác định yếu tố Gốc có 4 thành phần "to,from,heading,body"
!ELEMENT to:
Xác định yếu tố to là dạng dữ liệu ký tự "#PCDATA".
!ELEMENT from:
Xác định yếu tố From là dạng dữ liệu ký tự "#PCDATA".
!ELEMENT heading:
Xác định yếu tố Heading là dạng dữ liệu ký tự "#PCDATA".
!ELEMENT body:
Xác định yếu tố body là dạng dữ liệu ký tự "#PCDATA".
25


×