Tải bản đầy đủ (.pdf) (63 trang)

Thư viện điện tử - Những nguyên lý cơ bản: Phần 2

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.54 MB, 63 trang )

CHƯƠNG 3. SƯU TẦM VÀ KHAI THÁC THÔNG TIN SỐ

89

Chương 3

SƯU TẦM VÀ KHAI THÁC THƠNG TIN SỐ  

1. THƠNG TIN TRÊN INTERNET 

Internet là nơi chứa đựng thơng tin rất lớn của cả thế giới, về mọi
lĩnh vực khoa học. Xét về mặt thương mại thì thơng tin trên Internet
có 2 dạng miễn phí và khơng miễn phí. Ở Việt Nam, người sử dụng
Internet chủ yếu là sử dụng các phần thông tin miễn phí trên mạng.
Nguồn thơng tin quan trọng nhất trên Internet là thông tin trong các
CSDL của các cơ quan thông tin, các viện nghiên cứu, các nhà xuất
bản trên thế giới. Đây là nguồn thông tin lớn và quan trọng phục vụ tốt
cho công tác học tập và nghiên cứu nhưng chúng ta ít được tiếp cận vì
phần lớn những CSDL này khi sử dụng phải trả tiền nên chúng ta
thường sử dụng những CSDL miễn phí hay nói đúng hơn là chúng ta
sử dụng những phần miễn phí của các CSDL trên mạng.
Một số đặc điểm của thông tin trên Internet:
- Nội dung trên Internet luôn
được cập nhật và bổ sung,
khơng có bất kỳ một số liệu
thống kê chính xác nào về
lượng thơng tin có thể truy
cập được trên Internet.
- Tài liệu trên Internet không
được xử lý bằng một hệ thống hợp chuẩn nào. Nếu danh mục
tài liệu trong các thư viện được xử lý bao gồm những từ khóa


chuẩn có kiểm sốt thì nguồn tin trên Internet hồn tồn khơng
sử dụng bất cứ cơng cụ nào tương tự như vậy.


90

NGUYÊN LÝ VÀ NỘI DUNG CƠ BẢN CỦA THƯ VIỆN ĐIỆN TỬ

- Khơng có sự đảm bảo nào cho những thơng tin mà bạn tìm
được trên Internet về tính chính xác và sự cập nhật.
- Một nhà cung cấp dịch vụ có thể thay đổi địa chỉ web, một cá
nhân hoặc một nhóm tài trợ có thể khơng cịn thời gian hoặc
tiền bạc để duy trì một trang web, đó là một trong rất nhiều lý
do khiến trang web trên Internet có thể biến mất mà khơng cần
báo trước.
- Internet là một kho tài ngun thơng tin khổng lồ, nó có phạm
vi tồn cầu, do đó để tìm một mẩu thông tin nhỏ thôi đôi khi là
điều không thể thực hiện được hoặc bạn cần phải chọn lọc
trong rất nhiều thông tin rác.
Nếu chúng ta không nắm vững các nguyên tắc cơ bản cũng như
có một định hướng rõ ràng về hướng tìm kiếm của mình thì người sử
dụng rất dễ lạc trong khối lượng thông tin đồ sộ của Internet hoặc tìm
ra những thơng tin khơng cần thiết lắm. Công tác sưu tầm và khai thác
thông tin số là một nhiệm vụ quan trọng của người cán bộ thư viện
trong hiện tại và tương lai. Để làm tốt công tác này, người cán bộ thư
viện cần hiểu rõ về các cơng cụ tìm kiếm thơng tin số, các CSDL điện
tử miễn phí và có phí...
1.1. Cơng cụ tìm kiếm (Search Engine) 

Cơng cụ tìm kiếm hay cịn gọi là bộ máy

tìm kiếm (Search Engine) là một cơng cụ cơ
bản dùng để tìm kiếm các thơng tin theo
những chủ đề xác định mà người sử dụng quan
tâm, nó được coi là một cơng cụ thiết yếu và
quan trọng nhất.
Các cơng cụ tìm kiếm làm việc theo
ngun tắc tìm kiếm trong CSDL được tự
động xây dựng bởi một robot, không phải do con người xây dựng.
Công cụ tìm kiếm sẽ so sánh các từ bạn đánh vào cửa sổ tìm kiếm với
các từ được viết ở các trang web mà nó lưu trữ.


CHƯƠNG 3. SƯU TẦM VÀ KHAI THÁC THÔNG TIN SỐ

91

Lượng thơng tin mà các cơng cụ tìm kiếm có thể bao quát thường
dao động từ một số nhỏ và trong một phạm vi hẹp về nội dung cho
đến số lượng lớn các trang web có thể xử lý được. Tuy nhiên khơng có
một cơng cụ tìm kiếm nào có thể bao qt được tồn bộ thơng tin trên
Internet về một chủ đề.
Kết quả tìm kiếm có phù hợp hay khơng là phụ thuộc vào khả
năng sử dụng các tính năng và cú pháp của cơng cụ tìm kiếm và diện
bao qt của cơng cụ tìm kiếm mà bạn sử dụng.
Điểm mạnh của cơng cụ tìm kiếm:
- Mức độ cập nhật cao hơn danh bạ chủ đề.
- Mức độ bao quát cao hơn và kết qủa tìm kiếm thường đầy đủ hơn
so với danh bạ web.
- Có thể tìm thơng tin rất đặc trưng
- Thân thiện với người sử dụng.

Nhược điểm của cơng cụ tìm kiếm:
- Kết quả tìm tin có độ chính xác khơng cao.
- Kết quả tìm tin nhiều khi quá lớn, gây khó khăn cho việc lựa
chọn kết quả thích hợp. Để giải quyết vấn đề này các cơng cụ
tìm kiếm thường cung cấp khả năng tìm theo các yếu tố giới
hạn như subject, dạng tài liệu, ngày tháng..., hoặc tìm theo
tốn tử.
Cơng cụ tìm kiếm được sử dụng khi:
- Tìm kiếm thơng tin chi tiết/đặc trưng (các chủ đề được mô tả
bằng các thuật ngữ đặc trưng)
- Cần có nhiều liên kết nhưng khơng quan tâm lắm về chất lượng
- Tìm kiếm một cách tồn diện
Một số cơng cụ tìm kiếm mà bạn nên biết:
- Yahoo: www.yahoo.com
- Google: www.google.com


92

NGUYÊN LÝ VÀ NỘI DUNG CƠ BẢN CỦA THƯ VIỆN ĐIỆN TỬ

- Alta Vista: www.altavista.com
- Info seek: www.infoseek.com
- Excite: www.excite.com
- WebCrawler: www.webcrawler.com
- Hotbot: www.hotbot.com
- Vina seek: www.vinaseek.com
- PanVietnam: www.panvn.com
Một số kỹ năng tìm tin với Search Engines
- Sử dụng các từ khóa đặc trưng, tránh sử dụng những từ chung

chung như: “tin tức”, “sự kiện” ...
- Có thể sử dụng ký tự * để đại diện cho ký tự bất kỳ nào đó.
VD: run* sẽ cho kết quả là runs, running ...
Để mở rộng các chức năng tìm kiếm, cũng như tạo thêm nhiều
tiện dụng cho người dùng, các công cụ tìm kiếm cũng đã hỗ trợ thêm
nhiều phép tốn lên từ khóa. Dĩ nhiên mỗi cơng cụ tìm kiếm có thể sẽ
hỗ trợ những phép tốn khác nhau. Ở đây chỉ nêu ra các phép toán
được hỗ trợ bởi hầu hết các cơng cụ tìm kiếm:
- Dùng phép "+": Để tìm các trang có mặt tất cả các chữ của từ
khóa mà khơng theo thứ tự nào hết thì viết nối các chữ này với
nhau bằng dấu +. Thí dụ: Tìm trang nói về cách thức viết
Linux scripts có thể dùng bộ từ khóa: +Linux +script +tutor
- Dùng phép "-": Trong số các trang Web tìm được do quy định
của từ khóa thì máy truy tìm sẽ loại bỏ các trang mà nội dung
của chúng có chứa chữ (hay cụm từ) trong ngoặc kép đứng ngay
sau dấu trừ. Thí dụ: Khi tìm tin tức về các loại xe dùng kỹ thuật
lai mới chưa có bán trên thị trường nhưng khơng muốn các
trang bán xe hay các trang nói về hai kiểu xe Prius (của Toyota)
và kiểu xe Insight (của Honda) lọt vào danh sách truy tìm thì có
thể thử từ khóa: +car +hibrid -sale -Prius -Insight


CHƯƠNG 3. SƯU TẦM VÀ KHAI THÁC THÔNG TIN SỐ

93

- Dùng dấu ngoặc kép " ": Khi muốn chỉ thị máy truy tìm
ngun văn của cụm từ, có thể dùng dấu ngoặc kép. Thí dụ:
Để tìm lại ngun tác và nội dung bài thơ có câu nước non
nặng một lời thề thì có thể thử dùng từ khố với ngoặc kép

"Nước non nặng một lời thề"
- Dùng các phép toán của đại số Bool: Hiện tại, nhiều máy truy
tìm hỗ trợ thêm các phép toán như là OR, AND và NOT. Khi
dùng thì tên của các phép tốn này bắt buộc phải viết chữ in
hoa. Phép tốn Bool địi hỏi điền vào đúng vị trí quy định một
từ (hay một cụm từ trong ngoặc kép) giữ vai trị của tốn tử.
Ngồi ra, đa số máy truy tìm chỉ hoạt động tốt trong một số
lượng giới hạn các phép toán Bool cho một bộ từ khố. Lời
khun chung là khơng nên dùng quá 6 phép toán Bool cho
cùng một bộ từ khố và khơng phải máy truy tìm nào cũng hỗ
trợ đầy đủ các phép tốn AND, OR hay NOT
+

+

+

OR: Có cú pháp là (Toán tử 1) OR (Toán tử 2). Lệnh này
cho phép tìm những trang Web nào có chứa một trong các
toán tử của phép toán OR của bộ từ khố. Thí dụ để tìm
các bài viết về Hồ Xn Hương trong cả tiếng Việt và
tiếng nước ngồi thì có thể dùng bộ từ khố: "Nguyễn
Trãi" OR "Nguyễn Trãi"
Các máy truy tìm có thể dùng OR là: AltaVista, AOL
Search, Excite, Google, Inktomi (HotBot, MSN), Ask
Jeeves, Lycos, Northern Light, HotBot và Gigablast.
AND: Có cú
pháp (Tốn tử 1)
AND (Tốn tử
2). Phép tốn

AND nhằm u
cầu máy truy tìm
kiếm các trang
có sự hiện diện
của tất cả các


94

NGUYÊN LÝ VÀ NỘI DUNG CƠ BẢN CỦA THƯ VIỆN ĐIỆN TỬ

tốn tử. Thí dụ “Thư viện” AND “Đại học Quốc gia Hà
Nội” sẽ giúp truy tìm các trang có mặt đồng thời hai chữ
Thư viện và chữ Đại học Quốc gia Hà Nội
+

+

+

+

Một số trang truy tìm sẽ dùng AND như là mặc định
(trong đó có Google). Bạn cũng có thể thay thế bằng cách
dùng dấu + trong một số trường hợp nào máy truy tìm
khơng có chức năng của đại số Bool.
Các trang hỗ trợ phép toán AND là: Google, AltaVista,
AOL Search, Excite, Inktomi (HotBot, MSN), Northern
Light, Yahoo và Gigablast.
NOT: Phép này hoàn toàn tương tự như cách dùng dấu -.

Nghĩa là, sự truy tìm sẽ loại bỏ những trang mà nội dung
có chứa tốn tử đứng ngay sau phép tốn NOT. Tuy nhiên
trong nhiều máy truy tìm có hỗ trợ thì phép này cũng chỉ
được dùng có một lần cho một bộ từ khố. Thí dụ để tìm
tài liệu hướng dẫn về ngơn ngữ lập trình Java có thể thử
dùng trên Altavista "Java tutor" NOT book
Các trang có thể dùng NOT là Google, AOL Search,
Excite, Inktomi (HotBot, MSN), Northern Light và
Gigablast.

- Dùng phép NEAR:
Dùng để truy tìm
những trang Web
mà nội dung của
chúng có các thành
tố của từ khố nằm
gần nhau. Phép tốn
này rất có lợi để tìm
ra những trang có
một cụm từ, một khái niệm, một định nghĩa hay một lời phát
biểu mà bạn không nhớ hết được. Ví dụ: Tìm lại ngun văn
câu thơ và tác giả bằng bộ từ khố: "Mõ thảm" NEAR
"Chng sầu"


CHƯƠNG 3. SƯU TẦM VÀ KHAI THÁC THÔNG TIN SỐ

95

- Dùng dấu ngoặc đơn () để chẻ nhánh. Dùng ngoặc đơn cho

phép tìm nhiều kết hợp phức tạp. Thí dụ để truy tìm tài liệu về
cách tạo ra CD ROM có khả năng tự khởi động có thể thử từ
khố: "tự khởi động" AND (CD OR CDROM OR CD-ROM)
AND ("hướng dẫn")
- Hỗ trợ cho kiểu phân nhánh bằng ngoặc đơn là Google,
AltaVista, AOL Search, Excite, Inktomi (MSN), Northern Light
Lưu ý:
- Trong mọi trường hợp thì từ khố sai chính tả sẽ khơng thể có
hiệu quả.
- Cách tốt nhất là dùng chữ in hoa cho các phép tốn.
- Các trang tìm kiếm của Hotbot hay MSN thì bạn phải chuyển
sang chọn chức năng "Boolean phrase" khi dùng các phép toán
Boolean.
1.2. Tài nguyên điện tử 

Đây là tài nguyên phong phú nhất bao gồm những thông tin về
chính quyền, kinh tế, thương mại, giáo dục, học thuật, giải trí,…do các
cơ sở có thẩm quyền xuất bản trên web như chính phủ, trường đại học,
viện nghiên cứu, hội đồn, cơng ty,…và cả cá nhân độc lập
Hình thức bao gồm: Bản tin, tạp chí, sách điện tử và những hình
thức đa phương tiện khác.
Thường thì truy cập tự do, miễn phí; vấn đề là chúng ta phải biết
chọn lọc và đánh giá nguồn tin.
Một số kho tài nguyên điện tử miễn phí trên mạng:
- Directory of Open Access Journals ( />Gồm 132.990 bài trích tồn văn từ 2669 tạp chí về tồn bộ các
lĩnh vực khoa học: Khoa học xã hội; Nghệ thuật; Nơng nghiệp;
Cơng nghệ sinh học; Hóa học; Khoa học về môi trường; Khảo
cổ học; Lịch sử; Triết học; Tơn giáo; Khoa học kỹ thuật;
Chính trị và luật pháp; Ngôn ngữ và văn học; Sức khỏe.



96

NGUYÊN LÝ VÀ NỘI DUNG CƠ BẢN CỦA THƯ VIỆN ĐIỆN TỬ

- FFT (free full text): />- CSDL Tạp chí khoa
học Việt Nam trực
tuyến (Việt journals
online
VJOL)
(o.):
VJOL là một cơ sở
dữ liệu các tạp chí
khoa học Việt Nam
trên tất cả các lĩnh
vực khoa học, có 16
tạp chí với 34 mục lục, liệt kê 418 bài viết, trong đó có 294 bài
viết được cung cấp toàn văn dưới dạng PDF. Mục tiêu của
VJOL là quảng bá các tạp chí khoa học tham gia VJOL cũng
như các cơng trình nghiên cứu mà các tạp chí chuyển tải tới
đơng đảo bạn đọc.
1.3. Chiến lược tìm kiếm thơng tin 

Chiến lược tìm kiếm thơng tin gồm 7 bước
Bước 1: Phân tích yêu cầu tìm tin
- Tự đặt câu hỏi để làm rõ u cầu của mình. Ví dụ:
+

Tơi muốn biết thơng tin về thư viện số


+

Tôi cần các thông tin về phần mềm

- Biến yêu cầu của mình thành một câu hồn chỉnh. Ví dụ:
+

Phần mềm thư viện số

- Phân chia yêu cầu thành những khái niệm nhỏ
+

Khái niệm 1: “Phần mềm”

+

Khái niệm 2: “thư viện số”

Bước 2: Diễn đạt lệnh tìm kiếm
Cú pháp của lệnh tìm là cách thức chúng ta sử dụng để liên kết
các khái niệm một cách phù hợp cho lệnh tìm. Các cơng cụ tìm kiếm
khác nhau trong việc liên kết các thuật ngữ tìm kiếm.


CHƯƠNG 3. SƯU TẦM VÀ KHAI THÁC THÔNG TIN SỐ

97

Sử dụng các phép tốn, các tốn tử lơgíc. VD: “Phần mềm” AND
“thư viện số”

Một số cách thu hẹp phạm vi tìm kiếm khác:
- Giới hạn theo định dạng file (.pdf, .doc,...).
- Giới hạn theo ngôn ngữ (Tiếng Anh, tiếng Pháp...).
- Giới hạn theo từng loại địa chỉ web (Ví dụ chỉ tìm các tài liệu
từ các trang web có đi .edu).
- Giới hạn theo địa điểm xuất hiện của từ tìm kiếm (ở tên tài liệu
hoặc trong nội dung).
- Tìm tranh ảnh hoặc bản đồ.
Bước 3: Phân nhóm yêu cầu thơng tin
- Phân loại u cầu tìm tin: tìm chính xác hay tìm tương đối...
- So sánh nhu cầu tìm tin với các tính năng của máy tìm kiếm:
Ví dụ một hay một vài thuật ngữ có nhiều nghĩa trong nhiều
ngữ cảnh khác nhau (“phần mềm” OR “software”) AND (“thư
viện số” OR “Digital library”).
Bước 4: Chọn cơng cụ tìm kiếm phù hợp
- Chọn cơng cụ tìm kiếm phù hợp với thông tin mà bạn cần.
- Xem xét cách thức làm việc của từng cơng cụ tìm và diễn đạt
lại lệnh tìm để có thể khai thác tối đa các chức năng của cơng
cụ tìm đó.
- Cố gắng thực hiện việc tìm kiếm trên nhiều cơng cụ tìm kiếm
khác nhau. Nếu các kết quả tìm từ cơng cụ tìm kiếm chưa thỏa
mãn nhu cầu tin của bạn, hãy sử dụng nhiều cơng cụ khác
nhau để tìm kiếm vì khơng một cơng cụ tìm kiếm nào có thể
bao qt tồn bộ các trang web đang hiện hữu trên Internet.
- Xem các kết quả tìm và sử dụng các thuật ngữ được sử dụng
trong các văn bản tìm được để tìm kiếm lại.


98


NGUYÊN LÝ VÀ NỘI DUNG CƠ BẢN CỦA THƯ VIỆN ĐIỆN TỬ

Bước 5: Tìm lời khuyên từ một người
- Nếu bạn khơng thể tìm được các thơng tin bằng các cơng cụ
tìm kiếm, hãy tìm sự giúp đỡ từ những người có kinh nghiệm:
hỏi tác giả của tài liệu, gửi câu hỏi qua email và trợ giúp trực
tiếp từ Thư viện Quốc hội Mỹ ...
5 bước tìm kiếm trên đây là một cách hữu hiệu để tìm kiếm trên
Internet và trong nhiều trường hợp bạn có thể tìm ra rất nhiều tài liệu.
Tuy nhiên độ tin cậy của tài liệu tìm được trên mạng cần được xem xét
cẩn thận, vì vậy trong quá trình tìm tin bạn cần phải thực hiện những
công việc tiếp theo sau đây:
Bước 6: Nếu bước đầu chưa thành công - hãy thử lại
- Để trở thành một người tìm tin có kỹ năng, bạn sẽ phải ln
xem xét lại các bước mình đã tiến hành trong quá trình tìm
kiếm và tìm những cách khác nhau, diễn đạt lại lệnh tìm kiếm,
sử dụng các tốn tử tìm kiếm khác, hoặc thậm chí xem xét lại
nhu cầu thơng tin của mình. Bạn sẽ trở nên thành thạo với việc
sử dụng các cơng cụ tìm kiếm.
Bước 7: Đánh giá kết quả tìm
- Internet là một kho thơng tin phong phú nhưng khơng được
kiểm sốt, do đó cần phải đánh giá chất lượng và độ chính xác
của bất cứ thơng tin nào tìm được trên Internet.
- Một số tiêu chí đánh giá:
+

+

+


Nguồn tác giả (tác giả có nổi tiếng trong lĩnh vực này
khơng? Tác giả có được những tác giả khác hay những
người, cơ quan đáng tin cậy đề cập đến hay khơng? Tài
liệu có đề cập đến thơng tin của tác giả hay khơng?...)
Nơi phát hành (có tên bất kỳ tổ chức nào trong văn bản
bạn đọc không? Liệu tổ chức đó có tiếng trong lĩnh vực
bạn nghiên cứu khơng? Bạn có thể xác định được mối
quan hệ giữa tác giả với nơi phát hành/máy chủ không?
Trang Web đó là của cá nhân hay tổ chức? ...)
Quan điểm của tác giả.


CHƯƠNG 3. SƯU TẦM VÀ KHAI THÁC THƠNG TIN SỐ

+
+

+

2.

99

Trích dẫn và nội dung của tài liệu.
Độ chính xác của thơng tin (phương pháp được trình bày
trong tài liệu có phù hợp với chủ đề không? Dữ liệu được
sử dụng có thể xác định được độ chính xác khơng? ...).
Tính thời sự của thông tin (ngày cập nhật cuối cùng...).

CSDL TRỰC TUYẾN THƯƠNG MẠI 


Bao gồm những CSDL về bài tạp chí, tài liệu hội nghị, báo cáo
khoa học, luận án tiến sỹ, sách điện tử,…và cả bằng sáng chế.
Hiện nay có nhiều CSDL thương mại được nhiều cơ sở lớn và tập
đoàn liên quốc gia trên thế giới cung cấp với giá thành tương đối cao.
Có một số tổ chức vận động nhiều thư viện trên thế giới cùng
mua để giá thành được hạ xuống, chẳng hạn như PERIT.
Đối với các thư viện ở Việt Nam thường sử dụng hình thức mua
quyền sử dụng trong một thời gian giới hạn.
Một số CSDL trực tuyến thương mại:
- Springer Ebooks: Là bộ sưu tập sách điện tử chuyên ngành với
rất nhiều đầu sách đã đoạt giải Nobel với những TÍNH NĂNG
VƯỢT TRỘI.
Tính năng cho thư viện:
+

+

+
+

Hơn 3000 đầu sách điện tử và các tài liệu tham khảo
hàng năm.
Đặt mua một lần sở hữu dài hạn theo hình thức
Ownership Business Model.
Khơng giới hạn người sử dụng đồng thời.
Được nhóm thành 12 bộ sưu tập chủ đề thuận tiện cho
tìm kiếm.

+


Tích hợp hồn tồn với mục lục thư viện.

+

Sẵn có bản ghi MARC 21.

+

Dữ liệu thống kế hữu dụng.


100

NGUYÊN LÝ VÀ NỘI DUNG CƠ BẢN CỦA THƯ VIỆN ĐIỆN TỬ

Tính năng cho các nhà nghiên cứu
+

+

+

+

Kết nối trực tiếp với hơn 10.000 đầu tài liệu và 3000 đầu
sách nghiên cứu mới bổ sung hàng năm.
Dữ liệu có liên kết: Kết nối liền mạch giữa sách điện tử
với Tạp chí điện tử cũng như tài liệu tham chiếu trên cùng
một giao diện tìm kiếm SpingerLINK.

Các chức năng tìm kiếm và tìm lướt đơn giản và thân
thiện. Có thể tìm kiếm theo từng chương, dễ dàng xác
định nội dung cần thiết.
Các tính năng hỗ trợ định hướng tìm kiếm bao gồm cả từ
điển và thesauri.

- Tạp chí điện tử tồn
văn Science Direct
Subject
Collection:
Science Direct là một
dịch vụ chuyển giao
hơn 1800 tạp chí điện
tử tồn văn có chỉ số
ảnh hưởng khoa học
cao với gần 6 triệu bài
báo về các lĩnh vực và chủ đề khoa học, công nghệ khác nhau,
được công bố bởi các nhà khoa học, nhà nghiên cứu hàng đầu
trên thế giới. Science Direct có các phương án lựa chọn cấp
phép tối ưu, từ phương thức cơ bản là truy cập trực tiếp vào
nguồn dữ liệu tới việc hỗ trợ khách hàng cùng chia sẻ một
nguồn dữ liệu (Consortium hoặc Share Programs). Hình thức
cấp phép căn bản của Science Direct là thu phí hàng năm đối
với các truy cập điện tử dựa trên việc xác định phần trăm giá
trị của phí tiếp cận bản in.
- Tạp chí điện tử SpringerLINK: SpringerLINK là nguồn dữ liệu
điện tử hàng đầu của NBX Springer dành cho các nhà nghiên
cứu trong hầu hết các lĩnh vực khoa học tự nhiên và công



CHƯƠNG 3. SƯU TẦM VÀ KHAI THÁC THÔNG TIN SỐ

101

nghệ. SpringerLINK hiện có trên 1200 tạp chí tồn văn có giá
trị khoa học cao của các chuyên ngành:
+

+

Y tế và sức khỏe cộng
đồng (Medicine &
Public Health
Khoa học cuộc sống
(Life science)

+

Hóa học (Chemistry)

+

Toán (Mathematics)

+

Vật lý (Physics)

+


Kinh tế và khoa học quản lý (Economics & Management
Science)

+

Khoa học máy tính (Computer science)

+

Cơ khí (Egineering)

+

Tâm lý học (Psychology)

+

Khoa học thư viện Nga (Russian Library of Science)

Lưu ý: Trên đây chỉ là một số CSDL điện tử ví dụ, ngồi ra cịn
rất nhiều các CSDL điện tử thương mại khác như: Ebrary, EBSCO,
CRC, IEEE, ACM ... Việc đặt mua các CSDL điện tử phụ thuộc vào
kinh phí cũng như nhu cầu khai thác khác nhau của các thư viện.
3.

SỐ HĨA NGUỒN TIN NỘI SINH 

3.1. Khái niệm số hóa 

Thuật ngữ số hóa (Digitization) được sử

dụng để chỉ q trình chuyển đổi thơng tin
trong các đối tượng thực sang dạng điện tử.
Trong xã hội, đối tượng thực phổ biến chứa
thông tin bao gồm các dạng tài liệu, văn bản,
tranh vẽ, bản đồ, băng hình, băng ghi âm...
Kết quả của việc số hóa các đối tượng nguồn


102

NGUYÊN LÝ VÀ NỘI DUNG CƠ BẢN CỦA THƯ VIỆN ĐIỆN TỬ

tin thực sự được chuyển sang dạng điện tử. Như vậy, số hóa được coi
là một phương thức tạo lập tài nguyên thông tin điện tử.
Tài nguyên thông tin điện tử có thể được định nghĩa khái quát là
tập hợp có tổ chức những bộ sưu tập thơng tin kiến thức của các đối
tượng số (digitized objects) hoặc đã được số hóa, được lưu trữ theo
các cơng nghệ đặc biệt mà có thể truy cập, chia sẻ, khai thác theo các
giao thức và thủ tục tiêu chuẩn xác định trong mơi trường điện tử. Với
các ưu điểm vốn có, tài ngun thơng tin số đóng vai trị rất lớn trong
hoạt động thơng tin, cụ thể trong việc:
- Kiểm sốt tài ngun thơng tin.
- Bảo vệ an tồn và lâu dài các tài liệu gốc (điều này đặc biệt có
ý nghĩa khi số hóa các tài liệu có giá trị quý, hiếm như các
chứng cứ của lịch sử, là di sản văn hóa...).
- Nâng cao năng lực khai thác thơng tin của người dùng tin.
- Thúc đẩy mở rộng việc chia sẻ thông tin trong Hệ thống thông
tin Quốc gia.
Tuy nhiên trong bất cứ hệ thống thông tin nào, điều quan trọng
khơng phải hệ thống đó có bao nhiêu thơng tin mà giá trị của hệ thống

thể hiện ở chỗ chúng quản trị được những loại thơng tin gì và tổ chức
khai thác các thơng tin đó như thế nào mới là yếu tố quan trọng.
3.2. Chính sách và kế hoạch số hóa 

Có sáu ngun tắc được xác định nhằm chọn tài liệu để số hóa
hướng đến việc phát triển sưu tập thư viện số:
- Tính hữu dụng: Hữu dụng là lý do cơ bản trước tất cả mọi
quyết định phát triển sưu tập. Tài liệu có tần suất sử dụng cao
(như giáo trình, tài liệu tham khảo mà các giáo viên thường
yêu cầu tất cả sinh viên tìm đọc);
- Nhu cầu nội bộ: Sưu tập nội bộ được xây dựng để phục vụ nhu
cầu nội bộ và chi phí cho tài nguyên nội bộ phải được thuyết
minh vì lợi ích nội bộ - chẳng hạn như đối với thư viện đại
học, yêu cầu học tập, giảng dạy và nghiên cứu là ưu tiên;


CHƯƠNG 3. SƯU TẦM VÀ KHAI THÁC THÔNG TIN SỐ

103

- Tài liệu mới: Mặc dù sưu tập cũ mang tính lịch sử là cần thiết
cho nghiên cứu, nhưng tài liệu mới vẫn ưu tiên hơn;
- Tài liệu liên quan đến bản gốc: Những tài liệu mà người muốn
tìm hiểu khơng thể tiếp cận được bản gốc (ví dụ các văn bản
viết tay - "manuscript" của các nhà thơ, nhà văn, các nhà chính
trị, hoặc các bản tun ngơn có chữ ký của các lãnh tụ như bản
tuyên ngôn độc lập của Hoa Kỳ hiện có tại Thư viện Quốc hội
Hoa Kỳ, vv.). Trên thực tế, cịn có rất nhiều thể loại viết tay trên
những chất liệu khác nhau. Việc số hố các bản viết tay đó tạo
điều kiện tiếp cận thuận lợi hơn cho các nhà nghiên cứu;

- Tài liệu quý hiếm: Tài liệu quý hiếm, lâu năm, độc giả không
thể trực tiếp sử dụng, dễ hư hỏng - chẳng hạn như tài liệu chữ
Nôm trên giấy bổi;
- Chuyển đổi nhận thức: Ngày càng có nhiều thơng tin chuyển
sang dạng số. Tài liệu giúp người sử dụng chuyển đổi nhận
thức để làm quen việc sử dụng dạng thông tin này là ưu tiên.
Chúng ta cần phải cân nhắc mức độ ưu tiên đối với những nguyên
tắc trên trong việc chọn tài liệu để số hóa.
Trong điều kiện hiện tại, việc phát triển tài ngun thơng tin số có
thể nhìn nhận theo ba mức như kịch bản sau:
- Số hóa tồn phần (fully digital resourcés).
- Song song tồn tại tài liệu và nguồn lực số hóa (parrallel
resources).
- Số hóa hồi cố (Retrospective digitization).
Hiện nay phần lớn các cơ quan Thông tin - thư viện chuyên
nghiệp đều xây dựng các nguồn tài nguyên số từ các nguồn tài liệu và
các ấn phẩm. Như vậy trên thực tế nguồn tin số hóa được tạo lập vẫn
song song tồn tại cùng với các tài ngun thơng tin hiện hữu trên giấy.
Việc số hóa các tài liệu là cơng việc tốn kém, địi hỏi nhiều kinh
phí, lao động và trang thiết bị và phí chuyển đổi về tổ chức. Do vậy,


104

NGUYÊN LÝ VÀ NỘI DUNG CƠ BẢN CỦA THƯ VIỆN ĐIỆN TỬ

việc xây dựng và phát triển kho tài nguyên số khơng thể làm tràn lan
mà phải có chọn lọc, trọng tâm, trọng điểm.
Tùy theo các điều kiện cụ thể, các đơn vị thơng tin phải có các
nghiên cứu cần thiết như: loại tài liệu nào cần số hóa, khối lượng, quy

mô, phương thức lựa chọn... để lập kế hoạch sao cho phù hợp.
Khi xây dựng tài nguyên số, từ quan điểm lợi ích của người dùng
tin và từ quan điểm pháp luật tránh rơi vào vi phạm lỗi bản quyền, cần
đặc biệt chú ý tới việc xây dựng các bộ sưu tập. Một bộ sưu tập
thường bao gồm nhiều tài liệu dưới nhiều dạng thức khác nhau: văn
bản, hình ảnh, âm thanh. Ví dụ: Một bộ sưu tập về đề tài “1000 năm
Thăng Long - Đông Đô - Hà Nội” sẽ bao gồm những tài liệu dạng văn
bản về lịch sử, văn hóa, phong tục...; tài liệu dạng hình ảnh về các
điểm di tích, các mẫu trang phục, các lễ hội...; tài liệu âm thanh về
những điệu nhạc, bài hát, làn dân ca... Một sưu tập thông tin số như
vậy phải qua một quá trình hình thành để tạo nên những cấu trúc hỗ
trợ cho việc truy tìm và có thể xuất bản, đưa ra trên các phương tiện
khác nhau trên mạng Internet, trên CD-ROM, trong các CSDL...
Xây dựng tài nguyên số bằng phương thức trên có nghĩa là tổ
chức lại thông tin, biến chúng trở thành nguồn lực, làm cho các thơng
tin đó trở nên phổ biến hơn đối với đông đảo người dùng tin mà chỉ
với các ấn phẩm truyền thống rất khó, nếu như khơng muốn nói là
khơng thể thực hiện. Tuy nhiên, vấn đề phổ biến thơng tin trong mơi
trường số hóa có mặt pháp lý, mà những người tham gia cần phải am
hiểu các điều khoản của Luật Xuất bản, Sở hữu trí tuệ, Quy định bảo
mật, Pháp lệnh lưu trữ ... để hành động đúng, để không rơi vào lỗi vi
phạm pháp luật.
3.3.  Thiết bị số hóa 

Một trong số các thiết bị số hóa thơng dụng là máy quét. Các
máy quét rất đa dạng về giá cả, hình dạng và kích thước. Chúng có
giá từ 100USD cho các máy quét hình phẳng cho đến 50.000USD
cho các máy quét công nghiệp cỡ lớn của các nhà sản xuất như Bell
& Howell. Rất nhiều website cung cấp đa dạng máy quét. Để tìm



CHƯƠNG 3. SƯU TẦM VÀ KHAI THÁC THÔNG TIN SỐ

105

những website này, bạn chỉ cần dùng từ khóa “scanners” vào
Google, Altavista hoặc Yahoo.
Kết quả của một trang tài liệu được qt là một tập tin máy tính
mà thơng thường ở định dạng TIFF hoặc Bitmap. Định dạng nén TIFF
phiên bản 4 là dạng tốt nhất. Trung bình một trang được nén và được
chuyển thành định dạng này chỉ chiếm khoảng 50Kb, trong khi ở định
dạng Bitmap không nén sẽ là 2Mb.
Các máy quét hình phẳng giá thấp
Các loại máy quét hình phẳng là rẻ nhất và
được sử dụng nhiều nhất. Thuộc nhiều hãng khác
nhau: HP, Agfa, Acer v.v., giá từ 100USD đến
300USD. Chúng đều có thể qt hình trắng đen
hay màu. Do chi phí thấp nên có thể trang bị cho
mỗi máy tính một máy quét riêng.
Điểm bất lợi của những máy quét này là cho ra
những hình ảnh của trang tài liệu ở mức trung bình,
tỉ lệ quét thấp, không bền trong những môi trường ẩm thấp và khá dễ
hư. Chúng ta phải quét từng trang một. Mỗi trang phải được định vị cẩn
thận theo lề bảng quét. Hiệu suất của những máy quét này kém.
Mặc dù các nhà sản xuất khẳng định rằng mỗi trang tài liệu có thể
được quét trong vòng chưa tới một phút nhưng thực tế cho thấy rằng
khó có thể thể đạt tới mức 12 trang mỗi tiếng. Tiến trình quét thường
làm ì ạch máy tính gắn kết. Do vậy những máy quét này chỉ hữu dụng
cho các công việc nhỏ (số lượng trang cần quét ít- từ 200 đến 400
trang một tháng một cách thường xuyên) hoặc các công việc xảy ra

một lần từ 1.000 đến 2.000 trang.
Máy quét cấp thấp có ngăn để giấy
Các máy quét này thường có giá từ 500USD cho đến 1.200USD.
Có thể quét từ 10 đến 50 trang tài liệu một lần. Vì vậy người điều khiển
khơng cần có mặt liên tục tại máy quét. Điều này sẽ làm gia tăng số
lượng trang đến 150- 200 trang/ngày. Những loại máy qt này có tuổi
thọ cao hơn, thường thì khoảng từ 30.000 đến 50.000 trang.


106

NGUYÊN LÝ VÀ NỘI DUNG CƠ BẢN CỦA THƯ VIỆN ĐIỆN TỬ

Điểm bất lợi của chúng là tại một thời điểm chỉ quét một mặt tài
liệu - ngăn để các trang tài liệu phải được đảo lại để quét mặt sau của
tài liệu. Và điều này có thể gây ra vấn đề bởi vì ngăn để giấy rất
thường gặp trục trặc và đôi lúc làm kẹt giấy.
Những loại này hữu ích cho công việc
quét từ 1.500 đến 3.000 trang/tháng. Các
máy quét màu, để quét hình màu thì nhất
thiết ta phải có máy quét màu. Nhưng nói
chung, chưa đến 5% các ấn phẩm chứa màu
cộng với bìa tài liệu. Vì vậy một máy quét
hình phẳng giá thành thấp như kể trên là
thường đáp ứng được nhu cầu. Chúng ta nên chọn máy quét có độ
phân giải lên đến 600dpi.
Các máy quét 2 mặt chuyên nghiệp
Các máy quét chuyên nghiệp là các máy tốt và đáng tin cậy, có
khả năng xử lý một số lượng lớn trang tài liệu- từ 2.000 đến 10.000
trang/ngày. Chúng có hệ thống khay để giấy tự động, xử lý các nhóm

gồm từ 50 đến 200 trang. Các máy quét tốt nhất và nhanh nhất thuộc
dạng này có thể quét cả 2 mặt tài liệu cùng lúc.
Các máy qt này u cầu máy tính kết nối với nó phải mạnh và
có dung lượng ổ cứng ít nhất là 10 -20Gb, giá từ 5.000 - 50.000USD.
Chẳng hạn như:
- Máy quét Cannon DR-6020 giá khoảng 5.000USD, có thể quét
2 mặt tài liệu 2000 trang/ngày và tuổi thọ từ 600.000 - 800.000
trang. Các máy quét nhãn hiệu Bell&Howell và Fujitsu, giá từ
10.000 - 500.00USD, có tuổi thọ đến hàng triệu trang.
- Các máy qt phích nhỏ có giá từ 15.000USD đối với loại bán
tự động cho đến 80.000USD đối với loại tự động hồn tồn.
Máy số hóa sách đóng tập
Hiện nay trên thị trường đã xuất hiện những máy số hóa sách
chuyên dụng. Tuy nhiên giá thành rất đắt lên đến hàng trăm nghìn USD,


CHƯƠNG 3. SƯU TẦM VÀ KHAI THÁC THÔNG TIN SỐ

107

chỉ phù hợp với những đơn vị có khối lượng tài liệu cần số hóa nhiều,
hoặc những đơn vị cung cấp dịch vụ số hóa chuyên nghiệp. Một số ưu
điểm của hệ thống thiết bị này là:
- Tư thế gáy sách không bị ép thẳng:
cho phép việc sao chụp sách tự
động không phá huỷ và giảm tối
thiểu việc dãn căng gáy sách và
căng trang giấy khi lật giở.
- Sức căng khi lật giở trang được tối
thiểu hóa.

- Tư thế trang đặt phẳng: Hai chiếc
kẹp đặt ở mép trang gần gáy sách tự động nhẹ nhàng trợ giúp
làm phẳng trang giấy ngay sau khi trang được lật giở. Những
chiếc kẹp này tạo ra một lực ép nhẹ vào trang giấy mà không
tạo ra sức căng trên gáy sách. Những chiếc kẹp cũng rất dễ điều
chỉnh theo các loại kích cỡ sách khác nhau và chỉ chạm vào
mép giấy với sự tiếp xúc hướng xuống.
- Khả năng lật giở trang tự động: Kỹ thuật hút chân không hoặc
kỹ thuật cánh tay robot nằm bên dưới phần điều khiển và sẽ
thực hiện lặp đi, lặp lại chức năng của mình cùng một kiểu và
ở cùng một mức độ. Đầu hút nhấc trang sách trên diện rộng để
giở trang một cách nhẹ nhàng, chứ không nhấc giở phía góc
trang. Cánh tay robot lật giở trang rất đều đặn ở cùng một lực
đẩy. Việc lật giở trang bằng tay trong thời gian dài sẽ dẫn đến
tình trạng là người vận hành lật giở không đều tay, có thể gây
rách giấy hoặc các hư hỏng khác.
- Sao chụp tự động năng suất cao: Có khả năng sao chụp tự
động lên đến hàng nghìn trang/giờ.
- Kỹ thuật chụp lấy trang sách: Hệ thống sử dụng máy ảnh kỹ
thuật số hoặc quét quang.


108

NGUYÊN LÝ VÀ NỘI DUNG CƠ BẢN CỦA THƯ VIỆN ĐIỆN TỬ

Các chương trình qt
Mỗi máy qt đều có phần mềm riêng được cài đặt trên máy tính
để điều khiển máy quét. Một số máy quét có card được cài đặt vào
máy tính để tăng tốc độ quét.

3.4.  Nhận dạng ký tự quang học: OCR 

Nhận dạng ký tự hay còn gọi là hệ thống OCR làm cơng việc
chuyển thể các hình ảnh được qt thành văn bản. Đầu vào là một
hình ảnh kỹ thuật số ở định dạng TIFF hoặc Bitmap, tốt nhất là ảnh có
chất lượng cao. Đầu ra là văn bản hoặc trang web, cơ bản là các định
dạng RTF, PDF, Word hoặc HTML.
Sau đây là các bước cơ bản để chuyển thể tài liệu giấy tờ thành
dạng kỹ thuật số:

Hình 3.1: Các bước chuyển đổi tài liệu giấy thành dạng điện tử

- Chụp, cân chỉnh trang, nâng cao chất lượng hình ảnh, làm trắng
tự động theo khối dữ liệu (định dạng ảnh TIFF hoặc JPG).
- Chuyển sang định dạng PDF ảnh tĩnh và thêm bookmark cho
tài liệu.
- Xử lý nhận dạng ký tự quang học (OCR): Chuyển tài liệu từ
dạng ảnh sang PDF hoặc Word có thể tìm kiếm tồn văn.


CHƯƠNG 3. SƯU TẦM VÀ KHAI THÁC THÔNG TIN SỐ

109

- Biên mục siêu dữ liệu: Siêu dữ liệu mô tả (theo chuẩn Dublin
Core), siêu dữ liệu cấu trúc, siêu dữ liệu kỹ thuật.
Tuân theo những bước này, bạn kiểm tra chất lượng các tập tin
kết quả và lưu chúng ở định dạng thích hợp.
Trên thị trường có rất nhiều chương trình nhận dạng kí tự tốt với
giá cả từ 100USD đến 400USD, chẳng hạn như:

- Read-Iris ()
- Omnipage ()
- Fine-Reader ()
- VNDOCR ()
Tất cả thông tin bao
gồm cả nhà phân phối địa
phương đều có thể được tìm
thấy trên các website của các
nhà sản xuất.
Để tự thực hiện công
việc quét tài liệu cần có máy
qt, phần mềm nhận dạng kí
tự và sự đảm bảo về chất
lượng. Do cần phải quyết định sự lựa chọn giữa tự quét hay bàn giao
cho đối tác thực hiện việc qt.
4.

HỆ THỐNG PHÁT HIỆN VÀ TÌM KIẾM TẬP TRUNG 

Hệ thống phát hiện và tìm kiếm tập trung là một ứng dụng phát
hiện và tìm kiếm các nguồn tin: thương mại, nội sinh và các nguồn
truy cập mở khác của thư viện trên một giao diện tìm kiếm duy nhất.
Tài liệu có thể được tìm trong:
- Mục lục thư viện (Cơ sở dữ liệu thư mục).
- Kho tài nguyên số nội sinh (Digital Repository).


110

NGUYÊN LÝ VÀ NỘI DUNG CƠ BẢN CỦA THƯ VIỆN ĐIỆN TỬ


- Các nguồn tài nguyên bên ngoài khác: cơ sở dữ liệu thư mục
của các thư viện khác, các kho dữ liệu số bên ngoài, các truy
cập mở (Open access: sách điện tử, bài giảng điện tử, tạp chí
điện tử mở...), các cơ sở dữ liệu trực tuyến của các nhà xuất bản
hàng đầu thế giới.
Các hệ thống phát hiện và tìm kiếm tập trung phổ biến trên thị
trường hiện nay có: WorldCat Local, Primo, Summon, Encore,
EBSCO Discovery Service, SirsiDynix Enterprise, VuFind (giải pháp
phần mềm mã nguồn mở)...
Một số điểm chung của các hệ thống phát hiện và tìm kiếm tập trung:
- Đối tượng tìm kiếm: Tất cả các nguồn tài nguyên bên trong và
bên ngoài thư viện mà hệ thống được phép kết nối tới.
- Giao diện tìm kiếm: Mặc định một ơ tìm kiếm duy nhất (giống
Google), có giao diện tìm kiếm nâng cao (nếu cần).
- Hiển thị kết quả tìm kiếm:
+
+

+

Kết quả tìm kiếm được hiển thị theo mức độ phù hợp.
Kết quả tìm kiếm được lọc theo các nhóm, các tiêu chí
khác nhau: theo định dạng, theo bộ sưu tập, theo địa điểm,
theo ngôn ngữ, theo năm xuất bản...
Đưa ra gợi ý liên quan đến từ khóa tìm kiếm.

- Quản lý truy cập bạn đọc: Hỗ trợ tính năng SSO (Single sign-on)
- Khai thác tài nguyên:
+


+

Tích hợp với hệ thống thư viện điện tử tích hợp để thực
hiện các giao dịch mượn/trả tài liệu.
Kết nối và xem toàn văn các tài liệu số (nếu được phép).


CHƯƠNG 3. SƯU TẦM VÀ KHAI THÁC THƠNG TIN SỐ

Hình 3.2: Mơ hình hệ thống phát hiện và tìm kiếm tập trung

111


112

NGUYÊN LÝ VÀ NỘI DUNG CƠ BẢN CỦA THƯ VIỆN ĐIỆN TỬ


CHƯƠNG 4. BỘ SƯU TẬP VÀ BIÊN MỤC TÀI LIỆU SỐ

113

Chương 4

BỘ SƯU TẬP VÀ BIÊN MỤC TÀI LIỆU SỐ 

1. CÁC KHÁI NIỆM  


Một sưu tập - collection: tập trung vào đối tượng số hóa, bao
gồm văn bản, hình ảnh và âm thanh cùng với phương thức truy cập,
truy hồi, chọn lọc, tổ chức, bảo trì sưu tập đó. Sưu tập do chuyên gia
thư viện tạo nên. Một sưu tập - collection thơng tin bao gồm nhiều tài
liệu dưới nhiều hình thức.
Một tài liệu - document: là thông điệp mang thông tin dưới hình
thức điện tử. Tài liệu là đơn vị cơ sở từ đó bộ sưu tập thơng tin được
xây dựng, mặc dù chúng có thể có những cơ sở hạ tầng và những tập
tin kết hợp riêng. Nói chung tài liệu bao gồm văn bản, hình ảnh, âm
thanh hay video.
Một bộ sưu tập thông tin: là một sưu tập bao gồm nhiều tài liệu
dưới nhiều dạng thức khác nhau: văn bản, hình ảnh, âm thanh, hình
ảnh động, tuy nhiên cung cấp một giao diện đồng nhất qua đó tất cả
các tài liệu có thể được truy cập, mặc dù cách mà tài liệu đó hiển thị sẽ
tuỳ thuộc vào phương tiện và dạng thức của tài liệu đó. Ví dụ muốn
đọc một văn bản PDF thì phải tích hợp trình ứng dụng Adobe Acrobat
hay muốn xem một đoạn video thì phải tích hợp trình ứng dụng
Windows Media Player, …


×