Tải bản đầy đủ (.doc) (77 trang)

Khóa Luận Tốt Nghiệp Ngành Thông Tin Thư Viện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.77 MB, 77 trang )

Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

LỜI CAM ĐOAN
Tôi xin cam đoan nội dung Khóa luận do bản thân tự nghiên cứu, tìm tòi
và học hỏi, dưới sự hướng dẫn và chỉ bảo của giáo viên hướng dẫn. Đề tài nghiên
cứu Bảo quản thông tin số mang tính mới, chưa có khóa luận nào nghiên cứu
trước đây. Trong quá trình thực hiện khóa luận, bên cạnh sự cố gắng nỗ lực
không ngừng của bản thân, tôi đã luôn nhận được sự động viên và giúp đỡ nhiệt
tình từ phía các thầy cô giáo, gia đình và bạn bè. Qua đây, tôi xin được gửi lời
cảm ơn chân thành tới các thầy cô giáo và các bạn học khoa Thông tin – Thư
viện khóa 2005-2009, đồng thời, tôi xin chân thành cảm ơn các thầy cô giáo, cô
chú cán bộ công tác tại Trung tâm Thông tin Khoa học và Công nghệ Quốc gia,
Trung tâm Học liệu Tổng hợp trường Đại học Quốc tế RMIT Việt Nam, xin chân
thành cảm ơn chị Hoàng Tuyết Anh và tiến sỹ Dan Doner đã chỉ bảo và tạo điều
kiện giúp tôi hoàn thành khóa luận của mình.
Đặc biệt, tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới cô giáo, Thạc
sỹ Nguyễn Thị Thúy Hạnh đã tận tình hướng dẫn, động viên và giúp đỡ tôi trong
suốt thời gian thực hiện khóa luận này.

Hà Nội, ngày 18 tháng 5 năm 2009
Sinh viên
Nguyễn Thu Anh

1


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện



DANH MỤC BẢNG BIỂU, ĐỒ THỊ, SƠ ĐỒ
ĐƯỢC THỂ HIỆN TRONG KHÓA LUẬN
Trang
12
17

Hình 1: Mô hình Đối tượng số
Hình 2: Sơ đồ biểu diễn mối quan hệ
Người dùng tin (Users) – Quyền (Right) – Nội dung thông
tin số (Content)
Hình 3: Sơ đồ quan hệ giữa công cụ truy nhập số và cán bộ

43

thư viện số
Hình 4: Sơ đồ thể hiện nhiệm vụ, kỹ năng và vai trò cán bộ

47

thư viện số
Hình 5:So sánh vai trò người cán bộ thư viện truyền thống

48

và hiện đại
Hình 6: Biểu đồ phần trăm dân số sử dụng Internet tại Việt

70


Nam trong các năm 2005 đến 2008

2


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

MỤC LỤC

PHẦN MỞ ĐẦU
PHẦN NỘI DUNG
CHƯƠNG 1: ĐỊNH NGHĨA BẢO QUẢN SỐ. NỘI DUNG CÔNG

Trang
6
10

TÁC BẢO QUẢN SỐ
1.1 Định nghĩa bảo quản số và các vấn đề liên quan
1.1.1 Định nghĩa bảo quản số
1.1.2 Đối tượng số
1.1.3 Số hóa và quy trình số hóa
1.1.3.1 Lợi thế quan trọng của việc số hóa tài liệu
1.1.3.2 Quy trình số hóa tài liệu
1.1.4 Bảo quản số và bảo quản truyền thống
1.2 Nội dung công tác bảo quản số
1.2.1 Lựa chọn thông tin đưa vào bảo quản
1.2.2 Các nguyên nhân chủ yếu gây mất dữ liệu số

1.2.3 Bảo quản số
1.2.3.1 Làm mới dữ liệu (Refreshment)
1.2.3.2 Di trú dữ liệu (Migration)
1.2.3.3 Phần mềm đa chức năng (Emulation)
1.2.3.4 Bảo quản công nghệ (Technology Preservation)
1.3 Khảo sát Nhận thức vấn đề bảo quản thông tin số tại Trung tâm

10
10
10
11
12
13
14
21
22
22
23
25
25
26
28
28

Thông tin Khoa học và Công nghệ Quốc gia
1.3.1 Cách hiểu khái niệm Bảo quản số
1.3.2 Đánh giá lợi thế của tài liệu số hóa
1.3.3 Nguyên nhân gây mất dữ liệu số
CHƯƠNG 2: VAI TRÒ NGƯỜI CÁN BỘ THƯ VIỆN SỐ VÀ CÁC


31
33
36
37

KỸ NĂNG CẦN THIẾT ĐỐI VỚI NGƯỜI CÁN BỘ THƯ VIỆN
SỐ
2.1 Vai trò người cán bộ thư viện số
2.2 Các kỹ năng cần thiết với người cán bộ thư viện số
2.2.1 Công cụ truy nhập thư viện số và các nguồn thông tin số cho
cán bộ thư viện

32
32
34
35

3


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

2.2.2 Năng lực và kỹ năng của người cán bộ thư viện số
2.2.2.1 Kỹ năng quản lý

37
37


2.2.2.2 Các kỹ năng về công nghệ
2.2.2.3 Kỹ năng tìm kiếm và đánh giá
2.2.2.4 Dịch vụ khách hàng
2.2.2.5 Các kỹ năng khác
2.3 So sánh sự khác nhau giữa cán bộ thư viện số và cán bộ thư viện

37
39
39
40

truyền thống
2.4 Khảo sát Nhận thức vai trò của người cán bộ thư viện số tại Trung

41

tâm Thông tin Khoa học và Công nghệ Quốc gia

50

CHƯƠNG 3: CÔNG TÁC BẢO QUẢN SỐ TRÊN THẾ GIỚI VÀ
THỰC TIỄN TẠI VIỆT NAM
3.1 Nhìn ra công tác bảo quản số trên thế giới
3.1.1 Các chương trình bảo quản số tại Thư viện Quốc gia New

55
55

Zealand
3.1.1.1 Trang web MATAPIHI

3.1.1.2 Website lưu trữ - Một phần của chương trình lưu trữ số

55
56

Thư viện Quốc gia New Zealand
3.1.2 Các dự án số hóa và bảo quản số thuộc Thư viện Quốc hội Mỹ
3.1.2.1 Chương trình Ký ức Mỹ (American Memory)
3.1.2.2 Chương trình Xây dựng hạ tầng và Bảo quản thông tin

59
61
62

số Quốc gia thuộc Thư viện Quốc hội Mỹ
3.2 Công tác bảo quản số tại Việt Nam
3.2.1 Xu hướng tiếp cận thông tin số tại Việt Nam hiện nay
3.2.2 Một số khuyến nghị và giải pháp đối với công tác bảo quản số
3.2.2.1 Những thuận lợi sẵn có
3.2.2.2 Những khó khăn tồn tại
3.2.2.3 Một số khuyến nghị và giải pháp
PHẦN KẾT LUẬN
DANH MỤC TÀI LIỆU THAM KHẢO
PHỤ LỤC

67
70
70
72
72

73
74
77
78

4


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

PHẦN MỞ ĐẦU
1. Tính cấp thiết của đề tài
Trong thời đại ngày nay, khi nhìn vào lĩnh vực công nghệ ở bất kỳ quốc gia
nào trên thế giới, chúng ta đều thấy một số điểm tương đồng rõ rệt: các mạng
lưới liên kết và băng thông ngày càng mở rộng, công nghệ thông tin đặc biệt phát
triển… dẫn đến sự truy cập tới các nguồn thông tin điện tử gia tăng một cách
nhanh chóng.
Không chỉ dừng lại trong phạm vi một đất nước, nhu cầu sử dụng thông tin
điện tử tăng nhanh mạnh mẽ trên phạm vi toàn cầu thôi thúc các quốc gia trên
thế giới hợp tác chia sẻ nguồn lực, phát triển liên kết mạng toàn cầu. Sự phát
triển đó cho phép kết nối mạnh và rộng rãi, ví dụ như ở Việt Nam có thể truy cập
tới mạng thông tin Úc, New Zealand, hay thậm chí tới Nhà Trắng - Mỹ.
Sự phát triển công nghệ không những cho phép gia tăng số lượng truy cập,
mà còn gia tăng khối lượng thông tin. Bằng chứng là hiện nay, khối lượng thông
tin trên mạng đạt con số khổng lồ, khó có một phần mềm hay giải pháp nào có
thể thống kê được. Tuy nhiên, số lượng khổng lồ không đồng nghĩa với chất
lượng cũng “khổng lồ”. Làm thế nào để chúng ta có được nguồn thông tin trên
mạng với chất lượng tốt nhất? Và một khi chúng ta có cơ hội truy cập vào nguồn

tin tốt nhất đó, những gì chúng ta thu được sẽ làm thay đổi cách sống, hiệu quả
học tập, làm việc của mỗi người.
Thông tin số còn được tạo ra nhanh hơn cả tốc độ phát triển công nghệ. Sự
ra đời ồ ạt đó tất yếu dẫn đến một môi trường thông tin số khó kiểm soát, khiến

5


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

cho việc sử dụng thông tin số luôn đi kèm với sự nghi ngờ chất lượng của chúng.
Do đó, mỗi quốc gia cần đặt ra vấn đề kiểm soát và quản lý nguồn thông tin đó
như thế nào. Tựu trung lại, việc sử dụng hiệu quả nguồn thông tin số đặt ra vấn
đề bảo quản kỹ thuật số, bởi bảo quản số không chỉ là bảo quản nội dung, mà
còn bảo quản cả công nghệ và khả năng truy cập đến thông tin số. Hơn lúc nào
hết, việc bảo quản số cần phải được tính toán cẩn thận và có sự quan tâm đúng
đắn.

2. Mục tiêu và nhiệm vụ nghiên cứu
Tác giả đưa ra một sự giới thiệu tổng hợp cách thức tạo nên thông tin dạng
số hay quy trình số hóa tài liệu, các nhân tố ảnh hướng tới thông tin số và cách
xử lý chúng. Nội dung nghiên cứu không nhằm cung cấp danh sách các phương
pháp và thực hành chi tiết trong công tác bảo quản, mà chỉ đề cập tới những vấn
đề cơ bản hỗ trợ hoạt động này. Ngoài ra, khóa luận đưa ra một số tiêu chuẩn về
kỹ năng và năng lực cần có để đảm nhận vai trò người cán bộ thư viện số tương
lai.
Công trình được thực hiện nhằm khuyến khích cán bộ thư viện làm công
tác bảo quản nói riêng và toàn bộ cá nhân sỡ hữu thông tin số nhận biết những

tác nhân gây hại, đối mặt với chúng. Cùng với khoa học công nghệ kỹ thuật tiên
tiến, hiện đại sẽ xây dựng một chính sách bảo quản số hợp lý và thiết thực nhất
cho thư viện mình.
Tựu trung lại, bài nghiên cứu đặt ra các vấn đề sau:
- Hiểu được khái niệm “Bảo quản số” và các vấn đề liên quan;
- Nắm được những nhân tố gây hủy hoại tài liệu số;
6


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

- Phương pháp bảo quản cơ bản để hạn chế tối thiểu mất mát;
- Vai trò người cán bộ thư viện số;
- Nhìn ra công tác bảo quản trên thế giới;
3. Tình hình nghiên cứu theo hướng đề tài
Thông tin số đã và đang tiếp tục được nghiên cứu dưới nhiều khía cạnh
khác nhau, tuy nhiên Bảo quản thông tin số là một đề tài mới, quá trình nghiên
cứu và khảo sát thực tế đã cho thấy hầu như chưa có một đề tài khoa học nào
nghiên cứu về vấn đề này.

4. Đối tượng và phạm vi nghiên cứu
Bảo quản có thể nghiên cứu dưới nhiều khía cạnh: bảo quản các dạng in
ấn, bảo quản tài liệu điện tử, các dạng tài liệu không in ấn… Đối tượng và phạm
vi nghiên cứu của đề tài là vấn đề bảo quản thông tin số ; các nguyên nhân chính
yếu dẫn đến sự biến mất thông tin số, cũng như bước đầu hướng dẫn cách giảm
thiểu sự mất mát này. Bên cạnh quá trình khảo sát thực tế tại Trung tâm Thông
tin Khoa học và Công nghệ Quốc gia, tác giả nghiên cứu một số dự án bảo quản
số của Thư viện Quốc gia New Zealand và Thư viện Quốc hội Mỹ.

5. Cơ sở lý luận và phương pháp nghiên cứu
- Khóa luận được viết trên cơ sở phương pháp luận chủ nghĩa duy vật biện
chứng và duy vật lịch sử của Triết học Mác Lê Nin
- Phương pháp nghiên cứu của khóa luận:
+ Nghiên cứu tài liệu
+ Tổng hợp, phân tích, đánh giá
7


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

+ Khảo sát thực tế bằng phiếu hỏi và phỏng vấn trực tiếp

6. Đóng góp về lý luận và thực tiễn
- Về lý luận: Khẳng định tầm quan trọng và vai trò của công tác bảo quản
tài thông tin trong kỷ nguyên số, làm nổi bật vai trò quan trọng của người cán bộ
thư viện hiện đại.
- Về thực tiễn: Đưa ra cái nhìn cụ thể về các dự án bảo quản thông tin số
trên thế giới. Khảo sát mức độ nhận thức vấn đề bảo quản số nói chung và kỹ
năng cần có của người cán bộ thư viện số hiện đại. Dựa trên công trình nghiên
cứu, các cá nhân hoặc tổ chức có thể tự xây dựng cho mình một dự án số hóa tài
liệu và đề ra các biện pháp bảo quản thông tin số hiệu quả.
7. Bố cục của khóa luận
Ngoài phần mở đầu, kết luận, danh mục tài liệu tham khảo và phần phụ lục, nội
dung của khóa luận được chia làm 5 chương:
Chương 1: Định nghĩa bảo quản số. Nội dung công tác bảo quản số.
Chương 2: Vai trò người cán bộ thư viện số và các kỹ năng cần thiết đối với
người cán bộ thư viện số.

Chương 3: Công tác bảo quản số trên thế giới và xu hướng tiếp cận thông tin số
tại Việt Nam hiện nay.

8


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

PHẦN NỘI DUNG
CHƯƠNG 1: ĐỊNH NGHĨA BẢO QUẢN SỐ.
NỘI DUNG CÔNG TÁC BẢO QUẢN SỐ

1.1 Định nghĩa bảo quản số và các vấn đề liên quan
1.1.1 Định nghĩa bảo quản số
Bảo quản số hay bảo quản thông tin số không phải là một chủ đề mới được
quan tâm trên thế giới. Hiệp hội lữu trữ New Zealand đưa ra một tuyên bố quan
trọng trên trang web chính thức của mình như sau:
“Thông tin số cần được quản lý và quan tâm một cách chủ động ngay từ
đầu. Tuy nhiên, sự bàng quan của người ngoài thường xuyên xuất hiện, điều này
sẽ gây ra hậu quả khôn lường với thông tin số”.
Hiệp hội thư viện Mỹ (American Library Association) đưa ra hai định
nghĩa Bảo quản số: Định nghĩa ngắn gọn và định nghĩa đầy đủ.
- Định nghĩa ngắn gọn:
“ Bảo quản số là sự kết hợp các chính sách, chiến lược và hành động
nhằm đảm bảo sự truy cập tới nội dung số qua thời gian”
- Định nghĩa đầy đủ:
“Bảo quản số là sự kết hợp các chính sách, chiến lược và hành động để
đảm bảo tính chân thực, chính xác của nội dung thông tin qua thời gian, bất

9


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

chấp sự thay đổi của công nghệ hoặc sự lỗi thời của nó. Bảo quản số áp dụng
chung cho tài liệu số hóa nguyên gốc (born digital materials) và tài liệu số là kết
quả của quy trình số hóa (digitalized materials)”
Hiệp hội bảo quản số Anh Quốc đưa ra định nghĩa về bảo quản số như
sau:
“Bảo quản số là một loạt những hoạt động quản lý cần thiết để đảm bảo
việc truy cập liên tục tới tài liệu số cho đến khi còn cần thiết”
Các định nghĩa trên nhấn mạnh tới hai khía cạnh: đảm bảo độ chính xác
nội dung số và tính truy cập liên tục tới thông tin số. Có nghĩa là, bảo quản thông
tin số là phải đảm bảo một thông tin số còn có thể truy cập được và truy cập liên
tục cho đến khi thông tin số đó không còn có giá trị nữa.
Trên thực thế, luôn luôn tồn tại những tài liệu cần sử dụng trong thời gian
dài với tần suất cao, tuy nhiên một số khác chỉ cần dùng trong khoảng thời gian
ngắn, sau đó trở nên vô giá trị, vì vậy điều quan trọng là việc lựa chọn tài liệu sẽ
được lưu trữ dưới dạng số và lưu trữ chúng trong bao lâu.
1.1.2 Đối tượng số
Trong một thư viện điện tử hay thư viện số, thông tin sau khi số hóa sẽ
được lưu trữ như những “Đối tượng số”. Một đối tượng số trong kho dữ liệu
thường có hai phần: phần nội dung và siêu dữ liệu đi kèm (trong môi trường thư
viện điện tử, siêu dữ liệu chính là thông tin thư mục) [6]

10



Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

SIÊU DỮ LIỆU
ĐỐI TƯỢNG
SỐ

NỘI DUNG

Hình 1. Mô hình Đối tượng số

1.1.3 Số hóa và quy trình số hóa
Số hóa hiểu đơn giản là việc chuyển đổi một dạng nào khác của thông tin,
như thông tin dạng in ấn trên giấy hay dạng analogue, thành thông tin dạng số.

Số hóa

11


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

Quy trình này gồm 3 giai đoạn chính:
1. Chuyển đổi từ tài liệu dạng giấy (hardcopy) sang dạng ảnh kỹ thuật số.
Công việc này được gọi là Quét (scanning);
2. Chuyển đổi từ dạng ảnh kỹ thuật số sang dạng văn bản, sử dụng phần

mềm Nhận biết ký tự quang học (Optical Character Recognition – OCR);
3. Hiệu chỉnh lỗi và căn chỉnh văn bản (Proof-reading).
Tài liệu dạng giấy có thể là sách, báo, tạp chí, tờ rời, ảnh, bức vẽ bằng bút
và các văn bản viết tay.
1.1.3.1 Lợi thế quan trọng của việc số hóa tài liệu
- Một điều dễ nhận thấy là tài liệu dạng số “linh hoạt” hơn tài liệu in ấn
nhiều lần. Chúng có thể hiện thị trên màn hình máy tính, sửa chữa và in ra.
- Tài liệu dạng số chia sẻ một cách dễ dàng ; nhân làm nhiều bản nhanh
chóng, ít tốn chi phí ; cập nhật vào các cơ sở dữ liệu trực tuyến thư viện, truyền
qua Intranet hoặc Internet…
- Tài liệu dạng số dễ lưu trữ và lấy ra. Hàng trăm tài liệu dưới dạng số có
thể lưu trữ chỉ trên một đĩa CD-ROM hoặc ổ cứng dung lượng tương đối.
- Ngoài ra, người dùng tin tìm kiếm tài liệu dễ dàng và nhanh chóng hơn
bằng cách sử dụng các tiện ích tìm kiếm của máy tính điện tử.
- Việc biến đổi tài liệu sang dạng số giúp tránh được những hủy hoại trên
phương diện vật lý và sự thiếu cẩn thận của nhân viên thư viện cũng như người
dùng tin đối với tài liệu dạng giấy, đặc biệt là các văn bản viết tay hay tài liệu
quý hiếm.

12


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

1.1.3.2 Quy trình số hóa tài liệu
Số hóa tài liệu là một quy trình đòi hỏi nhiều thời gian, do đó cần chuẩn bị
một kế hoạch cẩn thận. Trước khi quyết định thực hiện dự án số hóa, mỗi tổ chức
hay cá nhân cần tự trả lời một số câu hỏi sau:

+ Mục đích hay lý do chính để số hóa tài liệu là gì? Tổ chức/cá nhân muốn
xây dựng một thư viện số hay chỉ đơn giản để bảo quản chúng?
+ Ai là người cần tới những tài liệu này và họ sẽ/muốn tiếp cận với chúng
bằng cách nào? Qua website, CD-ROM hay sách?
+ Quy mô như thế nào? Tại chỗ, trong khu vực hay toàn cầu?
+ Những tài liệu nào nên số hóa? Số lượng? Tài liệu có bao nhiêu bản?
+ Các tài liệu cần số hóa được viết dưới bao nhiêu ngôn ngữ khác nhau?
+ Có nhiều tranh ảnh không?
+ Tài liệu này đã có ở dạng số và đã phổ biến chưa?
+ Nếu đã có thì ở dạng format nào?
+ Tình trạng bản quyền của tài liệu?
+ Tài chính liệu có đủ cho toàn bộ dự án số hóa không?
+ Ai là người sẽ số hóa chúng? (Vấn đề nhân lực)
+ Sẽ bán hay miễn phí sản phẩm của dự án?
+ Dự án số hóa này chỉ là công việc tạm thời/diễn ra một lần hay sẽ tiếp
tục trong tương lai?

13


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

1.1.3.2.1 Các bước số hóa
Sau khi trả lời một số câu hỏi như trên, tức là đã xác định rõ mục tiêu
chương trình số hóa, bước tiếp theo là xây dựng một bản chi tiết quy trình hành
động hay các bước thực hiện dự án số hóa tài liệu.
Một dự án số hóa nên có các bước tuần tự như sau:


CHUẨN BỊ DỰ ÁN

TÍNH TOÁN CHI PHÍ ĐẦU TƯ

CHUẨN BỊ KẾ HOẠCH CHI TIẾT TỪNG GIAI
ĐOẠN VÀ NHIỆM VỤ CỤ THỂ

LỰA CHỌN TÀI LIỆU VÀ ĐỊNH DẠNG

TIẾN HÀNH SỐ HÓA TÀI LIỆU

XỬ LÝ SẢN PHẨM: HIỆU ĐÍNH, NHẬN
DẠNG QUANG HỌC….

CHUYỂN GIAO TÀI LIỆU SỐ HAY
TẠO KHẢ NĂNG TRUY CẬP CHO
NGƯỜI DÙNG TIN

14


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

1.1.3.2.2 Lựa chọn tài liệu số hóa
Đầu tiên, thư viện cần xác định tài liệu sẽ được số hóa. Không phải tất cả
tài liệu in trên giấy đều dễ dàng chuyển đổi thành dạng số. Bảng thông tin dưới
đây cung cấp một số gợi ý giúp kiểm tra mức độ số hóa tài liệu đơn giản hay
phức tạp.

Số hóa dễ dàng

Số hóa khó khăn

Tờ giấy riêng lẻ hoặc quyển sách tháo Quyển sách không tháo được gáy hoặc
được gáy
Bản in có độ rộng vừa đủ

gáy quá dày
Bản in nhỏ, kích cỡ thất thường, tài liệu

Giấy trắng, sạch sẽ, sáng sủa

đánh máy hoặc viết tay nham nhở
Giấy bẩn hoặc đã hư hỏng, rách nát;
màu nền quá rõ nét; giấy mỏng nhìn

xuyên trang tiếp theo
Văn bản có biểu đồ một hoặc hai cột; Văn bản có quá nhiều bảng biểu, tranh
không căn chỉnh, trang trí nhiều

ảnh, phương trình, lời chú thích cuối
trang; căn chỉnh, trang trí phức tạp, dày
đặc.

Thư viện cần đảm bảo việc số hóa này là có giá trị. Nghĩa là, cần đảm bảo
tài liệu lựa chọn số hóa chứa những thông tin cần thiết và hữu ích.

 Một số lưu ý khác khi số hóa tài liệu


15


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

Cẩn thận với vấn đề bản quyền. Hiện nay, hầu hết các xuất
bản phẩm (đặc biệt với các ấn phẩm nước ngoài) đều đăng ký
bản quyền. Thư viện cần được sự cho phép của nơi giữ bản
quyền trước khi đưa chúng vào bộ sưu tập số. Nếu nghi ngờ
về bản quyền của bất kỳ tài liệu nào trong số đó, hãy hỏi lại
tác giả hoặc nhà xuất bản.
Lưu tâm tới vấn đề bảo mật. Số hóa tài liệu làm cho chúng dễ
dàng truy cập và sao chép. Một số loại tài liệu như Kết quả
nghiên cứu, chứng từ ngân quỹ… có thể là riêng tư. Thư viện
nên hạn chế quyền truy cập tới những tài liệu đó bằng cách
yêu cầu mật mã để mở và chỉnh sửa chúng.
Quyền
truy
cập
Sở hữu

Người
dùng
tin

Hình 2: Sơ đồ biểu
Người dùng tin
(Content)


Tiếp cận

N
g
ư
Nộidun

Tạo lập / Sử dụng
g
i
thôngtin
d
số
ù
n
g diễn mối quan hệ
t
i (Users) – Quyền (Right) – Nội dung thông tin số
n
d
ù
n
g
16
t
i


Khóa luận tốt nghiệp


Nguyễn Thu Anh _ K50 Thông tin - Thư viện

1.1.3.2.3 Lựa chọn định dạng tài liệu
Tiếp theo, thư viện cần lựa chọn định dạng cho tài liệu số. Lựa chọn tiêu
chuẩn thường giữa file hình ảnh và file văn bản. Dưới đây là các định dạng phổ
biến cho hai loại này:
+ Định dạng file ảnh (TIF, GIF, JPG/JPEG…): Thích hợp cho hình ảnh
hoặc văn bản viết tay. Tài liệu loại này thường không có nhu cầu tìm kiếm toàn
văn. File ảnh là sản phẩm trực tiếp từ việc quét tài liệu, nhưng ít hữu dụng hơn
dạng văn bản.
+ Định dạng file văn bản (HTML, XML, DOC, PDF…): Được tạo ra bằng
cách ứng dụng phần mềm OCR sau khi quét tài liệu. Loại này khó sản xuất hơn
nhưng hữu hiệu và dễ dàng sử dụng vì chúng cho phép tìm kiếm toàn văn. Hầu
hết file văn bản có thể sửa chữa bằng cách sử dụng các công cụ sửa chữa văn bản
chuyên dụng.

1.1.3.2.4 Trang thiết bị phục vụ dự án
- Thiết bị đầu tiên cần thiết cho công tác số hóa là máy quét (scanner);
- Máy quét và phần mềm OCR yêu cầu máy tính có cấu hình rất mạnh.
Chúng ta có thể quét hàng trăm tờ giấy chỉ cần tới một máy tính điện tử và một
máy scan. Tuy nhiên, với số lượng nhiều hơn, giả dụ như với hàng nghìn tờ giấy,
sẽ cần nhiều máy tính và máy quét hơn. Lúc này, số lượng máy tính điện tử với
cấu hình cao tăng lên rất nhiều;

17


Khóa luận tốt nghiệp


Nguyễn Thu Anh _ K50 Thông tin - Thư viện

- Sửa chữa và hiệu chỉnh văn bản tốn nhiều thời gian nhưng chỉ yêu cầu
máy tính có cấu hình bình thường, bởi vậy, máy tính cấu hình yếu hơn sẽ phục
vụ mục đích này;
- Thư viện cần trang bị ổ ghi CD hỗ trợ sao chép và sao lưu dữ liệu với
khối lượng lớn;
- Thiết lập mạng máy tính cho phép chia sẻ công việc tới những thành viên
khác nhau trong cùng một quy trình.
- Một số phần mềm chuyên dụng:
+ Phần mềm quét dữ liệu (Scanning Software): cài trực tiếp lên máy tính
điện tử nối với máy quét, giúp máy tính nhận biết máy quét;
+ Bộ xử lý văn bản (Word Processor) và Phần mềm kiểm tra chính tả
(Spellchecker): Cài trực tiếp lên máy tính điện tử nhằm phát hiện và sửa lỗi
chính tả, căn chỉnh lề văn bản (Gợi ý: Microsoft Word, Corel WordPerfect);
+ OCR: cài trực tiếp lên máy tính điện tử nhằm chuyển đổi văn bản dưới
dạng hình ảnh sang dạng văn bản chữ mà bộ xử lý văn bản có thể hiểu (Gợi ý:
ReadIris, OmniPage, FineReader);
+ Phần mềm quản lý ảnh: hỗ trợ chỉnh sửa, xem và quản lý ảnh (Gợi ý:
CompuPic, Kudo, ACDSee, PhotoShop, iPhoto…);
+ Chương trình chuyển dạng file: Hỗ trợ chuyển từ định dạng này sang
định dạng khác của cùng một tài liệu (Gợi ý: DoPDF…);
+ Adobe Acrobat: Đọc văn bản dạng PDF.
1.1.3.2.5 Chi phí số hóa
+ Chi phí trong thời gian chuẩn bị: thời gian chuẩn bị tài liệu gốc để sẵn
sàng số hóa (đóng gói, vận chuyển…);

18



Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

+ Chi phí xử lý tài liệu: tài liệu càng lớn (như bản đồ) thường dễ hỏng,
rách, nát (như tranh ảnh) sẽ tăng chi phí trong quá trình xử lý để số hóa;
+ Chi phí vận hành xử lý tự động;
+ Chi phí nhân lực;
+ Chi phí trang thiết bị;
+ Chi phí lưu trữ file (file càng lớn càng tốn kém chi phí ).
Ngoài ra, trong quá trình tiến hành dự án sẽ có nhiều chi phí khác phát
sinh. Công tác chuẩn bị dự án cần có dự trù cho các khoản phát sinh này.

1.1.3.2.6 Nguồn nhân lực
Dự án số hóa tài liệu hoàn chỉnh yêu cầu:
+ Người Quản lý dự án (Project Manager): Sắp xếp, phối hợp hoạt động
toàn nhóm và quản lý văn bản;
+ Người / Chuyên gia lựa chọn tài liệu số hóa (Selector);
+ Người nhập dữ liệu (Data entry technician);
+ Người / Chuyên gia biên mục (Cataloger): Tạo siêu dữ liệu hỗ trợ truy
nhập tài liệu;
+ Nhân viên với kỹ năng máy tính cơ bản và có tính kiên nhẫn cao phụ
trách việc quét tài liệu (Scanning technician or photographer);
+ Chuyên gia với kỹ năng máy tính cao làm việc với các phần mềm tạo ra
tài liệu số nói trên (Programmer Expert);

19


Khóa luận tốt nghiệp


Nguyễn Thu Anh _ K50 Thông tin - Thư viện

+ Người / Chuyên gia quản lý chất lượng nội dung (Quality Control
Expert);
+ Người quản trị mạng (Network Administrator): Đảm bảo an ninh mạng
và khả năng truy cập vào hệ thống;
+ Người thiết kế giao diện (Interface Designer).

Trước khi dự án số hóa đi vào hoạt động, cần tổ chức các khóa đào tạo
hoặc hội thảo nhằm giúp thành viên trong toàn nhóm nhận biết những kỹ năng
cần thiết với một vị trí bất kỳ. Hoạt động theo nhóm khuyến khích mọi thành
viên hiểu cơ bản công việc của từng vị trí, không nên ở vị trí nào thì chỉ quan
tâm và bám sát vị trí đó. Nên có sự tiếp cận, học hỏi để hiểu đầy đủ về toàn bộ
công việc trong dự án được giao.

1.1.4 Bảo quản số và bảo quản truyền thống
Điểm giống nhau giữa hai loại bảo quản nói trên là thao tác lựa chọn
những thông tin đưa vào bảo quản. Việc lựa chọn thông tin để bảo quản dựa vào
giá trị của thông tin (Điều này sẽ được trình bày kỹ hơn ở phần 1.2.1.)
Sự khác nhau cơ bản giữa bảo quản số và bảo quản truyền thống là dạng
bảo quản. Bảo quản truyền thống chỉ bảo quản tài liệu nguyên gốc, giữ tính
nguyên trạng ban đầu của tài liệu, càng lâu càng tốt. Trong khi đó bảo quản số là
bảo quản đường dẫn, công nghệ và bảo quản bản sao của thông tin đó.

20


Khóa luận tốt nghiệp


Nguyễn Thu Anh _ K50 Thông tin - Thư viện

1.2 Nội dung công tác bảo quản số
1.2.1 Lựa chọn thông tin đưa vào bảo quản
Như chúng ta biết, nội dung thông tin có ý nghĩa khi đặt trong bối cảnh cụ
thể. Việc thẩm định mức độ quan trọng của tài liệu đóng vai trò trung tâm, tác
động trực tiếp tới việc lựa chọn tài liệu như thế nào để bảo quản. Đánh giá tầm
quan trọng của đối tượng được số hóa là một quy trình tìm hiểu và nghiên cứu ý
nghĩa và giá trị của đối tượng, cũng như bộ sưu tập mà chúng ta muốn số hóa.
Khi nói đến tầm quan trọng của thông tin là việc xem xét thông tin đó giá
trị như thế nào, có đáng để chúng ta lựa chọn số hóa hay không? Khi lựa chọn
cần để ý đến ý nghĩa của thông tin, không thể và không nên số hóa bất kỳ thông
tin nào một cách ngẫu nhiên. Có nghĩa là, cần phải chú ý đến nội dung của nó
trong bối cảnh xã hội, mà ở đây là bối cảnh đất nước Việt Nam.
Quy trình thẩm định tầm quan trọng của thông tin chia thành 3 bước tăng
dần mức độ như sau:
+ Bước 1: Phân tích đối tượng. Bao gồm xem xét nội dung đối tượng, nói
về cái gì?
+ Bước 2: Hiểu được bối cảnh lịch sử của thông tin. Mỗi nền văn hóa có
lịch sử khác nhau, do đó những vấn đề cần quan tâm của mỗi nơi cũng khác
nhau.
+ Bước 3: Sau khi thực hiện hai bước trên, bước cuối cùng là xác định
xem thông tin đó có giá trị như thế nào với cộng đồng. Đây có thể gọi là bước
quan trọng nhất và khó khăn nhất. Ngay cả khi xác định giá trị cho cộng đồng thì
việc xác định mỗi cộng đồng quan tâm đến điều gì, muốn cái gì, cũng tốn thời
gian và công sức.
1.2.2 Các nguyên nhân chủ yếu gây mất dữ liệu số

21



Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

Giống như tài liệu dạng truyền thống có thể bị hư hỏng do thời tiết, vi sinh
vật, ý thức của con người…, tài liệu số cũng luôn đứng trước nguy cơ bị hư
hỏng, mất mát. Nếu như với sưu tập truyền thống, tài liệu hư hỏng theo thời gian,
mỗi ngày tình trạng hư hỏng tăng thêm một bậc, cán bộ bảo quản được cảnh báo
trước về tình trạng hư hỏng đó và có biện pháp khắc phục, thì thông tin dạng số
lại không như vậy. Tất cả có thể mất đi chỉ trong một vài tích tắc mà không cần
có một dấu hiệu nào của sự hư hỏng. Do đó, vấn đề bảo quản số đặt ra là một
công việc khó khăn, đòi hỏi công sức, tiền của và cả óc sáng tạo của con người.
Khoa học công nghệ phát triển, từng ngày từng giờ. Trong thế giới công
nghệ này, các phần mềm mới, khổ mẫu mới liên tiếp ra đời, giới thiệu tới cộng
đồng người sử dụng. Có nhiều khổ mẫu mới ra đời, cùng tồn tại song song với
phiên bản trước nó, nhưng đôi khi là ngược lại, phiên bản mới ra đời, phiên bản
trước dần dần trở nên lỗi thời và bị xóa bỏ. Giả sử, thông tin tổ chức được lưu
giữ dưới phiên bản đầu tiên của một phần mềm, một thời gian sau phần mềm
phát triển, phiên bản đầu trở nên lỗi thời, nếu tổ chức không kịp thời di chuyển
dữ liệu sang phiên bản mới hơn, dữ liệu sẽ không đảm bảo sự toàn vẹn của nó.
Như vậy, lỗi thời về công nghệ, lỗi thời về khổ mẫu, format dữ liệu là lý
do phổ biến dẫn đến sự biến mất của nhiều thông tin số.
Vấn đề con người và ý thức của họ cũng là một vấn nạn, một nguy cơ tiềm
tàng dẫn đến sự mất mát dữ liệu số. Con người là chủ thể sáng tạo ra các sản
phẩm công nghệ tiên tiến, hiện đại, là chủ thể nâng cấp khổ mẫu, cho ra đời các
phiên bản mới, ngày càng hoàn hảo hơn. Tuy nhiên con người cũng chính là đối
tượng mang lại nguy hiểm cho nguồn tin số. Điển hình nhất chính là những
“Hacker” hay “Tin tặc”.
22



Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

“Hacker” là thuật ngữ được dùng để chỉ một người hay nhóm người sử
dụng sự hiểu biết của mình về cấu trúc máy tính, hệ điều hành, mạng, các ứng
dụng trong môi trường Internet ... để tìm lỗi, lỗ hổng bảo mật. Từ đó, họ dùng
công cụ virus, trojen, worm, spyware ... để xâm nhập vào máy tính người dùng
hoặc server của tổ chức, nhằm mục đích lấy cắp thông tin, phá hoại hoặc chỉ để
thỏa mãn sự chinh phục của mình.
Hacker viết ra virus. Một khi virus xâm nhập vào máy tính cá nhân, nguy
hiểm hơn là máy chủ của tổ chức, virus sẽ “ăn” toàn bộ hay một phần dữ liệu.
Mô hình hoạt động của virus là : Nhiễm - Ðược kích hoạt - Thường trú - Tìm đối
tượng để lây - Nhiễm. Trên thế giới đã ghi nhận rất nhiều trường hợp Hacker
xâm nhập vào server của ngân hàng, lấy thông tin cá nhân khách hàng, từ đó ăn
cắp hàng triệu đô-la sang tài khoản của mình. Kinh nghiệm thực thế cho thấy,
một khi nguồn thông tin số nào đó đã lọt vào “vòng quan tâm” của các hacker thì
mức độ an toàn của nguồn tin số đó rất mong manh.
Bên cạnh hai nguyên nhân nêu trên, còn rất nhiều nguyên nhân khác dẫn
đến sự biến mất dữ liệu số như thảm họa thiên nhiên, chấm dứt đầu tư viện trợ,
thay đổi trong nội bộ cơ quan - tổ chức, thay đổi cơ cấu nội dung thông tin, sự
thiết hiểu biết của con người… tất cả các nguyên nhân trên dù ở mức độ nặng
hay nhẹ đều là mầm mống dẫn tới sự biến mất thông tin số.

23


Khóa luận tốt nghiệp


Nguyễn Thu Anh _ K50 Thông tin - Thư viện

1.2.3 Bảo quản số
Khi đã nhận thức về một số nhân tố chủ yếu gây nguy hiểm tới tính toàn
vẹn của thông tin số, người sử dụng có thể xem xét việc áp dụng các giải pháp
sau nhằm giảm thiếu rủi ro, bảo quản tài liệu kỹ thuật số tốt nhất.
Phần cứng, phần mềm, phương tiện truyền thông, khổ mẫu tiếp tục phát
triển và thay đổi. Chúng ta nên luôn luôn trang bị kiến thức về sự thay đổi đó. Vì
vậy, cần theo dõi sự phát triển này thường xuyên; làm mới hoặc di trú các đối
tượng số ngay khi thấy cần thiết.
1.2.3.1 Làm mới dữ liệu (Refreshment)
Làm mới dữ liệu số là việc chuyển các file dữ liệu sang một dạng lưu trữ
mới cùng loại hoặc mới hơn. Công nghệ thường bị lỗi thời theo thời gian, trong
khi đó thông tin số cần được bảo đảm khả năng truy cập tới nó cho đến khi còn
cần thiết. Do đó, để đảm bảo truy cập lâu dài, nó phải luôn được chuyển sang
phương tiện lưu trữ mới hiện có và ổn định.

Làm mới dữ liệu

1.2.3.2 Di trú dữ liệu (Migration)
24


Khóa luận tốt nghiệp

Nguyễn Thu Anh _ K50 Thông tin - Thư viện

Khi quyết định sử dụng phương pháp làm mới dữ liệu số, cần xem xét tới
phương tiện lưu trữ dữ liệu số đó có sớm trở nên lỗi thời hay không? Một vài

trường hợp, phần cứng sử dụng hỗ trợ loại phương tiện đó có nguy cơ biến mất,
hoặc không còn được nhiều người sử dụng nữa. Đối với trường hợp này, dữ liệu
số nên được chuyển sang một khổ mẫu lưu trữ mới, hợp với tình hình thực tế.
Phương pháp chuyển đổi sang khổ mẫu mới được gọi là Di trú dữ liệu
(Migration).
Di trú dữ liệu là việc chuyển file dữ liệu số đã được mã hóa sang dạng
format khác để có thể sử dụng được trong môi trường máy tính hiện đại hơn (Ví
dụ như chuyển file văn bản Word 3.0 sang Word 5.0, rồi Word 97…, file văn
bản phần mở rộng *.doc sang phần mở rộng *.docx). Di trú dữ liệu hướng tới
việc chuyển các file ở dạng format cũ sang dạng format hiện hành.
Tuy nhiên, phần cứng cũ nên được giữ lại cho đến khi tất cả thông tin đã
được chuyển sang dạng format mới. Tránh trường hợp chưa chuyển xong đã loại
bỏ phần cứng cũ hay xóa bỏ phần mềm cũ.

.
Di trú dữ liệu

* Phân biệt Làm mới dữ liệu (Refreshment) và Di trú dữ liệu (Migration).

25


×