Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
49
MỘT SỐ VẤ ĐỀ VỀ SỐ HÓA TÀI LIỆU
Dương Duy Tiến – Cán bộ Thư viện tỉnh ghệ An
I. ĐẶT VẤ ĐỀ
Hiện nay, sự phát triển nhanh chóng của kĩ thuật công nghệ thông tin đã hỗ trợ đắc
lực cho nhu cầu truyền tin và khai thác thông tin dữ liệu của nhân loại. Trong đó, hệ
thống thông tin điện tử Intenet được mọi người quan tâm sử dụng nhiều nhất nhờ tính
thông dụng trong việc giao tiếp, tìm kiếm và đọc thông tin bằng tính năng ưu việt của
các phần mềm ứng dụng về quản lý, số hóa tài liệu.
Trên hệ thống thông tin điện tử Intenet không chỉ diễn ra sự giao tiếp, phổ cập
thông tin mà còn hình thành nên một thị trường thông tin hàng hóa rộng lớn, nhiều
tiềm năng. Bên cạnh đó, do yêu cầu của quá trình hội nhập đang diễn ra mạnh mẽ, việc
công khai minh bạch các văn bản, chính sách của nhà nước đến mọi đối tượng trở
thành vấn đề bắt buộc; Đặc biệt việc nâng cao chất lượng thông tin phục vụ nhu cầu
nghiên cứu quyết định đầu tư, sản xuất cho các nhà đầu tư trong và ngoài nước trên
lĩnh vực quản lý nhà nước, kinh tế, văn hóa, xã hội, lịch sử truyền thống cần phải được
chú trọng; Một trong những nguồn thông tin được các nhà đầu tư quan tâm nhiều nhất
là thông tin từ tài liệu lưu trữ.
Mặt khác dưới góc độ quản lý nhà nước, việc bảo quản và sử dụng có hiệu quả giá
trị tài liệu lưu trữ có ý nghĩa cực kỳ quan trọng đối với kinh tế, xã hội, lịch sử của mỗi
quốc gia và địa phương. Vì vậy, song song với chương trình cung cấp thông tin không
thụ động thông qua hệ thống thông tin điện tử Intenet (Trang Web điện tử) và hệ thống
thông tin viễn thông thì việc ứng dụng các công nghệ, kĩ thuật hiện đại vào bảo quản
lâu dài các tài liệu có giá trị (dần thay cho phương pháp bảo quản truyền thống) trở
thành một nhiệm vụ cấp bách của công tác lưu trữ.
Hiện nay, một số Thư viện lớn trong nước như Thư viện Quốc gia, Thư viện tổng
hợp Hồ Chí Minh, các Trung tâm lưu trữ đã ứng dụng việc lưu trữ tài liệu dưới dạng
số hóa thông qua các phần mềm xử lý chuyên. Với hệ thống lưu trữ điện tử, tài liệu lưu
trữ đã phát huy tối đa hiệu quả trong việc phục vụ vào lợi ích phát triển kinh tế, văn
hóa và giáo dục truyền thống lịch sử cho thế hệ trẻ.
Nghệ An là tỉnh có diện tích lớn nhất Việt Nam thuộc vùng Bắc Trung Bộ, phía
bắc giáp tỉnh Thanh Hóa, phía nam giáp tỉnh Hà Tĩnh, phía tây giáp Lào, phía đông
giáp biển Đông. Nghệ An là mảnh đất có truyền thống hiếu học, có nhiều dòng họ,
nhiều làng học nổi tiếng, là cái nôi sản sinh ra cho đất nước nhiều danh tướng, lương
thần, nhiều nhà khoa học, nhà văn hóa có tầm cỡ quốc gia và quốc tế. Là nơi hội tụ và
tích lũy các giá trị vật chất và tinh thần tạo nên một không gian văn hóa, một số di sản
tài liệu quý hiếm, nhất là tài liệu Hán Nôm phong phú và đặc sắc của Việt Nam. Tuy
nhiên, nhiều di sản tài liệu quý hiếm đó đang bị hủy hoại dần và có nguy cơ bị mất đi
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
50
theo thời gian. Khá nhiều tài liệu trên địa bàn tỉnh bị thất thoát và tiêu hủy trong thời
kỳ chiến tranh, một số hư hỏng do thiên tai, lũ lụt và do khí hậu khắc nghiệt của miền
Trung. Kho sách địa chí Thư viện Nghệ An có 10.000 bản trong đó có hàng trăm cuốn
sách quý như Hán Nôm, sách báo xuất bản trong Kháng chiến chống Pháp… cũng khó
bảo quản do thiếu phương tiện bảo quản hiện đại.
Vì vậy, trong bài viết này tôi mạnh dạn xin trao đổi một số vấn đề quan tâm hiện
nay đối với công tác số hóa tài liệu trên địa bàn tỉnh Nghệ An vì mục đích bảo quản và
phục vụ rộng rãi trong cộng đồng.
II. MỘT SỐ KHÁI IỆM CƠ BẢ
Số hóa là gì? vì sao phải số hóa tài liệu?
Theo khái niệm của công nghệ thông tin thì số hóa là việc biến đổi các loại hình
thông tin sang thông tin số (các bit thông tin dữ liệu). Các loại hình tài liệu (giấy, ảnh,
phim…) sau khi qua công đoạn xử lý bằng các thiết bị chuyên ngành và phần mềm
ứng dụng sẽ được số hóa thành các bit mang thông tin dữ liệu trên đường truyền
Intenet, tạo nên những cơ sở dữ liệu mở, dễ dàng tìm kiếm, trao đổi và chia sẻ kiếm
thức một cách thuận tiện nhất.
Hiện nay, khối kiến thức khổng lồ của nhân loại hình thành trong hàng trăm năm
nay, trong đó có cả tài liệu lưu trữ đang tồn tại dưới dạng tài liệu giấy như: Văn bản,
sách, hình ảnh… trở thành một sự cản trở rất lớn cho người khai thác sử dụng bởi tính
hữu dụng, khả năng tiếp cận xã hội rất hạn chế. Mặt khác, các tài liệu ở dạng này phải
chịu tác động cơ học của con người, môi trường nên việc lưu giữ, kéo dài thời gian
tuổi thọ của tài liệu đòi hỏi rất công phu, tốn kém. Và như đã nói ở trên, các dữ liệu
được đưa lên hệ thống thông tin điện tử dưới dạng hàng hóa thông tin cũng phải tuân
theo những quy luật cạnh tranh nhất định.
Tuy nhiên, chúng ta cũng dễ dàng nhận thấy, việc quản lý và cung cấp thông tin tài
liệu lưu trữ điện tử chứa đựng những rủi ro như: Cơ sở dữ liệu bị xóa, thông tin bị
chỉnh sửa…Chính vì vậy cần thiết kế một hệ thống lưu giữ tránh tình trạng xâm nhập
trái phép, thực hiện chế độ quản lý tài liệu điện tử như là một bộ phận tổng thể các hồ
sơ tài liệu, thông tin của cơ quan và cần có khuôn khổ chiến lược đối với tài liệu lưu
trữ điện tử. Theo khái niệm của các chuyên gia, hệ thống lưu giữ tài liệu điện tử là một
quy trình khép kín giúp các tài liệu được an toàn và được quản lý để tài liệu đó cùng
với các thông tin, hoàn cảnh và cấu trúc của nó sẽ được giữ lại (Tính xác thực, độ tin
cậy, tính an toàn, mối quan hệ với các đối tượng dữ liệu có liên quan, tính hữu dụng và
khả năng tiếp cận). Tổ chức tiêu chuNn quc t (ISO) ã chính thc ban hành tiêu
chuNn quc t v công tác văn thư ISO 15489, trong tiêu chuNn này cũng ã ưa ra mt
chuNn mc các cơ quan, t chc có th s dng nhm ánh giá thc tin và h
thng lưu tr tài liu in t.
N hư chúng ta ã bit, công tác s hóa tài liu ã và ang t ra nhim v cp bách
trưc nhng nguy cơ hư hng, xung cp trm trng do nhiu tác ng trong ó có
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
51
môi trưng. Vy làm th nào bo qun ưc vn tài liu này, ó là nhim v ca
chúng tôi và ca tt c các bn nht là nhng ngưi làm công tác Thư vin.
Trưc ht, công vic này có hiu qu, cn có s quan tâm ca lãnh o các a
phương, ban ngành và chú ý nâng cao ý thc ca cán b, nhân viên v qun lý, bo v
tài liu lưu tr in t (Trong h thng qun lý cht lưng ISO cơ quan hành chính
N hà nưc rt chú trng n vn này) bng cách xây dng quy ch v qun lý tài
liu in t trong ơn v, phân cp mt cách c th trách nhim và quyn hn x lý,
tip cn h sơ, tài liu in t. Các tài liu in t ca mi cá nhân phi ưc lp h sơ
công vic mt cách rõ ràng dưi s h tr ca phn mm ng dng (Ví d phn mm
h sơ công vic). Mt yu t na quyt nh cht lưng, hiu qu ca vic ng dng
công ngh thông tin vào bo qun, khai thác s dng tài liu lưu tr in t là s h
tr c lc và phi hp cht ch ca cán b tin hc.
xây dng tài liu s phc v lâu dài, n nh và hp lý nht thì ta phi s dng
mt gii pháp qun lý tài liu s trên cng giao tip in t mà sn phNm ca nó là các
b sưu tp s, các cơ s d liu in t.
Vậy như thế nào là Bộ sưu tập số?
B sưu tp s là mt tp hp có t chc nhiu tài liu ã ưc s hóa dưi nhiu
hình thc khác nhau (dng text, hình nh, audio…) v mt ch nào ó.
N hư vy, mt thư vin s có th bao gm nhiu b sưu tp theo các ch khác
nhau, có th do tp th hoc cá nhân t xây dng hoc trao i, mua bán; có th nm
trong lưu tr ca ơn v hoc nm ngoài ơn v (thông qua mt kênh cung cp khác).
III. QUY TRÌH THỰC HIỆ
công tác bo qun, khai thác s dng tài liu lưu tr in t ít tn kém, công
vic u tiên chúng ta cn phi làm là h sơ, tài liu hình thành trong x lý công vic
ca tng cá nhân phi ưc phân loi và qun lý thng nht trong h thng cơ s d
liu. Tuyt i không t ý xóa hoc thay i thông tin ca tài liu, hàng năm tin hành
ánh giá, x lý cht lưng và chng xâm nhp ca tác nhân gây hi. Các h sơ, tài liu
in t n hn np lưu s ưc chuyên giao y cho cơ quan ph trách lưu tr
phân loi, lp mã s in t bo qun trong h thng lưu tr in t; N hư vy chúng ta
s gim i công on tn kém s hóa t tài liu giy sang tài liu in t.
1. Lựa chọn tài liệu
i vi Thư vin, vic s hóa toàn b kho sách là iu khó thc hin, ó là mt
thc t không th ph nhn. Do ó, chúng ta cn phi ưa ra các tiêu chí làm căn c
la chn tài liu cn thit s hóa, c th có nhng tiêu chí mà ta cn quan tâm:
* Các loại tài liệu đặc biệt
Là nhng loi tài liu c bn, tài liu quý him, tài liu có thi gian xut bn ã
lâu như: Tài liu Hán N ôm, a chí, Tài liu xut bn trong kháng chin chng Pháp
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
52
* ội dung tài liệu
La chn các ch theo ni dung tài liu như: Khoa hc xã hi, Khoa hc t
nhiên, N ông nghip, Khoa hc kĩ thut, tài liu có tn sut s dng cao
* Điều kiện bảo quản
Tùy vào tình hình c th ca tng thư vin mà quyt nh la chn tài liu ưa vào
như ưu tiên các loi tài liu trên giy d rách nát
* Tình trạng bản quyền
Vn bn quyn thc s ang là rào cn làm nhng ngưi có tâm huyt vi vic
s hóa nn lòng. iu ó xy ra vì chúng ta chưa nm vng nhng quy nh c th v
vic bo h quyn tác gi a phương. Chúng ta có th tham kho Khon a, iu 25
Lut s hu trí tu năm 2005
* hóm người dùng
Cũng tùy vào tng thư vin mà chúng ta xác nh mc ưu tiên phc v như: Cán
b lãnh o, cán b nghiên cu, Cán b kĩ thut, Sinh viên, Giáo viên và các i tưng
khác
2. Lựa chọn công nghệ
Vic la chn công ngh phi áp ng ưc các yêu cu:
- tin cy
- Thun tin, d s dng
- áp ng y các yêu cu v chuNn nghip v Thư vin
- Phân quyn, bo mt
- Trao i d liu
Cơ s h tng: H thng Internet, h thng máy ch, cng giao tip in t, phn
mm thư vin.
3. Số hóa nguồn tài nguyên
ây là công on òi hi s cNn thn, t m qua nhiu giai on và phi u tư
nhiu công sc, kinh phí. Hin nay thit b s hóa ã có nhng bưc tin rõ rt, nu
trưc ây s hóa mt cun sách dày 2000 trang thì phi mt gn 1 tun scan tng
trang nhưng hin nay cũng vi cun sách ó ch mt vài gi là cho ra mt sn phNm s
m bo cht lưng tt, sc nét, hình nh p, ging 100% bn gc và c bit còn cho
phép t ng to các siêu d liu mô t và siêu d liu cu trúc ca tài liu nh
dng XML. Hin nay Vit nam ã có các thit b s hóa tài liu ca công ngh
KIRTAS APT 1200, công ngh này cùng vi thit b BookScan APT 1200 có th giúp
các thư vin có th s hóa ngun tài liu vi s lưng ln, giá c hp lý và m bo
cht lưng, thit b nhn dng quang hc OCR. c bit là công ngh KIRTAS APT
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
53
1200 có mt phn mm biên tp BookScan Editor cho phép t ng biên tp, to siêu
d liu theo yêu cu; BookScan APT 1200 không làm hư hng tài liu gc do không
phi tháo gáy tài liu i vi tài liu có dày trang khi thc hin Scan.
4. Biên mục và thiết lập các siêu dữ liệu liên kết
* Tạo siêu dữ liệu
Có 3 dng siêu d liu: Siêu d liu mô t (mô t các thông tin v tài liu); Siêu d
liu cu trúc (mô t liên kt gia các i tưng thông tin như mc lc, chương,
phn…) và Siêu d liu qun tr (kích c tp tin, nh dng tài liu)
* Mô tả dữ liệu
Có th mô t tài liu theo mt trong các chuNn: MARC, Dublin Core
Vi s phát trin mnh m ca khoa hc và công ngh, cùng vi xu th hi nhp là
nhng òi hi và thách thc cho ngành Thông tin thư vin, nó òi hi phi có nhng
i mi hot ng, bt kp nhng tin b ca thi i, phc v c lc cho s nghip
công nghip hóa, hin i hóa t nưc.
IV. KẾT LUẬ
công tác bo qun, khai thác s dng tài liu lưu tr in t ít tn kém, công
vic u tiên chúng ta cn phi làm là lp và x lý h sơ, tài liu hình thành trong x
lý công vic ca tng cá nhân phi ưc phân loi và qun lý thng nht trong h
thng cơ s d liu. Tuyt i không t ý xóa hoc thay i thông tin ca tài liu, hàng
năm tin hành ánh giá, x lý cht lưng và chng xâm nhp ca tác nhân gây hi.
Các h sơ, tài liu in t n hn np lưu s ưc chuyên giao y cho cơ quan
ph trách lưu tr phân loi, lp mã s in t bo qun trong h thng lưu tr in t;
N hư vy chúng ta s gim i công on tn kém s hóa t tài liu giy sang tài liu
in t.
Xây dng h thng bo qun, khai thác s dng tài liu in t song song vi bo
qun tài liu giy hin nay tr thành vn rt ưc quan tâm ca các quc gia tiên
tin. i vi chúng ta, công tác này i vào n np, cn có s ch o thng nht, s
n lc ca các a phương, ban ngành và ý thc trách nhim ca tng cán b công
chc i vi tài liu in t nhm tng bưc ưa công tác này theo hưng hin i./.