Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
142
MỘT SỐ LƯU Ý KHI XÂY DỰG KẾ HOẠCH/DỰÁ
SỐ HÓA TÀI LIỆU
Ths. Hoàng Thị Thu Hương và Ths. guyễn Trung Thành
Trường Đại học FPT
Xây dựng nguồn tài nguyên số là một trong những mục tiêu quan trọng của tất cả các
loại hình thư viện trên thế giới, nhằm hướng đến mục tiêu phục vụ thông tin cho người
dùng ở mọi lúc, mọi nơi, không phân định không gian, thời gian. Quá trình xây dựng
thư viện số, thư viện ảo, thư viện điện tử …đã được phát triển ở các nước phương Tây
từ những năm 90 của thế kỉ XX. Nhưng ở Việt Nam, thư viện số, thư viện điện tử mới
chỉ được quan tâm từ 6-7 năm trở lại đây. Và rất nhiều các cơ quan thông tin, thư viện
hiện nay mới quan tâm tìm hiểu xem thư viện số là gì, xây dựng thư viện số thì cần
những yếu tố gì? Trong phạm vi bài tham luận này, chúng tôi đưa ra một số kinh
nghiệm triển khai dự án thư viện số để thảo luận.
I. Xây dựng một kế hoạch tổng thể về phát triển bộ sưu tập số
1. Xây dựng mục tiêu
Việc xây dựng thư viện số là nhằm đáp ứng năm (5) yêu cầu sau [1,13]:
• Societies – Thoả mãn nhu cầu thông tin
• Scenarios – Cung cấp dịch vụ thông tin
• Spaces – Hiển thị đa phương tiện
• Structures – Tổ chức cấu trúc thông tin
• Streams – Truyền đạt thông tin
2. Xác định nguồn tin số hoá/cần số hoá:
2.1. Loại hình văn bản cần số hoá
• Văn bản & Tài liệu: Sách, tạp chí, bài viết, báo cáo, luận văn, …
• Âm thanh & Video: Bài nói chuyện, bài giảng, âm nhạc, phim ảnh, …
• Thông tin địa lý: Hình ảnh, bản đồ, …
• Thông tin sinh học: con người, động vật, thực vật, gen, …
• Hình ảnh & Đồ hoạ: Hình ảnh 2D, 3D, bản vẽ kỹ thuật, sơ đồ, …
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
143
• Phần mềm & dữ liệu: chương trình, hình mẫu (model), mô phỏng (simulation),
vv…
2.2. Xác định các nguồn/kho tài liệu đã được máy tính hoá
- Tài nguyên trong thư viện: tài liệu dạng truyền thống (sách, báo…), tài liệu đã
được máy tính hoá (file âm thanh, file văn bản, các CSDL thư mục, các CSDL
toàn văn (luận văn, luận án, hình ảnh…)…
- Các hệ thống liên thông: thư viện khác, bảo tàng, trung tâm thông tin, …
3. Đánh giá cơ sở hạ tầng
- Cơ sở hạ tầng CTT: máy tính, máy chủ, hệ thống mạng và các hệ thống lưu
trữ dữ liệu. Đánh giá khả năng có kho tài nguyên tại chỗ mang tính tập trung
cùng với các hệ thống thư viện liên thông mang tính phân tán. Việc tổ chức liên
thông và giao diện sử dụng hiệu quả là nhu cầu chỉ có cổng thông tin có thể giải
quyết được
- Con người: kế hoạch yêu cầu có bao nhiêu nguồn nhân lực tham gia, trong
đó có bao nhiêu nhân viên cơ hữu có đủ trình độ có thể tham gia dự án ngay,
bao nhiêu nhân viên bên ngoài có thể thuê theo sự vụ, bao nhiêu nhân viên cần
phải đào tạo để có thể thực hiện được công việc…?
- guồn lực tài chính: xác định ngân sách và kế hoạch giải ngân sát với thực tế
để đảm bảo tiến độ triển khai dự án/ kế hoạch đề ra.
4. hững yêu cầu về quản lý tài liệu số hoá
• Đối tượng là các chuỗi dữ liệu (ví dụ các biểu ghi thư tịch, các chuỗi hình ảnh) có
cấu trúc (ví dụ Dublin Core hoặc video MPEG-7) kèm theo phương thức sử dụng
(không chỉ đơn thuần biểu ghi hoặc nội dung văn bản)
• Đa ngôn ngữ (Việt, Anh, Pháp, …):
• Loại hình thông tin: toàn văn (full-text), tóm tắt, siêu dữ liệu
• Đa phương tiện (multimedia): cấu trúc, chất lượng, tìm kiếm
• Cấu trúc dựa trên chuNn XML: DC, MODS, MARC 21 XML, …
• B sưu tp phân tán: Kleisli, CIMI, Z39.50, …
• Tìm kim tng quát: thu thp a ngun, chn lc t ng theo kinh nghim, tìm
kim song song, hoà trn kt qu
• Truy cp: Phân quyn, phân cp, IPR, tính phí, bo mt và cá nhân hoá
• i vi tài liu trên giy:
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
144
- i vi nhng tài liu không nhn dng quang (gi tt là OCR) là nhng tài liu
xut bn bng hình thc in roneo, ánh máy ch và cht liu giy rt xu thì
dung lưng sn phNm phi nh nhưng vn gi ưc sc nét ca ch, hình nh
trong tài liu.
- i vi tài liu OCR (thưng là nhng tài liu in sau này có cht lưng tt) thì
sn phNm phi có chc năng tìm kim toàn văn ni dung tài liu (Searchable
fulltext). nh dng ca sn phNm u ra phong phú, bao gm nhiu nh dng:
doc, xls, txt, pdf…
5. Phần mềm quản lý thư viện số và mô hình thư viện số
Phn mm qun lý thư vin s là mt phn không th thiu qun lý ngun tài
nguyên s nói riêng và qun lý khai thác thư vin s nói chung. Hin nay, có rt
nhiu phn mm qun lý thư vin s t nhng phn mm thương mi ca các công
ty tin hc như phn mm thư vin s ca Công ty CMC, Công ty Tinh Vân, Công
ty lc Vit…, cho n các phn mm mã ngun m như Dspace, Greenstone
Dưi ây là mt mô hình thư vin s cơ bn trên th gii:
Mô hình thư viện số cơ bản [2]
6. Vấn đề bản quyền tài liệu số hoá
Vn bn quyn là vn rt quan trng i vi các thư vin hin nay. Theo Lut s
hu trí tu Vit N am, nhng tài liu dưi ây không ưc bo h bn quyn:
- Lut s hu trí tu Vit N am 2005; Chương I, Mc 1, iu 15 “Các i tưng không
thuc phm vi bo h quyn tác gi: 1. Tin tc thi s thun tuý ưa tin. 2. Văn bn
quy phm pháp lut, văn bn hành chính, văn bn khác thuc lĩnh vc tư pháp và bn
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
145
dch chính thc ca văn bn ó. 3. Quy trình, h thng, phương pháp hot ng, khái
nim, nguyên lý, s liu”
- Lut s hu trí tu Vit N am 2005: iu 27, khon (a), (b) “…Tác phNm không
thuc loi hình quy nh ti im a khon này có thi hn bo h là sut cuc i tác
gi và năm mươi năm tip theo năm tác gi cht; trong trưng hp tác phNm có ng
tác gi thì thi hn bo h chm dt vào năm th năm mươi sau năm ng tác gi cui
cùng cht”
Vic s hoá tài liu cho thư vin s là không vi phm bn quyn nu: Tài liu nm
ngoài bn quyn hoc tài liu ưc bo h bn quyn nhưng s hoá s dng vi
mc ích phi thương mi trong phm vi hn ch ca thư vin, trưng hc, vin nghiên
cu.
Bn thân vic s hoá tài liu không vi phm bn quyn, vic vi phm hay không ph
thuc vào mc ích s dng (chng hn dùng vi mc ích thương mi làm nh hưng
n li ích kinh t ca ngưi nm gi bn quyn là vi phm) và phm vi s dng (ví
d nu ph bin rng rãi ra công chúng, ngoài phm vi thư vin là vi phm).
Vic download, phát tán tài liu s hin nay ang rt ph bin Vit N am ang nh
hưng nghiêm trng n quyn li ca tác gi và các nhà xut bn mà N hà nưc cn
có nhng quy ch qun lý và x pht bo h quyn li chính áng ca tác gi và
nhà xut bn.
II. Giải pháp số hóa tài liệu tài liệu trên giấy
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
146
1. Quy trình số hóa tài liệu
2. Giải pháp số hóa tài liệu
* Đối với loại hình tài liệu không OCR: Tài liu sau khi scan có th s dng mt s
phn mm x lý nh như: Photoshop, OmiPage, … chnh sa và chuyn i sang
nh dng pdf. Ti Vin Công ngh thông tin - Thư vin y hc TW, Công ty ông
Kinh xut s dng phn mm x lý do công ty nghiên cu và phát trin. Sn phNm
sau khi s hóa:
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
147
Ảnh sau khi quét có dung lượng 95MB Ảnh sau khi xử lý dung lượng 115 KB
Sn phNm u ra ca phn mm do ông Kinh phát trin t ưc các yêu cu:
- Dung lưng nh.
- sc nét ca tài liu cao.
Gii pháp này có th áp dng cho các ơn v có ngun lc kinh t hn ch, h tng k
thut không cao. Yêu cu cho gii pháp: Máy scan văn phòng, phn mm x lý ca
công ty ông Kinh phát trin. Tng chi phí cho gii pháp chưa n mt ngàn ô la
M.
Sn phNm u ra có th ưc qun lý bng các phn mm mã ngun m sn có như:
GreenStone, DSpace … Biên mc theo chuNn Dublincore, XML …
* Đối với loại hình tài liệu OCR: s dng phn mm FineReader Engine ca hãng
ABBYY. Phn mm này có mt s ưu im ni tri so vi các gii pháp khác, ó là:
• Xử lý hoàn hảo đối dữ liệu tiếng Việt: Mc dù Kofax, Captiva u là nhng
gii pháp hàng u v s hóa và bóc tách thông tin trên th gii, nhưng ti thi
im này mi ch duy nht ABBYY FineReader Engine có kh năng làm vic
ưc vi các tài liu ting Vit.
• Độ chính xác: Qua kim nghim và ánh giá, kt qu nhn dng và bóc tách
thông tin t Báo cáo tài chính và Giy yêu cu m thư tín dng t trên 99%.
Vi t chc kim soát li nhiu mc, kim soát li do quá trình nhn dng cho
phép kim soát và hn ch ti a li.
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
148
• Tính linh hoạt: Vi kin trúc m và mm do, ABBYY FineReader Engine
cho phép áp ng các mô hình trin khai khác nhau, x lý tp trung, x lý ti
các chi nhánh tùy theo yêu cu ca khách hàng.
• Khả năng tích hợp: Vi kh năng x lý tt c các nh dng nh ph bin, làm
vic ưc vi tt c các máy quét thông dng trên th trưng, cho phép kt xut
kt qu ra nhiu nh dng file (Excel, XML, ) cho phép ABBYY FineReader
Engine có th tích hp vi hu ht các h thng Back Office ã trin khai ti
khách hàng.
• Giữ nguyên bố cục của tài liệu gốc: ADRT (Adaptive Document Recognition
Technology) là mt bưc tin ln trong công ngh nhn dng tài liu; là mt
phn quan trng và ch có trong công ngh nhn dng ca ABBYY. ADRT
ưc dùng nhn dng các cu trúc logic, cách dàn trang cũng như các nh
dng khác nhau trong tài liu nhiu trang, ví d như: mc lc, u trang, chân
trang, chú thích, chú thích bng, chú thích nh, s trang v v…Khi kt qu nhn
dng ưc lưu dưi dng Microsoft Word, các nh dng trên ưc nhìn nhn
như nhng i tưng tương ng trong Word ch không ơn thun ch là các
khi văn bn. t ưc tính chính xác trong vic phân tích dàn trang, cu
trúc logic cũng như các nh dng trong tài liu là do ADRT xem xét và x lý
các tài liu nhiu trang như là mt i tưng tng th ch không phi là tp hp
các trang riêng bit. Vi công ngh ADRT, ngưi dùng s không mt, hoc mt
rt ít thi gian cho vic biên tp li kt qu nhn dng.
• Kết xuất kết quả nhận dạng: FineReader Engine có kh năng chuyn i khi
lưng ln tài liu giy sang tài liu s dưi các nh dng có th tìm kim và
biên tp ưc như MSWord, MSExcel, PDF, PDF/A. c bit là nh dng
PDF/A, là nh dng ưc coi là nh dng lý tưng lưu tr kt qu s hóa
tài liu hin nay. nh dng PDF/A gm 2 lp, lp trên là nh quét, lp dưi là
text nhn dng ưc.
o Lp nh quét là hình nh trung thc ca tài liu gc nên nó mang n
cho ngưi c tính chính xác ca thông tin cũng như hình thc th hin.
o Lp dưi là text nhn dng ưc, là cơ s các máy tìm kim có th
lp ch mc ni dung ca tài liu và qua ó ngưi dùng có th tìm kim
ni dung trong tài liu s.
o nh dng PDF/A có mt im c bit là: lp text nhn dng ưc dàn
trùng khp v v trí vi nh gc. Bi vy, cho dù là ang c trên lp
nh nhưng ngưi c có th sao chép mt cách chuNn xác ni dung s
ca tài liu gc.
- Mt s kt qu nhn dng ca tài liu OCR:
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
149
+ N hn dng trang sách
+ nh dng PDF hai lp
Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội
150
Kết luận
Có rt nhiu các vn mà các nhà thư vin hin nay cn quan tâm khi xây dng mt
k hoch/d án phát trin thư vin s như: phát trin b sưu tp s, phát hin và t
chc ngun tin, tìm tin/truy cp, tương tác ngưi - máy/ngưi s dng, h tng thông
tin-qun tr tri thc, lưu tr s, dch v s, ng dng mng xã hi, s hu trí tu, an
ninh mng, các vn văn hoá và lut pháp… Vic xây dng, phát trin b sưu tp tài
liu s cho mi thư vin s ưc tin hành quy mô và mc khác nhau da trên
thc lc ca ơn v c th. Chúng tôi s i sâu phân tích nhng yêu cu c th nhng
nghiên cu tip theo.
Tài liệu tham khảo
1. Bn tin thư vin tháng 12/2003.
2. Candela , L. (2007) Setting the Foundations of Digital Libraries. The
DELOS Manifesto
3. xut áp dng công ngh s hóa vào vic xây dng kho d liu s: Tài
liu k thut/ Công ty u tư và phát trin ông Kinh.H.:2010.41tr 27cm.
4. S hóa tài liu ting Vit/ Quc Dũng// Tp chí Th gii vi tính. – N ăm
2010, tháng 8.(ngun tham kho:
/>nghe/ung-dung/2010/08/1219965/so-hoa-tai-lieu-tieng-viet)
5. N guyn Trung Thành (2011). Gii thiu gii pháp s hoá tài liu ti Vin
Công ngh thông tin – Thư vin y hc TW, Tạp chí Thư viện, s 4.