Tải bản đầy đủ (.pdf) (9 trang)

Một số lưu ý khi xây dựng Kế hoạch Dự án số hóa tài liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (511.04 KB, 9 trang )


Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội

142

MỘT SỐ LƯU Ý KHI XÂY DỰG KẾ HOẠCH/DỰÁ
SỐ HÓA TÀI LIỆU

Ths. Hoàng Thị Thu Hương và Ths. guyễn Trung Thành
Trường Đại học FPT

Xây dựng nguồn tài nguyên số là một trong những mục tiêu quan trọng của tất cả các
loại hình thư viện trên thế giới, nhằm hướng đến mục tiêu phục vụ thông tin cho người
dùng ở mọi lúc, mọi nơi, không phân định không gian, thời gian. Quá trình xây dựng
thư viện số, thư viện ảo, thư viện điện tử …đã được phát triển ở các nước phương Tây
từ những năm 90 của thế kỉ XX. Nhưng ở Việt Nam, thư viện số, thư viện điện tử mới
chỉ được quan tâm từ 6-7 năm trở lại đây. Và rất nhiều các cơ quan thông tin, thư viện
hiện nay mới quan tâm tìm hiểu xem thư viện số là gì, xây dựng thư viện số thì cần
những yếu tố gì? Trong phạm vi bài tham luận này, chúng tôi đưa ra một số kinh
nghiệm triển khai dự án thư viện số để thảo luận.
I. Xây dựng một kế hoạch tổng thể về phát triển bộ sưu tập số
1. Xây dựng mục tiêu
Việc xây dựng thư viện số là nhằm đáp ứng năm (5) yêu cầu sau [1,13]:
• Societies – Thoả mãn nhu cầu thông tin
• Scenarios – Cung cấp dịch vụ thông tin
• Spaces – Hiển thị đa phương tiện
• Structures – Tổ chức cấu trúc thông tin
• Streams – Truyền đạt thông tin
2. Xác định nguồn tin số hoá/cần số hoá:
2.1. Loại hình văn bản cần số hoá
• Văn bản & Tài liệu: Sách, tạp chí, bài viết, báo cáo, luận văn, …


• Âm thanh & Video: Bài nói chuyện, bài giảng, âm nhạc, phim ảnh, …
• Thông tin địa lý: Hình ảnh, bản đồ, …
• Thông tin sinh học: con người, động vật, thực vật, gen, …
• Hình ảnh & Đồ hoạ: Hình ảnh 2D, 3D, bản vẽ kỹ thuật, sơ đồ, …

Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội

143

• Phần mềm & dữ liệu: chương trình, hình mẫu (model), mô phỏng (simulation),
vv…
2.2. Xác định các nguồn/kho tài liệu đã được máy tính hoá
- Tài nguyên trong thư viện: tài liệu dạng truyền thống (sách, báo…), tài liệu đã
được máy tính hoá (file âm thanh, file văn bản, các CSDL thư mục, các CSDL
toàn văn (luận văn, luận án, hình ảnh…)…
- Các hệ thống liên thông: thư viện khác, bảo tàng, trung tâm thông tin, …
3. Đánh giá cơ sở hạ tầng
- Cơ sở hạ tầng CTT: máy tính, máy chủ, hệ thống mạng và các hệ thống lưu
trữ dữ liệu. Đánh giá khả năng có kho tài nguyên tại chỗ mang tính tập trung
cùng với các hệ thống thư viện liên thông mang tính phân tán. Việc tổ chức liên
thông và giao diện sử dụng hiệu quả là nhu cầu chỉ có cổng thông tin có thể giải
quyết được
- Con người: kế hoạch yêu cầu có bao nhiêu nguồn nhân lực tham gia, trong
đó có bao nhiêu nhân viên cơ hữu có đủ trình độ có thể tham gia dự án ngay,
bao nhiêu nhân viên bên ngoài có thể thuê theo sự vụ, bao nhiêu nhân viên cần
phải đào tạo để có thể thực hiện được công việc…?
- guồn lực tài chính: xác định ngân sách và kế hoạch giải ngân sát với thực tế
để đảm bảo tiến độ triển khai dự án/ kế hoạch đề ra.
4. hững yêu cầu về quản lý tài liệu số hoá
• Đối tượng là các chuỗi dữ liệu (ví dụ các biểu ghi thư tịch, các chuỗi hình ảnh) có

cấu trúc (ví dụ Dublin Core hoặc video MPEG-7) kèm theo phương thức sử dụng
(không chỉ đơn thuần biểu ghi hoặc nội dung văn bản)
• Đa ngôn ngữ (Việt, Anh, Pháp, …):
• Loại hình thông tin: toàn văn (full-text), tóm tắt, siêu dữ liệu
• Đa phương tiện (multimedia): cấu trúc, chất lượng, tìm kiếm
• Cấu trúc dựa trên chuNn XML: DC, MODS, MARC 21 XML, …
• B sưu tp phân tán: Kleisli, CIMI, Z39.50, …
• Tìm kim tng quát: thu thp a ngun, chn lc t ng theo kinh nghim, tìm
kim song song, hoà trn kt qu
• Truy cp: Phân quyn, phân cp, IPR, tính phí, bo mt và cá nhân hoá
• i vi tài liu trên giy:

Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội

144

- i vi nhng tài liu không nhn dng quang (gi tt là OCR) là nhng tài liu
xut bn bng hình thc in roneo, ánh máy ch và cht liu giy rt xu thì
dung lưng sn phNm phi nh nhưng vn gi ưc  sc nét ca ch, hình nh
trong tài liu.
- i vi tài liu OCR (thưng là nhng tài liu in sau này có cht lưng tt) thì
sn phNm phi có chc năng tìm kim toàn văn ni dung tài liu (Searchable
fulltext). nh dng ca sn phNm u ra phong phú, bao gm nhiu nh dng:
doc, xls, txt, pdf…
5. Phần mềm quản lý thư viện số và mô hình thư viện số
Phn mm qun lý thư vin s là mt phn không th thiu  qun lý ngun tài
nguyên s nói riêng và qun lý khai thác thư vin s nói chung. Hin nay, có rt
nhiu phn mm qun lý thư vin s t nhng phn mm thương mi ca các công
ty tin hc như phn mm thư vin s ca Công ty CMC, Công ty Tinh Vân, Công
ty lc Vit…, cho n các phn mm mã ngun m như Dspace, Greenstone

Dưi ây là mt mô hình thư vin s cơ bn trên th gii:




Mô hình thư viện số cơ bản [2]
6. Vấn đề bản quyền tài liệu số hoá
Vn  bn quyn là vn  rt quan trng i vi các thư vin hin nay. Theo Lut s
hu trí tu Vit N am, nhng tài liu dưi ây không ưc bo h bn quyn:
- Lut s hu trí tu Vit N am 2005; Chương I, Mc 1, iu 15 “Các i tưng không
thuc phm vi bo h quyn tác gi: 1. Tin tc thi s thun tuý ưa tin. 2. Văn bn
quy phm pháp lut, văn bn hành chính, văn bn khác thuc lĩnh vc tư pháp và bn

Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội

145

dch chính thc ca văn bn ó. 3. Quy trình, h thng, phương pháp hot ng, khái
nim, nguyên lý, s liu”
- Lut s hu trí tu Vit N am 2005: iu 27, khon (a), (b) “…Tác phNm không
thuc loi hình quy nh ti im a khon này có thi hn bo h là sut cuc i tác
gi và năm mươi năm tip theo năm tác gi cht; trong trưng hp tác phNm có ng
tác gi thì thi hn bo h chm dt vào năm th năm mươi sau năm ng tác gi cui
cùng cht”
Vic s hoá tài liu cho thư vin s là không vi phm bn quyn nu: Tài liu nm
ngoài bn quyn hoc tài liu ưc bo h bn quyn nhưng s hoá  s dng vi
mc ích phi thương mi trong phm vi hn ch ca thư vin, trưng hc, vin nghiên
cu.
Bn thân vic s hoá tài liu không vi phm bn quyn, vic vi phm hay không ph
thuc vào mc ích s dng (chng hn dùng vi mc ích thương mi làm nh hưng

n li ích kinh t ca ngưi nm gi bn quyn là vi phm) và phm vi s dng (ví
d nu ph bin rng rãi ra công chúng, ngoài phm vi thư vin là vi phm).
Vic download, phát tán tài liu s hin nay ang rt ph bin  Vit N am ang nh
hưng nghiêm trng n quyn li ca tác gi và các nhà xut bn mà N hà nưc cn
có nhng quy ch qun lý và x pht  bo h quyn li chính áng ca tác gi và
nhà xut bn.

II. Giải pháp số hóa tài liệu tài liệu trên giấy

Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội

146

1. Quy trình số hóa tài liệu

2. Giải pháp số hóa tài liệu
* Đối với loại hình tài liệu không OCR: Tài liu sau khi scan có th s dng mt s
phn mm x lý nh như: Photoshop, OmiPage, …  chnh sa và chuyn i sang
nh dng pdf. Ti Vin Công ngh thông tin - Thư vin y hc TW, Công ty ông
Kinh  xut s dng phn mm x lý do công ty nghiên cu và phát trin. Sn phNm
sau khi s hóa:

Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội

147




Ảnh sau khi quét có dung lượng 95MB Ảnh sau khi xử lý dung lượng 115 KB

Sn phNm u ra ca phn mm do ông Kinh phát trin t ưc các yêu cu:
- Dung lưng nh.
-  sc nét ca tài liu cao.
Gii pháp này có th áp dng cho các ơn v có ngun lc kinh t hn ch, h tng k
thut không cao. Yêu cu cho gii pháp: Máy scan văn phòng, phn mm x lý ca
công ty ông Kinh phát trin. Tng chi phí cho gii pháp chưa n mt ngàn ô la
M.
Sn phNm u ra có th ưc qun lý bng các phn mm mã ngun m sn có như:
GreenStone, DSpace … Biên mc theo chuNn Dublincore, XML …
* Đối với loại hình tài liệu OCR: s dng phn mm FineReader Engine ca hãng
ABBYY. Phn mm này có mt s ưu im ni tri so vi các gii pháp khác, ó là:
• Xử lý hoàn hảo đối dữ liệu tiếng Việt: Mc dù Kofax, Captiva u là nhng
gii pháp hàng u v s hóa và bóc tách thông tin trên th gii, nhưng ti thi
im này mi ch duy nht ABBYY FineReader Engine có kh năng làm vic
ưc vi các tài liu ting Vit.
• Độ chính xác: Qua kim nghim và ánh giá, kt qu nhn dng và bóc tách
thông tin t Báo cáo tài chính và Giy yêu cu m thư tín dng t trên 99%.
Vi t chc kim soát li nhiu mc, kim soát li do quá trình nhn dng cho
phép kim soát và hn ch ti a li.

Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội

148

• Tính linh hoạt: Vi kin trúc m và mm do, ABBYY FineReader Engine
cho phép áp ng các mô hình trin khai khác nhau, x lý tp trung, x lý ti
các chi nhánh tùy theo yêu cu ca khách hàng.
• Khả năng tích hợp: Vi kh năng x lý tt c các nh dng nh ph bin, làm
vic ưc vi tt c các máy quét thông dng trên th trưng, cho phép kt xut
kt qu ra nhiu nh dng file (Excel, XML, ) cho phép ABBYY FineReader

Engine có th tích hp vi hu ht các h thng Back Office ã trin khai ti
khách hàng.
• Giữ nguyên bố cục của tài liệu gốc: ADRT (Adaptive Document Recognition
Technology) là mt bưc tin ln trong công ngh nhn dng tài liu; là mt
phn quan trng và ch có trong công ngh nhn dng ca ABBYY. ADRT
ưc dùng  nhn dng các cu trúc logic, cách dàn trang cũng như các nh
dng khác nhau trong tài liu nhiu trang, ví d như: mc lc, u trang, chân
trang, chú thích, chú thích bng, chú thích nh, s trang v v…Khi kt qu nhn
dng ưc lưu dưi dng Microsoft Word, các nh dng trên ưc nhìn nhn
như nhng i tưng tương ng trong Word ch không ơn thun ch là các
khi văn bn.  t ưc tính chính xác trong vic phân tích dàn trang, cu
trúc logic cũng như các nh dng trong tài liu là do ADRT xem xét và x lý
các tài liu nhiu trang như là mt i tưng tng th ch không phi là tp hp
các trang riêng bit. Vi công ngh ADRT, ngưi dùng s không mt, hoc mt
rt ít thi gian cho vic biên tp li kt qu nhn dng.
• Kết xuất kết quả nhận dạng: FineReader Engine có kh năng chuyn i khi
lưng ln tài liu giy sang tài liu s dưi các nh dng có th tìm kim và
biên tp ưc như MSWord, MSExcel, PDF, PDF/A. c bit là nh dng
PDF/A, là nh dng ưc coi là nh dng lý tưng  lưu tr kt qu s hóa
tài liu hin nay. nh dng PDF/A gm 2 lp, lp trên là nh quét, lp dưi là
text nhn dng ưc.
o Lp nh quét là hình nh trung thc ca tài liu gc nên nó mang n
cho ngưi c tính chính xác ca thông tin cũng như hình thc th hin.
o Lp dưi là text nhn dng ưc, là cơ s  các máy tìm kim có th
lp ch mc ni dung ca tài liu và qua ó ngưi dùng có th tìm kim
ni dung trong tài liu s.
o nh dng PDF/A có mt im c bit là: lp text nhn dng ưc dàn
trùng khp v v trí vi nh gc. Bi vy, cho dù là ang c trên lp
nh nhưng ngưi c có th sao chép mt cách chuNn xác ni dung s
ca tài liu gc.

- Mt s kt qu nhn dng ca tài liu OCR:

Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội

149

+ N hn dng trang sách


+ nh dng PDF hai lp




Xây dựng và chia sẻ nguồn lực thông tin địa phương dạng số phục vụ bảo tồn di sản và phát triển kinh tế - xã hội

150

Kết luận

Có rt nhiu các vn  mà các nhà thư vin hin nay cn quan tâm khi xây dng mt
k hoch/d án phát trin thư vin s như: phát trin b sưu tp s, phát hin và t
chc ngun tin, tìm tin/truy cp, tương tác ngưi - máy/ngưi s dng, h tng thông
tin-qun tr tri thc, lưu tr s, dch v s, ng dng mng xã hi, s hu trí tu, an
ninh mng, các vn  văn hoá và lut pháp… Vic xây dng, phát trin b sưu tp tài
liu s cho mi thư vin s ưc tin hành  quy mô và mc  khác nhau da trên
thc lc ca ơn v c th. Chúng tôi s i sâu phân tích nhng yêu cu c th  nhng
nghiên cu tip theo.



Tài liệu tham khảo

1. Bn tin thư vin tháng 12/2003.

2. Candela , L. (2007) Setting the Foundations of Digital Libraries. The
DELOS Manifesto
3.  xut áp dng công ngh s hóa vào vic xây dng kho d liu s: Tài
liu k thut/ Công ty u tư và phát trin ông Kinh.H.:2010.41tr 27cm.
4. S hóa tài liu ting Vit/ Quc Dũng// Tp chí Th gii vi tính. – N ăm
2010, tháng 8.(ngun tham kho:
/>nghe/ung-dung/2010/08/1219965/so-hoa-tai-lieu-tieng-viet)
5. N guyn Trung Thành (2011). Gii thiu gii pháp s hoá tài liu ti Vin
Công ngh thông tin – Thư vin y hc TW, Tạp chí Thư viện, s 4.

×