XU HƯỚNG PHÁT TRIỂN KHO DỮ LIỆU SỐ VÀ MÔ HÌNH
KHO DỮ LIỆU SỐ TẠI TRUNG TÂM THƠNG TIN VÀ DỰ BÁO
KINH TẾ-XÃ HỘI QUỐC GIA
Ths., Đặng Thị Xuân, Email:
Ths., Nguyễn Hồng Liên, Email:
Bộ Kế hoạch và Đầu tư
Ths., Mai Thị Thu, Phó chủ tịch Hội Thơng tin KH&CNVN
Email:
Ths., Hồng Kim Dung, Phó Chánh văn phịng Hội Thơng tin KH&CNVN
Email:
Tóm tắt: Bài báo nghiên cứu và phân tích xu hướng phát triển kho dữ liệu số
trong bối cảnh của cuộc cách mạng cơng nghiệp 4.0. Có thể nói “Kho lưu trữ số” là
một bước tiến xa hơn của “Kho lưu trữ tài liệu điện tử” hay có thể nói cách khác, là
“Kho lưu trữ tài liệu điện tử cấp cao”, cho phép đọc được thơng tin tồn văn sau khi
đã số hoá hầu hết tài liệu, đặc biệt là các tài liệu dưới dạng đồ hoạ (như tranh ảnh,
bản đồ,...) và tài liệu đa phương tiện (multimedia). Theo đó, các tác giả trình bày một
số kết quả đã và đang triển khai mơ hình kho dữ liệu số tại Trung tâm Thông tin và Dự
báo kinh tế-xã hội quốc gia (NCIF).
Từ khóa: Kho dữ liệu số, dữ liệu điện tử; tài liệu điện tử; lưu trữ điện tử
1. Xu hướng phát triển kho dữ liệu số:
Xu hướng phát triển chung và xu hướng trong việc tạo lập kho tài liệu điện tử
đang diễn ra đồng thời với việc áp dụng công nghệ thông tin là một sáng kiến đã và sẽ
làm thay đổi cách tư duy, tìm tịi và khám phá các nguồn tài liệu trong quá trình học
tập, nghiên cứu, sống và làm việc của nhân loại. Các chuyên gia, các nhà phát triển
công nghệ thông tin hàng đầu cho rằng: số hóa kho tri thức thế giới là một trong những
sáng kiến quan trọng nhất của thiên niên kỷ mới.
Phương hướng chiến lược chủ yếu trong việc phát triển các kho lưu trữ tài liệu
trên thế giới là tăng cường chuyển đổi và bổ sung các tài liệu số. Các trung tâm thư
viện, lưu trữ trên thế giới đã và đang tiếp tục tiến hành hoạt động bổ sung và bảo quản
khối lượng lớn các tài liệu điện tử. Trong tương lai, hầu hết tài liệu phát sinh sẽ chỉ
được thu thập về dưới dạng điện tử, nhu cầu các tài liệu được sử dụng dưới dạng điện
tử cũng đang tăng nhanh. Một số dự báo cho rằng trong tương lai gần, các tài liệu được
sử dụng, khai thác bởi cá nhân, tổ chức sẽ chủ yếu được xuất bản và lưu trữ hầu hết
dưới dạng điện tử. Sự bùng nổ và gia tăng nhanh chóng nội dung số đã dẫn tới xu thế
126
ngày càng phát triển mạnh mẽ các tài liệu ở dạng điện tử. Tài liệu chuyển dịch từ in
sang định dạng số theo nhiều cách, cụ thể như sau:
- Xuất bản điện tử: Hiện nay, hầu hết các tạp chí khoa học và nghiên cứu, ấn
phẩm nhiều kỳ, sách, âm nhạc và phim ảnh, tất cả những nội dung điện tử đều có xu
hướng xuất bản chung này. Đặc biệt, ấn phẩm nhiều kỳ là dạng tài liệu hướng tới hình
thức phân phối dưới dạng số sớm nhất. Nhiều thư viện đại học và thư viện cơ quan
nghiên cứu đã và đang chuyển đổi từ việc sử dụng tạp chí khoa học và nghiên cứu
dạng in sang dạng xuất bản điện tử. Vì vậy, thay vì mở rộng các ấn phẩm nhiều kỳ
đóng tập thì trường đại học và cơ quan nghiên cứu sẽ tăng cường xuất bản các ấn
phẩm hay cơ sở dữ liệu tạp chí điện tử. Trong lĩnh vực xuất bản tài liệu nghiên cứu và
học thuật, xuất bản truy cập mở cho phép tác giả chi trả phí xuất bản để hỗ trợ quyền
truy cập miễn phí vĩnh viễn tới tài liệu hay ấn phẩm nhiều kỳ xuất bản theo mơ hình
này.
- Số hóa tài liệu: Các bản thảo, hình ảnh, và nhiều tài liệu nghiên cứu có tính
lịch sử đã và đang được tiến hành số hóa. Cơng nghệ số khiến việc tiếp cận các kho tài
liệu nói trên trở nên dễ dàng hơn so với cách tiếp cận truyền thống. Tương tự, tài liệu
sách đã được xuất bản cũng sẽ được số hóa trong các dự án số hóa khối lượng lớn. Dự
đốn, trong 20 năm nữa, tất cả sách mới sẽ được xuất bản dưới dạng số, và các bộ sưu
tập thư viện hiện nay sẽ chuyển dịch ra khỏi các bộ sưu tập in truyền thống.
Tỷ lệ tài liệu điện tử /tài liệu truyền thống trong các thư viện, các trung tâm
thông tin-tư liệu của các tổ chức thay đổi theo hướng nghiêng về phát triển tài liệu
điện tử. Các thư viện phát triển tài liệu điện tử theo 3 cách: i) Tự tiến hành số hóa
nguồn tài liệu in hiện có; ii) Bổ sung /tích hợp nguồn tin điện tử thơng qua việc mua và
trao đổi tài liệu điện tử đang được xuất bản; iii) Xây dựng các liên kết (tạo khả năng
truy cập) đến các nguồn tài liệu trực tuyến trên Internet. Nguồn tài liệu trực tuyến và
các loại hình sản phẩm, dịch vụ thơng tin tương ứng với nó được chú trọng phát triển
với tốc độ ngày càng cao và chiếm tỷ trọng ngày càng lớn. Dữ liệu số được xây dựng
theo cấu trúc giúp tổ chức nâng cao năng lực và hiệu quả kiểm soát dữ liệu.
Hiện nay, hầu hết các tổ chức trên thế giới đã và đang nỗ lực tiến hành việc số
hóa tài liệu, thơng tin của tổ chức, thậm chí có nhiều đơn vị, tổ chức đã hồn thành
việc số hóa tài liệu của mình và tiếp tục triển khai những bước tiếp theo của chuyển
đổi số. Họ lập kế hoạch số hóa các tài liệu có giá trị và tần xuất sử dụng cao. Công cụ
để tổ chức sử dụng tài liệu là các hệ thống thông tin, cơ sở dữ liệu và các trang web
chuyên biệt bảo đảm việc truy cập thông tin bằng lời văn, hình ảnh, âm thanh,...
Về mơ hình, đến nay các nước phát triển trên thế giới đang xây dựng các kho
lưu trữ tài liệu theo hai mô hình cơ bản đó là “Kho lưu trữ tài liệu điện tử” và “Kho
lưu trữ số”. “Kho lưu trữ tài liệu điện tử” sẽ lưu trữ và phục vụ sử dụng cả tài liệu
truyền thống (tài liệu giấy) và tài liệu điện tử (tài liệu số hố), trong khi đó “Kho lưu
127
trữ số” chỉ lưu trữ và phục vụ sử dụng các tài liệu điện tử, tức là toàn bộ các tài liệu
của kho lưu trữ đã được số hóa hoặc tài liệu được hình thành ngay từ đầu dưới dạng
điện tử. Như vậy, khái niệm “Kho lưu trữ số” là một bước tiến xa hơn của “Kho lưu
trữ tài liệu điện tử” hay có thể nói cách khác, là “Kho lưu trữ tài liệu điện tử cấp cao”,
cho phép đọc được thơng tin tồn văn sau khi đã số hố hầu hết tài liệu, đặc biệt là các
tài liệu dưới dạng đồ hoạ (như tranh ảnh, bản đồ,...) và tài liệu đa phương tiện
(multimedia).
Các “Kho lưu trữ tài liệu điện tử” và các hệ thống thơng tin điện tử nói chung
được thiết lập và vận hành trên hạ tầng kỹ thuật là các trung tâm dữ liệu số (Digital
Data Center). Các trung tâm dữ liệu đang là mục tiêu hướng đến về mặt tổ chức kho
dữ liệu, hệ thống thông tin tích hợp của các cơ quan, tổ chức và các doanh nghiệp lớn
trong hầu hết các lĩnh vực kinh doanh, tài chính như các ngân hàng, sàn chứng khốn,
cơng ty bảo hiểm, cũng như trong hệ thống các thư viện, đơn vị lưu trữ của tất cả các
cơ quan nhà nước, tổ chức nghiên cứu… Bởi vì, đối với tất cả các cơ quan, tổ chức,
nhu cầu quản lý, lưu trữ an toàn, khoa học, bảo mật, xử lý và khai thác thông tin, tài
liệu cho nhiều người sử dụng đồng thời là hết sức quan trọng. Từ yêu cầu thực tế đó,
các cơ quan, tổ chức nói chung phải tính đến việc tạo lập, xây dựng hoặc thuê một
“trung tâm dữ liệu” cho hiện tại và tương lai để đảm bảo quá trình thu thập, xử lý, lưu
trữ, và cung cấp dữ liệu một cách đầy đủ, chất lượng và kịp thời nhằm đáp ứng tối đa
nhu cầu của người sử dụng, đem lại hiệu quả về kinh tế, an ninh trong quá trình hoạt
động.
Các kho dữ liệu số/trung tâm dữ liệu số được xây dựng có chức năng thu thập
dữ liệu, được quản trị, vận hành thông qua các hệ thống thông tin điện tử nhằm cung
cấp các dịch vụ thông tin từ cơ bản đến phức tạp. Về nguyên tắc, kho dữ liệu số/trung
tâm dữ liệu số là một hạ tầng kỹ thuật xử lý, lưu trữ thống nhất, được quản trị để đảm
bảo cho việc thiết lập các hoạt động cung cấp dịch vụ, khai thác thông tin, tư liệu, tài
liệu số cho cơ quan, tổ chức và phục vụ cho hàng ngàn người cần truy cập, trao đổi
thông tin. Về thể hiện, trung tâm dữ liệu có chức năng xử lý và lưu trữ dữ liệu bao
gồm một hệ thống máy tính gồm nhiều máy chủ, các thiết bị lưu trữ lớn và các phần
mềm ứng dụng để thực hiện việc lưu trữ dữ liệu số, cho phép người dùng dễ dàng truy
cập, tìm kiếm và xem được nội dung toàn văn của tài liệu điện tử từ xa thông qua hệ
thống mạng và các phương tiện truyền thông.
Cùng với sự phát triển các ứng dụng công nghệ thông tin và hạ tầng truyền
thông, các trung tâm dữ liệu số hiện nay đang phát triển theo hướng tích hợp, liên kết
với nhau để hình thành hệ thống các “trung tâm dữ liệu ảo”, đáp ứng nhu cầu quản trị,
vận hành và khai thác lớn nguồn tài liệu, thông tin đa dạng từ các hệ thống thông tin
điện tử chuyên ngành và liên ngành.
128
2. Hoạt động thông tin tư liệu và nhu cầu xây dựng kho dữ liệu số trong
cuộc cách mạng công nghiệp 4.0
Hoạt động thông tin tư liệu khoa học bao gồm việc thu thập/cập nhật, quản lý,
lưu trữ và đáp ứng nhu cầu khai thác hiệu quả các cơ sở dữ liệu/hệ thống thông tin
chuyên ngành về khoa học, kinh tế, xã hội,… là một trong những nền tảng quan trọng
để hỗ trợ và đảm bảo chất lượng, kịp thời cho các hoạt động nghiên cứu, phổ biến
thông tin kinh tế - xã hội, khoa học cơng nghệ, văn hóa,… đồng thời góp phần thiết
thực trong việc nâng cao hiệu quả cho công tác nghiên cứu, dự báo và ứng dụng, phát
triển kinh tế - xã hội nói chung và các ngành, lĩnh vực cụ thể.
Trước yêu cầu thay đổi và chuyển hóa thơng tin của xã hội thơng tin, các cơ
quan, tổ chức có đầu mối chịu trách nhiệm về hoạt động thơng tin tư liệu đã tích cực
triển khai, thực hiện các nghiên cứu, xây dựng các quy trình quản lý và cung cấp thơng
tin được chuẩn hóa để phù hợp với các yêu cầu xây dựng các cơ sở dữ liệu, các hệ
thống thơng tin có khả năng tích hợp với các cơng cụ, giải pháp lưu trữ, quản lý, vận
hành và khai thác được thuận lợi. Các hệ thống thông tin, tư liệu quản lý, nghiên
cứu,… đã từng bước được tổ chức lại theo hướng điện tử hóa, số hóa phù hợp với giải
pháp cơng nghệ và nhu cầu phát triển của tổ chức. Tuy nhiên, để phát huy lợi ích to
lớn của việc ứng dụng CNTT và tăng cường hơn nữa năng lực và hiệu quả của hoạt
động thông tin tư liệu, nhu cầu cấp thiết đặt ra là phải tổ chức, hình thành các kho dữ
liệu số đảm bảo tính thống nhất, đồng bộ về nội dung, cấu trúc dữ liệu, thông tin theo
từng ngành, từng lĩnh vực phù hợp với nhu cầu quản lý và khai thác nhằm tăng khả
năng đáp ứng thông tin, cung cấp thơng tin một cách đầy đủ, chính xác.
Trong giai đoạn hiện nay, chính sách điện tử hố kho tài liệu truyền thống cần
hướng tới các vấn đề, đó là số hố tài liệu (tạo lập các tài liệu điện tử), bảo quản lâu
dài và quản lý tài liệu điện tử cho sử dụng hiện tại và tương lai. Việc số hoá tài liệu là
xu thế phát triển chung phù hợp với sự phát triển của công nghệ và đáp ứng nhu cầu
khai thác tài liệu, bảo quản lâu dài để bảo đảm việc sử dụng trong tương lai. Việc tổ
chức lại và quản lý tài liệu điện tử là bảo đảm độ tin cậy của tài liệu, đáp ứng yêu cầu
quản lý và sử dụng thông qua các phương tiện điện tử và công cụ truyền thông hiện
đại.
Về cơ bản, nhu cầu đầu tư xây dựng một kho dữ liệu điện tử của mỗi cơ quan,
tổ chức đều phải triển khai các nhiệm vụ sau:
- Tạo lập, thu thập, lưu trữ, tổ chức sử dụng tài liệu điện tử, các tài liệu điện tử
đó được điện tử hố (hay số hố) từ các nguồn tài liệu, thơng tin khoa học công nghệ
đang được lưu trữ truyền thống tại các trung tâm thông tin và hệ thống thư viện của
các cơ quan, tổ chức trên phạm vi cả quốc gia.
- Bảo quản, bảo hiểm tài liệu điện tử với các giải pháp lưu trữ với những định
dạng chuẩn về tài liệu điện tử; sao lưu dưới nhiều định dạng khác nhau, với nhiều
129
phương tiện khác nhau; có khả năng chuyển đổi tài liệu sang các môi trường công
nghệ mới; phục hồi dữ liệu khi có rủi ro, để có thể bảo vệ an toàn tài liệu điện tử;
- Cập nhật, thu thập tài liệu điện tử hình thành, phát sinh mới trong quá trình
hoạt động của các cơ quan, tổ chức;
- Cập nhật thường xuyên về quy trình nghiệp vụ quản lý, lưu trữ tài liệu, thông
tin điện tử nhằm vận hành và khai thác hiệu quả phù hợp với sự phát triển của nền tảng
công nghệ số đang thay đổi và phát triển rất nhanh.
Về nguyên tắc, các trung tâm lưu trữ dữ liệu tài liệu điện tử hoặc kho lưu trữ tài
liệu điện tử luôn phát triển cùng với công nghệ. Thơng tin có thể mất đi trong một q
trình hoạt động bình thường hoặc có thể mất vì các thiết bị hay ứng dụng đọc chúng
khơng cịn nữa. Do đó, xây dựng Kho lưu trữ tài liệu điện tử là một hoạt động liên tục,
không bao giờ kết thúc và trở thành một hoạt động thường xuyên. Quy trình đầu tư qua
nhiều giai đoạn sẽ bảo đảm được sự phát triển phù hợp với sự phát triển của công
nghệ, đồng thời bảo đảm khả năng kế thừa, tính ổn định lâu dài của các nội dung đầu
tư trước, hạn chế việc đầu tư lại.
Việc xây dựng Kho lưu trữ tài liệu điện tử ban đầu cần tiến hành theo quy mô
phù hợp với ưu tiên đầu tư các nội dung có tính bền vững trong khoảng thời gian dài,
đối với các nội dung đầu tư có sự ổn định ngắn, tức là chịu sự tác động của sự thay đổi
công nghệ, cần đầu tư qua nhiều giai đoạn với qui mơ mở rộng phù hợp. Nội dung đầu
tư có thể xem xét theo các bước sau:
1. Trước hết, ưu tiên đầu tư các giải pháp có tiêu chí mang đặc tính ổn định bền
vững (sử dụng lâu dài) so với sự phát triển của công nghệ, cụ thể:
- Về giải pháp quản lý tài liệu, áp dụng theo tiêu chuẩn chung: mơ hình lưu trữ
tài liệu điện tử để tự động hố các qui trình nghiệp vụ lưu trữ (thu thập, xử lý, khai
thác sử dụng...) và bảo đảm các đặc tính lưu trữ (tính xác thực, tin cậy, tồn vẹn, khả
dụng); các chuẩn thơng tin (mơ tả, giao tiếp, tích hợp...) để có cơ sở cho xây dựng các
giải pháp phần mềm quản lý tài liệu điện tử đạt tiêu chuẩn quốc tế, được áp dụng hiệu
quả và ổn định trong thực tế, điều đó sẽ bảo đảm sự thống nhất chung và sự phát triển
bền vững;
- Về giải pháp bảo quản và duy trì lâu dài tài liệu điện tử, cần lựa chọn các
chuẩn định dạng cơ bản cho tài liệu và dữ liệu với các yêu cầu về khả năng sử dụng
lâu dài như: định dạng vừa đáp ứng yêu cầu phổ dụng hiện tại lại vừa đáp ứng yêu cầu
sử dụng lâu dài khi công nghệ phát triển; đáp ứng các yêu cầu kỹ thuật cho việc sao
lưu bảo hiểm ra các phương tiện lưu trữ khác nhau (băng từ, đĩa quang, microfilm,...);
có khả năng chuyển đổi, di chuyển an toàn sang các định dạng chuẩn khác nhau khi
công nghệ thay đổi;
- Về phương tiện lưu trữ, cần đầu tư vào các giải pháp phần cứng và phần mềm
lưu trữ để bảo đảm: bảo quản lâu dài tài liệu, bảo đảm tính nguyên vẹn của tài liệu
130
điện tử; tài liệu được lưu giữ an toàn, bảo quản lâu dài, có giải pháp chuyển đổi và
kiểm tra an toàn; áp dụng các biện pháp bảo mật; các phương tiện phải có tính bền
vững, có giải pháp sao lưu dự phịng và phục hồi khi có sự cố;
- Về phát triển nguồn tài nguyên, cần đầu tư phát triển nguồn tài liệu điện tử
thông qua việc tiến hành số hoá một lượng lớn tài liệu lưu trữ trong Kho lưu trữ tài
liệu truyền thống, ưu tiên lựa chọn số hoá các tài liệu lưu trữ được khai thác, sử dụng
nhiều, tài liệu quý hiếm và các tài liệu đã, đang bị huỷ hoại. Việc tạo nhiều nguồn tài
liệu điện tử sẽ đáp ứng nhiều hơn những yêu cầu tiếp cận, khai thác, sử dụng các tài
liệu lưu trữ.
2. Tiếp theo, đối với những nội dung đầu tư có sự ổn định ngắn thì cần đầu tư
theo lộ trình tuỳ theo mức độ phát triển của nhu cầu. Ví dụ, đối với hệ thống thiết bị
lưu trữ, cần xây dựng với quy mô nhỏ phù hợp với nhu cầu cho hiện tại và phát triển
trong giai đoạn ngắn. Bởi lẽ nếu xét về mặt công nghệ, công nghệ cho thiết bị lưu trữ
phát triển rất nhanh, thường thì sau một năm dung lượng lưu trữ tăng gấp hai trong khi
giá thành thiết bị tăng không đáng kể, thiết bị thay thế hay nâng cấp với công nghệ cũ
giá thành rất cao. Nếu xét về khối lượng tài liệu, khối lượng dữ liệu điện tử hiện tại
đang có là khơng nhiều và khối lượng được xây dựng mới sẽ tăng dần trong thời gian
tới. Thiết bị lưu trữ có thể phát triển từ quy mô nhỏ đủ để lưu trữ một khối lượng dữ
liệu và tài liệu lưu trữ phù hợp với dự báo nhu cầu. Thiết bị lưu trữ đầu tư tiếp theo (có
thể sau 5 năm) sẽ được đầu tư mới với dung lương lưu trữ lớn hơn gấp nhiều lần để có
thể thay thế hoặc kế thừa thiết bị cũ, chí phí đầu tư hợp lý. Ngồi ra, cần nghiên cứu để
kế thừa các kết quả đầu tư đã có, tránh khơng phải đầu tư chồng chéo hoặc đầu tư lại,
giảm chi phí đầu tư, đồng thời cũng phải tạo ra các cơ sở cho sự phát triển và nâng cấp
trong các giai đoạn tiến theo để hướng tới xây dựng kho lưu trữ số hiện đại.
Việc triển khai xây dựng kho dữ liệu tài liệu điện tử là hoàn toàn phù hợp với
xu thế quản lý, khai thác các hệ thống lưu trữ điện tử nói chung và hệ thống thơng tin
tư liệu điện tử nói riêng. Kho lưu trữ tài liệu điện tử sẽ bảo đảm được chức năng tập
trung nguồn tài liệu điện tử của các ngành, lĩnh vực nhằm đáp ứng yêu cầu khai thác,
sử dụng các tài liệu lưu trữ trên mạng thơng tin diện rộng. Để xây dựng thành cơng,
cần có sự chỉ đạo thống nhất, sự nỗ lực và ý thức trách nhiệm của tổ chức và quy trình
quản lý phù hợp với các giải pháp phát triển kho lưu trữ theo hướng hiện đại.
3. Mơ hình kho dữ liệu số tại trung tâm Thông tin và Dự báo kinh tế-xã hội
quốc gia:
Bộ Kế hoạch và Đầu tư là cơ quan của Chính phủ, thực hiện chức năng quản lý
nhà nước về kế hoạch, đầu tư phát triển và thống kê. Một trong những chức năng và
nhiệm vụ của Bộ là tham mưu tổng hợp về chiến lược, quy hoạch, kế hoạch phát triển
kinh tế - xã hội. (Trích Nghị định Số: 86/2017/NĐ-CP, ngày 25 tháng 07 năm 2017
131
Quy định chức năng, nhiệm vụ, quyền hạn và cơ cấu tổ chức của Bộ Kế hoạch và Đầu
tư).
Trung tâm Thông tin và Dự báo kinh tế - xã hội quốc gia (NCIF) là tổ chức sự
nghiệp khoa học trực thuộc Bộ Kế hoạch và Đầu tư, thực hiện chức năng thơng tin, dự
báo và cảnh báo tình hình kinh tế - xã hội trong nước và quốc tế phục vụ công tác chỉ
đạo, điều hành và quản lý nhà nước về kế hoạch, đầu tư phát triển kinh tế - xã hội;
cung ứng dịch vụ sự nghiệp công trong lĩnh vực nghiên cứu khoa học theo quy định
của pháp luật. (Trích Quyết định Số: 44/2018/QĐ-TTg, ngày 08 tháng 11 năm 2018
Thủ tướng Chính phủ Quy định chức năng, nhiệm vụ, quyền hạn và cơ cấu tổ chức của
Trung tâm Thông tin và Dự báo kinh tế - xã hội quốc gia thuộc Bộ Kế hoạch và Đầu
tư)
Theo đó, NCIF có nhiệm vụ và quyền hạn chính như sau: 1. Tổ chức xây dựng
hệ thống cơ sở dữ liệu thông tin phục vụ cơng tác phân tích, dự báo, cảnh báo về kế
hoạch, đầu tư phát triển kinh tế - xã hội; 2. Cung cấp thông tin phục vụ quá trình hoạch
định chính sách, chỉ đạo, điều hành và quản lý nhà nước về kế hoạch, đầu tư phát triển
kinh tế - xã hội; 3. Tổ chức điều tra, thu thập thông tin trong nước và quốc tế phục vụ
công tác phân tích, dự báo và cảnh báo kinh tế - xã hội; 4. Tổng hợp, phân tích thơng
tin phản hồi và đánh giá tác động của cơ chế, chính sách và pháp luật về phát triển
kinh tế - xã hội; 5. Phân tích, dự báo và cảnh báo tình hình kinh tế - xã hội phục vụ xây
dựng và điều hành kế hoạch phát triển kinh tế - xã hội; tổng hợp và phân tích những
biến động bất thường về kinh tế - xã hội trong nước và quốc tế để đưa ra các dự báo,
cảnh báo và kiến nghị các cơ quan quản lý nhà nước điều chỉnh chính sách trong
q trình chỉ đạo, điều hành, thực hiện chiến lược, kế hoạch phát triển kinh tế - xã hội
của cả nước; 6. Nghiên cứu lý luận và phương pháp luận về phân tích, dự báo, cảnh
báo kinh tế - xã hội; 7. Đầu mối thông tin khoa học và công nghệ cấp bộ của Bộ
Kế hoạch và Đầu tư…Nhằm triển khai thực hiện chức năng nhiệm vụ của NCIF, đồng
thời kế thừa các kết quả qua các dự án đã và đang được Bộ đầu tư trong nhiều giai
đoạn khác nhau, NCIF đã và đang triển khai thực hiện mơ hình kho dữ liệu số trình
bày trong hình 1.
Mơ hình quản lý tập trung tài liệu điện tử của Bộ phục vụ nghiên cứu, hoạch
định chính sách, dự báo và lập kế hoạch phát triển kinh tế-xã hội chính là mơ hình
quản lý bộ sưu tập số/Thư viện số của Bộ.
Hệ thống quản lý tài liệu điện tử/Bộ sưu tập số của Bộ được thiết kế có tính
chất mở và linh hoạt, cung cấp khả năng tích hợp đối với các hệ thống đang vận hành
tại Bộ, hoặc hệ thống sẽ triển khai trong tương lai (nếu được thống nhất chung cùng
một giao thức). Mục đích của việc này là nhằm phục vụ khai thác tài liệu điện tử từ hệ
thống một cách hiệu quả, cũng là một nơi cung cấp tài liệu điện tử cho các Web Portal
của Bộ các đơn vị trực thuộc. Hơn thế nữa thơng qua việc giải pháp tích hợp giao tiếp,
132
các đơn vị trong Bộ cũng có thể sẽ là nguồn cung cấp tài liệu điện tử cho bộ sưu tập
số/ thư viện số trong tương lai. Hệ thống quản lý bộ sưu tập số có các mơđun thành
phần được đề cập dưới đây.
Hình 1: Sơ đồ tổng thể của hệ thống quản lý kho dữ liệu số của Bộ
(1) Mơ đun thu thập/tạo lập/số hóa thơng tin
Thơng thường thơng tin đầu vào của q trình thu thập/tạo lập/số hóa thông tin
bao gồm tất các các thông tin với mọi định dạng khác nhau cần số hóa và quản lý. Dữ
liệu đầu vào của các bộ sưu tập số là tài liệu dạng sách, bài trích tồn văn ở dạng văn
bản (Word, Excel, Powerpoint, PDF, TIFF có sẵn). Bên cạnh đó cịn có các media
Files: là các tập tin đa phương tiện cần quản lý như các tập tin Image, Audio, Video,...
(2) Mô đun xử lý và quản lý thông tin kho dữ liệu số (tài liệu đã số hóa)
Đây là phần lõi của hệ thống quản lý tài liệu điện tử/bộ sưu tập số gồm các tính
năng sau:
Quản lý tài liệu (Document Manager):
Quản lý tài liệu là một thành phần chính của hệ thống “Số hóa và lưu trữ tài liệu
điện tử” dùng để xử lý việc tiếp cận thông tin của người dùng. Quản lý tài liệu phải hỗ
trợ các chức năng sau:
133
+ Đáp ứng việc cập nhật thông tin theo các chuẩn về thư viện quốc tế thông
dụng như Marc 21, Dublin Core, Mets..v.v...;
+ Thông tin đầu vào/đầu ra (Check in/Check out): hỗ trợ quản lý thông tin, tài
liệu đồng nhất;
+ Quản lý phiên bản (Version Management): hỗ trợ theo dõi các phiên bản các
nhau của cùng một thông tin hay một tài liệu;
+ Hỗ trợ xây dựng tổ chức cây cấu trúc thư mục ảo phục vụ cho hiển thị thơng
tin và tài liệu
Quản lý vịng đời tài liệu (Document Life Cycle):
Định nghĩa vòng đời từ khi khởi tạo cho tới khi hủy thông tin về tài liệu, cho
phép tự động dịch chuyển nội dung sang các tầng lưu trữ khác nhau (tier storage) tùy
theo trạng thái của thông tin tài liệu, hỗ trợ nén và chống trùng lặp các tài liệu. Quản lý
vòng đời tài liệu phải đáp ứng một số tính năng sau:
+ Trực quan hóa sơ đồ các tập tin và đánh chỉ mục cấu trúc khác cho việc lưu
trữ có trật tự các thơng tin tài liệu;
+ Lập chỉ mục rõ ràng các thông tin tài liệu;
+ Quản lý lịch trình lưu giữ và hủy bỏ tài liệu;
+ Sử dụng siêu dữ liệu (metadata) theo chuẩn quốc tế, chuẩn Việt Nam hoặc
theo chuyên ngành cụ thể, để xác định rõ ràng và mô tả các thông tin tài liệu được lưu
trữ.
Quản lý quy trình, luồng cơng việc trong hệ thống thông tin-thư viện (in
Business Process Workflow):
Xây dựng các luồng cơng việc, theo dõi và phân tích việc thực hiện các luồng
xử lý theo quy trình, qui định đã được xác định trước. Hỗ trợ các tính năng sau:
+ Trực quan hóa của quy trình nghiệp vụ và cơ cấu tổ chức tài liệu;
+ Chụp, điều hành, trực quan hóa, và cung cấp các thơng tin được nhóm lại với
các tài liệu liên quan;
+ Kết hợp các công cụ xử lý dữ liệu (chẳng hạn như bảng phân loại, bảng danh
mục từ khóa, quy định về các bộ sưu tập số,...);
+ Xử lý song song và tuần tự của thủ tục;
+ Nhắc nhở, thời hạn, trao quyền và các chức năng quản lý khác;
+ Giám sát/Hiệu đính các quy trình, định tuyến và kết quả xử lý nghiệp vụ;
+ Công cụ để thiết kế và hiển thị quy trình.
Với mục tiêu là để tự động hóa các quy trình càng nhiều càng tốt, hỗ trợ các cán
bộ xử lý nghiệp vụ bằng cách kết hợp tất cả các nguồn lực cần thiết.
Lưu trữ (Store):
Đối với các tài liệu, thông tin cần phải lưu trữ và bảo quản lâu dài theo chính
sách quản lý thơng tin của các đơn vị. Hệ thống thư viện số được xây dựng bao gồm
134
các kho tài liệu số được phân tách logic phù hợp với từng đặc trưng nghiệp vụ của đơn
vị. Thậm chí là từng đơn vị con nằm trong đơn vị lớn, từ đó tạo điều kiện cho cơng tác
lưu trữ, sao lưu một cách thuận lợi và có tính an toàn cao.
Lưu vết (Audit Trail):
Hệ thống cho phép lưu vết toàn bộ các thao tác, hành động của người dùng trên
các tài liệu, thông tin trên hệ thống, lưu trữ các dữ liệu lưu vết trong cơ sở dữ liệu.
Đánh chỉ mục và phiên bản (Indexing and Versioning):
+ Indexing: Hệ thống cung cấp một bộ tính năng tồn diện để hỗ trợ cấu hình
lập chỉ mục tự động;
+ Versioning: Cung cấp khả năng theo dõi các thay đổi cho tài liệu, tập tin, siêu
dữ liệu (Meta data), và đánh dấu, bảo tồn lịch sử và q trình tiến hóa của một tài liệu
và cho phép đảo chiều tới các phiên bản trước đó của tài liệu.
Hình 2: Mơ đun xử lý và quản lý kho dữ liệu số
(3) Mô đun tích hợp giao tiếp với các ứng dụng khác trong Bộ
Tại mô đun này sẽ cung cấp nguồn tài nguyên điện tử cho các đơn vị theo đặc
thù nghiệp vụ/công việc, mặt khác các đơn vị cũng có thể là nơi cung cấp dữ liệu đầu
vào cho hệ thống thư viện số. Hệ thống quản lý tập trung tổng thể tài liệu điện tử /bộ
sưu tập số được thiết kế có tính chất mở và linh hoạt, cung cấp khả năng tích hợp đối
với các hệ thống đang vận hành tại Bộ, hoặc hệ thống sẽ triển khai trong tương lai (nếu
được thống nhất chung cùng một giao thức). Mục đích của việc này là nhằm phục vụ
khai thác thơng tin từ hệ thống một cách hiệu quả, cũng là một nơi cung cấp thông tin
cho các Web Portal của Bộ các đơn vị trực thuộc. Hơn thế nữa thông qua việc giải
pháp tích hợp giao tiếp, các đơn vị trong Bộ cũng có thể sẽ là nguồn cung cấp tài liệu
số cho hệ thống thư viện số trong tương lai.
135
- Cung cấp API, các chuẩn biên mục (Với giao thức mở): Cho phép tích hợp tới
bất kỳ ứng dụng của bên thứ 3 nào;
- Cho phép thiết lập các Web-Services: Nhằm tích hợp với các Web Portal của
Bộ cũng như của các đơn vị trực thuộc.
Cổng
thông tin
Website
Websie dịch
vụ cung cấp
thông tin
Các ứng
dụng khác…
API
(Tầng
hỗ trợ
giao
tiếp với
các hệ
thống,
thiết bị
khác)
Tầng
xử lý
nghiệp
vụ
Cơ sở dữ liệu
thư viện số
Hình 3: Mơ đun tích hợp giao tiếp với các ứng dụng khác trong Bộ
(4) Mô đun Khai thác thông tin:
Một trong các định hướng xây dựng thư viện số là quản lý theo bộ sưu tập số, vì
vậy việc đáp ứng các tiêu chí khai thác thơng tin là khá nhiều chiều và có nhiều sự lựa
chọn để người dùng có thể tiếp cận thơng tin một cách nhanh chóng và chính xác gần
nhất với các thơng tin mình cần. Cụ thể hệ thống xây dựng các chức năng tìm kiếm từ
mức đơn giản đến mức nâng cao, tìm kiếm OPAC để có thể đáp ứng đối với từng
nhóm người dùng.
Hệ thống cho phép người dùng có thể đăng ký tài khoản để có thể cập nhật các
thơng tin tài liệu mới một cách nhanh chóng và hướng tới dịch vụ cung cấp thông tin
chuyên nghiệp.
Hệ thống hỗ trợ người dùng nội bộ, các quản trị viên các cơng cụ, tính năng cần
thiết trong việc tra cứu thông tin, báo cáo và kết xuất các dữ liệu mang tính thống kê.
136
Hình 4: Mơ hình khai thác kho dữ liệu số trong hệ thống thư viện số của Bộ
(5) Mô đun CSDL/Bộ sưu tập số/Thư viện số trong hệ thống
Cơ sở dữ liệu tài liệu điện tử/bộ sưu tập số/thư viện số được xây dựng theo
hướng mở. Các trường, bảng ghi thơng tin được thiết kế theo hướng đa chiều, có sự
liên kết mạch lạc và chặt chẽ giữa các phần/ mảng thông tin lưu trữ.
Việc áp dụng các chuẩn thiết kế Cơ sở dữ liệu như chuẩn 3 (3NF), chuẩn
Boyce-Codd (BCNF hay 3.5), hay một số các chuẩn khác trong mơ hình hóa Cơ sở dữ
liệu cũng đã góp phần tạo cho hệ thống chạy ổn định, đáng tin cậy và có sự trao đổi
thơng tin qua các giao tiếp ở tầng trên (tầng xử lý nghiệp vụ, tầng trình diễn thơng tin)
một cách nhanh chóng và hiệu quả. Việc phân chia tài liệu theo hướng bộ sưu tập số
cũng là một tiêu chí phổ biến đang được hướng tới trong các hệ thống quản lý thư viện
số, tư liệu hay tài liệu đã số hóa. Việc phân chia này cho phép người dùng có tiếp cận
thơng tin 1 cách cụ thể và nhanh chóng. Song song với mơ hình phân chia tài liệu theo
bộ sưu tập số, hệ thống cũng đưa ra giải pháp phân chia tài liệu theo các chủ đề. Đây
cũng là 1 trong các tiêu chí cần thiết của việc quản lý thư viện số trong tương lai. Các
137
chủ đề ở đây sẽ làm nhiệm vụ phân tách, chi tiết hóa hơn mức so với bộ sưu tập số, ví
dụ: chủ đề kinh tế, chủ đề khoa học công nghệ, chủ đề về kinh tế trong nước,...
CSDL Thư
viện số
Chuẩn thông
tin biên mục
Kho tài
liệu số
Bộ sưu
tập số
Đề mục
chủ đề
Người
dùng
Khác …
Hình 5: Mơ hình CSDL kho dữ liệu số trong hệ thống
(6) Mơ hình cơng nghệ
Giải pháp cơng nghệ phù hợp nhất tính tới thời điểm hiện tại được để xuất đưa
ra là việc sử dụng công nghệ phát triển của Microsoft. Lý do: có khả năng tương thích
với nhiều phần mềm hệ thống đang phổ dụng hiện nay.
Ngoài ra, giải pháp công nghệ của Microsoft là 1 trong các giải pháp được sử
dụng nhiều nhất tính đến thời điểm hiện tại. Microsoft liên tục hỗ trợ và tối ưu các giải
pháp và cơng nghệ của mình khi đưa ra khách hàng.
Công cụ phát triển : Visual Studio 2012
Ngôn ngữ phát triển: ASP.NET (C#)
Framework: 4.0; 4.5
Công cụ phát triển báo cáo: Crystal Reports
Hệ quản trị cơ sở dữ liệu: SQL Server 2008 R2
138
Hình 6: Mơ hình cơng nghệ
Kết luận:
Tóm lại, giải pháp xây dựng kho dữ liệu số tại Bộ đặt trên hệ thống cơ sở hạ
tầng mạng tại NCIF, tích hợp với Cổng thơng tin điện tử của Bộ là hồn toàn khả thi.
Trong điều kiện hiện tại, giải pháp này sẽ khắc phục được phần lớn những bất cập đã
đề cập ở trên ví dụ như: tạo lập được nguồn tin điện tử dùng chung phục vụ nghiên
cứu, hoạch định chính sách và lập kế hoạch phát triển kinh tế-xã hội thuộc Bộ; xây
dựng mạng lưới kết nối các thư viện của các đơn vị trong Bộ đáp ứng nhu cầu khai
thác và sử dụng thông tin một cách nhanh chóng và hiệu quả nhất,... Kho dữ liệu số
được xây dựng bằng cách thu thập và cập nhật tài liệu điện tử tồn văn phục vụ nghiên
cứu, hoạch định chính sách, dự báo và lập kế hoạch phát triển kinh tế-xã hội của các
đơn vị thuộc Bộ. Kho dữ liệu số cho phép, tương tác và kết nối với các hệ thống thư
viện điện tử chuyên ngành của các đơn vị (Viện, Học viện,…) hoặc các Web Portal
của các đơn vị thuộc Bộ. Nó cung cấp chức năng tra cứu tài liệu qua hệ thống mạng
(mạng nội bộ, mạng diện rộng và mạng Internet) và hoàn toàn đáp ứng chuẩn quốc tế
và quốc gia về thư viện và công nghệ thông tin. Với nguồn lực (tài lực, tin lực, vật lực,
nhân lực) còn nhiều hạn chế tại các đơn vị thuộc Bộ, thì đây là giải pháp tối ưu nhất
đáp ứng tối đa nhu cầu tin phục vụ nghiên cứu, hoạch định chính sách, dự báo và lập
kế hoạch phát triển kinh tế-xã hội của Bộ nói riêng cũng như của Đảng và Nhà nước
nói chung trong q trình chuyển đổi số.
139
TÀI LIỆU THAM KHẢO CHÍNH
1)
Nghị định số 86/2017/NĐ-CP của Chính phủ Quy định chức năng, nhiệm vụ,
quyền hạn và cơ cấu tổ chức của Bộ Kế hoạch và Đầu tư, ngày 25 tháng 07 năm 2017;
2)
Quyết định số 44/2018/QĐ-TTg ngày 08/11/2018 của Thủ tướng Chính phủ
quy định về chức năng và nhiệm vụ của Trung tâm Thông tin và Dự báo kinh tế-xã hội
quốc gia;
3)
Nghị định số 11/2014/NĐ-CP, ngày 18 tháng 02 năm 2014 của Chính phủ về
hoạt động thơng tin khoa học và công nghệ;
4)
Thông tư số 14/2014/TT-BKHCN của Bộ Khoa học và Công nghệ ngày 11
tháng 06 năm 2014 Quy định về việc thu thập, đăng ký, lưu giữ và công bố thông tin
về nhiệm vụ khoa học và cơng nghệ;
5)
Ths., Hồng Kim Dung: Quản lý tài liệu điện tử phục vụ nghiên cứu, hoạch
định chính sách và lập kế hoạch phát triển kinh tế-xã hội // Kỷ yếu hội thảo khoa học
quốc tế “Dự báo kinh tế-xã hội phục vụ lập kế hoạch trung hạn trong bối cảnh hội
nhập quốc tế. Chủ đề 5: Thông tin phục vụ nghiên cứu, phân tích, dự báo kinh tế-xã
hội”. - H.: Nxb Hồng Đức, 2015. - tr. 639-654.- ISBN 978-604-86-7913-2;
6)
Cầu Ngọc Tuấn: Mơ hình giải pháp thư viện số // Dự án” Xây dựng hệ thống
thơng tin phân tích và dự báo” của Trung tâm Thông tin và Dự báo kinh tế-xã hội quốc
gia (2012-2015);
7)
Đề tài: Nghiên cứu và đề xuất giải pháp xây dựng cơ chế chia sẻ thông tin tư
liệu phục vụ cơng tác phân tích và dự báo kinh tế-xã hội tại Bộ Kế hoạch và Đầu tư /
Ths., Hoàng Kim Dung (chủ nhiệm đề tài cấp bộ). - H.: Bộ Kế hoạch và Đầu tư,
2013.- 128 tr;
8)
/>(Gary D. Blass et al. "Finding Government Information: The Federal Information
Locator System (FILS)", Government Information Quarterly, JAI Press, Inc.,
Greenwich, Connecticut. Vol. 8, No. 1, pp. 11-32. 1991);
9)
Khái niệm về tài liệu và tài liệu điện tử // />
140