TS. Nguyễn lệ Nhung 0912581997
www.vanthuluutru.com
1
Các siêu dữ liệu của tài liệu điện tử
dưới góc nhìn của Tiêu chuẩn Nga
và Tiêu chuẩn quốc tế
TS. Nguyễn Lệ Nhung
Các siêu dữ liệu – những dữ liệu về dữ liệu đã được cấu trúc hóa, đó là thông
tin cho phép nhận dạng các nguồn thông tin, tìm kiếm và quản lý chúng. Các
siêu dữ liệu có ý nghĩa đặc biệt trong mối quan hệ với tài liệu điện tử. Theo
hướng dẫn của tiêu chuẩn Nga R 50.1.031, tài liệu điện tử như là đối tượng
thông tin gồm có hai thành phần:
1) tiêu chí, bao hàm những tiêu chí định dạng (tên, thời điểm và nơi xác lập, các
dữ liệu về tác giả v.v.) và chữ ký điện tử;
2) nội dung, chứa đựng thông tin viết, số và /hoặc đồ họa được xử lý như là một
vật thể duy nhất và đầy đủ.
Các “tiêu chí nhận dạng” nêu trên được làm rõ nhờ thuật ngữ “siêu dữ liệu”.
Trong tiêu chuẩn quốc gia GOST 7.70-2003 thuật ngữ “siêu dữ liệu” được định
nghĩa như là “sự mô tả hình thức nguồn thông tin, được sử dụng để nhận dạng
và phân loại nguồn thông tin khi làm việc với các tập hợp lớn những nguồn
thông tin”.
Tiêu chuẩn quốc tế ISO 15489 định nghĩa siêu dữ liệu như các dữ liệu mô tả
ngữ cảnh, nội dung, cấu trúc và quản lý tài liệu theo thời gian. Từ định nghĩa đó,
ta thấy, những siêu dữ liệu văn thư được sử dụng trước tiên là để mô tả thuộc
tính của tài liệu như nội dung, cấu trúc và ngữ cảnh. Chỉ có các tài liệu là có cả
nội dung, cả ngữ cảnh và cả cấu trúc (các dữ liệu chỉ có một vài nội dung, còn
bản ghi chỉ có nội dung và cấu trúc).
1. Một số định nghĩa
Nội dung (content) - đó là thông tin thực tế ghi nhận hoạt động quản lý của tài
liệu. Nội dung của một tài liệu có thể được trình bày trong một hoặc vài bản ghi
giấy và /hay điện tử. Ngoài nội dung bản ghi (các bản ghi), tài liệu có thông tin
về ngữ cảnh và cấu trúc của bản ghi.
Cấu trúc - đó là hình dáng bên ngoài và sự sắp xếp các phần của nội dung (ví
dụ, vật mang tin, định dạng của file, tổ chức các dữ liệu, sắp xếp các tiêu chí,
các kiểu chữ, những ghi chú, các bảng biểu v.v.), cũng như các mối liên hệ hiện
có của tài liệu này với các tài liệu khác (các siêu chú dẫn).
Có thể chỉ ra sự khác biệt giữa cấu trúc vật lý và cấu trúc logic của tài liệu. Đối
với người sử dụng, cấu trúc vật lý của tài liệu truyền thống là rõ ràng, còn cấu
trúc vật lý của tài liệu điện tử là không cố định và nó phụ thuộc vào sự duy trì
chương trình phần mềm và kỹ thuật, vì vậy, cấu trúc logic - mối quan hệ giữa
các bộ phận tạo thành tài liệu điện tử - làm cho tài liệu điện tử có thể hiểu được.
Ngữ cảnh - là thông tin chứa đựng trong tài liệu hoặc đi kèm với nó, chỉ ra mối
quan hệ tương hỗ giữa tài liệu với hoạt động quản lý của cơ quan, tổ chức và
với các tài liệu khác. Đó là các thông tin về bản thân tài liệu (thí dụ, tên tài liệu,
tác giả, ngày xác lập), về người lập và những mục đích lập tài liệu (ví dụ, về
chức năng hay hoạt động quản lý, về cơ quan - đơn vị lập tài liệu), về việc sử
dụng tài liệu (ai, khi nào, vào mục đích gì). Theo định nghĩa của Tiêu chuẩn
TS. Nguyễn lệ Nhung 0912581997
www.vanthuluutru.com
2
quốc tế ISO 15489, ngữ cảnh có nghĩa là tình huống (các nhà tạo lập, mục đích
của họ, hành động và hoàn cảnh), là nguyên nhân của những sự kiện đã xảy ra,
của sự tạo lập và lưu giữ các tài liệu ghi lại các sự kiện đó.
Các siêu dữ liệu - đó là bộ phận quan trọng của thông tin ngữ cảnh.
2. Các siêu dữ liệu theo tiêu chuẩn ISO 15489
Tiêu chuẩn ISO 15489 quy định: các tài liệu, ngoài nội dung phản ánh hành
động quản lý các siêu dữ liệu, còn phải có mối quan hệ thường xuyên hoặc gắn
kết với các siêu dữ liệu đó. Khi đó:
- cấu trúc của tài liệu, nghĩa là định dạng của nó và các mối quan hệ lẫn nhau
giữa những thành tố tạo thành tài liệu phải luôn là không thay đổi;
- trong tài liệu phải phản ánh được ngữ cảnh quản lý việc lập, tiếp nhận và sử
dụng tài liệu (trong đó có quá trình quản lý mà một phần của nó là hành động
quản lý đó, có ngày tháng và thời gian diễn ra hành động và người tham gia
hành động);
- các bản ghi riêng biệt trong tập hợp tạo thành tài liệu phải có mối liên hệ với
nhau.
Các siêu dữ liệu không chỉ được tạo nên tại thời điểm tạo lập (hay tiếp nhận và
đăng ký) tài liệu trong hệ thống tài liệu của tổ chức , mà chúng còn được bổ
sung theo thời gian (thí dụ, trong quá trình sử dụng tài liệu).
Các siêu dữ liệu - tuy không phải là hiện tượng mới trong lĩnh vực thông tin và
tài liệu, nhưng trong công tác văn thư lưu trữ - đó là thuật ngữ mới, sử dụng nó
có nghĩa là gắn với một thực tế là trong thời đại thông tin số các siêu dữ liệu đã
trở nên có ý nghĩa đặc biệt. Trong môi trường điện tử, những tài liệu nguyên bản
luôn đi cùng với các siêu dữ liệu xác định chính xác những đặc điểm cơ bản của
chúng. Chính các siêu dữ liệu làm cho tài liệu điện tử trở nên thích hợp cho sử
dụng, dễ hiểu và là nguyên bản, bảo đảm tính bất biến, tính trung thực và hiệu
lực làm chứng cứ pháp lý của tài liệu điện tử. Do vậy, các siêu dữ liệu là thành
phần bắt buộc của quản lý tài liệu điện tử.
Trong văn thư truyền thống, các siêu dữ liệu nằm trên bìa hồ sơ, trong phiếu
đăng ký tài liệu, danh sách hồ sơ. Về ý tưởng các siêu dữ liệu luôn gắn với
thông tin mà nó chú dẫn tới, ví dụ, chúng có thể có ở chính phiếu thư mục tài
liệu. Trong thực tiễn khi làm việc với tài liệu (sử dụng các hệ thống tự động) các
siêu dữ liệu thường được mã hoá tới mức không phân biệt được trong đối
tượng thông tin điện tử.
Như vậy, các siêu dữ liệu dùng để mô tả cả tài liệu giấy lẫn tài liệu điện tử, làm
cho thông tin có dạng cấu trúc. Các siêu dữ liệu văn thư mô tả không chỉ bản
thân tài liệu mà cả những con người, quá trình, và hệ thống đang quản lý, tạo
lập, lưu giữ và sử dụng chúng, cũng như cả những nguyên tắc, quy tắc mà tài
liệu tuân theo.
Ở nước ngoài, tồn tại những tiêu chuẩn khác nhau của các siêu dữ liệu, trong
số đó có những tiêu chuẩn được soạn thảo cho mục đích của công tác văn thư
và lưu trữ.
3. Các siêu dữ liệu theo tiêu chuẩn ISO của Liên bang Nga
Năm 2003, tại Nga đã biên soạn tiêu chuẩn GOST 7.70. Tiêu chuẩn quốc gia
này đưa ra một hệ thống đơn giản mô tả các nguồn thông tin (trong đó, có
nguồn mạng của các mạng cục bộ/địa phương và mạng rộng/toàn cầu) và tiệm
cận hệ thống đó tới thực tiễn toàn cầu. GOST 7.70 đề xuất 29 tiêu chí để mô tả
các nguồn thông tin. Trong đó, có 10 tiêu chí mà theo chúng tôi là bắt buộc đối
TS. Nguyễn lệ Nhung 0912581997
www.vanthuluutru.com
3
với tất cả các dạng nguồn:
1) Tiêu chí nhận dạng nguồn thông tin - dòng các ký tự cho phép nhận dạng
nhất quán (đơn trị) nguồn được mô tả, được dùng để chú dẫn nguồn. Sự lựa
chọn phương pháp ấn định tiêu chí nhận dạng do tổ chức có thẩm quyền nhận
đăng ký hoặc tổ chức áp dụng hệ thống các siêu dữ liệu mô tả thực hiện. Ví dụ,
trong trường hợp đăng ký các nguồn thông tin điện tử thì tiêu chí nhận dạng là
số đăng ký. Mỗi nguồn thông tin phải có một tiêu chí nhận dạng riêng, không
trùng lặp với tiêu chí nhận dạng các nguồn khác trong mạng hoặc trong tập hợp
các nguồn.
2) Tên nguồn - tên do người lập hay cơ quan chủ quản đặt cho nguồn. Nếu họ
chưa làm việc đó thì người lập mô tả nguồn sẽ đặt tên khi đăng ký và đưa nó
vào sổ tra cứu.
3) Chủ quản - tên của đại diện pháp lý hoặc tên của đại diện thực thể đang sở
hữu nguồn.
4) Mô tả - diễn giải bằng chữ nội dung của nguồn gồm cả tóm tắt hay giải trình
(đối với các tài liệu văn bản), hoặc mô tả phần được lưu (đối với các nguồn
nghe, nhìn hay đa phương tiện). Nếu nguồn được mô tả là tuyển tập tài liệu
cùng dạng hoặc gần nhau về cấu trúc, thì nêu dạng hay cấu trúc tài liệu.
Yêu cầu đối với nội dung, xây dựng và trình bày toàn văn mô tả và tóm tắt tài
liệu được quy định trong GOST 7.9.95 tương đương với tiêu chuẩn quốc tế ISO
214-76.
5) Mã tiêu đề - chủ đề của nguồn thông tin được biểu thị bằng các mã của danh
mục chuẩn những tiêu đề chủ đề đang áp dụng ở các nước SNG - Tiêu đề
thông tin khoa học - kỹ thuật quốc gia.
6) Từ khoá - Trong tiêu chí này chỉ ra các từ khoá mô tả đối tượng của nguồn
thông tin điện tử (nghĩa là thông tin trong nguồn về các khái niệm cơ bản).
7) Ngôn ngữ - Trong tiêu chí này nêu ngôn ngữ được dùng để viết các thành
phần văn bản của nguồn thông tin. Nếu có các văn bản dùng các ngôn ngữ khác
nhau, thì cần chỉ rõ từng ngôn ngữ. Tên của ngôn ngữ được chú giải đầy đủ
hoặc rút gọn phù hợp với tiêu chuẩn GOST 7.75.
8) Chu kỳ làm mới - Trong tiêu chí này chỉ ra chu kỳ tiến hành làm mới nguồn
bằng cách ghi vào tiêu chí một trong những từ sau: “năm”, “quý”, “tháng”, “tuần”,
“ngày”, “thường xuyên”, “theo sự kiện”, “không làm mới”.
9) Cấp vốn - chỉ những hình thức cấp vốn để lập và quản lý nguồn. Chỉ dẫn
bằng cách ghi vào tiêu chí một trong các cụm từ sau: “ngân sách liên bang”,
“ngân sách của các tổ chức liên bang”, “ngân sách thành phố”, “vốn ngoại hối
quốc gia”, “vốn tự có”, “vốn của những đại diện pháp lý và thực thể khác“,
“nguồn cấp vốn không xác định”.
10) Thời gian làm mới lần cuối nguồn thông tin - thời gian làm mới lần cuối nội
dung của nguồn hoặc thời gian thiết lập nếu chưa làm mới. Đối với thành tố
“thời gian” (data) trên toàn thế giới sử dụng tiêu chuẩn ISO 8601, nó đặt ra quy
cách thống nhất trình bày ngày (NNNN-TT-nn/năm-tháng-ngày); giờ
(gg:pp:gygy/giờ:phút:giây); cũng như các khoảng thời gian. Tiêu chuẩn GOST
ISO 8601 của Liên bang Nga hoàn toàn tương thích với tiêu chuẩn quốc tế trên.
Ngoài ra, còn có một số tiêu chí bắt buộc có điều kiện bao gồm:
1. Thời gian làm mới lần cuối siêu dữ liệu của nguồn thông tin - thời gian (theo
quy cách của GOST ISO 8601) làm mới lần cuối siêu dữ liệu của nguồn. Tiêu
chí này là bắt buộc nếu siêu dữ liệu đã được làm mới.
2. Địa chỉ mạng - địa chỉ tiếp cận tới nguồn kiểu “http” hoặc “ftp”. Tiêu chí bắt
TS. Nguyễn lệ Nhung 0912581997
www.vanthuluutru.com
4
buộc trong trường hợp nếu nguồn được đưa vào mạng toàn cầu.
3. Nhà tư vấn - người cung cấp các thông tin bổ sung về nguồn. Tiêu chí bắt
buộc đối với các nguồn điện tử ngoài mạng.
4. Thời gian đăng ký - thời gian theo quy cách của GOST ISO 8601. Tiêu chí bắt
buộc trong trường hợp đăng ký nguồn thông tin.
5. Cơ quan đăng ký - tên tổ chức thực hiện việc đăng ký nguồn thông tin điện tử.
Tiêu chí bắt buộc trong trường hợp đăng ký nguồn thông tin.
Ngoài những tiêu chí bắt buộc và bắt buộc có điều kiện trong tiêu chuẩn còn quy
định các tiêu chí tuỳ chọn, chúng không bắt buộc phải có trong mô tả nhưng cho
phép cung cấp cho người sử dụng những thông tin bổ sung về nguồn thông tin,
làm cho việc tiếp cận nguồn thuận tiện hơn và hấp dẫn hơn.
Tiêu chuẩn GOST 7.70 hướng dẫn các cơ quan đăng ký nguồn thông tin không
chỉ lập thư mục những nguồn đã đăng ký mà còn cả danh mục tiêu chí để sử
dụng khi soạn thảo mô tả nguồn thông tin điện tử như là “tổ chức” và “cá nhân”.
Được đưa vào danh mục tiêu chí (những file riêng biệt) là những dữ liệu về các
tổ chức và những người nắm giữ, xây dựng và tham gia tạo lập và công bố
những nguồn thông tin, cũng như tư vấn về sử dụng nguồn. Danh mục “tổ
chức”, danh mục “cá nhân” là linh hoạt nghĩa là chúng có thể được bổ sung theo
mức tích luỹ của các nguồn thông tin điện tử.
Trong tiêu chuẩn có danh mục tiêu chí để mô tả nguồn thông tin dạng “tổ chức”
và dạng “cá nhân”. Đối với tổ chức (những đại diện pháp lý) đã xây dựng 14 tiêu
chí: nhận diện (ví dụ, số thứ tự do cơ quan đăng ký gán cho), tên chính thức,
tên khác đã được chấp nhận chung, các tiêu chí giao tiếp (site, số điện thoại với
mã nước và mã vùng, số fax với mã nước và mã vùng, địa chỉ hộp thư điện tử,
địa chỉ hòm thư chính thức với mã số bưu điện), nơi công tác (vùng , khu dân
cư), nhà lãnh đạo, tổ chức cấp trên , thông tin bổ sung (về những nguồn thông
tin có trong tổ chức), thời gian làm mới lần cuối thông tin về tổ chức. Đối với
những đại diện thực thể (cá nhân) đã định ra 10 tiêu chí: nhận diện, họ tên, chức
vụ, site cá nhân, điện thoại, fax, địa chỉ hộp thư điện tử, các thông tin bổ sung,
thời gian làm mới lần cuối thông tin về cá nhân.
Các tiêu chí tổ chức nói chung đều là bắt buộc và bắt buộc có điều kiện. Với đại
diện thực thể các tiêu chí bắt buộc chỉ là nhận diện và họ tên (họ, tên, phụ danh)
Tóm lại, phải thừa nhận rằng phiên bản mới của tiêu chuẩn GOST 7.70 thể hiện
đầy đủ thành quả của cộng đồng thế giới trong lĩnh vực mô tả các nguồn thông
tin điện tử.
Các tiêu chuẩn quốc gia về siêu dữ liệu được thông qua tại nhiều nước phát
triển. Công tác đó thường thực hiện trong khuôn khổ của giải pháp xây dựng
“Chính phủ điện tử”.
Ở Mỹ đang áp dụng sơ đồ phổ dụng khác - GILS (Government Information
Locator Service). Còn có các sơ đồ phổ dụng AACR2, EAD, TEI, MARC,
USMARC, ISAD(G), FRBR.
Ngoài tiêu chuẩn phổ dụng, tồn tại tiêu chuẩn của siêu dữ liệu liên quan tới các
lĩnh vực hay ngành xác định: địa lý, nông nghiệp, giáo dục, công tác thư viện,
thống kê v.v... Cụ thể, tại một loạt nước đã thông qua ở cấp độ quốc tế các tiêu
chuẩn mô tả thông tin tài liệu lưu trữ. Ở Nga còn áp dụng tiêu chuẩn GOST về
thẻ điện tử các siêu dữ liệu.
Tại Úc, tiêu chuẩn siêu dữ liệu trong công tác văn thư do Lưu trữ quốc gia biên
soạn và áp dụng cho các cơ quan nhà nước: hướng dẫn và mô tả chi tiết 20
thành tố cơ bản và 65 thành tố phụ của siêu dữ liệu. Cần nhấn mạnh thêm là ở
phạm vi rộng còn có tiêu chuẩn siêu dữ liệu do các cơ quan lưu trữ các bang
TS. Nguyễn lệ Nhung 0912581997
www.vanthuluutru.com
5
Victoria và New South Wales của Úc biên soạn, cũng như có sơ đồ siêu dữ liệu
do Đại học tổng hợp Monash Úc xây dựng.
Cụ thể, tiêu chuẩn hoá siêu dữ liệu văn thư đã được thực hiện tích cực trong
khoảng vài năm ở cấp quốc gia vào những năm gần đây đã chuyển sang cấp
quốc tế. Năm 2004, tiêu chuẩn quốc tế về siêu dữ liệu văn thư ISO 23081 đã
được thông qua.
4. Tiêu chuẩn quốc tế về siêu dữ liệu văn thư ISO 23081
Đây là một sơ đồ khá phức tạp bao trùm tất cả đặc tính vốn có của tài liệu và chỉ
ra mối liên hệ giữa tài liệu với chức năng quản lý, cũng như giữa tài liệu với cá
nhân, các đơn vị cấu trúc, tổ chức đã tạo lập, sử dụng, quản lý và chịu trách
nhiệm về tài liệu hoặc về hành động quản lý tương ứng. Tiêu chuẩn này đưa
các thành tố xác nhận 5 dạng thông tin về tài liệu vào siêu dữ liệu bắt buộc:
1) Thông tin cơ sở cho phép nhận dạng tài liệu: kiểu của tài liệu hay nhóm tài
liệu (ví dụ, tài liệu riêng biệt, hồ sơ, tập/series); dấu hiệu nhận dạng phổ dụng
(thường là số, chữ - số); tiêu đề của tài liệu; thời gian tạo lập tài liệu.
2) Địa chỉ tài liệu: nơi lưu giữ (thí dụ số của hồ sơ); nơi để hiện tại của tài liệu
(thường là tên người sử dụng).
3) Mối liên hệ của tài liệu với hoạt động quản lý, với các tài liệu và các tác giả tài
liệu khác: chức năng quản lý mà tài liệu có quan hệ tới; dấu hiệu nhận dạng các
tài liệu liên quan; dạng quan hệ giữa các tài liệu (tài liệu trước, tài liệu sau, kiểm
soát, bị kiểm soát, là một phần); người lập (một người hay nhóm nhân viên); tổ
chức có trách nhiệm quản lý tài liệu.
4) Tiếp cận tài liệu: quyền tiếp cận (ví dụ “Sử dụng nội bộ”); hạn chế tiếp cận (ví
dụ “Bí mật thương mại”).
5) Quản lý tài liệu: thời gian đăng ký tài liệu; vật mang tin và quy cách lưu giữ tài
liệu điện tử; di chuyển tài liệu điện tử; số hồ sơ theo danh mục hồ sơ; thời hạn
lưu giữ; tác động xảy ra với tài liệu (hình thức, thời gian, người thực hiện tác
động, ví dụ đăng ký hoặc chuyển tài liệu vào lưu trữ).
Các tài liệu văn thư đang cần có một tập hợp các siêu dữ liệu đặc biệt đa dụng.
Các tài liệu đang đòi hỏi nhiều hơn các siêu dữ liệu ghi nhận ngữ cảnh tạo lập
tài liệu làm sao cho chúng vẫn là hiểu được kể cả sau quãng thời gian dài. Song
cho đến thời điểm này, các chuyên gia còn chưa đi tới ý kiến thống nhất về
thành phần của tập hợp các siêu dữ liệu. Những hy vọng lớn lao đang mong
chờ ở tiêu chuẩn quốc tế ISO 23081 vì nó dự kiến đánh giá các tập các siêu dữ
liệu hiện có và các dự thảo khác nhau trong lĩnh vực này có đáp ứng với những
yêu cầu của tiêu chuẩn ISO 15489 hay không.
Các dạng cơ bản của các siêu dữ liệu mà hệ thống quản lý tài liệu phải xử lý và
lưu giữ cùng với nội dung của tài liệu gồm có: các siêu dữ liệu ngữ cảnh (dữ liệu
về lập, nhận, chuyển tài liệu; thời gian nhận; mối quan hệ của tài liệu tới quá
trình kinh doanh nhất định và các tài liệu liên quan); các siêu dữ liệu về điều kiện
tiếp cận và sử dụng tài liệu (hệ thống phải ghi nhận lịch trình sử dụng); các siêu
dữ liệu về sắp đặt tài liệu; các siêu dữ liệu mô tả nội dung tài liệu; các siêu dữ
liệu về cấu trúc tài liệu. Như vậy, các siêu dữ liệu văn thư ở các mức độ khác
nhau phải cụ thể hoá nội dung và cấu trúc của tài liệu, ngữ cảnh tạo lập nó.
Trong tiêu chuẩn quốc tế ISO 23081 có phân biệt các siêu dữ liệu về chính tài
liệu, về các nguyên tắc và quy tắc hoạt động quản lý, về những người tham gia
vào quá trình quản lý và công tác văn thư, về hoạt động quản lý và các quá trình
của nó, về quá trình của công tác văn thư. Những yêu cầu đối với các dạng siêu
dữ liệu này được xác định xuất phát từ các yêu cầu của ISO 15489.