Tải bản đầy đủ (.doc) (4 trang)

Định dạng các files của tài liệu điện tử

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (89.19 KB, 4 trang )

Định dạng các files của tài liệu điện tử
TS. Nguyễn Lệ Nhung
Tồn tại nhiều định dạng các files khác nhau. Chúng có thể được phân chia thành “đơn
chương trình”, nghĩa là chúng được quản lý và bảo đảm bởi một nhân viên lập trình, và
“đa chương trình” được bảo đảm bởi vài nhân viên lập trình và có thể được xử lý bằng
nhiều chương trình (phần mềm) khác nhau.
Chúng ta có thể liệt kê những định dạng cơ bản:
1. Các định dạng văn bản thường được xây dựng nhờ sự trợ giúp của quá trình biên soạn.
Những định dạng văn bản phổ biến nhất là:
- các định dạng đơn phần mềm Microsoft Word và Word Perfect;
- định dạng RTF (Rich Text Format) được bảo đảm bởi nhiều phụ lục phần mềm trong
khi đó vẫn giữ định dạng văn bản đã đặt;
- định dạng PDF (Portable Ducument Format) gồm có hình ảnh trang với cả văn bản và
biểu đồ. Có thể đọc những file theo định dạng PDF bằng nhiều phần mềm để đọc files
khác nhau, nhưng chúng được xây dựng chỉ nhờ phần mềm Adobe Acrobat.
2. Các định dạng đồ họa lưu giữ hình ảnh (ví dụ, ảnh chụp, hình vẽ) và được chia ra
thành hai kiểu chính:
2.1. Các định dạng vector - lưu giữ hình ảnh như là tập hợp các hình dạng hình học. Phổ
biến hơn cả là:
- định dạng DXF (Drawing Interchange Format) được sử dụng rộng rãi trong các chương
trình thiết kế bằng máy tính cho các kỹ sư và kiến trúc sư;
- định dạng EPS (Encapsulated PortScript) được sử dụng rộng rãi trong các hệ thống biểu
quyết/bầu cử tại bàn;
- định dạng CGM (Computer Graphics Metafile) được sử dụng rộng rãi trong nhiều phần
mềm đồ họa (ví dụ trong phần mềm Photoshop).
2.2. Các định dạng mành, chúng lưu giữ hình ảnh như là tập hợp những điểm ảnh pixels. Khi thay đổi kích cỡ ảnh, đồ họa mành bị biến dạng. Phổ biến hơn cả là:
- định dạng BMP (Bitmap)- định dạng tương đối kém về chất lượng, thường dùng vào
quá trình soạn thảo văn bản;
- định dạng TIFF (Tagget Image File Format) sử dụng rộng rãi trong các ứng dụng phần
mềm;
- định dạng GIF (Graphics Interchange Format) sử dụng rộng rãi trong các phần mềm


dành cho Internet.
3. Các định dạng cơ sở dữ liệu được xây dựng nhờ những phần mềm chuyên dụng - các
hệ thống quản lý cơ sở dữ liệu.
Hệ thống quản lý cơ sở dữ liệu cho phép xác định những mối quan hệ giữa các thành
phần thông tin của cơ sở dữ liệu, thực hiện các tác động khác nhau tới thông tin của cơ
sở dữ liệu (tìm kiếm, đánh dấu, thực hiện những phép toán khác nhau, lập báo cáo và chỉ
dẫn, v.v.). Những ví dụ về hệ thống quản lý cơ sở dữ liệu là Microsoft SQL Sever,
Oracle, MySQL, IBM DB2, Sybase và những phần mềm khác.
Ví dụ, cơ sở dữ liệu về khách hàng gồm có trường thông tin tên người mua, địa chỉ và
thông tin về hàng hóa. Những trường đó có thể được tổ chức thành các bảng riêng biệt
(thí dụ, một bảng cho tất cả các trường với họ tên của khách hàng).
Cơ sở dữ liệu có thể chuyển sang định dạng văn bản, nhưng khi đó bị mất đi mối liên hệ
giữa các trường thông tin với các bảng (ví dụ, lúc đó có thể nhận được mười trang họ tên,
TS. Nguyễn Lệ Nhung 0912581997

1


mười trang địa chỉ và nghìn trang thông tin về hàng hóa, tức là thông tin không liên kết).
4. Các định dạng bảng điện tử. Những file trong định dạng bảng điện tử lưu giữ trong các
ô những con số và mối liên hệ giữa những con số đó. Ví dụ, một ô có thể chứa công thức
thực hiện việc cộng dữ liệu của hai ô khác. Giống như các file cơ sở dữ liệu, các file
bảng điện tử thường có định dạng của chính phần mềm tạo ra nó. Một số chương trình có
thể nhập khẩu và khai thác những dữ liệu của các nguồn khác kể cả của những chương
trình dùng để trao đổi dữ liệu kiểu này (thí dụ, định dạng DIF (Data Interchange
Format)). Các file của bảng điện tử có thể chuyển đổi thành file văn bản, nhưng những
con số và mối liên hệ giữa các số sẽ bị mất đi.
5. Các định dạng nghe-nhìn/video-audio. Những định dạng đó chứa các hình ảnh chuyển
động (ví dụ video số, hoạt hình) và các dữ liệu âm thanh được xây dựng và có thể xem,
nghe nhờ các chương trình tương thích và lưu giữ trong định dạng đơn chương trình.

Những định dạng được sử dụng nhiều hơn cả là QuickTime và MPEG (Motion Picture
Experts Group).
6. Đánh dấu ngôn ngữ còn được gọi là các định dạng đánh dấu, gồm có các hướng dẫn
đính kèm để biểu diễn nội dung của file. Chúng là:
- SGML (Standard Generalized Markup Language) được sử dụng trong các cơ quan nhà
nước ở nhiều nước trên thế giới và là tiêu chuẩn quốc tế;
- HTML (Hypertext Markup Language) được sử dụng để hiển thị hầu như toàn bộ thông
tin của mạng World Wide Web;
- XML (Extensible Markup Language) - ngôn ngữ tương đối đơn giản dựa trên cơ sở
SGML và được dùng phổ biến khi quản lý thông tin và trao đổi thông tin.
Từng định dạng file có điểm mạnh và điểm yếu riêng khi áp dụng vào việc bảo đảm tài
liệu cho quản lý. Thí dụ, những định dạng văn bản (MicrosoftWord, WordPerfect, RTF
v.v.) thuận tiện cho tìm kiếm ngữ cảnh theo các tài liệu trong cơ sở dữ liệu, còn các định
dạng đồ hoạ (PDF, TIFF v.v.) giúp nhận được hình ảnh khi scan với toàn bộ những đặc
điểm bên ngoài của nó và giữ tài liệu có dạng đúng như trên giấy với đầy đủ chữ ký, con
dấu, bút tích.
Định dạng MS Word rất tiện cho biên tập tài liệu và xử lý thông tin, nhưng file MS Word
lại chứa đựng nhiều thông tin ẩn (trước tiên về những thay đổi đã thực hiện trong file) và
như vậy, nó rất không an toàn theo quan điểm thất thoát thông tin công vụ. Ví dụ, trong
lúc chuẩn bị tài liệu thương mại, thông tin ẩn lại cho ta biết những đề xuất khởi điểm, ai
có ảnh hưởng mạnh nhất tới văn bản. Trong chuẩn bị tài liệu theo nhóm, sự phân tích sửa
đổi cho ta khả năng nhận biết không chỉ họ tên những người lập tài liệu mà cả mức độ
đóng góp của từng người vào phương án hoàn chỉnh của tài liệu.
Ở Nga, các cơ quan chính quyền LB tự quy định định dạng cho các dạng tài liệu điện tử
được sử dụng trong giao dịch với các cơ quan, tổ chức khác và với công dân. Thí dụ,
theo những yêu cầu của Uỷ ban LB về thị trường tiền tệ (ngày nay là Cơ quan LB về thị
trường tài chính) các file tài liệu phải được trình bày trong định dạng RTF. Về phần
mình, Bộ Tài chính Nga quy định các file tài liệu thống kê do các tổ chức bảo hiểm (bảo
hiểm y tế) lập có định dạng XML.
Vậy định dạng XML tuyệt vời vì cái gì? Đánh dấu ngôn ngữ mở rộng (Extensible

Markup Language) chứa đựng trong mình không chỉ các dữ liệu mà còn mang thông tin
TS. Nguyễn Lệ Nhung 0912581997

2


mô tả những dữ liệu đó. Nó dùng được cho bất kỳ ứng dụng máy tính nào mà không bị lệ
thuộc vào kỹ thuật và các hệ thống xử lý, nó cho phép chuyển tải dung lượng lớn thông
tin không cần đến những biến đổi cấu trúc dữ liệu. Công nghệ XML (eXtensible Markup
Language) được dùng để chia sẻ các loại dữ liệu riêng biệt thông qua các hệ thống khác
nhau bằng một hình thức thể hiện thống nhất. Trước đây các ứng dụng của bộ Office
thường lưu lại các file bằng định dạng của riêng mình mà các chương trình khác không
thể mở ra để xem được.
Những định dạng tiền nhiệm của XML là đánh dấu ngôn ngữ chuẩn chung được Tổ chức
tiêu chuẩn quốc tế phê duyệt như một tiêu chuẩn ngay từ những năm 1980, một phiên
bản rút gọn của nó là đánh dấu ngôn ngữ siêu văn bản HTML.
Định dạng XML được các tổ chức tiêu chuẩn của cộng đồng-internet với đại diện là tập
đoàn World Wide Web (W3C) và tổ chức UDDI.org thông qua. Hiện nay các công ty
Microsoft, IBM, Oracle, cũng như một loạt các công ty sản xuất phầm mềm đã linh hoạt
chuyển sang sử dụng XML vào các sản phẩm của mình và trên thực tế, họ đang thực hiện
ý tưởng tiêu chuẩn hoá định dạng tài liệu trên cơ sở XML.
Thuận lợi đầu tiên của công nghệ XML là giảm thiểu được kích thước file, cho phép
người dùng gửi các file này đi dưới dạng file đính kèm một cách dễ dàng. Định dạng
XML cũng tạo điều kiện cho một file tài liệu nào đó có thể chứa được văn bản, hình ảnh
các dạng dữ liệu phức tạp, cùng với định dạng dữ liệu riêng của nó. Ngoài ra XML còn
giúp cho người dùng truy cập vào dữ liệu dễ dàng hơn, cũng như có thể phục hồi được
các tệp dữ liệu đã bị hỏng, đồng thời tăng cường độ an toàn của dữ liệu.
Định dạng PDF là một định dạng tập tin văn bản do hãng Adobe Systems Inc. xây dựng
đang rất phổ biến trong trao đổi tài liệu và được sử dụng rộng rãi cho những tài liệu của
mạng internet bởi vì nó cho phép giữ hình thức ban đầu của tài liệu và ngăn cản việc thay

đổi thông tin tài liệu. Tương tự như định dạng Microsoft Word (.doc), PDF hỗ trợ văn
bản thô (text) cùng với font chữ, hình ảnh đồ họa và nhiều hiệu ứng khác. Tuy nhiên,
việc hiển thị văn bản PDF không phụ thuộc vào môi trường làm việc của người sử dụng
(cấu hình máy, phần mềm và hệ điều hành). Không như văn bản Word, một văn bản PDF
sẽ được hiển thị giống nhau trên những môi trường làm việc khác nhau nếu như file PDF
đó đã được tạo hiệu ứng nhúng font chữ (Embedded Subset). Chính vì ưu điểm này, định
dạng PDF đã trở nên phổ biển cho việc phát hành sách, báo hay các tài liệu khác qua
mạng Internet. Theo đánh giá của công ty Adobe thì đã có hàng triệu người tải phần
mềm miễn phí của công ty để xem các file PDF, nhiều doanh nghiệp đã chọn định dạng
này làm tiêu chuẩn chuyển giao và lưu giữ tài liệu, có không ít lập trình viên độc lập
đang giới thiệu những sản phẩm hỗ trợ PDF, thậm chí một số là miễn phí.
Nhưng công ty Adobe trong tương lai sẽ không cung cấp miễn phí quyền tiếp cận tới các
chương trình của mình. Hơn nữa, trong những phiên bản mới của chương trình Adobe,
các file của phiên bản cũ thường được trình diễn không chính xác. Chính vì vậy đã xuất
hiện phiên bản nâng cấp định dạng PDF dược gọi là PDF-Archive (PDF-A). Ở nước
ngoài nó được coi là một trong hai phiên bản cơ sở mà trong tương lai có thể được sử
dụng cho lưu trữ tài liệu điện tử. Còn định dạng thứ hai là XML nói trên.
Định dạng PDF-A cũng giống như XML có những điểm nổi trội và yếu kém của mình
trong công tác lưu trữ tài liệu điện tử. Cụ thể, định dạng PDF-A đặc biệt thuận lợi cho
lưu trữ tài liệu điện tử vì nó giữ được ngoại hình của tài liệu gốc bằng giấy. Kinh nghiệm
công tác xét xử hai vụ phá sản lớn nhất trong lịch sử Mỹ - các công ty Enron và Global
TS. Nguyễn Lệ Nhung 0912581997

3


Crossing đã khẳng định được tiện ích của nó. Họ đã tạo lập khối lượng lớn tài liệu trong
định dạng PDF và đã đặt ra trước các cơ quan tư pháp LB nhiệm vụ lưu trữ những tài
liệu đó. Về nhiều điểm thì đây là tác động tích cực vào quá trình biên soạn dự thảo tiêu
chuẩn quốc tế về lưu trữ tài liệu theo PDF.

Song khả năng sử dụng những định dạng trên vào lưu trữ điện tử còn hạn chế, lấy thí dụ,
định dạng PDF-A không dùng được cho lưu trữ tài liệu nghe nhìn.
Thay lời kết luận
Phải lưu ý rằng không có một định dạng nào trong số các định dạng file tài liệu điện tử là
tối ưu cho lưu trữ lâu dài, bởi vì kỹ thuật, công nghệ và chương trình thay đổi khá nhanh.
Ngay bây giờ đã khó khôi phục lại trên thiết bị mới những tài liệu được lập nhờ các công
cụ biên tập AmiPro, WordPerfect. Vậy thì có thể dễ dàng không, nếu như dựng lại tài
liệu lưu trữ trong định dạng Word-97 sau 10-15 năm nữa?
Chắc chắn là sự phong phú của các định dạng files tài liệu sẽ vẫn tồn tại. Vì vậy, các cơ
quan lưu trữ biên soạn tiêu chuẩn cho lưu trữ tài liệu điện tử có định dạng khác nhau mà
trước tiên cho những định dạng phổ biến hơn cả là PDF và XML. Tuy vậy, hiện nay
những hy vọng lớn lao đều liên quan đến việc sử dụng định dạng XML như là tiêu chuẩn
để trao đổi tài liệu điện tử trong các lĩnh vực hoạt động khác nhau, đặc biệt là trong lĩnh
vực quản lý nhà nước.
TS. Nguyễn Lệ Nhung tổng hợp và dịch từ www.archives.ru

TS. Nguyễn Lệ Nhung 0912581997

4



×