Tải bản đầy đủ (.doc) (6 trang)

Định dạng các files của tài liệu điện tử

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (142.37 KB, 6 trang )

Định dạng các files của tài liệu điện tử
Tồn tại nhiều định dạng các files khác nhau. Chúng có thể được phân chia
thành “đơn chương trình”, nghĩa là chúng được quản lý và bảo đảm bởi một
nhân viên lập trình, và “đa chương trình” được bảo đảm bởi vài nhân viên lập
trình và có thể được xử lý bằng nhiều chương trình phần mềm khác nhau.
Chúng ta có thể liệt kê những định dạng cơ bản:
1. Các định dạng văn bản
Chúng thường được xây dựng nhờ sự trợ giúp của các quá trình biên soạn.
Những định dạng văn bản phổ biến nhất là:
- các định dạng đơn phần mềm Microsoft Word và Word Perfect;
- định dạng RTF (Rich Text Format) được bảo đảm bởi nhiều phụ lục phần mềm
trong khi đó vẫn giữ định dạng văn bản đã đặt;
- định dạng PDF (Portable Ducument Format) gồm có hình ảnh trang với cả văn
bản và biểu đồ. Có thể đọc những file theo định dạng PDF bằng nhiều phần
mềm để đọc files khác nhau, nhưng chúng được được xây dựng chỉ nhờ phần
mềm Adobe Acrobat.
2. Các định dạng đồ họa
Chúng lưu giữ hình ảnh (ví dụ, ảnh chụp, hình vẽ) và được chia ra thành
hai kiểu chính:
2.1. Các định dạng vector - lưu giữ hình ảnh như là tập hợp các hình dạng
hình học. Trong số chúng phổ biến hơn cả là định dạng DXF (Drawing
Interchange Format) được sử dụng rộng rãi trong các chương trình thiết kế bằng
máy tính cho các kỹ sư và kiến trúc sư; định dạng EPS (Encapsulated
PortScript) được sử dụng rộng rãi trong các hệ thống biểu quyết/bầu cử tại bàn
vàđịnh dạng CGM (Computer Graphics Metafile) được sử dụng rộng rãi trong
nhiều phần mềm đồ họa (ví dụ trong phần mềm Photoshop).
2.2. Các định dạng mành, chúng lưu giữ hình ảnh như là tập hợp những
điểm ảnh - pixels. Khi thay đổi kích cỡ ảnh, đồ họa mành bị biến dạng. Trong số
các định dạng mành phổ biến hơn cả là định dạng BMP (Bitmap), một định dạng
tương đối kém về chất lượng, thường dùng vào quá trình soạn thảo văn bản;
định dạng TIFF (Tagget Image File Format) sử dụng rộng rãi trong các ứng


dụng phần mềm và định dạng GIF (Graphics Interchange Format) sử dụng rộng
rãi trong các phần mềm dành cho Internet.
3. Các định dạng cơ sở dữ liệu
Các định dạng cơ sở dữ liệu được xây dựng nhờ những phần mềm chuyên
dụng - các hệ thống quản lý cơ sở dữ liệu.
Hệ thống quản lý cơ sở dữ liệu cho phép xác định những mối quan hệ giữa các
thành phần thông tin của cơ sở dữ liệu, thực hiện các tác động khác nhau tới
thông tin của cơ sở dữ liệu (tìm kiếm, đánh dấu, thực hiện những phép toán khác
nhau, lập các báo cáo và chỉ dẫn, v.v.). Những ví dụ về hệ thống quản lý cơ sở
dữ liệu là Microsoft SQL Sever, Oracle, MySQL, IBM DB2, Sybase và những
phần mềm khác.
Thí dụ, cơ sở dữ liệu về khách hàng gồm có trường thông tin với các tên
người mua, địa chỉ và thông tin về hàng hóa. Những trường đó có thể được tổ
1
chức thành các bảng riêng biệt (thí dụ, một bảng cho tất cả các trường với những
tên của khách hàng).
Cơ sở dữ liệu có thể chuyển sang định dạng văn bản, nhưng khi đó bị mất đi mối
liên hệ giữa các trường với các bảng (ví dụ, lúc đó có thể nhận được mười trang
tên, mười trang địa chỉ và nghìn trang thông tin về hàng hóa, tức là thông tin
không liên kết).
4. Các định dạng của bảng điện tử
Những file trong định dạng bảng điện tử lưu giữ trong các ô những con số
và các mối liên hệ giữa những con số đó. Ví dụ, một ô có thể chứa công thức
thực hiện việc cộng các dữ liệu của hai ô khác. Giống như các file cơ sở dữ liệu,
các file bảng điện tử thường có định dạng của chính phần mềm tạo ra nó. Một số
chương trình có thể nhập khẩu và khai thác những dữ liệu của các nguồn khác
kể cả của những chương trình dùng để trao đổi dữ liệu kiểu này (thí dụ, định
dạng DIF (Data Interchange Format)). Các file của bảng điện tử có thể chuyển
đổi thành file văn bản, nhưng những con số và mối liên hệ giữa các số sẽ không
còn nữa.

5. Các định dạng nhìn- nghe /video-audio
Những định dạng này chứa hình ảnh chuyển động (ví dụ video số, hoạt
hình) và các dữ liệu âm thanh được xây dựng và có thể xem, nghe được nhờ
chương trình tương thích và lưu giữ trong định dạng đơn chương trình. Những
định dạng được sử dụng nhiều hơn cả là QuickTime và MPEG (Motion Picture
Experts Group).
6. Đánh dấu ngôn ngữ (thường gọi là “duyệt web”) còn được gọi là các
định dạng đánh dấu, gồm có hướng dẫn đính kèm để biểu diễn nội dung của file.
Đó là:
SGML (Standard Generalized Markup Language) được sử dụng trong các cơ
quan nhà nước ở nhiều nước trên thế giới và là tiêu chuẩn quốc tế;
HTML (Hypertext Markup Language) được sử dụng để biểu diễn hầu như
toàn bộ thông tin của mạng World Wide Web;
XML (Extensible Markup Language) - ngôn ngữ tương đối đơn giản dựa trên cơ
sở SGML và được dùng phổ biến khi quản lý thông tin và trao đổi nó.
Khi áp dụng vào việc bảo đảm tài liệu cho quản lý, từng định dạng file có
điểm mạnh và điểm yếu riêng. Ví dụ, những định dạng văn bản (MicrosoftWord,
WordPerfect, RTF v.v.) thuận tiện cho tìm kiếm ngữ cảnh theo các tài liệu trong
cơ sở dữ liệu, còn các định dạng đồ hoạ (PDF, TIFF v.v.) giúp nhận được hình
ảnh khi quét với toàn bộ những đặc điểm bên ngoài của nó và giữ tài liệu có
dạng đúng như trên giấy với đầy đủ chữ ký cùng dấu xác nhận (thị thực-visa).
Định dạng MS Word rất tiện cho biên tập tài liệu và công việc của nhóm
nhân viên với nó, nhưng file MS Word lại chứa đựng nhiều thông tin ẩn (trước
tiên về những thay đổi đã thực hiện trong file) và như vậy, nó rất không an toàn
theo quan điểm thất thoát thông tin công vụ. Ví dụ, trong lúc chuẩn bị tài liệu
thương mại, thông tin ẩn lại cho ta biết những đề xuất khởi điểm, ai có sự ảnh
hưởng mạnh nhất tới văn bản. Trong chuẩn bị tài liệu theo nhóm, sự phân tích
2
sửa đổi cho ta khả năng nhận biết không chỉ họ tên những người lập tài liệu mà
cả mức độ đóng góp của từng người vào phương án hoàn chỉnh của tài liệu.

Ở Nga, các cơ quan chính quyền LB tự quy định những định dạng cho
các dạng đã xác định của các tài liệu điện tử được sử dụng trong mối quan hệ
qua lại với các tổ chức khác và với các công dân. Thí dụ, theo những yêu cầu
của Uỷ ban LB về thị trường tiền tệ (ngày nay là Cơ quan LB về thị trường tài
chính) các file của những dạng đã xác định của các tài liệu phải được trình bày
trong định dạng RTF. Về phần mình, Bộ Tài chính Nga quy định rằng những tài
liệu báo cáo thống kê do các tổ chức bảo hiểm (bảo hiểm y tế) lập dưới dạng tập
hợp các file văn bản trong định dạng XML.
Vậy định dạng XML tuyệt vời vì cái gì? Đánh dấu ngôn ngữ mở rộng
(Extensible Markup Language) chứa đựng trong mình không chỉ các dữ liệu mà
còn mang thông tin mô tả những dữ liệu đó. Nó dùng được cho bất kỳ ứng dụng
máy tính nào mà không bị lệ thuộc vào bảo đảm kỹ thuật và các hệ thống xử lý,
nó cho phép chuyển tải dung lượng lớn thông tin không cần đến những biến đổi
nặng nhọc các cấu trúc dữ liệu.
Những định dạng tiền nhiệm của XML là đánh dấu ngôn ngữ chuẩn chung được
phê duyệt bởi Tổ chức tiêu chuẩn quốc tế như một tiêu chuẩn ngay từ những
năm 1980, một phiên bản rút gọn của nó là đánh dấu ngôn ngữ siêu văn bản
HTML.
Định dạng XML được thông qua bởi các tổ chức tiêu chuẩn của cộng
đồng-internet với đại diện là tập đoàn World Wide Web (W3C) và tổ chức
UDDI.org. Hiện nay các công ty Microsoft, IBM, Oracle, cũng như một loạt các
công ty sản xuất phầm mềm đã linh hoạt chuyển sang sử dụng XML vào các sản
phẩm của mình và về thực tế họ đang thực hiện ý tưởng tiêu chuẩn hoá định
dạng tài liệu trên cơ sở XML.
Định dạng PDF do hãng Adobe Systems Inc. xây dựng đang là rất phổ biến
trong trao đổi tài liệu và được sử dụng rộng rãi cho những tài liệu của mạng
internet bởi vì nó cho phép giữ ngoại hình gốc của tài liệu và ngăn cản việc đưa
những thay đổi vào tài liệu. Theo đánh giá của công ty Adobe thì đã có nửa triệu
người tải phần mềm miễn phí của công ty để xem các file PDF, nhiều doanh
nghiệp đã chọn định dạng này làm tiêu chuẩn chuyển giao và lưu giữ tài liệu, có

không ít nhà lập trình độc lập đang giới thiệu những sản phẩm hỗ trợ PDF, thậm
chí một số là miễn phí.
Nhưng công ty Adobe trong tương lai sẽ không cung cấp miễn phí các
chương trình của mình. Hơn nữa, trong những phiên bản mới của chương trình
Adobe các file của phiên bản cũ thường được trình diễn không chính xác. Chính
vì vậy đã xuất hiện phiên bản nâng cấp định dạng PDF được gọi là PDF-Archive
(PDF-A). Ở nước ngoài nó được coi là một trong hai phiên bản cơ sở mà trong
tương lai chúng có thể được sử dụng cho bảo quản lưu trữ các tài liệu điện tử.
Còn định dạng thứ hai là XML nói trên.
Định dạng PDF-A cũng giống như XML có những nổi trội và những yếu
kém của mình trong công tác lưu trữ tài liệu điện tử. Cụ thể, định dạng PDF-A
đặc biệt thuận lợi cho lưu trữ tài liệu điện tử vì rằng nó giữ được ngoại hình của
tài liệu gốc bằng giấy. Kinh nghiệm công tác xét xử hai vụ phá sản lớn nhất
3
trong lịch sử Mỹ - các công ty Enron và Global Crossing đã khẳng định được
tiện ích của nó. Họ đã tạo lập khối lượng lớn tài liệu trong định dạng PDF và đã
đặt ra trước các cơ quan tư pháp LB nhiệm vụ lưu trữ những tài liệu đó. Về
nhiều điểm thì đó đã là xung lực tác động vào quá trình biên soạn dự thảo tiêu
chuẩn quốc tế về lưu trữ tài liệu theo PDF.
Song khả năng sử dụng những định dạng trên vào lưu trữ điện tử còn hạn
chế, lấy ví dụ, định dạng PDF-A không dùng được cho lưu trữ tài liệu nghe
nhìn.
Phải lưu ý rằng không có một định dạng nào trong số các định dạng file
tài liệu điện tử là vạn năng cho lưu trữ lâu dài, bởi vì kỹ thuật, công nghệ và bảo
đảm chương trình thay đổi khá nhanh. Ngay bây giờ đã khó dựng lại trên thiết bị
mới những tài liệu được lập nhờ các công cụ biên tập AmiPro, WordPerfect.
Vậy thì sẽ dễ dàng không, ví dụ, dựng lại tài liệu lưu trữ trong định dạng Word-
97 sau 10 - 15 năm nữa?
XML là viết tắt của chữ EXtensible Markup Language, tức là "ngôn ngữ đánh dấu mở rộng".
Tương tự như HTML, XML cũng dùng các thẻ (tag) trong văn bản, nhưng khác với HTML một chút.

HTML dùng các thẻ để định dạng văn bản. Còn XML dùng các thẻ để mô tả văn bản.
Tức là các thẻ trong HTML sẽ quyết định văn bản khi hiển thị lên phải như thế nào, còn các thẻ trong
XML sẽ quyết định văn bản đó mang ý nghĩa gì.
Vì XML là để mô tả văn bản nên nó có ứng dụng khá rộng rãi. Một ứng dụng của nó là để trao đổi dữ
liệu giữa các hệ thống với nhau.
XML (viết tắt từ tiếng Anh Extensible Markup Language, "Ngôn ngữ Đánh dấu Mở rộng") là ngôn
ngữ đánh dấu với mục đích chung do W3C đề nghị, để tạo ra các ngôn ngữ đánh dấu khác. Đây là một
tập con đơn giản của SGML, có khả năng mô tả nhiều loại dữ liệu khác nhau. Mục đích chính của XML là
đơn giản hóa việc chia sẻ dữ liệu giữa các hệ thống khác nhau, đặc biệt là các hệ thống được kết nối với
Internet. Các ngôn ngữ dựa trên XML (thí dụ: RDF, RSS, MathML, XHTML, SVG, và cXML) được định
nghĩa theo cách thông thường, cho phép các chương trình sửa đổi và kiểm tra hợp lệ bằng các ngôn ngữ
này mà không cần có hiểu biết trước về hình thức của chúng.
Lịch sử :
Vào giữa những năm 1990, các chuyên gia SGML đã có kinh nghiệm với World Wide Web (vẫn còn khá
mới vào thời đó). Họ tin tưởng rằng SGML có thể cung cấp giải pháp cho các vấn đề mà Web đang gặp
phải. Jon Bosak đưa ra ý kiến W3C nên tài trợ một chương trình mang tên "SGML trên Web".
Đặc điểm :
XML cung cấp một phương tiện dùng văn bản (text) để mô tả thông tin và áp dụng một cấu trúc kiểu cây
cho thông tin đó. Tại mức căn bản, mọi thông tin đều thể hiện dưới dạng text, chen giữa là các thẻ đánh
dấu (markup) với nhiệm vụ ký hiệu sự phân chia thông tin thành một cấu trúc có thứ bậc của các dữ liệu
ký tự, các phần tử dùng để chứa dữ liệu, và các thuộc tính của các phần tử đó. Về mặt đó, XML tương tự
với các biểu thức S (S-expression) của ngôn ngữ lập trình LISP ở chỗ chúng đều mô tả các cấu trúc cây
mà trong đó mỗi nút có thể có một danh sách tính chất của riêng mình.
Đơn vị cơ sở của XML là các ký tự theo định nghĩa của Universal Character Set (Bộ ký tự toàn cầu). Các
ký tự được kết hợp theo các tổ hợp chuỗi hợp lệ để tạo thành một tài liệu XML. Tài liệu này gồm một
hoặc nhiều thực thể, mỗi thực thể thường là một phần nào đó của các ký tự thuộc tài liệu, được mã hóa
dưới dạng một chuỗi các bit và lưu trữ trong một tệp văn bản (text file).
Các tệp XML có thể dùng cho nhiều loại dữ liệu đa phương tiện. RFC3023 định nghĩa các loại
"application/xml" và "text/xml", với ý rằng dữ liệu được biểu diễn bằng XML mà không nói gì đến ngữ
nghĩa của dữ liệu.

Sự phổ biến của các phần mềm soạn thảo văn bản (word processor) đã hỗ trợ việc soạn thảo và bảo trì
tài liệu XML một cách nhanh chóng. Trước XML, có rất ít ngôn ngữ mô tả dữ liệu với các đặc điểm đa
4
năng, thân thiện với giao thức Internet, dễ học và dễ tạo. Thực tế, đa số các định dạng trao đổi dữ liệu
thời đó đều chuyện dụng, có tính độc quyền, và có định dạng nhị phân (chuỗi bit thay vì chuỗi ký tự) khó
dùng chung giữa các ứng dụng phần mềm khác nhau hay giữa các hệ nền (platform) khác nhau. Việc tạo
và bảo trì trên các trình soạn thảo thông dụng lại càng khó khăn.
Bằng cách cho phép các tên dữ liệu, cấu trúc thứ bậc được phép, và ý nghĩa của các phần tử và thuộc
tính có tính chất mở và có thể được định nghĩa bởi một giản đồ tùy biến được, XML cung cấp một cơ sở
cú pháp cho việc tạo lập các ngôn ngữ đánh dấu dựa XML theo yêu cầu. Cú pháp chung của các ngôn
ngữ đó là cố định — các tài liệu phải tuân theo các quy tắc chung của XML, bảo đảm rằng tất cả các phần
mềm hiểu XML ít ra cũng phải có khả năng đọc (phân tích cú pháp - parse) và hiểu bố cục tương đối của
thông tin trong các tài liệu đó. Giản đồ chỉ bổ sung một tập các ràng buộc cho các quy tắc cú pháp. Các
giản đồ thường hạn chế tên của phần tử và thuộc tính và các cấu trúc thứ bậc được phép, ví dụ, chỉ cho
phép một phần tử tên 'ngày sinh' chứa một phần tử tên 'ngày' và một phần tử có tên 'tháng', mỗi phần
tử phải chứa đúng một ký tự. Đây là điểm khác biệt giữa XML và HTML. HTML có một bộ các phần tử và
thuộc tính không mềm dẻo, chỉ có một tác dụng và nói chung là không thể dùng cho mục đích khác.
XML không hạn chế về việc nó được sử dụng như thế nào. Mặc dù XML về cơ bản là dạng text, các phần
mềm với chức năng trừu tượng hóa nó thành các định dạng khác giàu thông tin hơn đã nhanh chóng xuất
hiện, quá trình trừu tượng hóa này được thực hiện chủ yếu qua việc sử dụng các giản đồ định hướng kiểu
dữ liệu (datatype-oriented schema) và khuôn mẫu lập trình hướng đối tượng (mà trong đó, mỗi tài liệu
XML được thao tác như là một đối tượng). Những phần mềm như vậy có thể coi XML như là dạng text đã
được tuần tự hóa chỉ khi nó cần truyền dữ liệu qua mạng.
Sơ lược về cú pháp
<tên thuộc_tính="giá trị">nội dung</tên>
<?xml version="1.0" encoding="UTF-8"?>
<công_thức_nấu_ăn tên="bánh mì" thời_gian_chuẩn_bị="5 phút" thời_gian_nấu="3 tiếng">
<title>Bánh mì cơ bản</title>
<nguyên_liệu lượng="3" đơn_vị="ca">Bột mì</nguyên_liệu>
<nguyên_liệu lượng="7" đơn_vị="gram">Men</nguyên_liệu>

<nguyên_liệu lượng="1.5" đơn_vị="ca" trạng_thái="ấm">Nước</nguyên_liệu>
<nguyên_liệu lượng="1" đơn_vị="thìa cà phê">Muối</nguyên_liệu>
<chỉ_dẫn>
<bước>Trộn tất cả các nguyên liệu với nhau và nhào kĩ</bước>
<bước>Phủ một mảnh vải, ủ một tiếng đồng hồ trong phòng ấm.</bước>
<bước>Nhào lại, đổ vào khuôn, cho vào lò nướng.</bước>
</chỉ_dẫn>
</công_thức_nấu_ăn>
Dòng đầu tiên là Khai báo XML (XML declaration): đó là một dòng không bắt buộc, với nhiệm vụ thông
báo phiên bản XML đang được sử dụng (thường là phiên bản 1.0), và còn có thể chứa thông tin về mã
hóa ký tự và các phụ thuộc bên ngoài.
Phần còn lại của tài liệu này chứa các phần tử lồng nhau, một số phần tử trong đó có các thuộc tính và
nội dung. Một phần tử thường bao gồm hai thẻ (tag), một thẻ bắt đầu và một thẻ kết thúc, có thể bao
quanh văn bản và các phần tử khác. Thẻ bắt đầu bao gồm một cái tên đặt trong một cặp ngoặc nhọn,
như "<bước>"; thẻ kết thúc bao gồm chính cái tên đó đặt trong một cặp ngoặc nhọn, với một dấu gạch
chéo đứng trước, như "</bước>". Nội dung của phần tử là tất cả những gì nằm giữa thẻ bắt đầu và thẻ
kết thúc, bao gồm văn bản và các phần tử (con) khác. Dưới đây là một phần tử XML hoàn chỉnh, với thẻ
bắt đầu, nội dung văn bản, và thẻ kết thúc:
<bước>Nhào lại, đổ vào khuôn, cho vào lò nướng.</bước>
Bên cạnh nội dung, một phần tử có thể chứa các thuộc tính — các cặp tên - giá trị được đặt trong thẻ bắt
đầu, ngay sau tên phần tử. Giá trị của thuộc tính phải được đặt trong cặp nháy đơn hoặc nháy kép, mỗi
tên thuộc tính chỉ được xuất hiện một lần trong mỗi phần tử.
5

×