...
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG
Nguyễn Thành Trung
NÉN DỮ LIỆU KẾT HỢP VỚI CÁC PHƢƠNG PHÁP
BIẾN ĐỔI SƠ BỘ DỮ LIỆU
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số
: 60 48 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƢỜI HƢỚNG DẪN KHOA HỌC
TS Bùi Văn Thanh
Thái Nguyên, năm 2013
Số hóa bởi trung tâm học liệu
/>
ii
LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn này đƣợc thực hiện bằng cơng sức của mình theo
sự hƣớng d n của TS Bùi Văn Thanh, không sao chép từ cơng trình khác. Mọi
thơng tin tham khảo đều đƣợc trích d n đầy đủ. Nếu có gì gian dối tơi xin chịu hoàn
toàn trách nhiệm.
Thái Nguyên, tháng 9 năm 2013
Học viên
Nguyễn Thành Trung
Số hóa bởi trung tâm học liệu
/>
iii
LỜI CẢM ƠN
Tơi xin chân thành nói lời cảm ơn Thầy giáo TS Bùi Văn Thanh, ngƣời đã
tận tình giúp đỡ hƣớng d n tơi trong suốt q trình thực hiện luận văn cùng với
những kinh nghiệm quý báu trong nghiên cứu khoa học cũng nhƣ cuộc sống từ
Thầy.
Tôi chân thành cảm ơn Trƣờng Đại học Công nghệ Thông tin và Truyền
thông - Đại học Thái Nguyên, Khoa Công nghệ Thông tin đã tạo điều kiện tốt nhất
cho tôi đƣợc học tập và nghiên cứu. Xin cảm ơn quý Thầy giáo, cơ giáo đã tận tình
giảng dạy, giúp đỡ và hƣớng d n tơi trong suốt khóa học.
Cảm ơn các bạn đồng nghiệp đã động viên đóng góp ý kiến cho luận văn của
tôi.
Mặc dù đã cố gắng hết sức cùng với sự tận tâm của thầy giáo hƣớng d n,
song do trình độ cịn hạn chế nên Luận văn khó tránh khỏi những thiếu sót. Tơi rất
mong nhận đƣợc sự thơng cảm và góp ý của q thầy cơ và các bạn.
Thái Nguyên, tháng 9 năm 2013
Học viên
Nguyễn Thành Trung
Số hóa bởi trung tâm học liệu
/>
iv
MỤC LỤC
Trang
LỜI CAM ĐOAN ..................................................................................................................ii
LỜI CẢM ƠN .......................................................................................................................iii
MỤC LỤC ............................................................................................................................ iv
DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT .................................................. vi
DANH MỤC CÁC HÌNH VẼ & BẢNG BIỂU ..................................................................vii
CHƢƠNG I: TỔNG QUAN VỀ NÉN DỮ LIỆU ................................................................. 1
1.1 Tổng quan về nén dữ liệu ............................................................................................ 1
1.1.1 Các khái niệm cơ bản ............................................................................................ 1
1.1.1.1 Dữ liệu, thông tin và mã hóa.......................................................................... 1
1.1.1.2 Cơ bản về lý thuyết thơng tin ......................................................................... 4
1.1.1.3 Sự dƣ thừa dữ liệu .......................................................................................... 5
1.1.1.4 Nén dữ liệu ..................................................................................................... 7
1.1.1.5 Quá trình nén và giải nén ............................................................................... 8
1.1.1.6 Tỷ lệ nén ........................................................................................................ 9
1.1.2 Phân loại các phƣơng pháp nén dữ liệu ................................................................ 9
1.1.2.1 Nén có hao hụt ............................................................................................... 9
1.1.2.2 Nén khơng hao hụt ....................................................................................... 10
1.1.3 Mơ hình và mã hóa ............................................................................................. 15
1.1.4 Các kết quả cơ bản về nén dữ liệu ...................................................................... 18
1.1.5 Tổng quan về các trình nén đang đƣợc sử dụng rộng rãi hiện nay ..................... 20
1.2 Mã hóa Entropy ......................................................................................................... 21
1.2.1 Mã hóa Huffman ................................................................................................. 21
1.2.1.1 Q trình mã hóa.......................................................................................... 25
1.2.1.2 Q trình giải mã ......................................................................................... 26
1.2.2 Mã hóa số học ..................................................................................................... 27
1.2.2.1 Mơ hình mã hóa số học ................................................................................ 27
1.2.2.2 Q trình mã hóa.......................................................................................... 27
1.2.2.3 Q trình giải mã ......................................................................................... 29
CHƢƠNG II: NÉN KẾT HỢP VỚI KỸ THUẬT BIẾN ĐỔI DỮ LIỆU ........................... 32
2.1 Các kỹ thuật biến đổi dữ liệu cơ bản ......................................................................... 32
Số hóa bởi trung tâm học liệu
/>
v
2.1.1 Kỹ thuật biến đổi Burrow-Wheeler .................................................................... 32
2.1.1.1 Biến đổi BWT thuận .................................................................................... 32
2.1.1.2 Biến đổi BWT nghịch .................................................................................. 35
2.1.2 Kỹ thuật biến đổi Move-To-Front (MTF)........................................................... 38
2.1.2.1 Biến đổi MTF thuận ..................................................................................... 38
2.1.2.2 Biến đổi MTF nghịch ................................................................................... 41
2.2 Một số cải tiến đối với thuật toán MTF ..................................................................... 43
2.2.1 Q trình mã hóa................................................................................................. 44
2.2.2 Q trình giải mã ................................................................................................ 45
2.3 Mơ hình nén kết hợp với BWT&MTF....................................................................... 46
2.3.1 Q trình nén ...................................................................................................... 46
2.3.2 Quá trình giải nén ............................................................................................... 48
CHƢƠNG III: KẾT QUẢ CÀI ĐẶT THỬ NGHIỆM ........................................................ 50
3.1 Dữ liệu m u ............................................................................................................... 51
3.2 Kết quả thực nghiệm .................................................................................................. 53
3.2.1 Tỷ lệ nén ............................................................................................................. 53
3.2.2 Thời gian nén và giải nén.................................................................................... 55
3.3 So sánh và đánh giá kết quả thử nghiệm ................................................................... 57
3.4 Kết luận và hƣớng phát triển tiếp............................................................................... 57
3.4.1 Kết luận: .............................................................................................................. 57
3.4.2 Hƣớng phát triển của đề tài ................................................................................. 58
TÀI LIỆU THAM KHẢO ................................................................................................... 59
Số hóa bởi trung tâm học liệu
/>
vi
DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT
Từ viết tắt
TT
Viết đầy đủ
1
ARC
ARithmetic Coding
2
De_ARC
Decoder ARithmetic Coding
3
ASCII
American Standard Code for Information Interchange
4
BIT
BInary digiT
5
BPS
Bits Per Second
6
BWT
Burrow-Wheeler Transform
7
InvBWT
Invert Burrow-Wheeler Transform
8
EC
Entropy Coding
9
LZW
Lempel-Ziv-Welch
10
MTF
Move-To-Front
11
InvMTF
Invert Move-To-Front
12
RLE
Run Length Encoding
Số hóa bởi trung tâm học liệu
/>
vii
DANH MỤC CÁC HÌNH VẼ & BẢNG BIỂU
Hình 1.1: Mơ hình q trình xử lý thơng tin .......................................................................... 1
Hình 1.2: Dữ liệu trong q trình mã hóa .............................................................................. 3
Hình 1.3: Dữ liệu trong quá trình giải mã .............................................................................. 4
Hình 1.4: Quá trình nén và giải nén ....................................................................................... 8
Hình 1.5: Quá trình truyền file multimedia trên mạng .......................................................... 8
Hình 1.6: Nén có hao hụt (lossy compression) ...................................................................... 9
Hình 1.7: Nén khơng hao hụt (lossless compression) .......................................................... 10
Bảng 1.1: Quá trình mã hóa từ điển ..................................................................................... 12
Bảng 1.2: Q trình giải mã từ điển ..................................................................................... 13
Bảng 1.3: Dữ liệu m u cho mã hóa Huffman ...................................................................... 13
Hình 1.8: Cây nhị phân trong mã Huffman ở bảng 1.3 ....................................................... 14
Hình 1.9: Một dãy các giá trị dữ liệu ................................................................................... 15
Hình 1.10: Một dãy các giá trị dữ liệu ................................................................................. 16
Bảng 1.4: Mã với các từ mã chiều dài thay đổi ................................................................... 17
Hình 1.11: Minh họa nén theo phƣơng pháp Huffman ........................................................ 24
Hình 1.12: Cây Huffman ..................................................................................................... 25
Hình 1.13: Mơ hình nén theo mã số học .............................................................................. 27
Hình 1.14: Mơ hình q trình nén........................................................................................ 28
Bảng 1.5: Quá trình xác định [bk, lk) trong mã hóa số học .................................................. 28
Hình 1.15: Mơ tả q trình nén theo bảng 1.5 ..................................................................... 29
Hình 2.1: Quá trình quay chuỗi “LAHABANA” ................................................................ 32
Hình 2.2: Kết quả sắp xếp theo thứ tự từ điển ..................................................................... 33
Hình 2.3: Mơ tả q trình biến đổi BWT nghịch ................................................................. 36
Bảng 2.1: Quá trình mã hóa MTF ........................................................................................ 39
Hình 2.4: Q trình biến đổi MTF thuận chuỗi “HLNBAAAA” ........................................ 39
Bảng 2.2: Quá trình giải mã MTF....................................................................................... 41
Hình 2.5: Quá trình biến đổi MTF nghịch ........................................................................... 42
Hình 2.6: Q trình mã hóa MTF (cải tiến) ......................................................................... 44
Hình 2.7: Quá trình giải mã MTF (cải tiến) ......................................................................... 45
Hình 2.8: Lƣợc đồ nén dữ liệu BWT_MTF_EC .................................................................. 46
Hình 2.9: Kết quả thực nghiệm với BWT (quá trình thuận) ................................................ 47
Số hóa bởi trung tâm học liệu
/>
viii
Hình 2.10: Kết quả thực nghiệm với MTF (quá trình thuận) .............................................. 47
Hình 2.11: Lƣợc đồ giải nén dữ liệu BWT_MTF_EC ......................................................... 48
Hình 2.12: Kết quả thực nghiệm MTF (quá trình nghịch) ................................................... 48
Hình 2.13: Kết quả thực nghiệm BWT (quá trình nghịch) .................................................. 49
Hình 3.1: Chƣơng trình cài đặt thử nghiệm ......................................................................... 50
Bảng 3.1: Mô tả các tệp tin m u để thực nghiệm với The Canterbury Corpus ................... 51
Bảng 3.2: Mô tả các tệp tin m u để thực nghiệm với The Large Corpus ............................ 52
Bảng 3.3: Mô tả các tệp tin m u để thực nghiệm ................................................................ 52
Bảng 3.4: Tỷ lệ nén theo
với Canterbury Corpus ............................................................ 53
Bảng 3.5: Tỷ lệ nén theo
với Canterbury Corpus lớn...................................................... 54
Bảng 3.6: Tỷ lệ nén theo
.................................................................................................. 54
Bảng 3.7: Thời gian nén và giải nén theo giây với Canterbury Corpus .............................. 55
Bảng 3.8: Thời gian nén và giải nén theo giây với Canterbury Corpus lớn ........................ 56
Bảng 3.9: Thời gian nén và giải nén theo giây .................................................................... 56
Số hóa bởi trung tâm học lieäu
/>
ix
MỞ ĐẦU
1. Lý do chọn đề tài
Trong thời đại CNTT, nhu cầu trao đổi dữ liệu ngày một tăng, dữ liệu cần
chia sẻ, trao đổi có dung lƣợng ngày một lớn hơn, phức tạp hơn và đa dạng hơn.
Việc nén dữ liệu nhằm mục đích làm giảm kích thƣớc của dữ liệu gốc giúp cho việc
xử lý dữ liệu nhanh hơn (sao chép, di chuyển, tải lên, tải xuống,…).
Việc nén dữ liệu là tất yếu cần thiết do hai lý do chính sau đây. Thứ nhất là
do lƣu trữ: dữ liệu sau khi nén có dung lƣợng nhỏ hơn, do vậy cần ít khơng gian lƣu
trữ hơn. Thứ hai là giảm thiểu thời gian truyền: dữ liệu sau khi nén có dung lƣợng
nhỏ hơn nên đƣợc truyền nhanh hơn.
Do vậy, cần có các thuật tốn nén dữ liệu hiệu quả hơn và nhanh hơn v n
luôn luôn tăng, nhất là với các ứng dụng trực tuyến (hình ảnh, âm thanh). Thực tế là
các thuật toán nén dữ liệu đã đƣợc liên tục phát triển kể từ khi giới hạn lý thuyết về
hiệu suất nén dữ liệu (đƣợc định nghĩa nhƣ là tỷ lệ các ký tự mã trên một ký tự
nguồn) đã đƣợc chứng minh một cách chặt chẽ dựa trên lý thuyết thông tin.
Nhiều kỹ thuật nén (không mất thơng tin) đã đƣợc phát triển nhƣ nhóm các
phƣơng pháp với tên gọi mã hóa entropy bao gồm mã số học và mã Huffman. Sau
đó, hàng loạt các kỹ thuật mới ra đời để cải tiến các kỹ thuật trên nhƣ: mã hóa RLE
(Run Length Encoding), LZW (Lempel-Ziv-Welch),...
Nhƣng nhìn chung khơng có kỹ thuật nén nào có thể áp dụng một cách hiệu
quả với tất cả các loại dữ liệu. Có những thuật tốn cho hiệu suất nén cao, nhƣng cài
đặt phức tạp và mất nhiều thời gian nén cũng nhƣ giải nén. Chính vì vậy, để đạt
đƣợc hiệu suất nén cao với thuật toán tƣơng đối đơn giản và thời gian nén/giải nén
chấp nhận đƣợc cần phối hợp các thuật toán biến đổi sơ bộ dữ liệu vào để chuyển
dữ liệu cần nén sang dạng dữ liệu thích hợp, sau đó áp dụng một thuật tốn nén phù
hợp để tăng hiệu suất nén.
Với ý tƣởng trên, chúng ta có thể sử dụng kỹ thuật biến đổi Burrow-Wheeler
(BWT) kết hợp với kỹ thuật Move-To-Front (MTF) để xử lý sơ bộ dữ liệu cần nén
với mục đích thay đổi tính chất thống kê của dữ liệu sao cho việc áp dụng các thuật
Số hóa bởi trung tâm học liệu
/>
x
tốn nén trở lên dễ dàng hơn, sau đó áp dụng phƣơng pháp nén số học hoặc nén
Huffman để đƣợc kết quả mong muốn.
2. Nhiệm vụ nghiên cứu
- Tìm hiểu tổng quan về nén dữ liệu, kỹ thuật biến đổi dữ liệu BurrowsWheeler, kỹ thuật biến đổi dữ liệu Move-To-Front, thuật toán nén số học và thuật
toán nén Huffman.
- Xây dựng ứng dụng thử nghiệm phối hợp kỹ thuật biến đổi BurrowsWheeler và kỹ thuật biến đổi Move-To-Front để sơ chế dữ liệu trƣớc khi sử dụng
phƣơng pháp nén số học hoặc nén Huffman và áp dụng trên tất cả các dữ liệu.
3. Đối tƣợng và phạm vi nghiên cứu
- Tổng quan về nén dữ liệu.
- Tìm hiểu kỹ thuật biến đổi dữ liệu Burrows-Wheeler.
- Tìm hiểu kỹ thuật biến đổi dữ liệu Move-To-Front.
- Tìm hiểu thuật tốn nén số học và nén Huffman.
- Cài đặt thử nghiệm chƣơng trình ứng dụng nén số học hoặc nén Huffman
kết hợp với Burrows-Wheeler và Move-To-Front.
4. Phƣơng pháp nghiên cứu
Sử dụng các phƣơng pháp nghiên cứu chính sau:
-
Phƣơng pháp nghiên cứu lý thuyết.
-
Phƣơng pháp thực nghiệm.
-
Phƣơng pháp trao đổi khoa học, lấy ý kiến chuyên gia.
5. Ý nghĩa khoa học của đề tài
- Giúp tìm hiểu, đánh giá khái quát về nén dữ liệu. Nén = mơ hình + mã hóa.
- Xây dựng đƣợc chƣơng trình nén phục vụ cho cơng tác lƣu trữ tại đơn vị
đang cơng tác.
Số hóa bởi trung tâm học liệu
/>
1
CHƢƠNG I: TỔNG QUAN VỀ NÉN DỮ LIỆU
1.1 Tổng quan về nén dữ liệu
1.1.1 Các khái niệm cơ bản
1.1.1.1 Dữ liệu, thơng tin và mã hóa
Dữ liệu có thể xem là những ký hiệu hoặc tín hiệu mang tính rời rạc và
khơng có cấu trúc, ý nghĩa rõ ràng. Khi dữ liệu đƣợc tổ chức lại có cấu trúc hơn,
đƣợc xử lý và mang đến cho con ngƣời những ý nghĩa, hiểu biết nào đó thì khi đó
nó trở thành thơng tin. Nói khác đi, từ dữ liệu và xử lý dữ liệu con ngƣời có đƣợc
thơng tin.
Thơng tin là những gì con ngƣời thu nhận đƣợc từ dữ liệu và xử lý dữ liệu
nhằm tạo ra sự hiểu biết, tạo ra các tri thức và những nhận thức tốt hơn về tự nhiên
và xã hội. Nói cách khác, thơng tin là dữ liệu đã qua xử lý, đối chiếu và trở nên có ý
nghĩa đối với ngƣời dùng.
Q trình xử lý thơng tin tổng qt
Hình 1.1: Mơ hình q trình xử lý thơng tin
Một cách tổng qt, việc xử lý thơng tin bao gồm năm q trình sau:
Q trình thu nhận thơng tin: Nạp, ghi nhớ thơng tin vào vùng nhớ trong
não hoặc các vật lƣu trữ trung gian (giấy, đĩa từ, …).
Q trình tìm kiếm thơng tin: Nhớ lại thông tin trong vùng nhớ não, hoặc
thu thập, truy tìm thơng tin trong các vật lƣu trữ thơng tin.
Q trình biến đổi thơng tin: Các hoạt động xử lý, biến đổi thông tin d n
đến việc thay đổi thơng tin, tạo ra thơng tin mới.
Số hóa bởi trung tâm học liệu
/>
2
Q trình truyền thơng tin: Truyền hoặc d n thông tin từ nơi này sang nơi
khác, từ đối tƣợng này sang đối tƣợng khác.
Quá trình lý giải, suy luận thơng tin: Các hoạt động mang tính trí tuệ và
sáng tạo nhƣ phân tích, so sánh, lý giải, suy luận, đối chiếu, đánh giá vai
trị, ý nghĩa của thơng tin.
Thông tin không hiện hữu nhƣ các thiết bị vật lý, nó tồn tại nhƣ một dữ liệu
logic đƣợc chứa trong các phƣơng tiện vật lý nhƣ đĩa CD hay các kênh truyền thơng
tin. Vì thế dữ liệu đƣợc xem nhƣ dạng cơ bản của một số thông tin thực. Điều này
tạo nên sự khác biệt giữa các thông tin với nhau nhƣ văn bản, đồ họa, âm thanh,
hình ảnh… Một lƣợng lớn thông tin cần phải đƣợc tổ chức, lƣu trữ dƣới dạng các
tệp tin hoặc các thông điệp.
Thuật ngữ dữ liệu trong nén dữ liệu là một dạng số hóa của thơng tin thực
đƣợc xử lý bởi một chƣơng trình máy tính nào đó. Dữ liệu trƣớc khi đƣợc nén gọi là
dữ liệu nguồn.
Dữ liệu có thể phân loại thành các lớp: văn bản, âm thanh, hình ảnh,
video,…
Dữ liệu văn bản thƣờng đƣợc biểu diễn bằng 8 bit mã ASCII mở rộng.
Chúng xuất hiện trong các file với phần mở rộng „.txt‟, „.tex‟, „.doc‟.
Dữ liệu nhị phân gồm các file cơ sở dữ liệu, dữ liệu bảng tính, các file thực
thi và các mã chƣơng trình. Các file đó thƣờng có phần mở rộng là .bin.
Dữ liệu hình ảnh thƣờng đƣợc biểu diễn bằng mảng hai chiều các điểm ảnh
mà mỗi điểm ảnh đƣợc kết hợp với mã màu của nó. Phần mở rộng .bmp biểu
diễn một kiểu file ảnh bitmap trong Windows và .psd với định dạng file riêng
của Adobe Photoshop.
Dữ liệu đồ họa đƣợc biểu diễn theo dạng các vectơ hay các phƣơng trình
tốn học. Một ví dụ của định dạng dữ liệu là .png, đây là chu n với Portable
Network Graphics.
Dữ liệu âm thanh đƣợc biểu diễn bởi một hàm sóng (tuần hồn). Một ví dụ
phổ biến là các file âm thanh theo định dạng .wav.
Số hóa bởi trung tâm học liệu
/>
3
Mã hóa là phƣơng pháp để biến thơng tin (phim ảnh, văn bản, hình ảnh...) từ
định dạng bình thƣờng sang dạng thơng tin khơng thể hiểu đƣợc nếu khơng có
phƣơng tiện giải mã.
Giải mã là phƣơng pháp để đƣa từ dạng thơng tin đã đƣợc mã hóa về dạng
thơng tin ban đầu, q trình ngƣợc của mã hóa.
Một hệ thống mã hóa bao gồm các thành phần:
Thơng tin trƣớc khi mã hóa, kí hiệu là P
Thơng tin sau khi mã hóa, kí hiệu là C
Chìa khóa, kí hiệu là K
Phƣơng pháp mã hóa/giải mã, kí hiệu là E/D.
Q trình mã hóa đƣợc tiến hành bằng cách áp dụng hàm tốn học E lên
thông tin P, vốn đƣợc biểu diễn dƣới dạng số, để trở thành thơng tin đã mã hóa C.
Quá trình giải mã đƣợc tiến hành ngƣợc lại: áp dụng hàm D lên thông
tin C để đƣợc thông tin đã giải mã P.
Các hệ thống mã hóa: mã hóa đối xứng và mã hóa bất đối xứng.
Mã hóa đối xứng sử dụng cùng một khóa để mã hóa/giải mã. Mã hóa đối
xứng xử lí nhanh nhƣng độ an tồn khơng cao.
Mã hóa bất đối xứng sử dụng hai khóa khác nhau để mã hóa và giải mã
thơng tin. Mã hóa bất đối xứng xử lí chậm hơn, nhƣng độ an tồn và tính thn tiện
trong quản lí khóa cao.
Dữ liệu nguồn
Văn bản
Hình ảnh
Đồ họa
Âm thanh
.txt, .tex, .doc,...
.bmp, .jpg, .gif,...
.png, …
.wav, .mp3, …
File nhị phân nguồn
Mã hóa
File nhị phân đã đƣợc nén
Hình 1.2: Dữ liệu trong q trình mã hóa
Số hóa bởi trung tâm học liệu
/>
4
File nhị phân đã đƣợc nén
Giải mã
File nhị phân đã đƣợc khôi phục
Dữ liệu đã đƣợc giải mã
Văn bản
.txt, .tex, .doc,...
Hình ảnh
Đồ họa
Âm thanh
.bmp, .jpg, .gif,...
.png, …
.wav, .mp3, …
Hình 1.3: Dữ liệu trong quá trình giải mã
1.1.1.2 Cơ bản về lý thuyết thông tin
Lý thuyết thông tin là một ngành khoa học nghiên cứu về thông tin nhằm tạo ra cơ
sở hạ tầng tốt cho việc truyền thơng chính xác, nhanh chóng và an tồn; lƣu trữ có hiệu
quả. Các lĩnh vực nghiên cứu của lý thuyết thông tin là truyền thông, nén dữ liệu và bảo
mật thông tin. Điểm quan trọng trong lĩnh vực lý thuyết thông tin là entropy đƣợc
C.E.Shannon giới thiệu vào năm 1948.
Entropy
Trong lý thuyết thông tin, Entropy mô tả mức độ hỗn loạn trong một tín hiệu
lấy từ một sự kiện ng u nhiên. Nói cách khác, entropy cũng chỉ ra có bao nhiêu
thơng tin trong tín hiệu, với thơng tin là các phần khơng hỗn loạn ng u nhiên của tín
hiệu.
Ví dụ, nhìn vào một dịng chữ tiếng Việt, đƣợc mã hóa bởi các chữ cái,
khoảng cách và dấu câu, tổng quát là các ký tự. Dịng chữ có ý nghĩa sẽ khơng hiện
ra một cách hoàn toàn hỗn loạn ng u nhiên; ví dụ nhƣ tần số xuất hiện của chữ cái x
sẽ không giống với tần số xuất hiện của chữ cái phổ biến hơn là t. Đồng thời, nếu
dòng chữ v n đang đƣợc viết hay đang đƣợc truyền tải, khó có thể đốn trƣớc đƣợc
Số hóa bởi trung tâm học liệu
/>
5
ký tự tiếp theo sẽ là gì, do đó nó có mức độ ng u nhiên nhất định. Entropy thơng tin
là một thang đo mức độ ng u nhiên này.
Claude E. Shannon đã xây dựng định nghĩa về entropy để thoả mãn các giả
định sau:
• Entropy phải tỷ lệ thuận liên tục với các xác suất xuất hiện của các phần tử
ng u nhiên trong tín hiệu. Thay đổi nhỏ trong xác suất phải d n đến thay đổi nhỏ
trong entropy.
• Nếu các phần tử ng u nhiên đều có xác suất xuất hiện bằng nhau, việc tăng
số lƣợng phần tử ng u nhiên phải làm tăng entropy.
• Có thể tạo các chuỗi tín hiệu theo nhiều bƣớc, và entropy tổng cộng phải
bằng tổng có trọng số của entropy của từng bƣớc.
Shannon cũng chỉ ra rằng bất cứ định nghĩa nào của entropy, cho một tín
hiệu có thể nhận các giá trị rời rạc, thoả mãn các giả định của ơng thì đều có dạng:
Trong đó:
• K là một hằng số, chỉ phụ thuộc vào đơn vị đo.
• n là tổng số các giá trị có thể nhận của tín hiệu.
• i là giá trị rời rạc thứ i.
• p(i) là xác suất xuất hiện của giá trị i.
1.1.1.3 Sự dƣ thừa dữ liệu
Mã hóa nhằm mục đích giảm kích thƣớc dữ liệu bằng cách loại bỏ dƣ thừa
dữ liệu. Việc xác định bản chất các kiểu dƣ thừa dữ liệu rất có ích cho việc xây
dựng các phƣơng pháp mã hóa dữ liệu khác nhau. Nói một cách khác, các phƣơng
pháp mã hóa dữ liệu khác nhau là do sử dụng các kiểu dƣ thừa khác nhau. Ngƣời ta
coi có 4 kiểu dƣ thừa chính:
Số hóa bởi trung tâm học liệu
/>
6
- Sự phân bố ký tự:
Trong một dãy ký tự, có một số ký tự có tần suất xuất hiện nhiều hơn so với
các dãy khác. Do vậy, ta có thể mã hóa dữ liệu một cách cơ đọng hơn. Các dãy ký
tự có tần suất cao đƣợc thay bởi một từ mã nhị phân với số bit nhỏ; ngƣợc lại các
dãy có tần suất xuất hiện thấp sẽ đƣợc mã hóa bởi từ mã có nhiều bit hơn. Đây
chính là bản chất của phƣơng pháp mã hóa Huffman.
- Sự lặp lại của các ký tự:
Kỹ thuật nén dùng trong trƣờng hợp này là thay dãy lặp đó bởi dãy mới gồm
hai thành phần: số lần lặp và ký hiệu dùng để mã. Phƣơng pháp mã hóa kiểu này có
tên là mã hóa loạt dài RLC (Run Length Coding)
Ví dụ:
- Những m u sử dụng tần suất:
Có thể có dãy ký hiệu nào đó xuất hiện với tần suất tƣơng đối cao. Do vậy,
có thể mã hóa bởi ít bit hơn. Đây là cơ sở của phƣơng pháp mã hóa từ điển do
Lempel-Ziv đƣa ra và có cải tiến vào năm 1977, 1978 và do đó có tên gọi là phƣơng
pháp nén LZ77, LZ78. Năm 1984, Tery Welch đã cải tiến hiệu quả hơn và đặt tên là
LZW (Lempel-Ziv-Welch).
- Độ dƣ thừa vị trí:
Do sự phụ thuộc l n nhau của dữ liệu, đôi khi biết đƣợc ký hiệu (giá trị) xuất
hiện tại một vị trí, đồng thời có thể đoán trƣớc sự xuất hiện của các giá trị ở các vị
trí khác nhau một cách phù hợp. Chẳng hạn, ảnh biểu diễn trong một lƣới hai chiều,
một số điểm ở hàng dọc trong một khối dữ liệu lại xuất hiện trong cùng vị trí ở các
hàng khác nhau. Do vậy, thay vì lƣu trữ dữ liệu, ta chỉ cần lƣu trữ vị trí hàng và cột.
Phƣơng pháp nén dựa trên sự dƣ thừa này gọi là phƣơng pháp mã hóa dự đốn.
Số hóa bởi trung tâm học liệu
/>
7
1.1.1.4 Nén dữ liệu
Nhu cầu trao đổi dữ liệu giữa mọi ngƣời ngày một tăng, dữ liệu chúng ta
muốn chia sẻ, trao đổi ngày một lớn hơn, phức tạp hơn và đa dạng hơn. Thông
thƣờng, hầu hết dữ liệu trong máy tính có rất nhiều thơng tin dƣ thừa. Để giải quyết
vấn đề này, các phƣơng pháp và kỹ thuật nén dữ liệu liên tục đƣợc đề xuất và phát
triển. Mục đích chung của các kỹ thuật nén dữ liệu là giảm kích thƣớc của dữ liệu
gốc nhằm giúp cho việc xử lý dữ liệu nhanh hơn (nhƣ sao chép, di chuyển, tải lên,
tải xuống, …).
Trong khoa học máy tính và lý thuyết thông tin n n dữ liệu là q trình mã
hóa thơng tin bằng cách sử dụng ít bit hơn biểu diễn đã đƣợc mã hóa qua việc sử
dụng các lƣợc đồ nén riêng biệt.
Vấn đề là cần bao nhiêu bit? Điều này phụ thuộc vào thuật toán và sự dƣ
thừa dữ liệu. Các dữ liệu khác nhau đòi hỏi các kỹ thuật khác nhau để xác định sự
dƣ thừa và loại bỏ dƣ thừa dữ liệu. Rõ ràng điều này làm cho việc nén dữ liệu trở
nên khó khăn hơn khi tìm ra một thuật tốn nén chung.
Khơng có thuật tốn nào hồn hảo để giải quyết các vấn đề về nén dữ liệu.
Trong các nghiên cứu về nén dữ liệu, về bản chất chúng ta cần phân tích các đặc
tính của dữ liệu cần nén và tìm ra đƣợc các m u đại diện phù hợp nhất thay thế cho
các dữ liệu này. Điều này làm phong phú thêm cho các mơ hình và kỹ thuật nén dữ
liệu đã đƣợc đƣa ra.
Nén dữ liệu có nhiều ứng dụng trong các lĩnh vực:
Các hệ thống truyền thông cá nhân: Fax, thƣ thoại (voice mail) và điện thoại.
Các hệ thống máy tính: Cấu trúc bộ nhớ, đĩa và băng.
Tính tốn di động
Các hệ thống máy tính phân tán
Mạng máy tính, đặc biệt là Internet
Sự phát triển đa phương tiện, hình ảnh, xử lý tín hiệu
Lưu trữ hình ảnh và hội nghị truyền hình
Tivi kỹ thuật số và truyền hình vệ tinh …
Số hóa bởi trung tâm học liệu
/>
8
Nén dữ liệu có liên quan đến các ngành khoa học nhƣ:
Lý thuyết thơng tin
Lý thuyết mã hóa
Mạng máy tính và viễn thơng
Xử lý tín hiệu kỹ thuật số
Xử lý ảnh
Đa phương tiện
Bảo mật máy tính
…
Nén dữ liệu liên quan đến hai cơng việc: Cơng việc đầu tiên đƣợc gọi là mã
hóa, đó là quá trình ánh xạ dữ liệu gốc thành dãy nhị phân (dữ liệu đã đƣợc mã
hóa). Cơng việc thứ hai là giải mã, đó là q trình xử lý ngƣợc để khôi phục dữ liệu
gốc từ dãy nhị phân.
1.1.1.5 Quá trình nén và giải nén
Quá trình nén và giải nén dữ liệu đƣợc thể hiện qua mơ hình:
Compression
Algorithm
File input
Compressed File output
Decompression
Algorithm
Compressed File input
Decompressed File output
Hình 1.4: Quá trình n n và giải n n
Tuy nhiên đối với các trình duyệt cho việc trình diễn các file multimedia
trong mơi trƣờng mạng, ngƣời ta thƣờng kết hợp các thuật toán nén ở server và giải
nén ở client theo mơ hình sau:
Multimedia file
Compression
Algorithm
Net
Decompression
Algorithm
Display File
Hình 1.5: Q trình truyền file multimedia trên mạng
Số hóa bởi trung tâm học liệu
/>
9
1.1.1.6 Tỷ lệ nén
Tỷ lệ nén là một trong những thông số quan trọng nhất của mọi phƣơng pháp
nén. Tỷ lệ nén dữ liệu đƣợc định nghĩa là tỷ lệ giữa kích thƣớc nén và kích thƣớc
khơng nén.
Tỷ lệ nén =
Kích thƣớc nén
100%
Kích thƣớc khơng nén
Hiệu suất của nén = (1- tỷ lệ nén) 100%
Tuy nhiên, tỷ lệ nén cao chƣa phải là tất cả để đánh giá hiệu quả của một
phƣơng pháp nén. Bởi vì cịn có các yếu tố khác nhƣ: chi phí về thời gian, khơng
gian (bộ nhớ tạm trong q trình nén và giải nén) và cả độ phức tạp tính tốn.
1.1.2 Phân loại các phƣơng pháp nén dữ liệu
Dựa vào tính chất dữ liệu đƣợc lƣu trữ, ta có thể sử dụng phƣơng pháp nén
phù hợp để có kết quả nén tƣơng đối tốt.
Có hai phƣơng pháp nén dữ liệu là nén dữ liệu có hao hụt (lossy
compression) và nén khơng hao hụt (lossless compression). Thực tế thì cả hai
phƣơng pháp nén đều cho ra kết quả tƣơng tự nhau. Bởi khi nén có hao hụt ta
thƣờng tìm những dữ liệu ít cần thiết để loại bỏ nên bằng mắt thƣờng hầu nhƣ ta
khơng nhận ra việc hao hụt đó.
1.1.2.1 Nén c hao hụt
Nén có hao hụt là phƣơng pháp nén mà khơng lấy lại đƣợc dữ liệu nguyên
bản khi giải nén. Nguyên tắc của phƣơng pháp nén này là khi nén chúng ta cần tìm
ra những đoạn dữ liệu dƣ thừa hoặc có ít tác dụng nhất để loại bỏ đi. Điển hình của
ứng dụng phƣơng pháp này trong thực tế là nén các dữ liệu multimedia nhƣ ảnh,
phim, âm thanh,…
Hình 1.6: N n có hao hụt (lossy compression)
Số hóa bởi trung tâm học liệu
/>
10
Có nhiều giải thuật đƣợc đặt ra để đáp ứng yêu cầu giảm thiểu kích thƣớc
của file sao cho v n duy trì đƣợc chất lƣợng ở mức độ chấp nhận đƣợc. Những giải
thuật này đều dựa trên nền tảng là loại bớt những thông tin mà thị giác và thính giác
của con ngƣời khơng hoặc khó cảm nhận đƣợc, chỉ giữ lại những thơng tin thực sự
ảnh hƣởng tích cực lên khả năng cảm nhận của con ngƣời. Chính vì vậy, các phần
dữ liệu dƣ thừa hoặc các phần dữ liệu khơng làm cho thị giác và thính giác nhận ra
đƣợc sẽ bị loại bỏ. Tỷ lệ nén tỷ lệ nghịch với chất lƣợng nén. Tỷ lệ nén càng cao thì
chất lƣợng nén càng thấp và ngƣợc lại.
1.1.2.2 Nén không hao hụt
Phƣơng pháp nén không hao hụt yêu cầu dung lƣợng của dữ liệu kết quả phải
nhỏ hơn dữ liệu gốc với tỉ lệ chấp nhận đƣợc và không đƣợc hao hụt dữ liệu. Việc
nén dữ liệu đƣợc thực hiện bằng cách tìm những đoạn dữ liệu giống nhau và quy
định chúng thành các ký hiệu, đƣa chúng vào một “từ điển” và sử dụng chúng để
giảm độ lớn của dữ liệu.
Hình 1.7: N n khơng hao hụt (lossless compression)
Nén không hao hụt đạt hiệu quả nén nhỏ, chỉ phù hợp cho các file nhỏ cũng
nhƣ những file có nội dung quan trọng. Quá trình nén và giải nén là quá trình thuận
nghịch, thƣờng đƣợc áp dụng cho text, file thực thi…
Phƣơng pháp nén này thƣờng đƣợc dùng để nén dữ liệu với mục đích lƣu trữ
hoặc truyền tải chúng qua lại nhanh hơn (kích thƣớc dữ liệu nhỏ hơn), tiện lợi hơn
(chỉ việc truyền tải một tệp tin).
Đối với loại nén khơng tổn hao có 3 phƣơng pháp nén, đó là: Run-Length, từ
điển và thống kê (entropy)
Số hóa bởi trung tâm học liệu
/>
11
Mã hóa Run-lenght (RLE)
Đối với một số loại tập tin, dữ liệu giống nhau lặp đi lặp lại nhiều lần và có
thể lƣu trữ liên tục nhau. Dựa vào đặc điểm này, ta có thể định nghĩa lại dữ liệu lƣu
trữ bằng cách thay các lần xuất hiện liên tục giống nhau bằng 1 con số thể hiện số
lần xuất hiện đi với dữ liệu gốc, dĩ nhiên là chỉ áp dụng với các dữ liệu có số lần
xuất hiện liên tục >2.
Ví dụ: xét chuỗi
AAABBBAABBBBBAADCDCCCCCCCDAAABBBBCCC
Ta có thể thay: 3A3BAA5BAADCD7CD3A4B3C
Các file ảnh bitmap, ảnh đen trắng phù hợp cho kiểu nén này. Các file chứa
dữ liệu số không phù hợp cho phƣơng pháp nén RLE.
Mã hóa Từ điển (mã hóa LZW)
Phƣơng pháp nén LZW đƣợc phát minh bởi Lempel - Zip và Welch. Nó hoạt
động dựa trên một ý tƣởng rất đơn giản là ngƣời mã hoá và ngƣời giải mã cùng xây
dựng bản mã. Đó là gom lại các phần giống nhau của dữ liệu đƣa vào từ điển rồi tối
giản hố nó. Dùng 1 mảng làm từ điển với nguyên tắc: từ điển đầu tiên là gồm tất cả
các ký tự đơn, sau đó khi các byte dữ liệu cần nén đƣợc đem đến, chúng liền đƣợc
giữ lại trong một bộ đệm và đem so sánh với các chuỗi đã có trong "từ điển". Nếu
chuỗi dữ liệu trong bộ đệm khơng có trong "từ điển" thì nó đƣợc bổ sung thêm vào
"từ đi ûi trung tâm học lieäu
28.27
/>
54
Các kết quả cho thấy rằng, mơ hình nén BW_MTF_AC có tỷ lệ nén trung
bình tốt nhất trong 4 mơ hình và đạt xấp xỉ với Winrar.
Đối với các file văn bản (file alice29.txt, asyoulik.txt, lcet10.txt, plrabn12.txt)
đạt đƣợc kết quả tốt nhất với BW_MTF_AC, tốt hơn cả trình nén thƣơng mại
Winrar và có hiệu suất nén cao hơn các file (*.c, *.html)…
Bảng 3.5: T lệ n n theo % v i Canterbury Corpus l n
Mơ hình
HUFFMAN
AC
BW_MTF_H
E.coli
25.0090
25.0277
24.9104
24.8917
28
bible.txt
54.8295
54.3122
25.2365
24.7192
24
world192.txt
63.0494
62.5052
22.5349
21.9907
21
T un
47.6293
47.2817
24.2272
23.8672
24.33
File
nh
BW_MTF_AC
WINRAR
Với các file lớn của Lukas Corpus, mơ hình BW_MTF_AC đạt đƣợc tỷ lệ
nén trung bình tốt nhất, tiếp theo là BW_MTF_H. Với các file lớn, hiệu suất nén
của các file càng cao bởi BWT khơng giống nhƣ các mơ hình nén dữ liệu khác là xử
lý văn bản theo từng ký tự một. Ở đây, BWT thƣờng đọc một khối văn bản (thƣờng
là hàng trăm KB đến hàng nghìn KB) và sau đó biến đổi nó để nén.
Bảng 3.6: T lệ n n theo
Mơ hình
HUFFMAN
AC
BW_MTF_H
File1.docx
102.7082
97.0119
96.2747
95.5784
90
File2.doc
74.3805
72.0952
49.3474
48.0621
38
File3.xls
50.6575
48.2646
23.5166
22.1237
17
File4.ppt
87.9730
87.3938
64.7343
64.1551
51
File5.chm
95.5532
92.6450
88.6876
86.7794
77
File6.pdf
100.0006
98.6217
95.6779
94.2990
88
File7.cpp
61.0432
59.0402
27.0495
25.0465
23
File
Số hóa bởi trung tâm học liệu
BW_MTF_AC
WINRAR
/>
55
File8.jpg
102.4900
99.7800
99.5907
99.3807
98
File9.bmp
96.8112
96.3841
44.5747
44.1476
28
File10.exe
74.3842
73.5097
47.4448
46.5703
36
File11.xlsx
100.1437
99.8892
99.6104
99.3559
97
84.0577
66.9553
65.9544
58.4545
T un
nh
86.0132
Với kết quả thực nghiệm trong bảng 3.6, ta dễ dàng nhận thấy các file
Powerpoint, CHM, PDF, JPG cho hiệu suất nén rất thấp. Đặc biệt là file JPG kết
quả nén gần nhƣ không giảm.
Đối với những file văn bản mà tần số xuất hiện của các kí tự khơng q
chênh lệch và có bộ kí tự nguồn lớn thì tác dụng nén dữ liệu của mã Huffman là
khơng đáng kể.
Kết quả thực nghiệm từ 3 bảng 3.4, 3.5, 3.6 đều cho ta một kết quả duy nhất
là dữ liệu sau khi qua các phép biến đổi sơ bộ rồi mới thực hiện thuật toán nén đạt
tỷ lệ nén tốt hơn nhiều lần so với thực hiện riêng thuật tốn nén và đạt xấp xỉ so với
trình nén thƣơng mại Winrar.
Th i gian nén và giải nén
Các kết quả thời gian chạy đƣợc tính bình qn trên lần 10 thực hiện đƣợc đo
giây
theo
trên
chip
Intel®
Core™2
Duo
Processor
T6570
(2M Cache, 2.10 GHz, 800 MHz FSB); RAM 2 GB chạy trên WINDOWS XP SP3.
Bảng 3. : Th i gian n n và giải n n theo giây v i Canterbury Corpus
Mơ hình
File
Nén
Giải nén
HUFF
AC
B_M_H
B_M_A
HUFF
AC
B_M_H
B_M_A
alice29.txt
0.3593
0.1093
0.1249
0.0156
0.0781
0.1093
0.0558
0.0781
asyoulik.txt
0.3281
0.0937
0.1249
0.0312
0.0625
0.0937
0.0521
0.0781
cp.html
0.0937
0.0156
0.0321
0.0000
0.0312
0.0156
0.0624
0.0312
fields.c
0.0625
0.0000
0.0156
0.0156
0.0156
0.0156
0.0156
0.0156
grammar.lsp
0.0312
0.0000
0.0125
0.0000
0.0000
0.0000
0.0000
0.0000
Số hóa bởi trung tâm học liệu
/>
56
kennedy.xls
1.9687
0.2656
0.2062
0.1406
0.2031
0.3281
0.1837
0.2968
lcet10.txt
0.8750
0.1875
0.1343
0.0468
0.1093
0.3437
0.0497
0.1562
plrabn12.txt
1.0000
0.2500
0.1968
0.0468
0.125
0.25
0.1094
0.2187
sum
0.1875
0.0156
0.0312
0.0156
0.0156
0.0312
0.0078
0.0156
xargs.1
0.0312
0.0000
0.0156
0.0000
0.0000
0.0000
0.0000
0.0000
4.9372
0.9373
0.8941
0.3122
0.6404
1.1872
0.5364
0.8903
Tổn
Các kết quả thực nghiệm trong bảng 3.7 cho thấy rằng thời gian nén và giải
nén của các phƣơng pháp mã hóa dữ liệu là tƣơng đối nhanh (hầu hết đều chƣa đến
1 giây).
Bảng 3. : Th i gian n n và giải n n theo giây v i Canterbury Corpus l n
Mơ hình
File
Nén
Giải nén
HUFF
AC
B_M_H
B_M_A
HUFF
AC
B_M_H
B_M_A
E.coli
8.1718
2.1406
1.9093
0.4687
0.4062
1.8906
0.3089
1.4375
bible.txt
7.7031
1.9062
1.5655
0.3593
0.5156
1.6406
0.3437
1.0937
world192.txt
4.7812
1.1406
1.1437
0.2031
0.4062
1.0000
0.2729
0.6718
Tổn
20.656
5.1874
4.6185
1.0311
1.328
4.5312
0.9255
3.203
Với file có dung lƣợng lớn thì mã hóa Huffman mất nhiều thời gian do việc
tìm bộ kí tự nguồn và tần suất xuất hiện của chúng tốn nhiều chi phí.
Bảng 3. : Th i gian n n và giải n n theo giây
Mơ hình
File
Nén
Giải nén
HUFF
AC
B_M_H
B_M_A
HUFF
AC
B_M_H
B_M_A
File1.docx
0.1250
0.0312
0.0468
0.0156
0.0312
0.0156
0.0936
0.0468
File2.doc
0.2812
0.0625
0.0781
0.0156
0.0468
0.0781
0.0468
0.0781
File3.xls
0.2031
0.0312
0.0312
0.0000
0.0468
0.0312
0.0468
0.0312
File4.ppt
2.2187
0.5781
0.758
0.3593
0.2656
0.5625
0.3172
0.6718
File5.chm
0.2187
0.0625
0.0937
0.0312
0.0312
0.0468
0.0625
0.0937
File6.pdf
0.4218
0.1875
0.1656
0.0781
0.0625
0.1562
0.0875
0.2187
File7.cpp
0.1250
0.0312
0.0312
0.0000
0.0312
0.0156
0.0936
0.0468
File8.jpg
0.2031
0.0781
0.1406
0.0625
0.0312
0.0781
0.0437
0.1093
Số hóa bởi trung tâm học liệu
/>
57
File9.bmp
2.9843
0.8906
0.7337
0.2187
0.3125
0.875
0.1506
0.4218
File10.exe
0.5937
0.1875
0.1875
0.0468
0.25
0.1718
0.3182
0.2187
File11.xlsx
1.6718
0.5625
0.3581
0.4531
0.2187
0.5312
0.2959
0.7187
9.0464
2.7029
2.6245
1.2809
1.3277
2.5621
1.5564
2.6556
Tổn
- Trong hầu hết các trƣờng hợp, BW_MTF_AC đạt đƣợc tốc độ nén tốt nhất.
- Tốc độ giải nén của mã hóa Huffman tốt hơn nhiều lần so với tốc độ giải
nén của mã hóa số học.
3.3 So sánh và đánh giá kết quả thử nghiệm
Từ các bảng kết quả trên, có một s nhận xét nhƣ sau:
Mơ hình nén kết hợp đạt đƣợc tỷ lệ nén tốt, tốc độ cao.
Các file text có tỉ lệ nén tốt nhất.
Các file pdf, jpg cho tỷ lệ nén rất ít, kết quả nén gần nhƣ khơng giảm;
Với các file lớn, nhiều dữ liệu nên tìm thấy nhiều sự dƣ thừa d n đến chiếm
nhiều bộ nhớ tạm trong quá trình nén và giải nén nên hiệu suất kém hơn.
Nén Huffman, AC chỉ đạt đƣợc 40
Nén kết hợp đạt đƣợc 95
so với nén kết hợp.
so với trình nén thƣơng mại Winrar.
Với các dữ liệu lớn đạt hiệu suất nén cao nhƣng mất nhiều thời gian nén và
giải nén hơn.
3.4 Kết luận và hƣớng phát triển tiếp
4 Kết luận:
Với việc áp dụng thuật toán BWT rồi MTF để sơ chế dữ liệu trƣớc khi áp
dụng thuật tốn nén để có kết quả nén tốt hơn. Từ đó ta thấy tính chất của dữ liệu
đầu vào đóng vai trị quan trọng đối với các thuật tốn nén.
Kết quả nén theo lƣợc đồ BWT-MTF-EC có kết quả gần tƣơng đƣơng với
phần mềm thƣơng mại Winrar đang đƣợc sử dụng tƣơng đối rộng rãi hiện nay.
Việc cải tiến thuật tốn MTF làm giảm đƣợc chi phí tính tốn trong quá trình
thực hiện phép chuyển đổi MTF đặc biệt là q trình mã hóa.
Số hóa bởi trung tâm học liệu
/>