Nén dữ liệu kết hợp với các phương pháp biến đổi sơ bộ dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.15 MB, 69 trang )

...

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG

Nguyễn Thành Trung

NÉN DỮ LIỆU KẾT HỢP VỚI CÁC PHƢƠNG PHÁP
BIẾN ĐỔI SƠ BỘ DỮ LIỆU
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số

: 60 48 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƢỜI HƢỚNG DẪN KHOA HỌC

TS Bùi Văn Thanh

Thái Nguyên, năm 2013

Số hóa bởi trung tâm học liệu

/>

ii

LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn này đƣợc thực hiện bằng cơng sức của mình theo
sự hƣớng d n của TS Bùi Văn Thanh, không sao chép từ cơng trình khác. Mọi

thơng tin tham khảo đều đƣợc trích d n đầy đủ. Nếu có gì gian dối tơi xin chịu hoàn
toàn trách nhiệm.
Thái Nguyên, tháng 9 năm 2013
Học viên

Nguyễn Thành Trung

Số hóa bởi trung tâm học liệu

/>

iii

LỜI CẢM ƠN
Tơi xin chân thành nói lời cảm ơn Thầy giáo TS Bùi Văn Thanh, ngƣời đã
tận tình giúp đỡ hƣớng d n tơi trong suốt q trình thực hiện luận văn cùng với
những kinh nghiệm quý báu trong nghiên cứu khoa học cũng nhƣ cuộc sống từ
Thầy.
Tôi chân thành cảm ơn Trƣờng Đại học Công nghệ Thông tin và Truyền
thông - Đại học Thái Nguyên, Khoa Công nghệ Thông tin đã tạo điều kiện tốt nhất
cho tôi đƣợc học tập và nghiên cứu. Xin cảm ơn quý Thầy giáo, cơ giáo đã tận tình
giảng dạy, giúp đỡ và hƣớng d n tơi trong suốt khóa học.
Cảm ơn các bạn đồng nghiệp đã động viên đóng góp ý kiến cho luận văn của
tôi.
Mặc dù đã cố gắng hết sức cùng với sự tận tâm của thầy giáo hƣớng d n,
song do trình độ cịn hạn chế nên Luận văn khó tránh khỏi những thiếu sót. Tơi rất
mong nhận đƣợc sự thơng cảm và góp ý của q thầy cơ và các bạn.
Thái Nguyên, tháng 9 năm 2013
Học viên

Nguyễn Thành Trung

Số hóa bởi trung tâm học liệu

/>

iv

MỤC LỤC
Trang
LỜI CAM ĐOAN ..................................................................................................................ii
LỜI CẢM ƠN .......................................................................................................................iii
MỤC LỤC ............................................................................................................................ iv
DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT .................................................. vi
DANH MỤC CÁC HÌNH VẼ & BẢNG BIỂU ..................................................................vii
CHƢƠNG I: TỔNG QUAN VỀ NÉN DỮ LIỆU ................................................................. 1
1.1 Tổng quan về nén dữ liệu ............................................................................................ 1
1.1.1 Các khái niệm cơ bản ............................................................................................ 1
1.1.1.1 Dữ liệu, thông tin và mã hóa.......................................................................... 1
1.1.1.2 Cơ bản về lý thuyết thơng tin ......................................................................... 4
1.1.1.3 Sự dƣ thừa dữ liệu .......................................................................................... 5
1.1.1.4 Nén dữ liệu ..................................................................................................... 7
1.1.1.5 Quá trình nén và giải nén ............................................................................... 8
1.1.1.6 Tỷ lệ nén ........................................................................................................ 9
1.1.2 Phân loại các phƣơng pháp nén dữ liệu ................................................................ 9
1.1.2.1 Nén có hao hụt ............................................................................................... 9
1.1.2.2 Nén khơng hao hụt ....................................................................................... 10
1.1.3 Mơ hình và mã hóa ............................................................................................. 15
1.1.4 Các kết quả cơ bản về nén dữ liệu ...................................................................... 18
1.1.5 Tổng quan về các trình nén đang đƣợc sử dụng rộng rãi hiện nay ..................... 20

1.2 Mã hóa Entropy ......................................................................................................... 21
1.2.1 Mã hóa Huffman ................................................................................................. 21
1.2.1.1 Q trình mã hóa.......................................................................................... 25
1.2.1.2 Q trình giải mã ......................................................................................... 26
1.2.2 Mã hóa số học ..................................................................................................... 27
1.2.2.1 Mơ hình mã hóa số học ................................................................................ 27
1.2.2.2 Q trình mã hóa.......................................................................................... 27
1.2.2.3 Q trình giải mã ......................................................................................... 29
CHƢƠNG II: NÉN KẾT HỢP VỚI KỸ THUẬT BIẾN ĐỔI DỮ LIỆU ........................... 32
2.1 Các kỹ thuật biến đổi dữ liệu cơ bản ......................................................................... 32

Số hóa bởi trung tâm học liệu

/>

v

2.1.1 Kỹ thuật biến đổi Burrow-Wheeler .................................................................... 32
2.1.1.1 Biến đổi BWT thuận .................................................................................... 32
2.1.1.2 Biến đổi BWT nghịch .................................................................................. 35
2.1.2 Kỹ thuật biến đổi Move-To-Front (MTF)........................................................... 38
2.1.2.1 Biến đổi MTF thuận ..................................................................................... 38
2.1.2.2 Biến đổi MTF nghịch ................................................................................... 41
2.2 Một số cải tiến đối với thuật toán MTF ..................................................................... 43
2.2.1 Q trình mã hóa................................................................................................. 44
2.2.2 Q trình giải mã ................................................................................................ 45
2.3 Mơ hình nén kết hợp với BWT&MTF....................................................................... 46
2.3.1 Q trình nén ...................................................................................................... 46
2.3.2 Quá trình giải nén ............................................................................................... 48
CHƢƠNG III: KẾT QUẢ CÀI ĐẶT THỬ NGHIỆM ........................................................ 50

3.1 Dữ liệu m u ............................................................................................................... 51
3.2 Kết quả thực nghiệm .................................................................................................. 53
3.2.1 Tỷ lệ nén ............................................................................................................. 53
3.2.2 Thời gian nén và giải nén.................................................................................... 55
3.3 So sánh và đánh giá kết quả thử nghiệm ................................................................... 57
3.4 Kết luận và hƣớng phát triển tiếp............................................................................... 57
3.4.1 Kết luận: .............................................................................................................. 57
3.4.2 Hƣớng phát triển của đề tài ................................................................................. 58
TÀI LIỆU THAM KHẢO ................................................................................................... 59

Số hóa bởi trung tâm học liệu

/>

vi

DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT
Từ viết tắt

TT

Viết đầy đủ

1

ARC

ARithmetic Coding

2

De_ARC

Decoder ARithmetic Coding

3

ASCII

American Standard Code for Information Interchange

4

BIT

BInary digiT

5

BPS

Bits Per Second

6

BWT

Burrow-Wheeler Transform

7

InvBWT

Invert Burrow-Wheeler Transform

8

EC

Entropy Coding

9

LZW

Lempel-Ziv-Welch

10

MTF

Move-To-Front

11

InvMTF

Invert Move-To-Front

12

RLE

Run Length Encoding

Số hóa bởi trung tâm học liệu

/>

vii

DANH MỤC CÁC HÌNH VẼ & BẢNG BIỂU
Hình 1.1: Mơ hình q trình xử lý thơng tin .......................................................................... 1
Hình 1.2: Dữ liệu trong q trình mã hóa .............................................................................. 3
Hình 1.3: Dữ liệu trong quá trình giải mã .............................................................................. 4
Hình 1.4: Quá trình nén và giải nén ....................................................................................... 8
Hình 1.5: Quá trình truyền file multimedia trên mạng .......................................................... 8
Hình 1.6: Nén có hao hụt (lossy compression) ...................................................................... 9
Hình 1.7: Nén khơng hao hụt (lossless compression) .......................................................... 10
Bảng 1.1: Quá trình mã hóa từ điển ..................................................................................... 12
Bảng 1.2: Q trình giải mã từ điển ..................................................................................... 13
Bảng 1.3: Dữ liệu m u cho mã hóa Huffman ...................................................................... 13
Hình 1.8: Cây nhị phân trong mã Huffman ở bảng 1.3 ....................................................... 14
Hình 1.9: Một dãy các giá trị dữ liệu ................................................................................... 15
Hình 1.10: Một dãy các giá trị dữ liệu ................................................................................. 16
Bảng 1.4: Mã với các từ mã chiều dài thay đổi ................................................................... 17
Hình 1.11: Minh họa nén theo phƣơng pháp Huffman ........................................................ 24
Hình 1.12: Cây Huffman ..................................................................................................... 25
Hình 1.13: Mơ hình nén theo mã số học .............................................................................. 27
Hình 1.14: Mơ hình q trình nén........................................................................................ 28

Bảng 1.5: Quá trình xác định [bk, lk) trong mã hóa số học .................................................. 28
Hình 1.15: Mơ tả q trình nén theo bảng 1.5 ..................................................................... 29
Hình 2.1: Quá trình quay chuỗi “LAHABANA” ................................................................ 32
Hình 2.2: Kết quả sắp xếp theo thứ tự từ điển ..................................................................... 33
Hình 2.3: Mơ tả q trình biến đổi BWT nghịch ................................................................. 36
Bảng 2.1: Quá trình mã hóa MTF ........................................................................................ 39
Hình 2.4: Q trình biến đổi MTF thuận chuỗi “HLNBAAAA” ........................................ 39
Bảng 2.2: Quá trình giải mã MTF....................................................................................... 41
Hình 2.5: Quá trình biến đổi MTF nghịch ........................................................................... 42
Hình 2.6: Q trình mã hóa MTF (cải tiến) ......................................................................... 44
Hình 2.7: Quá trình giải mã MTF (cải tiến) ......................................................................... 45
Hình 2.8: Lƣợc đồ nén dữ liệu BWT_MTF_EC .................................................................. 46
Hình 2.9: Kết quả thực nghiệm với BWT (quá trình thuận) ................................................ 47

Số hóa bởi trung tâm học liệu

/>

viii

Hình 2.10: Kết quả thực nghiệm với MTF (quá trình thuận) .............................................. 47
Hình 2.11: Lƣợc đồ giải nén dữ liệu BWT_MTF_EC ......................................................... 48
Hình 2.12: Kết quả thực nghiệm MTF (quá trình nghịch) ................................................... 48
Hình 2.13: Kết quả thực nghiệm BWT (quá trình nghịch) .................................................. 49
Hình 3.1: Chƣơng trình cài đặt thử nghiệm ......................................................................... 50
Bảng 3.1: Mô tả các tệp tin m u để thực nghiệm với The Canterbury Corpus ................... 51
Bảng 3.2: Mô tả các tệp tin m u để thực nghiệm với The Large Corpus ............................ 52
Bảng 3.3: Mô tả các tệp tin m u để thực nghiệm ................................................................ 52
Bảng 3.4: Tỷ lệ nén theo

với Canterbury Corpus ............................................................ 53

Bảng 3.5: Tỷ lệ nén theo

với Canterbury Corpus lớn...................................................... 54

Bảng 3.6: Tỷ lệ nén theo

.................................................................................................. 54

Bảng 3.7: Thời gian nén và giải nén theo giây với Canterbury Corpus .............................. 55
Bảng 3.8: Thời gian nén và giải nén theo giây với Canterbury Corpus lớn ........................ 56
Bảng 3.9: Thời gian nén và giải nén theo giây .................................................................... 56

Số hóa bởi trung tâm học lieäu

/>

ix

MỞ ĐẦU
1. Lý do chọn đề tài
Trong thời đại CNTT, nhu cầu trao đổi dữ liệu ngày một tăng, dữ liệu cần
chia sẻ, trao đổi có dung lƣợng ngày một lớn hơn, phức tạp hơn và đa dạng hơn.
Việc nén dữ liệu nhằm mục đích làm giảm kích thƣớc của dữ liệu gốc giúp cho việc
xử lý dữ liệu nhanh hơn (sao chép, di chuyển, tải lên, tải xuống,…).
Việc nén dữ liệu là tất yếu cần thiết do hai lý do chính sau đây. Thứ nhất là
do lƣu trữ: dữ liệu sau khi nén có dung lƣợng nhỏ hơn, do vậy cần ít khơng gian lƣu
trữ hơn. Thứ hai là giảm thiểu thời gian truyền: dữ liệu sau khi nén có dung lƣợng
nhỏ hơn nên đƣợc truyền nhanh hơn.

Do vậy, cần có các thuật tốn nén dữ liệu hiệu quả hơn và nhanh hơn v n
luôn luôn tăng, nhất là với các ứng dụng trực tuyến (hình ảnh, âm thanh). Thực tế là
các thuật toán nén dữ liệu đã đƣợc liên tục phát triển kể từ khi giới hạn lý thuyết về
hiệu suất nén dữ liệu (đƣợc định nghĩa nhƣ là tỷ lệ các ký tự mã trên một ký tự
nguồn) đã đƣợc chứng minh một cách chặt chẽ dựa trên lý thuyết thông tin.
Nhiều kỹ thuật nén (không mất thơng tin) đã đƣợc phát triển nhƣ nhóm các
phƣơng pháp với tên gọi mã hóa entropy bao gồm mã số học và mã Huffman. Sau
đó, hàng loạt các kỹ thuật mới ra đời để cải tiến các kỹ thuật trên nhƣ: mã hóa RLE
(Run Length Encoding), LZW (Lempel-Ziv-Welch),...
Nhƣng nhìn chung khơng có kỹ thuật nén nào có thể áp dụng một cách hiệu
quả với tất cả các loại dữ liệu. Có những thuật tốn cho hiệu suất nén cao, nhƣng cài
đặt phức tạp và mất nhiều thời gian nén cũng nhƣ giải nén. Chính vì vậy, để đạt
đƣợc hiệu suất nén cao với thuật toán tƣơng đối đơn giản và thời gian nén/giải nén
chấp nhận đƣợc cần phối hợp các thuật toán biến đổi sơ bộ dữ liệu vào để chuyển
dữ liệu cần nén sang dạng dữ liệu thích hợp, sau đó áp dụng một thuật tốn nén phù
hợp để tăng hiệu suất nén.
Với ý tƣởng trên, chúng ta có thể sử dụng kỹ thuật biến đổi Burrow-Wheeler
(BWT) kết hợp với kỹ thuật Move-To-Front (MTF) để xử lý sơ bộ dữ liệu cần nén
với mục đích thay đổi tính chất thống kê của dữ liệu sao cho việc áp dụng các thuật

Số hóa bởi trung tâm học liệu

/>

x

tốn nén trở lên dễ dàng hơn, sau đó áp dụng phƣơng pháp nén số học hoặc nén
Huffman để đƣợc kết quả mong muốn.
2. Nhiệm vụ nghiên cứu
- Tìm hiểu tổng quan về nén dữ liệu, kỹ thuật biến đổi dữ liệu BurrowsWheeler, kỹ thuật biến đổi dữ liệu Move-To-Front, thuật toán nén số học và thuật

toán nén Huffman.
- Xây dựng ứng dụng thử nghiệm phối hợp kỹ thuật biến đổi BurrowsWheeler và kỹ thuật biến đổi Move-To-Front để sơ chế dữ liệu trƣớc khi sử dụng
phƣơng pháp nén số học hoặc nén Huffman và áp dụng trên tất cả các dữ liệu.
3. Đối tƣợng và phạm vi nghiên cứu
- Tổng quan về nén dữ liệu.
- Tìm hiểu kỹ thuật biến đổi dữ liệu Burrows-Wheeler.
- Tìm hiểu kỹ thuật biến đổi dữ liệu Move-To-Front.
- Tìm hiểu thuật tốn nén số học và nén Huffman.
- Cài đặt thử nghiệm chƣơng trình ứng dụng nén số học hoặc nén Huffman
kết hợp với Burrows-Wheeler và Move-To-Front.
4. Phƣơng pháp nghiên cứu
Sử dụng các phƣơng pháp nghiên cứu chính sau:
-

Phƣơng pháp nghiên cứu lý thuyết.

-

Phƣơng pháp thực nghiệm.

-

Phƣơng pháp trao đổi khoa học, lấy ý kiến chuyên gia.

5. Ý nghĩa khoa học của đề tài
- Giúp tìm hiểu, đánh giá khái quát về nén dữ liệu. Nén = mơ hình + mã hóa.
- Xây dựng đƣợc chƣơng trình nén phục vụ cho cơng tác lƣu trữ tại đơn vị
đang cơng tác.

Số hóa bởi trung tâm học liệu

/>

1

CHƢƠNG I: TỔNG QUAN VỀ NÉN DỮ LIỆU
1.1 Tổng quan về nén dữ liệu
1.1.1 Các khái niệm cơ bản
1.1.1.1 Dữ liệu, thơng tin và mã hóa
Dữ liệu có thể xem là những ký hiệu hoặc tín hiệu mang tính rời rạc và
khơng có cấu trúc, ý nghĩa rõ ràng. Khi dữ liệu đƣợc tổ chức lại có cấu trúc hơn,
đƣợc xử lý và mang đến cho con ngƣời những ý nghĩa, hiểu biết nào đó thì khi đó
nó trở thành thơng tin. Nói khác đi, từ dữ liệu và xử lý dữ liệu con ngƣời có đƣợc
thơng tin.
Thơng tin là những gì con ngƣời thu nhận đƣợc từ dữ liệu và xử lý dữ liệu
nhằm tạo ra sự hiểu biết, tạo ra các tri thức và những nhận thức tốt hơn về tự nhiên
và xã hội. Nói cách khác, thơng tin là dữ liệu đã qua xử lý, đối chiếu và trở nên có ý
nghĩa đối với ngƣời dùng.
Q trình xử lý thơng tin tổng qt

Hình 1.1: Mơ hình q trình xử lý thơng tin

Một cách tổng qt, việc xử lý thơng tin bao gồm năm q trình sau:
 Q trình thu nhận thơng tin: Nạp, ghi nhớ thơng tin vào vùng nhớ trong
não hoặc các vật lƣu trữ trung gian (giấy, đĩa từ, …).
 Q trình tìm kiếm thơng tin: Nhớ lại thông tin trong vùng nhớ não, hoặc
thu thập, truy tìm thơng tin trong các vật lƣu trữ thơng tin.
 Q trình biến đổi thơng tin: Các hoạt động xử lý, biến đổi thông tin d n
đến việc thay đổi thơng tin, tạo ra thơng tin mới.

Số hóa bởi trung tâm học liệu

/>

2

 Q trình truyền thơng tin: Truyền hoặc d n thông tin từ nơi này sang nơi
khác, từ đối tƣợng này sang đối tƣợng khác.
 Quá trình lý giải, suy luận thơng tin: Các hoạt động mang tính trí tuệ và
sáng tạo nhƣ phân tích, so sánh, lý giải, suy luận, đối chiếu, đánh giá vai
trị, ý nghĩa của thơng tin.
Thông tin không hiện hữu nhƣ các thiết bị vật lý, nó tồn tại nhƣ một dữ liệu
logic đƣợc chứa trong các phƣơng tiện vật lý nhƣ đĩa CD hay các kênh truyền thơng
tin. Vì thế dữ liệu đƣợc xem nhƣ dạng cơ bản của một số thông tin thực. Điều này
tạo nên sự khác biệt giữa các thông tin với nhau nhƣ văn bản, đồ họa, âm thanh,
hình ảnh… Một lƣợng lớn thông tin cần phải đƣợc tổ chức, lƣu trữ dƣới dạng các
tệp tin hoặc các thông điệp.
Thuật ngữ dữ liệu trong nén dữ liệu là một dạng số hóa của thơng tin thực
đƣợc xử lý bởi một chƣơng trình máy tính nào đó. Dữ liệu trƣớc khi đƣợc nén gọi là
dữ liệu nguồn.
Dữ liệu có thể phân loại thành các lớp: văn bản, âm thanh, hình ảnh,
video,…
 Dữ liệu văn bản thƣờng đƣợc biểu diễn bằng 8 bit mã ASCII mở rộng.
Chúng xuất hiện trong các file với phần mở rộng „.txt‟, „.tex‟, „.doc‟.
 Dữ liệu nhị phân gồm các file cơ sở dữ liệu, dữ liệu bảng tính, các file thực
thi và các mã chƣơng trình. Các file đó thƣờng có phần mở rộng là .bin.
 Dữ liệu hình ảnh thƣờng đƣợc biểu diễn bằng mảng hai chiều các điểm ảnh
mà mỗi điểm ảnh đƣợc kết hợp với mã màu của nó. Phần mở rộng .bmp biểu
diễn một kiểu file ảnh bitmap trong Windows và .psd với định dạng file riêng
của Adobe Photoshop.

 Dữ liệu đồ họa đƣợc biểu diễn theo dạng các vectơ hay các phƣơng trình
tốn học. Một ví dụ của định dạng dữ liệu là .png, đây là chu n với Portable
Network Graphics.
 Dữ liệu âm thanh đƣợc biểu diễn bởi một hàm sóng (tuần hồn). Một ví dụ
phổ biến là các file âm thanh theo định dạng .wav.

Số hóa bởi trung tâm học liệu

/>

3

Mã hóa là phƣơng pháp để biến thơng tin (phim ảnh, văn bản, hình ảnh...) từ
định dạng bình thƣờng sang dạng thơng tin khơng thể hiểu đƣợc nếu khơng có
phƣơng tiện giải mã.
Giải mã là phƣơng pháp để đƣa từ dạng thơng tin đã đƣợc mã hóa về dạng
thơng tin ban đầu, q trình ngƣợc của mã hóa.
Một hệ thống mã hóa bao gồm các thành phần:
Thơng tin trƣớc khi mã hóa, kí hiệu là P
Thơng tin sau khi mã hóa, kí hiệu là C
Chìa khóa, kí hiệu là K
Phƣơng pháp mã hóa/giải mã, kí hiệu là E/D.
Q trình mã hóa đƣợc tiến hành bằng cách áp dụng hàm tốn học E lên
thông tin P, vốn đƣợc biểu diễn dƣới dạng số, để trở thành thơng tin đã mã hóa C.
Quá trình giải mã đƣợc tiến hành ngƣợc lại: áp dụng hàm D lên thông
tin C để đƣợc thông tin đã giải mã P.
Các hệ thống mã hóa: mã hóa đối xứng và mã hóa bất đối xứng.
Mã hóa đối xứng sử dụng cùng một khóa để mã hóa/giải mã. Mã hóa đối
xứng xử lí nhanh nhƣng độ an tồn khơng cao.
Mã hóa bất đối xứng sử dụng hai khóa khác nhau để mã hóa và giải mã

thơng tin. Mã hóa bất đối xứng xử lí chậm hơn, nhƣng độ an tồn và tính thn tiện
trong quản lí khóa cao.

Dữ liệu nguồn

Văn bản

Hình ảnh

Đồ họa

Âm thanh

.txt, .tex, .doc,...

.bmp, .jpg, .gif,...

.png, …

.wav, .mp3, …

File nhị phân nguồn

Mã hóa

File nhị phân đã đƣợc nén

Hình 1.2: Dữ liệu trong q trình mã hóa

Số hóa bởi trung tâm học liệu

/>

4

File nhị phân đã đƣợc nén

Giải mã

File nhị phân đã đƣợc khôi phục

Dữ liệu đã đƣợc giải mã

Văn bản
.txt, .tex, .doc,...

Hình ảnh

Đồ họa

Âm thanh

.bmp, .jpg, .gif,...

.png, …

.wav, .mp3, …

Hình 1.3: Dữ liệu trong quá trình giải mã

1.1.1.2 Cơ bản về lý thuyết thông tin
Lý thuyết thông tin là một ngành khoa học nghiên cứu về thông tin nhằm tạo ra cơ
sở hạ tầng tốt cho việc truyền thơng chính xác, nhanh chóng và an tồn; lƣu trữ có hiệu
quả. Các lĩnh vực nghiên cứu của lý thuyết thông tin là truyền thông, nén dữ liệu và bảo
mật thông tin. Điểm quan trọng trong lĩnh vực lý thuyết thông tin là entropy đƣợc
C.E.Shannon giới thiệu vào năm 1948.

 Entropy
Trong lý thuyết thông tin, Entropy mô tả mức độ hỗn loạn trong một tín hiệu
lấy từ một sự kiện ng u nhiên. Nói cách khác, entropy cũng chỉ ra có bao nhiêu
thơng tin trong tín hiệu, với thơng tin là các phần khơng hỗn loạn ng u nhiên của tín
hiệu.
Ví dụ, nhìn vào một dịng chữ tiếng Việt, đƣợc mã hóa bởi các chữ cái,
khoảng cách và dấu câu, tổng quát là các ký tự. Dịng chữ có ý nghĩa sẽ khơng hiện
ra một cách hoàn toàn hỗn loạn ng u nhiên; ví dụ nhƣ tần số xuất hiện của chữ cái x
sẽ không giống với tần số xuất hiện của chữ cái phổ biến hơn là t. Đồng thời, nếu
dòng chữ v n đang đƣợc viết hay đang đƣợc truyền tải, khó có thể đốn trƣớc đƣợc

Số hóa bởi trung tâm học liệu

/>

5

ký tự tiếp theo sẽ là gì, do đó nó có mức độ ng u nhiên nhất định. Entropy thơng tin
là một thang đo mức độ ng u nhiên này.
Claude E. Shannon đã xây dựng định nghĩa về entropy để thoả mãn các giả
định sau:
• Entropy phải tỷ lệ thuận liên tục với các xác suất xuất hiện của các phần tử
ng u nhiên trong tín hiệu. Thay đổi nhỏ trong xác suất phải d n đến thay đổi nhỏ

trong entropy.
• Nếu các phần tử ng u nhiên đều có xác suất xuất hiện bằng nhau, việc tăng
số lƣợng phần tử ng u nhiên phải làm tăng entropy.
• Có thể tạo các chuỗi tín hiệu theo nhiều bƣớc, và entropy tổng cộng phải
bằng tổng có trọng số của entropy của từng bƣớc.
Shannon cũng chỉ ra rằng bất cứ định nghĩa nào của entropy, cho một tín
hiệu có thể nhận các giá trị rời rạc, thoả mãn các giả định của ơng thì đều có dạng:

Trong đó:
• K là một hằng số, chỉ phụ thuộc vào đơn vị đo.
• n là tổng số các giá trị có thể nhận của tín hiệu.
• i là giá trị rời rạc thứ i.
• p(i) là xác suất xuất hiện của giá trị i.
1.1.1.3 Sự dƣ thừa dữ liệu
Mã hóa nhằm mục đích giảm kích thƣớc dữ liệu bằng cách loại bỏ dƣ thừa
dữ liệu. Việc xác định bản chất các kiểu dƣ thừa dữ liệu rất có ích cho việc xây
dựng các phƣơng pháp mã hóa dữ liệu khác nhau. Nói một cách khác, các phƣơng
pháp mã hóa dữ liệu khác nhau là do sử dụng các kiểu dƣ thừa khác nhau. Ngƣời ta
coi có 4 kiểu dƣ thừa chính:

Số hóa bởi trung tâm học liệu

/>

6

- Sự phân bố ký tự:
Trong một dãy ký tự, có một số ký tự có tần suất xuất hiện nhiều hơn so với
các dãy khác. Do vậy, ta có thể mã hóa dữ liệu một cách cơ đọng hơn. Các dãy ký
tự có tần suất cao đƣợc thay bởi một từ mã nhị phân với số bit nhỏ; ngƣợc lại các

dãy có tần suất xuất hiện thấp sẽ đƣợc mã hóa bởi từ mã có nhiều bit hơn. Đây
chính là bản chất của phƣơng pháp mã hóa Huffman.
- Sự lặp lại của các ký tự:
Kỹ thuật nén dùng trong trƣờng hợp này là thay dãy lặp đó bởi dãy mới gồm
hai thành phần: số lần lặp và ký hiệu dùng để mã. Phƣơng pháp mã hóa kiểu này có
tên là mã hóa loạt dài RLC (Run Length Coding)
Ví dụ:

- Những m u sử dụng tần suất:
Có thể có dãy ký hiệu nào đó xuất hiện với tần suất tƣơng đối cao. Do vậy,
có thể mã hóa bởi ít bit hơn. Đây là cơ sở của phƣơng pháp mã hóa từ điển do
Lempel-Ziv đƣa ra và có cải tiến vào năm 1977, 1978 và do đó có tên gọi là phƣơng
pháp nén LZ77, LZ78. Năm 1984, Tery Welch đã cải tiến hiệu quả hơn và đặt tên là
LZW (Lempel-Ziv-Welch).
- Độ dƣ thừa vị trí:
Do sự phụ thuộc l n nhau của dữ liệu, đôi khi biết đƣợc ký hiệu (giá trị) xuất
hiện tại một vị trí, đồng thời có thể đoán trƣớc sự xuất hiện của các giá trị ở các vị
trí khác nhau một cách phù hợp. Chẳng hạn, ảnh biểu diễn trong một lƣới hai chiều,
một số điểm ở hàng dọc trong một khối dữ liệu lại xuất hiện trong cùng vị trí ở các
hàng khác nhau. Do vậy, thay vì lƣu trữ dữ liệu, ta chỉ cần lƣu trữ vị trí hàng và cột.
Phƣơng pháp nén dựa trên sự dƣ thừa này gọi là phƣơng pháp mã hóa dự đốn.

Số hóa bởi trung tâm học liệu

/>

7

1.1.1.4 Nén dữ liệu
Nhu cầu trao đổi dữ liệu giữa mọi ngƣời ngày một tăng, dữ liệu chúng ta

muốn chia sẻ, trao đổi ngày một lớn hơn, phức tạp hơn và đa dạng hơn. Thông
thƣờng, hầu hết dữ liệu trong máy tính có rất nhiều thơng tin dƣ thừa. Để giải quyết
vấn đề này, các phƣơng pháp và kỹ thuật nén dữ liệu liên tục đƣợc đề xuất và phát
triển. Mục đích chung của các kỹ thuật nén dữ liệu là giảm kích thƣớc của dữ liệu
gốc nhằm giúp cho việc xử lý dữ liệu nhanh hơn (nhƣ sao chép, di chuyển, tải lên,
tải xuống, …).
Trong khoa học máy tính và lý thuyết thông tin n n dữ liệu là q trình mã
hóa thơng tin bằng cách sử dụng ít bit hơn biểu diễn đã đƣợc mã hóa qua việc sử
dụng các lƣợc đồ nén riêng biệt.
Vấn đề là cần bao nhiêu bit? Điều này phụ thuộc vào thuật toán và sự dƣ
thừa dữ liệu. Các dữ liệu khác nhau đòi hỏi các kỹ thuật khác nhau để xác định sự
dƣ thừa và loại bỏ dƣ thừa dữ liệu. Rõ ràng điều này làm cho việc nén dữ liệu trở
nên khó khăn hơn khi tìm ra một thuật tốn nén chung.
Khơng có thuật tốn nào hồn hảo để giải quyết các vấn đề về nén dữ liệu.
Trong các nghiên cứu về nén dữ liệu, về bản chất chúng ta cần phân tích các đặc
tính của dữ liệu cần nén và tìm ra đƣợc các m u đại diện phù hợp nhất thay thế cho
các dữ liệu này. Điều này làm phong phú thêm cho các mơ hình và kỹ thuật nén dữ
liệu đã đƣợc đƣa ra.
Nén dữ liệu có nhiều ứng dụng trong các lĩnh vực:
 Các hệ thống truyền thông cá nhân: Fax, thƣ thoại (voice mail) và điện thoại.
 Các hệ thống máy tính: Cấu trúc bộ nhớ, đĩa và băng.
 Tính tốn di động
 Các hệ thống máy tính phân tán
 Mạng máy tính, đặc biệt là Internet
 Sự phát triển đa phương tiện, hình ảnh, xử lý tín hiệu
 Lưu trữ hình ảnh và hội nghị truyền hình
 Tivi kỹ thuật số và truyền hình vệ tinh …

Số hóa bởi trung tâm học liệu

/>

8

Nén dữ liệu có liên quan đến các ngành khoa học nhƣ:
 Lý thuyết thơng tin
 Lý thuyết mã hóa
 Mạng máy tính và viễn thơng
 Xử lý tín hiệu kỹ thuật số
 Xử lý ảnh
 Đa phương tiện
 Bảo mật máy tính
…
Nén dữ liệu liên quan đến hai cơng việc: Cơng việc đầu tiên đƣợc gọi là mã
hóa, đó là quá trình ánh xạ dữ liệu gốc thành dãy nhị phân (dữ liệu đã đƣợc mã
hóa). Cơng việc thứ hai là giải mã, đó là q trình xử lý ngƣợc để khôi phục dữ liệu
gốc từ dãy nhị phân.
1.1.1.5 Quá trình nén và giải nén
Quá trình nén và giải nén dữ liệu đƣợc thể hiện qua mơ hình:
Compression
Algorithm

File input

Compressed File output

Decompression
Algorithm

Compressed File input

Decompressed File output

Hình 1.4: Quá trình n n và giải n n

Tuy nhiên đối với các trình duyệt cho việc trình diễn các file multimedia
trong mơi trƣờng mạng, ngƣời ta thƣờng kết hợp các thuật toán nén ở server và giải
nén ở client theo mơ hình sau:

Multimedia file

Compression
Algorithm

Net

Decompression
Algorithm

Display File

Hình 1.5: Q trình truyền file multimedia trên mạng

Số hóa bởi trung tâm học liệu

/>

9

1.1.1.6 Tỷ lệ nén

Tỷ lệ nén là một trong những thông số quan trọng nhất của mọi phƣơng pháp
nén. Tỷ lệ nén dữ liệu đƣợc định nghĩa là tỷ lệ giữa kích thƣớc nén và kích thƣớc
khơng nén.
Tỷ lệ nén =

Kích thƣớc nén

 100%

Kích thƣớc khơng nén

Hiệu suất của nén = (1- tỷ lệ nén)  100%
Tuy nhiên, tỷ lệ nén cao chƣa phải là tất cả để đánh giá hiệu quả của một
phƣơng pháp nén. Bởi vì cịn có các yếu tố khác nhƣ: chi phí về thời gian, khơng
gian (bộ nhớ tạm trong q trình nén và giải nén) và cả độ phức tạp tính tốn.

1.1.2 Phân loại các phƣơng pháp nén dữ liệu
Dựa vào tính chất dữ liệu đƣợc lƣu trữ, ta có thể sử dụng phƣơng pháp nén
phù hợp để có kết quả nén tƣơng đối tốt.
Có hai phƣơng pháp nén dữ liệu là nén dữ liệu có hao hụt (lossy
compression) và nén khơng hao hụt (lossless compression). Thực tế thì cả hai
phƣơng pháp nén đều cho ra kết quả tƣơng tự nhau. Bởi khi nén có hao hụt ta
thƣờng tìm những dữ liệu ít cần thiết để loại bỏ nên bằng mắt thƣờng hầu nhƣ ta
khơng nhận ra việc hao hụt đó.
1.1.2.1 Nén c hao hụt
Nén có hao hụt là phƣơng pháp nén mà khơng lấy lại đƣợc dữ liệu nguyên
bản khi giải nén. Nguyên tắc của phƣơng pháp nén này là khi nén chúng ta cần tìm
ra những đoạn dữ liệu dƣ thừa hoặc có ít tác dụng nhất để loại bỏ đi. Điển hình của
ứng dụng phƣơng pháp này trong thực tế là nén các dữ liệu multimedia nhƣ ảnh,
phim, âm thanh,…

Hình 1.6: N n có hao hụt (lossy compression)

Số hóa bởi trung tâm học liệu

/>

10

Có nhiều giải thuật đƣợc đặt ra để đáp ứng yêu cầu giảm thiểu kích thƣớc
của file sao cho v n duy trì đƣợc chất lƣợng ở mức độ chấp nhận đƣợc. Những giải
thuật này đều dựa trên nền tảng là loại bớt những thông tin mà thị giác và thính giác
của con ngƣời khơng hoặc khó cảm nhận đƣợc, chỉ giữ lại những thơng tin thực sự
ảnh hƣởng tích cực lên khả năng cảm nhận của con ngƣời. Chính vì vậy, các phần
dữ liệu dƣ thừa hoặc các phần dữ liệu khơng làm cho thị giác và thính giác nhận ra
đƣợc sẽ bị loại bỏ. Tỷ lệ nén tỷ lệ nghịch với chất lƣợng nén. Tỷ lệ nén càng cao thì
chất lƣợng nén càng thấp và ngƣợc lại.
1.1.2.2 Nén không hao hụt
Phƣơng pháp nén không hao hụt yêu cầu dung lƣợng của dữ liệu kết quả phải
nhỏ hơn dữ liệu gốc với tỉ lệ chấp nhận đƣợc và không đƣợc hao hụt dữ liệu. Việc
nén dữ liệu đƣợc thực hiện bằng cách tìm những đoạn dữ liệu giống nhau và quy
định chúng thành các ký hiệu, đƣa chúng vào một “từ điển” và sử dụng chúng để
giảm độ lớn của dữ liệu.

Hình 1.7: N n khơng hao hụt (lossless compression)

Nén không hao hụt đạt hiệu quả nén nhỏ, chỉ phù hợp cho các file nhỏ cũng
nhƣ những file có nội dung quan trọng. Quá trình nén và giải nén là quá trình thuận
nghịch, thƣờng đƣợc áp dụng cho text, file thực thi…
Phƣơng pháp nén này thƣờng đƣợc dùng để nén dữ liệu với mục đích lƣu trữ

hoặc truyền tải chúng qua lại nhanh hơn (kích thƣớc dữ liệu nhỏ hơn), tiện lợi hơn
(chỉ việc truyền tải một tệp tin).
Đối với loại nén khơng tổn hao có 3 phƣơng pháp nén, đó là: Run-Length, từ
điển và thống kê (entropy)

Số hóa bởi trung tâm học liệu

/>

11

 Mã hóa Run-lenght (RLE)
Đối với một số loại tập tin, dữ liệu giống nhau lặp đi lặp lại nhiều lần và có
thể lƣu trữ liên tục nhau. Dựa vào đặc điểm này, ta có thể định nghĩa lại dữ liệu lƣu
trữ bằng cách thay các lần xuất hiện liên tục giống nhau bằng 1 con số thể hiện số
lần xuất hiện đi với dữ liệu gốc, dĩ nhiên là chỉ áp dụng với các dữ liệu có số lần
xuất hiện liên tục >2.
Ví dụ: xét chuỗi
AAABBBAABBBBBAADCDCCCCCCCDAAABBBBCCC
Ta có thể thay: 3A3BAA5BAADCD7CD3A4B3C
Các file ảnh bitmap, ảnh đen trắng phù hợp cho kiểu nén này. Các file chứa
dữ liệu số không phù hợp cho phƣơng pháp nén RLE.
 Mã hóa Từ điển (mã hóa LZW)
Phƣơng pháp nén LZW đƣợc phát minh bởi Lempel - Zip và Welch. Nó hoạt
động dựa trên một ý tƣởng rất đơn giản là ngƣời mã hoá và ngƣời giải mã cùng xây
dựng bản mã. Đó là gom lại các phần giống nhau của dữ liệu đƣa vào từ điển rồi tối
giản hố nó. Dùng 1 mảng làm từ điển với nguyên tắc: từ điển đầu tiên là gồm tất cả
các ký tự đơn, sau đó khi các byte dữ liệu cần nén đƣợc đem đến, chúng liền đƣợc
giữ lại trong một bộ đệm và đem so sánh với các chuỗi đã có trong "từ điển". Nếu
chuỗi dữ liệu trong bộ đệm khơng có trong "từ điển" thì nó đƣợc bổ sung thêm vào

"từ đi�ûi trung tâm học lieäu

28.27

/>

54

Các kết quả cho thấy rằng, mơ hình nén BW_MTF_AC có tỷ lệ nén trung
bình tốt nhất trong 4 mơ hình và đạt xấp xỉ với Winrar.
Đối với các file văn bản (file alice29.txt, asyoulik.txt, lcet10.txt, plrabn12.txt)
đạt đƣợc kết quả tốt nhất với BW_MTF_AC, tốt hơn cả trình nén thƣơng mại
Winrar và có hiệu suất nén cao hơn các file (*.c, *.html)…
Bảng 3.5: T lệ n n theo % v i Canterbury Corpus l n
Mơ hình

HUFFMAN

AC

BW_MTF_H

E.coli

25.0090

25.0277

24.9104

24.8917

28

bible.txt

54.8295

54.3122

25.2365

24.7192

24

world192.txt

63.0494

62.5052

22.5349

21.9907

21

T un

47.6293

47.2817

24.2272

23.8672

24.33

File

nh

BW_MTF_AC

WINRAR

Với các file lớn của Lukas Corpus, mơ hình BW_MTF_AC đạt đƣợc tỷ lệ
nén trung bình tốt nhất, tiếp theo là BW_MTF_H. Với các file lớn, hiệu suất nén
của các file càng cao bởi BWT khơng giống nhƣ các mơ hình nén dữ liệu khác là xử
lý văn bản theo từng ký tự một. Ở đây, BWT thƣờng đọc một khối văn bản (thƣờng
là hàng trăm KB đến hàng nghìn KB) và sau đó biến đổi nó để nén.
Bảng 3.6: T lệ n n theo
Mơ hình

HUFFMAN

AC

BW_MTF_H

File1.docx

102.7082

97.0119

96.2747

95.5784

90

File2.doc

74.3805

72.0952

49.3474

48.0621

38

File3.xls

50.6575

48.2646

23.5166

22.1237

17

File4.ppt

87.9730

87.3938

64.7343

64.1551

51

File5.chm

95.5532

92.6450

88.6876

86.7794

77

File6.pdf

100.0006

98.6217

95.6779

94.2990

88

File7.cpp

61.0432

59.0402

27.0495

25.0465

23

File

Số hóa bởi trung tâm học liệu

BW_MTF_AC

WINRAR

/>

55

File8.jpg

102.4900

99.7800

99.5907

99.3807

98

File9.bmp

96.8112

96.3841

44.5747

44.1476

28

File10.exe

74.3842

73.5097

47.4448

46.5703

36

File11.xlsx

100.1437

99.8892

99.6104

99.3559

97

84.0577

66.9553

65.9544

58.4545

T un

nh

86.0132

Với kết quả thực nghiệm trong bảng 3.6, ta dễ dàng nhận thấy các file
Powerpoint, CHM, PDF, JPG cho hiệu suất nén rất thấp. Đặc biệt là file JPG kết
quả nén gần nhƣ không giảm.
Đối với những file văn bản mà tần số xuất hiện của các kí tự khơng q
chênh lệch và có bộ kí tự nguồn lớn thì tác dụng nén dữ liệu của mã Huffman là
khơng đáng kể.
Kết quả thực nghiệm từ 3 bảng 3.4, 3.5, 3.6 đều cho ta một kết quả duy nhất
là dữ liệu sau khi qua các phép biến đổi sơ bộ rồi mới thực hiện thuật toán nén đạt
tỷ lệ nén tốt hơn nhiều lần so với thực hiện riêng thuật tốn nén và đạt xấp xỉ so với
trình nén thƣơng mại Winrar.

Th i gian nén và giải nén
Các kết quả thời gian chạy đƣợc tính bình qn trên lần 10 thực hiện đƣợc đo
giây

theo

trên

chip

Intel®

Core™2

Duo

Processor

T6570

(2M Cache, 2.10 GHz, 800 MHz FSB); RAM 2 GB chạy trên WINDOWS XP SP3.
Bảng 3. : Th i gian n n và giải n n theo giây v i Canterbury Corpus
Mơ hình
File

Nén

Giải nén

HUFF

AC

B_M_H

B_M_A

HUFF

AC

B_M_H

B_M_A

alice29.txt

0.3593

0.1093

0.1249

0.0156

0.0781

0.1093

0.0558

0.0781

asyoulik.txt

0.3281

0.0937

0.1249

0.0312

0.0625

0.0937

0.0521

0.0781

cp.html

0.0937

0.0156

0.0321

0.0000

0.0312

0.0156

0.0624

0.0312

fields.c

0.0625

0.0000

0.0156

0.0156

0.0156

0.0156

0.0156

0.0156

grammar.lsp

0.0312

0.0000

0.0125

0.0000

0.0000

0.0000

0.0000

0.0000

Số hóa bởi trung tâm học liệu

/>

56

kennedy.xls

1.9687

0.2656

0.2062

0.1406

0.2031

0.3281

0.1837

0.2968

lcet10.txt

0.8750

0.1875

0.1343

0.0468

0.1093

0.3437

0.0497

0.1562

plrabn12.txt

1.0000

0.2500

0.1968

0.0468

0.125

0.25

0.1094

0.2187

sum

0.1875

0.0156

0.0312

0.0156

0.0156

0.0312

0.0078

0.0156

xargs.1

0.0312

0.0000

0.0156

0.0000

0.0000

0.0000

0.0000

0.0000

4.9372

0.9373

0.8941

0.3122

0.6404

1.1872

0.5364

0.8903

Tổn

Các kết quả thực nghiệm trong bảng 3.7 cho thấy rằng thời gian nén và giải
nén của các phƣơng pháp mã hóa dữ liệu là tƣơng đối nhanh (hầu hết đều chƣa đến
1 giây).
Bảng 3. : Th i gian n n và giải n n theo giây v i Canterbury Corpus l n
Mơ hình
File

Nén

Giải nén

HUFF

AC

B_M_H

B_M_A

HUFF

AC

B_M_H

B_M_A

E.coli

8.1718

2.1406

1.9093

0.4687

0.4062

1.8906

0.3089

1.4375

bible.txt

7.7031

1.9062

1.5655

0.3593

0.5156

1.6406

0.3437

1.0937

world192.txt

4.7812

1.1406

1.1437

0.2031

0.4062

1.0000

0.2729

0.6718

Tổn

20.656

5.1874

4.6185

1.0311

1.328

4.5312

0.9255

3.203

Với file có dung lƣợng lớn thì mã hóa Huffman mất nhiều thời gian do việc
tìm bộ kí tự nguồn và tần suất xuất hiện của chúng tốn nhiều chi phí.
Bảng 3. : Th i gian n n và giải n n theo giây
Mơ hình
File

Nén

Giải nén

HUFF

AC

B_M_H

B_M_A

HUFF

AC

B_M_H

B_M_A

File1.docx

0.1250

0.0312

0.0468

0.0156

0.0312

0.0156

0.0936

0.0468

File2.doc

0.2812

0.0625

0.0781

0.0156

0.0468

0.0781

0.0468

0.0781

File3.xls

0.2031

0.0312

0.0312

0.0000

0.0468

0.0312

0.0468

0.0312

File4.ppt

2.2187

0.5781

0.758

0.3593

0.2656

0.5625

0.3172

0.6718

File5.chm

0.2187

0.0625

0.0937

0.0312

0.0312

0.0468

0.0625

0.0937

File6.pdf

0.4218

0.1875

0.1656

0.0781

0.0625

0.1562

0.0875

0.2187

File7.cpp

0.1250

0.0312

0.0312

0.0000

0.0312

0.0156

0.0936

0.0468

File8.jpg

0.2031

0.0781

0.1406

0.0625

0.0312

0.0781

0.0437

0.1093

Số hóa bởi trung tâm học liệu

/>

57

File9.bmp

2.9843

0.8906

0.7337

0.2187

0.3125

0.875

0.1506

0.4218

File10.exe

0.5937

0.1875

0.1875

0.0468

0.25

0.1718

0.3182

0.2187

File11.xlsx

1.6718

0.5625

0.3581

0.4531

0.2187

0.5312

0.2959

0.7187

9.0464

2.7029

2.6245

1.2809

1.3277

2.5621

1.5564

2.6556

Tổn

- Trong hầu hết các trƣờng hợp, BW_MTF_AC đạt đƣợc tốc độ nén tốt nhất.
- Tốc độ giải nén của mã hóa Huffman tốt hơn nhiều lần so với tốc độ giải
nén của mã hóa số học.

3.3 So sánh và đánh giá kết quả thử nghiệm
 Từ các bảng kết quả trên, có một s nhận xét nhƣ sau:
 Mơ hình nén kết hợp đạt đƣợc tỷ lệ nén tốt, tốc độ cao.
 Các file text có tỉ lệ nén tốt nhất.
 Các file pdf, jpg cho tỷ lệ nén rất ít, kết quả nén gần nhƣ khơng giảm;
 Với các file lớn, nhiều dữ liệu nên tìm thấy nhiều sự dƣ thừa d n đến chiếm
nhiều bộ nhớ tạm trong quá trình nén và giải nén nên hiệu suất kém hơn.
 Nén Huffman, AC chỉ đạt đƣợc 40
 Nén kết hợp đạt đƣợc 95

so với nén kết hợp.

so với trình nén thƣơng mại Winrar.

 Với các dữ liệu lớn đạt hiệu suất nén cao nhƣng mất nhiều thời gian nén và
giải nén hơn.

3.4 Kết luận và hƣớng phát triển tiếp
4 Kết luận:
Với việc áp dụng thuật toán BWT rồi MTF để sơ chế dữ liệu trƣớc khi áp
dụng thuật tốn nén để có kết quả nén tốt hơn. Từ đó ta thấy tính chất của dữ liệu
đầu vào đóng vai trị quan trọng đối với các thuật tốn nén.
Kết quả nén theo lƣợc đồ BWT-MTF-EC có kết quả gần tƣơng đƣơng với
phần mềm thƣơng mại Winrar đang đƣợc sử dụng tƣơng đối rộng rãi hiện nay.
Việc cải tiến thuật tốn MTF làm giảm đƣợc chi phí tính tốn trong quá trình
thực hiện phép chuyển đổi MTF đặc biệt là q trình mã hóa.

Số hóa bởi trung tâm học liệu

/>

Nén dữ liệu kết hợp với các phương pháp biến đổi sơ bộ dữ liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về