Tải bản đầy đủ (.doc) (85 trang)

Các thuật toán nén dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (808.56 KB, 85 trang )

36TRƯỜNG ĐẠI HỌC HẢI PHÒNG
KHOA TOÁN - TIN

--- ---

Sinh viên: Vũ Thị Hạnh
Lớp Đại học Tin K5A

TÊN ĐỀ TÀI

MỘT SỐ PHƯƠNG PHÁP NÉN DỮ LIỆU VÀ ỨNG DỤNG
(Khóa luận tốt nghiệp)

Người hướng dẫn khoa học: Lê Đắc Nhường
Th.S Cao Minh Tâm


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

HI PHềNG - 2008

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

2


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng



Lời cảm ơn
Sau quỏ trỡnh thc hin, lun vn ó c hon thnh v ỏp ng c nhng mc
ớch ra. Lun vn l ti liu tham kho quan trng cho hc sinh, sinh viờn mun tỡm
hiu v cỏc phng phỏp nộn d liu v ng dng ca vic nộn d liu c bit trong
truyn tin.
Thnh qu trờn cú c nh s n lc ca bn thõn bờn cnh s hng dn, úng
gúp ý kin ht sc ca cỏc thy giỏo, cụ giỏo v cỏc bn. Vi nhng li u tiờn ca khúa
lun em mun gi li cm n chõn thnh nht v nhng úng gúp ú.
Em xin by t lũng bit n sõu sc n Thy Lờ c Nhng, Cụ Cao Minh Tõm
giỏo viờn hng dn ó tn tỡnh giỳp trong sut thi gian thc hin khoỏ lun. Vi s
ch bo ca thy cụ, em ó cú nh hng tt trong vic trin khai, thc hin v hon
thnh khoỏ lun vi kt qu tt nht.
Em xin gi li cm n n ban ch nhim Khoa Toỏn Tin - Trng i Hc Hi
Phũng cựng ton th cỏc thy giỏo, cụ giỏo trong t tin ó giỳp v trang b cho em
nhng kin thc c bn nht em cú th hon thnh khoỏ lun ny.
Cui cựng em xin by t lũng bit n ti gia ỡnh, bn bố ó quan tõm, ng viờn v
c v em trong sut quỏ trỡnh hc tp v thc hin khoỏ lun.
Hi Phũng, ngy 27 thỏng 5 nm 2008
Sinh viờn: V Th Hnh

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

3


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng


MC LC
1.2.2. nh ngha mó húa d liu...................................................................................8
2.1. Mụ hỡnh thng kờ tnh...............................................................................................24
2.2. Mụ hỡnh thng kờ ng.............................................................................................25
2.3. Mt s mó nộn c bn...............................................................................................26
2.3.1. Mó Fano Shannon...........................................................................................26
2.3.1.1. Mó Fano...............................................................................................................26
2.3.1.2 Mó Shannon.........................................................................................................27
2.3.2. Mó Huffman...........................................................................................................28
2.3.2.1. Phng phỏp ......................................................................................................28
2.3.3. Lu gii mó Fanon, Shannon, Huffman.......................................................38
2.3.4.2. Thut toỏn....................................................................................................41
A. Quỏ trỡnh mó hoỏ.................................................................................................41
Quỏ trỡnh gii mó: Chng trỡnh c tng cp mó v nhõn kớ t nhn c vi s
ln lp li v a ra xõu gii mó..............................................................................42
2.3.4.3. Bin phỏp ci tin...................................................................................42
3.2. K thut t in..........................................................................................................51
3.2.1. Nguyờn lý LZ.....................................................................................................51
3.2.2. T in...............................................................................................................52
3.2.2.1. Mó vi t in tnh......................................................................................52
3.2.2.2. Mó vi t in ng....................................................................................53
3.2.3. Quỏ trỡnh thc hin khi nộn bng mó LZ..........................................................53
3.2.4. Cỏc thut toỏn nộn LZ........................................................................................54
3.2.4.1. Thut toỏn LZ77.........................................................................................54
3.2.4.2. Thut toỏn LZ78.........................................................................................56
3.2.4.3. Thut toỏn LZW..........................................................................................63

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

4



Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

Lời nói đầu
Ngy nay, cựng vi s phỏt trin khụng ngng ca khoa hc v cụng ngh thỡ
mỏy tớnh úng vai trũ khụng th thiu trong cuc sng xó hi loi ngi. Vic trao i
thụng tin ca con ngi trong tt c cỏc ngnh, cỏc lnh vc ca i sng ngy cng
tr nờn cp thit v quan trng, chớnh vỡ th m cỏc thit b thụng tin mi liờn tc ra
i nhm ỏp ng cỏc yờu cu ny. Tuy nhiờn, vỡ mt s phn mm ũi hi rt nhiu
b nh hot ng trao i thụng tin nờn ngi ta ó ngh ra mt phng phỏp nhm
gii quyt vn ny, ú l phng phỏp nộn d liu m vn bo ton thụng tin.
Nộn d liu l mt phn ni dung rt quan trng ca tin hc. K thut nộn d liu
ó thỳc y quỏ trỡnh phỏt trin ca tin hc v ang ngy cng c nghiờn cu v ci
thin. Kh nng thc tin ca nộn d liu rt to ln, ch yu l trong lnh vc thụng tin
liờn lc v trong vic gim khụng gian lu tr, ngha l lm gim s byte phi s dng
lu tr tp tin ú. Hn na, nộn d liu cũn l mt k thut quan trng trong rt
nhiu lnh vc khỏc nhau. Chớnh nh cú k thut nộn d liu m ngy nay chỳng ta cú
nhng phng tin truyn thụng hin i phc v cho cuc sng nh truyn hỡnh cỏp,
in thoi, th in t,... v rt nhiu khớa cnh khỏc. Do ú k thut nộn d liu ngy
cng c quan tõm v phỏt trin nhiu hn.
Lun vn ca em mun cp n mt s khỏi nim v mó nộn d liu v c
bit l mt s phng phỏp v nộn d liu, trong mi phng phỏp li a ra mt thut
toỏn nộn d liu theo mt trt t: gii thớch nguyờn tc v ỏp dng vi mt vớ d c
th.
Lun vn c gii thiu c bn trong 4 chng:
Chng I: Tng quan v nộn d liu
Chng II: Mụ hỡnh thng kờ

Chng III : Mụ hỡnh t in
Chng IV: Chng trỡnh ng dng bng phng phỏp Huffman.

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

5


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

õy l mt ti khú v phc tp, vi thi gian cú hn v vi qui mụ ca mt lun
vn cui khúa nờn khụng trỏnh c nhng thiu sút. Em rt mong nhn c s úng
gúp ý kin t cỏc thy giỏo, cụ giỏo v cỏc bn chng trỡnh ngy cng hon thin hn.

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

6


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

CHNG 1. KHI QUT V NẫN D LIU
1.1. Mc ớch ca nộn d liu

Mỏy tớnh cú chc nng chớnh l x lý v lu tr d liu. Ngoi vic x lý nhanh
ngi ta cũn quan tõm n vic lu tr c nhiu d liu nhng li tit kim c vựng

nh v gim chi phớ lu tr. Trờn lý thuyt thỡ cỏc thit b lu tr l khụng cú gii hn
nhng ngy ny do nhu cu x lý nhiu tp tin, nhiu loi d liu trong cựng mt tp do
vy m kớch thc tp tr nờn khỏ ln.
Nhiu nm gn õy, mng mỏy tớnh ó tr nờn ph bin trờn th gii. S ra i ca
mng ó thc hin c c m chinh phc khong cỏch gia con ngi. Nhng li ớch
m mng cung cp rt a dng v phong phỳ trờn cỏc lnh vc khỏc nhau ca xó hi nh
cung cp, trao i thụng tin gia cỏc mỏy tớnh, gia mỏy tớnh vi server hoc gia cỏc
server vi nhau. Do ú phi lm th no gim thiu thi gian, chi phớ s dng trao
i d liu trờn mng. Tc l bờn cnh vic nõng cao cht lng ca cỏc thit b truyn d
liu trờn mng thỡ chỳng ta phi ngh ra mt phng phỏp no ú cho vic truyn d
liu cú hiu qu hn.
Do ú tt c cỏc vn trờn ny sinh ra khỏi nim nộn d liu. Mt trong nhng hỡnh
thc nộn d liu u tiờn l h ch Braille, l mt h ch dựng phng phỏp mó húa ký
hiu cho ngi mự cú th c v vit. Ngy ny nộn d liu mang li rt nhiu li ớch
khỏc nhau nh:
Nộn d liu nhm mc ớch gim bt kớch thc d liu.
-

Trong vic tỡm kim thụng tin: Khi nộn vic tỡm kim nhanh hn vỡ d liu lu
tr ớt nờn s phộp toỏn tỡm gim v lng thụng tin cao.

-

Trong vic truyn d liu trờn mng: Tc ng truyn s tng lờn vỡ cựng
mt lng thụng tin ú thi gian truyn d liu gim. Hn na, khi nộn d
liu thỡ chi phớ cho vic truyn s gim.

-

Trong vic an ton thụng tin: Khi nộn d liu thỡ an ton cao hn.


Mc dự nộn d liu tit kim chi phớ v thit b lu tr v thun li cho vic chuyn
thụng tin. Nhng vi cỏc loi thụng tin khỏc nhau v k thut nộn khỏc nhau thỡ hiu qu
cng khỏc nhau. Vỡ vy, tu theo d tha ca d liu m ỏp dng phng phỏp nộn
cho phự hp.
Mt s vn gp phi khi nộn d liu l:
Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

7


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

-

Cỏc thut toỏn thc hin trc ht phi gim chi phớ lu tr.

-

Cỏc thut toỏn c thc hin nhanh, hiu qu.

Tuy nhiờn nhng s o ca phng phỏp nộn ch cú giỏ tr vi chớnh phng phỏp
ú, vỡ rng hiu qu ca mt phng phỏp nộn cũn ph thuc vo kiu d liu nh nộn.
Nhiu khi t l nộn cao cng cha th núi phng phỏp ú hiu qu hn mt phng
phỏp khỏc vỡ cũn chi phớ v thi gian, khụng gian, phc tp tớnh toỏn.
Vi nhiu loi thụng tin khỏc nhau m ta cú cỏc k thut nộn khỏc nhau, cú hiu qu
khỏc nhau, vớ d nh nộn tp vn bn thng tit kim 20% ữ 50%, cũn i vi tp nh
phõn khong 50% ữ 90%. Tuy nhiờn i vi cỏc tp tin ngu nhiờu thỡ lng khụng gian

tit kim c rt ớt hoc hu nh khụng tit kim c (vớ d nh tp *.exe).
1.2. Mt s khỏi nim v mó nộn d liu
1.2.1. D liu

Trong mt bi toỏn, d liu bao gm mt tp cỏc phn t c s m ta gi l d liu
nguyờn t. Nú cú th l mt ch s, mt ký t, ... nhng cng cú th l mt con s, mt
t,... iu ú ph thuc vo tng bi toỏn.
1.2.2. nh ngha mó húa d liu

nh ngha 1.2.2.1. Mó hoỏ
Mó hoỏ d liu X theo b mó M l phộp ỏnh x 1:1 bin i mt ký hiu x i X
thnh mt t hp cỏc ký hiu ca b mó M.
D liu X = {x1, x2, , xn}
B mó M = {m1, m2, , mk}
Trong ú, k l c s ca b mó. Nu k = 2 l mó nh phõn, k = 10 l mó thp phõn, k
= 16 l mó thp lc phõn.
Nu xi c mó hoỏ thnh:
xi mr1mr2mrl
Khi ú mr1mr2mrl c gi l t mó mó hoỏ xi. õy l l s ký hiu ca b mó
dựng biu din xi, l c gi l di t mó.
Vớ d 1.2.2.1.
D liu X = {x1, x2, x3, x4}
B mó nh phõn M = {0, 1}

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

8


Luận văn tốt nghiệp


Một số phơng pháp nén d liu và ứng dụng

Mó hoỏ x1 = 00, x2 = 01, x3 = 10, x4 = 11.
Ta gi tt phộp ỏnh x 1:1 mó hoỏ d liu X trờn l mó.
nh ngha 1.2.2.2. Mó vn bn
Bng ch cỏi l mt tp hp = {a 1, a2, a3, ..., am}. Mi phn t ai ca nú c gi
l ch cỏi hay kớ t. Nu bng ch cỏi ch cú hai ch cỏi thỡ chỳng ta gi cỏc ch cỏi l bớt
v ký hiu l 0/1.
Vn bn l mt dóy gm cỏc ch cỏi ca mt bng ch cỏi. S lng cỏc ch cỏi
c gi l di ca vn bn.
Cho A v B l cỏc tp hp vn bn. Mt song ỏnh f :
f:AB
x f(x) = y
Chỳng ta gi f l ỏnh x mó cỏc vn bn trong tp A thnh cỏc vn bn trong tp B.
Nu tp B gm cỏc vn bn c to ra t cỏc bớt 0/1 thỡ chỳng ta gi loi ỏnh x mó ny
l mó nh phõn. Cỏc vn bn trong tp B c gi l bn mó, cũn vn bn c ngm hiu
l cỏc vn bn trong tp A. Trong cỏc phn sau õy chỳng ta ch s dng mó nh phõn.
Nhn xột :
Mó hoỏ l quỏ trỡnh dựng cỏc kớ hiu mó biu din cỏc tin ca ngun hay
núi cỏch khỏc mó hoỏ l quỏ trỡnh bin i t mt tp tin ny thnh mt tp tin
khỏc cú cỏc c tớnh thng kờ yờu cu
Quỏ trỡnh ngc li ca quỏ trỡnh mó hoỏ l quỏ trỡnh gii mó
T mó (code word) v b mó

T mó l chui kớ hiu mó biu din cho tin ca ngun. Tp tt c cỏc kớ
hiu mó tng ng vi cỏc tin ca ngun c gi l b mó
Vỡ vy cú th núi mó hoỏ l phộp bin i mt - mt gia mt tin ca ngun
v mt t mó ca b mó.
Trong mt s trng hp ngi ta khụng mó hoỏ mt tin ca ngun mó hoỏ

mt bn tin hay mt khi tin. Lỳc ny ta cú khỏi nim mó khi.
Cỏc t mó thng c kớ hiu l u, v, w.
Chiu di t mó, chiờự di trung bỡnh
Chiu di t mó l s kớ hiu cú trong t mó thng c kớ hiu l l
Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

9


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

Chiu di trung bỡnh ca b mó thng c kớ hiu l l
n

l =

p ( x
i =1

i

)l i

Trong ú n l s tin ca ngun, li l chiu di t mó tng ng vi tin xi ca ngun .
Vớ d 1.2.2.2. Mó hoỏ chui kớ t sau AAAABBCD c cỏc t mó tng ng: A - 1 ; B
01 ; C 001 ; D 000;
Xỏc sut xut hin cỏc kớ t ln lt l 0,5 ; 0,25 ; 0,125 ; 0,125
Theo cụng thc:

l =

n

p( x
i =1

i

)l i

Chiu di trung bỡnh ( Lng bit trung bỡnh) ca t mó l :
l = 1 x 0,5 + 2 x 0,25 + 3 x 0,125 +3 x 0.125 = 1,75 bit/ T mó.
1.2.3. Nộn d liu

Nộn d liu thc cht l mt hỡnh thc mó húa d liu ghi li dũng d liu sao cho tn
ớt b nh hn m li cho phộp chỳng ta khụi phc li d liu ban u.
Khỏi nim nộn d liu:
Nộn l mt quỏ trỡnh gim lng khụng gian cn thit biu din cựng mt lng
thụng tin cho trc. Ngi ta cũn gi nộn l bin i mt lung ký hiu thnh mt lung
cỏc t mó. Quỏ trỡnh nộn nh sau:

Vn bn
Mụhỡnh
hỡnh
Mụ
Móhoỏ
hoỏ

Bn mó

Trong ú:
-

Vn bn l vn bn ban u cn nộn.

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

10


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

-

Mụ hỡnh l tp hp cỏc ch cỏi cựng quy tc c s dng x lý cỏc ch cỏi
vo v a ra cỏc t mó. Mt mụ hỡnh s xỏc nh chớnh xỏc xỏc sut xut hin
ca tng ch cỏi v mt b mó s to ra cỏc t mó da trờn xỏc sut ú.

-

Mó hoỏ l ch quỏ trỡnh thay th cỏc ch cỏi trong vn bn ban u bng cỏc t
mó tng ng a ra bn mó chớnh xỏc.

Nh vy, quỏ trỡnh nộn din ra nh sau: quỏ trỡnh mụ hỡnh cn c vo vn bn cn
nộn s to ra cỏc t mó. Sau ú, t b t mó va to c v vn bn ban u quỏ trỡnh
nộn s a ra bn mó.
Mó hoỏ v mụ hỡnh l hai giai on hon ton khỏc nhau vỡ trong giai on mụ hỡnh
cú rt nhiu cỏch x lý cỏc ch cỏi ca vn bn m cựng s dng mt phng phỏp

xõy dng mó cho ra cỏc t mó.
Nu bn mó cú kớch thc nh hn vn bn thỡ phng phỏp nộn ú cú hiu qu.
Vớ d 1.3.2.1.1. Chỳng ta s dng cựng phng phỏp mó Huffman cho hai mụ hỡnh
khỏc nhau:
Mụ hỡnh 1: da trờn xỏc sut c lp ca tng ch cỏi xut hin bt kỡ trong vn bn.
Mụ hỡnh 2: cn tớnh c xỏc sut ph thuc da trờn nhng ch cỏi nhn c lỳc
ú trong vn bn.
Do mụ hỡnh khỏc nhau nờn cựng s dng mó Huffman a ra t mó nhng hiu
qu nộn ca chỳng rt khỏc nhau. Tuy nhiờn, chỳng ta vn quen dựng t mó hoỏ ch
cho c quỏ trỡnh nộn vn bn mc dự ú ch l mt giai on ca mt quỏ trỡnh nộn. Ngi
ta thng mó hoỏ thụng qua cỏc t mó ca mt bng ch cỏi no ú.
Cú th cú nhiu thut toỏn nộn d liu khỏc nhau. Mi thut toỏn cú mt kiu d liu
nht nh v cựng mt s modem cú c im nộn thớch ng cú ngha l chỳng cú kh
nng chn thut toỏn nộn thớch hp ph thuc vo kiu d liu cn nộn. Trong s cỏc cỏch
mó thỡ cỏch no mó ngn hn chỳng ta núi l nú nộn tt hn (so vi cỏch mó khỏc).
1.2.4 T l nộn

T l nộn l mt trong cỏc c trng quan trng ca mi phng phỏp nộn. T l nộn
c nh ngha nh sau:
T l nộn = (1/ H s nộn)
Trong ú:
H s nộn =

Dung lng ca d liu gc
Dung lng ca d liu nộn

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

11



Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

Nh vy:
Hiu qu nộn = (1 - t l nộn)

(tớnh bng %)

Nhng s o ca mt k thut nộn ch cú giỏ tr vi chớnh k thut nộn ú, vỡ rng
hiu qu ca nộn cũn ph thuc vo kiu d liu nh nộn.
T l nộn cng ch l mt trong cỏc c trng c bn ca phng phỏp nộn. Nhiu
khi t l nộn cao cng cha th núi rng phng phỏp ú l hiu qu hn cỏc phng
phỏp khỏc, vỡ cũn cỏc chi phớ khỏc nh thi gian, khụng gian v thm chớ c phc tp
tớnh toỏn na. Vớ d nh nộn phc v trong truyn d liu: vn t ra l hiu qu nộn
cú tng hp vi ng truyn khụng.
Cng cn phõn bit nộn d liu vi nộn bng truyn. Mc ớch chớnh ca nộn l gim
lng thụng tin d tha v dn ti gim kớch thc d liu. Tuy vy, ụi khi quỏ trỡnh nộn
cng lm gim bng truyn tớn hiu s hoỏ, thp hn so vi truyn tớn hiu tng t.
1.2.5. Bit trung bỡnh

Chỳng ta thng dựng trỡnh nộn nộn cỏc file, tc l cỏc vn bn c to ra t
256 byte. Nộn mt file nhiu ln liờn tip thỡ n mt lỳc no ú chỳng ta cng s thu
c mt file m trỡnh nộn ny khụng th thu nh li c na. Bi vỡ, nu khụng chỳng
ta s nộn c file y xung thnh mt file khụng cú bớt no c.
T ú, chỳng ta cú khng nh: Vi mi thut toỏn mó cỏc file vn bn luụn tn ti
mt vn bn m nú khụng th nộn c thnh file cú dung lng nh hn.
T khng nh trờn suy ra khụng th vch nh ra c mt gianh gii rừ rng gia
mt bờn l mó hoỏ v mt bờn l mó nộn. ỏnh giỏ kh nng nộn ca mt thut toỏn

chỳng ta a ra khỏi nim v s bớt trung bỡnh cn thit ghi li mt ch cỏi ca vn
bn.
nh ngha. Bớt trung bỡnh
T s gia di ca bn mó chia cho s cỏc ch cỏi ca vn bn c gi l bớt
trung bỡnh cho mt ch cỏi ca vn bn, hay cũn gi tt l bớt trung bỡnh (hay bớt trung
bỡnh cho tng ch cỏi).
Ký hiu An l tp cỏc vn bn cú di n to ra t cỏc ch cỏi a 1, a2, ..., am. Gi s
chỳng ta cú mt cỏch mó no ú m vn bn An cú bn mó di L() bit. Khi ú chỳng

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

12


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

ta nh ngha bớt trung bỡnh ca cỏch mó ú l giỏ tr

P( ) L( )

An

n

, trong ú P() l xỏc

sut ca vn bn .
Trong mt ngụn ng nht nh, mi vn bn xut hin vi xỏc sut P() no ú.

Trong nh ngha trờn chỳng ta gp mt khú khn l lm th no bit c P(). V
nguyờn tc thỡ xỏc sut ny l ph thuc vo ngi s dng vn bn. Vn bn no hay
c dựng hn thỡ cú xỏc sut xut hin ln hn, vn bn no ớt c dựng hn thỡ cú xỏc
sut xut hin nh hn. Nh vy nh ngha ny bao hm ý tng, cú th nộn c tt
hn thỡ mt vn bn cn phi c mó nộn khụng ph thuc vo vn bn y di hay ngn
m l ph thuc theo xỏc sut m ngi ta s dng nú. Tuy nhiờn cú mt thc t l phn
ln cỏc vn bn lu tr trong kho rt ớt khi c s dng. Nh vy thỡ rt khú xỏc nh
c xỏc sut s dng cỏc vn bn mt khi chỳng ta cha h hoc rt ớt khi c s dng.
Ký hiu xỏc sut xut hin ca cỏc ch cỏi tng ng l p1 = p(a1), p2 = p(a2), ...,
pm=p(am).
Nu s xut hin ca cỏc ch cỏi l ph thuc ln nhau thỡ xỏc sut p() xut hin
vn bn = 12...n cú th s khụng bng p(1) p(2)... p(n). Nh vy, chỳng ta phi i
xõy dng mụ hỡnh mụ t s ph thuc ca cỏc ch cỏi trong mt vn bn vi nhau nh th
no cú th ỏp ng c c 2 yu t:
- Mụ hỡnh phi th hin c s ph thuc.
- Cho phộp c lng gn ỳng xỏc sut xut hin ca vn bn.
1.2.6. Entropy

Entropy l khú trung bỡnh oỏn nhn 1 thụng tin trng thỏi c sinh ra t mụ
hỡnh ngun. Theo Shannon, entropy ca mt ngun thụng tin S c nh ngha:
H(S) = = ipilog2(1/pi)
Trong ú:
- Pi l xỏc sut m ký hiu Si xut hin trong S.
- Log2(1/pi) ch ra s lng thụng tin cha trong S i, ngha l s bit cn thit
mó hoỏ Si.
Entropy (H) cũn l lng bit trung bỡnh ti thiu trờn mt t mó theo lý thuyt
truyn mt thụng ip.
Vớ d 1.2.5.1:
Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A


13


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

Mt chui thụng ip c truyn gia hai mỏy tớnh qua PSTS. Cỏc thụng ip
bao gm ch cỏc kớ t t A n H. Phõn tớch cho thy tn s xut hin mi kớ t nh
sau.
A v B = 0,25 ; C v D = 0,14 ; E, F, G v H = 0,055;
Theo cụng thc Shanon:
Lng bit trung bỡnh ti thiu (Entropy ) trờn mt kớ t l:
H = - (2(0,25 log2 0,25) + 2( 0,14 log2 0,14) + 4(0,055 log2 0,055))
= 2,715 bit/t mó.
Vớ d 1.2.5.2:
Mt hỡnh nh c tụ u vi cựng mt cng mu xỏm, tc l p i = 1/125, thỡ
s bit cn thit mó hoỏ cho mi mc xỏm l 8 bit. Entropy ca hỡnh ny l 8.
1.3.

Mó tng v mó phõn tỏch

1.3.1. Mó tng

nh ngha 1.3.1.1. Vn bn tng
Cho A v B l hai vn bn. Tng ca A + B l mt vn bn mi thu c t A vit
tip B vo bờn phi ca A. Nh vy di ca tng cỏc vn bn l tng ca cỏc di
ca chỳng.





+

à
à

=

à
à

nh ngha 1.3.1.2. Mó tng
Mt mó c gi l mó tng nu nh bn mó ca tng cỏc vn bn l tng cỏc bn
mó.

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

14


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

Văn bản



à

à

+

=

à
à

Bản mã

+

1001010
1001010

=

111000
111000

1001010111000
1001010111000

Trong nh ngha cho mó tng ta ó s dng khỏi nim tng ca cỏc vn bn. Nu
bn mó ca vn bn a l f(a), ca vn bn b l f(b) thỡ bn mó ca ab l f(a)f(b), bn
mó ca ba l f(b)f(a)
.Xột mó tng trờn bng ch cỏi = {a1, a2, ...., am}. Mi ch cỏi a1, a2, ..., am cú t mó
tng ng. T mó ca cỏc ch cỏi xỏc nh ỏnh x f : M, t tp cỏc ch cỏi vo tp
cỏc xõu bớt 0/1. Nh vy vi mi ai , xõu bớt f(ai) l t mó ca ai, di xõu bớt f(ai)

c ký hiu l (ai).
Theo nh ngha mó tng thỡ xõu cỏc ch cỏi = 12...n tng ng duy nht vi
n

xõu bớt cú dng f() = f(1)f(2)...f(n). Bn mó f() cú di L()= (i ) bit.
i =1

nh lý 1.3.1.1.
Nu f : M l mó tng xỏc nh trờn bng ch cỏi = {a 1, a2, ...., am}, m mi
ch cỏi a1, a2, ..., am cú xỏc sut xut hin tng ng l p1, p2, ..., pm thỡ:
1. Bớt trung bỡnh cho mt ch cỏi ca hu ht cỏc vn bn cú n ch cỏi = 12...n
n

tho món lim
n

( )
i

i =1

n

m

= p j (a j ) , õy

() l di t mó ca ch cỏi

j =1


.
2. Bớt trung bỡnh ca mó

P( ) L( )

An

n

m

= p j ( a j )
j =1

Trong ú P() = p(1)p(2)...p(n) l xỏc sut xut hin vn bn v L( ) l
di bn mó ca nú.

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

15


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

1.3.2. Mó phõn tỏch
T õy chỳng ta ch cp n cỏc mó tng nh phõn. Nu cỏc t mó cú di c
nh thỡ ta luụn gii mó c. Nhng nu di ca t mó thay i thỡ khụng phi vi

cỏch mó no cng cú th gii mó c.
Xột cỏch mó sau:

a -> 100
b -> 1000
c -> 0

Bn mó ca ac v b u l dóy bớt 1000. Nh vy khi nhn c chui bớt 1000
chỳng ta khụng th bit c rng vn bn ban u l b hay l ac.
iu kin quan trng ca vic to mó l cho phộp khi nhn c bn mó, chỳng ta
phi tỏch ra c thnh cỏc thnh phn c bn l cỏc t mó v cỏch tỏch ny phi l duy
nht v ỳng n. Tớnh phõn tỏch c a ra di õy s m bo cho iu ny.
nh ngha 1.3.2.1.
Cho A v B l hai on to ra t cỏc bớt 0/1. Chỳng ta núi A l u ca B nu nh
cú mt on C sao cho B = A + C.
nh ngha 1.3.2.2.
Mt tp hp M to ra t cỏc on bớt 0/1 c gi l phõn tỏch nu khụng cú on
no l u ca on kia. Nh vy, mó cú di t mó c nh l mó phõn tỏch.
nh lý 1.3.2.1.
iu kin chỳng ta cú th gii mó c mt dóy bớt c to bi mt mó
tng t mt b t mó bớt 0/1 cú di thay i l mi ch cỏi ng vi mt xõu bớt m
khụng cú xõu no l bt u ca xõu khỏc.
Chng minh:
Chng minh rng mi xõu bớt = d1 d2 d3 .....dn c to ra t cỏc on bớt phõn
tỏch ca M xỏc nh duy nht cỏc on thnh phn d1, d2, d3, ...., dn.
Tht vy, chỳng ta xột X l tp tt c cỏc on u ca . Tp X bao gm cỏc on
bớt lng nhau. C on trc l u ca on sau v cú di ngn hn 1. Trong s cỏc
on ú phi cú mt on l nm trong tp M. Vỡ theo gi thit xõu bớt = d1 d2 d3 .....dn
c to ra t tng cỏc on bớt phõn tỏch ca M. Tp Y = MX khỏc rng. Tp phõn
tỏch Y ch cú th cú 1 phn t vỡ nu cú hai phn t thỡ xõu n l u ca xõu kia v


Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

16


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

chỳng khụng th phõn tỏch. Loi b khi on bớt y v lp li lý lun nh trờn chỳng ta
thu c chng minh.
a1

Vớ d 1.3.2.1.

b 10
c 001
B t mó trờn khụng phõn tỏch, tuy nhiờn vn cú th mó v gii mó duy nht. Gii
mó nh sau: *001 *c, *01 *b, *1 *a, trong ú * cú th l rng hoc l mt trong
s cỏc ch cỏi a, b, c, 1. Nh vy nh lý trờn ch khng nh iu kin .
Sau õy l nh lý v s tn ti mó tng khi bit di ca cỏc t mó.
nh lý 1.3.2.2. nh lý Kraft - McMilan
iu kin cn v tn ti mt mó tng mó cỏc ch cỏi = {a 1, a2, ...., am}

1

m

bng xõu bớt 0/1 l


2
i =1

i

1 , vi di tng ng cỏc t mó l i=(ai) .

Chng minh:
iu kin cn (nh lý McMillan)
Chỳng ta cú th coi 1 2 ... m . Vi k l s t nhiờn bt k, ký hiu C k l mi
tp vn bn cú di k, c to ra t cỏc ch cỏi a 1, a2, .., am. Vi mi vn bn C k
chỳng ta ký hiu l di bn mó ca . Nh vy, vi mi C k thỡ k1 km .
Ký hiu ,k l s cỏc vn bn ca C k m bn mó ca nú cú di l bit. Rừ rng khụng
th cú quỏ 2 bn mó cú di bit (do tớnh gii c) cho nờn ,k 2 . Ta cú
k
1
1 km ,k
m 1
k m
ik =
i1 i2
i = = ,..
=

C k 2
= k1 2
i =1 2 i j 1 m , j =1..k 2 .2 ....2
m


Nh vy

1

2
i =1

i

k km . Bt ng thc ỳng vi mi k, cho nờn

m

1

2
i =1

i

1

iu kin (nh lý Kraft)

0

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

1


17


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

Trc ht chia on [0, 1] ra lm 2 phn bng nhau. Na bờn trỏi nhn mó 0. na
bờn phi nhn mó 1. Nu mt trong s cỏc giỏ tr

1 1 1
1
, 2 , 3 ,..., n cú giỏ tr no bng
1
2 2 2
2

1
thỡ chỳng ta xp nú vo na u tiờn ca on [0, 1] nh sau:
2
0

1
1
1 1 1
1
,
,
,...,
.

Trng
hp
khụng
bng
thỡ
21 22 23
2
2n

V loi giỏ tr ny khi dóy

chỳng ta chia on [0, 1] ra lm 4 phn bng nhau, tc l mi on ca bc trc nay
c chia ra lm 2 phn v ỏnh mó bng 2 bớt, theo ỳng nguyờn tc na bờn trỏi thờm
cũn 0 na bờn phi thờm 1. Sau ú tỡm cỏc giỏ tr

1 1
1 1 1
1
= 2 trong dóy 1 , 2 , 3 ,..., n
4 2
2 2 2
2

lp vo cỏc khong t trỏi qua phi, ri loi chỳng ra khi dóy.

00

01

10


11

Tip tc quỏ trỡnh chia ụi cỏc khong cha b lp cựng vi vic lp cỏc khong ny
(t trỏi qua phi) bi cỏc giỏ tr ca dóy

1 1 1
1
, 2 , 3 ,..., n nh chỳng ta va lm
1
2 2 2
2

trờn.
Vớ d chỳng ta cú cỏc giỏ tr

00
n

Do

1

2
i =1

i

1 1 1
, ,

thỡ cỏc khong lp s l:
2 2 2 2 28

01

100 110
101 111

1 , cho nờn chỳng ta s xp ht c cỏc giỏ tr

1 1 1
1
,
,
,...,
21 22 23
2n

vo trong on [0,1]. Mó ca cỏc on thng tng ng vi cỏc t mó phi tỡm.
Hn th t mó X m l bt u ca t mó Y thỡ khong xỏc nh ca Y nm trong
khong xỏc nh ca X. Theo nh phõn tớch trờn thỡ cỏc khong ny tng ng vi cỏc
t mó gm cỏc bớt m khụng t mó no l bt u ca t kia. iu kin c chng
minh.
Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

18


Luận văn tốt nghiệp


Một số phơng pháp nén d liu và ứng dụng

Trong phn chng minh iu kin ca nh lý chỳng ta xõy dng mó phõn tỏch.
p dng liờn tip 2 phn ca nh lý trờn chỳng ta thu c h qu sau:
H qu 1.3.2.1.
Mi mó tng u cú th thay th bng mó phõn tỏch cú cựng di cỏc t mó.
1.4. nh lý mó nộn

Cựng mt d liu cú th cú nhiu cỏch mó hoỏ. Trong s cỏc cỏch mó hoỏ khỏc nhau
cú th cú cỏch mó hoỏ m thu c bn mó ngn hn.
Nộn d liu khụng phi l vic cỏc d liu b ghi nộn li. Bn cht ca cỏc thut toỏn
nộn d liu l ghi li vn bn (mó hoỏ li vn bn) dng khỏc.
Khi ú xut hin hai cõu hi:
-

Cõu hi 1: Cú th nộn mt vn bn nh n bao nhiờu cng c hay l cú
mt gii hn no ú m chỳng ta khụng th vt qua c.

-

Cõu hi 2: Cú hay khụng mt thut toỏn nộn tt nht.

iu kin u tiờn nộn c vn bn l cỏc vn bn khỏc nhau thỡ cú cỏc file nộn
khỏc nhau. Bi nu khụng thỡ chỳng ta khụng th khụi phc li vn bn ngun. Mi vn
bn khụng th nộn li thnh mt file ch cú 1 bớt vỡ s lng cỏc file cú mt bớt l 2. Mt
qui trỡnh nộn nh vy thỡ ch cú th dựng nộn hai vn bn m thụi, n vn bn th ba
l ni dung file nộn s b trựng lp. Vy thỡ khụng th nộn mt vn bn nh tu ý c.
Shannon l ngi u tiờn chng minh c s tn ti mt gii hn nộn cho mi vn
bn. Mt vn bn thc ra thỡ ch cú th nộn n mt gii hn nht nh, gii hn y chỳng
ta gi l lng tin ca vn bn. Lng tin ch ph thuc vo bn thõn vn bn ch khụng

ph thuc vo thut toỏn no. Mi thut toỏn u khụng th nộn mt vn bn n mt file
nh hn lng tin m vn bn cú. Sau õy chỳng ta s lm quen vi khỏi nim lng tin.
Lng tin cũn c gi l entropy.
Vớ d 1.4.1.
Gi s vn bn ca chỳng ta ch cú 4 ch cỏi a, b, c, d. Nu chỳng ta dựng
cỏch mó hoỏ m cỏc t mó cú cựng di thỡ ta cú th mó ch cỏi a l 00, b l 01, c
l 10, d l 11. Nh vy mt vn bn gm 1000 ch cỏi s phi mó bi 2000 bớt. S bớt
cho mt ch cỏi l 2 bớt. Chng hn:

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

19


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

a

b

00

c

01

a


10

a

00 00

d
11

b
01

abcaadb0001000001101
Nu nh c bit ch cỏi a xut hin 97% trong s cỏc trng hp, cũn cỏc ch
cỏi b, c, d ch xut hin cú 1%. Ta xột ba cỏch mó sau õy:
Cỏch 1:
Chỳng ta cú th mó ch cỏi a l 0, ch cỏi b l 110, ch cỏi c l 100, ch cỏi
d l 111. Trung bỡnh mt vn bn cú 1000 ch cỏi thỡ cú 970 ch a v 10 ch b, 10
ch c, 10 ch d. Vn bn gm 1000 ch cỏi khi nộn li s di trung bỡnh 1*970 +
3*10 + 3*10 + 3*10 = 1060 bớt.
S khỏc nhau gia 1060 bớt v 2000 bớt l do chỳng ta mó ch cỏi hay gp bng
mt dóy bớt ngn hn cũn cỏc ch cỏi ớt gp bng cỏc dóy bớt di hn.
Nh vy l ch do thay i cỏch mó m chỳng ta, thay vỡ phi lu tr 2000 bớt d
liu thỡ nay ch cn 1060 bớt. H s nộn vn bn l gn 2 ln. S bớt trung bỡnh cho mt
ch cỏi l 1060 : 1000 1 bớt. Liu 1060 bớt ó l gii hn cha, cú cỏch no mó nộn tt
hn khụng? Chỳng ta xột cỏch mó th hai.
Cỏch 2:
Chỳng ta mó nh sau:
aa 0


ba 1100

bc 11111

db 1000100

ab 1001

ca 1101

dc 1000000

cc 1000101

ac 1010

da 1110

bd 1000001

bb 1000110

ad 1011

cb 11110

cd 1000011

dd 1000111


Mt vn bn cú 1000 ch cỏi thỡ cú 500 cp cỏc ch cỏi. S lng trung
bỡnh cho mi cp ch cỏi l:
S lng mi loi

S bớt cn mó

aa

500*0.9409 = 470.45

470.45*1 = 470.45

ab, ac, ad, ba, ca, da

500*0.0097 = 4.85

4.85*4

= 19.4

cb, bc

500*0.0001 = 0.05

0.05*5

= 0.25

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A


20


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

dc, bd, cd, db, cc, dd, bb

500*0.0001 = 0.05

0.05*7

= 0.35

Vn bn gm 1000 ch cỏi a, b, c, d vi t l nh trờn thỡ trung bỡnh s mó bng
dóy bớt cú di 470.45 + 19.4*6 + 0.25*2 + 0.35*7 = 589.8 bớt. H s nộn l

2000
3.39 tc l khong hn 3 ln. S bớt trung bỡnh cho mt ch cỏi l
589.8
589.8
0.59 bớt.
1000
Nh vy, nhúm cỏc ch cỏi li mó thỡ s to ra c mt phng phỏp mó tt
hn. Mi nhúm cỏc ch cỏi c ký mó bng mt nhúm bớt 0/1. Cỏc nhúm bớt dựng mó
ny phi c chn th no t dóy bớt ny chỳng ta cú th khụi phc li c cỏc
nhúm ch cỏi, tc l cho phộp khụi phc li vn bn ban u. iu ti thiu lm c
vic ny l cỏc nhúm ch cỏi khỏc nhau thỡ phi c mó bi cỏc nhúm bớt 0/1 khỏc nhau.
Cỏch 3:

Chỳng ta nhúm cỏc ch cỏi thnh tng nhúm, mi nhúm cú 100 ch cỏi thỡ cỏc
nhúm ch cỏi hay gp phi l cỏc nhúm 97 ch a v cỏc ch khỏc b, c, d mi ch
ch gp mt ln. Cú tt c 100*99*98 nhúm nh vy. Vỡ rng 219 < 100*99*98 < 220 nờn
chỳng ta cú th s dng cỏc nhúm bớt cú di 20 bớt ký mó cỏc nhúm 100 ch cỏi núi
trờn, nhng khụng th s dng cỏc nhúm bớt ch cú di 19 bớt. Nh vy v trung bỡnh,
mt vn bn cú 1000 ch cỏi a, b, c, d vi t l xut hin nh trờn thỡ cú th mó
thnh dóy bớt cú di nh hn 200 bớt, nhng khụng th mó li thnh mt dóy ngn hn
190 bớt. So vi cỏch mó u tiờn thỡ nộn khong 10 ln. S bớt trung bỡnh cho mt ch cỏi
l 200 : 1000 = 0.2.
nh lý 1.4.1. nh lý Shannon
Xột cỏc vn bn c to ra theo cỏch chn ngu nhiờn cỏc ch cỏi = {a 1, a2, ...,
am} vi xỏc sut xut hin tng ng p1 p2 .... pm > 0.
1. Vi mi mó nh phõn
a. Bit trung bỡnh ca mó tho món

m
1
1
p( ) L( ) pi log 2

i =1
pi
n An

b. Vi hu ht cỏc vn bn bớt trung bỡnh (cho mt ch cỏi) ca vn bn
m

khụng nh hn pi log 2
i =1


Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

1
pi
21


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

2. Tn ti mó nh phõn cho tng khi k ch cỏi cú tớnh phõn tỏch sao cho bớt
m

trung bỡnh (cho mt ch cỏi) ca nú nm gia

pi log 2

i =1

1
pi

v

1 m
1
+ pi log 2 .
k i =1
pi

nh lý khng nh rng: entropy ỳng l gii hn nh nht cú th m bớt trung bỡnh
ca mt mó nộn nh phõn cú th t c cho dự mó c to ra theo cỏch no i chng
na.
1.5. Quỏ trỡnh nộn v gii nộn

Quỏ trỡnh nộn d liu l mt quỏ trỡnh gm hai cụng on:
+ Cụng on nộn:
D liu Mó húa úng gúi D liu nộn.
+ Cụng on gii nộn:
D liu nộn Gii mó D liu gc.
Ta cú th mụ t quỏ trỡnh nộn v gii nộn mt cỏch túm tt theo s sau:
Quỏ trỡnh nộn
D liu gc

D liu nộn
Quỏ trỡnh gii nộn

Hai cụng on trờn l 2 in hỡnh trỏi ngc nhau. i vi tin trỡnh nộn thỡ module
mó húa thc hin vic ct vn bn ngun thnh cỏc on v gỏn cho chỳng ký hiu xỏc
nh chỳng. Ngc li i vi tin trỡnh gii nộn thỡ module gii mó s da vo cỏc mó m
module mó húa tin trỡnh nộn sinh ra tỡm on tng ng. Quỏ trỡnh tỡm on tng
ng ú c thc hin trờn rt nhiu on trong tin trỡnh nộn, gii nộn sinh ra. Tp hp
cỏc on ú chỳng ta gi l t in.
1.6 . Phõn loi
1.6.1 Nộn tn hao (Lossy)

Phng phỏp ny ũi hi chỳng ta phi chp nhn mt mỏt mt lng thụng tin
nht nh t hiu qu nộn cao. Nú thng c dung cho ngun tin l hỡnh nh, õm
Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A


22


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

thanh, facsimile, c s hoỏ. Hu ht, cỏc k thut nộn tn hao iu chnh s cõn
bng gia chớnh xỏc nộn v hiu qu nộn. Nộn tn hao thng c thc hin bng
phn cng chuyờn dng.
Phng phỏp nộn nh: mt nh mu cú dung lng nh khỏ ln. Do ú thi gian
truyn trờn mng rt ỏng k d lm cho vic tc nghn ng truyn xy ra. Gii phỏp t
nhiờn l s dng cỏc k thut nộn nh hin i. Hai dng thc ang c s dng rng rói
l CompuSever GIF (Graphics Interchange Format) v JPEG (Join Photographic
Experts Group). Ngoi ra cũn cú nộn MPEG (The Moving Picture Experts Group).
Phng phỏp nộn õm thanh: hai thụng s quan trng nht ca õm thanh s hoỏ l
tc ly mu v phõn gii mu. Tc ly mu thng l 8 KHz, phõn gii mu
thng l 8 bớt. Nộn õm thanh cng bao gm c nộn khụng tn hao v nộn tn hao, tuy
nhiờn nộn khụng tn hao khụng hiu qu bng nộn tn hao. Tc ly mu v phõn
gii mu xỏc nh h s mt mỏt cho phộp ca phng phỏp nộn tn hao tớn hiu sau
quỏ trỡnh nộn - gii khụng b mộo dng. Phng phỏp mó hoỏ ph bin nộn ting núi l
phng phỏp mó hoỏ d o ỏn tuyn tớnh (LPC Linear Predictive Coding). LPC da
trờn cỏc phng phỏp c tớnh bỡnh phng bộ nht c in v s tng hp ngu nhiờn
gia mt mụ hỡnh toỏn hc lý tng (mụ hỡnh d oỏn tuyn tớnh) vi cỏc c trng riờng
ca ting núi con ngi. Mt h thng LPC hon chnh bao gm hai khõu l phõn tớch v
tng hp. Mt ci tin rt quan trng ca LPC l thut toỏn nộn tn hao thụng dng
ADPCM (Adaptive Diffirence Pulse Code Modulation).
1.6.2 Nộn khụng tn hao (Lossless)

Nộn khụng tn hao m bo to ra mt bn sao ca d liu sau mt quỏ trỡnh mó

hoỏ / gii mó. Nộn khụng tn hao s c da trờn hai mụ hỡnh khỏc nhau:
- Mụ hỡnh thng kờ: s mó hoỏ mi lỳc mt ký hiu da vo xỏc sut xut hin ca nú.
- Mụ hỡnh t in: s mó hoỏ mt chui ký hiu ch bng mt t mó.
Chỳng ta s nghiờn cu rừ hai mụ hỡnh ny trong hai chng tip theo.

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

23


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

CHNG 2. Mễ HèNH THNG Kấ
2.1. Mụ hỡnh thng kờ tnh

Dng n gin nht ca mụ hỡnh thng kờ tnh l mt bng tnh lit kờ cỏc giỏ tr xỏc
sut theo cỏch tớnh thụng thng. Trc õy, do vic phõn tớch v xõy dng mó Huffman
rt tn thi gian, nờn ngi ta ch phõn tớch mt ln i vi cỏc d liu in hỡnh cú
c mt bng m s ln xut hin ca tng ký hiu. Da vo kt qu ú, mt cõy mó
Huffman tnh c xõy dng v lu tr cú th c s dng nhiu ln. Mụ hỡnh nh
vy c gi l mụ hỡnh thng kờ tnh (Static Statiscal Model).
Vic s dng mt mụ hỡnh tnh vn nng cho nhiờu kiu d liu rừ rng l cú nhiu
hn ch. Nu d liu vo khụng thớch hp vi mụ hỡnh thỡ hiu qu nộn s gim, thm chớ
s cú kớch thc ln hn d liu vo (gi l n u vo). Do ú mt ci tin tip theo l
xõy dng mụ hỡnh tnh cho nhiu kiu d liu. Vic xõy dng mụ hỡnh tnh riờng s cú
thun li l mang li hiu sut nộn cao. Nhng nhc im l li cn lu tr thờm mt
lng d liu nht nh (cu trỳc ca cõy mó) trc khi lu tr bn mó. Nu cu trỳc ca
cõy mó vo khụng ln lm vo khong 256B so vi lng s lng d liu cn nộn vi

trm KB thỡ mụ hỡnh tnh riờng l hiu qu. Nhng nu cu trỳc ca cõy mó tng lờn mc
khụng th chp nhn c so vi mc tiờu nộn d liu (c khong 64KB) thỡ mụ hỡnh tnh
riờng khụng phự hp.

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

24


Luận văn tốt nghiệp

Một số phơng pháp nén d liu và ứng dụng

2.2. Mụ hỡnh thng kờ ng
khc phc nhng nhc im ca mụ hỡnh thng kờ tnh, mụ hỡnh thng kờ ng
ra i vi s liu thng kờ i vi d liu cn mó hoỏ khụng phi lu tr trc m liờn
tc c tớch lu v sa i trong sut quỏ trỡnh mó hoỏ v gii mó.

c ký hiu
c ký hiu

Mó hoỏ ký hiu
Mó hoỏ ký hiu

Xut t mó
Xut t mó

Cỏc ký hiu
Mụ hỡnh
Mụ hỡnh


Cỏc t mó

Cp nht mụ hình
Cp nht mụ hình

Hỡnh 2.1: Mó hoỏ theo mụ hỡnh thng kờ ng

Cỏc t mó

cttmó

c

Giimó
móttmó

Gii
Mụhỡnh
hỡnh
Mụ

Xutký

Xut
hiu
hiu

Cỏc ký hiu


Cpnht
nhtmụ
mụhỡnh
hỡnh
Cp

Hỡnh 2.2: Gii mó hoỏ theo mụ hỡnh thng kờ ng
im ỏng chỳ ý trong hai s trờn l khi cp nht mụ hỡnh. Khi ny phi hot
ng chớnh xỏc nh nhau c khi mó hoỏ v khi gii mó. Sau khi mt ký hiu hoc mt
nhúm ký hiu nhp vo, nú s c mó hoỏ da trờn mụ hỡnh hin thi, sau ú mụ hỡnh
mi c cp nht da trờn ký hiu hoc nhúm ký hiu ú. Tng t nh vy, sau khi
mt t mó c c vo nú s c gii mó theo mụ hỡnh hin thi ri sau ú mụ hỡnh
mi c cp nht theo ký hiu ó c gii mó.
Vi mụ hỡnh thng kờ ng, ban u nú cha bit gỡ v d liu cn c mó hoỏ cho
nờn hiu ng nộn cha th xut hin ngay. Hiu ng nộn ch xut hin rừ rt khi lm vic
vi c vi nghỡn ký hiu. u im ca mụ hỡnh ng ch nú cú kh nng thớch ng vi
nhiu kiu d liu khỏc nhau.

Sinh viên: Vũ Thị Hạnh. Lớp Tin K5A

25


×