Tải bản đầy đủ (.doc) (64 trang)

Kỹ thuật mã hóa Huffman với mô hình từ điển

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (581.67 KB, 64 trang )

K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
1
CHỈ ÅNG 0.
I. GIÅÏI THIÃÛU....................................................................................................................................................3
II. L THUÚT TÄØNG QUAN VÃƯ NẸN DỈỴ LIÃÛU...........................................................................6
.I KHẠI NIÃÛM VÃƯ NẸN DỈỴ LIÃÛU...........................................................................................................................6
.II MÄÜT SÄÚ KHẠI NIÃÛM CÅ BN............................................................................................................................7
II.1. Tè lãû nẹn (compression ratio)................................................................................................................7
II.2. Âäü dỉ thỉìa säú liãûu............................................................................................................................7
.a Sỉû làûp lải ca nhỉỵng kê tỉû.................................................................................................................................7
.b Sỉû phán bäú cạc kê tỉû..............................................................................................................................................7
.c Âäü dỉ thỉìa vë trê.......................................................................................................................................................7
.d Nhỉỵng máùu sỉí dủng máût âäü cao.........................................................................................................................8
II.3. Âäü di trung bçnh tỉì m....................................................................................................................8
II.4. Nẹn täøn hao v nẹn khäng täøn hao....................................................................................................8
a. Nẹn täøn hao (lossy compression)...............................................................................................................................8
b. Nẹn khäng täøn hao (lossless compression)................................................................................................................9
II.5. Nẹn säú liãûu = Mä hçnh họa + M họa [2]......................................................................................9
.III L THUÚT VÃƯ M HỌA [7].........................................................................................................................10
III.1. Âënh nghéa m họa ............................................................................................................................10
III.2. Mäüt säú khại niãûm cå bn...............................................................................................................10
.a Chiãưu di tỉì m......................................................................................................................................................10
.b Trng lỉåüng tỉì m................................................................................................................................................10
.c Khong cạch m.......................................................................................................................................................10
III.3. Phán loải m......................................................................................................................................10
III.4. Mäüt säú phỉång phạp biãøu diãùn m thäng dủng.........................................................................11
a. Phỉång phạp liãût kã.................................................................................................................................................11
b. Phỉång phạp âäư hçnh kãút cáúu..............................................................................................................................11
c. Phỉång phạp cáy.......................................................................................................................................................12
III.5. Âiãưu kiãûn âãø m phán tạch âỉåüc.................................................................................................13
III.6. M cọ tênh tiãưn täú (prefix)...............................................................................................................14


III.7. Âënh l vãư âäü di trung bçnh tỉì m..............................................................................................14
.IV M THÄÚNG KÃ TÄÚI ỈU..................................................................................................................................16
IV.1. M Shannon-Fano................................................................................................................................16
IV.2. M säú hc.........................................................................................................................................19
IV.3. M Huffman (s âỉåüc giåïi thiãûu chi tiãút åí cạc chỉång tiãúp theo)............................................20
.V MÄ HÇNH HỌA NGƯN SÄÚ LIÃÛU......................................................................................................................20
V.1. Mä hçnh thäúng kã.................................................................................................................................21
V.2. Mä hçnh tỉì âiãøn (Dictionary-based)...................................................................................................22
III. PHỈÅNG PHẠP M HỌA HUFFMAN VÅÏI MÄ HÇNH THÄÚNG KÃ...........................................24
I. PHỈÅNG PHẠP M HỌA HUFFMAN .....................................................................................................................24
I.1. M Huffman ténh....................................................................................................................................24
.a Cåí såí nẹn säú liãûu ca phỉång phạp m họa Huffman ténh..............................................................................24
.b Phỉång phạp tảo m Huffman ténh.......................................................................................................................24
.c Phỉång phạp gii m Huffman ténh........................................................................................................................30
.d Ỉu v nhỉåüc âiãøm ca phỉång phạp m họa Huffman ténh våïi mä hçnh thäúng kã......................................31
IV. CẠC PHỈÅNG PHẠP NẸN THEO MÄ HÇNH TỈÌ ÂIÃØN..............................................................31
I. MÄ HÇNH TỈÌ ÂIÃØN TÉNH V MÄ HÇNH TỈÌ ÂIÃØN ÂÄÜNG.....................................................................................33
II. CẠC PHỈÅNG PHẠP NẸN LEMPEL V ZIV [2].....................................................................................................35
II.1. Phỉång phạp nẹn LZ77 .....................................................................................................................36
II.2. Phỉång phạp nẹn LZ78.......................................................................................................................39
V. K THÛT M HỌA HUFFMAN ÂÄÜNG VÅÏI MÄ HÇNH TỈÌ ÂIÃØN THÊCH ỈÏNG..........43
I. M HỌA HUFFMAN ÂÄÜNG......................................................................................................................43
.I MÄ HÇNH TỈÌ ÂIÃØN THÊCH ỈÏNG.....................................................................................................44
K thût nẹn våïi mäüt cỉía säø hản chãú...............................................................................................44
Cạc cáúu trục dỉỵ liãûu häù tråü.................................................................................................................45
.a Bäü âãûm quay vng..................................................................................................................................................45
.b Bng bàm (Hash table)...............................................................................................................................................45
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø

2
.II TIÃÚN TRÇNH NẸN.............................................................................................................................................47
Quạ trçnh mä hçnh họa................................................................................................................................48
Quạ trçnh m họa.......................................................................................................................................49
.a Cáúu trục dỉỵ liãûu mä t cáy m Huffman âäüng..................................................................................................49
.b Th tủc m họa ......................................................................................................................................................51
.III TIÃÚN TRÇNH GII NẸN....................................................................................................................................52
Quạ trçnh gii m theo cáy m Huffman âäüng........................................................................................52
.a Khåíi tảo cáy m âáưu tiãn........................................................................................................................................52
.b Th tủc gii m.......................................................................................................................................................53
Quạ trçnh gii nẹn......................................................................................................................................53
.IV NHÁÛN XẸT....................................................................................................................................................55
VI. THỈÛC NGHIÃÛM.......................................................................................................................................55
I. SO SẠNH TÈ SÄÚ NẸN........................................................................................................................................56
I.1. Bng so sạnh tè säú nẹn.......................................................................................................................56
I.2. Biãøu âäư so sạnh tè säú nẹn................................................................................................................58
I.3. Nháûn xẹt vãư tè säú nẹn......................................................................................................................58
II. SO SẠNH TÄÚC ÂÄÜ NẸN..................................................................................................................................58
II.1. Bng so sạnh täúc âäü nẹn.................................................................................................................58
II.2. Biãøu âäư so sạnh täúc âäü nẹn..........................................................................................................59
II.3. Nháûn xẹt vãư täúc âäü nẹn................................................................................................................59
IV. SO SẠNH TÄÚC ÂÄÜ GII NẸN.........................................................................................................................60
IV.1. Bng so sạnh täúc âäü gii nẹn........................................................................................................60
IV.2. Biãøu âäư so sạnh täúc âäü gii nẹn.................................................................................................60
IV.3. Nháûn xẹt vãư täúc âäü gii nẹn.......................................................................................................61
V. KÃÚT LÛN...................................................................................................................................................61
VII. KÃÚT LÛN...............................................................................................................................................61
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø

3
CHỈ ÅNG 0
I. GI ÏI THI ÃÛ
Nga y nay, mạy tênh â th m nh ûp va o h u h t cạc lénh v ûcì á á ì áư ãú ỉ
cu a â i s ng- x h üi. Nọi â n mạy tênh t ïc la nọi â n hai v ní å ì äú ä ãú ỉ ì ãú áú
â l ïn : l u tr ỵ va x l th ng tin.ãư å ỉ ỉ ì ỉí ä
V ïi s û bu ng n th ng tin nh hi ûn nay, vi ûc l u tr ỵ va trao â iå ỉ ì äø ä ỉ ã ã ỉ ỉ ì äø
th ng tin â va âang âàût ra nhi u v n â c n pha i gia i quy t, âọä ì ãư áú ãư áư í í ãú
la la m sao â l u tr ỵ m üt cạch ti t ki ûm, hi ûu qua va trao â iì ì ãø ỉ ỉ ä ãú ã ã í ì äø
th ng tin m üt cạch nhanh chọng nh t. M üt gia i phạp la tàng dungä ä áú ä í ì
l üng cu a cạc thi t bë l u tr ỵ. Tuy nhi n, âi u na y âo i ho i cao vỉå í ãú ỉ ỉ ã ãư ì ì í ãư
màût k thu ût ph n c ïng va chi phê khạ t n kẹm. Nh v ûy, gia iá áư ỉ ì äú ỉ á í
phạp na y la kh ng kinh t . M üt gia i phạp khạc nhi u tri n vngì ì ä ãú ä í ãư ãø
h n va mang tênh kha thi â â üc âàût ra, âọ la nẹn d ỵ li ûu. V û ì í ỉå ì ỉ ã á
nẹn d ỵ li ûu la gç ?ỉ ã ì
Cọ th hi u m üt cạch n m na rà ng, nẹn d ỵ li ûu la quạ trçnhãø ãø ä ä ò ỉ ã ì
la m gia m dung l üng l u tr ỵ cu a d ỵ li ûu ma v ùn ba o toa n â ücì í ỉå ỉ ỉ í ỉ ã ì á í ì ỉå
n üi dung th ng tin tr ïc âọ.ä ä ỉå
Nh v ûy, vi ûc nẹn d ỵ li ûu s âem lải nhi u l üi êch thi t th ûc.ỉ á ã ỉ ã ãư å ãú ỉ
ọ la :Â ì
• Ti t ki ûm â üc kh ng gian l u tr ỵ.ãú ã ỉå ä ỉ ỉ
• Tàng t c â ü va gia m chi phê truy n d ùn tr n mảng.äú ä ì í ãư á ã
• Ba o m ût â üc th ng tin.í á ỉå ä
Màûc du dung l üng cu a cạc thi t bë l u tr ỵ nga y nay â tàngì ỉå í ãú ỉ ỉ ì
â n t c â ü chọng màût, cọ th l n â n ha ng chủc Gigabytes, nh ngãú äú ä ãø ã ãú ì ỉ
v ïi nh ỵng l üi êch nh â n u tr n, gia i phạp nẹn d ỵ li ûu tr ïc khiå ỉ å ỉ ã ã í ỉ ã ỉå
l u tr ỵ, cng nh truy n d ùn qua mảng la âi u khi n chụng t ỉ ỉ ãư á ì ãư ãú
kh ng th kh ng xẹt â n.ä ãø ä ãú
Nọi chung, nẹn d ỵ li ûu la quạ trçnh bi n â i m üt lu ng cạcỉ ã ì ãú äø ä äư
kê hi ûu tha nh m üt lu ng cạc m cọ kêch th ïc nho h n ban â u.ã ì ä äư ỉå í å áư

Th ng th ng, m üt quạ trçnh nẹn â üc ti n ha nh qua hai giai âoản:ä ỉåì ä ỉå ãú ì
(1) M hçnh họa, la giai âoản ti n âoạn v t n su t xu t hi ûn cu ậ ì ã ãư áư áú áú ã í
cạc kê t û va / hồûc chu ùi kê t û cu a vàn ba n c n nẹn. (2) Mỉ ì ä ỉ í í áư
họa, la giai âoản d ûa tr n m hçnh v ïi t n su t v a â üc xạc âënhì ỉ ã ä å áư áú ỉì ỉå
â tảo ra t m t ng ïng.ãø ỉì ỉå ỉ
Cu ng v ïi s û phạt tri n mảnh m cu a l thuy t th ng tin, cọì å ỉ ãø í ãú ä
khạ nhi u ph ng phạp m họa va m hçnh họa â ra â i. Trongãư ỉå ì ä å ì
cạc ph ng phạp m họa, âạng chụ nh t la m họa Huffmanỉå áú ì
va m họa s hc. Ph ng phạp m họa Huffman â üc D.A Huffmanì äú ỉå ỉå
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
4
c ng b va o nàm 1952. Ph ng phạp m họa na y â n gia n, d ù x äú ì ỉå ì å í ã á
d ûng va cho th i gian m họa ngà n. Ph ng phạp m họa s hcỉ ì åì õ ỉå äú
ra â i va o cu i nh ỵng nàm 70. Ph ng phạp na y h ïng â n vi ûcå ì ì äú ỉ ỉå ì ỉå ãú ã
t i u â ü da i t m n n t ng â i ph ïc tảp h n va vç v ûy th iäú ỉ ä ì ỉì ã ỉå äú ỉ å ì á åì
gian m họa ch ûm h n.á å
K thu ût nẹn x l t ng kê t û m üt cu a lu ng kê hi ûu â ỉí ỉì ỉ ä í äư ã áư
va o â üc gi la nẹn v ïi m hçnh th ng k (Statistical model). Ng ücì ỉå ì å ä äú ã ỉå
lải, k thu ût nẹn xem xẹt m ùi lục m üt chu ùi cạc kê t û t lu ngá ä ä ä ỉ ỉì äư
nh ûp gi la nẹn v ïi m hçnh t âi n (Dictionary-based model).á ì å ä ỉì ãø
Do âàûc thu cu a m hçnh t âi n va th ûc t cng cho th y,ì í ä ỉì ãø ì ỉ ãú áú
v ïi cu ng m üt ph ng phạp m họa thç vi ûc ạp dủng m hçnh tå ì ä ỉå ã ä ỉì
âi n s cho hi ûu qua nẹn cao h n nhi u so v ïi m hçnh th ng k .ãø ã í å ãư å ä äú ã
H u h t cạc ch ng trçnh nẹn th ng mải hi ûn ha nh â u s dủngáư ãú ỉå ỉå ã ì ãư ỉí
m hçnh t âi n ma âi n hçnh la cạc ch ng trçnh nẹn n i ti ngä ỉì ãø ì ãø ì ỉå äø ãú
nh NCZip, PKZip va WinZip.ỉ ì
Trong m üt th i gian ngà n, vi ûc nghi n c ïu t t ca cạc k thu ûtä åì õ ã ã ỉ áú í á
nẹn d ỵ li ûu la âi u kh ng kha thi, do v ûy, trong cu n lu ûn vàn t tỉ ã ì ãư ä í á äú á äú

nghi ûp na y, tạc gia chè âi s u nghi n c ïu v ph ng phạp nẹn d ỵã ì í á ã ỉ ãư ỉå ỉ
li ûu kh ng t n hao d ûa tr n k thu ût m họa Huffman (chu y u lẫ ä äø ỉ ã á í ãú ì
m Huffman â üng) va m hçnh t âi n.ä ì ä ỉì ãø
Do nàng l ûc ba n th n va th i gian cọ hản n n ạn co n khạỉ í á ì åì ã Âäư ì
nhi u thi u sọt. Xin nh ûn â üc nh ỵng l i ph bçnh, gọp quãư ãú á ỉå ỉ åì ã
bạu cu a cạc th y c va bản âc â â ta i cọ th hoa n thi ûní áư ä ì ãø ãư ì ãø ì ã
h n trong t ng lai.å ỉå
Cá ú u trục  ä ư ạn
ạn bao g m 6 ch ng va ch ng trçnh Demo tr n âéa. N üi dung nhÂäư äư ỉå ì ỉå ã ä ỉ
sau :
Ch ỉ å n g 0 : Gi ïi thi ûu â ta i, vai tro va nghéa cu a nọ.å ã ãư ì ì ì í
Ch ỉ å n g I : Trçnh ba y t ng quan v l thuy t nẹn va gia i nẹnì äø ãư ãú ì í
d ỵ li ûu, la m n n ta ng cho vi ûc gia i quy t v n â â âàût ra trongỉ ã ì ãư í ã í ãú áú ãư
ạn.Âäư
Ch ỉ å n g II : Trçnh ba y ph ng phạp nẹn d ỵ li ûu ạp dủng kì ỉå ỉ ã
thu ût m họa Huffman d ûa tr n m hçnh th ng k .á ỉ ã ä äú ã
Ch ỉ å n g III: Tçm hi u m üt s ph ng phạp nẹn d ûa tr n m hçnhãø ä äú ỉå ỉ ã ä
t âi n.ỉì ãø
Ch ỉ å n g IV : i s u nghi n c ïu ph ng phạp nẹn d ỵ li ûu ạp dủng á ã ỉ ỉå ỉ ã
k thu ût m họa Huffman â üng, d ûa tr n m hçnh t âi n thêchá ä ỉ ã ä ỉì ãø
ïng, la m n n ta ng cho vi ûc phạt tri n ch ng trçnh.ỉ ì ãư í ã ãø ỉå
Ch ỉ å n g V : Trçnh ba y k t qua th ûc nghi ûm ki m tra tênh âụngì ãú í ỉ ã ãø
âà n, chênh xạc cu a ch ng trçnh va so sạnh v ïi m üt s ch ngõ í ỉå ì å ä äú ỉå
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
Kyợ thu ỷt maợ hoùa Huffman v ùi m hỗnh t õi nỏ ồ ọ ổỡ óứ
5
trỗnh th ng maỷi coù cu ng ch ùc nng. Tr n c s õoù, õaùnh giaù uổồ ỡ ổ ó ồ ồớ ổ
õi m va haỷn ch cu a ph ng phaùp neùn õ ỹc s duỷng. óứ ỡ óỳ ớ ổồ ổồ ổớ
Ch ổ ồ n g VI : K t lu ỷn, õaùnh giaù nh ợng gỗ õaợ la m õ ỹc, nh ợngóỳ ỏ ổ ỡ ổồ ổ

gỗ ch a õaỷt õ ỹc va n u h ùng phaùt tri n cu a õ ta i.ổ ổồ ỡ ó ổồ óứ ớ óử ỡ
Tr ỏửn Quang Minh
KHOA C NG NGH TH NG TIN
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
6
CHỈ ÅNG I
II.L THUY T T ØNG QUAN V Ư NẸN DỈỴ LI Ú Ä Ã ÃÛ
.IKHẠI NIÃ ÛM V ÃƯ NẸN DỈỴ LIÃ ÛU
Nẹn d ỵ li ûu la quạ trçnh la m gia m s li ûu c n thi t mỉ ã ì ì í äú ã áư ãú
v ùn ba o toa n â üc n üi dung th ng tin. S li ûu va th ng tin la kh ngá í ì ỉå ä ä äú ã ì ä ì ä
â ng nh t v ïi nhau. S li ûu chè la ph ng ti ûn â chuy n ta iäư áú å äú ã ì ỉå ã ãø ãø í
th ng tin. V ïi cu ng m üt n üi dung th ng tin, ta cọ th bi u di ùnä å ì ä ä ä ãø ãø ã
bà ng cạc d ỵ li ûu khạc nhau.ò ỉ ã
Cạc k thu ût nẹn d ỵ li ûu, th ng th ng, d ûa va o m üt trongá ỉ ã ä ỉåì ỉ ì ä
cạc âàûc tr ng sau:ỉ

Tênh h ỉỵu ha û n ca t á û p k ê hiã û u .

Táưn su á ú t xu á ú t hi ã û n t ỉ å n g â ä ú i ca cạc k ê hiã û u .

Ng ỉỵ cnh xu á ú t hiã û n ca cạc k ê hiã û u .
Nẹn d ỵ li ûu li n quan â n khại ni ûm th ng tin trong l thuy tỉ ã ã ãú ã ä ãú
th ng tin. L üng tin co n gi la ä ỉå ì ì
Entropy
. L üng tin cu a m üt kê hi ûå í ä ã
â üc tênh bà ng (-logỉå ò
2
P) v ïi â n vë la bit, trong âọ P la xạc su tå å ì ì áú
xu t hi ûn cu a kê hi ûu âọ. L üng tin cu a toa n b ü ngu n s li ûú ã í ã ỉå í ì ä äư äú ã
â üc tênh bà ng t ng l üng tin cu a cạc kê hi ûu tha nh ph n.ỉå ò äø ỉå í ã ì áư

L üng tin trung bçnh th ng k tr n m üt kê hi ûu â üc gi lå äú ã ã ä ã ỉå ì
Entropy
cu a ngu n s li ûu. í äư äú ã
Entropy
cu a m üt ngu n s li ûu ca ng ca ä äư äú ã ì
thç l üng th ng tin ch ïa â ûng trong nọ ca ng nhi u. ỉå ä ỉ ỉ ì ãư Shannon l
ng i â u ti n ch ïng minh â üc s û t n tải m üt gi ïi hản nẹn chåì áư ã ỉ ỉå ỉ äư ä å
m ùi vàn ba n. Gi ïi hản y chênh la l üng tin cu a vàn ba n.ä í å áú ì ỉå í í
Nhçn chung, quạ trçnh nẹn va gia i nẹn d ỵ li ûu cọ th â ücì í ỉ ã ãø ỉå
m ta tọm tà t theo s â sau:ä í õ å äư
Hçnh 1.
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
Quạ trçnh
nẹ n
Quạ trçnh
gia i nẹ ní
D ỵ li ûu ỉ ã
g c ä ú
D ỵ li ûu ỉ ã
nẹ n
Så â ä ư c hỉ ï c nà ng c a quạ trç nh ne ï n
dỉ ỵ liã û u
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
7
.IIMÄ ÜT S Ä Ú KHẠI NIÃ ÛM C Å BN
II.1. Tè lã û nẹn (compression ratio)
Tè l û nẹn la m üt trong nh ỵng th ng s quan trng nh t cu ẫ ì ä ỉ ä äú áú í
mi ph ng phạp nẹn. Cọ nhi u cạch khạc nhau â âënh nghéa tèỉå ãư ãø
l û nẹn. Th ng th ng, ng i ta âënh nghéa tè l û nẹn nh sau:ã ä ỉåì ỉåì ã ỉ

Tuy nhi n, c n pha i th y rà ng, tè l û nẹn cao ch a pha i la t tã áư í áú ò ã ỉ í ì áú
ca â âạnh giạ hi ûu qua cu a m üt ph ng phạp nẹn. B i vç co ní ãø ã í í ä ỉå åí ì
cọ cạc y u t khạc nh : chi phê v th i gian, kh ng gian va ca â üãú äú ỉ ãư åì ä ì í ä
ph ïc tảp tênh toạn.ỉ
II.2. Â ä ü d ỉ th ỉìa s ä ú liã û u
Nguy n tà c chung cu a cạc ph ng phạp nẹn d ỵ li ûu la loải bỗ õ í ỉå ỉ ã ì í
cạc th ng tin tru ng làûp, cạc d ỵ li ûu d th a â n m ïc t i thi u cọä ì ỉ ã ỉ ỉì ãú ỉ äú ãø
th â üc. Vi ûc xạc âënh ba n ch t cạc ki u d th a s li ûu r tãø ỉå ã í áú ãø ỉ ỉì äú ã áú
cọ êch trong vi ûc x y d ûng cạc ph ng phạp nẹn phu h üp. Nhçnã á ỉ ỉå ì å
chung, cọ b n ki u d th a chênh trong d ỵ li ûu :äú ãø ỉ ỉì ỉ ã
.a Sỉ û là û p lải ca nh ỉỵng kê tỉ û
Trong m üt ngu n d ỵ li ûu, nh t la cạc t ûp tin a nh, th ng cọä äư ỉ ã áú ì á í ỉåì
nh ỵng kê t û va chu ùi kê t û làûp lải nhi u l n li n ti p nhau. Khiỉ ỉ ì ä ỉ ãư áư ã ãú
âọ, ngu n d ỵ li ûu cọ th â üc m họa m üt cạch c âng h näư ỉ ã ãø ỉå ä ä å
bà ng cạch thay th nh ỵng dy kê t û âọ bà ng m cu a chụng v ãú ỉ ỉ ò í ì
s kê t û làûp lải. Ph ng phạp nẹn v ïi m hçnh t âi n khai thạcäú ỉ ỉå å ä ỉì ãø
r t hi ûu qua loải d th a na y.áú ã í ỉ ỉì ì
.b Sỉ û ph án b ä ú cạc kê tỉ û
Xẹt m üt chu ùi kê t û, ta th ng th y cọ m üt s kê t û xu tä ä ỉ ỉåì áú ä äú ỉ áú
hi ûn v ïi t n su t cao h n nh ỵng kê t û khạc . Nh v ûy, ta cọ thã å áư áú å ỉ ỉ ỉ á ãø
gia m b ït l üng d ỵ li ûu bà ng cạch m họa nh ỵng kê t û xu tí å ỉå ỉ ã ò ỉ ỉ áú
hi ûn th ng xuy n v ïi t m ngà n, nh ỵng kê t û êt xu t hi ûn sã ỉåì ã å ỉì õ ỉ ỉ áú ã
â üc m họa bà ng nh ỵng t m da i h n.ỉå ò ỉ ỉì ì å
Ki u d th a na y âàûc bi ût phu h üp v ïi ph ng phạp m họẫø ỉ ỉì ì ã ì å å ỉå
Huffman.
.c  ä ü d ỉ th ỉìa vë trê
Cọ nhi u tr ng h üp, d ỵ li ûu trong m üt ngu n s li ûu cọ s ûãư ỉåì å ỉ ã ä äư äú ã ỉ
phủ thu üc l ùn nhau, do âọ, n u bi t â üc kê hi ûu xu t hi ûn tảiä á ãú ãú ỉå ã áú ã
m üt vë trê na o âọ, ta cọ th pho ng âoạn tr ïc m üt cạch h üp lä ì ãø í ỉå ä å
s û xu t hi ûn cu a cạc kê hi ûu khạc nh ỵng vë trê khạc nhau. Vêỉ áú ã í ã åí ỉ

dủ, a nh bi u di ùn trong m üt l ïi hai chi u, m üt s âi m ha ngí ãø ã ä ỉå ãư ä äú ãø åí ì
dc lải xu t hi ûn trong cu ng vë trê cạc ha ng khạc nhau. Nh v ûy,áú ã ì åí ì ỉ á
thay vç l u tr ỵ d ỵ li ûu ta chè l u lải vë trê ha ng va c üt. Ph ng phạpỉ ỉ ỉ ã ỉ ì ì ä ỉå
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
%)
ngu nä ưli û d ỵỉ ckêch th ïỉå
nẹ nkhi sau â ücỉå thuli û d ỵỉ ckêch th ïỉå
-(= nẹ nl ûã Tè 1001
x
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
8
nẹn khai thạcki u d th a na y gi la ph ng phạp m họa d ûãø ỉ ỉì ì ì ỉå ỉ
âoạn.
.d Nhỉỵng má ù u s ỉí du û ng m á û t â ä ü cao
Th ng th ng, trong cạc vàn ba n dảng text, s û tu n t û cu ậ ỉåì í ỉ áư ỉ í
nh ỵng kê t û ba o âo ï s tại xu t hi ûn v ïi t n su t t ng â i cao,ỉ ỉ ì áú ã å áư áú ỉå äú
vç v ûy, cọ th bi u di ùn bà ng dy bit ngà n h n.á ãø ãø ã ò õ å
âạnh giạ m üt thu ût toạn nẹn cọ hi ûu qua hay kh ng,Âãø ä á ã í ä
ng i ta s d ûa va o cạch ma thu ût toạn x l cạc ki u d th åì ỉ ì ì á ỉí ãø ỉ ỉì
nh tr n. Th ûc t cho th y rà ng, h u h t cạc k thu ût nẹn â ã ỉ ãú áú ò áư ãú á ãư
kh ng âu m m de o â x l t t ca cạc ki u d th a. M ùi chi nä í ãư í ãø ỉí áú í ãø ỉ ỉì ä ãú
l üc nẹn ạp dủng th ng chè c ïng nhà c cho t ng ki u s li ûå ỉåì ỉ õ ỉì ãø äú ã
ma th i.ì ä
ü d th a s li ûu cọ th âënh l üng bà ng toạn hc. V ïiÂä ỉ ỉì äú ã ãø ỉå ò å
L
1
,L
2
la hai l üng s li ûu cu ng â üc du ng â bi u di ùn m üt l üngì ỉå äú ã ì ỉå ì ãø ãø ã ä ỉå

tin cho tr ïc thç â ü d s li ûu t ng â i Rỉå ä ỉ äú ã ỉå äú
D
cu a t ûp s li ûu th ïí á äú ã ỉ
nh t so v ïi t ûp s li ûu th ï hai la :áú å á äú ã ỉ ì
Trong âọ L
1
/L
2
â üc gi la tè l û nẹn.ỉå ì ã
II.3. Â ä ü di trung bçnh tỉì m
Giạ trë trung bçnh th ng k cu a t t ca cạc t m trong m ütäú ã í áú í ỉì ä
b ü m â üc gi la ä ỉå ì
â ä ü di trung bçnh ca m ä ü t t ỉì m
. C.E Shannon â
chè ra rà ng: “ò
 ä ü di trung bçnh ca m ä ü t tỉì m kh än g bao gi åì nh hån
entropy ca ngu ä ưn s ä ú liã û u â ỉ å ü c m họa
”. Do âọ, m üt b ü m t i ä äú ỉ
(cho hi ûu su t nẹn cao) la b ü m cọ â ü da i trung bçnh cu a t mã áú ì ä ä ì í ỉì
ti n g n â n ãú áư ãú
Entropy
cu a ngu n s li ûu.í äư äú ã
II.4. Nẹn tä ø n hao v nẹn khäng tä ø n hao
Cọ nhi u cạch â ph n loải cạc ph ng phạp nẹn. Cạch ph nãư ãø á ỉå á
loải d ûa va o nguy n l nẹn chia cạc ph ng phạp nẹn tha nh hai hỉ ì ã ỉå ì
chênh :
a. Nẹn tä ø n hao (lossy compression)
Nẹn tä ø n hao
co n gi la nẹn cọ m t mạt th ng tin. K thu ûtì ì áú ä á
nẹn na y ch p nh ûn m t mạt m üt l üng th ng tin nh t âënh â th áú á áú ä ỉå ä áú ãø

â üc hi ûu su t nẹn cao h n, do v ûy, sau khi gia i nẹn, ta s kh ng thå ã áú å á í ä
â üc d ỵ li ûu g c. ỉå ỉ ã äú
Nẹn tä ø n hao
th ng â üc ạp dủng cho cạc t ûp tin hçnh a nh haåì ỉå á í
m thanh â üc s họa. B i vç â i v ïi cạc t ûp tin thu üc loải na ỉå äú åí äú å á ä ì
thç vi ûc m t mạt m üt êt th ng tin la âi u cọ th ch p nh ûn â üc.ã áú ä ä ì ãư ãø áú á ỉå
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
2
1
1
1
L
L
-=R
D
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
9
b. Nẹn kh äng tä ø n hao (lossless compression)
Nẹn kh än g tä ø n hao
co n gi la ì ì
nẹn ch ê n h xạc
hay
nẹn kh ä ng m á ú t
th ä ng tin
. y la ph ng phạp nẹn ma sau khi gia i nẹn ta thu â ücÂá ì ỉå ì í ỉå
m üt ba n sao chênh xạc cu a d ỵ li ûu g c. Ph ng phạp nẹn na í í ỉ ã äú ỉå ì
th ng â üc ạp dủng â i v ïi cạc ngu n s li ûu ma n üi dungỉåì ỉå äú å äư äú ã ì ä
th ng tin c n â üc ba o toa n nh cạc vàn ba n dảng text, cạc ba ngä áư ỉå í ì ỉ í í
tênh hay la c s d ỵ li ûu,...ì å åí ỉ ã

Dảng nẹn ma ta nghi n c ïu trong â ạn na y la dảng ì ã ỉ äư ì ì
nẹn
kh äng t ä ø n hao
.
II.5. Nẹn s ä ú liã û u = Mä hçnh họa + M họa [2]
Nọi chung, nẹn s li ûu la chuy n â i m üt lu ng cạc kê hi ûú ã ì ãø äø ä äư ã
tha nh m üt lu ng cạc t m t ng ïng. N u hi ûu ïng nẹn xa y r ä äư ỉì ỉå ỉ ãú ã ỉ í
thç lu ng cạc t m s nho h n lu ng cạc kê hi ûu ban â u. Vi ûcäư ỉì í å äư ã áư ã
quy t âënh â a ra m üt t m nh t âënh cho m ùi kê hi ûu hồûc m ütãú ỉ ä ỉì áú ä ã ä
t ûp kê hi ûu d ûa tr n m üt á ã ỉ ã ä
m ä hçnh
.
Mä hçnh
chà ng qua chè la ó ì
m ä ü t tá û p
h å ü p s ä ú liã û u v cạ c nguy ãn tà õ c â ỉ å ü c s ỉ í du û ng â ã ø x ỉí l cạc k ê hi ã û u t ỉì
lưng nh á û p v xu á ú t ra cạc t ỉì m
.
Mä hçnh
cọ nhi ûm vủ xạc âënh xạcã
su t xu t hi ûn cu a t ng kê t û va /hồûc chu ùi kê t û va b ü ph ûnáú áú ã í ỉì ỉ ì ä ỉ ì ä á
m họa s tảo ra cạc t m d ûa tr n cạc xạc su t âọ.ỉì ỉ ã áú
Mä hçnh họa
va ì
m họa
la hai khại ni ûm hoa n toa n tạch bi ûtì ã ì ì ã
nhau. Th nh ng, chụng ta v ùn hay du ng thu ût ng ỵ “m họa” âãú ỉ á ì á ỉ ãø
nọi â n ca quạ trçnh nẹn s li ûu, màûc du , th ûc ch t âọ chè m ïiãú í äú ã ì ỉ áú å
la m üt giai âoản cu a quạ trçnh âọ. Vê dủ, chụng ta v ùn hay du ngì ä í á ì
cạc thu ût ng ỵ “á ỉ

m họa Huffman
”, “
m họa s ä ú ho ü c
” â nọi â n cạcãø ãú
k thu ût nẹn s li ûu, trong khi âọ chè la cạc ph ng phạp má äú ã ì ỉå
họa â üc s dủng cu ng v ïi m üt m hçnh na o âọ â nẹn sỉå ỉí ì å ä ä ì ãø äú
li ûu.ã
Cọ r t nhi u cạch â m hçnh họa ngu n s li ûu lải cọ tháú ãư ãø ä äư äú ã ãø
cu ng s dủng m üt ph ng phạp m họa â tảo ra cạc t m. Vêì ỉí ä ỉå ãø ỉì
dủ, chụng ta cọ th du ng ph ng phạp m họa Huffman cho ca haiãø ì ỉå í
m hçnh th ng k va m hçnh t âi n â nẹn s li ûu.ä äú ã ì ä ỉì ãø ãø äú ã
V ïi ph ng phạp m họa Huffman, ta th y m üt quạ trçnh nẹnå ỉå áú ä
s li ûu â y âu â üc bi u di ùn nh sau :äú ã áư í ỉå ãø ã ỉ
Hçnh 2.
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
Cạ c xạ c
su tá ú
Lu ng ä ư
nh ûpá
M ä
hçnh
M
hoạ
Lu ng ä ư
ra
Cạ c k
hi û
Cạ c t ỉì
m


Mä hç nh thä ú ng kã vå ï i m họ a
Huffman
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
10
.IIIL THU ÚT V ÃƯ M HỌA [7]
Nh â nọi, nẹn s li ûu la quạ trçnh bi n â i m üt lu ng cạcỉ äú ã ì ãú äø ä äư
t m tha nh m üt lu ng cạc t m. Quạ trçnh gia i nẹn s x lỉì ì ä äư ỉì í ỉí
lu ng cạc t m âọ â kh i phủc lải ngu n s li ûu ban â u. Nhäư ỉì ãø ä äư äú ã áư ỉ
v ûy, vi ûc tçm hi u v m nẹn d ỵ li ûu la âi u c n thi t.á ã ãø ãư ỉ ã ì ãư áư ãú
III.1. Â ë n h ngh éa m họa
M họa ngu n tin äư X theo b ü m ä M la phẹp ạnh xả 1:1 bi nì ãú
â i m üt tin xäø ä
i
∈ X tha nh m üt t h üp cạc kê hi ûu cu a b ü m ì ä äø å ã í ä M.
Ngu n äư X = {x
1
, x
2
, ..,x
n
}
B ü m ä M = {m
1
, m
2
, ..,m
k
}
V ïi k la c s cu a b ü må ì å äú í ä

Vê dủ, v ïi m nhë ph n k = 2.å á
N u tin xãú
i
â üc m họa tha nh mỉå ì
r1
, m
r2
, ..,m
rl
(l la s kê hi ûu cu äú ã í
b ü m du ng â bi u di ùn xä ì ãø ãø ã
i
va l cng la â ü da i t m).ì ì ä ì ỉì
Vê du û
X = {x
1
, x
2
, ..,x
4
}
B ü m nhë ph n ä á M = {0, 1}
M họa x
1
= 00, x
2
= 01, x
3
= 10, x
4

= 11
III.2. Mäüt s ä ú khại niã û m c å bn
.a Chi ãưu di tỉì m
Chi u da i t m la s kê hi ûu cu a b ü m du ng â mãư ì ỉì ì äú ã í ä ì ãø
họa cho t m âọ.ỉì
.b Tro üng lỉ å ü n g tỉì m
Trng l üng t m la t ng s cạc kê hi ûu khạc 0 cu a tỉå ỉì ì äø äú ã í ỉì
m
Vê du û: T m 1011010 cọ trng l üng la 4.ỉì ỉå ì
.c Khong cạch m
Khoa ng cạch m í
d
la s kê hi ûu khạc nhau tênh theo vë trêì äú ã
t ng ïng cu a hai t m cọ chi u da i bà ng nhau ỉå ỉ í ỉì ãư ì ò
W
1
, W
2
.
d(W
1
, W
2
) = w(W
1
⊕ W
2
)
, v ïi å ⊕ la phẹp c üng modul-2.ì ä
Khoa ng cạch cu a m üt b ü m la khoa ng cạch m nho nh tí í ä ä ì í í áú

cu a hai t m b t ky trong b ü m âọ.í ỉì áú ì ä
III.3. Phán loa ûi m
D ûa va o cạc âàûc âi m cu a m, ng i ta ph n m ra tha nhỉ ì ãø í ỉå ì á ì
nhi u loải khạc nhau. Sau â y la m üt s cạch ph n loải âi n hçnh:ãư á ì ä äú á ãø

Ph án loa ûi theo chiãưu di t ỉì m
M cọ chi u da i kh ng â i.ãư ì ä äø
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
11
M cọ chi u da i thay â i.ãư ì äø

Ph án loa ûi theo tro ü n g l ỉ å ü n g t ỉì m
M cọ trng l üng thay â i.ỉå äø
M cọ trng l üng c âënh.ỉå äú

Ph án loa ûi theo hiã û u su á ú t th ä ng tin
M t i u.äú ỉ
M ch a t i u.ỉ äú ỉ

Ph án loa ûi theo c å s ä ú ca b ä ü m
Cọ th tảo ra m üt b ü m cọ c s tu y . M nhë ph n (cọãø ä ä å äú ì á
c s 2) la ph bi n nh t.å äú ì äø ãú áú

Ph án loa ûi theo mu û c â ê c h s ỉ í du û ng m
M s .ä ú
M kê t û.ỉ
III.4. Mäüt s ä ú ph ỉ å n g phạp biã ø u diã ù n m thäng du ûng
Cọ nhi u ph ng phạp â bi u di ùn m. M ùi cạch â u cọãư ỉå ãø ãø ã ä ãư

nh ỵng u âi m va nh üc âi m ri ng. Tu y theo mủc âêch, ta cọ thỉ ỉ ãø ì ỉå ãø ã ì ãø
chn cạch bi u di ùn cho phu h üp.ãø ã ì å
a. Phỉ å n g phạp liã û t kã
Li ût k trong m üt ba ng nh ỵng tin cu a ngu n va ke m theo lẫ ã ä í ỉ í äư ì ì ì
cạc t m t ng ïng.ỉì ỉå ỉ
Vê du û : Ngu n tin äư X = {x
1
, x
2
, x
3
, x
4
}. Cạc l ïp tin cu a nọ â üc må í ỉå
họa nh sau:ỉ
Tin x
1
x
2
x
3
x
4
Tỉì
m
01 10 110 001
u âi m cu a ph ng phạp bi u di ùn na y la r ra ng, â n gia nỈ ãø í ỉå ãø ã ì ì ì å í
nh ng kh ng phu h üp v ïi nh ỵng b ü m l ïn.ỉ ä ì å å ỉ ä å
b. Phỉ å n g phạp â ä ư hçnh kã ú t c á ú u
Ph ng phạp na y bi u di ùn m bà ng m üt c y m rụt gn baå ì ãø ã ò ä á

g m cạc nụt va cạc nhạnh cọ h ïng. M ùi vo ng kên (bà t â ư ì ỉå ä ì õ áư
tải nụt g c, âi theo cạc nhạnh theo chi u mi t n, qua cạc nụtäú ãư ã
trung gian va k t thục tải nụt g c) s bi u di ùn cho m üt t m.ì ãú äú ãø ã ä ỉì
Th ï t û giạ trë cạc nhạnh tr n â ng âi chênh la th ï t û giạ trë cạcỉ ỉ ã ỉåì ì ỉ ỉ
kê hi ûu.ã
Vê du û : hçnh k t c u cu a b ü m 10,11,011,0101,0100.Âäư ãú áú í ä
Kê hi ûu v la toạn t OR, cạc nụt â üc âạnh s theo th ï t û xẫ ì ỉí ỉå äú ỉ ỉ
d n nụt g c.áư äú
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
Kyợ thu ỷt maợ hoùa Huffman v ùi m hỗnh t õi nỏ ồ ọ ổỡ óứ
12
Hỗnh 3.
c. Phổ ồ n g phaùp c ỏy
C y maợ õ ỹc bi u di ựn bao g m g c va caùc nhaùnh. Trong c yỏ ổồ óứ ó ọử ọỳ ỡ ỏ
coù ch ùa caùc nuùt. Nuùt g c chờnh la g c cu a c y (m ùc 0). Nuùt laùổ ọỳ ỡ ọỳ ớ ỏ ổ
n m t ỷn cu ng cu a nhaùnh. Tr nuùt g c va caùc nuùt laù ra, caùcũ ỏ ỡ ớ ổỡ ọỳ ỡ
nuùt co n laỷi la caùc nuùt nhaùnh. ỡ ỡ
T m ỹt nuùt nhaùnh coù th phaùt õi nhi u nh t la m nhaùnhổỡ ọ óứ óử ỏỳ ỡ
( ùng v ùi c s m cu a maợ). M ựi nhaùnh bi u di ựn cho m ỹt t maợ.ổ ồ ồ ọỳ ớ ọ óứ ó ọ ổỡ
T maợ õoù coù th ù t ỷ caùc trở kờ hi ỷu õi t g c, qua caùc nuùtổỡ ổ ổ ó ổỡ ọỳ
nhaùnh va d ng laỷi nuùt laù t ng ùng cu a nhaùnh.ỡ ổỡ ồớ ổồ ổ ớ
D ỷa va o c y maợ, chuùng ta coù th nh ỷn bi t maợ õaợ cho laổ ỡ ỏ óứ ỏ óỳ ỡ
maợ õ u (caùc nuùt laù coù cu ng b ỷc), hay kh ng õ u, maợ õ y hay v i.óử ỡ ỏ ọ óử ỏử ồ
Maợ la õ y khi moỹi nuùt nhaùnh b ỷc tr ùc caùc nuùt laù õ u coù mỡ ỏử ỏ ổồ óử
nhaùnh.
Vờ du ỷ : Cho b ỹ maợ ọ 00, 01, 11, 1010, 1011. C y maợ bi u di ựn choỏ óứ ó
b ỹ maợ na y la :ọ ỡ ỡ
Hỗnh 4.
Tr ỏửn Quang Minh

KHOA C NG NGH TH NG TIN
2
1
G C
3
4
0
1
1
0
0v1
1
0v1

ọ ử hỗnh k ó ỳ t c ỏ ỳ u cuớa b ọ ỹ maợ
10,11,011,0101,0100
0
1
0
1
0
1
0
1
1
m ù c g c ổ ọ ỳ
( 0 )
m ù c 1 (n = ổ
1)
m ù c 2 (n = ổ

2)
m ù c 3 (n = ổ
3)
m ù c 4 (n = ổ
4)
C ỏy maợ nh ở ph ỏn cho b ọ ỹ maợ 00,01,11,1010,1011
Kyợ thu ỷt maợ hoùa Huffman v ùi m hỗnh t õi nỏ ồ ọ ổỡ óứ
13
III.5. i ó ử u kió ỷ n õ ó ứ maợ ph ỏn taùch õ ổ ồ ỹ c
Maợ õ ỹc goỹi la coù ổồ ỡ
tờnh ph ỏ n taùch
n u nh khi nh ỷn õ ỹc m ỹtóỳ ổ ỏ ổồ ọ
chu ựi kờ hi ỷu trong quaù trỗnh taỷo maợ, chuùng ta coù th ọ ó óứ
taùch ra
õ ổ ồ ỹ c caùc thaỡnh ph ỏửn c ồ baớn
la caùc t maợ va caùch taùch õoù laỡ ổỡ ỡ ỡ
õu ù n g õ ừ n
va ỡ
duy nh ỏ ỳ t
(vỗ n u kh ng, b ỹ gia i maợ coù th seợ nh móỳ ọ ọ ớ óứ ỏử
l ựn trong quaù trỗnh la m vi ỷc).ỏ ỡ ó
coù tờnh ph n taùch õ ỹc, b ỹ maợ pha i tho a maợn õi u ki ỷnóứ ỏ ổồ ọ ớ ớ óử ó
c n va õu sau: B t ky daợy caùc t maợ na o cu a b ỹ maợ cuợngỏử ỡ ớ ỏỳ ỡ ổỡ ỡ ớ ọ
kh ng õ ỹc tru ng v ùi m ỹt daợy t maợ khaùc cu a cu ng b ỹ maợ.ọ ổồ ỡ ồ ọ ổỡ ớ ỡ ọ
ọ ỹ ch ỏ ỷ m giaới maợ :
ỹ ch ỷm gia i maợ la s kờ hi ỷu nh ỷn õ ỹc c n thi t õ coùọ ỏ ớ ỡ ọỳ ó ỏ ổồ ỏử óỳ óứ
th ph n taùch õ ỹc tha nh caùc t maợ.óứ ỏ ổồ ỡ ổỡ
i v ùi b ỹ maợ ph n taùch õ ỹc, õ ỹ ch ỷm gia i maợ la h ợuọỳ ồ ọ ỏ ổồ ọ ỏ ớ ỡ ổ
haỷn, nh ng cuợng coù tr ng h ỹp la v haỷn. i v ùi tr ng h ỹp vổ ổồỡ ồ ỡ ọ ọỳ ồ ổồỡ ồ ọ
haỷn, b ỹ maợ coù th xem la kh ng ph n taùch õ ỹc.ọ óứ ỡ ọ ỏ ổồ

ki m tra m ỹt b ỹ maợ coù tờnh ph n taùch hay kh ng, ng i taóứ óứ ọ ọ ỏ ọ ổồỡ
x y d ỷng ba ng th maợ ph n taùch va qua õoù, xaùc õởnh õ ỹ ch ỷmỏ ổ ớ ổớ ỏ ỡ ọ ỏ
gia i maợ. Caùc b ùc x y d ỷng ba ng th maợ ph n taùch :ớ ổồ ỏ ổ ớ ổớ ỏ
1. S ừ p xó ỳ p caùc t ổỡ maợ thaỡnh mọ ỹ t c ọ ỹ t. Cọ ỹ t naỡy õ ổ ồ ỹ c õa ùnh s ọ ỳ 1.
2. ọ ỳ i saùnh caùc tổỡ maợ ng ừ n vồ ùi caùc tổỡ maợ daỡi hồn trong c ọ ỹ t 1,
nó ỳ u tổỡ maợ ng ừ n truỡng vồ ùi ph ỏửn õ ỏ ử u cuớa tổỡ maợ daỡi hồn thỗ lỏ ỳy
ph ỏửn coỡn laỷi cuớa t ổỡ maợ daỡi ghi vaỡo c ọ ỹ t th ổ ù hai.
3. L ỷ p laỷi b ổ ồ ù c 2, vồ ùi c ọ ỹ t k laỡ c ọ ỹ t ch ổ ù a kó ỳ t quaớ õ ọ ỳ i saùnh gi ổợa
c ọ ỹ t (k-1) vồ ùi c ọ ỹ t (k-2). Tió ỳ p tuỷ c th ổ ỷ c hió ỷ n b ổ ồ ù c 3 cho õ ó ỳ n khi
c ọ ỹ t k trồớ n ón trọ ỳ n g rọ ự n g.
maợ coù tờnh ph n taùch, õi u ki ỷn c n va õu la : Trong c ỹtóứ ỏ óử ó ỏử ỡ ớ ỡ ọ
coù chố s k >= 2 kh ng coù m ỹt t h ỹp na o tru ng v ùi caùc t maợọỳ ọ ọ ọứ ồ ỡ ỡ ồ ổỡ
trong c ỹt 1.ọ
Vờ du ỷ : Cho b ỹ maợ ọ 01, 11, 001, 1001, 1011. Ta coù ba ng th maợớ ổớ
ph n taùch:ỏ
C ỹt 1ọ C ỹt 2ọ
01
11
001
1001
1011
Tr ỏửn Quang Minh
KHOA C NG NGH TH NG TIN
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
14
Ta cọ â ü ch ûm gia i m bà ng 0 vç c üt 2 tr ng r ùng. Nh v ûy, b üä á í ò ä äú ä ỉ á ä
m â cho cọ tênh ph n tạch.á
ü ch ûm gia i m cọ th â üc âạnh giạ qua ba ng th mÂä á í ãø ỉå í ỉí
ph n tạch nh sau:á ỉ
Trong â o ï:

T
c
: â ü ch ûm gia i m.ä á í
k: giạ trë cu a c üt r ùng.í ä ä
n
min
, n
max
: â ü da i t m ngà n nh t va da i nh t cu a b üä ì ỉì õ áú ì ì áú í ä
m.
Chụng ta cọ th rụt ra k t lu ûn qua cạc nh ûn xẹt va vê dủãø ãú á á ì
tr n:ã
M cọ kha nàng ph n tạch â üc khi va chè khi í á ỉå ì
b á ú t k m ä ü t tä ø
h å ü p m no cng kh ä ng trng v å ïi ph á ưn â á ư u ca b á ú t k m ä ü t tä ø h å ü p m
khạc trong cng b ä ü m.
III.6. M cọ tênh tiãưn tä ú (prefix)
Ph n áư
tiãưn tä ú (prefix)
cu a m üt t m cọ â ü da i l la í ä ỉì ä ì ì
m ä ü t b ä ü
ph á û n ca t ỉì m
âọ sau khi bo âi k kê hi ûu cu i cu ng (0 < k < l).í ã äú ì
Vê du û : T m ỉì
1001101
cọ cạc ti n t la : ãư äú ì
100110, 10011, 1001,
100, 10
va ì
1

.
 ë n h ngh éa
M üt b ü m â üc gi la cọ ä ä ỉå ì
tênh ch á ú t tiãưn tä
n u ú ãú
mo üi t ỉì m
thu ä ü c b ä ü m â ã ư u kh äng phi l ph áưn â á ư u ca m ä ü t t ỉì m khạc trong
cng b ä ü m
.
Nh va o tênh ch t ti n t na y ma m cọ tênh åì ì áú ãư äú ì ì
prefix
th ngỉåì
â üc s dủng â la m m nẹn d ỵ li ûu. Ta cọ th nh ûn th å ỉí ãø ì ỉ ã ãø á áú
rà ng, khi bi u di ùn m bà ng c y m, m cọ tênh ch t ti n t khiò ãø ã ò á áú ãư äú
cạc t m chè la ỉì ì
nụt lạ
.
III.7. Â ë n h l vãư â ä ü di trung bçnh tỉì m
Cho ngu n tin u = {ư
i
} v ïi i = 1 å ÷ n va cạc xạc su t p( áú
i
) t ngỉå
ïng. M họa cạc tin
i
bà ng m nhë ph n va gia s cạc kê hi û á ì í ỉí ã
cu a m cọ cạc xạc su t p(xí áú
i
) bà ng nhau: p(xò
i

) = p(X) = hà ng s . ò äú
Ta cọ l üng tin trung bçnh bà ng l üng tin cu a m üt kê hi ûu m vå ò ỉå í ä ã ì
âảt giạ trë c ûc âải:ỉ
I(x
i
) = I(x) = log
2
2 = 1 (bit / kê hi ûu)ã
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
maxmin
2
1
2
1
n
k
Tn
k
c







≤≤








K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
15
N u nãú
i
la chi u da i cu a m nhë ph n m họa tin ãư ì í á
i
thç l üngỉå
tin ch ïa trong t m la nỉ ỉì ì
i
bit. â y, l üng tin trung bçnh ch ïa trongÅÍ á ỉå ỉ
m üt t m bà ng â ü da i trung bçnh cu a cạc t m.ä ỉì ò ä ì í ỉì
tin t ïc kh ng bë hao hủt qua quạ trçnh m họa, l üng tinÂãø ỉ ä ỉå
trung bçnh cu a t m pha i kh ng nho h n l üng tin trung bçnh cu ỉì í ä í å ỉå í
m üt tin trong ngu n tin. V s âo, l üng tin trung bçnh cu a m üt tinä äư ãư äú ỉå í ä
bà ng v ïi ò å
Entropy
cu a ngu n tin í äư
E(u)
. phẹp m họa la âụng,Âãø ì
âi u ki ûn sau â y pha i â üc tho a mn :ãư ã á í ỉå í
E(u) ≤ n
tb
logm
hay
E(u) ≤ n

tb
Ta cọ âënh l :
 ä ü di trung bçnh ca m ä ü t tỉì m kh äng bao giåì bẹ
h å n tè s ä ú Entropy ca ngu ä ưn tin â ỉ å ü c m họa chia cho lỉ å ü n g tin trung bçnh
c ỉ û c â a û i ca m ä ü t k ê hiã û u m.
E(u)
chênh la ì
gi å ïi ha û n d ỉ å ï i
cu a â ü da i trung bçnh ní ä ì
tb
cu a m üt tí ä ỉì
m.
Nh v ûy, â ü da i trung bçnh nỉ á ä ì
tb
cu a m üt t m bà ng v ïi í ä ỉì ò å
Entropy
cu a ngu n tin khi va chè khi í äư ì
â ä ü di n
i
ca m ä ü t t ỉì m b á ú t k b à ò ng vå ï i
lỉ å ü n g tin riãng I(u
i
) ca tin m nọ m họa.
I(u
i
) â üc tênh bà ng -log(p(å ò
i
)).
B y gi , chụng ta âi xạc âënh gi ïi hản tr n cu a â ü da i trung bçnhá åì å ã í ä ì
cu a t m.í ỉì

Vç n
i
la m üt s nguy n, ma I( ä äú ã ì
i
) th ng kh ng pha i la m üt sỉåì ä í ì ä äú
nguy n n n â âảt â üc m üt b ü m cọ â ü da i trung bçnh nhỗ ã ãø ỉå ä ä ä ì í
nh t thç â ü da i cu a m ùi t m pha i tho a mn âi u ki ûn sau:áú ä ì í ä ỉì í í ãư ã
I(u
i
) ≤ n
i
≤ I(u
i
) + 1
L y trë trung bçnh th ng k hai v cu a b t âà ng th ïc, ta â üc :áú äú ã ãú í áú ó ỉ ỉå
E(u) ≤ n
tb
≤ E(u) + 1
T â y, ta cọ âënh l v ỉì á ãư
gi å ïi ha ûn tr ãn
cu a â ü da i trung bçnh cu a tí ä ì í ỉì
m :
Cọ th ã ø ta û o â ỉ å ü c b ä ü m cọ â ä ü di trung bçnh ca t ỉì m kh ä ng lå ïn
h å n t s ä ú Entropy ca ngu ä ư n â ỉ å ü c m họa trãn lỉ å ü n g tin trung bçnh c ỉ û c
âa û i ch ỉ ï a trong m ä ü t k ê hiã û u m c ä ü n g th ã m m ä ü t â å n vë.
M üt b ü m â üc gi la b ü m th ng k t i u khi nọ cọ â ü da iä ä ỉå ì ä äú ã äú ỉ ä ì
trung bçnh tho a mn hai gi ïi hản n u tr n. àûc âi m cu a m th ngí å ã ã Â ãø í äú
k t i u la :ã äú ỉ ì
• Xạc su t xu t hi ûn cu a cạc kê hi ûu trong t m kh ng phủáú áú ã í ã ỉì ä
thu üc va o s û cọ màût cu a cạc kê hi ûu ra tr ïc.ä ì ỉ í ã ỉå

Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
∑ ∑∑
= ==
+≤≤
n
i
n
i
iiii
n
i
ii
uIupnupuIup
1 11
1)()()()()(
Kyợ thu ỷt maợ hoùa Huffman v ùi m hỗnh t õi nỏ ồ ọ ổỡ óứ
16
Caùc kờ hi ỷu khaùc nhau cu a b ỹ maợ pha i cu ng xaùc su t, ch ngó ớ ọ ớ ỡ ỏỳ ú
haỷn v ùi maợ nhở ph n: p(0) = p(1) = 1/2. Coù nh v ỷy thỗ l ỹng tinồ ỏ ổ ỏ ổồ
cu a m ựi kờ hi ỷu m ùi õaỷt giaù trở c ỷc õaỷi.ớ ọ ó ồ ổ
Qua caùc nh ỷn xeùt tr n, ta th y r ng ỏ ó ỏỳ ũ õ ọ ỹ daỡi trung bỗnh tổỡ maợ tọ ỳ i
thió ứ u laỡ tióu chu ỏ ứ n cuớa maợ th ọ ỳ n g kó tọ ỳ i ổ u .
.IVMAẻ TH NG K T I ặU
Nh õaợ noùi, ti u chu n cu a maợ th ng k t i u la chi u da iổ ó ỏứ ớ ọỳ ó ọỳ ổ ỡ óử ỡ
trung bỗnh t maợ t i thi u. Do xaùc su t xu t hi ỷn cu a caùc tinổỡ ọỳ óứ ỏỳ ỏỳ ó ớ
trong ngu n tin la khaùc nhau n n vi ỷc du ng caùc t maợ ng n õọử ỡ ó ó ỡ ổỡ ừ óứ
maợ hoùa cho caùc tin coù t n su t xu t hi ỷn cao va ng ỹc laỷi, du ngỏử ỏỳ ỏỳ ó ỡ ổồ ỡ
caùc t maợ da i õ maợ hoùa cho caùc tin coù xaùc su t xu t hi ỷnổỡ ỡ óứ ỏỳ ỏỳ ó
th p seợ la m cho s kờ hi ỷu c n thi t õ maợ hoùa ngu n tin gia mỏỳ ỡ ọỳ ó ỏử óỳ óứ ọử ớ

õi. Nguy n t c c ba n cu a maợ th ng k t i u la d ỷa tr n c s õ ỹó ừ ồ ớ ớ ọỳ ó ọỳ ổ ỡ ổ ó ồ ồớ ọ
da i t maợ nỡ ổỡ
i
(tố l ỷ nghởch v ùi xaùc su t xu t hi ỷn pó ồ ỏỳ ỏỳ ó
i
), t ùc la caùcổ ỡ
tin coù xaùc su t xu t hi ỷn th p seợ maợ hoùa b ng caùc t maợ da iỏỳ ỏỳ ó ỏỳ ũ ổỡ ỡ
va ng ỹc laỷi.ỡ ổồ
C ng th ùc sau õ y du ng õ õaùnh giaù m ùc õ ỹ t i u cu a maợ th ngọ ổ ỏ ỡ óứ ổ ọ ọỳ ổ ớ ọỳ
k t i u: ó ọỳ ổ
Trong õ o ù:
D :
õ ỹ t i u cu a maợ.ọ ọỳ ổ ớ
L
dmin
: õ ỹ da i t maợ t i thi u cu a b ỹ maợ õ u c n du ngọ ỡ ổỡ ọỳ óứ ớ ọ óử ỏử ỡ
õ maợ hoùa.óứ
IV.1. Maợ Shannon-Fano
Va o nh ợng nm 1940, nh ợng nm õ u phaùt tri n cu a nga nhỡ ổ ổ ỏử óứ ớ ỡ
Lyù thuy t Th ng tin, yù t ng phaùt tri n m ỹt ph ng phaùp m ùi õóỳ ọ ổồ ớ óứ ọ ổồ ồ óứ
maợ hoùa d ợ li ỷu õaợ b t õ u xu t hi ỷn, sau khi caùc nha nghi nổ ó ừ ỏử ỏỳ ó ỡ ó
c ùu õaợ khaùm phaù ra ổ
Entropy
va ỡ
õ ọ ỹ d ổ th ổỡa s ọ ỳ lió ỷ u
.
Ph ng phaùp maợ hoùa õ u ti n õ ỹc nhi u ng i bi t õ n va oổồ ỏử ó ổồ óử ổồỡ óỳ óỳ ỡ
cu i nh ợng nm 1940 la ph ng phaùp ọỳ ổ ỡ ổồ maợ hoùa Shannon-Fano. Ph ngổồ
phaùp na y õ ỹc hai nha nghi n c ùu ỡ ổồ ỡ ó ổ Claude Shannon va ỡ R.M Fano õ a raổ
g n nh õ ng th i. Kyợ thu ỷt maợ hoùa na y d ỷa tr n t n su t xu tỏử ổ ọử ồỡ ỏ ỡ ổ ó ỏử ỏỳ ỏỳ

hi ỷn cu a m ựi kyù t ỷ trong ngu n s li ỷu c n õ ỹc maợ hoùa. Tó ớ ọ ổ ọử ọỳ ó ỏử ổồ ổỡ
ba ng ch ùa caùc t n su t õoù, ba ng maợ seợ õ ỹc x y d ỷng d ỷa va oớ ổ ỏử ỏỳ ớ ổồ ỏ ổ ổ ỡ
caùc tờnh ch t quan troỹng sau:ỏỳ

Caùc maợ khaùc nhau coù caù c bit bi ó ứ u dió ự n khaùc nhau.
Tr ỏửn Quang Minh
KHOA C NG NGH TH NG TIN
mind
L
L
D
=


=
i
ii
npLL :sau tờnh nh ổõ ỹcổồ maợ , b ỹọcu aớ bỗnh trungmaợ tổỡda iỡ õ ỹọ:
Kyợ thu ỷt maợ hoùa Huffman v ùi m hỗnh t õi nỏ ồ ọ ổỡ óứ
17

Kờ t ổ ỷ coù tỏửn su ỏ ỳ t xu ỏ ỳ t hi ó ỷ n caỡng cao thỗ maợ caỡng ng ừ n ( ờt bit ) vaỡ
ng ổ ồ ỹ c la ỷi.

Caùc maợ coù õ ọ ỹ daỡi bit khaùc nhau.
Maợ seợ õ ỹc x y d ỷng theo c u truùc c y nhở ph n, d ỷa va o thu ỷtổồ ỏ ổ ỏỳ ỏ ỏ ổ ỡ ỏ
toaùn sau:
Thuỏ ỷ t toaùn xỏy d ổ ỷ n g maợ Shannon-Fano :
Vaỡo : Ba ng t n s xu t hi ỷn cu a t t caùc kờ t ỷ coù mỷt trongớ ỏử ọỳ ỏỳ ó ớ ỏỳ ổ
ngu n s li ỷu.ọử ọỳ ó

(Ba ng õaợ õ ỹc s p x p theo th ù t ỷ tng d n hoỷc gia mớ ổồ ừ óỳ ổ ổ ỏử ớ
d n cu a t n s ). ỏử ớ ỏử ọỳ
Ra : C y nhở ph n bi u di ựn maợ.ỏ ỏ óứ ó
Bổ ồ ù c 1. Taùch ba ng tha nh hai ba ng con sao cho hi ỷu gi ợa t ngớ ỡ ớ ó ổ ọứ
caùc t n s trong m ựi ba ng con la nho nh t.ỏử ọỳ ọ ớ ỡ ớ ỏỳ
Bổ ồ ù c 2. Ba ng con phờa tr n õ ỹc gaùn giaù trở nhở ph n 0, ba ngớ ó ổồ ỏ ớ
con phờa d ùi õ ỹc gaùn trở nhở ph n 1.ổồ ổồ ỏ
Bổ ồ ù c 3. Ti p tuỷc th ỷc hi ỷn tu n t ỷ hai b ùc 1 va 2 cho m ựióỳ ổ ó ỏử ổ ổồ ỡ ọ
ba ng con õ ỹc taùch ra cho õ n khi caùc ba ng tha nh ph n kh ng thớ ổồ óỳ ớ ỡ ỏử ọ óứ
ph n chia õ ỹc n ợa.ỏ ổồ ổ
Nguy n t c chờnh la s duỷng ph ng phaùp õ ỷ qui õ x y d ỷng c yó ừ ỡ ổớ ổồ ó óứ ỏ ổ ỏ
maợ.
Vờ du ỷ : Gia thi t ta coù ba ng sau :ớ óỳ ớ
STT Kờ t ỷổ T n sỏử ọỳ
1 T 0.22
2 M 0.20
3 K 0.18
4 C 0.16
5 D 0.14
6 Y 0.06
7 V 0.04
Sau khi taùch ba ng l n th ù nh t, ta coù:ớ ỏử ổ ỏỳ
Kờ t ỷổ T nỏử
sọỳ
T 0.22 0
M 0.20 0
K 0.18 1
C 0.16 1
D 0.14 1
Y 0.06 1

V 0.04 1
Va sau l n taùch cu i cu ng:ỡ ỏử ọỳ ỡ
Tr ỏửn Quang Minh
KHOA C NG NGH TH NG TIN
L n taùchỏử
Kyợ thu ỷt maợ hoùa Huffman v ùi m hỗnh t õi nỏ ồ ọ ổỡ óứ
18
Kờ t ỷổ T nỏử
sọỳ
T 0.22 0 0
M 0.20 0 1
K 0.18 1 0 0
C 0.16 1 0 1
D 0.14 1 1 0
Y 0.06 1 1 1 0
V 0.04 1 1 1 1
Chuùng ta coù c y nhở ph n t ng ùng :ỏ ỏ ổồ ổ
Hỗnh 5.
Mọ ỹt v ờ du ỷ v óử c ỏ y nh ở ph ỏ n cho maợ Shannon-Fano
Ta qui ùc r ng, t m ỹt nuùt tr n c y maợ, reợ sang nuùt con traùiổồ ũ ổỡ ọ ó ỏ
(n u coù) seợ t ng ùng v ùi giaù trở 0, reợ sang nuùt con pha i seợ t ngóỳ ổồ ổ ồ ớ ổồ
ùng v ùi giaù trở 1. T maợ cu a m ựi kờ t ỷ seợ õ ỹc xaùc õởnh b ngổ ồ ổỡ ớ ọ ổ ổồ ũ
caùch tờch luợy caùc giaù trở nhở ph n khi õi t nuùt g c qua caùc nuùtỏ ổỡ ọỳ
nhaùnh cho õ n nuùt laù ch ùa kờ t ỷ õoù. Nh v ỷy, chuùng ta coù ba ngóỳ ổ ổ ổ ỏ ớ
maợ sau:
Kờ t ỷổ T nỏử
sọỳ
T maợổỡ ỹ da iọ ỡ
(bits)
T 0.22 00 2

M 0.20 01 2
K 0.18 100 3
C 0.16 101 3
D 0.14 110 3
Y 0.06 1110 4
Tr ỏửn Quang Minh
KHOA C NG NGH TH NG TIN
L n taù ch 1ỏ ử
L n taù ch 2ỏ ử
L n taù ch 3ỏ ử
L n taù ch 4ỏ ử
L n taù ch 5ỏ ử
L n taù ch 6ỏ ử
K
C
D
Y
B
V
M
0
1
0
1
0
1
0
1
0
1

0
1
G C
T
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
19
V 0.04 1111 4
Nhá û n xẹt :
• M Shannon-Fano la m cọ â ü da i t m thay â i.ì ä ì ỉì äø
• Tr n c y nhë ph n bi u di ùn m, kê t û na o cọ t n s xu tã á á ãø ã ỉ ì áư äú áú
hi ûn cao thç s nà m g n g c, do v ûy nọ cọ t m ngà n.ã ò áư äú á ỉì õ
Ng üc lải, kê t û na o cọ t n s xu t hi ûn th p thç s nà mỉå ỉ ì áư äú áú ã áú ò
xa g c va s cọ t m da i. i u na y hoa n toa n phu h üpäú ì ỉì ì Â ãư ì ì ì ì å
v ïi nguy n l cu a k thu ût nẹn d ỵ li ûu.å ã í á ỉ ã
• ü da i t m cu a m Shannon-Fano la m üt s nguy n cạcÂä ì ỉì í ì ä äú ã
bêt.
IV.2. M s ä ú ho ü c
Nh â nọi, â ü da i t m cu a m Shannon-Fano pha i la m ütỉ ä ì ỉì í í ì ä
s nguy n cạc bêt. Ng i ta â ca i ti n nh üc âi m na y bà ngäú ã ỉåì í ãú ỉå ãø ì ò
cạch â a ra m üt loải m khạc, âọ la m s hc. Ph ng phạp mỉ ä ì äú ỉå
họa s hc hoa n ha o h n cạc ph ng phạp m họa khạc ch ùäú ì í å ỉå åí ä
nọ kh ng tảo ra m üt t m â n le cho m ùi kê hi ûu ma nọ chè tảộ ä ỉì å í ä ã ì
ra m üt t m duy nh t cho toa n b ü ngu n s li ûu. Nghéa la m ütä ỉì áú ì ä äư äú ã ì ä
kê hi ûu cọ th â üc m họa bà ng 3.5 bêt.ã ãø ỉå ò
Nguy n tà c chênh cu a ph ng phạp m họa na y la m họẫ õ í ỉå ì ì
toa n b ü lu ng s li ûu tha nh m üt s . M ùi kê t û / x u kê t û cu ä äư äú ã ì ä äú ä ỉ á ỉ í
lu ng nh ûp s â üc bi n â i tha nh m üt s th ûc cọ giạ trë thu ücäư á ỉå ãú äø ì ä äú ỉ ä
n a khoa ng [0;1). Vi ûc bi n â i na y tu n theo ạnh xả 1-1.ỉí í ã ãú äø ì á
i v ïi ph ng phạp na y, tr ïc h t, chụng ta c n l ûp ba ngÂäú å ỉå ì ỉå ãú áư á í
th ng k t n s xu t hi ûn cu a cạc kê t û. Sau âọ gạn cho m ùi kêäú ã áư äú áú ã í ỉ ä

t û m üt khoa ng bi n thi n ma ta gi la hảng cu a kê t û âọ.ỉ ä í ãú ã ì ì í ỉ
Vê du û :
Chụng ta c n m họa chu ùi “áư ä MICROSOFT!”. Ba ng th ng k t n su tí äú ã áư áú
nh sau :ỉ

t ûỉ
T n sáư äú
xu táú
hi ûnã
Khoa ng bi ní ãú
thi nã
C 1/10 0.0≤r<0.1
F 1/10 0.1≤r<0.2
I 1/10 0.2≤r<0.3
M 1/10 0.3≤r<0.4
O 2/10 0.4≤r<0.6
R 1/10 0.6≤r<0.7
S 1/10 0.7≤r<0.8
T 1/10 0.8≤r<0.9
! 1/10 0.9≤r<1.0
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
20
D ûa va o ba ng tr n, chụng ta l ûp ba ng th hi ûn cạc c ûn tr n, c ûnỉ ì í ã á í ãø ã á ã á
d ïi va hảng cu a cạc kê t û trong chu ùi:ỉå ì í ỉ ä

t ûỉ
T n sáư äú
xu táú

hi ûnã
C ûná
d ïiỉå
C ûná
tr nã
Hản
g
C 1/10 0.0 0.1 0.1
F 1/10 0.1 0.2 0.1
I 1/10 0.2 0.3 0.1
M 1/10 0.3 0.4 0.1
O 2/10 0.4 0.6 0.2
R 1/10 0.6 0.7 0.1
S 1/10 0.7 0.8 0.1
T 1/10 0.8 0.9 0.1
! 1/10 0.9 1.0 0.1
Chụng ta cọ thu ût toạn m họa chu ùi tr n nh sau (bi u di ùná ä ã ỉ ãø ã
bà ng ng n ng ỵ gia Pascal) :ò ä ỉ í
Vo :

Msg
: chu ùi kê t û c n m họa.ä ỉ áư

Can_duoi, Can_tren
: hai ma ng ch ïa cạc c ûn d ïi va c ûn tr n cu ỉ á ỉå ì á ã í
cạc kê t û.ỉ
Ra : M cu a chu ùi kê t û âo ï.í ä ỉ
Ta qui ïc rà ng, ỉå ò
Can_duoi[i]
la c ûn d ïi cu a kê t û th ï i trong th ngì á ỉå í ỉ ỉ ä

âi ûp. T ng t û cho tr ng h üp ã ỉå ỉ ỉåì å
Can_tren[i]
Begin
Canduoi :=0.0;
Cantren :=1.0;
For
i:=1
to
length(Msg)
do begin
Hang := Cantren - Canduoi;
Cantren :=Canduoi +
Hang*Can_tren[i];
Canduoi :=Canduoi +
Hang*Can_duoi[i];
End;
End;
M cu a chu ùi kê t û c n m họa chênh la í ä ỉ áư ì giạ trë sau cng cu
Canduoi
.
IV.3. M Huffman (s â ỉ å ü c giå ïi thiã û u chi tiã ú t åí cạc ch ỉ å n g tiã ú p
theo)
.VMÄ HÇNH HỌA NGƯN S Ä Ú LIÃ ÛU
Nh ta â bi t, ỉ ãú
Entropy
cu a ngu n s li ûu phủ thu üc va o xạcí äư äú ã ä ì
su t, trong khi âọ, xạc su t lải phủ thu üc va o m hçnh. Do âọ, xạcáú áú ä ì ä
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø

21
su t s thay â i n u nh chụng ta thay â i m hçnh va áú äø ãú ỉ äø ä ì
Entropy
cng
bi n â i theo. Nh v ûy, cọ th th y rà ng hi ûu qua nẹn phủãú äø ỉ á ãø áú ò ã í
thu üc r t nhi u va o m hçnh. ä áú ãư ì ä
Nhçn chung, quạ trçnh
nẹn kh än g t ä ø n hao
â üc th ûc hi ûn d ûa va å ỉ ã ỉ ì
m üt trong hai ki u m hçnh khạc nhau: ä ãø ä m ä hçnh th ä ú n g kã (Statistical) v
mä hçnh tỉì âi ã ø n (Dictionary-based) . Nẹn theo m hçnh th ng k s mä äú ã
họa m ùi lục m üt kê hi ûu d ûa va o t n su t xu t hi ûn cu a nọ.ä ä ã ỉ ì áư áú áú ã í
Nẹn theo m hçnh t âi n s m họa m ùi lục m üt chu ùi kê hi û ỉì ãø ä ä ä ã
chè bà ng m üt t m. Nh v ûy, vai tro cu a m hçnh la v cu ng quanò ä ỉì ỉ á ì í ä ì ä ì
trng. M üt m hçnh t t s cho hi ûu qua nẹn cao va ng üc lải.ä ä äú ã í ì ỉå
V.1. Mä hçnh thä ú n g kã
Dảng â n gia n nh t cu a m hçnh na y, âụng nh t n gi cu ẩ í áú í ä ì ỉ ã í
nọ, la th ng k cạc kh i s li ûu âi n hçnh na o âo ï â cọ â ücì äú ã äú äú ã ãø ì ãø ỉå
m üt ba ng ténh li ût k cạc giạ trë t n su t. D ûa va o ba ng na y,ä í ã ã áư áú ỉ ì í ì
m üt c y m ténh â üc x y d ûng sàơn va l u gi ỵ â cọ th sä á ỉå á ỉ ì ỉ ỉ ãø ãø ỉí
dủng nhi u l n. M üt m hçnh nh th â üc gi la m hçnh th ngãư áư ä ä ỉ ãú ỉå ì ä äú
k ténh (Static statistical model).ã
R ra ng, vi ûc ạp dủng m üt m hçnh ténh cho nhi u loải sì ã ä ä ãư äú
li ûu khạc nhau la kh ng t i u. B i vç n u s li ûu â u va o kh ngã ì ä äú ỉ åí ãú äú ã áư ì ä
t ng h üp v ïi m hçnh thç hi ûu qua nẹn s kẹm âi, â i khi co nỉå å å ä ã í ä ì
phạt sinh hi ûn ïng n s li ûu.ã ỉ åí äú ã
Chụng ta cọ th khà c phủc nh üc âi m tr n bà ng cạch x ø õ ỉå ãø ã ò á
d ûng m hçnh ténh ri ng cho t ng ki u s li ûu. Tuy nhi n, m üt v nỉ ä ã ỉì ãø äú ã ã ä áú
â khạc lải na y sinh, âọ la chụng ta pha i g i ke m m üt l üng sãư í ì í åí ì ä ỉå äú
li ûu th ng k nh t âënh (c u trục c y m) âi theo lu ng t m âã äú ã áú áú á äư ỉì ãø

phủc vủ cho vi ûc gia i m sau na y. V ïi m hçnh b ûc 0, l üng sã í ì å ä á ỉå äú
li ûu th ng k tr n la kh ng âạng k (khoa ng 256 bytes), nh ng v ïiã äú ã ã ì ä ãø í ỉ å
m hçnh b ûc cao h n, l üng s li ûu âọ quạ l ïn (chà ng hản v ïi mä á å ỉå äú ã å ó å ä
hçnh b ûc 1, con s âọ x p xè bà ng 256x256 = 64 KB).á äú áú ò
(Bá û c ca m ä hçnh thä ú n g kã : Xạc su t xu t hi ûn cu a m üt kêáú áú ã í ä
hi ûu la m üt khại ni ûm t ng â i va kh ng c âënh, b i vç nọ cọã ì ä ã ỉå äú ì ä äú åí
th thay â i tu y theo m hçnh â üc thi t l ûp. M üt m hçnh th ng kãø äø ì ä ỉå ãú á ä ä äú ã
xạc âënh xạc su t xu t hi ûn cu a m üt kê hi ûu d ûa va o cạc kêáú áú ã í ä ã ỉ ì
hi ûu â ïng tr ïc nọ cho ta cạc m hçnh v ïi cạc b ûc khạc nhau.ã ỉ ỉå ä å á
Cạc kê hi ûu â ïng tr ïc na y tảo tha nh ng ỵ ca nh (context) cu a mã ỉ ỉå ì ì ỉ í í ä
hçnh. B ûc cu a m hçnh th ng k chênh la s kê hi ûu ch ïa trong ng ỵá í ä äú ã ì äú ã ỉ ỉ
ca nh âọ. Vê dủ, n u s kê hi ûu â ïng tr ïc ma ta xem xẹt â n l ãú äú ã ỉ ỉå ì ãú ì
0 thç ta cọ m hçnh th ng k b ûc 0.)ä äú ã á
Chênh vç nh ỵng hản ch tr n ma ng i ta chè t ûp trung phạtỉ ãú ã ì ỉåì á
tri n ãø
m ä hçnh th ä ú n g k ã th ê c h ỉ ï n g
, co n gi la ì ì
m ä hçnh th ä ú n g k ã â ä ü n g
(Dynamic statistical model)
. V ïi m hçnh na y, s li ûu th ng k â i v ïiå ä ì äú ã äú ã äú å
ngu n s li ûu kh ng c n pha i cọ va g i âi ke m lu ng t mäư äú ã ä áư í ì å í ì äư ỉì
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
22
ma s â üc têch ly va li n tủc s a â i ngay trong m ùi quạ trçnhì ỉå ì ã ỉí äø ä
m họa hồûc gia i m.í
Hçnh 6.
Hçnh 7.
Trong ca hai quạ trçnh m họa hồûc gia i m, c n chụ í í áư

rà ng, b ü ph ûn “c ûp nh ût m hçnh” pha i la m vi ûc chênh xạc nhò ä á á á ä í ì ã ỉ
nhau. Trong quạ trçnh m họa, khi m üt kê hi ûu â üc âc va o nọä ã ỉå ì
s â üc m họa theo m hçnh hi ûn th i, ngay sau âọ, m hçnh sỉå ä ã åì ä
â üc c ûp nh ût d ûa va o kê hi ûu âọ. T ng t û cho quạ trçnh gia iỉå á á ỉ ì ã ỉå ỉ í
m, khi m üt t m â üc âc, nọ â üc gia i m theo m hçnh hi ûnä ỉì ỉå ỉå í ä ã
tải, sau âọ, m hçnh s â üc c ûp nh ût d ûa va o kê hi ûu v a â ücä ỉå á á ỉ ì ã ỉì ỉå
gia i m.í
Cọ th nh ûn th y rà ng, khi m hçnh m ïi bà t â u hoảt â üng,ãø á áú ò ä å õ áư ä
hi ûu ïng nẹn ch a th xu t hi ûn ngay, b i vç nọ ch a cọ m ütã ỉ ỉ ãø áú ã åí ỉ ä
th ng tin gç v ngu n s li ûu â u va o. Hi ûu ïng nẹn chè th y rä ãư äư äú ã áư ì ã ỉ áú
khi m üt l üng kê hi ûu âu nhi u â â üc x l. u âi m cu a mä ỉå ã í ãư ỉå ỉí Ỉ ãø í ä
hçnh th ng k â üng la nọ cọ th thêch ïng v ïi h u h t cạc loảiäú ã ä ì ãø ỉ å áư ãú
d ỵ li ûu.ỉ ã
V.2. Mä hçnh tỉì âi ã ø n (Dictionary-based)
àûc âi m chung cu a cạc m hçnh th ng k la m họa (va gia i ãø í ä äú ã ì ì í
m) m ùi lục m üt kê hi ûu. Co n cạc m hçnh t âi n thç tảo mä ä ã ì ä ỉì ãø
theo m üt c ch hoa n toa n khạc bi ût. Nguy n tà c cu a chụng lậ å ãú ì ì ã ã õ í ì
tảo m üt ạnh xả t m üt chu ùi kê hi ûu tha nh m sao cho kêchä ỉì ä ä ã ì
th ïc cu a m nho h n kêch th ïc cu a chu ùi kê hi ûu âo ï. Khi mỉå í í å ỉå í ä ã
họa, d ỵ li ûu â üc âc va o va thu ût toạn tçm xem cọ nhọm kêỉ ã ỉå ì ì á
hi ûu t ng h üp na o xu t hi ûn trong t âi n hay kh ng. N u cọ, nọã ỉå å ì áú ã ỉì ãø ä ãú
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
X ú t
tỉ ì m
Cá û p
nhá û p
mä hç nh
Mä hç nh
 o ü c mä ü t

k hiã û u
M họ a
k hiã û u
Ng ưn
s ä ú liã û u
L ưng
tỉ ì m
M hoạ theo mä hç nh thä ú ng kã thê c h
ỉ ï ng [2]
 o ü c mä ü t
tỉ ì m
L ưng vo
( c ạ c tỉ ì
m )

Gii m theo mä hç nh thä ú ng kã thê c h
ỉ ï ng [2]
Gii m
tỉ ì m
Mä hç nh
Cá û p
nhá û p
mä hç nh
X ú t
k hiã û u

K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
23
s xu t ra m üt m ạnh xả â n nhọm kê hi ûu âọ. D ỵ li ûu â ú ä ãú ã ỉ ã áư
va o ca ng t ng h üp v ïi cạc nhọm kê hi ûu trong t âi n hồûc kêchì ì ỉå å å ã ỉì ãø

th ïc nhọm kê hi ûu â üc ạnh xả ca ng l ïn thç hi ûu qua nẹnỉå ã ỉå ì å ã í
ca ng cao. â y, vai tro cu a m hçnh họa la c ûc kç quan trng, co nì ÅÍ á ì í ä ì ỉ ì
m họa chè âọng vai tro th ï y u.ì ỉ ãú
Th ûc t cho th y, so v ïi cạc k thu ût nẹn s dủng m hçnhỉ ãú áú å á ỉí ä
th ng k , cạc k thu ût nẹn ạp dủng m hçnh t âi n cho m ütäú ã á ä ỉì ãø ä
hi ûu qua nẹn cao h n nhi u, ca v tè s nẹn, t c â ü nẹn vẫ í å ãư í ãư äú äú ä ì
gia i nẹn. ọ la l do chụng â üc s dủng ph bi n hi ûn nay.í Â ì ỉå ỉí äø ãú ã
M hçnh t âi n â üc ph n tha nh hai loải: ä ỉì ãø ỉå á ì
m ä hçnh t ỉì âi ã ø n ténh
va ì
m ä hçnh t ỉì âi ã ø n â ä ü n g
(co n gi la ì ì
m ä hçnh t ỉì âi ã ø n th ê ch ỉ ï n g
).
cạc sạch bạo khoa hc, chụng ta th ng th y cọ danh sạchÅÍ ỉåì áú
cạc ta i li ûu tham kha o, trong âọ, m ùi t n sạch tham kha o â ücì ã í ä ã í ỉå
t üng tr ng b i m üt con s nà m trong ngồûc vu ng. M ùi khi mu nỉå ỉ åí ä äú ò ä ä äú
d ùn ch ïng t n ta i li ûu tham kha o na o âọ â cọ trong danh sạch,á ỉ ã ì ã í ì
ng i vi t chè vi ûc thay bà ng con s t üng tr ng t ng ïng. i åì ãú ã ò äú ỉå ỉ ỉå ỉ Â ãư
na y r ra ng la cọ tạc dủng gia m b ït kêch th ïc cu a ngu n sì ì ì í å ỉå í äư äú
li ûu. M hçnh t âi n ténh cng cọ dảng nh th . â y, t âi nã ä ỉì ãø ỉ ãú ÅÍ á ỉì ãø
ténh âọng vai tro nh danh sạch cạc ta i li ûu tham kha o nọi tr n. Tu ỉ ì ã í ã
v ûy, m üt âi m b t l üi cu a m hçnh na y la , cng gi ng nh má ä ãø áú å í ä ì ì äú ỉ åí ä
hçnh th ng k ténh, t âi n pha i â üc g i ke m theo s li ûu âäú ã ỉì ãø í ỉå å í ì äú ã
â üc m họa. i u na y la m kêch th ïc cu a d ỵ li ûu nẹn tàng l n.ỉå Â ãư ì ì ỉå í ỉ ã ã
M hçnh t âi n â üng â üc â a ra nhà m khà c phủc nh ücä ỉì ãø ä ỉå ỉ ò õ ỉå
âi m tr n. M hçnh t âi n â üng t ûa nh cạch vi t tà t ma ta v ùnãø ã ä ỉì ãø ä ỉ ỉ ãú õ ì á
th ng th y trong sạch bạo: mu n vi t tà t m üt củm t na o âo ïỉåì áú äú ãú õ ä ỉì ì
thç ngay trong l n xu t hi ûn â u ti n cu a nọ, ng i ta s vi t ke máư áú ã áư ã í ỉå ì ãú ì
theo củm k t û vi t tà t trong càûp ngồûc â n, va k t âo ï, m ùiỉ ãú õ å ì ãø ỉì ä

khi nọ xu t hi ûn thç ta lải thay th bà ng củm t vi t tà t t ngáú ã ãú ò ỉì ãú õ ỉå
ïng.ỉ
CHỈ ÅNG II
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
24
III.PHỈ NG PHẠP M HỌA HUFFMAN V ÏI MÅ Å Ä
HÇNH TH NG KÄÚ Ã
I. PHỈÅNG PHẠP M HỌA HUFFMAN
Ph ng phạp m họa Huffman â üc ỉå ỉå D.A.Huffman â a ra va o nàmỉ ì
1952. Ph ng phạp m họa na y â kh i â u cho s û phạt tri nỉå ì åí áư ỉ ãø
cu a cạc k thu ût nẹn s li ûu d ûa tr n m hçnh th ng k . T âọí á äú ã ỉ ã ä äú ã ỉì
â n nay, k thu ût m họa Huffman â cọ nhi u ca i ti n, cho rẫú á ãư í ãú
â i nhi u loải m Huffman khạc nhau nh : å ì ãư ỉ
m Huffman s ỉ ía â ä ø i
(Modified Huffman codes), m Huffman cu ût (Truncated Huffman codes), m
Huffman th ê c h ỉ ï n g (Adaptive Huffman codes)
va ì
m d ë c h Huffman (Shift
Huffman codes)
.
M Huffman â üc D.Huffman â a ra chênh la m Huffman ténh.ỉå ỉ ì
I.1. M Huffman ténh
.a Cåí s åí nẹn s ä ú liã û u ca ph ỉ å n g phạp m họa Huffman ténh
Ph ng phạp m họa Huffman la ph ng phạp d ûa va o m hçnhỉå ì ỉå ỉ ì ä
th ng k . D ûa tr n ngu n s li ûu, ng i ta âi äú ã ỉ ã äư äú ã ỉå ì
th ä ú n g k ã táưn su á ú t xu á ú t
hi ã û n ca cạc k ê t ỉ
û. Tr n c s ba ng t n su t â üc x y d ûng, ng iã å åí í áư áú ỉå á ỉ ỉå ì

ta bi u di ùn cạc kê t û cọ t n su t th p bà ng cạc t m da i,ãø ã ỉ áư áú áú ò ỉì ì
cạc kê t û cọ t n su t cao bà ng cạc t m ngà n. Nọi m üt cạchỉ áư áú ò ỉì õ ä
khạc, cạc kê t û cọ t n su t xu t hi ûn ca ng cao thç â üc bi áư áú áú ã ì ỉå ãø
di ùn bà ng m ca ng ngà n va ng üc lải. ü da i cu a t m â ücã ò ì õ ì ỉå Âä ì í ỉì ỉå
tênh theo bit. V ïi cạch th ïc na y, ta â la m gia m â ü da i trung bçnhå ỉ ì ì í ä ì
cu a t m bà ng cạch du ng chi u da i bi n â i.í ỉì ò ì ãư ì ãú äø
.b Phỉ å n g phạp ta ûo m Huffman ténh
D ûa va o ba ng th ng k t n su t, chụng ta âi x y d ûng m üt c ì í äú ã áư áú á ỉ ä á
kh ng c n bà ng (c y cọ m üt s nhạnh kh ng da i bà ng nhau). M ïcä á ò á ä äú ä ì ò ỉ
â ü kh ng c n bà ng cu a c y phủ thu üc va o t n su t xu t hi ûn cu ậ ä á ò í á ä ì áư áú áú ã í
cạc kê t û. M üt c y nh v ûy â üc gi la c y m Huffman.ỉ ä á ỉ á ỉå ì á
C y m Huffman la m üt c y nhë ph n cọ cạc nhạnh â üc gạná ì ä á á ỉå
cho giạ trë nhë ph n 0 hồûc 1. i m t ûn cu ng cu a m üt nhạnh â ücá Â ãø á ì í ä ỉå
gi la nụt lạ. M ùi nụt lạ â üc gạn cho m üt kê t û c n m họ ä ỉå ä ỉ áư
va t n s xu t hi ûn cu a kê t û âo ï â üc gi la trng l üng cu áư äú áú ã í ỉ ỉå ì ỉå í
nụt lạ t ng ïng. Nụt g c chênh la g c cu a c y, co n âi m rỉå ỉ äú ì äú í á ì ãø
cu a m üt nhạnh â üc gi la nụt nhạnh.í ä ỉå ì
Xu t phạt t m üt nụt nhạnh, nhạnh r b n trại â üc gạnáú ỉì ä ã ỉå
giạ trë 0, va nhạnh r b n pha i â üc gạn giạ trë 1. T m cu ã í ỉå ỉì í
m üt kê t û â üc xạc âënh bà ng cạch duy ût t tr n xu ng, xu tä ỉ ỉå ò ã ỉì ã äú áú
phạt tải nụt g c va k t thục tải nụt lạ t ng ïng v ïi kê t û âọ.äú ì ãú ỉå ỉ å ỉ
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
25
Trong quạ trçnh duy ût, cạc bêt cu a t m â üc têch ly d n theỗ í ỉì ỉå áư
giạ trë ïng v ïi cạc nhạnh pha i âi qua.ỉ å í
Vê du û :
C y m Huffman m họa cho chu ùi “á ä BARBADIA” la :ì
Hçnh 8.

Mä üt v ê du û v ã ư c áy m Huffman
Kê t ûỉ S l näú áư
xu t hi ûnáú ã
T mỉì
A 3 0
B 2 10
D 1 1111
I 1 1110
R 1 110
Nh v ûy â m x u kê t û tr n ta chè c n 3x1 + 2x2 + 1x4 + 1x4 + 1x3ỉ á ãø á ỉ ã áư
= 18 bits, nho h n nhi u so v ïi kêch th ïc ban â u la 8x8= 64 bits.í å ãư å ỉå áư ì
Th û t toạn xáy dỉ û n g c áy m Huffman ténh
• Vo : Ba ng th ng k t n su t cu a cạc kê t û trong ngu n sí äú ã áư áú í ỉ äư äú
li ûu.ã
• Ra : C y m Huffman.á
Bỉ å ï c 1.Tçm hai nụt t û do cọ trng l üng nho nh t.ỉ ỉå í áú
Bỉ å ï c 2.Nụt cha cu a hai nụt na y â üc tảo ra v ïi trng l üngí ì ỉå å ỉå
bà ng t ng trng l üng cu a hai nụt con.ò äø ỉå í
Bỉ å ï c 3.Th m nụt cha v a â üc tảo ra va o danh sạch cạc nụt.ã ỉì ỉå ì
ạnh d u nụt cha la “t û do”, hai nụt con la “â xẹt”. áú ì ỉ ì
Bỉ å ï c 4.Gạn bêt m 0 cho nhạnh con trại xu t phạt t nụt cha,áú ỉì
nhạnh con phại â üc gạn bêt m 1.ỉå
Bỉ å ï c 5.Làûp lải t b ïc 1 â n b ïc 4 cho â n khi chè co n m ütỉì ỉå ãú ỉå ãú ì ä
nụt t û do. Nụt na y chênh la nụt g c cu a c y m Huffman.ỉ ì ì äú í á
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
B
R
I
D

A
0
1
0
1
0
1
0
1
Nụ t
g cä ú
Nụ t
lạ
Nụ t
lạ
Nụ t
lạ
Nụ t
lạ
Nụ t
lạ
Nụ t
nhạ nh
Nụ t
nhạ nh
Nụ t
nhạ nh

×