K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
1
CHỈ ÅNG 0.
I. GIÅÏI THIÃÛU....................................................................................................................................................3
II. L THUÚT TÄØNG QUAN VÃƯ NẸN DỈỴ LIÃÛU...........................................................................6
.I KHẠI NIÃÛM VÃƯ NẸN DỈỴ LIÃÛU...........................................................................................................................6
.II MÄÜT SÄÚ KHẠI NIÃÛM CÅ BN............................................................................................................................7
II.1. Tè lãû nẹn (compression ratio)................................................................................................................7
II.2. Âäü dỉ thỉìa säú liãûu............................................................................................................................7
.a Sỉû làûp lải ca nhỉỵng kê tỉû.................................................................................................................................7
.b Sỉû phán bäú cạc kê tỉû..............................................................................................................................................7
.c Âäü dỉ thỉìa vë trê.......................................................................................................................................................7
.d Nhỉỵng máùu sỉí dủng máût âäü cao.........................................................................................................................8
II.3. Âäü di trung bçnh tỉì m....................................................................................................................8
II.4. Nẹn täøn hao v nẹn khäng täøn hao....................................................................................................8
a. Nẹn täøn hao (lossy compression)...............................................................................................................................8
b. Nẹn khäng täøn hao (lossless compression)................................................................................................................9
II.5. Nẹn säú liãûu = Mä hçnh họa + M họa [2]......................................................................................9
.III L THUÚT VÃƯ M HỌA [7].........................................................................................................................10
III.1. Âënh nghéa m họa ............................................................................................................................10
III.2. Mäüt säú khại niãûm cå bn...............................................................................................................10
.a Chiãưu di tỉì m......................................................................................................................................................10
.b Trng lỉåüng tỉì m................................................................................................................................................10
.c Khong cạch m.......................................................................................................................................................10
III.3. Phán loải m......................................................................................................................................10
III.4. Mäüt säú phỉång phạp biãøu diãùn m thäng dủng.........................................................................11
a. Phỉång phạp liãût kã.................................................................................................................................................11
b. Phỉång phạp âäư hçnh kãút cáúu..............................................................................................................................11
c. Phỉång phạp cáy.......................................................................................................................................................12
III.5. Âiãưu kiãûn âãø m phán tạch âỉåüc.................................................................................................13
III.6. M cọ tênh tiãưn täú (prefix)...............................................................................................................14
III.7. Âënh l vãư âäü di trung bçnh tỉì m..............................................................................................14
.IV M THÄÚNG KÃ TÄÚI ỈU..................................................................................................................................16
IV.1. M Shannon-Fano................................................................................................................................16
IV.2. M säú hc.........................................................................................................................................19
IV.3. M Huffman (s âỉåüc giåïi thiãûu chi tiãút åí cạc chỉång tiãúp theo)............................................20
.V MÄ HÇNH HỌA NGƯN SÄÚ LIÃÛU......................................................................................................................20
V.1. Mä hçnh thäúng kã.................................................................................................................................21
V.2. Mä hçnh tỉì âiãøn (Dictionary-based)...................................................................................................22
III. PHỈÅNG PHẠP M HỌA HUFFMAN VÅÏI MÄ HÇNH THÄÚNG KÃ...........................................24
I. PHỈÅNG PHẠP M HỌA HUFFMAN .....................................................................................................................24
I.1. M Huffman ténh....................................................................................................................................24
.a Cåí såí nẹn säú liãûu ca phỉång phạp m họa Huffman ténh..............................................................................24
.b Phỉång phạp tảo m Huffman ténh.......................................................................................................................24
.c Phỉång phạp gii m Huffman ténh........................................................................................................................30
.d Ỉu v nhỉåüc âiãøm ca phỉång phạp m họa Huffman ténh våïi mä hçnh thäúng kã......................................31
IV. CẠC PHỈÅNG PHẠP NẸN THEO MÄ HÇNH TỈÌ ÂIÃØN..............................................................31
I. MÄ HÇNH TỈÌ ÂIÃØN TÉNH V MÄ HÇNH TỈÌ ÂIÃØN ÂÄÜNG.....................................................................................33
II. CẠC PHỈÅNG PHẠP NẸN LEMPEL V ZIV [2].....................................................................................................35
II.1. Phỉång phạp nẹn LZ77 .....................................................................................................................36
II.2. Phỉång phạp nẹn LZ78.......................................................................................................................39
V. K THÛT M HỌA HUFFMAN ÂÄÜNG VÅÏI MÄ HÇNH TỈÌ ÂIÃØN THÊCH ỈÏNG..........43
I. M HỌA HUFFMAN ÂÄÜNG......................................................................................................................43
.I MÄ HÇNH TỈÌ ÂIÃØN THÊCH ỈÏNG.....................................................................................................44
K thût nẹn våïi mäüt cỉía säø hản chãú...............................................................................................44
Cạc cáúu trục dỉỵ liãûu häù tråü.................................................................................................................45
.a Bäü âãûm quay vng..................................................................................................................................................45
.b Bng bàm (Hash table)...............................................................................................................................................45
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
2
.II TIÃÚN TRÇNH NẸN.............................................................................................................................................47
Quạ trçnh mä hçnh họa................................................................................................................................48
Quạ trçnh m họa.......................................................................................................................................49
.a Cáúu trục dỉỵ liãûu mä t cáy m Huffman âäüng..................................................................................................49
.b Th tủc m họa ......................................................................................................................................................51
.III TIÃÚN TRÇNH GII NẸN....................................................................................................................................52
Quạ trçnh gii m theo cáy m Huffman âäüng........................................................................................52
.a Khåíi tảo cáy m âáưu tiãn........................................................................................................................................52
.b Th tủc gii m.......................................................................................................................................................53
Quạ trçnh gii nẹn......................................................................................................................................53
.IV NHÁÛN XẸT....................................................................................................................................................55
VI. THỈÛC NGHIÃÛM.......................................................................................................................................55
I. SO SẠNH TÈ SÄÚ NẸN........................................................................................................................................56
I.1. Bng so sạnh tè säú nẹn.......................................................................................................................56
I.2. Biãøu âäư so sạnh tè säú nẹn................................................................................................................58
I.3. Nháûn xẹt vãư tè säú nẹn......................................................................................................................58
II. SO SẠNH TÄÚC ÂÄÜ NẸN..................................................................................................................................58
II.1. Bng so sạnh täúc âäü nẹn.................................................................................................................58
II.2. Biãøu âäư so sạnh täúc âäü nẹn..........................................................................................................59
II.3. Nháûn xẹt vãư täúc âäü nẹn................................................................................................................59
IV. SO SẠNH TÄÚC ÂÄÜ GII NẸN.........................................................................................................................60
IV.1. Bng so sạnh täúc âäü gii nẹn........................................................................................................60
IV.2. Biãøu âäư so sạnh täúc âäü gii nẹn.................................................................................................60
IV.3. Nháûn xẹt vãư täúc âäü gii nẹn.......................................................................................................61
V. KÃÚT LÛN...................................................................................................................................................61
VII. KÃÚT LÛN...............................................................................................................................................61
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
3
CHỈ ÅNG 0
I. GI ÏI THI ÃÛ
Nga y nay, mạy tênh â th m nh ûp va o h u h t cạc lénh v ûcì á á ì áư ãú ỉ
cu a â i s ng- x h üi. Nọi â n mạy tênh t ïc la nọi â n hai v ní å ì äú ä ãú ỉ ì ãú áú
â l ïn : l u tr ỵ va x l th ng tin.ãư å ỉ ỉ ì ỉí ä
V ïi s û bu ng n th ng tin nh hi ûn nay, vi ûc l u tr ỵ va trao â iå ỉ ì äø ä ỉ ã ã ỉ ỉ ì äø
th ng tin â va âang âàût ra nhi u v n â c n pha i gia i quy t, âọä ì ãư áú ãư áư í í ãú
la la m sao â l u tr ỵ m üt cạch ti t ki ûm, hi ûu qua va trao â iì ì ãø ỉ ỉ ä ãú ã ã í ì äø
th ng tin m üt cạch nhanh chọng nh t. M üt gia i phạp la tàng dungä ä áú ä í ì
l üng cu a cạc thi t bë l u tr ỵ. Tuy nhi n, âi u na y âo i ho i cao vỉå í ãú ỉ ỉ ã ãư ì ì í ãư
màût k thu ût ph n c ïng va chi phê khạ t n kẹm. Nh v ûy, gia iá áư ỉ ì äú ỉ á í
phạp na y la kh ng kinh t . M üt gia i phạp khạc nhi u tri n vngì ì ä ãú ä í ãư ãø
h n va mang tênh kha thi â â üc âàût ra, âọ la nẹn d ỵ li ûu. V û ì í ỉå ì ỉ ã á
nẹn d ỵ li ûu la gç ?ỉ ã ì
Cọ th hi u m üt cạch n m na rà ng, nẹn d ỵ li ûu la quạ trçnhãø ãø ä ä ò ỉ ã ì
la m gia m dung l üng l u tr ỵ cu a d ỵ li ûu ma v ùn ba o toa n â ücì í ỉå ỉ ỉ í ỉ ã ì á í ì ỉå
n üi dung th ng tin tr ïc âọ.ä ä ỉå
Nh v ûy, vi ûc nẹn d ỵ li ûu s âem lải nhi u l üi êch thi t th ûc.ỉ á ã ỉ ã ãư å ãú ỉ
ọ la :Â ì
• Ti t ki ûm â üc kh ng gian l u tr ỵ.ãú ã ỉå ä ỉ ỉ
• Tàng t c â ü va gia m chi phê truy n d ùn tr n mảng.äú ä ì í ãư á ã
• Ba o m ût â üc th ng tin.í á ỉå ä
Màûc du dung l üng cu a cạc thi t bë l u tr ỵ nga y nay â tàngì ỉå í ãú ỉ ỉ ì
â n t c â ü chọng màût, cọ th l n â n ha ng chủc Gigabytes, nh ngãú äú ä ãø ã ãú ì ỉ
v ïi nh ỵng l üi êch nh â n u tr n, gia i phạp nẹn d ỵ li ûu tr ïc khiå ỉ å ỉ ã ã í ỉ ã ỉå
l u tr ỵ, cng nh truy n d ùn qua mảng la âi u khi n chụng t ỉ ỉ ãư á ì ãư ãú
kh ng th kh ng xẹt â n.ä ãø ä ãú
Nọi chung, nẹn d ỵ li ûu la quạ trçnh bi n â i m üt lu ng cạcỉ ã ì ãú äø ä äư
kê hi ûu tha nh m üt lu ng cạc m cọ kêch th ïc nho h n ban â u.ã ì ä äư ỉå í å áư
Th ng th ng, m üt quạ trçnh nẹn â üc ti n ha nh qua hai giai âoản:ä ỉåì ä ỉå ãú ì
(1) M hçnh họa, la giai âoản ti n âoạn v t n su t xu t hi ûn cu ậ ì ã ãư áư áú áú ã í
cạc kê t û va / hồûc chu ùi kê t û cu a vàn ba n c n nẹn. (2) Mỉ ì ä ỉ í í áư
họa, la giai âoản d ûa tr n m hçnh v ïi t n su t v a â üc xạc âënhì ỉ ã ä å áư áú ỉì ỉå
â tảo ra t m t ng ïng.ãø ỉì ỉå ỉ
Cu ng v ïi s û phạt tri n mảnh m cu a l thuy t th ng tin, cọì å ỉ ãø í ãú ä
khạ nhi u ph ng phạp m họa va m hçnh họa â ra â i. Trongãư ỉå ì ä å ì
cạc ph ng phạp m họa, âạng chụ nh t la m họa Huffmanỉå áú ì
va m họa s hc. Ph ng phạp m họa Huffman â üc D.A Huffmanì äú ỉå ỉå
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
4
c ng b va o nàm 1952. Ph ng phạp m họa na y â n gia n, d ù x äú ì ỉå ì å í ã á
d ûng va cho th i gian m họa ngà n. Ph ng phạp m họa s hcỉ ì åì õ ỉå äú
ra â i va o cu i nh ỵng nàm 70. Ph ng phạp na y h ïng â n vi ûcå ì ì äú ỉ ỉå ì ỉå ãú ã
t i u â ü da i t m n n t ng â i ph ïc tảp h n va vç v ûy th iäú ỉ ä ì ỉì ã ỉå äú ỉ å ì á åì
gian m họa ch ûm h n.á å
K thu ût nẹn x l t ng kê t û m üt cu a lu ng kê hi ûu â ỉí ỉì ỉ ä í äư ã áư
va o â üc gi la nẹn v ïi m hçnh th ng k (Statistical model). Ng ücì ỉå ì å ä äú ã ỉå
lải, k thu ût nẹn xem xẹt m ùi lục m üt chu ùi cạc kê t û t lu ngá ä ä ä ỉ ỉì äư
nh ûp gi la nẹn v ïi m hçnh t âi n (Dictionary-based model).á ì å ä ỉì ãø
Do âàûc thu cu a m hçnh t âi n va th ûc t cng cho th y,ì í ä ỉì ãø ì ỉ ãú áú
v ïi cu ng m üt ph ng phạp m họa thç vi ûc ạp dủng m hçnh tå ì ä ỉå ã ä ỉì
âi n s cho hi ûu qua nẹn cao h n nhi u so v ïi m hçnh th ng k .ãø ã í å ãư å ä äú ã
H u h t cạc ch ng trçnh nẹn th ng mải hi ûn ha nh â u s dủngáư ãú ỉå ỉå ã ì ãư ỉí
m hçnh t âi n ma âi n hçnh la cạc ch ng trçnh nẹn n i ti ngä ỉì ãø ì ãø ì ỉå äø ãú
nh NCZip, PKZip va WinZip.ỉ ì
Trong m üt th i gian ngà n, vi ûc nghi n c ïu t t ca cạc k thu ûtä åì õ ã ã ỉ áú í á
nẹn d ỵ li ûu la âi u kh ng kha thi, do v ûy, trong cu n lu ûn vàn t tỉ ã ì ãư ä í á äú á äú
nghi ûp na y, tạc gia chè âi s u nghi n c ïu v ph ng phạp nẹn d ỵã ì í á ã ỉ ãư ỉå ỉ
li ûu kh ng t n hao d ûa tr n k thu ût m họa Huffman (chu y u lẫ ä äø ỉ ã á í ãú ì
m Huffman â üng) va m hçnh t âi n.ä ì ä ỉì ãø
Do nàng l ûc ba n th n va th i gian cọ hản n n ạn co n khạỉ í á ì åì ã Âäư ì
nhi u thi u sọt. Xin nh ûn â üc nh ỵng l i ph bçnh, gọp quãư ãú á ỉå ỉ åì ã
bạu cu a cạc th y c va bản âc â â ta i cọ th hoa n thi ûní áư ä ì ãø ãư ì ãø ì ã
h n trong t ng lai.å ỉå
Cá ú u trục  ä ư ạn
ạn bao g m 6 ch ng va ch ng trçnh Demo tr n âéa. N üi dung nhÂäư äư ỉå ì ỉå ã ä ỉ
sau :
Ch ỉ å n g 0 : Gi ïi thi ûu â ta i, vai tro va nghéa cu a nọ.å ã ãư ì ì ì í
Ch ỉ å n g I : Trçnh ba y t ng quan v l thuy t nẹn va gia i nẹnì äø ãư ãú ì í
d ỵ li ûu, la m n n ta ng cho vi ûc gia i quy t v n â â âàût ra trongỉ ã ì ãư í ã í ãú áú ãư
ạn.Âäư
Ch ỉ å n g II : Trçnh ba y ph ng phạp nẹn d ỵ li ûu ạp dủng kì ỉå ỉ ã
thu ût m họa Huffman d ûa tr n m hçnh th ng k .á ỉ ã ä äú ã
Ch ỉ å n g III: Tçm hi u m üt s ph ng phạp nẹn d ûa tr n m hçnhãø ä äú ỉå ỉ ã ä
t âi n.ỉì ãø
Ch ỉ å n g IV : i s u nghi n c ïu ph ng phạp nẹn d ỵ li ûu ạp dủng á ã ỉ ỉå ỉ ã
k thu ût m họa Huffman â üng, d ûa tr n m hçnh t âi n thêchá ä ỉ ã ä ỉì ãø
ïng, la m n n ta ng cho vi ûc phạt tri n ch ng trçnh.ỉ ì ãư í ã ãø ỉå
Ch ỉ å n g V : Trçnh ba y k t qua th ûc nghi ûm ki m tra tênh âụngì ãú í ỉ ã ãø
âà n, chênh xạc cu a ch ng trçnh va so sạnh v ïi m üt s ch ngõ í ỉå ì å ä äú ỉå
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
Kyợ thu ỷt maợ hoùa Huffman v ùi m hỗnh t õi nỏ ồ ọ ổỡ óứ
5
trỗnh th ng maỷi coù cu ng ch ùc nng. Tr n c s õoù, õaùnh giaù uổồ ỡ ổ ó ồ ồớ ổ
õi m va haỷn ch cu a ph ng phaùp neùn õ ỹc s duỷng. óứ ỡ óỳ ớ ổồ ổồ ổớ
Ch ổ ồ n g VI : K t lu ỷn, õaùnh giaù nh ợng gỗ õaợ la m õ ỹc, nh ợngóỳ ỏ ổ ỡ ổồ ổ
gỗ ch a õaỷt õ ỹc va n u h ùng phaùt tri n cu a õ ta i.ổ ổồ ỡ ó ổồ óứ ớ óử ỡ
Tr ỏửn Quang Minh
KHOA C NG NGH TH NG TIN
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
6
CHỈ ÅNG I
II.L THUY T T ØNG QUAN V Ư NẸN DỈỴ LI Ú Ä Ã ÃÛ
.IKHẠI NIÃ ÛM V ÃƯ NẸN DỈỴ LIÃ ÛU
Nẹn d ỵ li ûu la quạ trçnh la m gia m s li ûu c n thi t mỉ ã ì ì í äú ã áư ãú
v ùn ba o toa n â üc n üi dung th ng tin. S li ûu va th ng tin la kh ngá í ì ỉå ä ä äú ã ì ä ì ä
â ng nh t v ïi nhau. S li ûu chè la ph ng ti ûn â chuy n ta iäư áú å äú ã ì ỉå ã ãø ãø í
th ng tin. V ïi cu ng m üt n üi dung th ng tin, ta cọ th bi u di ùnä å ì ä ä ä ãø ãø ã
bà ng cạc d ỵ li ûu khạc nhau.ò ỉ ã
Cạc k thu ût nẹn d ỵ li ûu, th ng th ng, d ûa va o m üt trongá ỉ ã ä ỉåì ỉ ì ä
cạc âàûc tr ng sau:ỉ
•
Tênh h ỉỵu ha û n ca t á û p k ê hiã û u .
•
Táưn su á ú t xu á ú t hi ã û n t ỉ å n g â ä ú i ca cạc k ê hiã û u .
•
Ng ỉỵ cnh xu á ú t hiã û n ca cạc k ê hiã û u .
Nẹn d ỵ li ûu li n quan â n khại ni ûm th ng tin trong l thuy tỉ ã ã ãú ã ä ãú
th ng tin. L üng tin co n gi la ä ỉå ì ì
Entropy
. L üng tin cu a m üt kê hi ûå í ä ã
â üc tênh bà ng (-logỉå ò
2
P) v ïi â n vë la bit, trong âọ P la xạc su tå å ì ì áú
xu t hi ûn cu a kê hi ûu âọ. L üng tin cu a toa n b ü ngu n s li ûú ã í ã ỉå í ì ä äư äú ã
â üc tênh bà ng t ng l üng tin cu a cạc kê hi ûu tha nh ph n.ỉå ò äø ỉå í ã ì áư
L üng tin trung bçnh th ng k tr n m üt kê hi ûu â üc gi lå äú ã ã ä ã ỉå ì
Entropy
cu a ngu n s li ûu. í äư äú ã
Entropy
cu a m üt ngu n s li ûu ca ng ca ä äư äú ã ì
thç l üng th ng tin ch ïa â ûng trong nọ ca ng nhi u. ỉå ä ỉ ỉ ì ãư Shannon l
ng i â u ti n ch ïng minh â üc s û t n tải m üt gi ïi hản nẹn chåì áư ã ỉ ỉå ỉ äư ä å
m ùi vàn ba n. Gi ïi hản y chênh la l üng tin cu a vàn ba n.ä í å áú ì ỉå í í
Nhçn chung, quạ trçnh nẹn va gia i nẹn d ỵ li ûu cọ th â ücì í ỉ ã ãø ỉå
m ta tọm tà t theo s â sau:ä í õ å äư
Hçnh 1.
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
Quạ trçnh
nẹ n
Quạ trçnh
gia i nẹ ní
D ỵ li ûu ỉ ã
g c ä ú
D ỵ li ûu ỉ ã
nẹ n
Så â ä ư c hỉ ï c nà ng c a quạ trç nh ne ï n
dỉ ỵ liã û u
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
7
.IIMÄ ÜT S Ä Ú KHẠI NIÃ ÛM C Å BN
II.1. Tè lã û nẹn (compression ratio)
Tè l û nẹn la m üt trong nh ỵng th ng s quan trng nh t cu ẫ ì ä ỉ ä äú áú í
mi ph ng phạp nẹn. Cọ nhi u cạch khạc nhau â âënh nghéa tèỉå ãư ãø
l û nẹn. Th ng th ng, ng i ta âënh nghéa tè l û nẹn nh sau:ã ä ỉåì ỉåì ã ỉ
Tuy nhi n, c n pha i th y rà ng, tè l û nẹn cao ch a pha i la t tã áư í áú ò ã ỉ í ì áú
ca â âạnh giạ hi ûu qua cu a m üt ph ng phạp nẹn. B i vç co ní ãø ã í í ä ỉå åí ì
cọ cạc y u t khạc nh : chi phê v th i gian, kh ng gian va ca â üãú äú ỉ ãư åì ä ì í ä
ph ïc tảp tênh toạn.ỉ
II.2. Â ä ü d ỉ th ỉìa s ä ú liã û u
Nguy n tà c chung cu a cạc ph ng phạp nẹn d ỵ li ûu la loải bỗ õ í ỉå ỉ ã ì í
cạc th ng tin tru ng làûp, cạc d ỵ li ûu d th a â n m ïc t i thi u cọä ì ỉ ã ỉ ỉì ãú ỉ äú ãø
th â üc. Vi ûc xạc âënh ba n ch t cạc ki u d th a s li ûu r tãø ỉå ã í áú ãø ỉ ỉì äú ã áú
cọ êch trong vi ûc x y d ûng cạc ph ng phạp nẹn phu h üp. Nhçnã á ỉ ỉå ì å
chung, cọ b n ki u d th a chênh trong d ỵ li ûu :äú ãø ỉ ỉì ỉ ã
.a Sỉ û là û p lải ca nh ỉỵng kê tỉ û
Trong m üt ngu n d ỵ li ûu, nh t la cạc t ûp tin a nh, th ng cọä äư ỉ ã áú ì á í ỉåì
nh ỵng kê t û va chu ùi kê t û làûp lải nhi u l n li n ti p nhau. Khiỉ ỉ ì ä ỉ ãư áư ã ãú
âọ, ngu n d ỵ li ûu cọ th â üc m họa m üt cạch c âng h näư ỉ ã ãø ỉå ä ä å
bà ng cạch thay th nh ỵng dy kê t û âọ bà ng m cu a chụng v ãú ỉ ỉ ò í ì
s kê t û làûp lải. Ph ng phạp nẹn v ïi m hçnh t âi n khai thạcäú ỉ ỉå å ä ỉì ãø
r t hi ûu qua loải d th a na y.áú ã í ỉ ỉì ì
.b Sỉ û ph án b ä ú cạc kê tỉ û
Xẹt m üt chu ùi kê t û, ta th ng th y cọ m üt s kê t û xu tä ä ỉ ỉåì áú ä äú ỉ áú
hi ûn v ïi t n su t cao h n nh ỵng kê t û khạc . Nh v ûy, ta cọ thã å áư áú å ỉ ỉ ỉ á ãø
gia m b ït l üng d ỵ li ûu bà ng cạch m họa nh ỵng kê t û xu tí å ỉå ỉ ã ò ỉ ỉ áú
hi ûn th ng xuy n v ïi t m ngà n, nh ỵng kê t û êt xu t hi ûn sã ỉåì ã å ỉì õ ỉ ỉ áú ã
â üc m họa bà ng nh ỵng t m da i h n.ỉå ò ỉ ỉì ì å
Ki u d th a na y âàûc bi ût phu h üp v ïi ph ng phạp m họẫø ỉ ỉì ì ã ì å å ỉå
Huffman.
.c  ä ü d ỉ th ỉìa vë trê
Cọ nhi u tr ng h üp, d ỵ li ûu trong m üt ngu n s li ûu cọ s ûãư ỉåì å ỉ ã ä äư äú ã ỉ
phủ thu üc l ùn nhau, do âọ, n u bi t â üc kê hi ûu xu t hi ûn tảiä á ãú ãú ỉå ã áú ã
m üt vë trê na o âọ, ta cọ th pho ng âoạn tr ïc m üt cạch h üp lä ì ãø í ỉå ä å
s û xu t hi ûn cu a cạc kê hi ûu khạc nh ỵng vë trê khạc nhau. Vêỉ áú ã í ã åí ỉ
dủ, a nh bi u di ùn trong m üt l ïi hai chi u, m üt s âi m ha ngí ãø ã ä ỉå ãư ä äú ãø åí ì
dc lải xu t hi ûn trong cu ng vë trê cạc ha ng khạc nhau. Nh v ûy,áú ã ì åí ì ỉ á
thay vç l u tr ỵ d ỵ li ûu ta chè l u lải vë trê ha ng va c üt. Ph ng phạpỉ ỉ ỉ ã ỉ ì ì ä ỉå
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
%)
ngu nä ưli û d ỵỉ ckêch th ïỉå
nẹ nkhi sau â ücỉå thuli û d ỵỉ ckêch th ïỉå
-(= nẹ nl ûã Tè 1001
x
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
8
nẹn khai thạcki u d th a na y gi la ph ng phạp m họa d ûãø ỉ ỉì ì ì ỉå ỉ
âoạn.
.d Nhỉỵng má ù u s ỉí du û ng m á û t â ä ü cao
Th ng th ng, trong cạc vàn ba n dảng text, s û tu n t û cu ậ ỉåì í ỉ áư ỉ í
nh ỵng kê t û ba o âo ï s tại xu t hi ûn v ïi t n su t t ng â i cao,ỉ ỉ ì áú ã å áư áú ỉå äú
vç v ûy, cọ th bi u di ùn bà ng dy bit ngà n h n.á ãø ãø ã ò õ å
âạnh giạ m üt thu ût toạn nẹn cọ hi ûu qua hay kh ng,Âãø ä á ã í ä
ng i ta s d ûa va o cạch ma thu ût toạn x l cạc ki u d th åì ỉ ì ì á ỉí ãø ỉ ỉì
nh tr n. Th ûc t cho th y rà ng, h u h t cạc k thu ût nẹn â ã ỉ ãú áú ò áư ãú á ãư
kh ng âu m m de o â x l t t ca cạc ki u d th a. M ùi chi nä í ãư í ãø ỉí áú í ãø ỉ ỉì ä ãú
l üc nẹn ạp dủng th ng chè c ïng nhà c cho t ng ki u s li ûå ỉåì ỉ õ ỉì ãø äú ã
ma th i.ì ä
ü d th a s li ûu cọ th âënh l üng bà ng toạn hc. V ïiÂä ỉ ỉì äú ã ãø ỉå ò å
L
1
,L
2
la hai l üng s li ûu cu ng â üc du ng â bi u di ùn m üt l üngì ỉå äú ã ì ỉå ì ãø ãø ã ä ỉå
tin cho tr ïc thç â ü d s li ûu t ng â i Rỉå ä ỉ äú ã ỉå äú
D
cu a t ûp s li ûu th ïí á äú ã ỉ
nh t so v ïi t ûp s li ûu th ï hai la :áú å á äú ã ỉ ì
Trong âọ L
1
/L
2
â üc gi la tè l û nẹn.ỉå ì ã
II.3. Â ä ü di trung bçnh tỉì m
Giạ trë trung bçnh th ng k cu a t t ca cạc t m trong m ütäú ã í áú í ỉì ä
b ü m â üc gi la ä ỉå ì
â ä ü di trung bçnh ca m ä ü t t ỉì m
. C.E Shannon â
chè ra rà ng: “ò
 ä ü di trung bçnh ca m ä ü t tỉì m kh än g bao gi åì nh hån
entropy ca ngu ä ưn s ä ú liã û u â ỉ å ü c m họa
”. Do âọ, m üt b ü m t i ä äú ỉ
(cho hi ûu su t nẹn cao) la b ü m cọ â ü da i trung bçnh cu a t mã áú ì ä ä ì í ỉì
ti n g n â n ãú áư ãú
Entropy
cu a ngu n s li ûu.í äư äú ã
II.4. Nẹn tä ø n hao v nẹn khäng tä ø n hao
Cọ nhi u cạch â ph n loải cạc ph ng phạp nẹn. Cạch ph nãư ãø á ỉå á
loải d ûa va o nguy n l nẹn chia cạc ph ng phạp nẹn tha nh hai hỉ ì ã ỉå ì
chênh :
a. Nẹn tä ø n hao (lossy compression)
Nẹn tä ø n hao
co n gi la nẹn cọ m t mạt th ng tin. K thu ûtì ì áú ä á
nẹn na y ch p nh ûn m t mạt m üt l üng th ng tin nh t âënh â th áú á áú ä ỉå ä áú ãø
â üc hi ûu su t nẹn cao h n, do v ûy, sau khi gia i nẹn, ta s kh ng thå ã áú å á í ä
â üc d ỵ li ûu g c. ỉå ỉ ã äú
Nẹn tä ø n hao
th ng â üc ạp dủng cho cạc t ûp tin hçnh a nh haåì ỉå á í
m thanh â üc s họa. B i vç â i v ïi cạc t ûp tin thu üc loải na ỉå äú åí äú å á ä ì
thç vi ûc m t mạt m üt êt th ng tin la âi u cọ th ch p nh ûn â üc.ã áú ä ä ì ãư ãø áú á ỉå
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
2
1
1
1
L
L
-=R
D
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
9
b. Nẹn kh äng tä ø n hao (lossless compression)
Nẹn kh än g tä ø n hao
co n gi la ì ì
nẹn ch ê n h xạc
hay
nẹn kh ä ng m á ú t
th ä ng tin
. y la ph ng phạp nẹn ma sau khi gia i nẹn ta thu â ücÂá ì ỉå ì í ỉå
m üt ba n sao chênh xạc cu a d ỵ li ûu g c. Ph ng phạp nẹn na í í ỉ ã äú ỉå ì
th ng â üc ạp dủng â i v ïi cạc ngu n s li ûu ma n üi dungỉåì ỉå äú å äư äú ã ì ä
th ng tin c n â üc ba o toa n nh cạc vàn ba n dảng text, cạc ba ngä áư ỉå í ì ỉ í í
tênh hay la c s d ỵ li ûu,...ì å åí ỉ ã
Dảng nẹn ma ta nghi n c ïu trong â ạn na y la dảng ì ã ỉ äư ì ì
nẹn
kh äng t ä ø n hao
.
II.5. Nẹn s ä ú liã û u = Mä hçnh họa + M họa [2]
Nọi chung, nẹn s li ûu la chuy n â i m üt lu ng cạc kê hi ûú ã ì ãø äø ä äư ã
tha nh m üt lu ng cạc t m t ng ïng. N u hi ûu ïng nẹn xa y r ä äư ỉì ỉå ỉ ãú ã ỉ í
thç lu ng cạc t m s nho h n lu ng cạc kê hi ûu ban â u. Vi ûcäư ỉì í å äư ã áư ã
quy t âënh â a ra m üt t m nh t âënh cho m ùi kê hi ûu hồûc m ütãú ỉ ä ỉì áú ä ã ä
t ûp kê hi ûu d ûa tr n m üt á ã ỉ ã ä
m ä hçnh
.
Mä hçnh
chà ng qua chè la ó ì
m ä ü t tá û p
h å ü p s ä ú liã û u v cạ c nguy ãn tà õ c â ỉ å ü c s ỉ í du û ng â ã ø x ỉí l cạc k ê hi ã û u t ỉì
lưng nh á û p v xu á ú t ra cạc t ỉì m
.
Mä hçnh
cọ nhi ûm vủ xạc âënh xạcã
su t xu t hi ûn cu a t ng kê t û va /hồûc chu ùi kê t û va b ü ph ûnáú áú ã í ỉì ỉ ì ä ỉ ì ä á
m họa s tảo ra cạc t m d ûa tr n cạc xạc su t âọ.ỉì ỉ ã áú
Mä hçnh họa
va ì
m họa
la hai khại ni ûm hoa n toa n tạch bi ûtì ã ì ì ã
nhau. Th nh ng, chụng ta v ùn hay du ng thu ût ng ỵ “m họa” âãú ỉ á ì á ỉ ãø
nọi â n ca quạ trçnh nẹn s li ûu, màûc du , th ûc ch t âọ chè m ïiãú í äú ã ì ỉ áú å
la m üt giai âoản cu a quạ trçnh âọ. Vê dủ, chụng ta v ùn hay du ngì ä í á ì
cạc thu ût ng ỵ “á ỉ
m họa Huffman
”, “
m họa s ä ú ho ü c
” â nọi â n cạcãø ãú
k thu ût nẹn s li ûu, trong khi âọ chè la cạc ph ng phạp má äú ã ì ỉå
họa â üc s dủng cu ng v ïi m üt m hçnh na o âọ â nẹn sỉå ỉí ì å ä ä ì ãø äú
li ûu.ã
Cọ r t nhi u cạch â m hçnh họa ngu n s li ûu lải cọ tháú ãư ãø ä äư äú ã ãø
cu ng s dủng m üt ph ng phạp m họa â tảo ra cạc t m. Vêì ỉí ä ỉå ãø ỉì
dủ, chụng ta cọ th du ng ph ng phạp m họa Huffman cho ca haiãø ì ỉå í
m hçnh th ng k va m hçnh t âi n â nẹn s li ûu.ä äú ã ì ä ỉì ãø ãø äú ã
V ïi ph ng phạp m họa Huffman, ta th y m üt quạ trçnh nẹnå ỉå áú ä
s li ûu â y âu â üc bi u di ùn nh sau :äú ã áư í ỉå ãø ã ỉ
Hçnh 2.
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
Cạ c xạ c
su tá ú
Lu ng ä ư
nh ûpá
M ä
hçnh
M
hoạ
Lu ng ä ư
ra
Cạ c k
hi û
Cạ c t ỉì
m
Mä hç nh thä ú ng kã vå ï i m họ a
Huffman
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
10
.IIIL THU ÚT V ÃƯ M HỌA [7]
Nh â nọi, nẹn s li ûu la quạ trçnh bi n â i m üt lu ng cạcỉ äú ã ì ãú äø ä äư
t m tha nh m üt lu ng cạc t m. Quạ trçnh gia i nẹn s x lỉì ì ä äư ỉì í ỉí
lu ng cạc t m âọ â kh i phủc lải ngu n s li ûu ban â u. Nhäư ỉì ãø ä äư äú ã áư ỉ
v ûy, vi ûc tçm hi u v m nẹn d ỵ li ûu la âi u c n thi t.á ã ãø ãư ỉ ã ì ãư áư ãú
III.1. Â ë n h ngh éa m họa
M họa ngu n tin äư X theo b ü m ä M la phẹp ạnh xả 1:1 bi nì ãú
â i m üt tin xäø ä
i
∈ X tha nh m üt t h üp cạc kê hi ûu cu a b ü m ì ä äø å ã í ä M.
Ngu n äư X = {x
1
, x
2
, ..,x
n
}
B ü m ä M = {m
1
, m
2
, ..,m
k
}
V ïi k la c s cu a b ü må ì å äú í ä
Vê dủ, v ïi m nhë ph n k = 2.å á
N u tin xãú
i
â üc m họa tha nh mỉå ì
r1
, m
r2
, ..,m
rl
(l la s kê hi ûu cu äú ã í
b ü m du ng â bi u di ùn xä ì ãø ãø ã
i
va l cng la â ü da i t m).ì ì ä ì ỉì
Vê du û
X = {x
1
, x
2
, ..,x
4
}
B ü m nhë ph n ä á M = {0, 1}
M họa x
1
= 00, x
2
= 01, x
3
= 10, x
4
= 11
III.2. Mäüt s ä ú khại niã û m c å bn
.a Chi ãưu di tỉì m
Chi u da i t m la s kê hi ûu cu a b ü m du ng â mãư ì ỉì ì äú ã í ä ì ãø
họa cho t m âọ.ỉì
.b Tro üng lỉ å ü n g tỉì m
Trng l üng t m la t ng s cạc kê hi ûu khạc 0 cu a tỉå ỉì ì äø äú ã í ỉì
m
Vê du û: T m 1011010 cọ trng l üng la 4.ỉì ỉå ì
.c Khong cạch m
Khoa ng cạch m í
d
la s kê hi ûu khạc nhau tênh theo vë trêì äú ã
t ng ïng cu a hai t m cọ chi u da i bà ng nhau ỉå ỉ í ỉì ãư ì ò
W
1
, W
2
.
d(W
1
, W
2
) = w(W
1
⊕ W
2
)
, v ïi å ⊕ la phẹp c üng modul-2.ì ä
Khoa ng cạch cu a m üt b ü m la khoa ng cạch m nho nh tí í ä ä ì í í áú
cu a hai t m b t ky trong b ü m âọ.í ỉì áú ì ä
III.3. Phán loa ûi m
D ûa va o cạc âàûc âi m cu a m, ng i ta ph n m ra tha nhỉ ì ãø í ỉå ì á ì
nhi u loải khạc nhau. Sau â y la m üt s cạch ph n loải âi n hçnh:ãư á ì ä äú á ãø
•
Ph án loa ûi theo chiãưu di t ỉì m
M cọ chi u da i kh ng â i.ãư ì ä äø
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
11
M cọ chi u da i thay â i.ãư ì äø
•
Ph án loa ûi theo tro ü n g l ỉ å ü n g t ỉì m
M cọ trng l üng thay â i.ỉå äø
M cọ trng l üng c âënh.ỉå äú
•
Ph án loa ûi theo hiã û u su á ú t th ä ng tin
M t i u.äú ỉ
M ch a t i u.ỉ äú ỉ
•
Ph án loa ûi theo c å s ä ú ca b ä ü m
Cọ th tảo ra m üt b ü m cọ c s tu y . M nhë ph n (cọãø ä ä å äú ì á
c s 2) la ph bi n nh t.å äú ì äø ãú áú
•
Ph án loa ûi theo mu û c â ê c h s ỉ í du û ng m
M s .ä ú
M kê t û.ỉ
III.4. Mäüt s ä ú ph ỉ å n g phạp biã ø u diã ù n m thäng du ûng
Cọ nhi u ph ng phạp â bi u di ùn m. M ùi cạch â u cọãư ỉå ãø ãø ã ä ãư
nh ỵng u âi m va nh üc âi m ri ng. Tu y theo mủc âêch, ta cọ thỉ ỉ ãø ì ỉå ãø ã ì ãø
chn cạch bi u di ùn cho phu h üp.ãø ã ì å
a. Phỉ å n g phạp liã û t kã
Li ût k trong m üt ba ng nh ỵng tin cu a ngu n va ke m theo lẫ ã ä í ỉ í äư ì ì ì
cạc t m t ng ïng.ỉì ỉå ỉ
Vê du û : Ngu n tin äư X = {x
1
, x
2
, x
3
, x
4
}. Cạc l ïp tin cu a nọ â üc må í ỉå
họa nh sau:ỉ
Tin x
1
x
2
x
3
x
4
Tỉì
m
01 10 110 001
u âi m cu a ph ng phạp bi u di ùn na y la r ra ng, â n gia nỈ ãø í ỉå ãø ã ì ì ì å í
nh ng kh ng phu h üp v ïi nh ỵng b ü m l ïn.ỉ ä ì å å ỉ ä å
b. Phỉ å n g phạp â ä ư hçnh kã ú t c á ú u
Ph ng phạp na y bi u di ùn m bà ng m üt c y m rụt gn baå ì ãø ã ò ä á
g m cạc nụt va cạc nhạnh cọ h ïng. M ùi vo ng kên (bà t â ư ì ỉå ä ì õ áư
tải nụt g c, âi theo cạc nhạnh theo chi u mi t n, qua cạc nụtäú ãư ã
trung gian va k t thục tải nụt g c) s bi u di ùn cho m üt t m.ì ãú äú ãø ã ä ỉì
Th ï t û giạ trë cạc nhạnh tr n â ng âi chênh la th ï t û giạ trë cạcỉ ỉ ã ỉåì ì ỉ ỉ
kê hi ûu.ã
Vê du û : hçnh k t c u cu a b ü m 10,11,011,0101,0100.Âäư ãú áú í ä
Kê hi ûu v la toạn t OR, cạc nụt â üc âạnh s theo th ï t û xẫ ì ỉí ỉå äú ỉ ỉ
d n nụt g c.áư äú
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
Kyợ thu ỷt maợ hoùa Huffman v ùi m hỗnh t õi nỏ ồ ọ ổỡ óứ
12
Hỗnh 3.
c. Phổ ồ n g phaùp c ỏy
C y maợ õ ỹc bi u di ựn bao g m g c va caùc nhaùnh. Trong c yỏ ổồ óứ ó ọử ọỳ ỡ ỏ
coù ch ùa caùc nuùt. Nuùt g c chờnh la g c cu a c y (m ùc 0). Nuùt laùổ ọỳ ỡ ọỳ ớ ỏ ổ
n m t ỷn cu ng cu a nhaùnh. Tr nuùt g c va caùc nuùt laù ra, caùcũ ỏ ỡ ớ ổỡ ọỳ ỡ
nuùt co n laỷi la caùc nuùt nhaùnh. ỡ ỡ
T m ỹt nuùt nhaùnh coù th phaùt õi nhi u nh t la m nhaùnhổỡ ọ óứ óử ỏỳ ỡ
( ùng v ùi c s m cu a maợ). M ựi nhaùnh bi u di ựn cho m ỹt t maợ.ổ ồ ồ ọỳ ớ ọ óứ ó ọ ổỡ
T maợ õoù coù th ù t ỷ caùc trở kờ hi ỷu õi t g c, qua caùc nuùtổỡ ổ ổ ó ổỡ ọỳ
nhaùnh va d ng laỷi nuùt laù t ng ùng cu a nhaùnh.ỡ ổỡ ồớ ổồ ổ ớ
D ỷa va o c y maợ, chuùng ta coù th nh ỷn bi t maợ õaợ cho laổ ỡ ỏ óứ ỏ óỳ ỡ
maợ õ u (caùc nuùt laù coù cu ng b ỷc), hay kh ng õ u, maợ õ y hay v i.óử ỡ ỏ ọ óử ỏử ồ
Maợ la õ y khi moỹi nuùt nhaùnh b ỷc tr ùc caùc nuùt laù õ u coù mỡ ỏử ỏ ổồ óử
nhaùnh.
Vờ du ỷ : Cho b ỹ maợ ọ 00, 01, 11, 1010, 1011. C y maợ bi u di ựn choỏ óứ ó
b ỹ maợ na y la :ọ ỡ ỡ
Hỗnh 4.
Tr ỏửn Quang Minh
KHOA C NG NGH TH NG TIN
2
1
G C
3
4
0
1
1
0
0v1
1
0v1
ọ ử hỗnh k ó ỳ t c ỏ ỳ u cuớa b ọ ỹ maợ
10,11,011,0101,0100
0
1
0
1
0
1
0
1
1
m ù c g c ổ ọ ỳ
( 0 )
m ù c 1 (n = ổ
1)
m ù c 2 (n = ổ
2)
m ù c 3 (n = ổ
3)
m ù c 4 (n = ổ
4)
C ỏy maợ nh ở ph ỏn cho b ọ ỹ maợ 00,01,11,1010,1011
Kyợ thu ỷt maợ hoùa Huffman v ùi m hỗnh t õi nỏ ồ ọ ổỡ óứ
13
III.5. i ó ử u kió ỷ n õ ó ứ maợ ph ỏn taùch õ ổ ồ ỹ c
Maợ õ ỹc goỹi la coù ổồ ỡ
tờnh ph ỏ n taùch
n u nh khi nh ỷn õ ỹc m ỹtóỳ ổ ỏ ổồ ọ
chu ựi kờ hi ỷu trong quaù trỗnh taỷo maợ, chuùng ta coù th ọ ó óứ
taùch ra
õ ổ ồ ỹ c caùc thaỡnh ph ỏửn c ồ baớn
la caùc t maợ va caùch taùch õoù laỡ ổỡ ỡ ỡ
õu ù n g õ ừ n
va ỡ
duy nh ỏ ỳ t
(vỗ n u kh ng, b ỹ gia i maợ coù th seợ nh móỳ ọ ọ ớ óứ ỏử
l ựn trong quaù trỗnh la m vi ỷc).ỏ ỡ ó
coù tờnh ph n taùch õ ỹc, b ỹ maợ pha i tho a maợn õi u ki ỷnóứ ỏ ổồ ọ ớ ớ óử ó
c n va õu sau: B t ky daợy caùc t maợ na o cu a b ỹ maợ cuợngỏử ỡ ớ ỏỳ ỡ ổỡ ỡ ớ ọ
kh ng õ ỹc tru ng v ùi m ỹt daợy t maợ khaùc cu a cu ng b ỹ maợ.ọ ổồ ỡ ồ ọ ổỡ ớ ỡ ọ
ọ ỹ ch ỏ ỷ m giaới maợ :
ỹ ch ỷm gia i maợ la s kờ hi ỷu nh ỷn õ ỹc c n thi t õ coùọ ỏ ớ ỡ ọỳ ó ỏ ổồ ỏử óỳ óứ
th ph n taùch õ ỹc tha nh caùc t maợ.óứ ỏ ổồ ỡ ổỡ
i v ùi b ỹ maợ ph n taùch õ ỹc, õ ỹ ch ỷm gia i maợ la h ợuọỳ ồ ọ ỏ ổồ ọ ỏ ớ ỡ ổ
haỷn, nh ng cuợng coù tr ng h ỹp la v haỷn. i v ùi tr ng h ỹp vổ ổồỡ ồ ỡ ọ ọỳ ồ ổồỡ ồ ọ
haỷn, b ỹ maợ coù th xem la kh ng ph n taùch õ ỹc.ọ óứ ỡ ọ ỏ ổồ
ki m tra m ỹt b ỹ maợ coù tờnh ph n taùch hay kh ng, ng i taóứ óứ ọ ọ ỏ ọ ổồỡ
x y d ỷng ba ng th maợ ph n taùch va qua õoù, xaùc õởnh õ ỹ ch ỷmỏ ổ ớ ổớ ỏ ỡ ọ ỏ
gia i maợ. Caùc b ùc x y d ỷng ba ng th maợ ph n taùch :ớ ổồ ỏ ổ ớ ổớ ỏ
1. S ừ p xó ỳ p caùc t ổỡ maợ thaỡnh mọ ỹ t c ọ ỹ t. Cọ ỹ t naỡy õ ổ ồ ỹ c õa ùnh s ọ ỳ 1.
2. ọ ỳ i saùnh caùc tổỡ maợ ng ừ n vồ ùi caùc tổỡ maợ daỡi hồn trong c ọ ỹ t 1,
nó ỳ u tổỡ maợ ng ừ n truỡng vồ ùi ph ỏửn õ ỏ ử u cuớa tổỡ maợ daỡi hồn thỗ lỏ ỳy
ph ỏửn coỡn laỷi cuớa t ổỡ maợ daỡi ghi vaỡo c ọ ỹ t th ổ ù hai.
3. L ỷ p laỷi b ổ ồ ù c 2, vồ ùi c ọ ỹ t k laỡ c ọ ỹ t ch ổ ù a kó ỳ t quaớ õ ọ ỳ i saùnh gi ổợa
c ọ ỹ t (k-1) vồ ùi c ọ ỹ t (k-2). Tió ỳ p tuỷ c th ổ ỷ c hió ỷ n b ổ ồ ù c 3 cho õ ó ỳ n khi
c ọ ỹ t k trồớ n ón trọ ỳ n g rọ ự n g.
maợ coù tờnh ph n taùch, õi u ki ỷn c n va õu la : Trong c ỹtóứ ỏ óử ó ỏử ỡ ớ ỡ ọ
coù chố s k >= 2 kh ng coù m ỹt t h ỹp na o tru ng v ùi caùc t maợọỳ ọ ọ ọứ ồ ỡ ỡ ồ ổỡ
trong c ỹt 1.ọ
Vờ du ỷ : Cho b ỹ maợ ọ 01, 11, 001, 1001, 1011. Ta coù ba ng th maợớ ổớ
ph n taùch:ỏ
C ỹt 1ọ C ỹt 2ọ
01
11
001
1001
1011
Tr ỏửn Quang Minh
KHOA C NG NGH TH NG TIN
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
14
Ta cọ â ü ch ûm gia i m bà ng 0 vç c üt 2 tr ng r ùng. Nh v ûy, b üä á í ò ä äú ä ỉ á ä
m â cho cọ tênh ph n tạch.á
ü ch ûm gia i m cọ th â üc âạnh giạ qua ba ng th mÂä á í ãø ỉå í ỉí
ph n tạch nh sau:á ỉ
Trong â o ï:
T
c
: â ü ch ûm gia i m.ä á í
k: giạ trë cu a c üt r ùng.í ä ä
n
min
, n
max
: â ü da i t m ngà n nh t va da i nh t cu a b üä ì ỉì õ áú ì ì áú í ä
m.
Chụng ta cọ th rụt ra k t lu ûn qua cạc nh ûn xẹt va vê dủãø ãú á á ì
tr n:ã
M cọ kha nàng ph n tạch â üc khi va chè khi í á ỉå ì
b á ú t k m ä ü t tä ø
h å ü p m no cng kh ä ng trng v å ïi ph á ưn â á ư u ca b á ú t k m ä ü t tä ø h å ü p m
khạc trong cng b ä ü m.
III.6. M cọ tênh tiãưn tä ú (prefix)
Ph n áư
tiãưn tä ú (prefix)
cu a m üt t m cọ â ü da i l la í ä ỉì ä ì ì
m ä ü t b ä ü
ph á û n ca t ỉì m
âọ sau khi bo âi k kê hi ûu cu i cu ng (0 < k < l).í ã äú ì
Vê du û : T m ỉì
1001101
cọ cạc ti n t la : ãư äú ì
100110, 10011, 1001,
100, 10
va ì
1
.
 ë n h ngh éa
M üt b ü m â üc gi la cọ ä ä ỉå ì
tênh ch á ú t tiãưn tä
n u ú ãú
mo üi t ỉì m
thu ä ü c b ä ü m â ã ư u kh äng phi l ph áưn â á ư u ca m ä ü t t ỉì m khạc trong
cng b ä ü m
.
Nh va o tênh ch t ti n t na y ma m cọ tênh åì ì áú ãư äú ì ì
prefix
th ngỉåì
â üc s dủng â la m m nẹn d ỵ li ûu. Ta cọ th nh ûn th å ỉí ãø ì ỉ ã ãø á áú
rà ng, khi bi u di ùn m bà ng c y m, m cọ tênh ch t ti n t khiò ãø ã ò á áú ãư äú
cạc t m chè la ỉì ì
nụt lạ
.
III.7. Â ë n h l vãư â ä ü di trung bçnh tỉì m
Cho ngu n tin u = {ư
i
} v ïi i = 1 å ÷ n va cạc xạc su t p( áú
i
) t ngỉå
ïng. M họa cạc tin
i
bà ng m nhë ph n va gia s cạc kê hi û á ì í ỉí ã
cu a m cọ cạc xạc su t p(xí áú
i
) bà ng nhau: p(xò
i
) = p(X) = hà ng s . ò äú
Ta cọ l üng tin trung bçnh bà ng l üng tin cu a m üt kê hi ûu m vå ò ỉå í ä ã ì
âảt giạ trë c ûc âải:ỉ
I(x
i
) = I(x) = log
2
2 = 1 (bit / kê hi ûu)ã
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
maxmin
2
1
2
1
n
k
Tn
k
c
−
≤≤
−
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
15
N u nãú
i
la chi u da i cu a m nhë ph n m họa tin ãư ì í á
i
thç l üngỉå
tin ch ïa trong t m la nỉ ỉì ì
i
bit. â y, l üng tin trung bçnh ch ïa trongÅÍ á ỉå ỉ
m üt t m bà ng â ü da i trung bçnh cu a cạc t m.ä ỉì ò ä ì í ỉì
tin t ïc kh ng bë hao hủt qua quạ trçnh m họa, l üng tinÂãø ỉ ä ỉå
trung bçnh cu a t m pha i kh ng nho h n l üng tin trung bçnh cu ỉì í ä í å ỉå í
m üt tin trong ngu n tin. V s âo, l üng tin trung bçnh cu a m üt tinä äư ãư äú ỉå í ä
bà ng v ïi ò å
Entropy
cu a ngu n tin í äư
E(u)
. phẹp m họa la âụng,Âãø ì
âi u ki ûn sau â y pha i â üc tho a mn :ãư ã á í ỉå í
E(u) ≤ n
tb
logm
hay
E(u) ≤ n
tb
Ta cọ âënh l :
 ä ü di trung bçnh ca m ä ü t tỉì m kh äng bao giåì bẹ
h å n tè s ä ú Entropy ca ngu ä ưn tin â ỉ å ü c m họa chia cho lỉ å ü n g tin trung bçnh
c ỉ û c â a û i ca m ä ü t k ê hiã û u m.
E(u)
chênh la ì
gi å ïi ha û n d ỉ å ï i
cu a â ü da i trung bçnh ní ä ì
tb
cu a m üt tí ä ỉì
m.
Nh v ûy, â ü da i trung bçnh nỉ á ä ì
tb
cu a m üt t m bà ng v ïi í ä ỉì ò å
Entropy
cu a ngu n tin khi va chè khi í äư ì
â ä ü di n
i
ca m ä ü t t ỉì m b á ú t k b à ò ng vå ï i
lỉ å ü n g tin riãng I(u
i
) ca tin m nọ m họa.
I(u
i
) â üc tênh bà ng -log(p(å ò
i
)).
B y gi , chụng ta âi xạc âënh gi ïi hản tr n cu a â ü da i trung bçnhá åì å ã í ä ì
cu a t m.í ỉì
Vç n
i
la m üt s nguy n, ma I( ä äú ã ì
i
) th ng kh ng pha i la m üt sỉåì ä í ì ä äú
nguy n n n â âảt â üc m üt b ü m cọ â ü da i trung bçnh nhỗ ã ãø ỉå ä ä ä ì í
nh t thç â ü da i cu a m ùi t m pha i tho a mn âi u ki ûn sau:áú ä ì í ä ỉì í í ãư ã
I(u
i
) ≤ n
i
≤ I(u
i
) + 1
L y trë trung bçnh th ng k hai v cu a b t âà ng th ïc, ta â üc :áú äú ã ãú í áú ó ỉ ỉå
E(u) ≤ n
tb
≤ E(u) + 1
T â y, ta cọ âënh l v ỉì á ãư
gi å ïi ha ûn tr ãn
cu a â ü da i trung bçnh cu a tí ä ì í ỉì
m :
Cọ th ã ø ta û o â ỉ å ü c b ä ü m cọ â ä ü di trung bçnh ca t ỉì m kh ä ng lå ïn
h å n t s ä ú Entropy ca ngu ä ư n â ỉ å ü c m họa trãn lỉ å ü n g tin trung bçnh c ỉ û c
âa û i ch ỉ ï a trong m ä ü t k ê hiã û u m c ä ü n g th ã m m ä ü t â å n vë.
M üt b ü m â üc gi la b ü m th ng k t i u khi nọ cọ â ü da iä ä ỉå ì ä äú ã äú ỉ ä ì
trung bçnh tho a mn hai gi ïi hản n u tr n. àûc âi m cu a m th ngí å ã ã Â ãø í äú
k t i u la :ã äú ỉ ì
• Xạc su t xu t hi ûn cu a cạc kê hi ûu trong t m kh ng phủáú áú ã í ã ỉì ä
thu üc va o s û cọ màût cu a cạc kê hi ûu ra tr ïc.ä ì ỉ í ã ỉå
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
∑ ∑∑
= ==
+≤≤
n
i
n
i
iiii
n
i
ii
uIupnupuIup
1 11
1)()()()()(
Kyợ thu ỷt maợ hoùa Huffman v ùi m hỗnh t õi nỏ ồ ọ ổỡ óứ
16
Caùc kờ hi ỷu khaùc nhau cu a b ỹ maợ pha i cu ng xaùc su t, ch ngó ớ ọ ớ ỡ ỏỳ ú
haỷn v ùi maợ nhở ph n: p(0) = p(1) = 1/2. Coù nh v ỷy thỗ l ỹng tinồ ỏ ổ ỏ ổồ
cu a m ựi kờ hi ỷu m ùi õaỷt giaù trở c ỷc õaỷi.ớ ọ ó ồ ổ
Qua caùc nh ỷn xeùt tr n, ta th y r ng ỏ ó ỏỳ ũ õ ọ ỹ daỡi trung bỗnh tổỡ maợ tọ ỳ i
thió ứ u laỡ tióu chu ỏ ứ n cuớa maợ th ọ ỳ n g kó tọ ỳ i ổ u .
.IVMAẻ TH NG K T I ặU
Nh õaợ noùi, ti u chu n cu a maợ th ng k t i u la chi u da iổ ó ỏứ ớ ọỳ ó ọỳ ổ ỡ óử ỡ
trung bỗnh t maợ t i thi u. Do xaùc su t xu t hi ỷn cu a caùc tinổỡ ọỳ óứ ỏỳ ỏỳ ó ớ
trong ngu n tin la khaùc nhau n n vi ỷc du ng caùc t maợ ng n õọử ỡ ó ó ỡ ổỡ ừ óứ
maợ hoùa cho caùc tin coù t n su t xu t hi ỷn cao va ng ỹc laỷi, du ngỏử ỏỳ ỏỳ ó ỡ ổồ ỡ
caùc t maợ da i õ maợ hoùa cho caùc tin coù xaùc su t xu t hi ỷnổỡ ỡ óứ ỏỳ ỏỳ ó
th p seợ la m cho s kờ hi ỷu c n thi t õ maợ hoùa ngu n tin gia mỏỳ ỡ ọỳ ó ỏử óỳ óứ ọử ớ
õi. Nguy n t c c ba n cu a maợ th ng k t i u la d ỷa tr n c s õ ỹó ừ ồ ớ ớ ọỳ ó ọỳ ổ ỡ ổ ó ồ ồớ ọ
da i t maợ nỡ ổỡ
i
(tố l ỷ nghởch v ùi xaùc su t xu t hi ỷn pó ồ ỏỳ ỏỳ ó
i
), t ùc la caùcổ ỡ
tin coù xaùc su t xu t hi ỷn th p seợ maợ hoùa b ng caùc t maợ da iỏỳ ỏỳ ó ỏỳ ũ ổỡ ỡ
va ng ỹc laỷi.ỡ ổồ
C ng th ùc sau õ y du ng õ õaùnh giaù m ùc õ ỹ t i u cu a maợ th ngọ ổ ỏ ỡ óứ ổ ọ ọỳ ổ ớ ọỳ
k t i u: ó ọỳ ổ
Trong õ o ù:
D :
õ ỹ t i u cu a maợ.ọ ọỳ ổ ớ
L
dmin
: õ ỹ da i t maợ t i thi u cu a b ỹ maợ õ u c n du ngọ ỡ ổỡ ọỳ óứ ớ ọ óử ỏử ỡ
õ maợ hoùa.óứ
IV.1. Maợ Shannon-Fano
Va o nh ợng nm 1940, nh ợng nm õ u phaùt tri n cu a nga nhỡ ổ ổ ỏử óứ ớ ỡ
Lyù thuy t Th ng tin, yù t ng phaùt tri n m ỹt ph ng phaùp m ùi õóỳ ọ ổồ ớ óứ ọ ổồ ồ óứ
maợ hoùa d ợ li ỷu õaợ b t õ u xu t hi ỷn, sau khi caùc nha nghi nổ ó ừ ỏử ỏỳ ó ỡ ó
c ùu õaợ khaùm phaù ra ổ
Entropy
va ỡ
õ ọ ỹ d ổ th ổỡa s ọ ỳ lió ỷ u
.
Ph ng phaùp maợ hoùa õ u ti n õ ỹc nhi u ng i bi t õ n va oổồ ỏử ó ổồ óử ổồỡ óỳ óỳ ỡ
cu i nh ợng nm 1940 la ph ng phaùp ọỳ ổ ỡ ổồ maợ hoùa Shannon-Fano. Ph ngổồ
phaùp na y õ ỹc hai nha nghi n c ùu ỡ ổồ ỡ ó ổ Claude Shannon va ỡ R.M Fano õ a raổ
g n nh õ ng th i. Kyợ thu ỷt maợ hoùa na y d ỷa tr n t n su t xu tỏử ổ ọử ồỡ ỏ ỡ ổ ó ỏử ỏỳ ỏỳ
hi ỷn cu a m ựi kyù t ỷ trong ngu n s li ỷu c n õ ỹc maợ hoùa. Tó ớ ọ ổ ọử ọỳ ó ỏử ổồ ổỡ
ba ng ch ùa caùc t n su t õoù, ba ng maợ seợ õ ỹc x y d ỷng d ỷa va oớ ổ ỏử ỏỳ ớ ổồ ỏ ổ ổ ỡ
caùc tờnh ch t quan troỹng sau:ỏỳ
Caùc maợ khaùc nhau coù caù c bit bi ó ứ u dió ự n khaùc nhau.
Tr ỏửn Quang Minh
KHOA C NG NGH TH NG TIN
mind
L
L
D
=
=
i
ii
npLL :sau tờnh nh ổõ ỹcổồ maợ , b ỹọcu aớ bỗnh trungmaợ tổỡda iỡ õ ỹọ:
Kyợ thu ỷt maợ hoùa Huffman v ùi m hỗnh t õi nỏ ồ ọ ổỡ óứ
17
Kờ t ổ ỷ coù tỏửn su ỏ ỳ t xu ỏ ỳ t hi ó ỷ n caỡng cao thỗ maợ caỡng ng ừ n ( ờt bit ) vaỡ
ng ổ ồ ỹ c la ỷi.
Caùc maợ coù õ ọ ỹ daỡi bit khaùc nhau.
Maợ seợ õ ỹc x y d ỷng theo c u truùc c y nhở ph n, d ỷa va o thu ỷtổồ ỏ ổ ỏỳ ỏ ỏ ổ ỡ ỏ
toaùn sau:
Thuỏ ỷ t toaùn xỏy d ổ ỷ n g maợ Shannon-Fano :
Vaỡo : Ba ng t n s xu t hi ỷn cu a t t caùc kờ t ỷ coù mỷt trongớ ỏử ọỳ ỏỳ ó ớ ỏỳ ổ
ngu n s li ỷu.ọử ọỳ ó
(Ba ng õaợ õ ỹc s p x p theo th ù t ỷ tng d n hoỷc gia mớ ổồ ừ óỳ ổ ổ ỏử ớ
d n cu a t n s ). ỏử ớ ỏử ọỳ
Ra : C y nhở ph n bi u di ựn maợ.ỏ ỏ óứ ó
Bổ ồ ù c 1. Taùch ba ng tha nh hai ba ng con sao cho hi ỷu gi ợa t ngớ ỡ ớ ó ổ ọứ
caùc t n s trong m ựi ba ng con la nho nh t.ỏử ọỳ ọ ớ ỡ ớ ỏỳ
Bổ ồ ù c 2. Ba ng con phờa tr n õ ỹc gaùn giaù trở nhở ph n 0, ba ngớ ó ổồ ỏ ớ
con phờa d ùi õ ỹc gaùn trở nhở ph n 1.ổồ ổồ ỏ
Bổ ồ ù c 3. Ti p tuỷc th ỷc hi ỷn tu n t ỷ hai b ùc 1 va 2 cho m ựióỳ ổ ó ỏử ổ ổồ ỡ ọ
ba ng con õ ỹc taùch ra cho õ n khi caùc ba ng tha nh ph n kh ng thớ ổồ óỳ ớ ỡ ỏử ọ óứ
ph n chia õ ỹc n ợa.ỏ ổồ ổ
Nguy n t c chờnh la s duỷng ph ng phaùp õ ỷ qui õ x y d ỷng c yó ừ ỡ ổớ ổồ ó óứ ỏ ổ ỏ
maợ.
Vờ du ỷ : Gia thi t ta coù ba ng sau :ớ óỳ ớ
STT Kờ t ỷổ T n sỏử ọỳ
1 T 0.22
2 M 0.20
3 K 0.18
4 C 0.16
5 D 0.14
6 Y 0.06
7 V 0.04
Sau khi taùch ba ng l n th ù nh t, ta coù:ớ ỏử ổ ỏỳ
Kờ t ỷổ T nỏử
sọỳ
T 0.22 0
M 0.20 0
K 0.18 1
C 0.16 1
D 0.14 1
Y 0.06 1
V 0.04 1
Va sau l n taùch cu i cu ng:ỡ ỏử ọỳ ỡ
Tr ỏửn Quang Minh
KHOA C NG NGH TH NG TIN
L n taùchỏử
Kyợ thu ỷt maợ hoùa Huffman v ùi m hỗnh t õi nỏ ồ ọ ổỡ óứ
18
Kờ t ỷổ T nỏử
sọỳ
T 0.22 0 0
M 0.20 0 1
K 0.18 1 0 0
C 0.16 1 0 1
D 0.14 1 1 0
Y 0.06 1 1 1 0
V 0.04 1 1 1 1
Chuùng ta coù c y nhở ph n t ng ùng :ỏ ỏ ổồ ổ
Hỗnh 5.
Mọ ỹt v ờ du ỷ v óử c ỏ y nh ở ph ỏ n cho maợ Shannon-Fano
Ta qui ùc r ng, t m ỹt nuùt tr n c y maợ, reợ sang nuùt con traùiổồ ũ ổỡ ọ ó ỏ
(n u coù) seợ t ng ùng v ùi giaù trở 0, reợ sang nuùt con pha i seợ t ngóỳ ổồ ổ ồ ớ ổồ
ùng v ùi giaù trở 1. T maợ cu a m ựi kờ t ỷ seợ õ ỹc xaùc õởnh b ngổ ồ ổỡ ớ ọ ổ ổồ ũ
caùch tờch luợy caùc giaù trở nhở ph n khi õi t nuùt g c qua caùc nuùtỏ ổỡ ọỳ
nhaùnh cho õ n nuùt laù ch ùa kờ t ỷ õoù. Nh v ỷy, chuùng ta coù ba ngóỳ ổ ổ ổ ỏ ớ
maợ sau:
Kờ t ỷổ T nỏử
sọỳ
T maợổỡ ỹ da iọ ỡ
(bits)
T 0.22 00 2
M 0.20 01 2
K 0.18 100 3
C 0.16 101 3
D 0.14 110 3
Y 0.06 1110 4
Tr ỏửn Quang Minh
KHOA C NG NGH TH NG TIN
L n taù ch 1ỏ ử
L n taù ch 2ỏ ử
L n taù ch 3ỏ ử
L n taù ch 4ỏ ử
L n taù ch 5ỏ ử
L n taù ch 6ỏ ử
K
C
D
Y
B
V
M
0
1
0
1
0
1
0
1
0
1
0
1
G C
T
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
19
V 0.04 1111 4
Nhá û n xẹt :
• M Shannon-Fano la m cọ â ü da i t m thay â i.ì ä ì ỉì äø
• Tr n c y nhë ph n bi u di ùn m, kê t û na o cọ t n s xu tã á á ãø ã ỉ ì áư äú áú
hi ûn cao thç s nà m g n g c, do v ûy nọ cọ t m ngà n.ã ò áư äú á ỉì õ
Ng üc lải, kê t û na o cọ t n s xu t hi ûn th p thç s nà mỉå ỉ ì áư äú áú ã áú ò
xa g c va s cọ t m da i. i u na y hoa n toa n phu h üpäú ì ỉì ì Â ãư ì ì ì ì å
v ïi nguy n l cu a k thu ût nẹn d ỵ li ûu.å ã í á ỉ ã
• ü da i t m cu a m Shannon-Fano la m üt s nguy n cạcÂä ì ỉì í ì ä äú ã
bêt.
IV.2. M s ä ú ho ü c
Nh â nọi, â ü da i t m cu a m Shannon-Fano pha i la m ütỉ ä ì ỉì í í ì ä
s nguy n cạc bêt. Ng i ta â ca i ti n nh üc âi m na y bà ngäú ã ỉåì í ãú ỉå ãø ì ò
cạch â a ra m üt loải m khạc, âọ la m s hc. Ph ng phạp mỉ ä ì äú ỉå
họa s hc hoa n ha o h n cạc ph ng phạp m họa khạc ch ùäú ì í å ỉå åí ä
nọ kh ng tảo ra m üt t m â n le cho m ùi kê hi ûu ma nọ chè tảộ ä ỉì å í ä ã ì
ra m üt t m duy nh t cho toa n b ü ngu n s li ûu. Nghéa la m ütä ỉì áú ì ä äư äú ã ì ä
kê hi ûu cọ th â üc m họa bà ng 3.5 bêt.ã ãø ỉå ò
Nguy n tà c chênh cu a ph ng phạp m họa na y la m họẫ õ í ỉå ì ì
toa n b ü lu ng s li ûu tha nh m üt s . M ùi kê t û / x u kê t û cu ä äư äú ã ì ä äú ä ỉ á ỉ í
lu ng nh ûp s â üc bi n â i tha nh m üt s th ûc cọ giạ trë thu ücäư á ỉå ãú äø ì ä äú ỉ ä
n a khoa ng [0;1). Vi ûc bi n â i na y tu n theo ạnh xả 1-1.ỉí í ã ãú äø ì á
i v ïi ph ng phạp na y, tr ïc h t, chụng ta c n l ûp ba ngÂäú å ỉå ì ỉå ãú áư á í
th ng k t n s xu t hi ûn cu a cạc kê t û. Sau âọ gạn cho m ùi kêäú ã áư äú áú ã í ỉ ä
t û m üt khoa ng bi n thi n ma ta gi la hảng cu a kê t û âọ.ỉ ä í ãú ã ì ì í ỉ
Vê du û :
Chụng ta c n m họa chu ùi “áư ä MICROSOFT!”. Ba ng th ng k t n su tí äú ã áư áú
nh sau :ỉ
Kê
t ûỉ
T n sáư äú
xu táú
hi ûnã
Khoa ng bi ní ãú
thi nã
C 1/10 0.0≤r<0.1
F 1/10 0.1≤r<0.2
I 1/10 0.2≤r<0.3
M 1/10 0.3≤r<0.4
O 2/10 0.4≤r<0.6
R 1/10 0.6≤r<0.7
S 1/10 0.7≤r<0.8
T 1/10 0.8≤r<0.9
! 1/10 0.9≤r<1.0
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
20
D ûa va o ba ng tr n, chụng ta l ûp ba ng th hi ûn cạc c ûn tr n, c ûnỉ ì í ã á í ãø ã á ã á
d ïi va hảng cu a cạc kê t û trong chu ùi:ỉå ì í ỉ ä
Kê
t ûỉ
T n sáư äú
xu táú
hi ûnã
C ûná
d ïiỉå
C ûná
tr nã
Hản
g
C 1/10 0.0 0.1 0.1
F 1/10 0.1 0.2 0.1
I 1/10 0.2 0.3 0.1
M 1/10 0.3 0.4 0.1
O 2/10 0.4 0.6 0.2
R 1/10 0.6 0.7 0.1
S 1/10 0.7 0.8 0.1
T 1/10 0.8 0.9 0.1
! 1/10 0.9 1.0 0.1
Chụng ta cọ thu ût toạn m họa chu ùi tr n nh sau (bi u di ùná ä ã ỉ ãø ã
bà ng ng n ng ỵ gia Pascal) :ò ä ỉ í
Vo :
•
Msg
: chu ùi kê t û c n m họa.ä ỉ áư
•
Can_duoi, Can_tren
: hai ma ng ch ïa cạc c ûn d ïi va c ûn tr n cu ỉ á ỉå ì á ã í
cạc kê t û.ỉ
Ra : M cu a chu ùi kê t û âo ï.í ä ỉ
Ta qui ïc rà ng, ỉå ò
Can_duoi[i]
la c ûn d ïi cu a kê t û th ï i trong th ngì á ỉå í ỉ ỉ ä
âi ûp. T ng t û cho tr ng h üp ã ỉå ỉ ỉåì å
Can_tren[i]
Begin
Canduoi :=0.0;
Cantren :=1.0;
For
i:=1
to
length(Msg)
do begin
Hang := Cantren - Canduoi;
Cantren :=Canduoi +
Hang*Can_tren[i];
Canduoi :=Canduoi +
Hang*Can_duoi[i];
End;
End;
M cu a chu ùi kê t û c n m họa chênh la í ä ỉ áư ì giạ trë sau cng cu
Canduoi
.
IV.3. M Huffman (s â ỉ å ü c giå ïi thiã û u chi tiã ú t åí cạc ch ỉ å n g tiã ú p
theo)
.VMÄ HÇNH HỌA NGƯN S Ä Ú LIÃ ÛU
Nh ta â bi t, ỉ ãú
Entropy
cu a ngu n s li ûu phủ thu üc va o xạcí äư äú ã ä ì
su t, trong khi âọ, xạc su t lải phủ thu üc va o m hçnh. Do âọ, xạcáú áú ä ì ä
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
21
su t s thay â i n u nh chụng ta thay â i m hçnh va áú äø ãú ỉ äø ä ì
Entropy
cng
bi n â i theo. Nh v ûy, cọ th th y rà ng hi ûu qua nẹn phủãú äø ỉ á ãø áú ò ã í
thu üc r t nhi u va o m hçnh. ä áú ãư ì ä
Nhçn chung, quạ trçnh
nẹn kh än g t ä ø n hao
â üc th ûc hi ûn d ûa va å ỉ ã ỉ ì
m üt trong hai ki u m hçnh khạc nhau: ä ãø ä m ä hçnh th ä ú n g kã (Statistical) v
mä hçnh tỉì âi ã ø n (Dictionary-based) . Nẹn theo m hçnh th ng k s mä äú ã
họa m ùi lục m üt kê hi ûu d ûa va o t n su t xu t hi ûn cu a nọ.ä ä ã ỉ ì áư áú áú ã í
Nẹn theo m hçnh t âi n s m họa m ùi lục m üt chu ùi kê hi û ỉì ãø ä ä ä ã
chè bà ng m üt t m. Nh v ûy, vai tro cu a m hçnh la v cu ng quanò ä ỉì ỉ á ì í ä ì ä ì
trng. M üt m hçnh t t s cho hi ûu qua nẹn cao va ng üc lải.ä ä äú ã í ì ỉå
V.1. Mä hçnh thä ú n g kã
Dảng â n gia n nh t cu a m hçnh na y, âụng nh t n gi cu ẩ í áú í ä ì ỉ ã í
nọ, la th ng k cạc kh i s li ûu âi n hçnh na o âo ï â cọ â ücì äú ã äú äú ã ãø ì ãø ỉå
m üt ba ng ténh li ût k cạc giạ trë t n su t. D ûa va o ba ng na y,ä í ã ã áư áú ỉ ì í ì
m üt c y m ténh â üc x y d ûng sàơn va l u gi ỵ â cọ th sä á ỉå á ỉ ì ỉ ỉ ãø ãø ỉí
dủng nhi u l n. M üt m hçnh nh th â üc gi la m hçnh th ngãư áư ä ä ỉ ãú ỉå ì ä äú
k ténh (Static statistical model).ã
R ra ng, vi ûc ạp dủng m üt m hçnh ténh cho nhi u loải sì ã ä ä ãư äú
li ûu khạc nhau la kh ng t i u. B i vç n u s li ûu â u va o kh ngã ì ä äú ỉ åí ãú äú ã áư ì ä
t ng h üp v ïi m hçnh thç hi ûu qua nẹn s kẹm âi, â i khi co nỉå å å ä ã í ä ì
phạt sinh hi ûn ïng n s li ûu.ã ỉ åí äú ã
Chụng ta cọ th khà c phủc nh üc âi m tr n bà ng cạch x ø õ ỉå ãø ã ò á
d ûng m hçnh ténh ri ng cho t ng ki u s li ûu. Tuy nhi n, m üt v nỉ ä ã ỉì ãø äú ã ã ä áú
â khạc lải na y sinh, âọ la chụng ta pha i g i ke m m üt l üng sãư í ì í åí ì ä ỉå äú
li ûu th ng k nh t âënh (c u trục c y m) âi theo lu ng t m âã äú ã áú áú á äư ỉì ãø
phủc vủ cho vi ûc gia i m sau na y. V ïi m hçnh b ûc 0, l üng sã í ì å ä á ỉå äú
li ûu th ng k tr n la kh ng âạng k (khoa ng 256 bytes), nh ng v ïiã äú ã ã ì ä ãø í ỉ å
m hçnh b ûc cao h n, l üng s li ûu âọ quạ l ïn (chà ng hản v ïi mä á å ỉå äú ã å ó å ä
hçnh b ûc 1, con s âọ x p xè bà ng 256x256 = 64 KB).á äú áú ò
(Bá û c ca m ä hçnh thä ú n g kã : Xạc su t xu t hi ûn cu a m üt kêáú áú ã í ä
hi ûu la m üt khại ni ûm t ng â i va kh ng c âënh, b i vç nọ cọã ì ä ã ỉå äú ì ä äú åí
th thay â i tu y theo m hçnh â üc thi t l ûp. M üt m hçnh th ng kãø äø ì ä ỉå ãú á ä ä äú ã
xạc âënh xạc su t xu t hi ûn cu a m üt kê hi ûu d ûa va o cạc kêáú áú ã í ä ã ỉ ì
hi ûu â ïng tr ïc nọ cho ta cạc m hçnh v ïi cạc b ûc khạc nhau.ã ỉ ỉå ä å á
Cạc kê hi ûu â ïng tr ïc na y tảo tha nh ng ỵ ca nh (context) cu a mã ỉ ỉå ì ì ỉ í í ä
hçnh. B ûc cu a m hçnh th ng k chênh la s kê hi ûu ch ïa trong ng ỵá í ä äú ã ì äú ã ỉ ỉ
ca nh âọ. Vê dủ, n u s kê hi ûu â ïng tr ïc ma ta xem xẹt â n l ãú äú ã ỉ ỉå ì ãú ì
0 thç ta cọ m hçnh th ng k b ûc 0.)ä äú ã á
Chênh vç nh ỵng hản ch tr n ma ng i ta chè t ûp trung phạtỉ ãú ã ì ỉåì á
tri n ãø
m ä hçnh th ä ú n g k ã th ê c h ỉ ï n g
, co n gi la ì ì
m ä hçnh th ä ú n g k ã â ä ü n g
(Dynamic statistical model)
. V ïi m hçnh na y, s li ûu th ng k â i v ïiå ä ì äú ã äú ã äú å
ngu n s li ûu kh ng c n pha i cọ va g i âi ke m lu ng t mäư äú ã ä áư í ì å í ì äư ỉì
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
22
ma s â üc têch ly va li n tủc s a â i ngay trong m ùi quạ trçnhì ỉå ì ã ỉí äø ä
m họa hồûc gia i m.í
Hçnh 6.
Hçnh 7.
Trong ca hai quạ trçnh m họa hồûc gia i m, c n chụ í í áư
rà ng, b ü ph ûn “c ûp nh ût m hçnh” pha i la m vi ûc chênh xạc nhò ä á á á ä í ì ã ỉ
nhau. Trong quạ trçnh m họa, khi m üt kê hi ûu â üc âc va o nọä ã ỉå ì
s â üc m họa theo m hçnh hi ûn th i, ngay sau âọ, m hçnh sỉå ä ã åì ä
â üc c ûp nh ût d ûa va o kê hi ûu âọ. T ng t û cho quạ trçnh gia iỉå á á ỉ ì ã ỉå ỉ í
m, khi m üt t m â üc âc, nọ â üc gia i m theo m hçnh hi ûnä ỉì ỉå ỉå í ä ã
tải, sau âọ, m hçnh s â üc c ûp nh ût d ûa va o kê hi ûu v a â ücä ỉå á á ỉ ì ã ỉì ỉå
gia i m.í
Cọ th nh ûn th y rà ng, khi m hçnh m ïi bà t â u hoảt â üng,ãø á áú ò ä å õ áư ä
hi ûu ïng nẹn ch a th xu t hi ûn ngay, b i vç nọ ch a cọ m ütã ỉ ỉ ãø áú ã åí ỉ ä
th ng tin gç v ngu n s li ûu â u va o. Hi ûu ïng nẹn chè th y rä ãư äư äú ã áư ì ã ỉ áú
khi m üt l üng kê hi ûu âu nhi u â â üc x l. u âi m cu a mä ỉå ã í ãư ỉå ỉí Ỉ ãø í ä
hçnh th ng k â üng la nọ cọ th thêch ïng v ïi h u h t cạc loảiäú ã ä ì ãø ỉ å áư ãú
d ỵ li ûu.ỉ ã
V.2. Mä hçnh tỉì âi ã ø n (Dictionary-based)
àûc âi m chung cu a cạc m hçnh th ng k la m họa (va gia i ãø í ä äú ã ì ì í
m) m ùi lục m üt kê hi ûu. Co n cạc m hçnh t âi n thç tảo mä ä ã ì ä ỉì ãø
theo m üt c ch hoa n toa n khạc bi ût. Nguy n tà c cu a chụng lậ å ãú ì ì ã ã õ í ì
tảo m üt ạnh xả t m üt chu ùi kê hi ûu tha nh m sao cho kêchä ỉì ä ä ã ì
th ïc cu a m nho h n kêch th ïc cu a chu ùi kê hi ûu âo ï. Khi mỉå í í å ỉå í ä ã
họa, d ỵ li ûu â üc âc va o va thu ût toạn tçm xem cọ nhọm kêỉ ã ỉå ì ì á
hi ûu t ng h üp na o xu t hi ûn trong t âi n hay kh ng. N u cọ, nọã ỉå å ì áú ã ỉì ãø ä ãú
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
X ú t
tỉ ì m
Cá û p
nhá û p
mä hç nh
Mä hç nh
 o ü c mä ü t
k hiã û u
M họ a
k hiã û u
Ng ưn
s ä ú liã û u
L ưng
tỉ ì m
M hoạ theo mä hç nh thä ú ng kã thê c h
ỉ ï ng [2]
 o ü c mä ü t
tỉ ì m
L ưng vo
( c ạ c tỉ ì
m )
Gii m theo mä hç nh thä ú ng kã thê c h
ỉ ï ng [2]
Gii m
tỉ ì m
Mä hç nh
Cá û p
nhá û p
mä hç nh
X ú t
k hiã û u
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
23
s xu t ra m üt m ạnh xả â n nhọm kê hi ûu âọ. D ỵ li ûu â ú ä ãú ã ỉ ã áư
va o ca ng t ng h üp v ïi cạc nhọm kê hi ûu trong t âi n hồûc kêchì ì ỉå å å ã ỉì ãø
th ïc nhọm kê hi ûu â üc ạnh xả ca ng l ïn thç hi ûu qua nẹnỉå ã ỉå ì å ã í
ca ng cao. â y, vai tro cu a m hçnh họa la c ûc kç quan trng, co nì ÅÍ á ì í ä ì ỉ ì
m họa chè âọng vai tro th ï y u.ì ỉ ãú
Th ûc t cho th y, so v ïi cạc k thu ût nẹn s dủng m hçnhỉ ãú áú å á ỉí ä
th ng k , cạc k thu ût nẹn ạp dủng m hçnh t âi n cho m ütäú ã á ä ỉì ãø ä
hi ûu qua nẹn cao h n nhi u, ca v tè s nẹn, t c â ü nẹn vẫ í å ãư í ãư äú äú ä ì
gia i nẹn. ọ la l do chụng â üc s dủng ph bi n hi ûn nay.í Â ì ỉå ỉí äø ãú ã
M hçnh t âi n â üc ph n tha nh hai loải: ä ỉì ãø ỉå á ì
m ä hçnh t ỉì âi ã ø n ténh
va ì
m ä hçnh t ỉì âi ã ø n â ä ü n g
(co n gi la ì ì
m ä hçnh t ỉì âi ã ø n th ê ch ỉ ï n g
).
cạc sạch bạo khoa hc, chụng ta th ng th y cọ danh sạchÅÍ ỉåì áú
cạc ta i li ûu tham kha o, trong âọ, m ùi t n sạch tham kha o â ücì ã í ä ã í ỉå
t üng tr ng b i m üt con s nà m trong ngồûc vu ng. M ùi khi mu nỉå ỉ åí ä äú ò ä ä äú
d ùn ch ïng t n ta i li ûu tham kha o na o âọ â cọ trong danh sạch,á ỉ ã ì ã í ì
ng i vi t chè vi ûc thay bà ng con s t üng tr ng t ng ïng. i åì ãú ã ò äú ỉå ỉ ỉå ỉ Â ãư
na y r ra ng la cọ tạc dủng gia m b ït kêch th ïc cu a ngu n sì ì ì í å ỉå í äư äú
li ûu. M hçnh t âi n ténh cng cọ dảng nh th . â y, t âi nã ä ỉì ãø ỉ ãú ÅÍ á ỉì ãø
ténh âọng vai tro nh danh sạch cạc ta i li ûu tham kha o nọi tr n. Tu ỉ ì ã í ã
v ûy, m üt âi m b t l üi cu a m hçnh na y la , cng gi ng nh má ä ãø áú å í ä ì ì äú ỉ åí ä
hçnh th ng k ténh, t âi n pha i â üc g i ke m theo s li ûu âäú ã ỉì ãø í ỉå å í ì äú ã
â üc m họa. i u na y la m kêch th ïc cu a d ỵ li ûu nẹn tàng l n.ỉå Â ãư ì ì ỉå í ỉ ã ã
M hçnh t âi n â üng â üc â a ra nhà m khà c phủc nh ücä ỉì ãø ä ỉå ỉ ò õ ỉå
âi m tr n. M hçnh t âi n â üng t ûa nh cạch vi t tà t ma ta v ùnãø ã ä ỉì ãø ä ỉ ỉ ãú õ ì á
th ng th y trong sạch bạo: mu n vi t tà t m üt củm t na o âo ïỉåì áú äú ãú õ ä ỉì ì
thç ngay trong l n xu t hi ûn â u ti n cu a nọ, ng i ta s vi t ke máư áú ã áư ã í ỉå ì ãú ì
theo củm k t û vi t tà t trong càûp ngồûc â n, va k t âo ï, m ùiỉ ãú õ å ì ãø ỉì ä
khi nọ xu t hi ûn thç ta lải thay th bà ng củm t vi t tà t t ngáú ã ãú ò ỉì ãú õ ỉå
ïng.ỉ
CHỈ ÅNG II
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
24
III.PHỈ NG PHẠP M HỌA HUFFMAN V ÏI MÅ Å Ä
HÇNH TH NG KÄÚ Ã
I. PHỈÅNG PHẠP M HỌA HUFFMAN
Ph ng phạp m họa Huffman â üc ỉå ỉå D.A.Huffman â a ra va o nàmỉ ì
1952. Ph ng phạp m họa na y â kh i â u cho s û phạt tri nỉå ì åí áư ỉ ãø
cu a cạc k thu ût nẹn s li ûu d ûa tr n m hçnh th ng k . T âọí á äú ã ỉ ã ä äú ã ỉì
â n nay, k thu ût m họa Huffman â cọ nhi u ca i ti n, cho rẫú á ãư í ãú
â i nhi u loải m Huffman khạc nhau nh : å ì ãư ỉ
m Huffman s ỉ ía â ä ø i
(Modified Huffman codes), m Huffman cu ût (Truncated Huffman codes), m
Huffman th ê c h ỉ ï n g (Adaptive Huffman codes)
va ì
m d ë c h Huffman (Shift
Huffman codes)
.
M Huffman â üc D.Huffman â a ra chênh la m Huffman ténh.ỉå ỉ ì
I.1. M Huffman ténh
.a Cåí s åí nẹn s ä ú liã û u ca ph ỉ å n g phạp m họa Huffman ténh
Ph ng phạp m họa Huffman la ph ng phạp d ûa va o m hçnhỉå ì ỉå ỉ ì ä
th ng k . D ûa tr n ngu n s li ûu, ng i ta âi äú ã ỉ ã äư äú ã ỉå ì
th ä ú n g k ã táưn su á ú t xu á ú t
hi ã û n ca cạc k ê t ỉ
û. Tr n c s ba ng t n su t â üc x y d ûng, ng iã å åí í áư áú ỉå á ỉ ỉå ì
ta bi u di ùn cạc kê t û cọ t n su t th p bà ng cạc t m da i,ãø ã ỉ áư áú áú ò ỉì ì
cạc kê t û cọ t n su t cao bà ng cạc t m ngà n. Nọi m üt cạchỉ áư áú ò ỉì õ ä
khạc, cạc kê t û cọ t n su t xu t hi ûn ca ng cao thç â üc bi áư áú áú ã ì ỉå ãø
di ùn bà ng m ca ng ngà n va ng üc lải. ü da i cu a t m â ücã ò ì õ ì ỉå Âä ì í ỉì ỉå
tênh theo bit. V ïi cạch th ïc na y, ta â la m gia m â ü da i trung bçnhå ỉ ì ì í ä ì
cu a t m bà ng cạch du ng chi u da i bi n â i.í ỉì ò ì ãư ì ãú äø
.b Phỉ å n g phạp ta ûo m Huffman ténh
D ûa va o ba ng th ng k t n su t, chụng ta âi x y d ûng m üt c ì í äú ã áư áú á ỉ ä á
kh ng c n bà ng (c y cọ m üt s nhạnh kh ng da i bà ng nhau). M ïcä á ò á ä äú ä ì ò ỉ
â ü kh ng c n bà ng cu a c y phủ thu üc va o t n su t xu t hi ûn cu ậ ä á ò í á ä ì áư áú áú ã í
cạc kê t û. M üt c y nh v ûy â üc gi la c y m Huffman.ỉ ä á ỉ á ỉå ì á
C y m Huffman la m üt c y nhë ph n cọ cạc nhạnh â üc gạná ì ä á á ỉå
cho giạ trë nhë ph n 0 hồûc 1. i m t ûn cu ng cu a m üt nhạnh â ücá Â ãø á ì í ä ỉå
gi la nụt lạ. M ùi nụt lạ â üc gạn cho m üt kê t û c n m họ ä ỉå ä ỉ áư
va t n s xu t hi ûn cu a kê t û âo ï â üc gi la trng l üng cu áư äú áú ã í ỉ ỉå ì ỉå í
nụt lạ t ng ïng. Nụt g c chênh la g c cu a c y, co n âi m rỉå ỉ äú ì äú í á ì ãø
cu a m üt nhạnh â üc gi la nụt nhạnh.í ä ỉå ì
Xu t phạt t m üt nụt nhạnh, nhạnh r b n trại â üc gạnáú ỉì ä ã ỉå
giạ trë 0, va nhạnh r b n pha i â üc gạn giạ trë 1. T m cu ã í ỉå ỉì í
m üt kê t û â üc xạc âënh bà ng cạch duy ût t tr n xu ng, xu tä ỉ ỉå ò ã ỉì ã äú áú
phạt tải nụt g c va k t thục tải nụt lạ t ng ïng v ïi kê t û âọ.äú ì ãú ỉå ỉ å ỉ
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
25
Trong quạ trçnh duy ût, cạc bêt cu a t m â üc têch ly d n theỗ í ỉì ỉå áư
giạ trë ïng v ïi cạc nhạnh pha i âi qua.ỉ å í
Vê du û :
C y m Huffman m họa cho chu ùi “á ä BARBADIA” la :ì
Hçnh 8.
Mä üt v ê du û v ã ư c áy m Huffman
Kê t ûỉ S l näú áư
xu t hi ûnáú ã
T mỉì
A 3 0
B 2 10
D 1 1111
I 1 1110
R 1 110
Nh v ûy â m x u kê t û tr n ta chè c n 3x1 + 2x2 + 1x4 + 1x4 + 1x3ỉ á ãø á ỉ ã áư
= 18 bits, nho h n nhi u so v ïi kêch th ïc ban â u la 8x8= 64 bits.í å ãư å ỉå áư ì
Th û t toạn xáy dỉ û n g c áy m Huffman ténh
• Vo : Ba ng th ng k t n su t cu a cạc kê t û trong ngu n sí äú ã áư áú í ỉ äư äú
li ûu.ã
• Ra : C y m Huffman.á
Bỉ å ï c 1.Tçm hai nụt t û do cọ trng l üng nho nh t.ỉ ỉå í áú
Bỉ å ï c 2.Nụt cha cu a hai nụt na y â üc tảo ra v ïi trng l üngí ì ỉå å ỉå
bà ng t ng trng l üng cu a hai nụt con.ò äø ỉå í
Bỉ å ï c 3.Th m nụt cha v a â üc tảo ra va o danh sạch cạc nụt.ã ỉì ỉå ì
ạnh d u nụt cha la “t û do”, hai nụt con la “â xẹt”. áú ì ỉ ì
Bỉ å ï c 4.Gạn bêt m 0 cho nhạnh con trại xu t phạt t nụt cha,áú ỉì
nhạnh con phại â üc gạn bêt m 1.ỉå
Bỉ å ï c 5.Làûp lải t b ïc 1 â n b ïc 4 cho â n khi chè co n m ütỉì ỉå ãú ỉå ãú ì ä
nụt t û do. Nụt na y chênh la nụt g c cu a c y m Huffman.ỉ ì ì äú í á
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
B
R
I
D
A
0
1
0
1
0
1
0
1
Nụ t
g cä ú
Nụ t
lạ
Nụ t
lạ
Nụ t
lạ
Nụ t
lạ
Nụ t
lạ
Nụ t
nhạ nh
Nụ t
nhạ nh
Nụ t
nhạ nh