Tải bản đầy đủ (.doc) (78 trang)

luận văn chuyên ngành Công nghệ thông tin-trình bày một kỹ thuật nén dữ liệu sử dụng phương pháp biến đổi wavelet

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.13 MB, 78 trang )

Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

Kết luận..............................................................................................................................76
Tài liệu tham khảo.............................................................................................................77

DANH MỤC CÁC HÌNH

Hình 2.1 Sơ đồ bộ khái quát hệ thống nén ảnh.........................................9
Hình 2.2. Sơ đồ minh hoạ kỹ thuật mã hoá băng con – M băng con
12

Hình
Hình
Hình
Hình

2.3 Minh hoạ quá trình phân ly băng con cây bát phân..........13
2.4. Phân ly hai ảnh mẫu thành bốn băng con.............................14
2.5. Sơ đồ bộ mã hoá theo chuẩn JPEG............................................ 19
2.6. Sắp xếp Zigzag các hệ số DCT ở bộ mã hoá Error: Reference

source not found

Hình 2.7. Sơ đồ khối bộ giải mã theo chuẩn JPEG..................................20
Hình 2.8. Bank lọc khôi phục lý thuyết sử dụng DWT 1D...................24

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

1



Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

Hình 2.9. Minh hoạ DWT hai chiều cho ảnh......Error: Reference source not
found

Hình 2.10(a). Minh hoạ DWT kiểu dyadic mức 3 để nén ảnh....Error:
Reference source not found

Hình 2.10(b). Minh hoạ DWT kiểu dyadic mức 3 để nén ảnh...Error:
Reference source not found
Hình 2.11. Các mẫu trong MPEG-1...................................................................... 31
Hình 2.12. Sơ đồ khối MPEG layer III.................................................................. 32
Hình 2.13. Chuẩn MPEG-2 m ã hoá mono/stereo ................................................ 35
Hình 2.14. Mã hoá và giải mã MPEG-2................................................................ 36
Hình 3.1. Minh hoạ lưới nhị tố dyadic với các giá trị của m và n..........................40
Hình 3.2. Phân tích đa phân giải áp dụng cho biểu diễn tín hiệu .......................... 44
Hình 3.3. Hàm ψ (t ) của biến đổi Haar ................................................................ 45
Hình 3.4: Hàm ψ (t ) của biến đổi Meyer ............................................................. 46
Hình 3.5. Hàm ψ (t ) của họ biến đổi Daubechies n với n=2, 3, 7, 8.....................47
Hình 4.1. Trình tự mã hoá (a) và giải mã JPEG2000 (b)....................................... 50
Hình 4.2. Minh hoạ ảnh với RGB và YCrCb ....................................................... 51
Hình 4.3. Phương pháp Lifting 1D dùng tính toán biến đổi Wavelet ...................52
Hình 4.4. Minh hoạ cây tứ phân (a) và sự phân mức (b ....................................... 56
Hình 4.5. Hai cách sắp xếp thứ tự các hệ số biến đổi ........................................... 57
Hình 4.6. So sánh JPEG và JPEG2000................................................................. 59
Hình 4.7. Minh hoạ tính năng ROI ....................................................................... 61
Hình 5.1. Sơ đồ khối quá trình nén ảnh bằng Wavelet ......................................... 64
Hình 5.2. biến đổi wavelet rời rạc bốn mức và dãy lọc tương đương của nó........65
Hình 5.3. Ảnh được phân tích với wavelet 4 mức................................................. 66
Hình 5.4. Ảnh mã hoá bằng DWT ........................................................................ 66

Hình 5.5-Sự phân tích của mặt phẳng tần số bằng biến đổi wavelet hai chiều bình
phương.................................................................................................................. 66

Lời nói đầu
Trong những năm gần đây, nhu cầu dịch vụ dữ liệu trên mạng, đặc
biệt là Internet là rất lớn. Cùng với nhu cầu đó, vấn đề đặt ra là làm thế nào
để tìm được một kỹ thuật mã hoá dữ liệu then chốt, có hiệu quả để truyền

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

2


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

các dữ liệu này trên mạng.

Mục đích của luận văn này là trình bày một kỹ thuật nén dữ liệu sử
dụng phương pháp biến đổi Wavelet, đặc biệt các dữ liệu lớn trong các dịch
vụ cần truyền qua mạng Internet với điều kiện đường truyền có tốc độ hạn
chế. So sánh với các kỹ thuật nén sử dụng phép biến đổi trước đây như phép
biến đổi Fourier (FT), biến đổi Causin rời rạc (DCT), biến đổi xếp chồng
(FT)…v v, biến đổi Wavelet (DWT) có nhiều ưu điểm trong xử lý ảnh và âm
thanh mà còn có nhiều ứng dụng khác. Bằng chứng là sự ra đời của chuẩn
nén JPEG2000 (dựa trên DWT) có tính năng vượt trội so với JPEG (DCT).
Hiện nay Wavelet đang chính là một chủ đề nóng về cả hai lĩnh vực lý thuyết
và ứng dụng. Wavelet là một cây cầu nối liền các lĩnh vực riêng biệt của toán
học, thống kê, xử lý tín hiệu và các khoa học vật lý khác. Càng ngày người
ta càng quan tâm nghiên cứu về wavelet nhiều ehơn.


Trong luận văn đã trình bày một phương pháp nén dữ liệu sử dụng kỹ
thuật biến đổi Wavelet không chỉ đem lại hiệu quả nén, chất lượng hình ảnh
mà còn tiết kiệm năng lượng xử lý của hệ thống. Điều này hứa hẹn có thể
xây dựng một mã hoá ảnh và âm thanh tiết kiệm năng lượng xử lý, thời gian
truyền mà vẫn phù hợp với điều kiện băng thông thấp, ràng buộc về chất
lượng dữ liệu trong các mạng thông tin.

CHƯƠNG I: MỞ ĐẦU.
1.1.CƠ SỞ NGHIÊN CỨU VÀ MỤC ĐÍCH CỦA LUẬN VĂN:
Để có thể sử dụng các dịchu vụ dữ liệu âm thanh hình ảnh cũng như
Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

3


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

dịch vụ dữ liệu khác trên nền dịch vụ mạng cần có một kỹ thuật then chốt để
có thể hỗ trợ truyền thông nhiều dạng dữ liệu thông tin tế bào gồm: âm
thanh, hình ảnh, văn bản, video. Tuy nhiên vấn đề truyền thông đa phương
tiện gặp một số khó khăn như: băng thông của mạng, tính ổn định của mạng,
tính tương thích dữ liệu…v v. Trong khi việc cải thiện băng thông, tính ổn
định cho mạng internet cần có thời gian trong tương lai, thì phương pháp
giảm kích thước của dữ liệu bằng các kỹ thuật nén là một cách tiếp cận hiệu
quả giải quyết cho các khó khăn trên.
Mặc dù cho đến nay có rất nhiều kỹ thuật nén, tuy nhiên những kỹ thuật này
chủ yếu tập trung vào hiệu quả nén và đánh mất chất lượng hình ảnh vì thế
chúng bỏ qua vấn đề tiêu hao năng lượng trong quá trình nén và truyền.
Luận văn này trình bày một kỹ thuật hiệu quả để khắc phục những khó khăn
trên cho các loại dữ liệu âm thanh và hình ảnh. Đó là kỹ thuật nén hình ảnh

và nén âm thanh sử dụng phương pháp biến đổi Wavelet cho dữ liệu trong
mạng thông tin, truyền thông.

1.2. TỔ CHỨC LUẬN VĂN:

Luận văn được trình bày trong 5 chương. Chương 1 tác giả trình bày
tóm tắt cơ sở nghiên cứu và mục đích cũng như tổ chức của luận văn.
Chương 2 trình bày khái quát các kỹ thuật nén ảnh, phân loại các
nguyên lý nén và định nghĩa một số thuật ngữ được sử dụng rộng rãi.
Chương này cũng trình bày cơ sở lý thuyết của các nguyên lý nén có tổn hao
điển hình.
Chương 3 trình bày cơ sở toán học, tính chất biến đổi Wavelet. Nội
dung của chương này là lý thuyết nền tảng cho các ứng dụng Wavelet.
Chương này cũng đưa ra một số họ Wavelet phổ biến và giới thiệu một số
Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

4


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

ứng dụng nổi bật của Wavelet ngoài ứng dụng nén ảnh, nén âm thanh.
Chương 4 giới thiệu tổng quan về chuẩn nén JPEG2000 dựa trên biến
đổi Wavelet. Mục đích không chỉ là giới thiệu một chuẩn nén vượt trội so
với chuẩn JPEG dựa trên biến đổi DCT mà còn đưa ra một lựa chọn giải
quyết bài toán đặt ra trong luận văn. JPEG2000 đang từng bước được tổ
chức ISO công nhận nên chắc chắn sẽ trở thành một chuẩn nén phổ biến
trong các ứng dụng di động tương lai. Cũng trong chương này, tác giả trình
bầy tóm tắt các bước thực hiện nén ảnh theo JPEG200 và so sánh nó với
chuẩn JPEG và các chuẩn nén ảnh tĩnh khác.

Chương 5 là chương quan trong nhất. Dựa trên cơ sở toán học, các
tính chất biến đổi Wavelet, đưa vào xây dựng các ứng dụng trong thực tế
như nén ảnh số, âm thanh số.

CHƯƠNG 2: TỔNG QUAN CÁC KỸ THUẬT NÉN
TRONG MÃ HOÁ ÂM THANH, HÌNH ẢNH.
2.1.GIỚI THIỆU CHUNG VỀ NÉN ẢNH SỐ, ÂM THANH SỐ.
Nén ảnh số, âm thanh số là một đề tài nghiên cứu khá phổ biến trong
Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

5


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

lĩnh vực xử lý dữ liệu. Mục đích là làm thế nào để lưu trữ bức ảnh hay một
đoạn âm thanh, dưới dạng có kích thước nhỏ hơn hay dưới dạng biểu diễn
mà chỉ yêu cầu số bit mã hoá ít hơn so với dữ liệu gốc. Nén dữ liệu ở đây
thực hiện được do một thực tế: thông tin trong đó không phải ngẫu nhiên mà
có trật tự, cấu trúc đó thì sẽ biết được phần thông tin nào quan trọng nhất
trong phân đoạn dữ liệu để biểu diễn và truyền đi với số lượng bit ít hơn so
với dữ liệu gốc mà vẫn đảm bảo tính đầy đủ của thông tin. Ở phía thu, quá
trình giải mã sẽ tổ chức, sắp xếp lại được bức ảnh, đoạn âm thanh xấp xỉ gần
chính xác so với gốc của nó nhưng vẫn thoả mãn chất lượng yêu cầu, đảm
bảo thông tin cần thiết.
Tóm lại, tín hiệu ảnh, video hay audio đều có thể nén lại bởi chúng có
những tính chất như sau:
+ Có sự tương quan (dư thừa) thông tin về không gian: Trong phạm
vi một bức ảnh hay một khung video tồn tại sự tương quan đáng kể
(dư thừa) giữa các điểm ảnh lân cận.

+ Có sự tương quan (dư thừa) thông tin về phổ: Các dữ liệu thu được
từ các bộ cảm biến của thiết bị thu nhận ảnh tồn tại sự tương quan
đáng kể giữa các mẫu thu, đây chính là sự tương quan về phổ.
+ Có sự tương quan (dư thừa) thông tin về thời gian. Trong một chuỗi
video, tồn tại sự tương quan giữa các điểm ảnh của các khung video
(frame)
Sơ đồ của một hệ thống nén dữ liễu tổng quát như sau:

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

6


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

Trong hình 2.1, bộ mã hoá dữ liệu thực hiện quá trình nén bằng cách giảm
kích thước dữ liệu ảnh gốc đến một mức phù hợp với việc lưu trữ và truyền
dẫn trên kênh. Tốc độ bit đầu ra của bộ mã hoá được tính là số bit cho một
mẫu (điểm ảnh). Bộ mã hoá kênh thực hiện việc chuyển đổi luồng bit đã
được nén thành dạng tín hiệu phù hợp cả cho việc lưu trữ và truyền dẫn,
thường bộ mã hoá kênh sử dụng các kỹ thuật: mã hoá có dộ dài thay đổiRLC (Run Length Coding), mã hoá Hufman, mã hoá số học. Bộ giải mã thực
hiện quá trình ngược lại so với bộ mã hoá.
Trong các hệ thống nén, tỷ số nén chính là tham số quan trọng đánh giá khả
năng nén của hệ thống, công thức được tính như sau:
Tỷ số nén= Kích thước dữ liệu gốc/Kích thước dữ liệu nén.
Đối với ảnh tĩnh, kích thước chính là số bit để biểu diễn toàn bộ bức ảnh.
Đối với video, kích thước chính là số bit để biểu diễn một khung hình video
(video frame).

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19


7


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

2.2.PHÂN LOẠI CÁC KỸ THUẬT NÉN.
Các kỹ thuật nén chủ yếu được phân loại như sau:
2.2.1. Nén tổn hao và không tổn hao.
Trong các kỹ thuật nén không tổn hao (Losses compression), ảnh khôi
phục giống hoàn toàn so với ảnh gốc. Tuy nhiên, nén không tổn hao chỉ đạt
được hiệu quả nén rất nhỏ. Trái lại, các kỹ thuật nén có tổn hao (losy
compression) có thể đạt được hiệu quả nén cao hơn rất nhiều mà ở điều kiện
cảm nhận thông thường sự mất mát thông tin không cảm nhận được và vì
thế vẫn đảm bảo chất lượng hình ảnh. Một số kỹ thuật nén có tổn hao bao
gồm: điều xung mã vi sai-DPCM, điều xung mã – PCM, lượng tử hoá vectơVQ, mã hoá biến đổi và băng con. Ảnh khôi phục trong hệ thống nén có tổn
hao luôn có sự suy giảm thông tin so với ảnh gốc bởi vì: phương pháp nén
này đã loại bỏ những thông tin dư thừa không cần thiết.
2.2.2. Mã hoá dự đoán và mã hoá dựa trên phép biến đổi.
Đối với mã hoá dự đoán (predictive coding) các giá trị mang thông tin
đã được gửi hay đang sẵn có sẽ được sử dụng để đoán các giá trị khác, và
chỉ mã hoá sự sai lệch giữa chúng. Phương pháp này đơn giản rất phù hợp
với công việc khai thác các đặc tính cục bộ của bức ảnh. Kỹ thuật DPCM
chính là một ví dụ điển hình của phương pháp này. Trong khi đó, mã hoá
dựa trên phép biến đổi (transform based coding) thì lại thực hiện như sau:
trước tiên thực hiện phép biến đổi với ảnh để chuyển sự biểu diễn ảnh từ
miền không gian sang một miền biểu diễn khac. Các phép biến đổi thường
dung là: DCT - biến đổi Causin rời rạc, DWT- biến đổi Wavelet rời rạc, LT biến đổi trồng (lapped), tiếp đó thực hiện mã hoá đối với các hệ số biến đổi.
Phương pháp này có hiệu suất nén cao hơn rất nhiều so với các phương pháp


Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

8


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

nén dự đoán bỏi vì chính các phép biến đổi (sử dụng các thuộc tính nén năng
lượng của mình) đã gói gọn toàn bộ năng lượng bức ảnh chỉ bằng một số ít
các hệ số, số lớn các hệ số còn lại ít có ý nghĩa hơn sẽ bị loại bỏ sau khi
lượng tử hoá và như vậy dữ liệu phải truyền nhỏ đi rất nhiều. Trong phương
pháp mã hoá dự đoán, sai lệch giữa ảnh gốc và ảnh dự đoán vẫn có ý nghĩa
(còn sử dụng ở bước tiếp theo) sau khi lượng tử hoá,chính điều này làm cho
phương pháp mã hoá dự đoán có nhiều dữ liệu được truyền đi hơn so với
phương pháp mã hoá biến đổi.
2.2.3. Mã hoá băng con.
Bản chất của mã hoá băng con (subband coding) là chia băng tần của
tín hiệu (ảnh) thành nhiều băng con (subband). Để mã hoá cho mỗi băng
con, chúng ta sử dụng một bộ mã và một tốc độ bit tương ứng với tính chất
thống kê của băng con.
2.3.TIÊU CHUẨN CHẤT LƯỢNG ĐÁNH GIÁ MÃ HOÁ.
Để đánh giá chất lượng của bức ảnh (hay khung ảnh video) ở đầu ra
của bộ mã hoá, người ta sử dụng hai tham số: sai số bình phương trung bình
– MSE (mean square error) và tỉ số tín hiệu trên nhiễu đỉnh – PSNR (peak
to signal to noise ratio). MSE thường được gọi là phương sai lượng tử- σ2q
(squantization eror variance). MSE giữa ảnh gốc và khôi phục được tính
như sau:
MSE = σ q =
2


1
( f [ j, k ] − g [ j, k ] ) 2
N

(2.1)

Trong đó tổng lấy theo j, k tính cho tổng tất cả các điểm ảnh trong ảnh và N
là số điểm ảnh trong ảnh. Còn PSNR giữa hai ảnh ( b bit cho mỗi điểm ảnh,
RMSE là căn bậc hai của MSE) được tính theo công thức dB như sau:

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

9


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

PSNR = −20 log10

RMSE
2b − 1

(2.2)

Thông thường nếu PSNR ≥ 40dB thì hệ thống mắt người gần như không
phân được giữa ảnh gốc và ảnh khôi phục.
Một tham số khác hay sử dụng trong các hệ thông viễn thông đó là tỉ
số tín hiệu trên nhiễu – SNR, tuy vậy SNR sử dụng cho một hệ thống nén
ảnh cũng có công thức dB như sau:
2.4. CÁC KỸ THUẬT NÉN CÓ TỔN HAO.

Trong phần này, tác giả lựa chọn trình bày hai kỹ thuật nén tổn hao
cho nén ảnh tĩnh và ảnh động, đó là: mã hoá băng con (subband coding) và
mã hoá sử dụng phép biến đổi (transform coding). Đây là hai kỹ thuật nén
điển hình và cho hiệu quả nén cũng như chất lượng ảnh cao.
2.4.1. Kỹ thuật mã hoá băng con.
Tư tưởng chính của kỹ thuật mã hoá băng con là: các ảnh được lấy
mẫu ở đầu vào được phân ly thành các băng tần khác nhau (gọi là các tín
hiệu băng con). Yêu cầu của kỹ thuật này là làm thế nào các băng con không
bị chồng chéo lên nhau. Để có thể phân ly tín hiệu ở bộ mã hoá (encoder)
thành các băng con, ảnh được cho qua một bank lọc (filter bank) gọi là các
bank lọc phân tích và mỗi đầu ra của bank lọc băng con được lấy mẫu xuống
hệ số 2. Các đầu ra băng con rần số được lấy mẫu xuống sẽ lần lượt được:
lượng tử hoá độc lập bằng các bộ lọc vô hướng khác nhau, mã hoá entropy,
lưu trữ và truyền đi. Ở phía bộ giải mã (decoder), quá trình được thực hiện
ngược lại: giải lượng tử băng con tần số, lấy mẫu lên với hệ số 2, cho đi qua
bank lọc băng con tổng hợp rồi cộng tất cả các đầu ra của bộ lọc để khôi
phục lại ảnh.

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

10


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

Các bộ lọc băng con thường được thiết kế xấp xỉ thoả mãn tiêu chuẩn của
các đáp ứng tần số không chồng chéo. Mục đích của vấn đề là để giải tương
quan các hệ số tần số kết quả. Đây chính là tính chất quan trọng mà quá
trình lọc băng con cố gắng đạt được. Các bộ lọc băng con được thiết kết để
là các xấp xỉ với các bộ lọc chọn tần số lý tưởng, trong đó đáp ứng tổng hợp

từ tất cả các bộ lọc bao trùn tất cả băng tần của dải. Tuy nhiên trong thực tế,
sự tương quan tổng không bao giờ đạt được do những bộ lọc này chỉ xấp xỉ
với các bộ lọc lý tưởng.
HÌnh 2.2 dưới đây là sơ đồ tổng quát giải thích kỹ thuật mã hoá băng con.

Các bộ lọc sử dụng trong mã hoá băng con là các bộ lọc gương tứ
phương – QMF (quardrature mirror filters), do vậy chúng ta chỉ cần thiết kế
các bộ lọc thông thấp có đáp ứng H(ω) còn đáp ứng của các bộ lọc thông

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

11


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

cao là H(ω+π) chỉ là sự dịch pha 180o so với bộ lọc thông thấp. Sự chính
xác của bộ lọc phụ thuộc vào số các hệ số của bộ lọc.
Một trong các phương pháp mã hoá băng con đó là áp dụng sự phân
ly cây bát phân để phân ly dữ liệu ảnh thành các băng tần khác nhau. Ý
tưởng của phương pháp này là: trước tiên lọc và lược bỏ ảnh để phân ly
nhưng chỉ áp dụng cho băng con tần số thấp để tạo thành các băng con tần
số cao và thấp để tiếp tục lược bỏ. Kỹ thuật này rất phổ biến và cũng được
áp dụng trong các bộ mã sử dụng biến đổi Wavelet. Đầu ra của các băng con
sau khi đã giản lược sẽ được lượng tử hoá và mã hoá độc lập. Mỗi băng con
sẽ sử dụng bộ lượng tử hoá riêng và mỗi bộ lượng tử hoá này có tốc độ lấy
mẫu riêng (bit/mẫu)
Như vậy rõ rang mã hoá băng con không đạt được sự nén, mà nó chỉ
thực hiện việc giải tương quan dữ liệu ảnh gốc và tập trung năng lượng của
ảnh vào một số băng con. Nén chỉ đạt được là do sự lược bỏ ảnh

(decimation) và do sự lượng tử hoá (quantization).

Trong các hệ thống mã hoá băng con hai chiều thực tế, người ta chia
miền tần số - không gian hai chiều của ảnh gốc thành các băng khác nhau ở
bất kỳ mức nào. Hình 2.4 dưới đây minh hoạ việc phân ly 2 ảnh mẫu thành 4
băng con LL, HL, LH và HH ở mức đầu tiên.
Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

12


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

Nhược điểm của kỹ thuật mã hoá băng con:
Một trong những vấn đề chủ yếu của kỹ thuật mã hoá băng con đó là
giải quyết bài toán cấp phát bit (là số bit cấp cho mỗi băng con) để đạt được
hiệu suất cao nhất. Một trong những cách thực hiện là sử dụng ý tưởng cấp
phát bit tối ưu cho mỗi đầu ra băng con đã được lượng tử hoá. Tuy nhiên
cách này chủ yếu thích hợp cho trường hợp tốc độ cao (≥1 bit/mẫu).
Trước khi đi vào nghiên cứu kỹ thuật mã hoá dựa trên phép biến đổi, chúng
ta sẽ tổng kết một số nhược điểm của kỹ thuật mã hoá băng con như sau:
+ Kỹ thuật mã hoá băng con không xác định được hệ thống mã hoá tối
ưu cho các ứng dụng tốc độ bit thấp. Việc cấp phát bit tối ưu sẽ thay
đổi khi tốc độ bit tổng thay đổi, điều này làm quá trình mã hoá phải lặp
lại hoàn toàn cho mỗi tốc độ bit xác định.
Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

13



Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

+ Không hoàn toàn giải tương quan cho tất cả các băng tần, đấy là do
các bộ lọc không phải là lý tưởng và có sự chồng chéo nhỏ giữa các
băng tần liền kề. Do vậy luôn luôn tồn tại một sự tương quan nhỏ giữa
các băng tần kề nhau và dữ liệu sẽ không được nén hoàn toàn.
+ Kỹ thuật mã hoá băng con không hiệu quả khi thực hiện bù chuyển
động trong video vì rất khó để thực hiện đánh giá chuyển động ở các
băng con (sai số dự đoán là rất lớn).
2.4.2. Kỹ thuật mã hoá dựa trên phép biến đổi
Một phép biến đổi là một hàm toán học được sử dụng để biến đổi một
tập các giá trị này thành một tập các giá trị khác và tạo ra một cách biểu diễn
mới cho cùng một nguồn tin. Tất cả các phép biến đổi mà chúng ta định
trình bày dưới đây đều là không tổn hao (lossless); với sự chính xác của các
phép toán số học thì các phép biến đổi vẫn bảo tồn được độ chính xác ở bất
kỳ mức độ nào. Nhưng hầu hết các kỹ thuật mã hoá đều có tổn hao ở các
bước lượng tử hoá do có sự làm tròn giá trị cho các hệ số phép biến đổi.
Phần này chúng ta sẽ trình bày các kỹ thuật mã hoá dựa trên phép biến đổi
được sử dụng trong nén ảnh.
(a) Kỹ thuật mã hoá dựa trên phép biến đổi Causin rời rạc – DCT
(b) Kỹ thuật mã hoá dựa trên phép biến đổi chồng – LT
(c) Kỹ thuật mã hoá dựa trên phép biến đổi DWT
2.4.2.1. Kỹ thuật mã hoá dựa trên phép biến đổi DCT
Phép biến đổi Causin rời rạc DCT ( Disctrete Cosine Transform) biến
đổi thông tin ảnh từ miền không gian sang miền tần số để có thể biểu diễn
dưới dạng gọn hơn. Tính chất của nó tương tự như biến đổi Fourier, coi ảnh

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

14



Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

đầu vào (tín hiệu audio hoặc video) là các tín hiệu ổn đinh bất biến theo thời
gian. Để hiểu rõ kỹ thuật này trước hết ta cần tìm hiểu biến đổi Fourier.
Biến đổi Fourier- FT:
Biến đổi Fourier – FT (Fourier Transform) là một phép biến đổi thuận
nghịch, nó cho phép sự chuyển đổi thuận - nghịch giữa thông tin gốc (miền
không gian hoặc thời gian) và tín hiệu được xử lý (được biến đổi). Tuy nhiên
ở một thời điểm bất kỳ chỉ tồn tại một miền thông tin được thể hiện. Nghĩa
là tín hiệu trong miền không gian không có sự xuất hiện thông tin về tần số
và tín hiệu sau biến đổi Fourier không có sự xuất hiện thông tin về thời gian.
Ft cho biết thông tin tần số của tín hiệu, cho biết những tần số nào có
trong tín hiệu, tuy nhiên nó không cho biết tần số nào đó xuất hiện khi nào
trong tín hiệu. Nếu như tín hiệu là ổn định (stationary- có các thành phần
tần số không thay đổi theo thời gian) thì việc xác định các thành phần tần số
xuất hiện khi nào trong tín hiệu là không cần thiết.
Phép biến đổi FT thuận và nghịch được định nghĩa như sau:


X ( f ) = ∫ x(t )e − 2 jπft dt
−∞



X (t ) = ∫ X (t )e − 2 jπft df
−∞

(2.4)

( 2.5)

Phép biến đổi FT cũng có thể được áp dụng cho tín hiệu không ổn
định (non-stationary) nếu như chúng ta chỉ quan tâm đến thành phần phổ
nào có trong tín hiệu mà không quan tâm đến nó xuất hiện khi nào trong tín
hiệu. Tuy nhiên, nếu thông tin về thời gian xuất hiện của phổ trong tín hiệu
là cần thiết, thì phép biến đổi FT không có khả năng đáp ứng được yêu cầu
này, đây cũng là hạn chế của phép biến đổi này.

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

15


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

Để có biến đổi Fourierr rời rạc – DFT (Discrete Fourier Transform)
thì ở phép tích phân trong biểu thức toán học của biến đổi FT, ta thay bằng
phép tổng và tính toán nó với các mẫu hữu hạn.
Hệ số phép biến đổi DFT thứ k của một chuỗi gồm N mẫu {x(n)} được định
nghĩa:
N −1

X (k ) = ∑ x(n) kn
N

, k = 0,......., N − 1 ( 2.6)

n =0


Trong đó WN= e-2jπ/N = cos( 2π/N) – j sin(2π/N), còn chuỗi {x(n)} có thể khôi
phục bằng DFT ngược như sau:
N −1

x(n) = ∑ X (k ) -Nkn

, k = 0,......., N − 1 (2.7)

n=0

Định nghĩa và các tính chất của biến đổi DCT
Biến đổi DCT thuận và ngược một chiều gồm N mẫu được định nghĩa như
sau:
DCT = X ( k ) =

IDCT = x (n) =

2 N −1
 (2n + 1)kπ 
ck ∑ x(n)cos 
 , k = 0,1,...., N − 1 (2.8)
N n =0
 2N

2 N −1
 (2n + 1)kπ 
ck ∑ X ( k )cos 
 , n = 0,1,...., N − 1 (2.9)
N k =0
 2N


Trong đó :
1 / 2 , k = 0
ck = 
k ≠0
1,

Cả DCT và IDCT đều là biến đổi trực giao, tách biệt và thực. Tính
chất phân tách (separable) ở đây nghĩa là biến đổi nhiều chiều của nó có thể
phân tách thành các biến đổi một chiều. Tính chất trực giao ở đây nghĩa là
nếu các ma trận của DCT và IDCT là không bất thường (non-singular) và
thực thì biến đổi ngược của chúng có thể đạt được bằng cách áp dụng hoán

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

16


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

tử hoán vị. Cũng như biến đổi FT, DCT cũng coi dữ liệu đầu vào là tín hiệu
ổn định (bất biến).
Trong các chuẩn nén ảnh tĩnh vào video, người ta thường sử dụng DCT và
IDCT có kích thước 8 mẫu. Bức ảnh hoặc khung ảnh video kích thước NxN
được chia thành các khối không chồng chéo nhau hai chiều gọi là các ảnh
con kích thước 8x8 rồi áp dụng biến đổi DCT hai chiều ở bộ mã hoá và áp
dụng biến đổi IDCT ở bộ mã.
Biến đổi DCT và IDCT 8 mẫu tạo thành các ma trậnh 8x8 theo công thức:

2 − D DCT = X k,l =


c(k )c (l ) 7 7
 (2m + 1)kπ   (2n + 1)lπ 
xm,n cos
 cos
 (2.10)
∑∑
4
16
16

 

m =0 n =0

k , l = 0,1,....7
7

7

2 − D IDCT = x m,n = ∑∑
k = 0 l =0

c(k )c(l )
 (2m + 1)kπ   (2n + 1)lπ 
X k ,l cos
 cos
 (2.11)
4
16

16

 


m, n = 0,1,....7

1 / 2 , k & l = 0


Và c(k ), c(l ) = 

1, k 2 + l 2 ≠ 0

Thuật toán để tính 2-D DCT và IDCT là: thực hiện phép biến đổi 1-D lần
lượt cho hàng rồi đến cột của ma trận.
So sánh DCT và KLT:
Hiệu quả của biến đổi DCT trong việc giải tương quan tín hiệu ảnh
tương đương với biến đổi Karhunen-Loeve (KLT). KLT là phép biến đổi
theo khối tối ưu nhất cho nén dữ liệu ở khía cạnh thống kể bởi: nó có thể
giải tương quan bằng một cách tối ưu tín hiệu ảnh trong miền phép biến đổi
(bằng cách tập trung hầu hết thông tin ảnh vào một hệ số của phép biến đổi)
và so với các phép biến đổi khác nó có thể tối thiểu hoá MSE giữa ảnh khôi
phục và ảnh gốc.

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

17



Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

Nén và giải nén dựa theo phép biến đổi DCT trong JPEG:
JPEG là chuẩn nén số quốc tế đầu tiên cho các ảnh tĩnh có tông màu liên tục
gồm cả ảnh đơn sắc và ảnh màu. Trong kỹ thuật này các khối ảnh kích thước
8x8 được áp dụng để thực hiện DCT, sau đó lượng tử hoá các hệ số rồi mã
hoá entropy sau lượng tử.
Đối với những ảnh màu RGB, để áp dụng kỹ thuật nén này, trước hết
phải chuyển sang chế độ màu YUV (Y là thành phần chói, U và V là hai
thành phần màu). Thành phần độ chói là ảnh đơn sắc xám. Hai thành phần
màu còn lại chứa thông tin về màu. Việc mã hoá và giải mã ảnh trong JPEG
ở được thực hiện cho thành phần chói rồi màu.
Sơ đồ khối bộ mã hoá và giải mã của JPEG như sau:

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

18


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

Quá trình xử lý thành phần độ chói ở phía mã hoá được giải thích như sau:
(a). Ảnh gốc được chia thành các khối ảnh (block) nhỏ kích thước 8x8
không chồng chéo lên nhau. Tiếp theo, giá trị của mỗi điểm ảnh ở mỗi
khối ảnh sẽ được trừ đi 128. Lý do là do giá trị các điểm ảnh có giá trị trừ
0 đến 255 (được mã hoá bởi 8 bit không dấu), áp dụng biến đổi DCT sẽ
tạo ra các hệ số AC có dải giá trị từ -1023 đến +1023 (có thể được mã
hoá bởi 11 bit có dấu). Nhưng hệ số DC lại có giải giá trị từ 0 đến 2040
(được mã hoá bởi 11 bit không dấu) và cần cách xử lý khác ở phần cứng
hoặc phần mềm so với các hệ số AC. Chính vì thế việc trừ mỗi điểm ảnh

đi 128 là để sau khi biến đổi DCT cả các hệ số DCT cả các hệ số DC và
AC có cùng dải giá trịo thuận lợi cho việc xử lý và biểu diễn.
Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

19


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

(b). Ở mỗi khối ảnh hai chiều kích thước 8x8, áp cụng biến đổi DCT để tạo
ra mảng hai chiều các hệ số biến đổi. Hệ số có tương ưng với tần số
không gian thấp nhấp nhưng lại có giá trị lớn nhất được gọi là hệ số DC (
một chiều), nó tỷ lệ với độ chói trung bình của cả khối ảnh 8x8. Các hệ
số còn lại gọi là các hệ số AC (xoay chiều). Theo lý thuyết, biến đổi DCT
không đem lại sự mất mát thông tin ảnh, mà đơn giản nó chỉ chuyển
thông tin ảnh sang miền không gian mới thuận lợi hơn cho mã hoá ở
bước tiếp theo.
(c). Mảng hai chiều các hệ số biến đổi được lượng tử hoá sử dụng bộ lượng
tử hoá đồng nhất. nghĩa là các hệ số sẽ được lượng tử hoá riêng lẻ và độc
lập. Quá trình lượng tử hoá là dựa trên sinh lý của hệ thống mắt người:
cảm nhận hình ảnh có độ nhạy kém hơn ở các hệ số tần số cao và có độ
nhạy tốt hơn ở các hệ số có tần số thấp. Vì thế các hệ số được chọn sao
cho thực hiện lượng tử hoá thô đối với các hệ số tần số cao và lượng tử
hoá tinh đối với các hệ số có tần số thấp. Bảng lượng tử hoá được lấy tỉ lệ
để tạo ra các mức nén thay đổi tuỳ theo tốc độ bit và chất lượng ảnh. Việc
lượng tử hoá sẽ tạo ra rất nhiều giá trị 0, đặt biệt là ở tần số cao. Quá
trình làm tròn trong khi lượng tử hoá chính là nguyên nhân chính gây ra
sự tổn hao nhưng lại là nhân tố chính đem lại hiệu suất nén.
(d). Để tận dụng ưu điểm của các hệ số đã được lượng tử có giá trị gần bằng
0, mảng hai chiều các hệ số đã được lượng tử sẽ được sắp xếp theo hình

Zigzag tạo thành mảng một chiều. Cách sắp xếp này cho phép giảm thiểu
năng lượng tổn hao trung bình và tạo ra các giá trị bằng 0 liên tiếp. Cũng
theo cách sắp xếp này, các hệ số DC được tách khỏi các hệ số AC và sử
dụng kỹ thuật mã hoá điều xung mã vi sai – DPCM.

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

20


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

(e). Bước cuối cùng của bộ mã hoá là sử dụng mã hoá entropy chẳng hạn mã
hoá Huffman cho các AC và DC ( sau khi đã mã hoá DPCM) để tăng
thêm hiệu quả nén cũng như giảm thiểu lỗi.
Ở phía giải mã, luồng bit mã hoá được giải mã entropy, sau đó mảng
hai chiều các hệ số DCT đã được lượng tử hoá được giải sắp xếp Zigzag và
giải lượng tử. Mảng hai chiều các hệ số DCT kết quả sẽ được biến đổi IDCT
rồi cộng mỗi giá trị với 128 để xấp xỉ tạo thành các khối ảnh con kích thước
8x8. Chú ý là bảng lượng tử hoá và mã hoá entropy ở các phia mã hoá và
giải mã đồng nhất.
Hai thành phần màu cũng được mã hoá tương tự như thành phần chói ngoại
trừ khác biệt là chúng được lấy mẫu xuống hệ số 2 hay 4 ở cả chiều ngang
hay chiều dọc trước khi biến đổi DCT. Ở phía giải mã, thành phần màu sẽ
được nội suy thành kích thước gốc.
2.4.2.2. Kỹ thuật mã hoá dựa trên phép biến đổi DWT
Mối quan hệ giữa biến đổi Wavelet và Fourier:
Không giống như biến đổi Fourier chỉ thích hợp khi phân tích những
tín hiệu ổn định (stationary), Wavelet là phép biến đổi được sử dụng để phân
tích các tín hiệu không ổn định (non-stationary) – là những tín hiệu có đáp

ứng tần số thay đổi theo thời gian.
Để khắc phục những hạn chế của phép biến đổi FT, phép biến đổi Fourier
thời gian ngắn – STFT được đề xuất. Chỉ có một sự khác biệt nhỏ giữa
STFT và FT: trong biến đổi STFT, tín hiệu được chia thành các khoảng nhỏ
và trong khoảng tín hiệu được giả định là tín hiệu không ổn định. Để thực
hiện kỹ thuật này cần chọn một hàm cửa sổ w sao cho độ dài của cửa sổ
đúng bằng các khoảng tín hiệu phân chia. Với phép biến đổi STFT, chúng ta

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

21


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

có thể thu được đáp ứng tần số - thời gian của tín hiệu đồng thời mà với
phép biến đổi FT ta không thực biện được.
Biến đổi STFT đối với tín hiệu liên tục thực được định nghĩa như sau:


X ( f , t ) = ∫ [ x(t ) w(t − τ )* ]e − 2 jπft dt (2.12)
−∞

Trong đó độ dài thời gian của cửa sổ là (t-τ), chúng ta có thể dịch chuyển vị
trí của cửa sổ bằng cách thay đổi giá trị t và để thu được các đáp ứng tần số
khác nhau của đoạn tín hiệu ta thay đổi giá trị τ.
Giải thích biến đổi STFT bằng nguyên lý bất định Heisender, nguyên lý này
phát biểu là: “ không thể biết chính xác được biểu diễn thời gian - tần số
của một tín hiệu (hay không thể biết các thành phần phổ của tín hiệu ở một
thời điểm nhất định)”. Cái mà ta có thể biết là một trong một khoảng thời

gian ngắn nhất định tín hiệu có những băng tần nào. Đây được gọi là bài
toán phân giải. Vấn đề này liên quan đến độ rộng của hàm cửa sổ mà chúng
ta sử dụng. Nếu hàm cửa số càng hẹp thì độ phân giải càng tốt hơn và giả
định tín hiệu là ổn định càng có độ chính xác nhưng độ phân giải tần số lại
kém đi. Ta có các hệ quả sau:
Cửa sổ hẹp -> phân giải thời gian tốt, phân giải tần số kém.
Cửa sổ rộng -> phân giải tần số tốt, phân giải thời gian kém.
Trên cơ sở cách tiếp cận biến đổi STFT, biến đổi Wavelet được phát triển để
giải quyết các vấn đề về độ phân giải tín hiệu (miền thời gian hoặc tần số)
mà STFT vẫn còn hạn chế. Biến đổi Wavelet được thực hiện theo cách: tín
hiệu được nhân với hàm Wavelet (tương tự nhân với hàm cửa sổ trong biến
đổi STFT), rồi thực hiện biến đổi riêng rẽ cho các khoảng tín hiệu khác nhau
trong miền thời gian tại các tần số khác nhau. Cách tiếp cận như vậy còn
được gọi là: phân tích đa phân giải – MRA (Multi Resolution Analysis):

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

22


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

phân tích tín hiệu ở các tần số khác nhau và cho các độ phân giải khác
nhau.
Biến đổi Wavelet rời rạc – DWT:
Bước này có thể hiểu phép biến đổi DWT như là áp dụng một tâp các
bộ lọc: thông cao và thông thấp. Thiết kế cac bộ lọc này tương đương như
kỹ thuật mã hoá băng con (Subband coding) nghĩa là: chỉ cần thiết kế các bộ
lọc băng thấp, còn các bộ lọc thông cao chính là các bộ lọc thông thấp dịch
pha đi một góc 1800. Tuy nhiên khác với mã hoá băng con, các bộ lọc trong

DWT được thiết kế phải có đáp ứng phổ phẳng, trơn và trực giao.
HÌnh 2.11 dưới đây minh hoạ dạng tổng quát của biến đổi DWT một chiều.
Theo đó tín hiệu đựoc cho đi qua các bộ lọc thông cao và thông thấp H và G
mức 1. Biến đổi ngược thì thực hiện ngược lại: lấy mẫu lên (up sampling) hệ
số 2 rồi sử dụng các bộ lọc khôi phục H’, G’ ( lý tưởng là H’ và G’ chính là
H, G)

Từ biến đổi DWT một chiều có thể mở rộng định nghĩa biến đổi DWT hai
chiều theo cách: Sử dụng các bộ lọc riêng biệt, thực hiện biến đổi DWT một
chiều dữ liệu vào (ảnh) theo hàng rồi thực hiện theo cột. Theo cách này nếu
thực hiện biến đổi DWT ở mức 1, sẽ tạo ra 4 nhóm hệ số biến đổi. Quá trình
biến đổi DWT hai chiều có thể minh hoạ như hình 2.12 dưới đây, trong đó 4

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

23


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

nhóm hệ số là: LL, HL, LH, HH ( chữ cái đầu tiên tương ứng đã thực hiện
lọc theo hang, chữ cái thứ hai tương ứng đã thực hiện lọc theo cột)

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

24


Luận văn tốt nghiệp cao học - Chuyên nghành CNTT


Hai thuật toán nén sử dụng DWT điển hình:
So với phép biến đổi DCT sử dụng trong chuẩn nén JPEG ra đời năm
1992, nén ảnh dựa trên biến đổi DWT đã có những cải tiến đáng kể. Tuy
nhiên cải tiến mang tính đột phá sử dụng DWT để nén ảnh bắt đầu là kỹ
thuật mã hoá – EZW (embedded zero-tree wavelet).
Thuật toán EZW dựa trên khả năng khai thác các thuộc tính đa phân giải của
biến đổi Wavelet để đưa ra một thuật toán ít phức tạp trong tính toán mà vẫn
cho hiệu quả nén cao. Những cải tiến và nâng cấp của EZW về sau đã ra đời
một số thuật toán tương tự như: SPIHT (set partitationing in hierarchical
tree-cây phân cấp phân tập) và ZTE (zero-tree entropy coding-mã hoá
entropy cây zero).
Gần đây còn có thêm một thuật toán nữa được đề xuất đó là LS (lifting
scheme) sử dụng để tạo các biến đổi Wavelet số nguyên. Kỹ thuật này sử
dụng các bộ lọc Wavelet trực giao đem lại hiệu quả rất cao cho các ứng dụng

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19

25


×