Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI
HỌC BÁCH KHOA HÀ NỘI 0380
LUẬN VĂN THẠC SỸ KHOA HỌC • • •
NÉN ẢNH SỬ DỤNG BIÉN ĐỎI WAVELET VÀ ỨNG
DỤNG TRONG CÁC DỊCH vụ DỮ LIỆU ĐA
• • • • PHƯƠNG TIỆN DI ĐỘNG
NGHÀNH: ĐIỆN TỬ VIỄN THÔNG
Người hướng dẫn khoa học: PGS.TS. Nguyễn Đức Thuận
HÀ NỘI 2006
ĐỖ NGỌC ANH
Luận văn cao học ĐTVT 2004 - 2006
Đỗ Ngọc Anh
Luận văn cao học ĐTVT 2004 - 2006
Đỗ Ngọc Anh
MỤC LỤC
5.3.2.
5.3.2.1. Ảnh hưởng đến năng lượng tính toán và chất lượng ảnh 62
5.3.2.2.
5.3.2.3.
5.3.2.4. CÁC HÌNH VË, BANG BIËU TRONG LUẬN
VĂN
5.3.2.5
5.3.2.6
5.3.2.7. Hình 5.2. (a) Biến đổi Wavelet 2D mức 3 và (b) Minh hoạ bằng
ảnh
5.3.2.8
5.3.2.9
5.3.2.10. THUẬT NGỮ TIÉNG ANH
5.3.2.11. CWT Biến đổi Wavelet liên tục (Continuous Wavelet Transform)
5.3.2.12. DCT Biến đổi Cosine rời rạc (Discrete Cosine Transform)
5.3.2.13. DFT Biến đổi Fourier rời rạc (Discrete Fourier Transform)
5.3.2.14. DPCM Điều xung mã vi sai (Differized Pulse Code
Modulation)
5.3.2.15. DWT Biến đổi Wavelet rời rạc (Discrete Wavelet Transform)
5.3.2.16. EZW Wavelet cây zero (Embedded Zerotree Wavelet)
5.3.2.17. HVS Hệ thống cảm nhận hình ảnh của mắt người
5.3.2.18. (Human Visual System)
5.3.2.19. IDWT Biến đổi Wavelet rời rạc ngược
5.3.2.20. JPEG Chuẩn nén ảnh của ủy ban JPEG quốc tế
5.3.2.21. (Joint Photographic Experts Group)
5.3.2.22. JPEG2000 Chuẩn nén ảnh JPEG2000
5.3.2.23. Lossless Compression Kỹ thuật nén ảnh không tổn hao (không mất
dữ liệu)
Luận văn cao học ĐTVT 2004 - 2006
Đỗ Ngọc Anh
5.3.2.24. Lossy Compression Kỹ thuật nén ảnh có tổn hao (có mất dữ liệu)
5.3.2.25. MRA Phân tích đa phân giải (Multi Resolution Analysis)
5.3.2.26. MSE Sai số bình phương trung bình (Mean Square Error)
5.3.2.27. PCM Điều xung mã (Pulse Code Modulation)
5.3.2.28. PSNR Tỷ số tín hiệu đỉnh trên nhiễu (Peak Signal to
Noise Ratio)
5.3.2.29. QMF Lọc gương cầu tứ phương (Quardrature Mirror Filters)
5.3.2.30. RLC Mã hoá loạt dài (Run Length Coding)
5.3.2.31. ROI Kỹ thuật mã hóa ảnh theo vùng (Region Of Interest) -
Một
5.3.2.32. tính năng mới nổi bật của
JPEG2000 SPIHT Phương pháp mã hoá phân cấp theo vùng
5.3.2.33. (Setpartitioning in hierarchical trees)
5.3.2.34. STFTBiến đổi Fourier thời gian ngắn (Short Time Fourier
5.3.2.35. Transform)
5.3.2.36. Wavelet Biến đổi băng con Wavelet
5.3.2.37. Wavelet Decomposition Cây phân
giải Wavelet Tree
5.3.2.38. LỜI GIỚI THIỆU
5.3.2.39. •
5.3.2.40. Trong những năm gần đây, nhu cầu các dịch vụ dữ liệu trên
mạng di động, nhất là dữ liệu đa phương tiện là rất lớn. Cùng với nhu cầu đó,
vấn đề đặt ra là làm thế nào tìm được một kỹ thuật mã hoá dữ liệu then chốt
(chuẩn), có hiệu quả để truyền các dữ liệu này trên mạng di động.
5.3.2.41. Mục đích của luận văn là trình bầy một kỹ thuật nén ảnh sử
dụng biến đổi Wavelet cho ảnh tĩnh và đặc biệt là ảnh tĩnh trong các dịch vụ dữ
liệu đa phương tiện trong mạng di động. So với các kỹ thuật nén sử dụng phép
biến đổi trước đây như biến đổi Fourier (FT), biến đổi cosine rời rạc (DCT'),
biến đổi xếp chồng (LT), , biến đổi Wavelet (DWT) có nhiều ưu điểm không chỉ
trong xử lý ảnh mà còn nhiều ứng dụng khác. Bằng chứng là sự ra đòi của chuẩn
nén JPEG2000 (dựa trên DWT) có tính năng vượt trội so với JPEG (DCT). Tuy
Luận văn cao học ĐTVT 2004 - 2006
Đỗ Ngọc Anh
nhiên chuẩn JPEG, MPEG hay ngay cả JPEG2000 cũng chỉ tập trung vào hiệu
quả nén (tỉ số nén) và chất lượng ảnh mà không chú ý đến năng lượng tiêu hao
trong quá trình xử lý và truyền trên mạng. Trong luận văn đã trình bầy một kỹ
thuật nén ảnh trong mạng di động sử dụng biến đổi Wavelet hiệu năng không chỉ
đem lại hiệu quả nén, chất lượng hình ảnh mà còn tiết kiệm năng lượng xử lý
của hệ thống. Điều này hứa hẹn có thể xây dựng một bộ mã hoá ảnh tiết kiệm
năng lượng xử lý, thời gian truyền mà vẫn phù họp vói điều kiện băng thông
thấp, ràng buộc về chất lượng dữ liệu trong các mạng thông tin di động.
5.3.2.42. CHƯƠNG 1: MỞ ĐẦU
1.1. Cơ sở nghiên cứu và mục đích của luận văn
5.3.2.43. Đẻ có thể sử dụng các dịch vụ Internet không dây cũng như
nhiều dịch vụ dữ liệu khác trên nền các ứng dụng di động cần có một kỹ thuật
then chốt để có thể hỗ trợ truyền thông nhiều dạng dữ liệu trong thông tin di
động tế bào như: thoại, văn bản, hình ảnh và video. Tuy nhiên vấn đề truyền
thông nội dung đa phương tiện trong thông tin di động gặp một số khó khăn:
băng thông của mạng di động tế bào, nhiễu kênh, giới hạn của pin cho các ứng
dụng, tỉnh tương thích dữ liệu giữa các thuê bao. Trong khi việc cải thiện băng
thông di động cần một công nghệ mói của tương lai còn việc cải thiện giới hạn
của pin không đáp ứng được sự phát triển của các dịch vụ tương lai, thì phương
pháp giảm kích thước dữ liệu bằng các kỹ thuật nén là một cách tiếp cận hiệu
quả giải quyết các khó khăn trên.
5.3.2.44. Mặc dù cho đến nay có rất nhiều kỹ thuật nén dữ liệu đa
phương tiện như: chuẩn JPEG (dựa trên biến đổi DCT), chuẩn JPEG2000 (dựa
trên biến đổi Wavelet) và chuẩn MPEG, tuy nhiên những kỹ thuật này chỉ tập
trung vào hiệu quả nén và cố gắng đánh mất chất lượng ảnh ít vì thế chúng bỏ
qua vấn đề tiêu hao năng lượng trong quá trình nén và truyền RF (trong thông
tin động). Luận văn này trình bầy một kỹ thuật hiệu quả để khắc phục những
khó khăn trên cho loại dữ liệu đa phương tiện điển hình trong thông tin di động
Luận văn cao học ĐTVT 2004 - 2006
Đỗ Ngọc Anh
là ảnh tĩnh. Đó là kỹ thuật nén ảnh sử dụng biến đổi Wavelet thích nghi và hiệu
năng cho dữ liệu đa phương tiện trong thông tin di động.
1.2. Tổ chức luận văn
5.3.2.45. Luận văn được trình bầy thành 5 chương và 1 phụ lục.
Chương 1, tác giả trình bày tóm tắt cơ sở nghiên cứu và mục đích cũng như tổ
chức của luận văn.
5.3.2.46. Chương 2 trình bầy khái quát các kỹ thuật nén ảnh, phân
loại các nguyên lý nén và định nghĩa một số thuật ngữ được sử dụng rộng rãi
như MSE, PSNR và SNR. Chương này cũng trình bầy cơ sở lý thuyết của các
nguyên lý nén có tổn hao điển hình như: mã hoá băng con; mã hoá dựa trên biến
đổi cosine rời rạc (DCT), biến đổi xếp chồng (LT), biến đổi Wavelet rời rạc
(DWT).
5.3.2.47. Chương 3 trình bầy cơ sở toán học, tính chất của biến đồi
Wavelet. Nội dung của chương này là lý thuết nền tảng cho các ứng dụng
Wavelet. Chương này cũng đưa ra một số họ Wavelet phổ biến và giói thiệu một
số ứng dụng nổi bật của Wavelet ngoài ứng dụng để nén ảnh.
5.3.2.48. Chương 4 giới thiệu tổng quan về chuẩn nén JPEG2000
dựa trên biến đổi Wavelet. Mục đích không chỉ là giói thiệu một chuẩn nén vượt
trội so với chuẩn JPEG dựa trên biến đổi DCT mà còn đưa ra một lựa chọn giải
quyết bài toán đặt ra trong luận văn. JPEG2000 đang từng bước được tổ chức
ISO công nhận nên chắc chắn sẽ trở thành một chuẩn nén phổ biến trong các
ứng dụng di động tương lai. Cũng trong chương này, tác giả trình bầy tóm tắt
các bước thực hiện nén ảnh theo JPEG200 và so sánh nó với chuẩn JPEG và các
chuẩn nén ảnh tĩnh khác.
5.3.2.49. Chương 5 cũng là chương quan trọng nhất. Dựa trên kỹ
thuật nén ảnh bang Wavelet, luận văn đưa ra một thuật toán biến đổi ảnh bằng
Wavelet hiệu năng làm giảm đáng kể năng lượng tính toán và truyền thông cần
Luận văn cao học ĐTVT 2004 - 2006
Đỗ Ngọc Anh
thiết cho ảnh mà vẫn đảm bảo được chất lượng bức ảnh (và như vậy giảm được
giá thành dịch vụ).
5.3.2.50. CHƯƠNG 2:TỐNG QUAN CÁC KỸ THUẬT
NÉN TRONG MÃ HOÁ ẢNH
2.1. Giới thiệu chung về nén ảnh số
5.3.2.51. Nén ảnh số là một đề tài nghiên cứu rất phổ biến trong lĩnh
vực xử lý dữ liệu đa phương tiện. Mục đích là làm thế nào để lưu trữ bức ảnh
dưới dạng có kích thước nhỏ hơn hay dưới dạng biểu diễn mà chỉ yêu cầu số bít
mã hoá ít hon so với bức ảnh gốc. Nén ảnh thực hiện được là do một thực tế:
thông tin trong bức ảnh không phải là ngẫu nhiên mà có trật tự, có tồ chức. Vì
thế nếu bóc tách được tính trật tự, cấu trúc đó thì sẽ biết được phần thông tin nào
quan trọng nhất trong bức ảnh để biểu diễn và truyền đi vói số lượng bít ít hơn
so với ảnh gốc mà vẫn đảm bảo tính đầy đủ thông tin. Ở phía thu, quá trình giải
mã sẽ tổ chức, sắp xếp lại được bức ảnh xấp xỉ gần chính xác so vói ảnh gốc
nhưng vẫn thoả mãn chất lượng yêu cầu, đảm bảo đủ thông tin cần thiết.
5.3.2.52. Tóm lại, tín hiệu ảnh, video hay audio đều có thể nén lại
bởi chúng có những tính chất như sau:
• Có sự tương quan (dư thừa) thông tin về không gian: Trong phạm vi một
bức ảnh hay một khung video tồn tại sự tương quan đáng kể (dư thừa)
giữa các điểm ảnh lân cận.
• Có sự tương quan (dư thừa) thông tin về phổ: Các dữ liệu thu được từ các
bộ cảm biến của thiết bị thu nhận ảnh tồn tại sự tương quan đáng kể giữa
các mẫu thu, đây chính là sự tương quan về phổ.
• Có sự tương quan (dư thừa) thông tin về thời gian: Trong một chuỗi ảnh
video, tồn tại sự tương quan giữa các điểm ảnh của các khung video
(frame).
Luận văn cao học ĐTVT 2004 - 2006
Đỗ Ngọc Anh
5.3.2.53.
5.3.2.53.
5.3.2.54. Trong hình 2.1, bộ mã hoá dữ liệu thực hiện quá trình nén
bằng cách giảm kích thước dữ liệu ảnh gốc đến một mức phù họp với việc lưu
trữ và truyền dẫn trên kênh. Tốc độ bít đầu ra của bộ mã hoá được tính là số bít
cho một mẫu (điểm ảnh). Bộ mã hoá kênh thực hiện việc chuyển đổi luồng bít đã
được nén thành dạng tín hiệu phù họp cả cho việc lưu trữ và truyền dẫn, thường
bộ mã hoá kênh sử dụng các kỹ thuật: mã hoá có độ dài thay đổi - RLC (Run
Length Coding)[4], mã hoả Huffman[4], mã hoả so học [4]. Bộ giải mã thực
hiện quá trình ngược lại so vói bộ mã hoá.
5.3.2.55. Trong các hệ thống nén, tỉ số nén chính là tham số quan
trọng đánh giá khả năng nén của hệ thống, công thức được tính như sau:
5.3.2.56. Tỉ số nén = Kích thước dữ liệu gốc/ Kích thước dữ liệu
nén Đối vói ảnh tĩnh, kích thước chính là số bít để biểu diễn toàn bộ bức ảnh.
Đối vói ảnh video, kích thước chính là số bít để biểu diễn một khung hình video
(video frame).
Luận văn cao học ĐTVT 2004 - 2006
Đỗ Ngọc Anh
5.3.2.1.
5.3.2.2. Hình 2.1 Sơ đồ bộ khái quát hệ thống nén ảnh
Sơ đồ của một hệ thống nén dữ liệu tổng quát như sau:
2.2. Phân loại các kỹ thuật nén
5.3.2.57. Các kỹ thuật nén chủ yếu được phân loại như sau:
2.2.1. Nén tổn hao và không tổn hao
5.3.2.58. Trong các kỹ thuật nén không tổn hao (losses compression), ảnh
khôi phục giống hoàn toàn so với ảnh gốc. Tuy nhiên, nén không tổn hao chỉ đạt
được hiệu quả nén rất nhỏ. Trái lại, các kỹ thuật nén có tổn hao (lossy
compression) có thể đạt được hiệu quả nén cao hơn rất nhiều mà ở điều kiện
cảm nhận hình ảnh thông thường sự mất mát thông tin không cảm nhận được và
vì thế vẫn đảm bảo chất lượng ảnh. Một số kỹ thuật nén có tổn hao gồm: điều
xung mã vi sai - DPCM, điều xung mã - PCM, lượng tử hoá véctơ - VQ, mã hoá
biến đổi và băng con. Ảnh khôi phục trong hệ thống nén có tổn hao luôn có sự
suy giảm thông tin so với ảnh gốc bởi vì: phương pháp nén này đã loại bỏ
những thông tin dư thừa không cần thiết.
2.2.2. Mã hoá dự đoán và mã hoá dựa trên phép biến đổi
5.3.2.59. Đối vói mã hoá dự đoán (predictive coding) các giá trị mang
thông tin đã được gửi hay đang sẵn có sẽ được sử dụng để dự đoán các giá trị
khác, và chỉ mã hoá sự sai lệch giữa chúng. Phương pháp này đơn giản và rất
phù họp vói việc khai thác các đặc tính cục bộ của bức ảnh. Kỹ thuật DPCM
chính là một ví dụ điển hình của phương pháp này. Trong khi đó, mã hoá dựa
trên phép biến đổi (transform based coding) thì lại thực hiện như sau: trước tiên
thực hiện phép biến đổi vói ảnh để chuyển sự biểu diễn ảnh từ miền không gian
sang một miền biểu diễn khác. Các phép biến đổi thường dùng là: DCT - biến
đổi Cosine rời rạc, DWT - biến đổi Wavelet rời rạc, LT - biến đổi trồng (lapped)
, tiếp đó thực hiện mã hoá đối với các hệ sộ biến đổi. Phương pháp này có hiệu
suất nén cao hon rất nhiều so vói phương pháp nén dự đoán bởi vì chính các
phép biến đổi (sử dụng các thuộc tính nén năng lượng của mình) đã gói gọn toàn
bộ năng lượng bức ảnh chỉ bằng một số ít các hệ số, số lớn các hệ số còn lại ít
có ý nghĩa hon sẽ bị loại bỏ sau khi lượng tử hoá và như vậy lượng dữ liệu phải
Luận văn cao học ĐTVT 2004 - 2006
Đỗ Ngọc Anh
truyền nhỏ đi rất nhiều. Trong phương pháp mã hoá dự đoán, sai lệch giữa ảnh
gốc và ảnh dự đoán vẫn có ý nghĩa (còn sử dụng ở bước tiếp theo) sau khi lượng
tử hoá, chính điều này làm cho phương pháp mã hoá dự đoán có nhiều dữ liệu
được truyền đi hơn so với phương pháp mã hoá biến đổi.
2.2.3. Mã hoá băng con
5.3.2.60. Bản chất của kỹ thuật mã hoá băng con (subband coding) là chia
băng tần của tín hiệu (ảnh) thành nhiều băng con (subband). Để mã hoá cho mỗi
băng con, chúng ta sử dụng một bộ mã hoá và một tốc độ bít tương ứng với tính
chất thống kê của băng con.
2.3. Tiêu chuẩn đánh giá chất lượng mã hoá ảnh
5.3.2.61. Đẻ đánh giá chất lượng của bức ảnh (hay khung ảnh video)
ở đầu ra của bộ mã hoá, người ta thường sử dụng hai tham số: Sai số bình
phương trung bình - MSE (mean square error) và tỉ số tín hiệu trên nhiễu đỉnh -
PSNR (peak to signal to noise ratio). MSE thường được gọi là phương sai lượng
tử - ơ
2
q
(quantization error variance). MSE giữa ảnh
5.3.2.62. gốc và ảnh khôi phục được tính như sau:
5.3.2.63. MSE = ư] =k] - gíj, k])
2
(2.1)
5.3.2.64. N j*
5.3.2.65. Trong đó tổng lấy theo j, k tính cho tổng tất cả các điểm ảnh trong
ảnh và N là số điểm ảnh trong ảnh. Còn PSNR giữa hai ảnh (b bít cho mỗi điểm
ảnh, RMSE là căn bậc 2 của MSE) đước tính theo công thức dB như sau:
5.3.2.66. PSNR = -20 log
l0
~~~~ (2.2)
5.3.2.67. A 1
5.3.2.68. Thông thường, nếu PSNR > 40dB thì hệ thống mắt người gần như
không phân biệt được giữa ảnh gốc và ảnh khôi phục.
5.3.2.69. Một tham số khác hay sử dụng trong các hệ thông viễn thông đó
là tỉ số tín hiệu trên nhiễu - SNR , tuy vậy SNR sử dụng cho một hệ thống né ảnh
cũng có công thức dB như sau:
5.3.2.70.
sm =
mogM
E^oderinputen
ergy Noise energy
Luận văn cao học ĐTVT 2004 - 2006
Đỗ Ngọc Anh
2.4. Các kỹ thuật nén có tổn hao
5.3.2.71. Trong phần này, tác giả lựa chọn trình bày hai kỹ thuật nén
tổn hao cho nén ảnh tĩnh và ảnh động đó là: mã hoá băng con (subband coding)
và mã hoá sử dụng phép biến đổi (transform coding). Đây là hai kỹ thuật nén
điển hình và cho hiểu quả nén cũng như chất lượng ảnh cao.
2.4.1. Kỹ thuật mã hoá băng con
5.3.2.72. Tư tưởng chính của kỹ thuật mã hoá băng con là: các ảnh
được lấy mẫu ở đầu vào được phân ly thành các băng tần khác nhau (gọi là các
tín hiệu băng con). Yêu cầu của kỹ thuật này là làm thế nào các băng con không
bị chồng chéo lên nhau. Đe có thể phân ly tín hiệu ở bộ mã hoá (encoder) thành
các băng con, ảnh được cho qua một bank lọc (filter bank) gọi là bank lọc phân
tích và mỗi đầu ra của bank lọc băng con được lấy mẫu xuống hệ số 2. Các đầu
ra băng con tần số được lẫy mẫu xuống sẽ lần lượt được: lượng tử hoả độc lập
bằng các bộ lọc vô hướng khác nhau, mã hoá entropy, lưu trữ và truyền đi. Ở
phía bộ giải mã (decoder), quá trình được thực hiện ngược lại: giải lượng tử
băng con tần số, lấy mẫu lên với hệ số 2, cho đi qua bank lọc băng con tổng họp
rồi cộng tất cả các đầu ra của bộ lọc để khôi phục lại ảnh.
5.3.2.73. Các bộ lọc băng con thường được thiết kế xấp xỉ thoả mãn
tiêu chuẩn của các đáp ứng tần số không chồng chéo. Mục đích là để giải tương
quan các hệ số tần số kết quả. Đây chính là tính chất quan trọng mà quá trình lọc
băng con cố gắng đạt được. Các bộ lọc băng con được thiết kế để là các xấp xỉ
với các bộ lọc chọn tần số lý tưởng, trong đó đáp ứng tổng họp từ tất cả các bộ
lọc bao trùm tất cả băng tần của ảnh. Tuy nhiên trong thực tế, sự tương quan
tổng không bao giờ đạt được do những bộ lọc này chỉ xấp xỉ với các bộ lọc lý
tưởng.
Luận văn cao học ĐTVT 2004 - 2006
Đỗ Ngọc Anh
5.3.2.74.
5.3.2.75. Các bộ lọc sử dụng trong mã hoá băng con là các bộ lọc
gương tử phương - QMF (quardrature mirror filters), do vậy chúng ta chỉ cần
thiết kế các bộ lọc thông thấp có đáp ứng H(co) còn đáp ứng của các bộ lọc
thông cao là H(co+7r) chỉ là sự dịch pha 180° so vói bộ lọc thông thấp. Sự
chính xác của bộ lọc phụ thuộc vào số các hệ số của bộ lọc.
5.3.2.76. Một trong các phương pháp mã hoá băng con đó là áp dụng sự
phân ly cây bát phân để phân ly dữ liệu ảnh thành các băng tần khác nhau. Ý
tưởng của phương pháp này là: trước tiên lọc và lược bỏ ảnh để phân ly ảnh
thành các băng con tần số cao và thấp, sau đó tiếp tục phân ly nhưng chỉ áp
dụng cho băng con tần số thấp để tạo thành các băng con tần số cao và thấp để
Luận văn cao học ĐTVT 2004 - 2006
Đỗ Ngọc Anh
5.3.2.3. Hình 2.2 dưới đây là sơ đồ tổng quát giải thích kỹ thuật mã hoá
băng con.
5.3.2.4.
5.3.2.5. Bandpass synthesis filter bank Hình 2.2. Sơ đồ minh hoạ kỹ thuật mã
hoá băng con - M băng con
tiếp tục lược bỏ. Kỹ thuật này rất phổ biến và cũng được áp dụng trong các bộ
mã sử dụng biến đổi Wavelet. Đầu ra của các băng con sau khi đã giản lược sẽ
được lượng tử hoá và mã hoá độc lập. Mỗi băng con sẽ sử dụng bộ lượng tử hoá
riêng và mỗi bộ lượng tử hoá này có tốc độ lấy mẫu riêng (bít/mẫu).
5.3.2.77. Như vậy rõ ràng mã hoá băng con không đạt được sự nén,
mà nó chỉ thực hiện việc giải tương quan dữ ảnh gốc và tập trung năng lượng
của ảnh vào một số băng con. Nén chỉ đạt được là do sự lược bỏ ảnh
(decimation) và do sự lượng tử hoá (quantization).
5.3.2.78.
5.3.2.79. Trong các hệ thống mã hoá băng con hai chiều thực tế, người ta
chia miền tần số - không gian hai chiều của ảnh gốc thành các băng khác nhau ở
bất kỳ mức nào.
5.3.2.80. Hình 2.4 dưới đây minh hoạ việc phân ly 2 ảnh mẫu thành 4 băng
con LL, HL, LH và HH ở mức đầu tiên.
Luận văn cao học ĐTVT 2004 - 2006
5.3.2.6.
5.3.2.7. Hình 2.3 Minh hoạ quá trình phân ly băng con cây bát
phân
Đỗ Ngọc Anh
5.3.2.81.
hDrliontal ar>l
5.3.2.82.
Ịhh
5.3.2.83.
t
5.3.2.84.
5.3.2.85.
mị
5.3.2.86.
1
5.3.2.87.5.3.2.88.
5.3.2.89.
I
5.3.2.90.
5.3.2.91.
1 LiH
5.3.2.92.
5.3.2.94.
ị
5.3.2.95.
iLi
5.3.2.96.
]
5.3.2.97.
ÌHH
5.3.2.98.
5.3.2.99.
h
5.3.2.100.
5.3.2.101.
HHị
5.3.2.102.
5.3.2.103. Horizontal low and high
Horizontal and vertical
5.3.2.104.
• Ọ' Ị
5.3.2.105.
iC ò;
5.3.2.106.
5.3.2.107.
rc ỷ'<'
5.3.2.108.
■ Mllw.irf
'
5.3.2.109.
5.3.2.110.
5.3.2.111.
5.3.2.112.
jflrw
5.3.2.113.
Ui
5.3.2.114.
HL
5.3.2.115.
HH
5.3.2.116.
5.3.2.117.
5.3.2.118. Hình 2.4. Phân ly hai ảnh mẫu thành
bốn băng con
5.3.2.119. Nhược điểm của kỹ thuật mã
hoá băng con:
5.3.2.120. Một trong những vấn để
chủ yếu của kỹ thuật mã hoá băng con đó là
giải quyết bài toán cấp phát bít (là số bít cấp
cho mỗi băng con) để đạt được hiệu suất cao
nhất. Một trong những cách thực hiện là sử
dụng ý tưởng cấp phát bít tối ưu cho mỗi đầu ra
băng con đã được lượng tử hoá. Tuy nhiên cách
này chủ yếu thích hợp cho trường họp tốc độ
cao (>1 bít/mẫu).
5.3.2.121. Trước khi đi vào nghiên
cứu kỹ thuật mã hoá dựa trên phép biến đổi,
irixcmtal high trGíỊuaorl«
chúng ta sẽ tổng kết một số nhược điểm của kỹ
thuật mã hoá băng con như sau:
5.3.2.122. Kỹ thuật mã hoá băng con không
xác định được hệ thống mã hoá tối ưu cho các
ứng dụng tốc độ bít thấp.
5.3.2.123. Việc cấp phát bít tối ưu sẽ
thay đổi khi tốc độ bít tổng thay đổi, điều này
làm quá trình mã hoá phải lặp lại hoàn toàn cho
mỗi tốc độ bít xác định.
5.3.2.124. Không hoàn toàn giải tương quan cho tất cả các băng
tần, đấy là do các bộ lọc không phải là lý tưởng và có sự chồng chéo nhỏ giữa
các băng tần liền kề. Do vậy luôn luôn tồn tại một sự tương quan nhỏ giữa các
băng tần kề nhau và dữ liệu sẽ không được nén hoàn toàn.
5.3.2.125. Kỹ thuật mã hoá băng con không hiệu quả khi thực hiện bù
chuyển động trong video vì rất khó để thực hiện đánh giá chuyển động ở các
băng con (sai số dự đoán là rất lớn).
2.4.2. Kỹ thuật mã hoá dựa trên phép biến đổi
5.3.2.126. Một phép biến đổi là một hàm toán học được sử dụng để
biến đổi một tập các giá trị này thành một tập giá trị khác và tạo ra một cách
biểu diễn mới cho cùng một nguồn tin. Tất cả các phép biến đổi mà chúng ta
định trình bầy dưới đây đều là không tổn hao (lossless); với sự chính xác của
các phép toán số học thì các phép biến đổi vẫn bảo tồn được độ chính xác ở
bất kỳ mức độ nào. Nhưng hầu hết các kỹ thuật mã hoá đều có tổn hao ở bước
lượng tử hoá do có sự làm tròn giá trị cho các hệ số phép biến đổi.
5.3.2.127. Phần này chúng ta sẽ trình bầy các kỹ thuật mã hoá dựa trên
phép biến đổi được sử dụng trong nén ảnh.
(a) Kỹ thuật mã hoá dựa trên phép biến đổi cosine ròi rạc - DCT
(b) Kỹ thuật mã hoá dựa trên phép biến đổi chồng - LT
(c) Kỹ thuật mã hoá dựa trên phép biến đổi DWT
2.4.2.1. Kỹ thuật mã hoá dựa trên phép biến đổi DCT
5.3.2.128. Phép biến đổi cosine rời rạc - DCT (Discrete Cosine
Transform) biến đổi thông tin ảnh từ miền không gian sang miền tần số để có
thể biểu diễn dưới dạng gọn hơn. Tính chất của nó tương tự như biến đổi
Fourier, coi ảnh đầu vào (tín hiệu audio hoặc video) là các tín hiệu ổn định
bất biến theo thòi gian. Đe hiểu rõ kỹ thuật này trước hết ta cần tìm hiểu biến
đổi Fourier.
5.3.2.129. Biến đổi Fourier - FT
5.3.2.130. Biến đổi Fourier - FT (Fourier Transform) là một phép
biến đổi thuận nghịch, nó cho phép sự chuyển đổi thuận - nghịch giữa thông
tin gốc (miền không gian hoặc thời gian) và tín hiệu được xử lý (được biến
đổi). Tuy nhiên ở một thời điểm bất kỳ chỉ tồn tại một miền thông tin được
thể hiện. Nghĩa là tín hiệu trong miền không gian không có sự xuất hiện thông
tin về tần số và tín hiệu sau biến đổi Fourier không có sự xuất hiện thông tin
về thời gian.
5.3.2.131. FT cho biết thông tin tần số của tín hiệu, cho biết những
tần số nào có trong tín hiệu, tuy nhiên nó không cho biết tần số đó xuất hiện
khi nào trong tín hiệu. Neu như tín hiệu là ổn định (stationary - có các thành
phần tần số không thay đổi theo thòi gian) thì việc xác định các thành phần
tần số xuất hiện khi nào trong tín hiệu là không cần thiết.
5.3.2.132. Phép biến đổi FT thuận và nghịch được định nghĩa như sau:
5.3.2.133. X(f) = Ịxịt)e-
2J
*dt (2.4)
5.3.2.134. —00
5.3.2.135. 00
5.3.2.136. x(t) = Ịxư)e
ỈM
‘df ( 2 . 5 )
5.3.2.137. —00
5.3.2.138. Phép biến đổi FT cũng có thể được áp dụng cho tín hiệu không
ổn định (non-statỉonary) nếu như chúng ta chỉ quan tâm đến thành phần phổ
nào có trong tín hiệu mà không quan tâm đến nó xuất hiện khi nào trong tín
hiệu. Tuy nhiên, nếu thông tin về thời gian xuất hiện của phổ trong tín hiệu là
cần thiết, thì phép biến đổi FT không có khả năng đáp ứng được yêu cầu này,
đây cũng là hạn chế của phép biến đổi này.
5.3.2.139. Đe có biến đổi Fourier rời rạc -DFT (Discrete Fourier
Transform) thì ở phép tích phân trong biểu thức toán học của biến đổi FT, ta
thay bằng phép tổng và tính toán nó với các mẫu hữu hạn.
5.3.2.140. Hệ số phép biến đổi DFT thứ k của một chuỗi gồm N mẫu
Ịx(n)} được định nghĩa:
5.3.2.141 X(k) = I\x(n)WĨ , k=0, N-l
(2.6)
5.3.2.142. n=0
5.3.2.143. Trong đó W
N
= e~
jmỉN
= COS (2ft/N) -j sin (27ĩ/N), còn chuỗi
fx(n)} có thể khôi phục bang DFT ngược như sau:
5.3.2.144 x(n) = y X(kW^ , n=0, , N-l
(2.7)
5.3.2.145. N tó
5.3.2.146. Định nghĩa và các tính chất của biến đổi DCT
5.3.2.147. Biến đổi DCT thuận và ngược một chiều gồm N mẫu được định
nghĩa như sau:
5.3.2.148. DCT = X(k) = — c
k
Yx(n)cos\
{2n + ị)k7ĩ
5.3.2.149. N s
5.3.2.150. IDCT = x(n) = —
y'c
yt
X(Ả:)cos N
5.3.2.151. rr
A
r \ l / yỈ2 , k = 0
5.3.2.152. Trong đó c
k
= \
5.3.2.153. [1, k ^ 0
5.3.2.154. Cả DCT và IDCT đều là biến đổi trực giao, tách biệt và thực.
Tính chất phân tách (separable) ở đây nghĩa là biến đổi nhiều chiều của nó có
thể phân tách thành các biến đổi một chiều. Tính chất trực giao ở đây nghĩa là
nếu các ma trận của DCT \ầ ỈDCT là không bất thường (non-sỉngular) và
thực thì biến đổi ngược của chúng có thể đạt được bằng cách áp dụng toán tử
hoán vị. Cũng như biến đổi FT, DCT cũng coi dữ liệu đầu vào là tín hiệu ổn
định (bất biến).
5.3.2.155. Trong các chuẩn nén ảnh tĩnh vào video, người ta thường sử
dụng DCT và IDCT có kích thước 8 mẫu. Bức ảnh hoặc khung ảnh video
kích thước NxN được chia thành các khối không chồng chéo nhau hai chiều
, k= 0,1, ,N-1 (2.8)
,n=0,l, ,N-1 (2.9)
2N (2 n +
X)kn
2N
gọi là các ảnh con kích thước 8x8 rồi áp dụng biến đổi DCT hai chiều ở bộ
mã hoá và áp dụng biến đổi IDCT ở bộ giải mã.
5.3.2.156. Biến đổi DCT và IDCT 8 mẫu tạo thành các ma trận 8x8 theo
công thức:
5.3.2.157. 2-D DCT = x
kl
=
ịị
X m n
c o s
p
m
± j ( 2 . 1 0 )
5.3.2.158 Trong đó k, l = 0,1, ,7
5.3.2.159 2-DIDCT=x
m
,„
= ị ị
c{k)c(l)
X
tJ
cos|^
(2m +1
)kĩĩ
ìcosí
(2n +1 )br
j (2.11) Trong đó m,n = 0,1, ,7
5.3.2.160. ' /7 1 //>= fl/V2,*&/ = 0
5.3.2.161. v à
c(k),c(l)
=
\
5.3.2.162. \ l ,k
2
+ l
2
*0
5.3.2.163. Thuật toán để tính 2-D DCT và IDCT là: thực hiện phép biến
đổi 1-D lần lượt cho hàng rồi đến cột của ma trận.
5.3.2.164. So sánh DCTxầKLT
5.3.2.165. Hiệu quả của biến đổi DCT trong việc giải tương quan tín hiệu
ảnh tương đương với biến đổi Karhunen-Loeve (KLT). KLT là phép biến đổi
theo khối tối ưu nhất cho nén dữ liệu ở khía cạnh thống kê bởi: nó có thể giải
tương quan một cách tối ưu tín hiệu ảnh trong miền phép biến đổi (bằng cách
tập trung hầu hết thông tin ảnh vào một số hệ số của phép biến đổi) và so với
các phép biến đổi khác nó có thể tối thiểu hoá MSE giữa ảnh khôi phục và ảnh
gốc.
5.3.2.166. Nén và giải nén ảnh dựa theo phép biến đỗi DCT trong
JPEG
5.3.2.167. JPEG là chuẩn nén số quốc tế đầu tiên cho các ảnh tĩnh
có tông màu liên tục gồm cả ảnh đon sắc và ảnh màu. Trong kỹ thuật này các
khối ảnh kích thước 8x8 được áp dụng để thực hiện DCT, sau đó lượng tử hoá
các hệ số rồi mã hoá entropy sau lượng tử.
5.3.2.168. Đối với những ảnh màu RGB, để áp dụng kỹ thuật nén
này, trước hết phải chuyển sang chế độ màu YUV (7 là thành phần chói, u và
V là 2 thành phần màu). Thành phần độ chói là ảnh đon sắc xám. Hai thành
phần màu còn lại chứa thông tin về màu. Việc mã hoá và giải mã ảnh trong
JPEG ở được thực hiện cho thành phần chói rồi màu.
5.3.2.169. Sơ đồ khối bộ mã hoá và giải mã của JPEG như sau:
5.3.2.170.
5.3.2.171.
5.3.2.172.
5.3.2.8.
5.3.2.9. Hình 2.5. Sơ đồ bộ mã hoá theo chuẩn
JPEG
5.3.2.77.
5.3.2.78. Hình 2.7. Sơ đồ khối bộ giải mã theo chuẩn
JPEG
5.3.2.10.
Ị
5.3.2.11.
5.3.2.12.
-to
5.3.2.13.
jr
5.3.2.14.
Ỳ
5.3.2.15.
5.3.2.16.
-ki
5.3.2.17.
5.3.2.18.
T'
5.3.2.19.
/
5.3.2.20.
5.3.2.21.
ỵ
5.3.2.22.
ư
5.3.2.23.
t
5.3.2.24.
5.3.2.25.
7
5.3.2.26.
?
5.3.2.27.
5.3.2.28.
/
5.3.2.29.
5.3.2.30.
/
5.3.2.31.
/
5.3.2.32.
/
5.3.2.33.
4
5.3.2.34.
V
5.3.2.35.
/
5.3.2.36.
/>
5.3.2.38.
s
5.3.2.39.
*
5.3.2.40.
/
5.3.2.41.
J
5.3.2.43.
1
5.3.2.44.
5.3.2.45.
/
5.3.2.46.
/
5.3.2.47.
/
5.3.2.48.
5.3.2.49.
5.3.2.50.
5.3.2.51.
4
5.3.2.52.
V
5.3.2.53.
/
5.3.2.54.
f r
5.3.2.55.
r
5.3.2.56.
5.3.2.57.
5.3.2.58.
/
5.3.2.59.
T
5.3.2.60.
5.3.2.61.
/
5.3.2.62.
5.3.2.63.
/
5.3.2.64.
.
5.3.2.65.
*
5.3.2.66.
/
5.3.2.67.
*
5.3.2.68.
1 i
Ỳ
5.3.2.69.
JÍ
5.3.2.70.
■
5.3.2.71.
ií
5.3.2.72.
■
5.3.2.73.
ề
5.3.2.74.
5.3.2.75.
T
5.3.2.76. Hì
nh 2.6.
Sắp xếp
Zigzag
các hệ số
DCT ở bộ
mã hoá
5.3.2.173. Quá trình xử lý thành phần độ chói ở phía mã hoá được giải
thích như sau:
(a) Ảnh gốc được chia thành các khối ảnh (block) nhỏ kích thước 8x8
không chồng chéo lên nhau. Tiếp theo, giá trị của mỗi điểm ảnh ở
5.3.2.174. mỗi khỗi khối ảnh sẽ được trừ đi 128. Lý do là do giá trị các
điểm ảnh có giá trị từ 0 đến 255 (được mã hoá bởi 8 bít không dấu), áp
dụng biến đổi DCT sẽ tạo ra các hệ số AC có dải giá trị từ -1023 đến
+1023 (có thể được mã hoá bởi 11 bít có dấu). Nhưng hệ số DC lại có giải
giá trị từ 0 đến 2040 (được mã hoá bởi 11 bít không dấu) và cần cách xử
lý khác ở phần cứng hoặc phần mềm so với các hệ số AC. Chính vì thế
việc trừ giá trị mỗi điểm ảnh đi 128 là để sau khi biến đổi DCT cả các hệ
số DC và AC có cùng dải giá trị thuận lợi cho việc xử lý và biểu diễn.
(b) Ở mỗi khối ảnh hai chiều kích thước 8x8, áp dụng biến đổi DCT để
tạo ra mảng hai chiều các hệ số biến đổi. Hệ số có tương ứng vói tần
số không gian thấp nhất nhưng lại có giá trị lớn nhất được gọi là hệ số
DC (một chiều), nó tỉ lệ vói độ chói trung bình của cả khối ảnh 8x8.
Các hệ số còn lại gọi là các hệ số AC (xoay chiều). Theo lý thuyết,
biến đổi DCT không đem lại sự mất mát thông tin ảnh, mà đon giản nó
chỉ chuyển thông tin ảnh sang miền không gian mói thuật lợi hon cho
mã hoá ở bước tiếp theo.
(c) Mảng hai chiều các hệ số biến đổi được lượng tử hoá sử dụng bộ
lượng tử hóa tỉ lệ đồng nhất. Nghĩa là các hệ số sẽ được lượng tử hoá
riêng lẻ và độc lập. Quá trình lượng tử hoá là dựa trên sinh lý của hệ
thống mắt người: cảm nhận hình ảnh có độ nhậy kém hon ở các hệ số
tần số cao và có độ nhậy tốt hơn ở các hệ số có tần số thấp. Vì thế các
hệ số được chọn sao cho thực hiện lượng tử hoá thô đối vói các hệ số
tần số cao và lượng tử hoá tinh đối với các hệ số có tần số thấp. Bảng
lượng tử hoá được lấy tỉ lệ để tạo ra các mức nén thay đổi tuỳ theo tốc
độ bít và chất lượng ảnh. Việc lượng tử hoá sẽ tạo ra rất nhiều giá trị 0,
đặc biệt là ở tần số cao. Quá trình làm tròn trong khi lượng tử hoá
chính là nguyên nhân chính gây ra sự tổn hao nhưng lại là nhân tố
chính đem lại hiệu suất nén.
(d) Để tận dụng ưu điểm của các hệ số đã được lượng tử có giá trị gần
bằng 0, mảng hai chiều các hệ số đã được lượng tử sẽ được sắp xếp
theo hình Zigzag tạo thành mảng một chiều. Cách sắp xếp này cho
phép giảm thiểu năng lượng tổn hao trung bình và tạo ra dãy các giá
trị bằng 0 liên tiếp. Cũng theo cách sắp xếp này, các hệ số DC được
tách khỏi các hệ so AC và sử dụng kỹ thuật mã hoá điều xung mã vi
sai - DPCM.
(e) Bước cuối cùng của bộ mã hoá là sử dụng mã hoá entropy chẳng hạn
mã hoá Huffman cho các AC và DC (sau khi đã mã hoá DPCM) để
tăng thêm hiệu quả nén cũng như giảm thiểu lỗi.
5.3.2.175. Ở phía giải mã, luồng bít mã hoá được giải mã entropy, sau đó
mảng hai chiều các hệ số DCT đã được lượng tử hoá được giải sắp xếp
Zigzag và giải lượng tử. Mảng hai chiều các hệ số DCT kết quả sẽ được biến
đổi ГОСТ rồi cộng mỗi giá trị với 128 để xấp xỉ tạo thành các khối ảnh con
kích thước 8x8. Chú ý là bảng lượng tử hoá và mã hoá entropy ở cá phía mã
hoá và giải mã là đồng nhất.
5.3.2.176. Hai thành phần màu cũng được mã hoá tương tự như thành
phần chói ngoại trừ khác biệt là chúng được lấy mẫu xuống hệ số 2 hoặc 4 ở
cả chiều ngang và dọc trước khi biến đổi DCT. Ở phía giải mã , thành phần
màu sẽ được nội suy thành kích thước gốc.
5.3.2.177. 2Л.2.2. Kỹ thuật mã hoá dựa trên phép
biến đổi DWT Mối quan hệ giữa biến đổi Wavelet và
Fourier
5.3.2.178. Không giống như biến đổi Fourier chỉ thích hợp khi phân tích
những tín hiệu ồn định (stationary), Wavelet là phép biến đổi được sử dụng
để phân tích các tín hiệu không ổn định (non-statỉonary) - là những tín hiệu
có đáp ứng tần số thay đổi theo thời gian.
5.3.2.179. Đe khắc phục những hạn chế của biến đổi FT, phép biến đổi
Fourier thòi gian ngắn - STFT được đề xuất. Chỉ có một sự khác biệt nhỏ
giữa STFT và FT: Trong biến đổi STFT, tín hiệu được chia thành các khoảng
nhỏ và trong khoảng đó tín hiệu được giả định là tín hiệu ổn định. Đe thực
hiện kỹ thuật này cần chọn một hàm cửa so w sao cho độ dài của cửa sổ đúng
bằng các khoảng tín hiệu phân chia. Với phép biến đổi STFT, chúng ta có thể
thu được đáp ứng tần số - thời gian của tín hiệu đồng thời mà vói phép biến
đổi FT ta không thực hiện được.
5.3.2.180. Biến đổi STFT đối với tín hiệu liên tục thực được định nghĩa
như sau:
5.3.2.181. X(f,t) = j[x(t)w (t-T)']e-
ỈM>
dt (2.12)
5.3.2.182. —00
5.3.2.183. Trong đó độ dài thời gian của cửa sổ là (t-ĩ), chúng ta có thể
dịch chuyển vị trí của cửa sổ bằng cách thay đổi giá trị t và để thu được các
đáp ứng tần số khác nhau của đoạn tín hiệu ta thay đổi giá trị T.
5.3.2.184. Giải thích biến đổi STFT bằng nguyên lý bất định Heỉssenber,
nguyên lý này phát biểu là: Không thể biết được chỉnh xác được biểu diễn
thời gian - tần so của một tín hiệu (hay không thể biết các thành phần pho
của tín hiệu ở một thời điếm nhất định). Cái mà ta có thế biết là trong một
khoảng thòi gian nhất định tín hiệu có những băng tần nào. Đây được gọi là
bài toán phân giải, vấn đề này liên quan đến độ rộng của hàm cửa sổ mà
chúng ta sử dụng. Neu hàm cửa sổ càng hẹp thì độ phân giải càng tốt hon và
giả định tín hiệu là ổn định càng có độ chính xác nhưng độ phân giải tần số lại
kém đi. Ta có các hệ quả sau:
5.3.2.185. Cửa sổ hẹp -> phân giải thời gian tốt, phân giải
tần so kém Cửa sổ rộng -> phân giải tan so tốt, phân giải thời
gian kém
5.3.2.186. Trên cơ sở cách tiếp cận biến đổi STFT, biến đổi Wavelet được
phát triển để giải quyết vấn đề về độ phân giải tín hiệu (miền thòi gian hoặc
tần số) mà STFT vẫn còn hạn chế. Biến đổi Wavelet được thực hiện theo cách:
tín hiệu được nhân vói hàm Wavelet (tương tự như nhân với hàm cửa sổ trong
biến đổi STFT), rồi thực hiện biến đổi riêng rẽ cho các khoảng tín hiệu khác
nhau trong miền thời gian tại các tần số khác nhau. Cách tiếp cận như vậy còn
được gọi là: phân tích đa phân giải - MRA (Multỉ Resolution Analysis)', phân
tích tín hiệu ở các tần so khác nhau và cho các độ phân giải khác nhau.
5.3.2.187. MRA khi phân tích tín hiệu cho phép: phân giải thời gian tốt và
phân giải tần so kém ở các tần so cao; phân giải tần số tốt và phân giải thời
gian kém ở các tần so thấp. Như vậy kỹ thuật này rất thích họp với những tín
hiệu: có các thành phần tần số cao xuất hiện trong khoảng thời gian ngắn, các
thành phần tần số thấp xuất hiện trong khoảng thời gian dài chẳng hạn như
ảnh và khung ảnh video.
5.3.2.188. Cơ sở toán học cũng như các tính chất của biến đổi Wavelet
liên tục sẽ được trình bầy chi tiết trong chương 3.
5.3.2.189. Biến đổi Wavelet ròi rạc -DWT
5.3.2.190. Bước này có thể hiểu phép biến đồi DWT như là áp dụng một
tập các bộ lọc: thông cao và thông thấp. Thiết kế các bộ lọc này tương đương
như kỹ thuật mã hoá băng con (subband coding) nghĩa là: chỉ cần thiết kế các
bộ lọc thông thấp, còn các bộ lọc thông cao chính là các bộ lọc thông thấp
dịch pha đi một góc 180°. Tuy nhiên khác với mã hoá băng con, các bộ lọc
trong DWT được thiết kế phải có đáp ứng phổ phảng, trơn và trực giao.
5.3.2.191. Hình 2.11 dưới đây minh hoạ dạng tổng quát của biến đổi DWT
một chiều. Theo đó tín hiệu được cho đi qua các bộ lọc thông cao và thông