Tải bản đầy đủ (.pdf) (25 trang)

Bài giảng xử lý âm thanh và hình ảnh-p4 pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (547.22 KB, 25 trang )

Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




121

Chương 4: Các chuẩn mã hóa âm thanh và nén ảnh trong
truyền thông đa phương tiện

4.1. Các chuẩn mã hóa tín hiệu thoại

Phần này tập trung chủ yếu vào giới thiệu vắn tắt sự hình thành và phát triển các tiêu
chuẩn của mã hoá. Một kỹ thuật được xem như là phổ biến khi và chỉ khi nó là một phần
của tiêu chuẩn. Tiêu chuẩn mã hóa thoại tồn tại bởi vì nó thực sự cần thiết cho việc thông
tin liên lạc và cho phép những người quan tâm có thể sử dụng và phát triển sản phẩm và
các dịch vụ dựa trên các cùng một tham chiếu.

Một tiêu chuẩn được phát triển bởi một đội ngũ các chuyên gia thông qua một
quãng thời gian dài, với việc thử nghiệm rộng rãi và đánh giá lặp đi lăp lại nhiều lần để
đảm bảo rằng một tập hợp các yêu cầu được đáp ứng. Chỉ có các tổ chức với nguồn lực
lớn mới có thể tổ chức và thực hiện được những công việc khó khăn, phức tạp này. Thời
gian cần thiết để hoàn thành một tiêu chuẩn kể từ khi bắt đầu cho đến kết thúc khoảng 4.5
năm.

Điều này không có nghĩa một tiêu chuẩn không có lỗi hoặc không thể cải tiến
thêm được nữa. Trên thực tế một tiêu chuẩn mới thường xuất hiện như là sự cải tiến của
các chuẩn đã có trước đó và phù hợp với các ứng dụng trong tương lai.

Một số các tổ chức chuẩn hóa liên quan đến mã hóa tín hiệu thoại được giới thiệu sau đây:


• Liên minh viễn thông quốc tế (ITU): Phân ban chuẩn hóa viễn thông của ITU
(ITU-T) chịu trách nhiệm xây dựng các chuẩn liên quan đến mã hóa thoại cho các
ứng dụng trong mạng điện thoại bao gồm cả mạng không dây và cố định.

• Hiệp hội công nghiệp viễn thông (TIA): Đảm nhiệm về các tiêu chuẩn mã hóa
thoại cho các ứng dụng đặc biệt. TIA là thành phần của Viện tiêu chuẩn quốc gia
Hoa Kỳ (ANSI). TIA thành công trong việc phát triển các tiêu chuẩn cho điện
thoại di động số ở khu vực Bắc Mỹ bao gồm cả hệ thống đa truy nhập phân chia
theo thời gian – TDMA và đa truy nhập phân chia theo mã - CDMA.

• Viện tiêu chuẩn viễn thông Châu Âu (ETSI): ETSI có các thành viên từ các nước
Châu Âu và các công ty và là một tổ chức chính của các nhà sản xuất thiết bị viễn
thông. ETSI được tổ chức theo các ứng dụng và nhóm có ảnh hưởng lớn nhất
trong mã hóa thoại là nhóm đặc nhiệm về di động GSM - có một số tiêu chuẩn
hữu dụng và được ứng dụng triển khai ở nhiều nơi trên thế giới.

Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




122

• Bộ quốc phòng Hoa Kỳ (DOD): DOD tham gia thiết lập các tiêu chuẩn mã hóa
thoại, và được biết đến như là những tiêu chuẩn của Liên hợp chủng quốc Hoa Kỳ,
được ứng dụng chủ yếu trong quân sự.

• Trung tâm nghiên cứu và phát triển cho hệ thống vô tuyến của Nhật Bản (RCR):
Các tiêu chuẩn về di động số ở Nhật Bản được xây dựng bởi RCR.


Bảng 4.1 dưới đây mô tả vắn tắt các chuẩn mã hóa thoại:

Các chuẩn

Năm

Thuật toán Tốc độ Ứng dụng MOS Delay
G.711
1972
µ&A-law,
PCM
64 kbps
Mạng truyền
dẫn
4.3 0.125 ms

G.721
1984,
87
ADPCM 32 kbps Cáp biển 4.0 0.125 ms

G.722
1988
Subband
ADPCM
48-64 kbps
ISDN, Thoại
hội nghị
4.0 0. 2 ms
G.726,727

1988 VBR-ADPCM 16-24-32-40 kbps PCS/cordless
2,3.2,4,
4.2
0.125 ms

G.728
1992 LD-CELP 16 kbps
Mạng truyền
dẫn
4.2 0.625 ms

G.729
1995 CS-ACELP 8 kbps
Mạng di động
2G
4.0 15 ms
G.723.1
1995
MP_MLQ
ACELP
5.27/6.3 kbps
Thoại thấy hình
(Videophone)
H.323, H.324
3.5-3.7 37.5 ms
GSM-FR
1989 LTP_RPE 13 kbps
Mạng di động
Châu Âu
3.7 20 ms

GSM-EFR
1995 ACELP 13 kbps
Mạng di động
Châu Âu
4.0 20 ms
IS-54
1989 VSELP 8 kbps
Mạng di động
Bắc Mỹ-
TDMA
3.5 20 ms
IS-96
1993 QCELP
1.2,2.4,4.8,9.6
kbps
Mạng di động
Bắc Mỹ-
CDMA
3.3 20 ms
GSM_HR
1994 VSELP 5.6 kbps
Mạng di động
Châu Âu
3.5 24.5 ms
DoD_FS1015
1996 LPC-10 2.4 kbps Quân sự ≤3.0 25 ms
DoD_FS1016
1990 CELP 4.8 kbps Quân sự 3.0 45ms
G.722.2
2001

AMR_WB
ACELP
6.6-23.85kbps
VoIP, Thoại
hội nghị,
Mạng di động
3G
3.7-4.4
15-25
ms

Bảng 4.1: Các chuẩn mã hoá thoại

Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




123

4.2. Các chuẩn mã hóa âm thanh

4.2.1. Các chuẩn mã hóa âm thanh ISO/MPEG

Từ năm 1988, Tổ chức ISO/MPEG đảm trách việc tiêu chuẩn hóa các kỹ thuật nén
âm thanh và hình ảnh. Nội dung nghiên cứu chính của việc chuẩn hóa là mã hóa âm
thanh và hình ảnh cho các phương tiện lưu trữ số bao gồm CD-ROM, DAT, đĩa quang từ
MO và ổ cứng máy tính.
MPEG, viết tắt của cụm từ “Moving Picture Experts Group”, là một nhóm chuyên
nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC.

Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-1,
MPEG-2 và MPEG-4…MPEG chỉ là một tên riêng, tên chính thức của nó là: ISO/IEC
JTC1 SC29 WG11
ISO : International Organization for Standardization
IEC : International Electro-technical Commission
JTC1 : Joint Technical Committee 1
SC29 : Sub-committee 29
WG11: Work Group 11 (moving picture with audio).
MPEG mô tả nén tín hiệu âm thanh sử dụng các mô hình nén theo nhận thức, đưa
ra một hệ với ba mô hình nén âm thanh đơn giản là Layer I, Layer II và Layer III theo
mức độ tăng lên của độ phức tạp và khả năng thực hiện (chất lượng âm thanh theo dòng
bít) của bộ mã hóa. Ba bộ mã hóa này tương thích với nhau theo cách có thứ tự, có nghĩa
là bộ giải mã Layer N có khả năng giải mã dòng dữ liệu được mã hóa trong Layer N và
tất cả các Layer thấp hơn N.
Đối với mỗi Layer, tiêu chuẩn nêu chuẩn dòng bít và bộ giải mã. Tất cả các Layer
sử dụng cùng cấu trúc. Mô hình mã hóa có thể được mô tả như định dạng nhiễu nhận
thức hay chuyển đổi mã hóa băng phụ theo nhận thức. Bộ mã hóa phân tích thành phần
phổ của tín hiệu âm thanh bằng cách tính dải lọc và áp dụng mô hình âm thanh cảm nhận
để xác định mức nhiễu có thể nghe thấy. Trong giai đoạn lượng tử hóa và mã hóa, bộ mã
hóa sẽ cố gắng để chỉ rõ số bít dữ liệu cần để đáp ứng cả yêu cầu dòng bít và hiện tượng
che lấp. Bộ giải mã đơn giản hơn, nhiệm vụ chính là tổng hợp tín hiệu âm thanh từ các
thành phần phổ được mã hóa.

Tất cả các Layer:
• Dùng chung cấu trúc bộ lọc dải- filerband.
• Dùng chung thông tin của phần đầu- header information trong dòng dữ liệu
• Đều có khả năng nhạy đối với lỗi bít tương tự nhau, sử dụng cùng cấu trúc
dòng bít với các phần nhạy với lỗi bite (“header”, “bit location”, “scale
factor”, “side information”) và các phần ít nhạy hơn (dữ liệu về các thành
phần phổ “data of spectral components”).

Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




124

• Hỗ trợ khả năng chèn các thông tin về chương trình vào dòng dữ liệu âm
thanh.
• Có thể sử dụng tần số lấy mẫu là 32,44.1 hoặc 48 kHz.
• Cho phép hoạt động với các dòng bít giống nhau

Danh sách các chuẩn MPEG:

- MPEG-1(IS 11172,10,92): Mã hóa các ảnh chuyển động và âm thanh kèm theo
các phương tiện lưu trữ số với tốc độ đến khoảng 1.5 Mbit/s.
• Ba phần đầu được chuẩn hóa từ năm 1992.
• IS-11172-1 (“Hệ thống”) mô tả đồng bộ và ghép kênh của các tín hiệu
video và âm thanh
• IS-11172-2 (“Video”) mô tả nén các tín hiệu video, chú trọng vào các tín
hiệu progressive scan video, chủ yếu cho các ứng dụng “Video on CD”
• IS-11172-3 (“Âm thanh”) mô tả hệ mã hóa âm thanh chung, với các thành
viên tương thích theo kiểu cấu trúc thứ tự (Layer I, II, III)
• IS-11172-4 mô tả các quá trình xác định các thông số của dòng dữ liệu
được mã hóa và quá trình dải mã và cho sự thích ứng với yêu cầu thử nghiệm
theo yêu cầu đặt ra trong các phần khác
• DTR-11172-5 báo cáo kỹ thuật về phần mềm ứng dụng của ba phần MPEG
-1.
-MPEG-2 (IS 13818, 11-97): đặc điểm chung của mã hóa hình ảnh chuyển động
và âm thanh theo, chú trọng đến chuẩn video chung, các phần âm thanh mở rộng.

-MPEG-2 AAC: nén một tín hiệu âm thanh kênh 5.1 vào trong một tốc độ tối thiểu
là 320 Kbps. Định dạng 5.1 đề cập đến năm kênh tín hiệu âm thanh cùng với tác dụng của
một kênh tăng cường tần số thấp có băng thông giảm.
-MPEG-4 (CD – 14496, 11-97): mã hóa các đối tượng nghe nhìn, chú trọng đến
các nội dung linh hoạt và mở rộng- là cơ sở cho các chương trình nghe nhìn tương hỗ.

4.2.2. Doby AC-3
Doby AC-3 (Doby Digital Audio Coding) là chuẩn nén âm thanh được sử dụng
trong nhiều bộ phim ở rạp hát, ở nhà, và trong truyền hình chất lượng cao HDTV ở nước
Mỹ. AC-3 mã hoá một tín hiệu âm thanh kênh 5.1 vào thành luồng bit 384 Kbps. Giai
đoạn đầu tiên của bộ giải mã hoá AC-3 là lấy 512 mẫu đầu vào và áp dụng biến đổi
MDCT. Để tiết kiệm dải động, thì sau đó nó chia các thành phần tần số đầu ra thành các
hàm loga và hàm mũ. Các giá trị này sau đó được lượng tử hoá được kết hợp với các
kênh khác và được đóng thành các khung để truyền đi.

4.2.3. AES-3 (Audio Engineering Society-3)
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




125

Đây là tiêu chuẩn quốc tế giao diện âm thanh kỹ thuật số. Tiêu đề đầy đủ của nó là
định dạng truyền nối tiếp cho hai kênh âm thanh số tuyến tính tương ứng. Theo thuật ngữ
đơn giản mà có nghĩa nó là âm thanh nổi và không nén. AES-3 là một sự phát triển chung
của Hiệp hội kỹ sư âm thanh - AES (Audio Engineering Society) và Liên minh phát sóng
quảng bá châu Âu - EBU (European Broadcasting Union). Tiêu chuẩn này dựa trên cân
bằng về cáp xoắn đôi, và được cho khoảng cách truyền dẫn lên đến 100 mét. Ba tốc độ
lấy mẫu được hỗ trợ là 32, 44.1 và 48 KHz.


4.3. Các chuẩn nén ảnh JPEG

4.3.1. Chuẩn JPEG

JPEG (Joint Photographic Experts Group) là tên một tổ chức nghiên cứu về các
chuẩn nén ảnh (trước đây là ISO) được thành lập vào năm 1982. Năm 1986, JPEG chính
thức được thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITU. Đến năm 1994, JPEG
được khẳng định với tiêu chuẩn ISO 10918-1.
JPEG là định dạng nén ảnh có tổn thất. Tiêu chuẩn này có có thể được ứng dụng
trong nhiều lĩnh vực: lưu trữ ảnh, Fax màu, truyền ảnh báo chí, ảnh cho y học, camera
số Nó còn có các định dạng mở rộng khác như .jpg, .jpeg, .jpe, .jfif và .jif. Kỹ thuật này
có thể đạt được hệ số nén hơn tám mươi lần so với ảnh gốc. Tuy nhiên, hệ số nén càng
cao thì hình ảnh sau khi giải nén sẽ càng bị sai lệch nhiều hơn, nó chỉ gần giống như ban
đầu chứ không đạt hoàn toàn như hình ảnh gốc.
Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu. Tuy nhiên nó cũng
được sử dụng cho nhiều ứng dụng với ảnh động bởi vì nó cho chất lượng khôi phục khá
tốt và ít tính toán hơn so với nén MPEG. Nén JPEG có thể thực hiện bởi bốn mode mã
hóa: mã hóa tuần tự, mã hóa lũy tiến, mã hóa không tổn thất và mã hóa phân cấp. Mã hóa
không tổn thất không sử dụng cho video động bởi vì tỉ lệ nén của nó không đủ cao. Khai
triển DCT được chọn là kĩ thuật then chốt trong JPEG vì nó cho ảnh nén chất lượng tốt
nhất tại số bit thấp nhất và giải thuật chuyển đổi nhanh, dễ dàng thực hiện bằng phần
cứng.
Định dạng nén JPEG được sử dụng trong tất cả máy ảnh kỹ thuật số có kích thước
rất nhỏ nên thường chụp được nhiều ảnh trên một thẻ nhớ, JPEG dễ hiển thị trên màn
hình, ảnh có thể chuyển nhanh qua thư điện tử (dung lượng từ 300KB đến 700KB), ảnh
JPEG chất lượng cao có dung lượng khoảng vài MB hay lớn hơn.
Nén theo chuẩn JPEG là một tiến trình nhiều bước. Trước hết là bước qui tắc hóa
(regularizing stage) để làm cho ảnh có nhiều đoạn giống nhau hơn thực tế. Ảnh màu được
chuyển sang dạng YUV hoặc CIELAB, trong đó thông tin về độ chói (luminance) được

tách rời với thông tin về độ màu (chrominance). Một yếu tố được tính tới là mắt người ta
nhạy cảm với những thay đổi nhỏ về độ sáng hơn là những thay đổi về màu sắc, đặc biệt
ở đầu xanh của phổ. Ngoài ra cách làm này còn khai thác thực tế là ảnh thường có nhiều
vùng lớn tại đó các điểm kế nhau rất giống nhau về kênh màu.
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




126

Bước tiếp theo là lấy mẫu cho các kênh màu (gọi là “downsampling” hoặc
“chroma subsampling”). Đây là 1 trong 2 công đoạn làm mất thông tin và chỉ thực hiện
khi bạn chọn xác lập tỉ lệ nén cao/chất lượng thấp (high compression/low quality) của
JPEG. Lấy mẫu (subsampling) nghĩa là loại bỏ có hệ thống các thông tin màu sắc đối với
các hàng hoặc cột điểm ở tỉ lệ cho trước. Nếu bạn thực hiện cứ hai hàng loại bỏ một hàng
và hai cột loại bỏ một cột, bạn giảm được dữ liệu màu đi 75%. Khi tời ảnh, trị của các
điểm loại bỏ trước đó được ngoại suy từ những gì còn lại.
Bước tiếp theo, ảnh gốc được chia thành các khối ảnh (block) nhỏ kích thước 8x8
không chồng chéo lên nhau. Tiếp theo, giá trị của mỗi điểm ảnh ở mỗi khỗi khối ảnh sẽ
được trừ đi 128. Lý do là do giá trị các điểm ảnh có giá trị từ 0 đến 255 (được mã hoá bởi
8 bít không dấu), áp dụng biến đổi DCT sẽ tạo ra các hệ số AC có dải giá trị từ -1023 đến
+1023 (có thể được mã hoá bởi 11 bít có dấu). Nhưng hệ số DC lại có giải giá trị từ 0 đến
2040 (được mã hoá bởi 11 bít không dấu) và cần cách xử lý khác ở phần cứng hoặc phần
mềm so với các hệ số AC. Chính vì thế việc trừ giá trị mỗi điểm ảnh đi 128 là để sau khi
biến đổi DCT cả các hệ số DC và AC có cùng dải giá trị thuận lợi cho việc xử lý và biểu
diễn.
Với mỗi khối ảnh hai chiều kích thước 8x8, áp dụng biến đổi DCT để tạo ra mảng
hai chiều các hệ số biến đổi. Hệ số có tương ứng với tần số không gian thấp nhất nhưng
lại có giá trị lớn nhất được gọi là hệ số DC (một chiều), nó tỉ lệ với độ chói trung bình

của cả khối ảnh 8x8. Các hệ số còn lại gọi là các hệ số AC (xoay chiều). Theo lý thuyết,
biến đổi DCT không đem lại sự mất mát thông tin ảnh, mà đơn giản nó chỉ chuyển thông
tin ảnh sang miền không gian mới thuật lợi hơn cho mã hoá ở bước tiếp theo.

Mảng hai chiều các hệ số biến đổi được lượng tử hoá sử dụng bộ lượng tử hóa tỉ lệ
đồng nhất. Nghĩa là các hệ số sẽ được lượng tử hoá riêng lẻ và độc lập. Quá trình lượng
tử hoá là dựa trên sinh lý của hệ thống mắt người: cảm nhận hình ảnh có độ nhậy kém
hơn ở các hệ số tần số cao và có độ nhậy tốt hơn ở các hệ số có tần số thấp. Vì thế các hệ
số được chọn sao cho thực hiện lượng tử hoá thô đối với các hệ số tần số cao và lượng tử
hoá tinh đối với các hệ số có tần số thấp. Bảng lượng tử hoá được lấy tỉ lệ để tạo ra các
mức nén thay đổi tuỳ theo tốc độ bít và chất lượng ảnh. Việc lượng tử hoá sẽ tạo ra rất
nhiều giá trị 0, đặc biệt là ở tần số cao. Quá trình làm tròn trong khi lượng tử hoá chính là
nguyên nhân chính gây ra sự tổn hao nhưng lại là nhân tố chính đem lại hiệu suất nén.

Để tận dụng ưu điểm của các hệ số đã được lượng tử có giá trị gần bằng 0, mảng
hai chiều các hệ số đã được lượng tử sẽ được sắp xếp theo hình Zigzag tạo thành mảng
một chiều. Cách sắp xếp này cho phép giảm thiểu năng lượng tổn hao trung bình và tạo ra
dãy các giá trị bằng 0 liên tiếp. Kiểu quét Zigzag này cũng nhằm đặt các hệ số có tần số
thấp lên trước các hệ số có tần số cao. Các hệ số này sẽ được mã hóa dựa trên bảng mã
Huffman sao cho chiều dài trung bình của từ mã là nhỏ nhất.

Đến đây các hệ số được nén trung thực bằng mã hóa độ dài chạy – RLC. Tiếp đến,
các hệ số DC được tách khỏi các hệ số AC và sử dụng kỹ thuật mã hoá điều xung mã vi
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




127


sai – DPCM. Bước cuối cùng của quá trình nén là sử dụng mã hoá entropy chẳng hạn mã
hoá Huffman cho các AC và DC (sau khi đã mã hoá DPCM) để tăng thêm hiệu quả nén
cũng như giảm thiểu lỗi.

Ở phía giải nén, luồng bít mã hoá được giải mã entropy, sau đó mảng hai chiều các
hệ số DCT đã được lượng tử hoá được giải sắp xếp Zigzag và giải lượng tử. Mảng hai
chiều các hệ số DCT kết quả sẽ được biến đổi IDCT rồi cộng mỗi giá trị với 128 để xấp
xỉ tạo thành các khối ảnh con kích thước 8x8. Chú ý là bảng lượng tử hoá và mã hoá
entropy ở cả phía nén và giải nén là đồng nhất. Hai thành phần hiệu màu cũng được mã
hoá tương tự như thành phần chói ngoại trừ khác biệt là chúng được lấy mẫu xuống hệ số
2 hoặc 4 ở cả chiều ngang và dọc trước khi biến đổi DCT. Ở phía giải nén , thành phần
màu sẽ được nội suy độ chói (Y) và hiệu mầu (U, V) thành R, G và B.

Quá trình nén và giải nén được mô tả theo các hình vẽ dưới đây:

Hình 4.1: Sơ đồ quá trình nén ảnh theo chuẩn JPEG

Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




128


Hình 4.2: Sơ đồ quá trình giải nén theo chuẩn JPEG

4.3.2. Chuẩn JPEG-2000

Chuẩn JPEG ban đầu đã thu được sự đón nhận rộng rãi và hiện tại có mặt ở khắp

nơi thông qua các ứng dụng của máy tính: nó là khuôn dạng chính cho các ảnh chụp
trong web toàn cầu và được sử dụng rộng rãi trong lưu trữ hình ảnh. Hơn nữa, ảnh số hóa
ngày càng phổ biến với người dùng và yêu cầu chất lượng ngày càng tăng lên, vì vậy các
vấn đề xử lý ảnh cũng tăng theo. Nén hình ảnh không chỉ là làm giảm dung lượng lưu trữ
và các yêu cầu băng thông, mà còn cho để nguyên phép tách, ghép để sắp xếp xử lý và
đáp ứng các mục tiêu trên các ứng dụng và thiết bị cụ thể. Ngoài ra, yêu cầu về hiệu suất
nén tốt hơn với tỷ số nén cao đã dẫn tới sự phát triển chuẩn JPEG-2000.

Hệ thống nén JPEG-2000 có tỉ lệ xuyên âm thấp hơn hẳn các chuẩn công nghệ
JPEG truyền thống, cho dù JPEG-2000 không phải là một chuẩn mới hoàn toàn mà được
phát triển từ các tiêu chuẩn đã có.

Điều quan trọng hơn, nó cho phép tách các phân giải khác nhau, các điểm ảnh, các
miền quan tâm, các thành phần và hơn nữa, tất cả chúng được đưa vào một dòng bit nén
đơn. Nó cho phép một ứng dụng xử lý hoặc truyền các thông tin cần thiết cho bất kỳ một
thiết bị nào, từ một ảnh nguồn đã được mã hóa theo chuẩn JPEG-2000. Tính tương thích
này là một trong những ưu điểm nổi trội mà các kỹ thuật xử lý JPEG truyền thống gặp rất
nhiều khó khăn.

Không giống như tiêu chuẩn JPEG truyền thống, kỹ thuật mã hóa dựa trên biến
đổi cosin rời rạc (DCT – Discrete Cosin Tranform) dùng mã hóa Huffman, JPEG-2000
sử dụng kỹ thuật mã hóa dạng sóng rời rạc (DWT – Descrete Wavelet Transform) dùng
mã số học. Sử dụng DWT cho phép nâng cao độ phân giải tần số mang tính không gian
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




129


trong thể hiện biến đổi hình ảnh. Sơ đồ khối của quá trình nén và giải nén theo chuẩn
JPEG-2000 mô tả ở hình 4.3 dưới đây:

Hình 4.3: Sơ đồ quá trình nén và giải nén theo chuẩn JPEG-2000

Bước 1: Xử lý trước biến đổi

Do sử dụng biến đổi Wavelet, JPEG2000 cần có dữ liệu ảnh đầu vào ở dạng đối
xứng qua 0. Xử lý trước biến đổi chính là giai đoạn đảm bảo dữ liệu đưa vào nén ảnh có
dạng trên. Ở phía giải mã, giai đoạn xử lý sau biến đổi sẽ trả lại giá trị gốc ban đầu cho
dữ liệu ảnh.

Bước 2: Biến đổi liên thành phần

Giai đoạn này sẽ loại bỏ tính tương quan giữa các thành phần của ảnh. JPEG-2000
sử dụng hai loại biến đổi liên thành phần là biến đổi màu thuận nghịch (Reversible Color
Transform - RCT) và biến đổi màu không thuận nghịch (Irreversible Color Transform -
ICT) trong đó biến đổi thuận nghịch làm việc với các giá trị nguyên, còn biến đổi không
thuận nghịch làm việc với các giá trị thực. ICT và RCT chuyển dữ liệu ảnh từ không gian
màu RGB sang YCrCb. RCT được áp dụng trong cả hai dạng thức nén có tổn thất và
không tổn thất, còn ICT chỉ áp dụng cho nén có tổn thất. Việc áp dụng các biến đổi này
trước khi nén ảnh không nằm ngoài mục đích làm tăng hiệu quả nén. Các thành phần Cr,
Cb có ảnh hưởng rất ít tới sự cảm nhận hình ảnh của mắt trong khi thành phần độ chói Y
có ảnh hưởng rất lớn tới ảnh.

Bước 3: Biến đổi riêng thành phần
Biến đổi riêng thành phần được áp dụng trong JPEG-2000 chính là biến đổi
Wavelet.

Bước 4: Lượng tử hoá - Giải lượng tử hoá


Các hệ số của phép biến đổi sẽ được tiến hành lượng tử hoá. Quá trình lượng tử
hoá cho phép đạt tỷ lệ nén cao hơn bằng cách thể hiện các giá trị biến đổi với độ chính
xác tương ứng cần thiết với mức chi tiết của ảnh cần nén. Các hệ số biến đổi sẽ được
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




130

lượng tử hoá theo phép lượng tử hoá vô hướng. Các hàm lượng tử hoá khác nhau sẽ được
áp dụng cho các băng con khác nhau và được thực theo biểu thức:


(4.1)

với ∆ là bước lượng tử, U(x, y) là giá trị băng con đầu vào; V(x, y) là giá trị sau lượng tử
hoá. Trong dạng biến đổi nguyên, đặt bước lượng tử bằng 1.Với dạng biến đổi thực thì
bước lượng tử sẽ được chọn tương ứng cho từng băng con riêng rẽ. Bước lượng tử của
mỗi băng do đó phải có ở trong dòng bít truyền đi để phía thu có thể giải lượng tử cho
ảnh. Công thức giải lượng tử hoá là:


(4.2)

r là một tham số xác định dấu và làm tròn, các giá trị U(x, y); V(x, y) tương ứng là các giá
trị khôi phục và giá trị lượng tử hoá nhận được. JPEG-2000 không cho trước r tuy nhiên
thường chọn r = 1/2 .


Bước 5: Mã hoá
JPEG-2000 theo khuyến nghị của uỷ ban JPEG quốc tế có thể sử dụng nhiều
phương pháp mã hoá khác nhau cũng như nhiều cách biến đổi Wavelet khác nhau để có
thể thu được chất lượng ảnh tương ứng với ứng dụng cần xử lý. Điều này giúp cho JPEG-
2000 mềm dẻo hơn nhiều so với JPEG. Việc áp dụng các phương pháp mã hoá khác nhau
cũng được mở rộng sang lĩnh vực nén ảnh động bằng biến đổi Wavelet. Trong thực tế các
phương pháp mã hoá ảnh được áp dụng khi nén ảnh bằng biến đổi Wavelet cũng như
JPEG-2000 thì có hai phương pháp được coi là cơ sở và được áp dụng nhiều nhất:
phương pháp SPIHT và phương pháp EZW (Embedded Zerotree Wavelet Encoder).

JPEG-2000 là một chuẩn nén có thể tạo ra khả năng nén ảnh tốt hơn đáng kể so với
JPEG. Với cùng chất lượng hình ảnh, thông thường JPEG-2000 có thể nén ảnh gấp ít nhất
là 2 lần so với JPEG. Với tỷ số nén cao, chất lượng của hình ảnh giảm ít hơn. Tuy nhiên
điều này cũng đồng nghĩa với việc tăng độ phức tạp và các yêu cầu lưu trữ trong quá
trình mã hóa và giải mã. Một tác động khác của điều này là những hình ảnh có thể tốn
mất nhiều thời gian hơn khi lưu trữ và hiển thị.

4.4. Các chuẩn nén Video MPEG-1, 2, 4, 7 và MPEG-21
4.4.1. Tổng quan về MPEG

MPEG (Moving Picture Expert Group) được ra đời vào năm 1988 nhằm mục đích
chuẩn hoá cho nén tín hiệu âm thanh và video. Nén tín hiệu video theo chuẩn MPEG là
phương pháp nén ảnh động không những làm giảm dư thừa không gian (như JPEG) mà
còn làm giảm dư thừa thời gian giữa các khung ảnh, đây là khác biệt so với JPEG.
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




131


MPEG không phải là một công cụ nén đơn lẻ mà ưu điểm của nén ảnh dùng
MPEG chính là ở chỗ MPEG có một tập hợp các công cụ mã hoá chuẩn, chúng có thể
được kết hợp vói nhau một cách linh động để phục vụ cho một loạt các ứng dụng khác
nhau.
Nén MPEG là sự kết hợp hài hoà của bốn kỹ thuật cơ bản: Tiền xử lý
(Preprocessing), đoán trước sự chuyển động của các frame ở bộ mã hoá (temporal
prediction), bù chuyển động ở bộ giải mã (motion compensation) và mã lượng tử hoá
(quatisation coding). Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín
hiệu video và những thông tin khó mã hoá nhưng không quan trọng cho sự cảm thụ của
mắt người. Kỹ thuật đoán chuyển động dựa trên nguyên tắc là các ảnh trong chuỗi video
dường như có liên quan mật thiết với nhau theo thời gian: Mỗi frame tại một thời điểm
nhất định sẽ có nhiều khả năng giống với các frame đứng ngay phía trước và ngay phía
sau nó. Các bộ mã hoá sẽ tiến hành quét lần lượt từng phần nhỏ trong mỗi frame gọi là
macro blocks, sau đó nó sẽ phát hiện macro block nào không thay đổi từ frame này tới
frame khác. Bộ mã hoá sẽ tiên đoán trước sự xuất hiện của các macro blocks khi biết vị
trí và hướng chuyển động của nó. Do đó chỉ những sự thay đổi giữa các khối trong frame
hiện tại (motion compesated residual) và các khối được tiên đoán mới được truyền tới
bên phía thu. Phía bên thu tức bộ giải mã đã lưu trữ sẵn những thông tin mà không thay
đổi từ frame này tới frame khác trong bộ nhớ đệm của nó và chúng được dùng để điền
thêm một cách đều đặn vào các vị trí trống trong ảnh được khôi phục.
Nén tín hiệu video được thực hiện nhờ việc loại bỏ cả sự dư thừa về không gian
(spatial coding) và thời gian (temporal coding). Trong MPEG, việc loại bỏ dư thừa về
thời gian (nén liên ảnh) được thực hiện trước hết nhờ sử dụng các tính chất giống nhau
giữa các ảnh liên tiếp (Inter-frame techniques). Chúng ta có thể sử dụng tính chất này để
tạo ra các bức ảnh mới nhờ vào những thông tin từ những ảnh đã gửi trước nó
(“predicted”). Do vậy ở phía bộ mã hoá, ta chỉ cần gửi những bức ảnh có thay đổi so với
những ảnh trước, sau đó ta lại dùng phương pháp nén về không gian để loại bỏ sự dư thừa
về không gian trong chính bức ảnh sai khác này. Nén về không gian dựa trên nguyên tắc
là phát hiện sự giống nhau của các điểm ảnh (pixels) lân cận nhau (Intra-frame coding

techniques). JPEG chỉ áp dụng phương pháp nén theo không gian vì nó được thiết kế để
xử lý và truyền các ảnh tĩnh. Tuy nhiên nén tín hiệu theo phương pháp của JPEG cũng có
thể được dùng để nén các bức ảnh một cách độc lập trong dãy tín hiệu video. ứng dụng
này thường được gọi là JPEG động (Motion JPEG). Trong một chu kỳ gửi một dãy các
bức ảnh theo kiểu JPEG động, ảnh đầu tiên được nén nhờ sự loại bỏ độ dư thừa về không
gian, sau đó các ảnh tiếp theo được nén nhờ sự loại bỏ độ dư thừa về thời gian (nén liên
ảnh). Quá trình được lặp đi lặp lại cho một dãy các bức ảnh trong tín hiệu video.
Thuật toán nén MPEG cũng dựa trên phép biến đổi DCT cho các khối ảnh 8x8
picxels để tìm ra sự thừa về không gian một cách có hiệu quả giữa các điểm ảnh trong
cùng một bức ảnh. Tuy nhiên, trong trường hợp có mối tương quan chặt chẽ giữa các
điểm ảnh trong các bức ảnh kế tiếp nhau tức là trong trường hợp hai bức ảnh liên tiếp có
nội dung trùng nhau, kỹ thuật Inter-frame coding techniques sẽ được dùng cùng với việc
tiên đoán sự dư thừa về không gian để tạo thành kỹ thuật tiên đoán bù chuyển động giữa
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




132

các bức ảnh (Motion compesated prediction between frames). Trong nhiều sơ đồ nén
MPEG, người ta thường kết hợp cả việc tiên đoán bù chuyển động theo thời gian và phép
biến đổi thông tin theo không gian để đạt hiệu quả nén cao (Hybrid DPCM/DCT coding
of video).
Hầu hết các sơ đồ nén MPEG đều dùng kỹ thuật lấy mẫu bổ xung (Subsampling)
và lượng tử hoá (Quantization) trước khi mã hoá. Lấy mẫu bổ xung nhằm mục đích để
làm giảm kích thước bức ảnh đầu vào theo cả theo chiều ngang và chiều dọc, như vậy sẽ
giảm số lượng các điểm ảnh trước mã hoá. Cũng nên nhớ rằng trong một số trường hợp
người ta còn lấy mẫu bổ xung theo thời gian để làm giảm số lượng các bức ảnh trong dãy
ảnh trước khi mã hoá. Đây được xem như là một kỹ thuật rất cơ bản nhằm loại bỏ sự dư

thừa dựa vào khả năng lưu ảnh của mắt người cảm thụ. Thường thường, chúng ta có thể
phân biệt sự thay đổi về độ sáng của ảnh (changes in Brightness) tốt hơn so với sự thay
đổi về màu (Chromaticity changes). Do đó trước hết các sơ đồ nén MPEG sẽ tiến hành
chia bức ảnh thành các thành phần Y (độ chói) và U, V (các thành phần hiệu mầu). Các
tín hiệu video thành phần này sẽ được lấy mẫu (samples) và số hoá (digitised) để tạo nên
các điểm ảnh rời rạc theo tỷ lệ 4:2:2 và 4:2:0.
Kỹ thuật tiên đoán bù chuyển động được sử dụng như là một trong những công cụ
mạnh để làm giảm sự dư thừa về không gian giữa các bức ảnh. Khái niệm về bù chuyển
động là dựa trên sự phán đoán hướng chuyển động của các bức ảnh tức là các ảnh thành
phần trong dãy video sẽ được thay thế gần đúng. Kỹ thuật tiên đoán bù chuyển động giữa
các bức ảnh được xem như là biện pháp để hạn chế bớt các thông số của chuyển động bởi
việc dùng các vector chuyển động để mô tả sự dịch chuyển của các điểm ảnh. Kết quả
tiên đoán tốt nhất của một điểm ảnh là dựa trên sự tiên đoán bù chuyển động từ một bức
ảnh đã mã hoá được truyền phía trước của nó. Cả hai thông số, sai số chuyển động (biên
độ) và các vectors chuyển động (hướng chuyển động) đều được truyền tới phía bên nhận.
Tuy nhiên do có mối quan hệ tương quan chặt chẽ giữa các điểm ảnh về không gian
(trùng về không gian), một vector chuyển động có thể được dùng cho một khối các điểm
ảnh gồm các pixels lân cận nhau (MPEG -1 và MPEG -2 dùng các khối 16 x16 pixels).

4.4.2. Cấu trúc dòng bít
Để tạo khả năng chống lỗi khi truyền tín hiệu qua kênh có nhiễu, bộ ước đoán phải
được xác lập lại (reset) thường xuyên và mỗi ảnh nén trong khung hay nén ước đoán
được phân đoạn thành nhiều lát nhỏ (slice) cho việc tái đồng bộ tại bộ giải mã phía thu.
Cấu trúc dòng MPEG gồm 6 lớp: lớp dãy ảnh (sequence), lớp nhóm ảnh (GOP), lớp ảnh
(pictrue), lớp cắt lát dòng bit (slice), lớp macroblock, lớp khối (Block). Mỗi lớp này hỗ
trợ một chức năng nhất định: một là chức năng xử lý tín hiệu (DCT, bù chuyển động) hai
là chức năng logic (tái đồng bộ, điểm truy xuất ngẫu nhiên). Quá trình tạo ra dòng bit
MPEG là ghép kênh: kết hợp các dòng dữ liệu vào, dòng dữ liệu ra, điều chỉnh đồng bộ
và quản lý bộ đệm. Cú pháp dòng MPEG bao gồm: lớp dòng bit (stream), lớp gói (pack)
và lớp gói tin (packet) như trong hình 4.5.

Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




133

1. Khối: Khối 8x8 các điểm ảnh tín hiệu chói và tín hiệu màu dùng cho phương
pháp nén DCT.
2. Tổ hợp cấu trúc khối (macroblock): một cấu trúc khối là một nhóm các khối
tương ứng với lượng thông tin chứa đựng trong kích thước 16x16 điểm trên bức ảnh. Cấu
trúc khối này cũng xác định lượng thông tin chứa trong đó sẽ thay đổi tùy theo cấu trúc
mẫu được sử dụng. Thông tin đầu tiên trong cấu trúc khối mang dạng của nó (là cấu trúc
khối Y hay Cr, Cb) và các vector bù chuyển động tương ứng.
3. Mảng (Slice): mảng bao gồm một vài cấu trúc khối kề nhau. Kích thước lớn
nhất của mảng có thể bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng là một
cấu trúc khối. Thông tin đầu của mảng chứa đựng vị trí của mảng trong toàn bộ ảnh, và
hệ số cân bằng lượng tử.
4. Ảnh (Picture): lớp ảnh cho phép bộ giải mã xác định loại của ảnh được mã hóa.
Thông tin đầu dùng để chỉ thứ tự truyền khung để bộ giải mã có thể sắp xếp các ảnh lại
theo một thứ tự đúng. Trong thông tin đầu của ảnh còn chứa các thông tin về đồng bộ, độ
phân giải và phạm vi của vector chuyển động. Trong MPEG, có 3 loại ảnh khác nhau
được dùng để mã hoá cho các khối ảnh:
• Kiểu ảnh ‘Intra’ (I-pictures) là ảnh được mã hoá một cách độc lập mà không cần
tham khảo tới các ảnh khác. Hiệu quả nén tín hiệu đạt được do loại bỏ sự thừa về
không gian mà không có yếu tố thời gian tham gia vào quá trình. I-pictures được
dùng một cách tuần hoàn để tạo thành các điểm tựa cho dòng dữ liệu trong quá
trình giải mã.
• Ảnh ‘Predictive’ (P-pictures) có thể sử dụng các ảnh I hoặc P ngay sát phía trước
nó để bù chuyển động và chính nó cũng có thể được dùng để tham khảo cho việc

tiên đoán các ảnh khác tiếp theo. Mỗi khối ảnh trong P-picture có thể hoặc được
mã theo kiểu tiên đoán (predicted) hoặc được mã một cách độc lập (intra-coded).
Do sử dụng cả nén theo không gian và thời gian, hiệu quả nén của P-pictures được
tăng lên một cách đáng kể so với I-pictures.
• Ảnh ‘Bidirectionally-Predictive’ pictures hay B- Pictures có thể sử dụng các ảnh I
hoặc P phía trước hoặc phía sau nó cho việc bù chuyển động và do vậy cho kết quả
nén cao nhất. Mỗi khối trong B-pictures có thể được tiên đoán theo chiều ngược,
xuôi, cả hai hướng hoặc được mã một cách độc lập. Để có thể tiên đoán ngược từ
một bức ảnh phía sau nó, bộ mã hoá sẽ tiến hành sắp xếp lại các bức ảnh từ thứ tự
xuất hiện một cách tự nhiên sang một thứ tự khác của các ảnh trên đường truyền.
Do vậy từ đầu ra của bộ mã hoá, B-pictures được truyền sau các ảnh dùng để tham
khảo ở phía trước và phía sau của nó. Điều này sẽ tạo ra độ trễ do phải sắp xếp lại
thông tin, độ trễ này lớn hay nhỏ là tuỳ thuộc vào số các bức ảnh B-pictures liên tiếp
nhau được truyền.

5. Nhóm ảnh (GOP): Các ảnh I, P, B-pictures thường xuất hiện theo một thứ tự lặp
đi lặp lại một cách tuần hoàn, do đó ta có khái niệm về nhóm các bức ảnh GOP (Group of
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




134

Pictures). Đối với chuẩn nén MPEG, chất lượng ảnh không những phụ thuộc vào tỷ lệ
nén trong từng khuôn hình mà còn phụ thuộc vào độ dài của nhóm ảnh GOP. Nhóm ảnh
là khái niệm cơ bản của MPEG, nó là đơn vị mang thông tin độc lập của MPEG. GOP bắt
buộc phải bắt đầu bằng một ảnh I cho phép xác định điểm bắt đầu để tìm kiếm và biên
tập (thông tin đầu gồm 25 bit chứa mã định thời và điều khiển) và tiếp sau nó là một loại
các ảnh P và B.

Một ví dụ của GOP ở dạng ảnh tự nhiên xuất hiện theo thứ tự như sau:
B
1
B
2
I
3
B
4
B
5
B
7
B
8
P
9
B
10
B
11
P
12

Thứ tự xuất hiện của chúng trên đường truyền bị thay đổi do sự sắp xếp lại của bộ
mã hoá như sau:
I
3
B
1

B
2
P
6
B
4
B
5
P
9
B
7
B
8
P
12
B
10
B
11

Cấu trúc của một GOP có thể được mô tả bởi hai tham số: N là số các ảnh trong
GOP và M là khoảng cách giữa các ảnh P-pictures. Nhóm GOP này được miêu tả như N
= 12 và M = 3.
6. Đoạn (chương trình) video: đoạn video bao gồm thông tin đầu, một số nhóm
ảnh và thông tin kết thúc đoạn. Thông tin đầu của đoạn video chứa đựng kích thước mỗi
chiều của ảnh, kích thước của điểm ảnh, tốc độ bit của dòng video số, tần số ảnh và bộ
đệm tối thiểu cần có. Đoạn video và thông tin đầu tạo thành một dòng bit được mã hóa
gọi là dòng cơ bản (Elementary Stream).


Hình 4.4: Cấu trúc dòng bit MPEG
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




135



Hình 4.5: Kiến trúc dòng dữ liệu MPEG

4.4.3. Nguyên lý hoạt động

Hoạt động của bộ mã hóa, phụ thuộc vào loại hình ảnh, là mã hóa tại thời điểm
đang xét. Quá trình nén theo chuẩn MPEG là sự kết hợp giữa nén trong ảnh và nén liên
ảnh. Tín hịeu đầu vào có dạng 4:2:2 hoặc 4:2:0 được nén liên ảnh nhằm tạo ra ảnh khác
biệt ở đầu ra bộ cộng. Ảnh khác biệt này sau đó được nén trong ảnh qua các bước: biến
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




136

đổi DCT, lượng tử hóa, mã hóa. Cuối cùng ảnh này được trộn cùng với vector chuyển
động đưa đến bộ khuyếch đại đệm sẽ thu được ảnh đã nén. Ta xét ví dụ bộ nén theo
phương pháp trên, dùng ảnh I và P trong cấu trúc GOP (Hình 4.6).

Ảnh thứ nhất trong nhóm phải được mã hóa như ảnh loại I. Trong trường hợp này,

sau khi lấy mẫu lần đầu, tín hiệu video được truyền đến khối biến đổi DCT cho các MB
riêng, sau đó bộ lượng tử và mã hóa entropy. Tín hiệu ra từ bộ lượng tử hóa được đưa
đến bộ lượng tử hóa ngược và biến đổi DCT ngược, sau đó được lưu vào bộ nhớ ảnh.

Trong trường hợp mã hóa ảnh loại P, mạch nén chuyển động làm việc. Trên cơ sở
so sánh ảnh đang xét và ảnh trong bộ nhớ, sẽ xác định được các vector chuyển động, sau
đó dự báo ảnh. Sự chênh lệch giữa ảnh đang xét và dự báo ảnh của nó được biến đổi
DCT, lượng tử hóa và mã hóa entropy. Cũng như trong trường hợp các ảnh loại I, tín hiệu
ra từ bộ lượng tử hóa được giải lượng tử hóa và biến đổi DCT ngược rồi cộng với ảnh dự
báo đang xét và lưu vào bộ nhớ.

Tốc độ bit của tín hiệu video được nén không cố định, phụ thuộc vào nội dung
ảnh đang xét. Ngược lại, tại đầu ra bộ mã hóa, dòng bit phải cố định để xác định tốc độ
cho dung lượng kênh truyền. Do đó, tại đầu ra bộ mã hóa phải có bộ nhớ đệm đủ lớn. Bộ
mã hóa phải kiểm tra trạng thái đầy của bộ nhớ đệm. Khi số liệu trong bộ nhớ đệm gần
bằng dung lượng cực đại, thì các hệ số biến đổi DCT ngược được lượng tử hóa ít chính
xác hơn. Trong trường hợp ngược lại, có nghĩa là bộ nhớ đệm chứa số liệu quá ít, thì việc
lượng tử hóa các hệ số sẽ tăng lên.

Hình 4.6: Bộ mã hóa MPEG tiêu biểu
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




137

Quá trình giải mã: Theo lý thuyết, quá trình giải mã là ngược lại với quá
trình mã hóa và được minh họa trên hình 4.7.


Hình 4.7: Bộ giải mã MPEG tiêu biểu

Chuỗi tín hiệu vào được giải mã entropy tại VLD (Variable-Length Decoder).
Sau đó tách số liệu ảnh (hệ số biến đổi DCT) ra khỏi các vector chuyển động. Số liệu sẽ
được giải lượng tử hóa và biến đổi DCT ngược. Trong trường hợp ảnh loại I bắt đầu ở
mỗi nhóm ảnh trong chuỗi, sẽ nhận được ảnh đầu ra hoàn chỉnh bằng cách trên. Nó được
lưu trong bộ nhớ ảnh và được sử dụng để giải mã các ảnh tiếp theo.

Trong trường hợp ảnh loại P sẽ thực hiện giải lượng tử và biến đổi DCT ngược
với việc sử dụng các vector chuyển động và ảnh lưu vào bộ nhớ ảnh. Trên cơ sở đó xác
định được dự báo ản đang xét. Ta nhận được ảnh ra sau khi cộng dự báo ảnh và kết quả
biến đổi DCT ngược. Ảnh này cũng được lưu vào bộ nhớ để có thể sử dụng như là chuẩn
khi giải mã các ảnh tiếp theo.

4.4.4. Các chuẩn nén MPEG

4.4.4.1. MPEG-1
Chuẩn đầu tiên được đưa ra bởi MPEG, có tên gọi phổ biến là MPEG-1, được thiết
kế để cung cấp việc nén video và audio cho việc lưu trữ và phát lại trên các CD-ROM.
Chuẩn MPEG-1 bao gồm 3 phần. Phần 1 đề cập tới các vấn đề hệ thống (bao gồm
cả ghép kênh video và audio đã mã hóa), phần 2 đề cập tới video nén và phần 3 là về
audio nén. Phần 2 (video) được phát triển với mục đích hỗ trợ việc mã hóa có hiệu quả
video cho các ứng dụng phát lại trên CD và tạo ra chất lượng video tương đương hoặc tốt
hơn băng video VHS về tốc độ bit CD (khoảng 1,2 Mbps đối với video). Khi mà hầu hết
các ứng dụng của người tiêu dùng đòi hỏi chỉ cần giải mã và phát lại, không bao gồm mã
hóa thì nảy sinh yêu cầu phải tối thiểu hóa sự phức tạp trong giải mã. Do đó, quá trình
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…





138

giải mã của MPEG-1 có thể xem là đơn giản hơn so với mã hóa (không giống như JPEG,
bộ mã hóa và giải mã có mức độ phức tạp tương tự nhau).
Các đặc tính của MPEG-1
Tín hiệu video đầu vào tới một bộ mã hóa video MPEG-1 có khuôn dạng là 4:2:0
(Y:Cr:Cb) với độ phân giải không gian thông thường là 352×288 hoặc 352×240 pixels.
Mỗi khung video được xử lý theo từng khối của một macroblock, tương ứng với một
vùng 16×16 pixel trong khung hiển thị. Vùng này được tạo ra từ 16×16 mẫu độ sáng, 8×8
mẫu Cr và 8×8 mẫu Cb (vì Cr và Cb phải bằng một nửa độ phân giải ngang và dọc của
thành phần độ sáng). Một macroblock bao gồm 6 khối 8×8: 4 khối độ sáng (Y), một khối
Cr và một khối Cb.
Mỗi khung video được mã hóa để tạo ra một bức ảnh mã hóa. Có 3 loại chính: các
ảnh I, các ảnh P và các ảnh B. (Chuẩn này còn xác định thêm một loại ảnh là ảnh D
nhưng loại này hiếm khi sử dụng trong các ứng dụng thực tế).
Ảnh loại I: không có dự đoán bù chuyển động. Ảnh loại I được sử dụng để làm tham
khảo cho những ảnh dự đoán xa hơn.
Ảnh loại P: sử dụng dự đoán bù chuyển động từ một ảnh tham khảo (ảnh P hoặc ảnh
I có trước ảnh P hiện tại). Do đó một ảnh loại P được dự đoán sử dụng dự đoán chuyển
tiếp và bản thân một ảnh P có thể được sử dụng làm tham khảo cho các ảnh dự đoán xa
hơn.
Ảnh loại B: sử dụng dự đoán bù chuyển động từ 2 ảnh tham khảo, ảnh P và/hoặc
ảnh I trước và sau ảnh B hiện tại. Hai vectơ chuyển động được tạo ra cho mỗi
macroblock trong một ảnh B: một chỉ tới một vùng thích hợp trong ảnh tham khảo trước
đó (một vectơ chuyển tiếp) và một chỉ tới một vùng thích hợp trong ảnh tham khảo tương
lai (vectơ hồi tiếp). Một macroblock dự đoán bù chuyển động có thể được thực hiện theo
3 cách: dự đoán chuyển tiếp sử dụng vecto chuyển tiếp, dự đoán hồi tiếp sử dụng vecto
hồi tiếp hoặc dự đoán hai chiều (trong đó sự tham khảo dự đoán được thực hiện bằng
cách lấy trung bình các tham khảo dự đoán chuyển tiếp và hồi tiếp). Thông thường, một

bộ mã hóa sẽ chọn một chế độ dự đoán (chuyển tiếp, hồi tiếp hay hai chiều) sao cho tạo
ra được năng lượng thấp nhất trong macroblock sai phân. Bản thân các ảnh loại B không
được sử dụng như các tham khảo dự đoán cho bất kỳ khung dự đoán xa hơn nào.
Chuẩn MPEG-1 không thực sự định nghĩa thiết kế của một bộ mã hóa: thay vào đó,
chuẩn này mô tả cú pháp mã hóa và một bộ giải mã ‘tham khảo’ giả thuyết. Trong thực
tế, cú pháp và chức năng được mô tả bởi chuẩn có ý nghĩa rằng một bộ mã hóa phải chứa
những chức năng nhất định.

4.4.4.2. MPEG-2
Ứng dụng giải trí quan trọng tiếp theo của video mã hóa (sau lưu trữ CD-ROM) là
truyền hình số. Để cung cấp một sự lựa chọn cải tiến cho truyền hình tương tự, một vài
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




139

đặc tính chủ yếu đã được yêu cầu đối với nguyên lý mã hóa video. Nó phải hỗ trợ hiệu
quả các kích thước khung lớn hơn (thường là 720×576 hay 720×480 pixel cho độ phân
giải của ITU-R 601) và mã hóa video kết hợp. Với những độ phân giải chất lượng truyền
hình, video kết hợp tạo ra hình ảnh video mịn hơn. MPEG-2 đã ra đời nhằm đáp ứng
những yêu cầu này.
MPEG-2 bao gồm 3 phần chính: Video, Audio (dựa trên mã hóa audio của MPEG-
1) và Systems (định nghĩa, những phần chi tiết hơn MPEG-1, ghép kênh và truyền luồng
audio/visual mã hóa). Những điểm nâng cao được thêm vào bởi MPEG-2 bao gồm:
Mã hóa hiệu quả video với chất lượng truyền hình: Ứng dụng quan trọng nhất của
MPEG-2 là truyền hình số quảng bá. Các chức năng chính của MPEG-2 được đánh giá là
có hiệu quả trong mã hóa những độ phân giải truyền hình ở tốc độ bit trong khoảng từ 3-5
Mbps.

Hỗ trợ mã hóa video kết hợp: MPEG-2 video có một vài đặc tính hỗ trợ mã hóa
một cách linh hoạt video kết hợp. Hai trường tạo ra một khung kết hợp hoàn chỉnh có thể
được mã hóa như những hình ảnh riêng biệt, mỗi trường sẽ được mã hóa thành một ảnh I,
P hoặc B. Các ảnh trường P và B có thể được dự đoán từ một trường trong khung khác
hoặc từ trường khác trong khung hiện tại.
Khả năng phân cấp: Những chế độ tiên tiến của JPEG được mô tả trước đó là các
dạng mã hóa phân cấp. Một luồng bit mã hóa phân cấp bao gồm một lớp cơ sở và một
hoặc nhiều lớp tăng cường. Lớp cơ sở có thể được giải mã để tạo ra chuỗi video có thể
nhận diện mà có chất lượng nhìn bị hạn chế, và một chuỗi chất lượng cao hơn có thể
được tạo ra bởi việc giải mã lớp cơ sở cộng với những lớp tăng cường, với mỗi lớp tăng
cường thêm vào sẽ nâng cao chất lượng của chuỗi giải mã. MPEG-2 hỗ trợ 4 chế độ phân
cấp:
 Phân cấp theo không gian
 Phân cấp theo thời gian
 Phân cấp SNR
 Phân vùng dữ liệu
Profile và level: Hầu hết các ứng dụng đều chỉ yêu cầu một tập nhỏ giới hạn các
chức năng trên diện rộng hỗ trợ bởi MPEG-2. Để khuyến khích khả năng liên kết đối với
các ứng dụng ‘chủ yếu’ bất kỳ (ví dụ truyền hình số), chuẩn này bao gồm một tập các
profile và level đề nghị, mỗi tập định nghĩa một tập con nhất định các chức năng của
MPEG-2. Mỗi profile xác định một tập các khả năng và những khả năng quan trọng. Còn
mỗi level sẽ xác định các độ phân giải không gian và thời gian.
Chuẩn MPEG-2 cũng định nghĩa những kết hợp nhất định đề nghị cho các profile và
level. Main profile/low level (chỉ sử dụng mã hóa khung) thực chất là MPEG-1. Main
profile/main level phù hợp với truyền hình số quảng bá và đây là sự kết hợp profile/level
được sử dụng rộng rãi nhất. Main profile/high level phù hợp với truyền hình độ nét cao
(HDTV).
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…





140


4.4.4.3. MPEG-4
Các chuẩn MPEG-1 và MPEG-2 xử lý các khung video hoàn chỉnh, mỗi khung
được mã hóa như một đơn vị riêng lẻ. Chuẩn MPEG-4 được phát triển với mục đích mở
rộng khả năng của những chuẩn trước đó theo một số hướng.
Hỗ trợ các ứng dụng có tốc độ bit thấp: MPEG-1 và MPEG-2 có hiệu quả chấp
nhận được trong mã hóa các tốc độ bit khoảng trên 1 Mbps. Tuy nhiên, nhiều ứng dụng
nổi bật (đặc biệt là các ứng dụng dựa trên Internet) yêu cầu tốc độ bit truyền rất thấp hơn
nhiều và MPEG-1 và 2 không hỗ trợ việc nén hiệu quả ở các tốc độ bit thấp.
Hỗ trợ mã hóa dựa trên đối tượng: Có thể nói hầu hết sự thay đổi nguyên tắc
trong chuẩn MPEG-4 đều hướng đến mã hóa dựa trên đối tượng hay dựa trên nội dung,
trong đó một cảnh video có thể được xử lý như một tập các đối tượng nền và đối tượng
cận cảnh hơn là chỉ như một chuỗi các khung hình chữ nhật. Loại mã hóa này mở ra một
dải rộng các khả năng, ví dụ như mã hóa độc lập các đối tượng khác nhau trong một
cảnh, dùng lại các thành phần cảnh, ghép lại (các vật thể từ một số nguồn được kết hợp
trong một cảnh) và độ tương tác cao. Khái niệm cơ sở sử dụng trong MPEG-4 Visual là
VO (Video Object). Một cảnh video (VS) (một chuỗi các khung video) được tạo thành từ
một số các VO. MPEG-4 cung cấp các công cụ cho phép mỗi VO được mã hóa một cách
độc lập, mở ra một nhiều khả năng mới. Dưới dạng VO, một ‘khung’ tương đương với
một mặt phẳng đối tượng video (VOP – Video Object Plane). Một cảnh hoàn chỉnh có thể
được mã hóa như một VOP đơn hình chữ nhật và điều này tương đương với một bức ảnh
dưới dạng MPEG-1 và 2.
Mã hóa dựa trên bộ công cụ: MPEG-1 có độ linh động rất hạn chế, MPEG-2 đưa
ra khái niệm về ‘bộ công cụ’ gồm các profile và level mà có thể kết hợp theo nhiều cách
cho các ứng dụng khác nhau. MPEG-4 mở rộng đặc điểm này thành một tập hợp các
công cụ mã hóa có độ linh hoạt cao để cho phép một dải các ứng dụng cũng như một

khung chuẩn hóa cho phép các công cụ mới được thêm vào ‘bộ công cụ’.
Chuẩn MPEG-4 được thiết lập nhờ đó các công cụ mã hóa và chức năng mới có thể
được tăng thêm khi các phiên bản mới của chuẩn được phát triển, và do đó danh sách các
công cụ cũng tiếp tục tăng lên.

4.4.4.4. MPEG-7
Mục tiêu chính của MPEG-7 là xác định một tập hợp chuẩn các bộ mô tả dùng để
mô tả nhiều loại thông tin đa phương tiện với các codec chuẩn, cũng như những cơ sở dữ
liệu khác và thậm chí cả thông tin nghe-nhìn tương tự. Các bộ mô tả cùng với các cơ chế
mô tả sẽ được kết hợp với bản thân nội dung để tạo ra một phương pháp tìm kiếm tài liệu
nhanh và có hiệu quả của người dùng.
Các mức mô tả
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




141

Một sự kiện nghe nhìn xác định có thể được mô tả với nhiều tập hợp đặc tính khác
nhau nếu những ứng dụng của chúng là khác nhau. Để mô tả những sự kiện về thị giác,
đầu tiên chúng được mô tả bởi độ trừu tượng thấp như hình dạng, kích thước, bố cục,
màu sắc, sự chuyển động và các vị trí của chúng trong khung hình ảnh. Độ trừu tượng
cao hơn là sự mô tả mối quan hệ thuộc về ngữ nghĩa giữa những sự trừu tượng mức thấp
hơn ở trên. Tất cả những mô tả đều được mã hóa theo một cách mà chúng có thể được
tìm kiếm một cách hiệu quả nhất.
Cùng với việc mô tả nội dung, có thể cần thêm một số loại thông tin khác về dữ liệu
đa phương tiện, ví dụ:
• Dạng: ví dụ như cơ chế mã hóa được sử dụng (như JPEG, MPEG-2,…), hoặc kích
thước toàn bộ dữ liệu.

• Những điều kiện để truy cập tài liệu: có thể bao gồm thông tin về bản quyền,
giá,…
• Sự phân loại: sự phân loại nội dung vào một số loại được định nghĩa trước.
• Liên kết đến dữ liệu liên quan khác: thông tin này sẽ giúp người dùng tăng được
tốc độ của hoạt động tìm kiếm.
• Bối cảnh: đối với một số sự kiện được ghi lại, một điều quan trọng là biết được sự
kiện đặc biệt của quá trình ghi lại đó. (ví dụ, World Cup 2002, trận chung kết diễn
ra giữa Brazil và Đức).
Phạm vi ứng dụng
Các phần tử mà MPEG-7 chuẩn hóa sẽ hỗ trợ một dải rộng các ứng dụng. Hiện nay
MPEG-7 cũng tạo ra mạng lưới có khả năng tìm kiếm nội dung đa phương tiện như khả
năng tìm kiếm văn bản. Điều này có thể áp dụng cho việc thu được nội dung lớn cũng
như cho những loại đa phương tiện cho phép con người nhận dạng nội dung nhằm mục
đích mua sắm. Thông tin sử dụng cho việc khôi phục nội dung có thể được sử dụng bởi
các thực thể, cho việc lựa chọn và lọc tư liệu được quảng bá hoặc cho quảng cáo cá nhân.
Tất cả các vùng ứng dụng tạo ra việc sử dụng đa phương tiện đều có thể thu được
lợi ích từ MPEG-7. Một số miền có thể tìm thấy sự hữu ích của MPEG-7 như:
 Kiến trúc, di sản thực và thiết kế nội thất (ví dụ như tìm kiếm các ý tưởng).
 Lựa chọn đa phương tiện quảng bá (ví dụ các kênh radio và TV).
 Dịch vụ văn hóa (các bảo tàng lịch sử, phòng trưng bày nghệ thuật,…).
 Các thư viện số (danh mục hình ảnh, từ điển âm nhạc, danh mục hình ảnh sinh
dược, phim, video và radio thu được).
 Thương mại điện tử (ví dụ quảng cáo cá nhân, các danh mục trực tuyến, danh mục
các cửa hàng điện tử).
 Giáo dục (nơi chứa các khóa học đa phương tiện, tìm kiếm đa phương tiện dữ liệu
hỗ trợ).
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…





142

 Giải trí tại nhà (ví dụ các hệ thống cho quản lý các bộ sưu tập đa phương tiện cá
nhân, bao gồm cả sự thao tác đối với nội dung như tạo video tại nhà, tìm kiếm trò
chơi).
 Các dịch vụ pháp y (nhận dạng các đặc điểm cá nhân, pháp lý).
 Nghề báo (tìm kiếm lời nói của một nhà chính trị nào đó thông qua tên, giọng nói
hoặc khuôn mặt của người đó).
 Các dịch vụ danh bạ đa phương tiện (ví dụ các trang vàng, các hệ thống thông tin
du lịch, thông tin địa lý).
 Biên tập đa phương tiện (ví dụ các dịch vụ thông tin điện tử cá nhân).
 Khả năng phán đoán từ xa (ví dụ như nghiên cứu bản đồ, nghiên cứu mối quan hệ
của sinh vật sống với môi trường, quản lý nguồn tài nguyên thiên nhiên).
 Mua sắm (ví dụ tìm kiếm những mẫu quần áo mà bạn yêu thích).
 Giám sát (ví dụ điều khiển giao thông, vận tải trên biển, những thử nghiệm không
mang tính phá hoại trong môi trường đối địch).
 …
4.4.4.5. MPEG-21
Ngày nay công nghệ đa phương tiện đã trở nên tiên tiến đến mức có thể truy cập vào
một lượng rất lớn thông tin và các dịch vụ từ bất kỳ đâu và bất kỳ lúc nào thông qua các
mạng và thiết bị đầu cuối phổ biến. Tuy nhiên, không có một bức tranh hoàn chỉnh nào
cho việc làm thế nào để những nhóm người khác nhau có thể tương tác một cách tốt nhất
với nhau trên một cơ sở hạ tầng phức tạp. Những ví dụ về những nhóm người này như
những người cung cấp nội dung, tài chính, truyền thông, máy tính và các bộ phận điện tử
của người sử dụng và các khách hàng. Việc phát triển một khung đa phương tiện chung
sẽ làm cho sự liên kết giữa những bộ phận này trở nên thuận tiện và hỗ trợ sự hoạt động
và tích hợp hiệu quả hơn cho những mô hình, nguyên tắc, lợi nhuận và các khuôn dạng
nội dung. Đây là nhiệm vụ của dự án về khung đa phương tiện dưới cái tên MPEG-21.
MPEG-21 là một chuẩn được mong đợi với mục tiêu mô tả một ‘bức tranh lớn’ cho

việc làm thế nào để các phần tử khác nhau có thể xây dựng một cơ sở hạ tầng cho việc
phân phối và sử dụng nội dung đa phương tiện – đang tồn tại hoặc đang được phát triển –
có thể làm việc cùng nhau.
MPEG-21 bao gồm một phát biểu chung về nội dung đa phương tiện, một ngôn ngữ
làm đơn giản hóa sự tương thích động của nội dung vào mạng phân phối và các thiết bị
sử dụng, và nhiều công cụ khác nhau để làm cho sự quản lý các quyền số có khả năng
liên kết.

Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




143

4.5. Các chuẩn nén Video H26x của ITU

Hiệp hội viễn thông quốc tế (ITU) và tổ chức tiêu chuẩn quốc tế/ Uỷ ban kỹ thuật
điện tử quốc tế (ISO/IEC) là hai tổ chức phát triển các tiêu chuẩn mã hoá Video. Những
khuyến nghị của ITU được thiết kế dành cho các ứng dụng truyền thông Video thời gian
thực như Video Conferencing hay điện thoại truyền hình
Các chuẩn mã hóa video MPEG của ISO nhằm vào việc lưu trữ và phân phối video
cho lĩnh vực giải trí và cố gắng đạt được các yêu cầu của người cung cấp cũng như người
tiêu dùng trong ‘nền công nghiệp phương tiện’. Trong khi đó ITU quan tâm nhiều hơn tới
công nghiệp viễn thông, và do đó các chuẩn mã hóa video của tổ chức này (H.261,
H.263, H.264) hướng tới truyền thông thời gian thực, điểm-điểm và đa điểm.
Chuẩn mã hóa video đầu tiên của ITU-T, H.261, được phát triển trong suốt cuối
thập kỷ 80 và đầu thập kỷ 90 của thế kỷ 20 với sự chú ý về ứng dụng và kênh truyền dẫn
đặc biệt. Ứng dụng là hội nghị truyền hình (truyền thông hai chiều qua một ‘đường nối’
video) và kênh truyền là ISDN.

H.261 đã khá thành công và tiếp tục được sử dụng trong nhiều ứng dụng hội nghị
truyền hình mang tính di sản. Những cải tiến trong hiệu suất xử lý, các công nghệ mã hóa
video và sự nổi lên của các modem tương tự và mạng IP như các kênh truyền đã dẫn tới
sự phát triển tiếp theo của nó, H.263, vào giữa thập kỷ 90 của thế kỷ 20.
Bằng việc tạo ra những cải tiến so với H.261, H.263 cung cấp hiệu suất nén tốt hơn
nhiều cũng như độ linh động cao hơn. Chuẩn H.263 ban đầu (phiên bản 1) có 4 chế độ
tùy chọn. Các chế độ này được xem là khá hữu dụng và phiên bản 2 (H.263+) thêm vào
12 chế độ tùy chọn nữa. Phiên bản gần đây nhất (có thể là phiên bản cuối) (v3) chứa tổng
cộng 19 chế độ, mỗi chế độ cung cấp một hiệu suất nén được cải thiện, phục hồi lỗi
và/hoặc độ linh động.
Phát triển mới nhất của nhóm chuyên môn ITU-T là chuẩn H.264. H.264 là dự án
kết hợp gần đây nhất giữa ITU-T VCEG và ISO/IEC MPEG. Đây là một chuẩn mới sử
dụng một số đặc tính tốt nhất của H.263 và nhằm cải thiện hiệu suất nén lên khoảng 50%
ở các tốc độ bit thấp. Ngoài ra, H.264, được thông qua như là một phần của chuẩn
MPEG-4, thường được gọi là MPEG-4 AVC (Advanced Video Coding) hoặc MPEG-4
part 10. H.264 giảm yêu cầu băng thông trong khi chất lượng ảnh tương đương MPEG-2
và MPEG-4. Công nghệ này giúp cho tăng cường khả năng nén không gian và nén thời
gian, cho hình ảnh truyền rất nhanh trên mạng LAN, Internet. Với những ưu việt của
mình, H.264 đang được ứng dụng rất rộng rãi.
4.6. Kết luận chương 4
Trong chương này chúng ta sẽ xem xét các chuẩn mã hóa thoại, âm thanh, các chuẩn nén
hình ảnh JPEP và video MPEG/H26x. Những chuẩn này đã và đang được ứng dụng phổ
biến cho truyền thông đa phương tiện trên mạng viễn thông, mạng truyền hình và
Internet…
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




144


Hướng dẫn ôn tập chương 4

1. Các chuẩn mã hóa thoại và âm thanh.
2. Các chuẩn nén ảnh JPEG và JPEG2000.
3. Các chuẩn nén video MPEG và H26x.
Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh…




145

TÀI LIỆU THAM KHẢO

[1] Stephen J. Solari, Digital Video and Audio Compression, McGraw-Hill, 1997
[2] Steven W. Smith, The Scientist and Engineer’s Guide to Digital Signal Processing,
Elsevier Science, 2003.
[3] Wai C. Chu, Speech Coding Algorithms- Foundation and Evolution of Standardized
Coders, John Wiley & Sons, 2003.
[4] David Lindbergh, Multimedia Communications: Directions and Innovations,
Academic Press, 2001
[5] R. C. Gonzalez, R. E. Woods , Digital Image Processing, Prentice Hall, 2nd Edition,
2001.
[6] Iain E. G. Richardson, H.264 and MPEG-4 Video Compression: Video Coding for
Next-generation Multimedia, John Wiley & Sons Ltd, 2003.
[7] Andrew S. Tanenbaum, “Computer Networks”, Prentice Hall, Inc., 2003.
[8] Đỗ Hoàng Tiến, Vũ Đức Lý, Truyền hình số, Nhà Xuất bản Khoa học và Kỹ thuật,
2001.
[9] Yiteng, Jacob Benesty, Audio Signal Processing for Next Generation Multimedia

Communication Systems, Kluwer Academic Publisher, 2004
[10] J.R. Parker, Algorithms for Image and Video Processing, Wiley,1996
[11] Alan C. Bovic, Handbook of Image and Video Proceesing, Academic Press, 2000
[12] Rafael C. Gonzalez,Richard E. Wood, Steven L.Eddins, Digital Image Processing
Using MALAB, Prentice Hall, 2003
[13] Nguyễn Quốc Trung, Xử lý tín hiệu và lọc số, Nhà xuất bản Khoa học và Kỹ thuật,
1998.
[14] Lương Mạnh Bá, Nguyễn Thanh Thủy, Nhập môn xử lý ảnh số, Nhà xuất bản Khoa
học và Kỹ thuật, 1999.

×