Tải bản đầy đủ (.doc) (30 trang)

Tiểu luận công nghệ MPEG4 tìm HIỂU về CÔNG NGHỆ MPEG4

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (676.43 KB, 30 trang )

Tiểu luận công nghệ MPEG4

TÌM HIỂU VỀ CÔNG NGHỆ MPEG4
I.Lời nói đầu
Với sự phát triển của công nghệ thông tin, và cùng với đó là sự phát triển ngày
càng mạnh mẽ của các ứng dụng truyền thông đa phương tiện , đòi hỏi con người
không ngừng tìm tòi sáng tạo để đáp ứng kịp với xu thế phát triển ấy. Nhờ vào sự
phát triển của các ứng dụng truyền thông đa phương tiện mà chúng ta có thể đưa
âm thanh, hình ảnh, hay các đoạn video đi xa một cách nhanh chóng và thuận tiện.
Song với việc truyền tải một đoạn video có dung lượng lớn đi xa gặp khá nhiều
khó khăn bởi khả năng có hạn của kênh dẫn.Vì vậy các nhà sản xuất đã áp dụng
một số kỹ thuật nén để giúp tối ưu hóa các đoạn video trên, làm giảm dung lượng
phải truyền đi mà chất lượng hình ảnh tương đương với hình ảnh gốc. Một trong
các kỹ thuật nén được sử dụng rộng rãi đó là kỹ thuật nén chuyển động mà tiêu
biểu là chuẩn nén MPEG. Qua quá trình nghiên cứu các chuyên gia đã cho ra đời
chuẩn nén MPEG-4 với nhiều tính năng ưu việt và nó đã nhanh chóng được ứng
dụng rộng rãi trong hệ thống thông tin video nén. MPEG-4 sử dụng một phương
pháp mã hóa video theo từng đối tượng thay vì mã hóa toàn bộ cả một đoạn video,
vì vậy dung lượng video được giảm đi đáng kể mà chất lượng lại không có nhiều
thay đổi .
II. Tổng quan về MPEG4
Tại sao chúng ta cần phải nén video ?
Để xem được 1 đoạn video có chất lượng cao mà dung lượng không quá lớn là 1
điều rất quan trọng và cần thiết. Đó chính là lí do cần phải sử dụng 1 công cụ nén
video nhằm giảm tối đa dung lượng của đoạn video mà chất lượng vẫn đáp ứng
được yêu cầu
Nhu cầu truyền phát các dịch vụ Multimedia mới trên hạ tầng kỹ thuật mạng
Internet đã làm nảy sinh các yêu cầu chức năng không có trong các chuẩn MPEG-
1, MPEG-2,H.26X và các chuẩn nén video trước đó. Sự xuất hiện của chuẩn
MPEG-4 (10/1998) và H264 đã tạo ra một phương thức thiết lập và tương tác mới
1


Tiểu luận công nghệ MPEG4

với truyền thông nghe nhìn trên mạng internet, tạo ra một phương thức sản xuất,
cung cấp và ứng dụng mới các nội dung video trên cơ sở nội dung và hướng đối
tượng (content/object-based). Đây chính là một công nghệ trình diễn truyền thông
đa phương tiện phức hợp, có khả năng truyền thông trong các môi trường băng
thông rất khác nhau nhờ kết hợp tốt 3 môi trường: Truyền hình số, đồ hoạ tương
tác và World Wide Web
** Nhược điểm của MPEG2
Tiêu chuẩn video MPEG-2 bị hạn chế bởi hai yếu tố trong định nghĩa ban đầu
(original definition) của nó:
* Tốc độ bit nhắm tới của video được nén là khoảng 2–15 Mb/s (đối với main
profile ở mail level). Tiêu chuẩn này không chứa giới hạn tốc độ bit thấp hơn bất
kỳ vì điều này không được yêu cầu trong định nghĩa của bộ mã hóa tương thích.
Hiển nhiên MPEG-2 cũng không hiệu quả với tốc độ bit thấp hơn.
* Silicon cho thực hiện MPEG-2 đã bị giới hạn đến trình độ công nghệ của những
ngày đó. Điều này có nghĩa là trong năm 1994 ASIC (application Specific
Integrated Circuit) được sử dụng trong thiết kế bộ giải mã với mật độ 120.000
gate/chip với kích thước gate 0.5 - 1 m. Trong khi đó công nghệ tiên tiến ngày nay
đã đạt 25.000.000 gate/ASIC với kích thước gate nhỏ hơn 0.1 m. Như vậy các kỹ
thuật dựa trên MPEG-2 đã bị hạn chế trong việc thực hiện thực tế trong công nghệ
ngày hôm nay.
* Hạn chế đối với mạng băng thông thấp (tốn nhiều băng thông)
1.Khái niệm và đặc điểm của MPEG4
Hiệp hội viễn thông quốc tế (ITU) và tổ chức tiêu chuẩn quốc tế/ Uỷ ban kỹ
thuật điện tử quốc tế (ISO/IEC) là hai tổ chức phát triển các tiêu chuẩn mã hoá
Video. Theo ITU-T, các tiêu chuẩn mã hoá Video được coi là các khuyến nghị gọi
tắt là chuẩn H.26x (H.261, H.262, H.263 và H.264). Với tiêu chuẩn ISO/IEC,
chúng được gọi là MPEG-x (như MPEG-1, MPEG-2 và MPEG-4).
2

Tiểu luận công nghệ MPEG4

MPEG-4 là sản phẩm của nhóm MPEG (Moving Picture Expert Group) được
thành lập tháng 01/1988 với nhiệm vụ phát triển các chuẩn xử lý, mã hoá và hiển
thị các ảnh động, audio và các tổ hợp của chúng
Mpeg-4 là chuẩn cho các ứng dụng MultiMedia. Mpeg-4 trở thành một tiêu
chuẩn cho nén ảnh kỹ thuật truyền hình số, các ứng dụng về đồ hoạ và Video
tương tác hai chiều(Games,Videoconferencing) và các ứng dụng Multimedia
tương tác hai chiều (World Wide Web hoặc các ứng dụng nhằm phân phát dữ liệu
Video như truyền hình cáp, Internet Video ).
Mpeg-4 đã trở thành một tiêu chuẩn công nghệ trong quá trình sản xuất, phân
phối và truy cập vào các hệ thống Video. Nó đã góp phần giải quyết vấn đề về
dung lượng cho các thiết bị lưu trữ, giải quyết vấn đề về băng thông của đường
truyền tín hiệu Video hoặc kết hợp cả hai vấn đề trên.
Với MPEG-4, các đối tượng khác nhau trong một khung hình có thể được mô
tả, mã hoá và truyền đi một cách riêng biệt đến bộ giải mã trong các dòng cơ bản
ES (Elementary Stream) khác nhau. Cũng nhờ xác định, tách và xử lý riêng các
đối tượng (như nhạc nền, âm thanh xa gần, đồ vật, đối tượng ảnh video như con
người hay động vật, nền khung hình …), nên người sử dụng có thể loại bỏ riêng
từng đối tượng khỏi khuôn hình. Sự tổ hợp lại thành khung hình chỉ được thực
hiện sau khi giải mã các đối tượng này.
H.264 ( MPEG-4 AVC hay MPEG-4 part 10), hiện đang là phương thức tiên
tiến nhất trong lĩnh vực nén video. H.264 cho chất lượng hình ảnh tốt nhất khi có
cùng dung lượng so với các chuẩn nén khác. H.264 cũng được ứng dụng như thuật
nén chính trong video độ phân giải cao (HD)
Mục tiêu chính của chuẩn nén H.264 đang phát triển nhằm cung cấp Video có
chất lượng tốt hơn nhiều so với những chuẩn nén Video trước đây. Điều này có thể
đạt được nhờ sự kế thừa các lợi điểm của các chuẩn nén Video trước đây. Không
chỉ thế, chuẩn nén H.264 còn kế thừa phần lớn lợi điểm của các tiêu chuẩn trước
đó là H.263 và MPEG-4.

3
Tiểu luận công nghệ MPEG4

2.Ưu điểm
Kĩ thuật mã hóa video nén theo hướng đối tượng MPEG-4 mà hiện nay đang
đuợc sử dụng rất nhiều như 1 công cụ mã hóa với nhiều tính năng ưu việt.
a. Tính mềm dẻo và có khả năng nâng cấp.
Các nhà thiết kế bộ mã hoá MPEG phải đối mặt với rất nhiều vấn đề, nhưng
vấn đề quan trọng nhất là làm sao thiết kế được một thuật toán nén mềm dẻo và có
khả năng nâng cấp được trong tương lai. Họ thường mong muốn có được các bộ
mã hoá MPEG thích hợp cho nhiều ứng dụng, từ TV màn ảnh rộng, chất lượng
cao tới các hệ thống nhỏ, tín hiệu video đen trắng cho các hệ thống camera an
ninh. Hiển nhiên là một hệ thống nén thiết kế dành cho các phim màn ảnh rộng
phải có phần cứng mạnh, bộ nhớ lớn hơn là một hệ thống được thiết kế cho hệ
thống camera dành cho mục đích an ninh. Các nhà thiết kế giải quyết vấn đề này
bằng cách định nghĩa "Level" và "Profile" cho hệ thống. Các "Level" xác định giới
hạn năng lực xử lý của phần cứng và bộ nhớ cần thiết để mã hoá tín hiệu. Các
"Profile" xác định độ phức tạp của quá trình mã hoá và giải mã. Đối với MPEG-4
thì có 19 profile (nhưng đối với H.264 chỉ có 3 profile).
Về khả năng nâng cấp của bộ mã hoá MPEG, họ thiết kế theo hai bước. Bước
thứ nhất là thay cho xác định chỉ tiêu của bộ mã hoá và giải mã, họ xác định loại
tín hiệu nằm giữa hai thiết bị này. Bước thứ hai là thực hiện các cải tiến trong bộ
mã hoá và giải mã mới sao cho nó tương thích với các chuẩn cũ (backward
compatible).Chuẩn MPEG có các qui tắc và giao thức cho tín hiệu truyền giữa bộ
mã hoá và giải mã. Các quy tắc này, thực chất giống như là một loại ngôn ngữ
dành riêng cho bộ mã hoá và giải mã. Các bộ mã hoá tương thích phải có khả năng
“nói” được ngôn ngữ này. Các bộ giải mã tương thích phải có khả năng hiểu được
toàn bộ các "từ vựng" mà bộ mã hoá đã phát ra trong một ngữ cảnh nhất
định.MPEG-4 thực hiện điều này bằng cách tạo ra một bộ các công cụ dùng để
nén tín hiệu trong các trường hợp khác nhau. Một trong các công cụ này, chuyển

đổi cosine rời rạc (DCT - discrete cosine transform), có nhiệm vụ chuyển đổi một
khối 8x8 pixel thành một tập các hệ số
4
Tiểu luận công nghệ MPEG4

b. MPEG-4 đem lại công cụ nén mới.
Ta hãy xem xét các cộng cụ nén mới mà chuẩn MPEG-4 mang tới lĩnh vực
nén ảnh. Hình 1 so sánh các công cụ của chuẩn MPEG-2 và MPEG-4.
Hình 2.1: công cụ nén mới của MPEG-4 so với MPEG-2.
Chuẩn MPEG-4 đi xa hơn, theo hình 2, nó có thể dự đoán hệ số của toàn bộ
các khối trên một hàng hay hệ số của các khối ở cột bên trái từ một khối đầu tiên.
Hình 2.2: MPEG4 có thể dự đoán các tham số trên 1 hàng, hay các thông số của
cột bên trái từ một khối đầu tiên.
5
Tiểu luận công nghệ MPEG4

Việc dự đoán các hệ số của hàng hay của cột dựa trên nội dung của hình ảnh.
Ví dụ, một ảnh chứa một vật thể theo chiều đứng như cái cọc chẳng hạn. Khi đó
quét ảnh này theo chiều ngang sẽ tạo ra sự thay đổi lớn trong các hệ số sau DCT
khi gặp hình ảnh cái cọc này. Trái lại, khi quét theo chiều đứng thì các khối nằm
trong một cột có các hệ số DCT gần giống nhau, từ đó có thể nén với tỉ lệ nén cao
hơn.
MPEG-4 mở rộng cách dự đoán vector chuyển động. MPEG-4 có thể dự đoán
vector cho một macroblock từ các macroblock ở trên hay ở bên trái, và nó chỉ gửi
đi sự sai khác so với các vector cũ mà thôi. Do đó giảm đi dữ liệu cần thiết dùng
để mã hoá một vector, cho phép có thể dùng một vector cho mỗi khối DCT. Việc
dự đoán chuyển động sẽ tốt hơn với 4 vector, giảm nhỏ lỗi khi dự đoán.
Chất lượng hình ảnh có thể được cải thiện đáng kể bằng cách dùng tỉ lệ nén dữ
liệu lớn hơn mà không cần thay đổi độ phân giải. Mpeg không phải là một công cụ
nén đơn lẻ mà ưu điểm của nén Mpeg chính là ở chỗ nó có một tập hợp các công

cụ mã hoá chuẩn, chúng có thể được kết hợp với nhau một cách linh động để phục
vụ cho một loạt các ứng dụng khác nhau, khả năng truyền dẫn tốt trong môi
trường truyền dẫn khắc nhiệt.
c. Tiềm năng của chuẩn MPEG-4.
Trong khi các chuẩn MPEG-1 và MPEG-2 thao tác với một ảnh toàn vẹn, thì
chuẩn MPEG-4 có thể làm việc được với các hình ảnh được tạo ra, hay đã được
máy tính xử lý và đó là một thế mạnh của chuẩn MPEG-4. So với chuẩn MPEG-2
thì MPEG-4 có những ưu thế hơn về xử lý đồ họa trực tiếp.
6
Tiểu luận công nghệ MPEG4

Hình 2.3.a : Đầu vào của bộ mã hóa MPEG-2 là một ảnh hoàn
chỉnh được lặp lại theo tần số ảnh (frame rate)

Hình 2.3.b : Bộ mã hóa MPEG-4 có thể xử lý các lệnh đồ họa một cách trực tiếp ,
do đó công cụ biểu diễn hình ảnh thực sự nằm trong bộ giải mã MPEG-4
Hình 2.3 : so sánh giữa chuẩn MPEG-2 và MPEG-4 về xử lý đồ
họa
Chuẩn MPEG-4 có thể làm việc được với 4 loại đối tượng, như trên hình 2.4.
Hình 2.4 cho thấy chuẩn MPEG-4 đã chuẩn hoá phương pháp truyền các đối
tượng 3 chiều nhờ các đối tượng lưới (mesh object), cùng với các phương tiện ánh
xạ bề mặt vật thể lên các đối tượng này, chuẩn này có thể xử lý các đối tượng có
hình dạng bất kỳ
7
Tiểu luận công nghệ MPEG4

Hình 2.4: MPEG4 đã chuẩn hóa phương pháp truyền các đối
tượng 3 chiều nhờ các đối tượng lưới.
d. Audio, video và tất cả các đối tượng khác có thể được đồng bộ chặt
chẽ với độ chính xác cao và có khả năng tương tác.

Truyền thông multimedia theo dòng (Multimedia stream), trong đó dòng audio
và video sẽ được biến đổi thích nghi với yêu cầu băng thông và chất lượng hình
nhờ loại bỏ những đối tượng (hình ảnh, âm thanh) không cần thiết khỏi dòng dữ
liệu và đồng bộ các thông tin được nhúng trong dòng dữ liệu đó. Thêm vào đó,
MPEG-4 sẽ cho phép người sử dụng khả năng tương tác trực tiếp với dòng dữ liệu
(dừng tiến hay lùi nhanh, kích chuột để kích hoạt các tuỳ chọn video và audio…)
Lưu giữ và phục hồi dữ liệu audio và video: do MPEG-4 phân chia các khung
hình thành các đối tượng, việc trình duyệt Browser trên cơ sở nội dung (đối tượng)
mong muốn sẽ được thực hiện một cách dễ dàng và nhờ vậy, các ứng dụng lưu giữ
hay phục hồi thông tin trên cơ sở nội dung MPEG-4 sẽ được thuận lợi hơn.
8
Tiểu luận công nghệ MPEG4

Truyền thông báo đa phương tiện: các thông báo dưới dạng text, audio và
video MPEG-4 sẽ được truyền đi với yêu cầu băng thông ít hơn, và có khả năng tự
điều chỉnh chất lượng cho phù hợp với khả năng băng thông của thiết bị giải mã.
Thông tin giải trí: những sự trình diễn nghe nhìn tương tác (thế giới ảo, trò
chơi tương tác …) có thể được triển khai trên cơ sở chuẩn MPEG-4 sẽ làm giảm
yêu cầu về băng thông và làm cho thế giới ảo trở nên sinh động và giống như thực
tế trên các trang web
3.Nhược điểm
Tuy nhiên cũng có một số nhược điểm là bộ giải mã phải có khả năng giải mã hết
tất cả các luồng bit mà nó hổ trợ và có khả năng kết hợp. Do đó phần cứng của bộ
giải mã MPEG-4 phức tạp hơn so với bộ giải mã MPEG-2. Và ngày nay thì càng có
nhiều bộ mã thực hiện giải mã bằng phần mềm nhưng bộ giải mã bằng phần cứng có
thể bị hạn chế về khả năng linh hoạt
9
Tiểu luận công nghệ MPEG4

III. Công nghệ mã hóa video trong MPEG-4

MPEG-4 là sản phẩm của nhóm MPEG (Moving Picture Expert Group)
được thành lập tháng 1/1988 với nhiệm vụ phát triển các chuẩn xử lý, mã hoá và
hiển thị các ảnh động, audio và các tổ hợp của chúng.
Sản phẩm đầu tiên của nhóm này là MPEG-1 được sử dụng cho việc mã hoá
các dữ liệu nghe nhìn với tốc độ 1,5 Mbps. Sản phẩm thứ hai của nhóm là chuẩn
MPEG-2 nổi tiếng hiện nay, mang tính tổng quát hơn và đang được áp dụng cho
một loạt các ứng dụng nghe nhìn trong phạm vi tốc độ từ 3-40 Mbps.
Không giống các chuẩn MPEG trước đó, ví dụ như trong MPEG-2, nơi mà
nội dung được tạo ra từ nhiều nguồn như video ảnh động, đồ họa, văn bản… và
được tổ hợp thành chuỗi các khung hình phẳng, mỗi khung hình (bao gồm các đối
tượng như người, đồ vật, âm thanh, nền khung hình…) được chia thành các phần
tử ảnh pixels và xử lý đồng thời, giống như cảm nhận của con người thông qua các
giác quan trong thực tế. Các pixels này được mã hoá như thể tất cả chúng đều là
các phần tử ảnh video ảnh động. Tại phía thu của người sử dụng, quá trình giải mã
diễn ra ngược với quá trình mã hoá không khó khăn. Vì vậy có thể coi MPEG-2 là
một công cụ hiển thị tĩnh, và nếu một nhà truyền thông truyền phát lại chương
trình của một nhà truyền thông khác về một sự kiện, thì logo của nhà sản xuất
chương trình này không thể loại bỏ được. Với MPEG-2, bạn có thể bổ xung thêm
các phần tử đồ hoạ và văn bản vào chương trình hiển thị cuối cùng (theo phương
thức chồng lớp), nhưng không thể xoá bớt các đồ hoạ và văn bản có trong chương
trình gốc.
Chuẩn MPEG-4 khắc phục được hạn chế này và là một chuẩn động dễ thay
đổi. Với MPEG-4, các đối tượng khác nhau trong một khung hình có thể được mô
tả, mã hoá và truyền đi một cách riêng biệt đến bộ giải mã trong các dòng cơ bản
ES (Elementary Stream) khác nhau. Cũng nhờ xác định, tách và xử lý riêng các
10
Tiểu luận công nghệ MPEG4

đối tượng (như nhạc nền, âm thanh xa gần, đồ vật, đối tượng ảnh video như con
người hay động vật, nền khung hình …), nên người sử dụng có thể loại bỏ riêng

từng đối tượng khỏi khuôn hình. Sự tổ hợp lại thành khung hình chỉ được thực
hiện sau khi giải mã các đối tượng này.
Hình 3.1. Cấu trúc của bộ mã hoá và giải mã video MPEG-4
3.1.Các bộ phận chức năng chính trong các thiết bị MPEG-4 bao gồm:
- Bộ mã hoá hình dạng ngoài Shape Coder dùng để nén đoạn thông tin, giúp
xác định khu vực và đường viền bao quanh đối tượng trong khung hình scene.
- Bộ dự đoán và tổng hợp động để giảm thông tin dư thừa theo thời gian.
- Bộ mã kết cấu mặt ngoài Texture coder dùng để xử lý dữ liệu bên trong và
các dữ liệu còn lại sau khi đã bù chuyển động.
11
Tiểu luận công nghệ MPEG4

Hình 3.2. Sơ đồ cấu trúc giải mã video MPEG-4
Hình 3.2 là một ví dụ về tổng hợp khung hình video sử dụng trong MPEG-4.
Nhiều đối tượng được tách ra khỏi video đầu vào. Mỗi đối tượng video sau đó
được mã hóa bởi bộ mã hoá đối tượng video VO (Video Object) và sau đó được
truyền đi trên mạng. Tại vị trí thu, những đối tượng này được giải mã riêng rẽ nhờ
bộ giải mã riêng VO và gửi tới bộ compositor. Người sử dụng có thể tương tác với
thiết bị để cấu trúc lại khung hình gốc, hay để xử lý các đối tượng tạo ra một
khung hình khác. Ngoài ra, người sử dụng có thể download các đối tượng khác từ
các thư viện cơ sở dữ liệu (có sẵn trên thiết bị hay từ xa thông qua mạng LAN,
WAN hay Internet) để chèn thêm vào hay thay thế các đối tượng có trong khuôn
hình gốc.
Để có thể thực hiện việc tổ hợp khung hình, MPEG-4 sử dụng một ngôn ngữ
mô tả khung hình riêng, được gọi là định dạng nhị phân cho khung hình BiFS
(Binary Format for Scenes). BiFS không chỉ mô tả ở đâu và khi nào các đối tượng
xuất hiện trong khung hình, nó cũng mô tả cách thức hoạt động của đối tượng (làm
cho một đối tượng xoay tròn hay chồng mờ hai đối tượng lên nhau) và cả điều
kiện hoạt động đối tượng và tạo cho MPEG-4 có khả năng tương tác. Trong
12

Tiểu luận công nghệ MPEG4

MPEG-4 tất cả các đối tượng có thể được mã hoá với sơ đồ mã hoá riêng của nó -
video được mã hoá theo kiểu video, text được mã hoá theo kiểu text, các đồ hoạ
được mã hoá theo kiểu đồ hoạ - thay vì việc xử lý tất cả các phần tử ảnh pixels
như là mã hoá video ảnh động. Do các quá trình mã hoá đã được tối ưu hoá cho
từng loại dữ liệu thích hợp, nên chuẩn MPEG-4 sẽ cho phép mã hoá với hiệu quả
cao tín hiệu ảnh video, audio và cả các nội dung tổng hợp như các bộ mặt và cơ
thể hoạt hình.
3.2. Mã hoá hình dạng ngoài (Shape Coder )
-Khung hình : là thành phần mã hoá chính. Thường thường chúng ta có thể
phân biệt sự thay đổi về độ sáng của ảnh tốt hơn so với sự thay đổi về màu. Do đó
trước hết các sơ đồ nén Mpeg sẽ tiến hành chia khung hình thành các thành phần
độ sáng Y và thành phần độ màu Cb, Cr (một thành phần về độ sáng và hai thành
phần về độ màu). Một khung hình sẽ gồm có 3 ma trận ứng với các thành phần về
độ sáng (Y) và hai thành phần về độ màu Cb và Cr.
Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệu
Video và những thông tin khó mã hoá nhưng không quan trọng cho sự cảm thụ
của mắt người. Kỹ thuật đoán chuyển động dựa trên nguyên tắc là các khung hình
trong một cảnh Video dường như có liên quan mật thiết với nhau theo thời gian:
Mỗi khung hình tại một thời điểm nhất định sẽ có nhiều khả năng giống với các
khung hình đứng ngay phía trước và ngay phía sau nó. Do vậy ở phía bộ mã hoá,
chỉ cần gửi những khung hình có thay đổi so với những khung hình trước, sau đó
dùng phương pháp nén về không gian để loại bỏ sự dư thừa về không gian trong
chính khung hình sai khác này. Trong MPEG-4 là yếu tố ít có sự thay đổi nhất, các
bước mã hóa khung hình cũng tương tư như mã hóa ảnh. Thuật toán mã hoá biến
đổi gồm các bước:
+Biến đổi Cosine rời rạc (DCT).
+Lượng tử hoá.
+Mã hóa

13
Tiểu luận công nghệ MPEG4

Hình 3.3 sơ đồ thuật toán nén ảnh (a)
Hình 3.4 sơ đồ thuật toán nén ảnh (b)
3.3 Dự đoán và tổng hợp động
Mỗi lớp video bao gồm các đối tượng riêng rẽ . Mỗi đối tượng riêng rẽ ấy gọi
là VOP. Khi 1 VOP được tách ra,VOP đó sẽ được đưa vào bộ mã hóa và được
thực hiện mã hóa như sau :
14
Tiểu luận công nghệ MPEG4

Hình 3.6 Cấu trúc mã hóa một VOP
3.3.1 Ước lượng chuyển động
Nén Mpeg là sự kết hợp hài hoà của bốn kỹ thuật cơ bản: Tiền xử lý
(Preprocessing), đoán trước sự chuyển động của các khung hình (Picture) ở bộ mã
hoá (Temporal Prediction), bù chuyển động ở bộ giải mã (Motion Compensation)
và mã lượng tử hoá (Quatization Coding).Các bộ lọc tiền xử lý sẽ lọc ra những
thông tin không cần thiết từ tín hiệu Video và những thông tin khó mã hoá nhưng
không quan trọng cho sự cảm nhận của mắt người. Kỹ thuật đoán chuyển động
dựa trên nguyên tắc là các khung hình trong một cảnh Video (Video Sequence)
dường như có liên quan mật thiết với nhau theo thời gian: Mỗi khung hình tại một
thời điểm nhất định sẽ có nhiều khả năng giống với các khung hình đứng ngay
phía trước và ngay phía sau nó. Các bộ mã hoá sẽ tiến hành quét lần lượt từng
phần nhỏ trong mỗi khung hình gọi là MB, sau đó nó sẽ phát hiện MB nào không
thay đổi từ khung hình này tới khung hình khác. Bộ mã hoá sẽ dự đoán trước sự
xuất hiện của các MB khi biết vị trí và hướng chuyển động của nó. Do đó chỉ
những sự thay đổi giữa các MB trong khung hình hiện tại và các MB được dự
đoán mới được truyền tới bên phía thu.
15

Tiểu luận công nghệ MPEG4

Phía bên thu tức bộ giải mã đã lưu trữ sẵn những thông tin mà không thay đổi
từ khung hình này tới khung hình khác trong bộ nhớ đệm của nó và chúng được
dùng để điền thêm một cách đều đặn vào các vị trí trống trong ảnh được khôi
phục.
Nén tín hiệu Video được thực hiện nhờ việc loại bỏ cả sự dư thừa về không
gian (Spatial Coding) và thời gian (Temporal Coding). Trong Mpeg, việc loại bỏ
dư thừa về thời gian (nén liên khung hình) được thực hiện trước hết nhờ sử dụng
các tính chất giống nhau giữa các khung hình liên tiếp (Inter-Picture). Chúng ta có
thể sử dụng tính chất này để tạo ra các khung hình mới nhờ vào những thông tin từ
những khung hình đã gửi trước nó. Do vậy ở phía bộ mã hoá, chỉ cần gửi những
khung hình có thay đổi so với những khung hình trước, sau đó dùng phương pháp
nén về không gian (Spatial Coding) để loại bỏ sự dư thừa về không gian trong
chính khung hình sai khác này. Nén về không gian dựa trên nguyên tắc là phát
hiện sự giống nhau của các điểm ảnh (pixel) lân cận nhau (Intra-Picture).
3.3.2 Kỹ thuật đệm
Kỹ thuật đệm một hình ảnh sẽ được thực hiện lặp đi lặp lại trên VOP để thực
hiện việc dự đoán chuyển động và bù chuyển động.
Mục đích của kỹ thuật này là để điều chỉnh tốc độ của luồng video mã hóa hay
điều chỉnh tốc độ nén video.
3.4 Giải mã MPEG-4 VOP
Một khối biểu đồ giải mã thông thường của các VOP được thể hiện trong hình
3.7. Các mạch giải mã bao gồm chủ yếu hai phần chính: giải mã hình ảnh , và giải
mã chuyển động. Các VOP được khôi phục thu được bởi sự kết hợp về hình dáng,
kết cấu và thông tin di động. Sự giống nhau của kỹ thuật giải mã là áp dụng khi tất
cả các VOPs là của một phiên bản. Các VOPs khôi phục trộn lẫn với nhau sau đó
được sắp xếp lại theo trình tự quy định của VOP, các thành phần được tổng hợp lại
để xây dựng lên video khung tổng hợp của các chuỗi.
16

Tiểu luận công nghệ MPEG4

Hình 3.7 : Cấu trúc giải mã VOP
3.5 Mã hóa theo lớp video
MPEG-4 cho phép mã hóa nhiều lớp của video. Những bit nén của VOP
trong chuỗi video bao gồm một số lớp, bao gồm các lớp cơ sở và một số (1 hoặc
nhiều hơn) về lớp tăng cường.
Các lớp cơ sở là rất cần thiết cho tái tạo lại các đoạn video, trong khi lớp tăng
cường đóng góp vào nâng cao chất lượng tại các bít bổ xung. Các tỉ lệ nén của lớp
tăng cường là sự kết hợp giữa hiệu quả mã hóa và chất lượng video. Tính hữu
dụng của mã hóa đa lớp được sản xuất trong một đoạn video mở rộng. Nếu các
kênh có thể xử lý theo tốc độ cao, nhiều lớp tăng cường được sử dụng để cải thiện
chất lượng dịch vụ. Ngược lại, trong tình huống như nghẽn mạng lưới liên kết, chỉ
có các cơ sở là lớp truyền để tránh nghẽn mạng và đảm bảo tối đa chất lượng của
video có thể thực hiện được. Các lớp nâng cao được hình thành bởi các dự đoán
bỏ qua các khung của chuỗi từ các mã lớp cơ sở, thông thường người ta sử dụng
lượng tử hóa
Tuy nhiên, chỉ có mã hóa lớp cơ sở thì sự giảm bit với một tỷ lệ không đáng
kể. Điều này nghĩa là đối với giới hạn băng thông của các kênh hoặc sự nghẽn
mạng khi quá trình truyền bit thấp, các lớp tăng cường có thể bỏ qua mà không
gây thiệt hại nghiêm trọng đến khôi phục chất lượng hình ảnh.
17
Tiểu luận công nghệ MPEG4

3.6 Đánh giá hiệu quả
Như ta đã biết , MPEG-4 mã hóa video theo định hướng đối tượng, mỗi VOP
được phát hiện trong một khung xem như là một tổ chức được mã hóa riêng biệt.
MPEG-4 sử dụng kỹ thuật chất lượng nâng cao như dự đoán 1/2 điểm ảnh chuyển
động, những dự đoán cao cấp và các chế độ véc tơ chuyển động không bị giới hạn.
Vì vậy,chúng ta sẽ kết luận rằng các cơ sở mã hóa video MPEG-4 cho kết quả dự

đoán tương tự chất lượng có được cung cấp bởi H.263. Lượng tử hóa theo mức
được giữ cố định trong suốt quá trình mã hóa để sản xuất một video chất lượng.
Tuy nhiên, nếu quá trình mã hóa là cần thiết để đạt được một tốc độ bit nhất định,
các nhà giải thuật áp dụng các quy định để đáp ứng các thuật toán trước khi xác
định tốc độ bit. Số lượng tham số cao (Qp) khung bỏ qua và chuyển động được dự
đoán chỉ có một số kỹ thuật được sử dụng để mã hóa chuỗi video theo một tỷ lệ cố
định. Hình 2.14 cho thấy chất lượng đạt được của bộ mã hóa video MPEG-4 cở sở
khi mã hóa các chuỗi ở 3 tốc độ bit khác nhau. Nâng cao chất lượng dự báo và
không bị giới hạn véc tơ chuyển động, cả hai chế độ này đều được sử dụng. Chất
lượng có thể so sánh được với ITU-T H.263 .
Mặt khác,sử dụng đối tượng theo định hướng khả năng của MPEG-4 yêu cầu
mã hóa các đường viền của mỗi VOP.
18
Hình 3.8 : Chất lượng đạt được của mã hóa video MPEG-4 cở sở khi mã hóa các
Suzie chuỗi ở 3 tốc độ bit khác nhau
(a) 128 kbit/s (b) 64kbit/s (c) 32kbit/s
Hình 3.9 Chất lượng đạt được của cả hai H.263 và MPEG-4 tại tốc độ 128 kbit / s
(a )baseline MPEG-4 (b) H263
IV.Chuẩn nén MPEG4-AVC
Mục tiêu chính của chuẩn nén MPEG4-AVC đang phát triển nhằm cung cấp
Video có chất lượng tốt hơn nhiều so với những chuẩn nén Video trước đây. Điều
này có thể đạt được nhờ sự kế thừa các lợi điểm của các chuẩn nén Video trước
đây. Không chỉ thế, chuẩn nén MPEG4-AVC 64 còn kế thừa phần lớn lợi điểm
của các tiêu chuẩn trước đó là H.263 và MPEG-4 bao gồm 4 đặc điểm chính như
sau:
Phân chia mỗi hình ảnh thành các Block (bao gồm nhiều điểm ảnh), do vậy quá
trình xử lý từng ảnh có thể được tiếp cận tới mức Block. Khai thác triệt để sự dư
thừa về mặt không gian tồn tại giữa các hình ảnh liên tiếp bởi một vài mã của
những Block gốc thông qua dự đoán về không gian, phép biến đổi, quá trình lượng
tử và mã hoá Entropy (hay mã có độ dài thay đổi VLC).

Khai thác sự phụ thuộc tạm thời của các Block của các hình ảnh liên tiếp bởi
vậy chỉ cần mã hoá những chi tiết thay đổi giữa các ảnh liên tiếp. Việc này được
thực hiện thông qua dự đoán và bù chuyển động. Với bất kỳ Block nào cũng có thể
được thực hiện từ một hoặc vài ảnh mã hoá trước đó hay ảnh được mã hoá sau đó
để quyết định véc tơ chuyển động, các véc tơ này được sử dụng trong bộ mã hoá
và giải mã để dự đoán các loại Block.
Khai thác tất cả sự dư thừa về không gian còn lại trong ảnh bằng việc mã các
block dư thừa. Ví dụ như sự khác biệt giữa block gốc và Block dự đoán sẽ được
mã hoá thông qua quá trình biến đổi, lượng tử hoá và mã hoá Entropy.
4.1. Cơ chế nén ảnh của MPEG-4 AVC (H.264)
Với chuẩn nén H.264, mỗi hình ảnh được phân chia thành nhiều Block, mỗi
block tương ứng với một số lượng nhất định các MacroBlock.
Ví dụ một hình ảnh có độ phân giải QCIF (tương đương với số lượng điểm ảnh
176x144) sẽ được chia thành 99 MacroBlock với kích cỡ 16x16. Một sự phân
đoạn các MacroBlock tương tự được sử dụng các kích cỡ ảnh khác. Thành phần
chói của ảnh được lấy mẫu tương ứng với độ phân giải của ảnh đó, trong khi đó
thành phần màu CR và CB được lấy mẫu với tần số thấp hơn theo 2 chiều ngang
và dọc. Thêm vào đó mỗi hình ảnh có thể được phân thành số nguyên lần các lát
mỏng (slice), việc này rất có giá trị cho việc tái đồng bộ trong trường hợp lỗi dữ
liệu.
Mỗi hình ảnh thu được được xem như một ảnh I. Ảnh I là ảnh được mã hoá bởi
việc áp dụng trực tiếp các phép biến đổi lên các MacroBlock khác nhau trong ảnh.
Các ảnh I được mã hoá sẽ có kích cỡ lớn bởi nó được xây dựng từ một khối lượng
lớn thông tin của bản thân ảnh hiện tại mà không sử dụng bất cứ thông tin nào từ
miền thời gian trong quá trình xử lý mã hoá để tăng hiệu quả xử lý mã hoá bên
trong trong H.264.
4.1.1. Giảm bớt độ dư thừa
Cũng giống như các bộ lập giải mã khác, H.264 nén video bằng cách giảm bớt
độ dư thừa cả về không gian và thời gian trong hình ảnh. Những dư thừa về mặt
thời gian là những hình ảnh giống nhau lặp đi lặp lại từ khung (frame) này sang

khung khác, ví dụ như phần phông nền không chuyển động của một chương trình
đối thoại trên truyền hình. Dư thừa về không gian là những chi tiết giống nhau
xuất hiện trong cùng một khung, ví dụ như nhiều điểm ảnh giống nhau tạo thành
một bầu trời xanh. Hình 1 biểu diễn một cách sơ lược các bước mà bộ lập giải mã
MPEG-4 phải tiến hành để nén không gian và thời gian.
4.1.2. Nén theo miền thời gian
Khi bộ mã hoá đang hoạt động ở chế độ "giữa khối" (inter), khối này sẽ phải
qua công đoạn hiệu chỉnh chuyển động. Quá trình này sẽ phát hiện ra bất kỳ
chuyển động nào diễn ra giữa khối đó và một khối tương ứng ở một hoặc hơn một
ảnh tham chiếu đã được lưu trữ từ trước, sau đó tạo ra một khối "chênh lệch" hoặc
"lỗi". Thao tác này sẽ giảm bớt dữ liệu trong mỗi block một cách hiệu quả do chỉ
phải trình bày chuyển động của nó mà thôi. Tiếp đến là công đoạn biến đổi côsin
rời rạc (DCT) để bắt đầu nén theo miền không gian. Khi bộ mã hoá hoạt động ở
chế độ "trong khối" (intra), khối này sẽ bỏ qua công đoạn hiệu chỉnh chuyển động
và tới thẳng công đoạn DCT.
Hình 1. Sơ đồ khối mã hoá MPEG, đường đứt nét đặc trưng cho phần bổ sung của
MPEG-4 AVC trong việc nén theo miền không gian.
4.1.3. Nén theo miền không gian
Các khối thường có chứa các điểm ảnh tương tự hoặc thậm chí giống hệt nhau.
Trong nhiều trường hợp, các điểm ảnh thường không thay đổi mấy (nếu có). Như
vậy có nghĩa là tần số thay đổi giá trị điểm ảnh trong khối này là rất thấp. Những
khối như thế được gọi là khối có tần số không gian thấp. Bộ lập mã lợi dụng đặc
điểm này bằng cách chuyển đổi các giá trị điểm ảnh của khối thành các thông tin
tần số trong công đoạn biến đổi côsin rời rạc.
* Biến đổi cosin rời rạc:
Công đoạn DCT biến đổi các giá trị điểm ảnh của khối thành một ma trận gồm
các hệ số tần số ngang, dọc đặt trong không gian tần số. Khi khối ban đầu có tần
số không gian thấp, DCT sẽ tập hợp phần lớn năng lượng tần số vào góc tần số
thấp của mạng. Nhờ vậy, những hệ số tần số thấp ở góc đó sẽ có giá trị cao hơn.
Một số lượng lớn các hệ số khác còn lại trên ma trận đều là các hệ số có tần số

cao, năng lượng thấp và có giá trị thấp. Hệ số DC và một vài hệ số tần số thấp sẽ
hàm chứa phần lớn thông tin được mô tả trong khối ban đầu. Điều này có nghĩa là
bộ lập mã có thể loại bỏ phần lớn hệ số tần số cao còn lại mà không làm giảm
đáng kể chất lượng hình ảnh của khối.
Bộ lập mã chuẩn bị các hệ số cho công đoạn này bằng cách quét chéo mạng
lưới theo đường zig-zag, bắt đầu từ hệ số DC và qua vị trí của các hệ số ngang dọc
tăng dần. Do vậy nó tạo ra được một chuỗi hệ số được sắp xếp theo tần số.
* Lượng tử hoá và mã hoá entropy:
Tại đây thao tác nén không gian mới thực sự diễn ra. Dựa trên một hệ số tỷ lệ
(có thể điều chỉnh bởi bộ mã hoá), bộ lượng tử hoá sẽ cân đối tất cả các giá trị hệ
số. Do phần lớn hệ số đi ra từ DCT đều mang năng lượng cao nhưng giá trị thấp
nên bộ lượng tử hoá sẽ làm tròn chúng thành 0. Kết quả là một chuỗi các giá trị hệ
số đã được lượng tử hoá bắt đầu bằng một số giá trị cao ở đầu chuỗi, theo sau là
một hàng dài các hệ số đã được lượng tử hoá về 0. Bộ lập mã entropy có thể theo
dõi số lượng các giá trị 0 liên tiếp trong một chuỗi mà không cần mã hoá chúng,
nhờ vậy giảm bớt được khối lượng dữ liệu trong mỗi chuỗi.
4.2. Các ưu điểm nổi bật của chuẩn nén MPEG4-AVC
4.2.1. Ưu điểm của nén không gian
Chuẩn nén MPEG-4 AVC có hai cải tiến mới trong lĩnh vực nén không gian.
Trước hết, bộ lập mã này có thể tiến hành nén không gian tại các macroblock
16x16 điểm ảnh thay vì các block 8x8 như trước đây. Điều này giúp tăng cường
đáng kể khả năng nén không gian đối với các hình ảnh có chứa nhiều khoảng lớn
các điểm ảnh giống nhau.
Thứ hai là thao tác nén được tiến hành trong miền không gian trước khi công
đoạn DCT diễn ra. Chuẩn nén MPEG-4 AVC so sánh macroblock hiện thời với
các macroblock kế bên trong cùng một khung, tính toán độ chênh lệch, và sau đó
sẽ chỉ gửi đoạn chênh lệch tới DCT. Hoặc là nó có thể chia nhỏ macroblock 16x16
điểm ảnh thành các khối 4x4 nhỏ hơn và so sánh từng khối này với các khối kế
bên trong cùng một macroblock. Điều này giúp cải thiện khả năng nén ảnh chi tiết.
4.2.2. Ưu điểm của nén thời gian

Điểm cải tiến lớn nhất ở MPEG-4 AVC là chế độ mã hoá giữa. Những phương
pháp tiên tiến ở chế độ này khiến cho nén thời gian đạt đến một cấp độ cao hơn
nhiều, cùng với chất lượng chuyển động tốt hơn so với các chuẩn MPEG trước
đây.
4.2.3. Kích cỡ khối
Ở chế độ giữa khối, MPEG-2 chỉ hỗ trợ các macroblock 16x16 điểm ảnh,
không đủ độ phân giải để mã hoá chính xác các chuyển động phức tạp hoặc phi
tuyến tính, ví dụ như phóng to thu nhỏ. Ngược lại, MPEG-4 AVC lại tăng cường
hiệu chỉnh chuyển động bằng cách cho phép bộ lập mã biến đổi kích cỡ thành
phần chói của mỗi macroblock. (Bộ lập mã sử dụng thành phần chói như vậy là do
mắt người nhạy cảm với chuyển động chói hơn nhiều so với chuyển động màu.)
Như có thể thấy trong Hình 2, MPEG-4 AVC có thể chia thành phần chói của từng
macroblock thành 4 cỡ: 16x16, 16x8, 8x16 hoặc 8x8. Khi sử dụng khối 8x8, nó
còn có thể chia tiếp 4 khối 8x8 này thành 4 cỡ nữa là 8x8, 8x4, 4x8 hoặc 4x4.
Hình 2. MPEG-4 AVC có thể phân chia thành phần chói của từng
MacroBlock theo nhiều cách để tối ưu hoá việc bù chuyển động. Việc phân
chia các macroblock cho phép bộ lập mã xử lý được một vài loại chuyển động tuỳ
theo độ phức tạp của chuyển động đó cũng như nguồn lực về tốc độ bit. Nhìn
chung, kích cỡ phân chia lớn phù hợp với việc xử lý chuyển động tại các khu vực
giống nhau trong ảnh, trong khi đó kích cỡ phân chia nhỏ lại rất có ích khi xử lý
chuyển động tại các chỗ có nhiều chi tiết hơn. Kết quả là chất lượng hình ảnh cao
hơn, ít bị vỡ khối hơn.
Các cuộc thử nghiệm đã chỉ ra rằng việc sắp xếp hợp lý các khung có thể tăng
tỷ lệ nén thêm 15%. MPEG-4 AVC lấy phần chói của ảnh gốc và sử dụng các
macroblock đã được chia nhỏ tại các khu vực có nhiều chi tiết nhằm tăng cường
khả năng hiệu chỉnh chuyển động.
* Độ chính xác trong hiệu chỉnh chuyển động:
Trong đa số trường hợp, chuyển động tại rìa mỗi macroblock hay khối thường
diễn ra với độ phân giải nhỏ hơn một điểm ảnh. Do vậy, chuẩn nén MPEG-4 AVC
có thể đảm bảo độ chính xác trong hiệu chỉnh chuyển động lên tới 1/4 hoặc 1/8

điểm ảnh, trong khi các chuẩn MPEG trước đây chỉ dừng lại ở mức 1/2 điểm ảnh.
Khả năng đạt mức chính xác 1/8 ảnh điểm của MPEG-4 AVC giúp tăng hiệu suất
mã hoá tại tốc độ bit cao và độ phân giải video cao. Các thử nghiệm cho thấy độ
chính xác đến 1/4 điểm ảnh có thể làm giảm tốc độ bit xuống hơn 15% so với độ
chính xác 1 điểm ảnh.
* Chọn nhiều hình tham chiếu:
Chuẩn nén MPEG-2 chỉ dựa trên 2 khung tham chiếu để dự đoán các chuyển
động mang tính chu kỳ, giống như trong trò kéo quân. Tuy nhiên, khi camera thay
đổi góc quay hay chuyển qua chuyển lại giữa các cảnh, việc chỉ sử dụng 2 khung
tham chiếu không còn phù hợp để dự đoán chính xác chuyển động. Tương tự như
vậy, để đoán trước các chuyển động phức tạp như sóng biển hay một vụ nổ, ta cần
phải có nhiều hơn 2 khung tham chiếu. Vì thế, chuẩn MPEG-4 AVC cho phép có
tới 5 khung tham chiếu phục vụ cho việc mã hoá giữa khung. Kết quả là chất
lượng video tốt hơn và hiệu suất nén cao hơn.
* Giải khối tích hợp:
Video số sau khi nén thường tạo ra một hiệu ứng gọi là "kết khối", có thể thấy
rõ tại điểm giao nhau giữa các khối, đặc biệt là khi có tốc độ bit thấp. Hiệu ứng
này là do công đoạn xử lý sử dụng nhiều loại chuyển động và bộ lượng tử khác
nhau. Đối với MPEG-2, cách duy nhất để ngăn chặn hiệu ứng này là sử dụng các
cơ chế hậu xử lý phù hợp, tuy nhiên các cơ chế này lại không tương thích được với
tất cả các máy thu. Chuẩn nén MPEG-4 AVC đưa vào sử dụng một bộ lọc giải
khối hoạt động ở hai cấp độ: macroblock 16x16 và khối 4x4. Việc giải khối
thường tạo ra một tỉ số tín hiệu trên nhiễu (PSNR) cực điểm thấp hơn, tuy nhiên
nhìn một cách chủ quan thì nó tạo ra hình ảnh chất lượng tốt hơn.

×