Tải bản đầy đủ (.docx) (60 trang)

PHƯƠNG PHÁP MÃ HÓA VIDEO THEO ĐỐI TƯỢNG ỨNG DỤNG TRONG CÁC HỆ THỐNG THÔNG TIN VIDEO NÉN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.37 MB, 60 trang )

BÁO CÁO CHUYÊN ĐỀ
PHƯƠNG PHÁP MÃ HÓA VIDEO THEO ĐỐI
TƯỢNG ỨNG DỤNG TRONG CÁC HỆ
THỐNG THÔNG TIN VIDEO NÉN


DANH SÁCH CÁC CHỮ VIẾT TẮT
STT
1
2
3
4
5
6
7

Từ viết tắt
MV
VOP
DCT
MSE
BM
SAD
MB

8
9

GOB

Diễn giải


Motion Vector - Vector chuyển động
Video Object Planes - Đối tượng video
Discrete Cosine Transform - Biến đổi cosin rời rạc
Mean Square Error - Sai số bình phương trung bình
Block Matchinh - Khối phù hợp
Sum of Absolute Difference - Tổng sự khác nhau tuyệt đối
Macro Block - Khối vĩ mô

FTTH

Groups Of Block - Nhóm các khối
Overlapped Block Motion Compensation - Sự bù chuyển động
khối
Motion Picture Experts Group - Nhóm các chuyên gia điện
ảnh
International Telecommunication Union - Hiệp hội viễn thông
quốc tế
International Standard Organisation - Tổ chức tiêu chuẩn quốc
tế
International Electrotechnical Commission - Ủy ban kỹ thuật
điện tử quốc tế
End Of Block - Khối kết thúc
Management Research Group - Nhóm quản lý nghiên cứu
Internet Protocol Television - Truyền hình Giao thức Internet
Mean Square Error - Sai số bình phương trung bình
Video on Demand - Video theo yêu cầu
Block Matchinh - Khối phù hợp
Fiber-To-The-Home - Mạng viễn thông bằng cáp quang được
nối đến tận nhà


21
22

ISDN
NGN

Integrated Services Digital Network - Mạng đa dịch vụ số
Next Generation Network - Dịch vụ truyền hình hội nghị

23
24
25

LAN
WAN
QP

Local Area Network - Mạng máy tính cục bộ
Wide Area Network - Mạng diện rộng
Quantization Parameter - Tham số lượng tử

OBMC
10
MPEG
11
ITU
12
ISO
13
14

15
16
17
18
19
20

IEC
EOB
MRG
IPTV
MSE
VOD
BM

2


DANH SÁCH CÁC HÌNH VẼ

MỤC LỤC

3


LỜI NÓI ĐẦU
Với sự phát triển của công nghệ thông tin, và cùng với đó là sự phát triển
ngày càng mạnh mẽ của các ứng dụng truyền thông đa phương tiện, đòi hỏi con
người không ngừng tìm tòi sáng tạo để đáp ứng kịp với xu thế phát triển ấy. Nhờ
vào sự phát triển của các ứng dụng truyền thông đa phương tiện mà chúng ta có

thể đưa âm thanh, hình ảnh, hay các đoạn video đi xa một cách nhanh chóng và
thuận tiện. Song với việc truyền tải một đoạn video có dung lượng lớn đi xa gặp
khá nhiều khó khăn bởi khả năng có hạn của kênh dẫn.Vì vậy các nhà sản xuất
đã áp dụng một số kỹ thuật nén để giúp tối ưu hóa các đoạn video trên, làm giảm
dung lượng phải truyền đi mà chất lượng hình ảnh tương đương với hình ảnh
gốc. Một trong các kỹ thuật nén được sử dụng rộng rãi đó là kỹ thuật nén chuyển
động mà tiêu biểu là chuẩn nén MPEG. Qua quá trình nghiên cứu các chuyên
gia đã cho ra đời chuẩn nén MPEG-4 với nhiều tính năng ưu việt và nó đã nhanh
chóng được ứng dụng rộng rãi trong hệ thống thông tin video nén MPEG-4 sử
dụng một phương pháp mã hóa video theo từng đối tượng thay vì mã hóa toàn
bộ cả một đoạn video, vì vậy dung lượng video được giảm đi đáng kể mà chất
lượng lại không có nhiều thay đổi .Vì vậy nhóm đã chọn đề tài nghiên cứu “
Phương pháp mã hóa video theo đối tượng ứng dụng trong các hệ thống thông
tin video nén” để đi sâu tìm hiểu kỹ thuật mã hóa trong chuẩn nén MPEG-4 này.
Đề tài nghiên cứu được chia làm 4 phần:
Chương 1 : Tổng quan về mã hóa video.
Chương 2 : Công nghệ mã hóa video trong MPEG-4.
Chương 3 : Ứng dụng .
Chương 4 : Mô phỏng Demo
Nhóm xin gửi lời cảm ơn tới Thầy giáo Vũ Tuấn đã hướng dẫn và giúp đỡ
nhóm thực hiện đề tài này. Và nhóm cũng xin gửi lời cảm ơn tới thầy cô giáo
trong bộ môn Công Nghệ Thông Tin và các bạn cùng lớp đã giúp đỡ nhóm trong
việc tìm kiếm thông tin, tài liệu, và các giáo trình tham khảo trong suốt quá trình
thực hiện đề tài này.
4


CHƯƠNG 1. TỔNG QUAN VỀ MÃ HÓA VIDEO
Mục đích nghiên cứu video nén theo hướng đối tượng


1.1

Tại sao chúng ta cần phải nén Video ?
Một video thường chứa một lượng lớn dữ liệu, do đó sẽ gặp rất nhiều khó
khăn trong việc lưu trữ và truyền đi trong một băng thông kênh truyền hạn chế.
Để có thể truyền trong một kênh truyền hình thông thường, tín hiệu video số cần
phải được nén trong khi vẫn phải đảm bảo chất lượng hình ảnh.
Để xem được một đoạn video mà chất lượng cao mà dung lượng không quá
lớn là một điều rất quan trọng và cần thiết. Đó là lí do phải sử dụng một công cụ
nén video nhằm giảm tối đa dung lượng của đoạn video mà chất lượng vẫn đáp
ứng được yêu cầu.
Nén video đạt được sự giới hạn băng thông cho phép để upload, lưu trữ
đoạn video lên trang web và download đoạn về một cách dễ dàng, tiện dụng
nhất, tối ưu được thời gian và năng lượng của thiết bị đầu cuối .
Thực chất của công nghệ ‘nén video’ là loại bỏ đi các thông tin dư thừa
như:


Độ dư thừa không gian giữa các pixel: giữa các điểm ảnh lân cận
trong phạm vi một bức ảnh hay một khung video, còn gọi là thừa



tĩnh bên trong từng frame.
Độ dư thừa thời gian do các ảnh liên tiếp nhau: giữa các điểm ảnh
của các khung video trong chuỗi ảnh video, còn gọi là thừa động



giữa các frame;

Độ dư thừa do các thành phần màu biễu diễn từng pixel có độ



tương quan cao.
Độ dư thừa thống kê do bản thân các kí hiệu xuất hiện trong dòng



bit với các xác suất xuất hiện không đều nhau.
Độ dư thừa tâm lý thị giác ( các thông tin nằm ngoài khả năng cảm
nhận của mắt ): thông tin không phù hợp với hệ thống thị giác con
5


người, những tần số quá cao so với cảm nhận của mắt con
người…
Mục đích nén video là :


Tiết kiệm băng thông kênh truyền ( trong thời gian thực hoặc



nhanh hơn)
Kéo dài thời gian sử dụng của thiết bị lưu trữ, giảm chi phí đầu tư



cho thiết bị lưu trữ.

Giảm dung lượng thông tin mà không làm mất tính trung thực của
hình ảnh.

Nhu cầu truyền phát dịch vụ Multimedia mới trên hạ tầng kỹ thuật mạng
Internet đã làm nảy sinh các yêu cầu chức năng không có trong các chuẩn
MPEG-1, MPEG-2, H.26X và các chuẩn nén video trước đó. Sự xuất hiện của
chuẩn MPEG-4 (10/1998) và H264 đã tạo ra một phương thức thiết lập và tương
tác mới với truyền thông nghe nhìn trên mạng internet, tạo ra một phương thức
sản xuất, cung cấp và ứng dụng mới các nội dung video trên cơ sở nội dung và
hướng đối tượng (content/object-based). Đây chính là một công nghệ trình diễn
truyền thông đa phương tiện phức hợp, có khả năng truyền thông trong các môi
trường băng thông rất khác nhau nhờ kết hợp tốt 3 môi trường:




Truyền hình số.
Đồ họa tương tác.
World Wide Web.

Tóm lại, nén video là điều luôn cần thiết trong việc bùng nổ của việc trao
đổi thông tin hiện nay với sự ra đời của nhiều chuẩn nén hiện nay như : JPEG,
M-JPEG, MPEG, DV…Trong đó chuẩn nén MPEG được sử dụng nhiều trong
nén video trong truyền hình.Và theo một thống kê không đầy đủ, thì hầu hết mọi
video trên internet đều đã được nén theo chuẩn MPEG-4. Nó có thể làm giảm
lượng thông tin không quan trọng một cách đáng kể, mặt khác nó còn giúp tín
hiệu được bảo mật hơn.

6



1.2

Tổng quan về chuẩn nén.

Hiệp hội viễn thông quốc tế (ITU) và tổ chức tiêu chuẩn quốc tế/ Uỷ ban kỹ
thuật điện tử quốc tế (ISO/IEC) là hai tổ chức phát triển các tiêu chuẩn mã hoá
Video. Theo ITU-T, các tiêu chuẩn mã hoá Video được coi là các khuyến nghị
gọi tắt là chuẩn H.26x (H.261, H.262, H.263 và H.264). Với tiêu chuẩn
ISO/IEC, chúng được gọi là MPEG-x (như MPEG-1, MPEG-2 và MPEG-4).
MPEG hay gọn hơn là MPG có xuất xứ từ Moving Picture Experts Group
(Nhóm các chuyên gia điện ảnh). Tổ chức ra đời hồi năm 1988 này chuyên phát
triển các tiêu chuẩn về nén phim số (Digital Video) và âm thanh số (Digital
Audio).
Cho đến nay nhóm làm việc MPEG đã phát triển và phát hành nhiều tiêu
chuẩn nén cho các loại ứng dụng khác nhau, nhưng nổi bật là các chuẩn MPEG1, MPEG-2, MPEG-4 và MPEG-4 AVC


Tiêu chuẩn MPEG-1
Xuất hiện vào 11/1192 là chuẩn khởi đầu cho phép nén các ảnh
động và là nền tảng phát triển cho các chuẩn nén MPEG sau đó. Nó
được coi là chuẩn “khởi động thiết bị số”. Phần phim ảnh của MPEG
1 sử dụng các phương pháp nén ảnh để làm giảm tốc độ dữ liệu theo
yêu cầu của một luồng phim ảnh. Phương pháp nén ảnh sẽ giảm hoặc
loại bỏ hoàn toàn thông tin dữ liệu trông một giải tần số nhất định và
các khu vực hình ảnh mà mắt người nhận biết một cách hạn chế. Các
thuật toán nén phim ảnh và các bộ mã hóa, giải mã đều kết hợp kỹ
thuật nén ảnh theo không gian và kỹ thuật bù đắp chuyển động theo
thời gian.MPEG 1 phần phim ảnh hỗ trợ độ phân giải lên đến
4095x4095 và tốc độ bít lên đến 100Mbit/s. Phần này thường sử dụng

độ phân giải SIF (Source input Format):352x240, 352x288, 320x240
kết hợp với tốc độ bit thấp tạo nên dòng dữ liệu bít thấp với thông số
hạn chế. Đảm bảo sự cân bằng giữa chất lượng phim ảnh và hiệu quả
sử dụng cho phép triển khai trên các hệ thống phần cứng có chi phí
7


không cao. Phần âm thanh được chia làm 3 lớp: phần âm thanh lớp 1
có tốc độ bít từ 32– 48 kbit/s, lớp 2 có tốc độ bít từ 32-384kbit/s, lớp 3
có tốc độ bít từ 32-320kbit/s. Một số định dạng têp tin như (.mp1),
(.mp2), (.mp3).
Chuẩn MPEG-1 được ứng dụng trong các phần mềm huấn luyện
bằng máy tính, các game hành động, video chất lượng VHS, Karaoke,
ứng dụng thiết kế CD âm thanh, trình chiếu video, truyền hình cáp/vệ
tinh kỹ thuật số. sử dụng làm tiêu chuẩn đĩa quang VCD.


Tiêu chẩn MPEG-2
Kỹ thuật nén MPEG-2 xuất hiện vào năm 1995, định nghĩa cho
một tiêu chuẩn kỹ thuật “truyền hình số”. nén ảnh phim ảnh MPEG-2
đạt tốc độ rất cao nhờ khai thác các thông tin dư thừa trong phim ảnh.
MPEG-2 loại bỏ cả sự dư thừa thời gian và dư thừa không gian xuất
hiện trong phim ảnh chuyển động. Dòng thừa thời gian phát sinh khi
khung hình kế tiếp của phim ảnh hiển thị hình ảnh của cùng một cảnh.
Nó có chung nội dung của một cảnh để giữ cố định hoặc thay đổi một
chút không hình kế tiếp. Dòng thừa không gian xảy ra do các vùng của
một bức hình được thay đổi rất nhỏ trong một khung hình duy nhất.
MPEG 2 định nghĩa một cơ chế mã hóa âm thanh theo nhiều định
dạng khác nhau tại các tốc độ bít khác nhau. MPEG-2 hỗ trợ truyền
hai loại dữ liệu đó là thông tin về phim ảnh, âm thanh, và dòng dữ liệu

được mang trên đường truyền MPEG-2 và dữ liệu riêng tư như thông
tin cho một người hoặc nhiều người cụ thể. MPEG-2 có thể tạo hình
ảnh với độ nét cao hơn và rõ hơn (720x480 và 1280x720) cho phép
mã hóa ở nhiều mức độ phân giải khác nhau đáp ứng cho nhiều ứng
dụng như 2-5Mbps trong SDTV và 6-8Mbps trong DVD, 20Mbps
trong HDTV. Chuẩn này có tốc độ bit lớn hơn 4Mbit/s. MPEG-2 là
đinh dạng sử dụng phổ biến trong truyền hình số mặt đất, truyền hình

8


cáp, truyền hình số vệ tinh DTH, định dạng đĩa quang kỹ thuật số
DVD.


Tiêu chuẩn MPEG-4
Phiên bản đầu tiên của MPEG-4 xuất hiện vào 2/1999. Cuối 1999
MPEG-4 v2 ra đời và trở thành tiêu chuẩn quốc tế vào năm 2000.
MPEG-4 định nghĩa một tiêu chuẩn cho các ứng dụng truyền thông đa
phương tiện , các hình ảnh, âm thanh và dữ liệu đồ họa và việc tái hợp
chúng trên thiết bị thu. MPEG-4 mã hóa video và audio ở tốc độ bit
rất thấp. Thực tế tiêu chuẩn đưa ra với 3 dãy tốc độ bit: dưới 64kbps;
64÷384kbps; 384Kbps÷4Mbps. MPEG-4 cho phép khôi phục lỗi tại
phía thu nên rất thích hợp cho các ứng dụng truyền qua môi trường sẽ
xảy ra lỗi như mobile, wireless…MPEG-4 cho phép giải mã luồng
text kết hợp với video và các thông tin trong luồng bit có thể hiện thị
nhiều dạng khác nhau tùy thuộc vào lựa chọn của người sử dụng nên
mang lại hiệu xuất cao.
Với MPEG-4, các đối tượng khác nhau trong một khung hình có
thể được mô tả, mã hoá và truyền đi một cách riêng biệt đến bộ giải

mã trong các dòng cơ bản ES (Elementary Stream) khác nhau. Cũng
nhờ xác định, tách và xử lý riêng các đối tượng (như nhạc nền, âm
thanh xa gần, đồ vật, đối tượng ảnh video như con người hay động
vật, nền khung hình …), nên người sử dụng có thể loại bỏ riêng từng
đối tượng khỏi khuôn hình. Sự tổ hợp lại thành khung hình chỉ được
thực hiện sau khi giải mã các đối tượng này. MPEG 4 được ứng dụng
trong IP TV, Video theo yêu cầu, Mobile TV, Truyền hình hội nghị…



Tiêu chuẩn H.264 (MPEG-4 AVC)
H.264 hiện đang là phương thức tiên tiến nhất trong lĩnh vực nén
video. H.264 là một chuẩn mã hóa và giải mã video và định dạng
video được dử dụng rộng rãi nhất hiên nay để ghi, nén và chia sẻ
video có độ phân giải cao, dựa trên việc bù trừ chuyển động trên từng
9


block. Nó cho chất lượng hình ảnh tốt nhất khi có cùng dung lượng so
với các chuẩn nén khác. MPEG-4 AVC cũng được ứng dụng như
thuật nén chính trong video độ phân giải cao (HD). Mã hóa video và
audio với tốc độ bit khoảng 64kbps-150Mbps.
1.3 Kĩ thuật mã hóa video nén theo hướng đối tượng MPEG-4 và ưu
điểm của nó
MPEG-4 được coi là một cuộc cách mạng mới trong media số. Nó là chuẩn
multimedia toàn cầu thế hệ kế tiếp. Nó được thiết kế để truyền tải video với chất
lượng DVD (MPEG-2) qua mạng. MPEG-4 có khả năng nén cao và tối ưu hóa
được dung lượng băng thông cũng như dung lượng file lưu trữ mà lại đưa ra chất
lượng video chập nhận được.
MPEG-4 có phương thức mã hóa và nén video hoàn toàn tối ưu hơn các

chuẩn khác trước nó đó là việc chia nhỏ mỗi lớp video thành các đối tượng riêng
biệt,Thay vì thực hiện truyền tải tất cả các lớp video như ở MPEG-2 thì MPEG4 chỉ truyền đi sự thay đổi trong mỗi đối tượng đã được tách ra. MPEG-4 ra đời
với khá nhiều tính năng ưu việt sau:
1.3.1 Tính đa năng và có khả năng nâng cấp
Các nhà thiết kế bộ mã hóa MPEG phải đối mặt với rất nhiều vấn đề
nhưng vấn đề quan trọng nhất là làm sao thiết kế được một thuật toán nén đa
năng ứng dụng cho nhiều hệ thống và có khả năng nâng cấp được trong tương
lai. Họ thường mong muốn có được các bộ mã hoá MPEG thích hợp cho nhiều
ứng dụng, từ TV màn ảnh rộng, chất lượng cao tới các hệ thống nhỏ, tín hiệu
video đen trắng cho các hệ thống camera an ninh. Hiển nhiên là một hệ thống
nén thiết kế dành cho các phim màn ảnh rộng phải có phần cứng mạnh, bộ nhớ
lớn hơn là một hệ thống được thiết kế cho hệ thống camera dành cho mục đích
an ninh. Các nhà thiết kế giải quyết vấn đề này bằng cách định nghĩa "Level" và
"Profile" cho hệ thống. Các "Level" xác định giới hạn khả năng xử lý của phần
10


cứng và bộ nhớ cần thiết để mã hoá tín hiệu. Các "Profile" xác định độ phức tạp
của quá trình mã hoá và giải mã.Đối với MPEG-4 thì có 9 profile (nhưng đối với
H.264 chỉ có 3 profile) như sau:


Simple Profiles (Profiles đơn giản ): chỉ cho phép các loại vật đơn
giản (tỷ lệ chiều cao/chiều rộng là tuỳ ý và tỷ lệ bít thấp) và được tạo
ra với các ứng dụng có độ phức tạp không cao trong việc nhận ra vật.
Ứng dụng Simple Profiles cho di động, truyền các hình ảnh Video có
độ phức tạp không cao trên Internet hay các thiết bị camera ghi các
hình ảnh động như: đĩa hay chip nhớ. Có 3 mức(Levels) được sử dụng
cho Simple Profiles với tốc độ bít vào khoảng 64-384 kb/s.




Simple Scalable Profile (Profiles phân mức đơn giản): có thể phân
chia việc mã hoá trong cùng một môi trường hoạt động như việc dự
đoán trước cho Simple và có 2 mức được định nghĩa ở Profiles này.



Core Profiles (Profiles lõi ) : dùng cho các dịch vụ tương tác chất
lượng cao, phối hợp chất lượng tốt với việc hạn chế độ phức tạp và hỗ
trợ tuỳ ý hình dạng của vật. Vì vậy các dịch vụ Broadcast di động
được hỗ trợ cho Profiles này. Tốc độ bít tối đa là 384kb/s cho mức 1
(Levels 1) và 2Mb/s cho mức 2 (Level 2).



Main Profile (Profiles chính ) : được tạo ra với các dịch vụ quảng bá
broadcast, địa chỉ hoá tiên tiến. Nó phối hợp chất lượng cao nhất với
tính linh hoạt của các vật có hình dạng tự do mà sử dụng đến thang
màu nâu để mã hoá. Mức cao nhất cho phép 32 vật (có nhiều mức) và
tốc độ bít lớn nhất là 38 Mb/s.



N-bít Profiles : hữu ích cho những vùng mà sử dụng những người mô
tả nhiệt độ(thermal imagers), như các ứng dụng kiểm soát. Vì vậy các
ứng dụng trong y học muốn sử dụng để làm tăng độ sâu của điểm ảnh
đưa ra một miền ảnh động lớn trong tín hiệu màu và tín hiệu chói.
11





Scalable Texture Profiles (Profiles phân mức kết cấu ): là giá trị
trung bình cho các ứng dụng âm thanh đồ hoạ. Nó được yêu cầu bởi
các công ty muốn xây dựng các thiết bị di động, mà có kết nối đồng
thời âm thanh và hình ảnh hiển thị, đồ hoạ có dạng thức BIFS cơ sở
trong các thiết bị đầu cuối rất đơn giản.



Simple Face Profiles (Profiles bề mặt đơn giản): chỉ cho các vật có
bề mặt đơn giản (các hoạt ảnh). Phụ thuộc vào từng mức, song trong
một khuôn hình tối đa có 4 bề mặt có thể xuất hiện. Tốc độ bít còn
thấp, 32 kb/s là đủ cho việc truyền tối đa 4 bề mặt.



Hybird Profiles (Profiles lai ghép): cho phép liên kết cả các vật tự
nhiên và nhân tạo trong cùng một khuôn hình mà vẫn giữ độ phức tạp
hợp lý.Với các vật tự nhiên, nó so sánh với Core Profiles, còn với các
vật nhân tạo, nó cộng gộp các hoạt ảnh lưới, kết cấu phân lớp và các
bề mặt hoạt ảnh - thiết lập nên bộ công cụ mà tạo ra sự lai ghép thú vị
nội dung của cácvật tự nhiên và nhân tạo. Profiles này được sử dụng
cho những nơi có vật thật trong thế giới nhân tạo hay ngược lại kết
hợp các vật thật vào trong môi trường tự nhiên.



Basic Animated Texture Profiles (Profiles kết cấu hoạt ảnh cơ

bản):cho phéphoạt ảnh của các hình ảnh tĩnh và các mặt hoạt ảnh.
Dùng cho các nội dung mà được tạo ra với tốc độ bít rất thấp.

Về khả năng nâng cấp của bộ mã hoá MPEG, họ thiết kế theo hai bước.
Bước thứ nhất là thay cho xác định chỉ tiêu của bộ mã hoá và giải mã, họ xác
định loại tín hiệu nằm giữa hai thiết bị này. Bước thứ hai là thực hiện các cải
tiến trong bộ mã hoá và giải mã mới sao cho nó tương thích với các chuẩn cũ
(backward compatible). Chuẩn MPEG có các qui tắc và giao thức cho tín hiệu
truyền giữa bộ mã hoá và giải mã. Các quy tắc này, thực chất giống như là một
loại ngôn ngữ dành riêng cho bộ mã hoá và giải mã. Các bộ mã hoá tương thích
12


phải có khả năng “nói” được ngôn ngữ này. Các bộ giải mã tương thích phải có
khả năng hiểu được toàn bộ các "từ vựng" mà bộ mã hoá đã phát ra trong một
ngữ cảnh nhất định. MPEG-4 thực hiện điều này bằng cách tạo ra một bộ các
công cụ dùng để nén tín hiệu trong các trường hợp khác nhau. Một trong các
công cụ này, chuyển đổi cosine rời rạc (DCT - discrete cosine transform), có
nhiệm vụ chuyển đổi một khối 8x8 pixel thành một tập các hệ số.
1.3.2 MPEG-4 đem lại công cụ nén mới
Ta hãy xem xét các cộng cụ nén mới mà chuẩn MPEG-4 mang tới lĩnh vực
nén ảnh. Hình 1.1 so sánh các công cụ của chuẩn MPEG-2 và MPEG-4.

Hình 1.1: Công cụ nén mới của MPEG-4 so với MPEG-2.

Chuẩn MPEG-4 đi xa hơn, theo hình 1.2, nó có thể dự đoán hệ số của toàn
bộ các khối trên một hàng hay hệ số của các khối ở cột bên trái từ một khối đầu
tiên.

13


Hình 1.2: MPEG4 có thể dự đoán các tham số trên hàng, cột


Việc dự đoán các hệ số của hàng hay của cột dựa trên nội dung của hình
ảnh. Ví dụ, một ảnh chứa một vật thể theo chiều đứng như cái cọc chẳng hạn.
Khi đó quét ảnh này theo chiều ngang sẽ tạo ra sự thay đổi lớn trong các hệ số
sau DCT khi gặp hình ảnh cái cọc này. Trái lại, khi quét theo chiều đứng thì các
khối nằm trong một cột có các hệ số DCT gần giống nhau, từ đó có thể nén với
tỉ lệ nén cao hơn.
MPEG-4 mở rộng cách dự đoán vector chuyển động. MPEG-4 có thể dự
đoán vector cho một macroblock (khối vĩ mô) từ các macroblock ở trên hay ở
bên trái, và nó chỉ gửi đi sự sai khác so với các vector cũ mà thôi. Do đó giảm đi
dữ liệu cần thiết dùng để mã hoá một vector, cho phép có thể dùng một vector
cho mỗi khối DCT. Việc dự đoán chuyển động sẽ tốt hơn với 4 vector, giảm nhỏ
lỗi khi dự đoán.
Chất lượng hình ảnh có thể được cải thiện đáng kể bằng cách dùng tỉ lệ nén
dữ liệu lớn hơn mà không cần thay đổi độ phân giải. MPEG không phải là một
công cụ nén đơn lẻ mà ưu điểm của nén MPEG chính là ở chỗ nó có một tập hợp
các công cụ mã hoá chuẩn, chúng có thể được kết hợp với nhau một cách linh
động để phục vụ cho một loạt các ứng dụng khác nhau, khả năng truyền dẫn tốt
trong môi trường truyền dẫn khắc nhiệt.
1.3.3 Tiểm năng của công nghệ MPEG-4.
MPEG-4 là chuẩn nén video được đánh giá là giàu tham vọng nhất. Các
nhà nghiên cứu muốn huy động các yếu tố như sự tổng hợp thoại và hình, hình
học bất quy tắc, trực quan máy tính và trí thông minh nhân tạo (AI) để tái tạo lại
các hình ảnh.
So với MPEG-1 và MPEG-2 thì MPEG-4 vượt trội hơn hẳn. Cụ thể:



MPEG-1 được thiết kế để mã hõa video với tốc độ 1,5 Mbps và chỉ thao



tác với các ảnh nguyên vẹn.
MPEG-2 được thiết kế nhằm hỗ trợ việc truyền video số tốc độ bit
lớn hơn 4 Mbps và cũng chỉ thao tác với các ảnh nguyên vẹn.
14


Hình 1.3:Đầu vào của bộ mã hóa MPEG-2


MPEG-4 cho phép sử dụng tốc độ bit lên đến 38.4 Mbps và việc xử
lý chất lượng studio cần các đặc tính và mức độ lên đến 1.2Gbps và có
thể làm việc được với các hình ảnh được tạo ra, hay đã được máy tính
xử lý.

Hình 1.4:Bộ mã hóa MPEG-4 có thể xử lý các lệnh đồ họa một cách trực tiếp

Chuẩn MPEG-4 có thể làm việc được với 4 loại đối tượng, như hình 1.5 .
Hình 1.5 cho thấy chuẩn MPEG-4 đã chuẩn hoá phương pháp truyền các đối
tượng 3 chiều nhờ các đối tượng lưới (mesh object), cùng với các phương tiện
ánh xạ bề mặt vật thể lên các đối tượng này, chuẩn này có thể xử lý các đối
tượng có hình dạng bất kỳ.

15


Hình 1.5 :MPEG4 đã chuẩn hóa phương pháp truyền các đối tượng 3 chiều

1.3.4 Audio, video và tất cả các đối tượng khác có thể được đồng bộ

chặt chẽ với độ chính xác cao và có khả năng tương tác.
Truyền thông multimedia theo dòng (Multimedia stream), trong đó dòng
audio và video sẽ được biến đổi thích nghi với yêu cầu băng thông và chất lượng
hình nhờ loại bỏ những đối tượng (hình ảnh, âm thanh) không cần thiết khỏi
dòng dữ liệu và đồng bộ các thông tin được nhúng trong dòng dữ liệu đó. Thêm
vào đó, MPEG-4 sẽ cho phép người sử dụng có khả năng tương tác trực tiếp với
dòng dữ liệu (dừng, tiến hay lùi nhanh, kích chuột để kích hoạt các tuỳ chọn
video và audio…).
Lưu giữ và phục hồi dữ liệu audio và video: do MPEG-4 phân chia các
khung hình thành các đối tượng, việc trình duyệt Browser trên cơ sở nội dung
(đối tượng) mong muốn sẽ được thực hiện một cách dễ dàng và nhờ vậy, các
ứng dụng lưu giữ hay phục hồi thông tin trên cơ sở nội dung MPEG-4 sẽ được
thuận lợi hơn.
Truyền thông báo đa phương tiện: các thông báo dưới dạng text, audio và
video MPEG-4 sẽ được truyền đi với yêu cầu băng thông ít hơn, và có khả năng
tự điều chỉnh chất lượng cho phù hợp với khả năng băng thông của thiết bị giải
mã.
Thông tin giải trí: những sự trình diễn nghe nhìn tương tác (thế giới ảo, trò
chơi tương tác …) có thể được triển khai trên cơ sở chuẩn MPEG-4 sẽ làm giảm
16


yêu cầu về băng thông và làm cho thế giới ảo trở nên sinh động và giống như
thực tế trên các trang web.

CHƯƠNG 2 :CÔNG NGHỆ MÃ HÓA VIDEO TRONG MPEG-4
MPEG-4 là sản phẩm của nhóm MPEG (Moving Picture Expert Group)
được thành lập tháng 1/1988 với nhiệm vụ phát triển các chuẩn xử lý, mã hoá và

hiển thị các ảnh động, audio và các tổ hợp của chúng.
Sản phẩm đầu tiên của nhóm này là MPEG-1 được sử dụng cho việc mã
hoá các dữ liệu nghe nhìn với tốc độ 1,5 Mbps. Sản phẩm thứ hai của nhóm là
chuẩn MPEG-2 nổi tiếng hiện nay, mang tính tổng quát hơn và đang được áp
dụng cho một loạt các ứng dụng nghe nhìn trong phạm vi tốc độ từ 3-40 Mbps.
Không giống các chuẩn MPEG trước đó, ví dụ như trong MPEG-2, nơi mà
nội dung được tạo ra từ nhiều nguồn như video ảnh động, đồ họa, văn bản…và
được tổ hợp thành chuỗi các khung hình phẳng, mỗi khung hình (bao gồm các
đối tượng như người, đồ vật, âm thanh, nền khung hình…) được chia thành các
phần tử ảnh pixels và xử lý đồng thời, giống như cảm nhận của con người thông
qua các giác quan trong thực tế. Các pixels này được mã hoá như thể tất cả
chúng đều là các phần tử ảnh video ảnh động. Tại phía thu của người sử dụng,
quá trình giải mã diễn ra ngược với quá trình mã hoá không khó khăn. Vì vậy có
thể coi MPEG-2 là một công cụ hiển thị tĩnh, và nếu một nhà truyền thông
truyền phát lại chương trình của một nhà truyền thông khác về một sự kiện, thì
logo của nhà sản xuất chương trình này không thể loại bỏ được. Với MPEG-2,
bạn có thể bổ xung thêm các phần tử đồ hoạ và văn bản vào chương trình hiển
thị cuối cùng (theo phương thức chồng lớp), nhưng không thể xoá bớt các đồ
hoạ và văn bản có trong chương trình gốc.
Chuẩn MPEG-4 khắc phục được hạn chế này và là một chuẩn động dễ thay
đổi. Với MPEG-4, các đối tượng khác nhau trong một khung hình có thể được
mô tả, mã hoá và truyền đi một cách riêng biệt đến bộ giải mã trong các dòng cơ
17


bản ES (Elementary Stream) khác nhau. Cũng nhờ xác định, tách và xử lý riêng
các đối tượng (như nhạc nền, âm thanh xa gần, đồ vật, đối tượng ảnh video như
con người hay động vật, nền khung hình …), nên người sử dụng có thể loại bỏ
riêng từng đối tượng khỏi khuôn hình. Sự tổ hợp lại thành khung hình chỉ được
thực hiện sau khi giải mã các đối tượng này.


Hình 2.1: Cấu trúc của bộ mã hoá và giải mã video MPEG-4

Các bộ phận chức năng chính trong các thiết bị MPEG-4 bao gồm:


Bộ mã hoá hình dạng ngoài Shape Coder dùng để nén đoạn thông tin,
giúp xác định khu vực và đường viền bao quanh đối tượng trong



khung hình scene.
Bộ dự đoán và tổng hợp động để giảm thông tin dư thừa theo thời



gian.
Bộ mã kết cấu mặt ngoài Texture coder dùng để xử lý dữ liệu bên
trong và các dữ liệu còn lại sau khi đã bù chuyển động.

2.1 Mã hóa hình dạng ngoài (shape coder)
Khung hình: là thành phần mã hoá chính của MPEG 4. Thường thì chúng
ta có thể phân biệt sự thay đổi về độ sáng của ảnh tốt hơn so với sự thay đổi về
màu sắc. Do đó trước hết các sơ đồ nén MPEG sẽ tiến hành chia khung hình
thành các thành phần độ sáng Y và hai thành phần độ màu Cb, Cr (một thành
phần về độ sáng và hai thành phần về độ màu) theo tỉ lệ 4/2/2. Cứ 4 giá trị Y lại

18



có 2 giá trị kết hợp một của Cb và một của Cr (Vị trí của giá trị Cb và Cr là
tương đương) như hình 2.1.

Hình 2.2: Kiến trúc khối Macroblock

Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệu
video và những thông tin khó mã hoá nhưng không quan trọng cho sự cảm thụ
của mắt người. Kỹ thuật đoán chuyển động dựa trên nguyên tắc là các khung
hình trong một cảnh video có liên quan mật thiết với nhau theo thời gian: Mỗi
khung hình tại một thời điểm nhất định sẽ có nhiều khả năng giống với các
khung hình đứng ngay phía trước và ngay phía sau nó. Do vậy ở phía bộ mã hoá,
chỉ cần gửi những khung hình có thay đổi so với những khung hình trước, sau
đó dùng phương pháp nén về không gian để loại bỏ sự dư thừa về không gian
trong chính khung hình sai khác này. Trong MPEG-4 đây là yếu tố ít có sự thay
đổi nhất, các bước mã hóa khung hình cũng tương tư như mã hóa ảnh. Thuật
toán mã hoá biến đổi gồm các bước :


Biến đổi Cosine rời rạc (DCT).
19





Lượng tử hoá.
Mã hóa.

2.1.1 Biến đổi Cosin rời rạc ( DCT )
Sơ đồ thuật toán nén và giải nén được mô tả dưới đây:


Hình 2.3: Sơ đồ thuật toán nén ảnh

Hình 2.4: Sơ đồ thuật toán giải nén ảnh

Quá trình nén ảnh sẽ được thực hiện như hình 2.3. Ảnh sẽ được chia thành
các khối vuông 8x8, rồi mới được đưa vào biến đổi DCT. Trước khi được mã
hóa ảnh sẽ được lượng tử hóa để loại bớt các thông tin dư thừa trong ảnh. Sau
khi đã lượng tử hóa ảnh được mã hóa và nén lại. Ảnh lúc này có dung lượng nhỏ
hơn so với ảnh gốc mà chất lượng ảnh vẫn được đảm bảo.
Quá trình giải nén sẽ được làm ngược lại như hình 2.4, người ta giải mã
từng phần ảnh nén tương ứng với phương pháp nén đã sử dụng trong phần nén
nhờ các thông tin liên quan ghi trong phần header của file nén. Kết quả thu được
20


là hệ số đã lượng tử. Các hệ số này được khôi phục về giá trị trước khi lượng tử
hóa bằng bộ tương tự hóa. Tiếp đó đem biến đổi Cosin ngược ta được ảnh ban
đầu với độ trung thực nhất định.Bảng mã và bảng lượng tử trong sơ đồ giải nén
được dựng lên nhờ những thông tin ghi trong phần cấu trúc đầu tệp ( Header)
của tệp ảnh nén. Quá trình nén chịu trách nhiệm tạo ra và ghi lại những thông tin
này.
Tiếp theo sẽ phân tích tác dụng của từng khối trong sơ đồ 2.3:


Phần khối :
Vì ảnh gốc có kích thước rất lớn cho nên trước khi đưa vào biến đổi
DCT, ảnh được phân chia thành các khối vuông, mỗi khối này thường
có kích thước 8 x 8 pixel và biểu diễn các mức xám của 64 điểm ảnh,
các mức xám này là các số nguyên dương có giá trị từ 0 đến 255. Việc

phân khối này sẽ làm giảm được một phần thời gian tính toán các hệ
số chung, mặt khác biến đổi cosin đối với các khối nhỏ sẽ làm tăng độ
chính xác khi tính toán với dấu phẩy tĩnh, giảm thiểu sai số do làm
tròn sinh ra. Biến đổi DCT là một công đoạn chính trong các phương
pháp nén có sử dụng sự biến đổi điểm ảnh. Hai công thức ở đây minh
hoạ cho hai phép biến đổi DCT thuận nghịch đối với mỗi khối ảnh có
kích thước 8 x 8. Giá trị x(n1, n2) biểu diễn các mức xám của ảnh trong
miền không gian, X(k1, k2) là các hệ số sau biến đổi DCT trong miền



tần số.
Công thức biến đổi :
Biến đổi điểm ảnh là một trong những công đoạn lớn trong các
phương pháp nén sử dụng phép biến đổi. Nhiệm vụ của công đoạn
biến đổi điểm ảnh là tập trung năng lượng vào một số ít các hệ số biến
đổi. Công thức biến đổi cho mỗi khối được biểu diễn như sau:

21

==

1/ khi k=0
0 khi 1

với

Thuật toán biến đổi DCT cho mỗi khối trong trường hợp này sẽ bao gồm
16 phép biến đổi DCT. Đầu tiên, người ta biến đổi nhanh Cosin một chiều cho

các dãy điểm ảnh trên mỗi hàng. Lần lượt thực hiện cho 8 hàng. Sau đó đem
biến đổi nhanh Cosin một chiều theo từng cột của ma trận vừa thu được sau 8
phép biến đổi trên. Cũng lần lượt thực hiện cho 8 cột. Ma trận cuối cùng sẽ là
ma trận hệ số biến đổi của khối tương ứng.Trong sơ đồ giải nén ta phải dùng
phép biến đổi Cosin ngược. Công thức biến đổi ngược cho khối 8x8 như sau :

Với :

2.1.2

==

1/ khi k=0
0 khi 1
Lượng tử hóa.
Khối lượng tử hóa trong sơ đồ nén đóng vai trò quan trong và quyết định tỉ
lệ nén của chuẩn nén MPEG. Đầu vào của khối lượng tử hóa là các ma trận hệ
số sau khi biến đổi Cosin rời rạc của các khối điểm ảnh. Sau khi thực hiện biến
đối DCT, 64 hệ số sẽ được lượng tử hoá dựa trên một bảng lượng tử gồm 64
phần tử Q(u,v) với 0≤u, v≤7. Bảng này được định nghĩa bởi từng ứng dụng cụ
thể. Các phần tử trong bảng lượng tử có giá trị từ 1 đến 255 được gọi là các
bước nhảy cho các hệ số DCT. Quá trình lượng tử được coi như là việc chia các
hệ số DCT cho bước nhảy lượng tử tương ứng, kết quả này sau đó sẽ được làm
tròn xuống số nguyên gần nhất.

22


Công thức (3) thể hiện việc lượng tử với F(u,v) là các hệ số DCT, FQ(u,v)

là các hệ số sau lượng tử, các hệ số này sẽ được đưa vào bộ mã hoá Entropy để
mã hóa.

(3)
Quá trình giải lượng tử ở phía bộ giải mã được thực hiên ngược lại. Các hệ
số sau đã giải mã entropy sẽ nhân với các bước nhảy trong bảng lượng tử (bảng
lượng tử được đặt trong phần header của ảnh JPEG). Kết quả này sau đó sẽ được
đưa vào biến đổi DCT ngược. Để nâng cao hiệu quả nén cho mỗi bộ hệ số trong
một khối, người ta xếp chúng lại theo thứ tự ZigZag. Tác dụng của sắp xếp lại
theo thứ tự ZigZag là tạo ra nhiều loại hệ số giống nhau. Chúng ta biết rằng
năng lượng của khối hệ số giảm dần từ góc trên bên trái xuống góc dưới bên
phải nên việc sắp xếp lại các hệ số theo thứ tự ZigZag sẽ tạo điều kiện cho các
hệ số xấp xỉ nhau cùng mức lượng tử nằm trên một dòng.

Hình 2.5 : Ví dụ về các bước của quá trình biến đổi DCT và
lượng tử hóa

Mỗi khối ZigZag này được mã hóa theo phương pháp RLE. Cuối mỗi khối
đầu ra của RLE, ta đặt dấu kết thúc khối EOB (End Of Block). Sau đó, các khối
23


được dồn lại và mã hóa một lần bằng phương pháp mã Huffman. Nhờ có dấu kết
thúc khối nên có thể phân biệt được hai khối cạnh nhau khi giải mã Huffman.
Hai bảng mã Huffman cho hai thành phần hệ số tất nhiên sẽ khác nhau. Để có
thể giải nén được, chúng ta phải ghi lại thông tin như: kích thước ảnh, kích
thước khối, ma trận Y, độ lệch tiêu chuẩn, các mức tạo lại, hai bảng mã
Huffman, kích thước khối nén một chiều, kích thước khối nén xoay chiều…và
ghi nối tiếp vào hai file nén của thành phần hệ số.
2.1.3 Mã hóa


Mã hoá là bước cuối cùng trong hệ thống nén ảnh dựa trên biến đổi DCT.
MPEG 4 chia video ra thành các khung hình và nén khung hình theo chuẩn nén

Hình 2.6: Đường ZicZig

ảnh JPEG.
Hiện nay, chuẩn nén ảnh JPEG dùng phương pháp mã hoá Huffman, đây
là phép mã hoá không làm mất thông tin. Phương pháp này dựa trên mô hình
thống kê. Dựa vào dữ liệu gốc, người ta tính tần suất xuất hiện các hệ số. Việc
tính tần suất được thực hiện bằng cách duyệt tuần tự từ đầu khối đến cuối khối,
sau đó, những hệ số có tần suất cao được gắn cho một từ mã ngắn, các hệ số có
tần suất thấp được gán một từ mã dài. Với cách thức này chiều dài trung bình
của từ mã đã giảm xuống.

24


Các hệ số thu được sau khi lượng tử hoá sẽ được sắp xếp thành một chuỗi
các ký hiệu theo kiểu “zig-zag” (theo đường zig-zag) để đặt các hệ số có tần số
thấp lên trước các hệ số tần số cao. Các hệ số này sẽ được mã hoá dựa trên bảng
mã Huffman sao cho chiều dài trung bình của từ mã là nhỏ nhất. Bảng mã này
cũng sẽ được đặt trong phần mào đầu của ảnh để thực hiện giải nén ảnh.
Thuật toán mã hóa Huffman :
Bài toán : Có một bảng tin là dãy các ký hiệu lấy trong một tập hữu hạn A.
Mỗi ký hiệu xuất hiện trong bản tin theo một tần xuất đã biết. Hãy xây dựng bộ
mã tiền tố cho tập A sao cho độ dài chuỗi mã là ngắn nhất.
Các bước xây dựng cây nhị phân để tạo ra bảng mã Huffman như sau:



Bước 1: Xây dựng rừng T có l cây, mỗi cây chỉ gồm một đỉnh tương ứng
với một kí hiệu x trong A và được gán nhãn .



Bước 2 : Chọn hai cây trong T có gốc với nhãn là nhỏ nhất. Thêm một
đỉnh mới với nhãn lớn hơn hoặc là tổng các nhãn của hai cây gốc vừa
chọn. Nối đỉnh mới với hai gốc này bằng hai cạnh có nhãn 0,1 để tạo
thành một cây nhị phân.



Bước 3: Nếu T vẫn chưa phải là một cây nhị phân thì lặp lại bước 2,
ngược lại thì dừng.
Ví dụ về xây dựng bộ mã Huffman :
Xét bản tin gồm 1000 ký hiệu trong tập ký hiệu A = {a,b,c,d,e} với tần

xuất xuất hiện của các ký hiệu trong bảng sau:

Ký hiệu
Tần Xuất

a
23

b
44

c
17

25

d
4

e
12


×