Tải bản đầy đủ (.doc) (90 trang)

Tiểu luận môn truyền thông đa phương tiện multimedia

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.24 MB, 90 trang )

MỤC LỤC
MỤC LỤC........................................................................................................................................................................... 1
DANH MỤC BẢNG BIỂU....................................................................................................................................................3
DANH MỤC CÁC HÌNH VẼ.................................................................................................................................................3
Lời nói đầu........................................................................................................................................................................ 7
CÁC THUẬT NGỮ VIẾT TẮT................................................................................................................................................8
Chương I........................................................................................................................................................................... 9
1.1 sự xuất hiện............................................................................................................................................................9
CHƯƠNG 5 : MPEG-4 VISUAL..........................................................................................................................................17
5.1 GIỚI THIỆU............................................................................................................................................................17
5.2 TỔNG QUAN VỀ MPEG-4 VISUAL (Nén video tự nhiên)........................................................................................18
5.2.1 Tính năng.......................................................................................................................................................18
5.3.2 Công cụ, các đối tượng, đặc tính và các mức độ ...........................................................................................18
5.2.3 các đối tượng video.......................................................................................................................................22
5.3 Mã hóa khung hình chữ nhật............................................................................................................................23
5.3.1 Đầu vào và đầu ra định dạng video................................................................................................................25
5.3.2 Các Profile đơn giản ......................................................................................................................................26
5.3.2.1 Lõi video Bit tốc độ cực nhỏ .......................................................................................................................26
5.3.2.2 Các công cụ mã hóa cơ bản ........................................................................................................................27
5.3.2.4 công cụ Truyền dẫn hiệu suất....................................................................................................................34
5.3.3 Các chi tiết profile đơn giản ..........................................................................................................................36
5.3.4 Các chi tiết Profile thời gian thực đơn giản ...................................................................................................42
5.4 Mã hóa vùng và hình dạng tùy biến......................................................................................................................44
5.4.1 Core Profile....................................................................................................................................................46
5.4.1.1 Mã hóa Khuôn hình nhị phân......................................................................................................................47
1


5.4.1.1 Mã hóa bù chuyển động cho hình dạng tùy biến VOPs...............................................................................50
5.4.2 Phần nội dung chính......................................................................................................................................54
5.4.2.1 Mã hóa hình xám........................................................................................................................................55


5.4.2.2 Mã hóa hình tĩnh.........................................................................................................................................60
5.4.4 Phần n-bit.......................................................................................................................................................65
5.5 Mã hóa video mở rộng..........................................................................................................................................66
5.5.1 Khả năng mở rộng không gian.......................................................................................................................67
5.5.2 Khả năng mở rộng thời gian...........................................................................................................................69
5.5.3 Khả năng mở rộng hình tốt............................................................................................................................70
5.5.4 Mã hóa liên kết rút gọn..................................................................................................................................73
5.5.5 Mã liên kết.....................................................................................................................................................74
5.5.6 Khả năng mở rộng phần thu nhỏ...................................................................................................................74
5.6 Kết cấu mã hóa.....................................................................................................................................................74
5.6.1 Kết cấu mã hóa liên kết..................................................................................................................................78
5.6.2 Kết cấu mã hóa liên kết nâng cao...................................................................................................................78
5.7 MÃ HÓA ÂM THANH- CHẤT LƯỢNG HÌNH ẢNH...................................................................................................78
5.7.1 Phần âm thanh đã được nén..........................................................................................................................78
5.7.2 Các file âm thanh gốc.....................................................................................................................................80
5.8 MÃ HÓA TRƯỜNG HÌNH ẢNH TỔNG HỢP.........................................................................................................80
5.8.1 Lưới mã hóa 2D và 3D....................................................................................................................................81
5.8.2 Mặt và hình dạng ảnh động...........................................................................................................................81
5.9 KẾT LUẬN..............................................................................................................................................................82
5.10 TÀI LIỆU THAM KHẢO..........................................................................................................................................82
Chương VIII: Các ứng dụng và định hướng.....................................................................................................................84

2


DANH MỤC BẢNG BIỂU
Bảng 5.1 MPEG-4 Visual Hình ảnh để mã hóa video tự nhiên.
Bảng 5.2 Đặc tính MPEG-4 Visual để mã hóa tổng hợp hoặc Video Lai.
Bảng 5.3 các mức cấu hình cơ bản.
Bảng 5.4 giá trị của các thành phần dc_scaler trong vùng QP.

Bảng 5.5

Trọng số ma trận Ww.

Bảng 5.6 Hệ số dư còn lại( độ lớn).
Bảng 5.7 Giá trị nén.
Bảng 5.9 Zero- cây ký hiệu mã hóa.

DANH MỤC CÁC HÌNH VẼ
Hình 1.1 video khung ( cho thấy ví dụ của các vùng đồng nhất )
Hình 1.2 khung Video ( thấp qua nền lọc )
Hình 1.3 video frame 2
Hình 5.1 Các đặc tính và đối tượng của MPEG-4 Visual
Hình 5.2

VOPs và VO (khung hình chữ nhât)

Hình 5.3

VOPs and VO (hình dạng tùy biến)

Hình 5.4

Video scene liên kết 3 VOs

Hình 5.5

Video cảnh sáng tác của VOS từ các nguồn riêng biệt

Hình 5.6


Các công cụ và thành phần dùng để mã hóa khung ảnh chữ nhật

Hình 5.7 Chuẩn nén I-VOP và các bước giải mã
Hình 5.8 Chuẩn nén P-VOP và các bước giải mã
Hình 5.9 một hoặc 4 vector chuyển động trong 1khối macro
Hình 5.10

VOP tham chiếu và VOP hiện tại

Hình 5.11 VOP tham chiếu ngoại suy vượt ranh giới
3


Hình 5.12 Macroblock được mã hóa trong chế độ nội
Hình 5.13

Hệ số DCT (luma blocks)

Hình 5.14

Dự đoán hệ số DC

Hình 5.15

Dự đoán hệ số AC

Hình 5.16

Không gian và thời lan truyền lỗi


Hình 5.17

Cấu trúc gói tin video

Hình 5.18

Khôi phục lỗi sử dụng RVLCs

Hình 5.19 Chế độ dự báo cho B-VOP
Hình 5.20 chế độ trực tiếp vectors
Hình 5.21

VOP, GMVs và vector nội suy

Hình 5.22

GMC (Bù cho vòng quay)

Hình 5.23

GMC (bù cho phóng to camera )

Hình 5.24 VOP kín và xen kẽ
Hình 5.25

dòng DCT

Hình 5.26


xử lý lỗi NEWPRED

Hình 5.27 Giảm một nửa độ phân giải của macroblock
Hình 5.28

các công cụ và đối tượng cho mã hóa hình dạng

Hình 5.29 VO hiển thị vùng ngoài (1), bên trong (2) và ranh giới (3) macroblocks
Hình 5.30 VOP
Hình 5.31

mặt nạ anpha nhị phân (VOP hoàn chỉnh)

Hình 5.32

ranh giới macroblock

Hình 5.33: mặt nạ anpha nhị phân (ranh giới MB)
Hình 5.34

bối cảnh mẫu cho BAB nội

Hình 5.35

Mẫu bối cảnh cho BAB

Hình 5.36 Ví dụ về các lĩnh vực tài liệu tham khảo có chứa điểm ảnh trong suốt
Hình 5.37 đệm ngang và dọc trong MB ranh giới
Hình 5.38 Ranh giới MB
Hình 5.39 MB ranh giới sau khi đệm ngang

4


Hình 5.40 MB ranh giới sau khi đệm dọc cạnh pixel
Hình 5.41 Đệm của MB trong suốt từ các điểm lân cận
Hình 5.42 Mặt nạ alpha màu xám quy mô cho MB ranh giới
Hình 5.43 MB ranh giới với tính trắng xám
Hình 5.44 Video cảnh với đối tượng nhị phân-alpha (trái) và đối tượng màu xám-alpha (bên phải)
Hình 5.45 Video cảnh với đối tượng bán trong suốt
Hình 5.46 Chuỗi các khung
Hình 5.47 Bối cảnh nền
Hình 5.48 Hình nền và ba điểm ảnh khác nhau
Hình 5.49 Hình có độ trễ thấp: giải mã I-VOP
Hình 5.50 Hình độ trễ thấp : tĩnh-hình-đối tượng mảnh
Hình 5.51 Hình độ trễ thấp: Nội dung đệm(1)
Hình 5.52 Hình độ trễ thấp : tĩnh-hình-cập nhật mảnh
Hình 5.53: Hình độ trễ thấp: Nội dung đệm(2)
Hình 5.54: Hình độ trễ thấp: Nội dung đệm(3)
Hình 5.55: Hình thích ứng DCT
Hình 5.56 Công cụ và đối tượng cho khả năng mở rộng mã hóa
Hình 5.57 Mã hóa mở rộng: Khái niệm chung
Hình 5.58 Khung hình video gốc
Hình 5.59 Sub-lấy mẫu khung được mã hóa như là lớp cơ sở
Hình 5.60 Khung lớp cơ sở (được giải mã và up lên)
Hình 5.61 Còn lại sẽ được mã hóa như lớp tăng cường
Hình 5.62 Tăng cường thời gian P-VOP lựa chọn dự đoán
Hình 5.63 Tăng cường thời gian B-VOP lựa chọn dự đoán
Hình 5.64 Sơ đồ khối bộ mã hóa FGS (đã được rút gọn)
Hình 5.65 Khối block dư (góc trên bên trái)
Hình 5.67 Công cụ và đối tượng cho kết cấu mã hóa

Hình 5.68 Sơ đồ khối biên độ song
5


Hình 5.69 Quét sơ đồ cây
Hình 5.70 dải tần số quét
Hình 5.72 Sự thay đổi cấu trúc macrobock(4:2:2 và 4:4:4 video)
Hình 5.73 Ví dụ cấu trúc dải
Hình 5.74 Công cụ và mô hình

6


Lời nói đầu
Trong vòng vài năm trở lại dây chúng ta nghe nói rất nhiều dấn từ multimedia. Vậy, một cách
chính xác, multimedia là gì? Từ lâu thuật ngữ media dùng để chỉ các thực thể như là chiếc máy
truyền th ảnh. máy truyền hình, nghĩa là không phải nói đến một vật mang thông tin đơn thuần, mà là
một hệ thống tương đối phức tạp, có cơ cấu, có đối tượng nhắm tới. Loại truyền thông trực tiếp, từ
miệng người này đến tai người kia, không sử dụng thành phần (media) trung gian. Không khí truyền
các chấn động âm thanh không phải là một media. mà chỉ là một vật mang vật là làm công việc tái
thông tin. Nếu dùng một máy cassette audio để ghi lời của người nói, nội dung trong cassette không
thể đến người nghe bằng cách truy xuất trực tiếp, phải nhờ đến một hệ thống vật lý khác: máy đọc
cassette. Nếu để rời, cassette này chỉ được xem là một vật mang. Nếu gộp cùng máy đọc cassette. thì
đấy là một hệ thống truyền thông, một media. Media có mục đích là phát, truyền thông tin. không
đòi hỏi chỉ bằng cách nghe và nhìn. Một tờ giấy in chữ nổi cho người mù. đòi hỏi sự sờ mó. Một tấm
chức postalc có nhạc và mùi hương, đòi hỏi cùng lúc sự nhìn, nghe và ngửi. Bằng chừng ấy, chúng ta
có thể nói đến một sự truyền thông đa phương tiện. Và như vật, từ multimedia xuất hiện kèm với
nhiều d ảnh từ chung khác: centre de ressource multimedia (trung tâm tài nguyên đa phương tiện),
post de formation multimedia (trạm đào tạo đa phương tiện), multimedia training (huấn luyện bằng
đa phương tiện), multimedia personal computer MDC (máy tính cá nhân với đa phương tiện), digital

multimedia system (hệ thống đa phương tiện dạng số...). Trong nội dung môn học này chúng ta sẽ
nghiên cứu các khái niệm cơ bản về Multimedia. hiểu được các ứng dụng rỗng rãi của Multimedia
trong đời sống: các yêu cầu và xu hướng phát triển ứng dụng hiện nay của Multimedia, các cấu trúc
thiết kế ứng dụng và các bước cần thiết để xây dựng ứng dụng đa phương tiện, nắm bắt được một số
công cụ có sẵn trong thực tế để thiết kế các ứng dụng Multimedia.

7


CÁC THUẬT NGỮ VIẾT TẮT
Từ viết
tắt
ACE
BAB
BDPs
CAE
CODEC
DCT
DPCM
DRC
DWT
FBA
FAPs
FDPs
GMC
GOBs
ISO/IEC
ITU-T
MCP
MCR

MPEG-2
MPEG-4
SNHC
OBMC

PQDCx
QCIF or
CIF
QDCx
RVLCs
VLBV
VLCs
VO
VOP
VOPs

Nghĩa tiếng Anh

Nghĩa tiếng Việt

Advanced Coding Efficiency
The binary alpha mask
Body Definition Parameters
Arithmetic Encoding
Compressor- decompressor
Discrete Cosine Transform
Differentinal Pulse Code Modulation
Dynamic Resolution Conversion
Discrete Wavelet Transform
Face and Body Animation

Facial Animation Parameters
Facial Definition Parameters
Global Motion Compensation
Groups of Blocks
General Requirements for the
competence of testing and calibration
laboratories
International Telecommunication
Union - Telecommunication
Standardization Sector
Motion- Compensated Prediction
Motion-Compensated Reconstruction
Moving Picture Experts Group Phase 2

Mã hóa hệ số nâng cao
Mặt nạ alpha nhị phân
Các thông số về hệ số hình dạng
Mã hóa số học
Bộ mã hóa-giải mã
Biến đổi Cosin rời rạc
Phương pháp mã hóa dự đoán tổn thất
Chuyển đổi độ phân giải động
Biến đổi Wavelet rời rạc
Mặt và hình dạng ảnh động
Các thông số hình dạng
Các thông số về hệ số bề mặt
Dự đoán bù chuyển động
Nhóm các khối
Yêu cầu chung về năng lực của phòng thử
nghiệm và hiệu chuẩn

Tiêu chuẩn viễn thông - thuộc tổ chức viễn thông
quốc tế
Dự đoán mã bù
Tái thiết mã bù
Tiêu chuẩn để mã hóa chung cho hình ảnh
chuyển động và thông tin âm thanh liên quan
Chuẩn nén hình ảnh và âm thanh bit-rate thấp
Mã hóa tổng hợp lai tự nhiên
Bù chuyển dịch của khối xếp chồng

Moving Picture Experts Group Phase 4
Synthetic Natural Hybrid Coding
Over- lapped Block Motion
Compensation
The Residual Quantised DC Coefficient Hệ số DC còn dư
Quarter Common Tntermediate Format Một phần tư của độ phân giải đầy đủ (4CIF)
Quantised DC Coefficient
Reversible Variable Length Codes
Very Low Bit Rate Video
Variable-length codes
Video Object
Video Object Plane
Typically complete video frames

Hệ số DC
Các mã độ dài biến đổi có thể biến đổi
Vieo có tốc độ bít thấp
Thay đổi mã dài
Mức video
Mỗi thời gian lấy mẫu

Khung hình video hoàn chỉnh

8


Chương I

1.1 sự xuất hiện
cảnh 1: hình ảnh của bạn (một mô hình 3D thực tế với sự xuất hiện và giọng nói của bạn) đi qua một
thế giới ảo tinh vi dân cư của các avatar khác, quảng cáo sản phẩm và video bức tường. Trên một
màn hình video ảo là một tin tức phát đi từ kênh ưa thích của bạn; bạn muốn để xem chi tiết về tình
hình tài chính hiện hành và do đó bạn tương tác với các chương trình phát sóng và kéo lên những
con số thị trường chứng khoán mới nhất. Trên màn hình khác bạn gọi lập một liên kết hội nghị
truyền hình với ba người bạn. Các hình ảnh video của những người tham gia khác, gọn gàng phân
đoạn từ họ nguồn gốc, được trình bày lại thêm một nền ảo.
cảnh 2: mới nhẫn vidphone 3G của bạn; bạn lật nắp mở và trả lời cuộc gọi. Khuôn mặtbạn của bạn
sẽ xuất hiện trên màn hình và bạn chào nhau. Mỗi thấy một hình ảnh nhỏ rõ ràng của các khác trên
màn hình của điện thoại, mà không có bất kỳ sự rõ ràng 'blockiness' lớn tuổi lại mô hình điện thoại
video. Sau khi cuộc gọi kết thúc, bạn gọi lên một nguồn cấp dữ liệu video trực tiếp từ một trận đấu
bóng đá. Các chất lượng của các dòng cơ bản, lãi suất không phải là quá lớn và bạn chuyển đổi dễ
dàng tới chất lượng cao (nhưng đắt hơn) 'cao cấp' dòng. Trong phút chốc, những tín hiệu vô tuyến
bắt đầu để phá vỡ lên nhưng tất cả các bạn chú ý một chút, biến dạng tạm thời trong hình video.
Hai kịch bản minh họa cho tầm nhìn khác nhau của thế hệ tiếp theo của đa phương tiện ứng dụng.
Việc đầu tiên là một tầm nhìn MPEG-4 Visual: một phong phú, tương tác trực tuyến trên thế giới
mang cùng nhau tổng hợp, tự nhiên, video, hình ảnh, 2D và 'đối tượng' 3D. Thứ hai là một tầm nhìn
H.264 / AVC: truyền thông video rất hiệu quả và đáng tin cậy, hỗ trợ hai chiều, "streaming" và ứng
dụng truyền hình và mạnh mẽ để vấn đề truyền dẫn kênh. Các hai tiêu chuẩn, đều có ưu điểm và
nhược điểm của họ và mỗi người ủng hộ họ và các nhà phê bình, là ứng cử viên trong cuộc đua để
cung cấp nén video cho truyền thông thế hệ tiếp theo ứng dụng.
Bật tivi và lướt qua hàng chục hoặc hàng trăm kênh kỹ thuật số. Play bộ phim yêu thích trên máy

nghe nhạc DVD và thở phào nhẹ nhõm mà bạn có thể ném ra của bạn băng VHS cũ. Điều chỉnh
trong một chương trình phát sóng tin tức truyền hình nước ngoài trên web (vẫn chỉ là một
postagestamp cửa sổ video nhưng sự lựa chọn và tin cậy của các luồng video được phát triển tất cả
các thời gian). Chat với bạn bè và gia đình bằng PC videophone. Những hoạt động này trở thành
thường và không đáng kể, chứng minh rằng video kỹ thuật số đang trên đường trở thành một phổ
biến và thành phần thiết yếu của giải trí, máy tính, phát thanh truyền hình và thông tin liên lạc
các ngành công nghiệp.
Phổ biến, liền mạch, chất lượng cao video kỹ thuật số đã là mục tiêu của các công ty, các nhà nghiên
cứu và cơ quan tiêu chuẩn trong hai thập kỷ qua. Trong một số khu vực (ví dụ phát sóng truyền hình
và người tiêu dùng lưu trữ video), video kỹ thuật số rõ ràng đã bị bắt thị trường, trong khi ở những
người khác (hội nghị truyền hình, email, video di động), thị trường thành công là có lẽ vẫn còn quá
sớm để phán xét. Tuy nhiên, không có nghi ngờ rằng video kỹ thuật số là một ngành công nghiệp
quan trọng trên toàn cầu mà sẽ tiếp tục lan rộng trong các doanh nghiệp, các mạng và nhà cửa. Sự
phát triển liên tục của các ngành công nghiệp video kỹ thuật số đang được thúc đẩy bởi lực lượng
9


thương mại và kỹ thuật. Các thương mại ổ xuất phát từ tiềm năng doanh thu khổng lồ của việc thuyết
phục người tiêu dùng và các doanh nghiệp (a) đến thay thế công nghệ analog và kỹ thuật số công
nghệ cũ với mới, hiệu quả, chất lượng cao sản phẩm video kỹ thuật số và (b) để thông qua các sản
phẩm truyền thông và giải trí mới đã có thể được thực hiện bằng việc di chuyển đến video kỹ thuật
số. Các lái xe kỹ thuật đến từ tiếp tục cải thiện hiệu suất xử lý, sự sẵn có của dung lượng lưu trữ cao
hơn và cơ chế truyền dẫn và nghiên cứu và phát triển của video và xử lý ảnh công nghệ.
Bắt video kỹ thuật số từ nguồn của nó ( một máy ảnh hay một clip được lưu trữ ) đến đích của nó
( một màn hình hiển thị ) liên quan đến một chuỗi các thành phần hoặc quy trình. Chìa khóa cho
chuỗi này là các quá trình nén ( mã hóa) và giải nén (giải mã), trong đó băng thông ' thô' video kỹ
thuật số được giảm đến một kích thước có thể quản lý để truyền hoặc lưu trữ , sau đó xây dựng lại
cho màn hình hiển thị . Bắt nén và giải nén các quá trình "đúng" có thể đưa ra một ý nghĩa cạnh kỹ
thuật và thương mại cho một sản phẩm , bằng cách cung cấp chất lượng hình ảnh tốt hơn , độ tin cậy
lớn hơn và / hoặc linh hoạt hơn so với các giải pháp cạnh tranh . Do đó có một quan tâm trong tiếp

tục phát triển và cải tiến của nén video và các phương pháp giải nén
và hệ thống. Các bên liên quan bao gồm giải trí , truyền thông và phát thanh truyền hình các công
ty , các nhà phát triển phần mềm và phần cứng , các nhà nghiên cứu và những người nắm giữ khả
năng sinh lời bằng sáng chế về các thuật toán nén mới .
Những thành công ban đầu trong ngành công nghiệp video kỹ thuật số (đặc biệt là phát sóng truyền
hình kỹ thuật số và DVD-Video) được củng cố bằng những tiêu chuẩn quốc tế ISO / IEC [1] 13.818,
phổ biến được gọi là 'MPEG-2 "(sau khi nhóm làm việc đã phát triển tiêu chuẩn, Ảnh Di chuyển
Experts Group). Dự đoán của một nhu cầu cho các công cụ nén tốt hơn đã dẫn đến sự phát triển của
hai tiêu chuẩn khác cho nén video, được biết đến như là ISO / IEC 14.496 Part 2 ('MPEG-4 Visual)
[2] và ITU-T Recommendation H.264 / ISO / IEC 14.496 Part 10 ('H.264') [3]. Video dạng MPEG-4
Visual và H.264 chia sẻ cùng tổ tiên và một số tính năng phổ biến (cả hai đều vẽ trên đã được kiểm
chứng kỹ thuật từ các tiêu chuẩn trước đó) nhưng có những thị kiến đáng chú ý khác nhau, tìm cách
cải tiến các chuẩn cũ theo những cách khác nhau. Tầm nhìn của MPEG-4 Visual là để di chuyển đi
từ một sự phụ thuộc chặt chẽ vào hình ảnh video hình chữ nhật và cung cấp một mở, linh hoạt khuôn
khổ cho truyền thông trực quan có sử dụng các tính năng tốt nhất của nén video hiệu quả và hướng
đối tượng chế biến. Ngược lại, H.264 có một tầm nhìn thực tế hơn, nhằm làm những tiêu chuẩn trước
đó đã (cung cấp một cơ chế cho việc nén video hình chữ nhật
hình ảnh) nhưng để làm điều đó một cách hiệu quả hơn, mạnh mẽ và thiết thực, hỗ trợ các loại ứng
dụng đang trở nên phổ biến trên thị trường (chẳng hạn như phát sóng, lưu trữ và streaming).
Tại thời điểm hiện tại có một cuộc tranh luận sôi nổi về đó ( nếu một trong hai ) của các tiêu chuẩn
này sẽ đi đến thống trị thị trường. MPEG - 4 Visual là trưởng thành hơn trong hai mới tiêu chuẩn
( bản đầu tiên của nó đã được xuất bản vào năm 1999 , trong khi H.264 đã trở thành một quốc tế
Trực quan về hiệu suất nén nhưng nó không có tính linh hoạt và rắc rối, các tiêu chuẩn cũ của . Tình
hình cấp giấy phép liên quan đến các video MPEG- 4 Visual là rõ ràng (và không phổ biến với một
số bộ phận của ngành công nghiệp ) nhưng chi phí cấp giấy phép H.264 vẫn còn phải được sự đồng
ý . Cuốn sách này là về hai tiêu chuẩn mới quan trọng và xem xét các nền với các tiêu chuẩn , các
khái niệm cốt lõi và các chi tiết kỹ thuật của từng tiêu chuẩn và các yếu tố đó sẽ xác định trả lời cho
câu hỏi ' MPEG - 4 Visual hoặc H.264? ' .
1.2 Nén Video
10



Bitrate mạng tiếp tục tăng (đáng kể trong khu vực địa phương và một chút ít như vậy trong các khu
vực rộng lớn hơn), kết nối bitrate cao để nhà là phổ biến và khả năng lưu trữ của đĩa cứng, bộ nhớ
flash và phương tiện truyền thông quang học lớn hơn bao giờ hết. Với giá mỗi truyền hoặc lưu trữ bit
liên tục rơi xuống, nó có lẽ là không rõ ràng lý do tại sao ngay lập tức nén video là cần thiết (và tại
sao có một nỗ lực đáng kể như vậy để làm cho nó tốt hơn). Nén video có hai lợi ích quan trọng. Đầu
tiên, nó làm cho nó có thể sử dụng video kỹ thuật số trong truyền và môi trường lưu trữ đó sẽ không
hỗ trợ nén ('thô') video. Ví dụ, tỷ Internet thông hiện có không đủ để xử lý các video không nén
trong thời gian thực (ngay cả ở tốc độ khung hình thấp và / hoặc kích thước khung hình nhỏ). Một
Digital Versatile Disk (DVD) chỉ có thể lưu trữ một vài giây của video thô ở độ phân giải truyền
hình chất lượng và tỷ lệ khung hình và do đó, lưu trữ DVD-Video sẽ không được thực tế mà không
có video và âm thanh nén. Thứ hai, nén video cho phép sử dụng hiệu quả hơn các truyền tải và lưu
trữ các tài nguyên. Nếu một kênh truyền bitrate cao có sẵn, sau đó nó là một đề nghị hấp dẫn hơn gửi
có độ phân giải cao nén video hoặc nhiều kênh video nén hơn gửi, độ phân giải thấp, dòng không
nén duy nhất. Ngay cả với những tiến bộ liên tục trong lưu trữ và công suất truyền tải, nén có thể sẽ
là một thành phần thiết yếu của đa phương tiện dịch vụ trong nhiều năm tới.
Một tín hiệu mang tin có thể được nén bằng cách loại bỏ sự dư thừa từ tín hiệu . Trong một hệ thống
nén lossless dự phòng thống kê được lấy ra để bản gốc tín hiệu có thể được xây dựng lại hoàn toàn ở
người nhận . Thật không may , tại thời điểm hiện tại phương pháp lossless chỉ có thể đạt được một
số tiền khiêm tốn của nén của hình ảnh và video tín hiệu . Hầu hết các kỹ thuật nén video thực tế
được dựa trên nén lossy , trong mà nén lớn hơn là đạt được với các hình phạt mà các tín hiệu giải mã
là không giống nhau với bản gốc .
Mục tiêu của một thuật toán nén video là để đạt được nén hiệu quả trong khi giảm thiểu sự biến
dạng giới thiệu bởi quá trình nén Các thuật toán nén video hoạt động bằng cách loại bỏ dư thừa
trong thời gian, không gian lĩnh vực và / hoặc tần số . Hình 1.1 cho thấy một ví dụ về một khung
video duy nhất . Trong khu vực được đánh dấu , có rất ít sự thay đổi trong nội dung của hình ảnh và
do đó có dư thừa không gian đáng kể . Hình 1.2 cho thấy cùng một khung sau khi khu vực nền đã
được thấp qua lọc (nhẵn), loại bỏ một số nội dung tần số cao hơn . các mắt người và não ( Human
Visual System) là nhạy cảm hơn với các tần số thấp hơn và do đóhình ảnh vẫn còn nhận biết mặc dù

thực tế rằng có rất nhiều "thông tin" đã được gỡ bỏ . Hình 1.3 cho thấy khung hình tiếp theo trong
chuỗi video. Trình tự đã được chụp từ một camera ở 25 khung hình mỗi giây và do đó, có rất ít thay
đổi giữa hai khung hình trong khoảng thời gian ngắn của 1/25 của một giây . Rõ ràng là có dư thừa
thời gian đáng kể , tức là hầu hết

11


Hình 1.1 video khung ( cho thấy ví dụ của các vùng đồng nhất )

Hình 1.2 khung Video ( thấp qua nền lọc )

12


Hình 1.3 video frame 2
của hình ảnh vẫn không thay đổi giữa các khung hình kế tiếp. Bằng cách loại bỏ các loại khác nhau
của dự phòng (không gian, tần số và / hoặc thời gian) có thể nén dữ liệu đáng kể tại các chi phí của
một số tiền nhất định của sự mất mát thông tin (biến dạng). Hơn nữa có thể nén thể đạt được bằng
cách mã hóa các dữ liệu được xử lý bằng cách sử dụng một chương trình mã hóa entropy như
Huffman mã hóa hoặc mã hóa số học.
Hình ảnh và video nén đã là một lĩnh vực rất mới trong nghiên cứu và phát triển cho hơn 20 năm và
nhiều hệ thống khác nhau và các thuật toán để nén và giải nén đã được đề xuất và phát triển. Để
khuyến khích hưởng lẫn nhau, cạnh tranh và bnhiều sự lựa chọn, nó đã được cần phải xác định
phương pháp chuẩn mã hóa nén và giải mã để cho phép các sản phẩm từ các nhà sản xuất khác nhau
để giao tiếp hiệu quả. Điều này đã dẫn đến sự phát triển của một số tiêu chuẩn quốc tế quan trọng
cho hình ảnh và video
nén, bao gồm JPEG, MPEG và H.26 × loạt các tiêu chuẩn.
1.3 MPEG- 4 và H.264
MPEG - 4Visual và H.264 (còn knownasAdvancedVideo Coding) là tiêu chuẩn cho các Coded đại

diện các thông tin thị giác . Mỗi tiêu chuẩn là một tài liệu chủ yếu định nghĩa hai điều , một đại diện
được mã hóa ( hoặc cú pháp ) mô tả trực quan dữ liệu ở dạng nén và một phương pháp giải mã cú
pháp để tái tạo lại thông tin thị giác . Mỗi tiêu chuẩn nhằm đảm bảo rằng bộ mã hóa và giải mã phù
hợp có thể thành công Interwork với nhau , trong khi cho phép các nhà sản xuất tự do để phát triển
các sản phẩm cạnh tranh và sáng tạo . các tiêu chuẩn đặc biệt không xác định một bộ mã hóa ; thay
vào đó, họ xác định sản lượng mà một bộ mã hóa nên sản xuất. Một phương pháp giải mã được xác
định trong mỗi tiêu chuẩn nhưng các nhà sản xuất được tự do để phát triển giải mã thay thế miễn là
họ đạt được kết quả tương tự như phương pháp trong tiêu chuẩn.
MPEG-4Visual (Phần 2 của nhóm MPEG-4 tiêu chuẩn) được phát triển bởi Moving Picture Experts
Group (MPEG), một nhóm công tác của Tổ chức Tiêu chuẩn hóa quốc tế (ISO). Nhóm này gồm vài
trăm chuyên gia kỹ thuật (rút ra từ các ngành công nghiệp và tổ chức nghiên cứu) đáp ứng trong
13


khoảng thời gian 2-3 tháng để phát triển hàng loạt các tiêu chuẩn MPEG. MPEG-4 (một tiêu chuẩn
đa phần bao gồm mã hóa âm thanh, các vấn đề hệ thống và các khía cạnh liên quan của âm thanh /
truyền thông hình ảnh) lần đầu tiên được hình thành vào năm 1993 và phần 2 đã được chuẩn hóa vào
năm 1999. Các nỗ lực chuẩn H.264 được khởi xướng bởi Video Coding Experts Group (VCEG),
một nhóm công tác của Liên minh Viễn thông quốc tế (ITU-T) mà hoạt động trong một cách tương
tự như MPEG và đã được chịu trách nhiệm cho một loạt các tiêu chuẩn viễn thông thị giác. Các giai
đoạn cuối cùng của việc phát triển các chuẩn H.264 đã được thực hiện bởi các phần Video Team,
một nỗ lực hợp tác của cả hai VCEG và MPEG, làm cho nó có thể publish các tiêu chuẩn cuối cùng
dưới sự bảo trợ doanh của ISO / IEC (như MPEG-4 Part 10) và ITU-T (như Khuyến nghị H.264) vào
năm 2003.
MPEG-4 Visual và H.264 đã liên quan nhưng khác nhau đáng kể tầm nhìn. Cả hai đều có liên quan
với khả năng nén dữ liệu trực quan nhưng MPEG-4 Visual nhấn mạnh tính linh hoạt trong khi Nhấn
mạnh H.264 là về hiệu quả và độ tin cậy. MPEG-4 Visual cung cấp một cách linh hoạt cao Bộ công
cụ kỹ thuật và nguồn lực mã hóa, làm cho nó có thể để đối phó với một loạt các loại dữ liệu trực
quan bao gồm cả khung hình chữ nhật (tài liệu video 'truyền thống'), các đối tượng hình (các khu vực
của một cảnh thị giác độc đoán hình), hình ảnh tĩnh và các giống lai của tự nhiên (thực tế) và tổng

hợp thông tin thị giác (máy tính tạo ra). MPEG-4 Visual cung cấp chức năng của nó thông qua một
tập hợp các công cụ mã hóa, tổ chức thành 'profile', đề nghị của nhóm các công cụ thích hợp cho các
ứng dụng nhất định. Lớp học của hồ sơ bao gồm hồ sơ 'đơn giản' (mã hóa của khung hình video hình
chữ nhật), hồ sơ dựa trên đối tượng (mã hóa của đối tượng trực quan tùy hình), vẫn còn hồ sơ kết cấu
(mã hóa của hình ảnh vẫn hay "kết cấu"), hồ sơ mở rộng (mã hóa ở nhiều nghị quyết, mức độ chất
lượng) và hồ sơ của phòng thu (mã hóa cho các ứng dụng studio-chất lượng cao).
Ngược lại với cách tiếp cận linh hoạt cao của MPEG - 4 Visual , cô đặc H.264 cụ thể về nén hiệu
quả của các khung hình video . Các tính năng chính của tiêu chuẩn bao gồm hiệu suất nén (cung cấp
nén tốt hơn đáng kể hơn so với bất kỳ tiêu chuẩn trước đó ) , hiệu quả truyền dẫn ( với một số được
xây dựng trong các tính năng để hỗ trợ đáng tin cậy , mạnh mẽ truyền dẫn qua một loạt các kênh và
các mạng ) và tập trung vào các ứng dụng phổ biến của nén video. Chỉ có ba hồ sơ hiện đang được
hỗ trợ ( trái ngược với gần 20 năm MPEG - 4 Visual ) , mỗi mục tiêu tại một lớp học của các ứng
dụng truyền video phổ biến. Các Hồ sơ ban đầu có thể đặc biệt hữu ích cho " đàm thoại " ứng dụng
như hội nghị truyền hình , hồ sơ cá nhân mở rộng thêm công cụ bổ sung có thể sẽ hữu ích cho video
streaming trên mạng và cấu hình chính bao gồm các công cụ mà có thể phù hợp cho người tiêu dùng
các ứng dụng như video phát sóng và lưu trữ.

1.4 NỘI DUNG SÁCH NÀY
Mục đích của cuốn sách này là để cung cấp một hướng dẫn về mặt kỹ thuật theo định hướng cho
MPEG - 4 Visual và H.264 / AVC tiêu chuẩn , với trọng tâm là vấn đề thực tiễn . Các công trình
khác bao gồm các chi tiết của các bộ phận khác của chuẩn MPEG - 4 [ 4-6 ] và cuốn sách này tập
trung vào các ứng dụng MPEG - 4 Visual và H.264 để mã hóa video tự nhiên . Hầu hết các ứng dụng
thực tế của MPEG-4 (và các ứng dụng mới nổi của H.264) làm cho việc sử dụng một tập hợp các
công cụ được cung cấp bởi mỗi tiêu chuẩn (một 'hồ sơ') và như vậy việc điều trị của từng chuẩn mực
trong cuốn sách này được tổ chức Theo hồ sơ, bắt đầu với các cấu hình cơ bản nhất và sau đó giới
thiệu các công cụ bổ sung được hỗ trợ bởi các cấu hình nâng cao hơn.
14


Chương 2 và 3 bìa tài liệu cơ bản cần thiết đó là cần thiết cho một sự hiểu biết của cả hai MPEG-4

Visual và H.264. Chương 2 giới thiệu các khái niệm cơ bản của video kỹ thuật số bao gồm chụp và
đại diện của video ở dạng số, màu sắc không gian, định dạng và đo lường chất lượng. Chương 3 bao
gồm các nguyên tắc cơ bản của nén video, tập trung trên các khía cạnh của quá trình nén là chung
cho cả hai tiêu chuẩn và giới thiệu chuyển đổi dựa trên CODEC 'mô hình' mà là trung tâm của tất cả
các tiêu chuẩn video mã hóa lớn. Chương 4 xem xét các tiêu chuẩn chính mình và xem xét các cách
mà các tiêu chuẩn đã được hình thành và phát triển, thảo luận về thành phần và thủ tục của VCEG và
các nhóm tiêu chuẩn MPEG. Chương này tóm tắt nội dung của các tiêu chuẩn và đưa ra lời khuyên
thiết thực về cách tiếp cận và giải thích các tiêu chuẩn và đảm bảo sự phù hợp. Tiêu chuẩn mã hóa
hình ảnh và video liên quan được trình bày ngắn gọn.
Chương 5 và 6 tập trung vào các tính năng kỹ thuật của MPEG-4 Visual và H.264. Phương pháp tiếp
cận được dựa trên cấu trúc của Profiles của mỗi tiêu chuẩn (điểm phù hợp quan trọng cho các nhà
phát triển CODEC). Các hồ sơ đơn giản (và Profiles liên quan) đã thể hiện bản thân để là bởi đến
nay các tính năng phổ biến nhất của MPEG-4 Visual đến nay và như vậy Chương 5 cô đặc đầu tiên
trên công cụ nén hỗ trợ bởi các Profiles, tiếp theo là phần còn lại (ít thương mại phổ biến) Cấu hình
hỗ trợ mã hóa các đối tượng video, vẫn kết cấu, khả năng mở rộng đối tượng và như vậy. Bởi vì
cuốn sách này chủ yếu là về nén thiên nhiên (thực tế) thông tin video, MPEG-4 Visual của công cụ
trực quan tổng hợp được bảo hiểm chỉ một thời gian ngắn. Của H.264 Baseline Profile được bao phủ
đầu tiên trong Chương 6, tiếp theo là các công cụ bổ sung bao gồm trong chính và Extended Profiles.
Chương 5 và 6 make tham khảo rộng rãi trở lại Chương 3 (Video Các khái niệm mã hóa). H.264
được xử lý trong chi tiết kỹ thuật nhiều hơn so với MPEG-4 Visual vì các hạn chế về tài liệu tham
khảo về các tiêu chuẩn mới hơn.
Vấn đề thực tiễn liên quan đến việc thiết kế và thực hiện các codec video được thảo luận trong
Chương 7. Các yêu cầu thiết kế của mỗi mô-đun chức năng chính cần thiết
trong một bộ mã hóa thực tế hoặc bộ giải mã được giải quyết, từ ước lượng chuyển động thông qua
để entropy mã hóa. Chương này xem xét các yêu cầu giao diện và cách tiếp cận thực tế để ngăn và
xử lý sau video để cải thiện hiệu suất nén và / hoặc chất lượng hình ảnh. Các nén và hiệu suất tính
toán của hai tiêu chuẩn được so sánh và kiểm soát tỷ lệ (phù hợp với đầu ra bộ mã hóa để truyền
hoặc lưu trữ cơ chế thực tế) và các vấn đề gặp phải trong vận chuyển và lưu trữ nén video được thảo
luận.
Chương 8 xem xét các yêu cầu của một số ứng dụng, danh sách hiện tại và mới nổi một số codec

hiện đang sẵn có và nền tảng thực hiện và thảo luận quan trọng tác động của các yếu tố thương mại
như giấy phép bằng sáng chế. Cuối cùng, một số dự đoán là
thực hiện về các bước tiếp theo trong quá trình chuẩn hóa và các vấn đề nghiên cứu mới nổi có thể
ảnh hưởng đến sự phát triển các tiêu chuẩn video mã hóa trong tương lai.

1.5 THAM KHẢO

15


1. ISO / IEC 13.818 , Công nghệ thông tin - Generic Mã hóa ofMoving Hình và Associated âm thanh Thông
tin , 2000.
2. ISO/IEC 14496-2, Coding of Audio-Visual Objects – Part 2:Visual, 2001.
3. ISO/IEC 14496-10 and ITU-T Rec. H.264, Advanced Video Coding, 2003.
4. F. Pereira and T. Ebrahimi (eds), The MPEG-4 Book, IMSC Press, 2002.
5. A. Walsh and M. Bourges-S´evenier (eds), MPEG-4 Jump Start, Prentice-Hall, 2002.
6.ISO/IEC JTC1/SC29/WG11 N4668, MPEG-4 Overview, />Overview.pdf, March 2002.

16


CHƯƠNG 5 : MPEG-4 VISUAL

5.1 GIỚI THIỆU
ISO / IEC 14.496 Part 2 [1] (MPEG-4 Visual) cải tiến dựa trên tiêu chuẩn phổ biến MPEG-2 cả về
hệ số nén (nén tốt hơn cho chất lượng hình ảnh tương tự) và mềm dẻo hơn (cho phép một phạm vi
rộng hơn của các ứng dụng) . Nó đạt được điều này trong hai cách chính, bằng cách sử dụng các
thuật toán nén tiên tiến và bằng cách cung cấp một bộ đầy đủ của 'công cụ' để mã hóa và thao tác các
phương tiện truyền thông kỹ thuật số. MPEG-4 Visual bao gồm một 'lõi' video mô hình bộ mã hóa /
giải mã cùng với một số công cụ mã hóa bổ sung. Các mô hình cốt lõi dựa trên DPCM lai nổi tiếng /

DCT mô hình mã hóa (xem Chương 3) và các chức năng cơ bản của lõi được mở rộng bởi các công
cụ hỗ trợ (trong số những thứ khác) hệ số nén tăng cường, truyền tải đáng tin cậy, mã hóa các hình
dạng riêng biệt hoặc 'đối tượng' trong một cảnh thị giác, nén lưới dựa trên hình ảnh động và các mặt
hoặc mô hình cơ thể.
Nó không chắc rằng bất kỳ ứng dụng duy nhất sẽ yêu cầu tất cả các công cụ có sẵn trong MPEG-4
Visual khuôn khổ và vì vậy tiêu chuẩn mô tả một loạt các profiles, bộ hoặc các nhóm của các công
cụ cho các loại đặc biệt của ứng dụng được đề nghị. Ví dụ về các profile bao gồm đơn giản (một tập
tối thiểu của các công cụ cho các ứng dụng phức tạp thấp), Core và Main (với các công cụ để mã hóa
nhiều đối tượng hình tùy tiện hình), nâng cao thời gian thực đơn giản (với các công cụ để truyền lỗi
đàn hồi với độ trễ thấp) và Advanced Simple (cung cấp cải thiện nén tại các chi phí của việc gia tăng
sự phức tạp).
MPEG-4 Visual được thể hiện trong ISO / IEC 14.496-2, một tài liệu rất chi tiết dài đến hơn 500
trang. Phiên bản 1 được phát hành vào năm 1998 và các công cụ tiếp và profile đã được thêm vào
trong hai sửa đổi đối với các tiêu chuẩn mà đỉnh cao trong phiên bản 2 vào cuối năm 2001. Nhiều
công cụ và profile đang lên kế hoạch cho sửa đổi trong tương lai hoặc các phiên bản nhưng các 'công
cụ' cấu trúc của MPEG-4 phương tiện bất kỳ phiên bản sau của 14.496-2 nên vẫn tương thích ngược
với các phiên bản 1.
Chương này là một hướng dẫn để các công cụ và tính năng của MPEG-4 Visual. Tations implementhực tế của MPEG-4 Visual được dựa trên một hoặc nhiều hơn các profile mặc định trong tiêu chuẩn
và vì vậy chương này được tổ chức theo profiles. Sau một tổng quan về các tiêu chuẩn và phương
pháp tiếp cận của nó và các tính năng, các profile để mã hóa các khung hình video hình chữ nhật
được thảo luận (Simple, Advanced Simple và nâng cao Real-Time Simple profiles).
Đây là bởi đến nay phổ biến nhất profiles sử dụng tại thời điểm hiện tại và như vậy họ được bảo
hiểm trong một số chi tiết. Công cụ và profile để mã hóa các đối tượng tùy tiện hình được thảo luận
tiếp theo (Core, Main và liên quan profiles), tiếp theo là profile cho khả năng mở rộng mã hóa, vẫn
kết cấu mã hóa và chất lượng cao ('studio') mã hóa video.
17


Ngoài các công cụ để mã hóa của (thế giới thực) liệu video "tự nhiên", MPEG-4 Visual mặc định
một tập hợp các profile cho mã hóa (máy tính tạo ra) các đối tượng thị giác "tổng hợp" như 2D và

3D meshes và khuôn mặt hoạt hình và mô hình cơ thể. Trọng tâm của cuốn sách này là rất nhiều về
mã hóa video tự nhiên và do đó, các profile được giới thiệu chỉ một thời gian ngắn. Các công cụ mã
hóa trong MPEG-4 Visual tiêu chuẩn mà không được bao gồm trong bất kỳ Profile (như quá mức
liếm Khối chuyển động bồi thường, OBMC) là (có lẽ contentiously!) Không nằm trong chương này.
5.2 TỔNG QUAN VỀ MPEG-4 VISUAL (Nén video tự nhiên)
5.2.1 Tính năng
MPEG-4 Visual nỗ lực đáp ứng các yêu cầu của một loạt các ứng dụng truyền thông trực quan thông
qua một cách tiếp cận bộ công cụ dựa trên mã hóa thông tin thị giác. Một số tính năng quan trọng mà
phân biệt MPEG-4 Visual từ tiêu chuẩn mã hóa hình ảnh trước đó bao gồm:
• Nén tối ưu theo trình tự và liên kết 'tự nhiên' video (nén các trình tự của các khung hình video
hình chữ nhật). Các công cụ nén chính dựa trên các tiêu chuẩn ITU-T H.263 và có thể ngoài
thực hiện MPEG-1 và MPEG-2 nén video. Công cụ bổ sung tùy chọn nâng cao hơn nữa nén
tối ưu.
• Mã hóa các đối tượng video (các vùng trong một video cảnh bất thường hình). Đây là một
khái niệm mới cho dựa theo tiêu chuẩn mã hóa video và cho phép (ví dụ) mã hóa độc lập của
nền trước và nền các đối tượng trong một cảnh phim.
• Hỗ trợ truyền có hiệu quả trên các mạng thực tế. Công cụ khả năng phục hồi lỗi giúp một bộ
giải mã để phục hồi từ lỗi truyền dẫn và duy trì một kết nối video thành công trong một môi
trường mạng dễ bị lỗi và các công cụ mã hóa mở rộng có thể giúp hỗ trợ truyền dẫn linh hoạt
tại một loạt các bitrate mã hóa.
• Mã hóa vẫn giữ "kết cấu" (dữ liệu hình ảnh). Điều này có nghĩa là vẫn còn hình ảnh có thể mã
hoá và truyền trong khuôn khổ giống như chuyển những dữ liệu video. Công cụ kết cấu mã
hóa cũng có thể hữu ích trong việc kết hợp với vẽ hoạt hình dựa trên.
• Mã hóa của các đối tượng động trực quan như 2D và 3D mắt lưới đa giác, khuôn mặt hoạt
hình hoạt hình và các cơ quan của con người.
• Mã hóa cho các ứng dụng chuyên biệt như "studio" video chất lượng. Trong loại ứng dụng
này, chất lượng hình ảnh có lẽ là quan trọng hơn.
5.3.2 Công cụ, các đối tượng, đặc tính và các mức độ
MPEG-4 Visual cung cấp các chức năng mã hóa của mình thông qua một sự kết hợp của các công
cụ, các đối tượng và chương trình.A là một tập hợp con của mã hóa chức năng để hỗ trợ một tính

năng đặc thù

Bảng 5.1

MPEG-4 Visual Hình ảnh để mã hóa video tự nhiên
18


Đặc tính của chuẩn MPEG-4 Visual

Đặc điểm chính

Simple (đơn giản)

Mã hóa với độ phức tạp thấp cho khung hình video

Advanced Simple
(cải tiến Đơn giản)
Advanced Real-Time Simple
(Cải tiến thời gian thực)

Mã hóa khung hình chữ nhật với sự tối ưu hiệu năng và hỗ
trợ video quét xen kẽ.
Mã hóa khung hình cửa sổ cho dòng dữ liệu với thời gian
thực

Core (Lõi hệ thống)

Mã hóa cơ bản theo bất kỳ hình dáng đối tượng video


Main (mục đích chính)

Mã hóa tính năng phong phú của các đối tượng video.

Advanced Coding Efficiency
(cải tiến mã hóa tối ưu)

Mã hóa tối ưu mức cao cho các đối tượng Video

N-Bit (số lượng bit)
Simple Scalable
(khả năng thay đổi đơn giản)
Core Scalable
( khả năng thay đổi lõi hệ thống)
Advanced Scalable Texture
(cải tiến khả năng thay đổi cấu trúc)
Advanced Core
(cải tiến Lõi hệ thống)
Simple Studio (Phòng thu đơn giản)
Core Studio (Lõi phòng thu)

Mã hóa các đối tượng video với độ phân dải của mẫu lớn
hơn 8 bít
Có khả năng thay đổi mã hóa cho khung chữ nhật
Có khả năng thay đổi mã hóa cho đối tượng video
Có khả năng làm ổn định cấu trúc với việc nâng cao hiệu
ứng và tính chất cơ bản của đối tượng
Kết hợp những thuộc tính đơn giản, lõi và cải tiến các đặc
tính của cấu trúc
Mã hóa dựa trên đối tượng của chuỗi video chất lượng cao

Mã hóa dựa trên đối tượng của video chất lượng cao với cải
thiện nén tối ưu.

Bảng 5.2 Đặc tính MPEG-4 Visual để mã hóa tổng hợp hoặc Video Lai
Đặc tính MPEG-4 Visual
Basic Animated Texture
(cấu trúc động cơ bản)
Simple Face Animation
(chuyển động khuôn mặt)
Simple Face and Body Animation
(Chuyển động khuôn mặt và thân hình)

tính năng chính
mã hóa dạng lưới 2D với cấu trúc giữ nguyên

Hybrid ( dạng lai)

Kết hợp các tính chất đơn giản, Lõi, cấu trúc chuyển động
cơ bản và đặc tính đơn giản chuyển động khuôn mặt

Chế độ khuôn mặt người chuyển động đơn giản
Khuôn mặt đơn giản và thân hình chuyển động

mã hóa video, video interlaced, mã hóa hình tượng, vv). Một đối tượng là một yếu tố video (ví dụ
như một chuỗi các khung hình chữ nhật, một chuỗi các khu vực tùy hình, một hình tĩnh) được mã
hóa bằng cách sử dụng một hoặc nhiều công cụ. Ví dụ, một đối tượng video đơn giản được mã hoá
19


bằng cách sử dụng một tập hợp hữu hạn của các công cụ cho hình chữ nhật chuỗi khung hình video,

một đối tượng video được mã hóa bằng cách sử dụng các công cụ cho các đối tượng khác nhau. Một
profile là một tập hợp của các loại đối tượng mà một CODEC được dự kiến sẽ có khả năng xử lý.
MPEG-4 Visual profile để mã hóa những cảnh video 'tự nhiên' được liệt kê trong Bảng 5.1 và những
phạm vi từ đơn giản Profile (mã hóa của các khung hình video hình chữ nhật) thông qua profile cho
tùy tiện có hình dạng và khả năng mở rộng đối tượng mã hóa để profile để mã hóa video chất lượng
studio . Bảng 5.2 liệt kê các profiles để mã hóa "tổng hợp" video (mắt lưới hoạt hình hoặc mặt / mô
hình cơ thể) và hybrid profile (kết hợp các tính năng từ video tổng hợp và tự nhiên mã hóa). Các
profile được sử dụng để nén video tự nhiên và do đó không được đề cập chi tiết trong cuốn sách
này.

Hình 5.1 Các đặc tính và đối tượng của MPEG-4 Visual
Hình 5.1 danh sách mỗi MPEG-4 Visual profile (cột bên trái) và các loại đối tượng thị giác (hàng
trên cùng). Các mục bảng chỉ ra đối tượng mà loại được chứa trong mỗi profile. Ví dụ, một CODEC
tương thích với Simple Profile phải có khả năng mã hóa và giải mã các đối tượng đơn giản và Core
20


Profile CODEC phải có khả năng mã hóa và giải mã đơn giản và Core đối tượng. Profile là một cơ
chế quan trọng để khuyến khích khả năng tương tác giữa các codec từ các nhà sản xuất khác nhau.
MPEG-4 Visual tiêu chuẩn mô tả một phạm vi đa dạng của các công cụ mã hóa và nó là không có
bất cứ CODEC thương mại đòi hỏi phải thực hiện tất cả các công cụ. Thay vào đó, một nhà thiết kế
CODEC chọn một profile có chứa đầy đủ công cụ cho các ứng dụng đích. Ví dụ, một CODEC cơ
bản thực hiện trên một bộ xử lý điện năng thấp có thể sử dụng đơn giản profile, một CODEC cho
tuyến các ứng dụng video có thể chọn chi tiết thời gian thực đơn giản và như vậy. Đến nay, một số
profile đã có nhiều tác động đến thị trường hơn so với những người khác. Các đơn giản và chi tiết
đơn giản profile đặc biệt phổ biến với các nhà sản xuất và người sử dụng trong khi các profile cho
các mã hóa của đối tượng tùy tiện hình đã có tác động thương mại rất hạn chế (xem Chương 8 để
tiếp tục thảo luận về tác động thương mại của MPEG-4 Profiles).
Profile định nghĩa một tập hợp con của mã hóa các công cụ và trình độ hạn chế fine de trên các
thông số của bitstream. Bảng 5.3 liệt kê các cấp độ cho phổ biến đơn giản dựa trên profile

Bảng 5.3 các mức cấu hình cơ bản

Cấu hình
Simple

Advanced Simple (AS)

Advanced Real-Time

Mức

Kích thước Tốc độ bit tối đa

số đối tượng tối đa

L0
L1
L2
L3
L0
L1
L2
L3
L4
L5
L1

176 × 144
176 × 144
352 × 288

352 × 288
176 × 144
176 × 144
352 × 288
352 × 288
352 × 576
720 × 576
176 × 144

64 kbps
64 kbps
128 kbps
384 kbps
128 kbps
128 kbps
384 kbps
768 kbps
3 Mbps
8 Mbps
64 kbps

L2
L3
L4

352 × 288
352 × 288
352 × 288

128 kbps

384 kbps
2 Mbps

1 simple
4 simple
4 simple
4 simple
1 AS or simple
4 AS or simple
4 AS or simple
4 AS or simple
4 AS or simple
4 AS or simple
4 ARTS or simple
Simple (ARTS)
4 ARTS or simple
4 ARTS or simple
16 ARTS or simple

Simple cải tiến và cải tiến thời gian thực đơn giản). Mỗi cấp độ đặt những hạn chế về hiệu suất tối
đa yêu cầu để giải mã một chuỗi mã hóa MPEG-4. Ví dụ, một thiết bị đầu cuối timedia mul- với
khả năng xử lý hạn chế và một lượng nhỏ bộ nhớ chỉ có thể hỗ trợ Simple Profile Cấp 0 dòng bit
giải mã. Cấp xác định nơi hạn chế về số lượng bộ nhớ đệm, kích thước khung giải mã và tỷ lệ chế
biến (trong macroblocks mỗi giây) và số lượng các đối tượng video (một trong trường hợp này,
một khung hình chữ nhật đơn). Một thiết bị đầu cuối có thể đối phó với các thông số này là đảm
21


bảo được khả năng giải mã thành công bất kỳ phù hợp Simple Profile Cấp 0 dòng bit. Trình độ cao
hơn của Simple Profile cần một bộ giải mã để xử lý lên đến bốn đơn giản Profile đối tượng video

(ví dụ, lên đến bốn đối tượng hình chữ nhật bao gồm các QCIF hoặc màn hình hiển thị độ phân giải
CIF).
5.2.3 các đối tượng video
Một trong những đóng góp quan trọng của MPEG-4 Visual là một động thái đi từ quan điểm "truyền
thống" của một chuỗi video như chỉ đơn thuần là một bộ sưu tập các khung hình chữ nhật của video.
Thay vào đó, MPEG-4 xử lý thị giác một chuỗi video như là một tập hợp của một hoặc nhiều đối
tượng video. MPEG-4 Visual mặc định một đối tượng video như là một linh hoạt 'thực thể mà người
dùng được phép truy cập (tìm kiếm, duyệt) và thao tác (cắt và dán) [1]. Một đối tượng video (VO) là
một khu vực của cảnh video mà có thể chiếm một khu vực tùy tiện có hình dạng và có thể tồn tại cho
một chiều dài tùy ý thời gian. Một ví dụ của một VO tại một thời điểm cụ thể là một máy bay đối
tượng video (VOP).
Định nghĩa này bao gồm các phương pháp truyền thống của mã hóa khung hình hoàn chỉnh, trong
đó mỗi VOP là một khung duy nhất của video và một chuỗi các khung hình một VO (ví dụ, hình 5.2
cho thấy một VO gồm ba VOPs hình chữ nhật). Tuy nhiên, sự ra đời của khái niệm VO cho phép
nhiều tùy chọn linh hoạt để mã hóa video. Hình 5.3 cho thấy một VO gồm ba VOPs bất thường
hình, mỗi người hiện có trong một khung và mỗi mã hóa độc lập (đối tượng dựa trên mã hóa).
Đối tượng Video

V
O
P
1

V
O
P
2

V
O

P
3

Time

Hình 5.2

VOPs và VO (khung hình chữ nhât)

22


Time
VOP1

VOP2

VOP3

Hình 5.3 VOPs and VO (hình dạng tùy biến)
Một cảnh trong video (ví dụ như Hình 5.4) có thể được tạo thành từ một đối tượng nền (VO3 trong
này dụ) và một số đối tượng tiền cảnh riêng biệt (VO1, VO2). Cách tiếp cận này là fl có khả năng
linh hoạt hơn nhiều so với cố định fi, kết cấu khung hình chữ nhật tiêu chuẩn trước đó. Các đối
tượng arate sep- có thể được mã hóa với chất lượng hình ảnh khác nhau và độ phân giải thời gian để
tái fl ect "tầm quan trọng" của họ đến hiện trường, các đối tượng từ nhiều nguồn (bao gồm tổng hợp
và các đối tượng "tự nhiên") có thể được kết hợp trong một cảnh duy nhất và các thành phần và hành
vi của các trường có thể được điều khiển bởi một người dùng cuối trong các ứng dụng tương tác cao.
Hình 5.5 cho thấy một cảnh video mới được hình thành bằng cách thêm VO1 từ Hình 5.4, một VO2
mới và một nền VO mới. Mỗi đối tượng được mã hóa độc lập sử dụng MPEG-4 Visual (các hợp lại
của các đối tượng hình ảnh và âm thanh được giả định được xử lý một cách riêng biệt, ví dụ như

MPEG-4 hệ thống [2]).

5.3 Mã hóa khung hình chữ nhật
Mặc dù có các phần tối ưu tiềm năng được cung cấp bởi đối tượng dựa trên mã hóa, các ứng dụng
phổ biến nhất của MPEG-4 Visual là để mã hóa khung hình đầy đủ của video. Các công cụ cần thiết.

Hình 5.4

Video scene liên kết 3 VOs

23


HÌNH 5.5

Video cảnh sáng tác của VOS từ các nguồn riêng biệt

24


để xử lý VOPs hình chữ nhật (khung hình video thường đầy đủ) được nhóm lại với nhau trong cái
gọi là profiles đơn giản. Các công cụ và đối tượng để mã hóa khung hình chữ nhật được thể hiện
trong hình 5.6. Các công cụ cơ bản tương tự như thông qua các tiêu chuẩn video mã hóa trước đó,
DCT dựa trên mã hóa của khối macro với dự đoán chuyển động bồi thường. Các đơn giản profile
dựa xung quanh lai DPCM / DCT mô hình nổi tiếng (xem Chương 3, Phần 3.6) với

O
I Tool
bj
Sho

- ec
rt V t
Vide
O
Hea
o
derP
pack
ets
P
Data
Parti
V
tioni
O
ng
P
RVL
Cs
4
M
V

B
In
Alter
Gl
Qu
Si ob
te

nate
art
mNE
rlV
Qua
D
al
plWP
erO
yn
nt
e Pel
Ma
RE
acP
C
mi
D
ce
R
es
olu
tio
n
C
on
ve
rsi
on


Adv
Adva
an
nce
ce
dd
Real
Si
Tim
m
epl
Sim
e
ple

U
M
V
Intra
Pred

Hình 5.6

Các công cụ và thành phần dùng để mã hóa khung ảnh chữ nhật

công cụ bổ sung để cải thiện tính hiệu mã hóa hiệu lực và truyền hiệu lực. Do sự phổ biến rộng rãi
của profile đơn giản , tăng cường profile cho VOPs hình chữ nhật đã được phát triển. Các chi tiết
đơn giản profile cải thiện mã hóa thêm hiệu quả và thêm hỗ trợ cho video interlaced và nâng cao
thời gian bổ sung công cụ hữu ích cho thời gian thực video tuyến các ứng dụng
5.3.1 Đầu vào và đầu ra định dạng video

Các đầu vào cho một MPEG-4 Visual encoder và đầu ra của một bộ giải mã là một chuỗi video
trong 4: 2: 0, 4: 2: 2 hay 4: 4: 4 tiến bộ hỗn hợp các định dạng (xem Chương 2). MPEG-4 Visual sử
25


×