Kỹ thuật scalable video coding trong nén video và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (802.19 KB, 16 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

XỬ LÝ DỮ LIỆU ĐA PHƯƠNG TIỆN
ĐỀ TÀI 15: Kỹ thuật “Scalable Video Coding” trong nén video và ứng dụng
Giảng viên hướng dẫn: PGS.TS Nguyễn Thị Hoàng Lan
Sinh viên: Lê Ngọc Hưng 20121860
Phạm Minh Tuấn 20122711
Vũ Duy Chương 20121328

1

MỤC LỤC

2

I. TỔNG QUAN VỀ “SCALABLE VIDEO CODING”
1.1. Scalable Video Coding là gì?
Scalable Video Coding (SVC) là tên cho Annex G mở rộng của chuẩn nén video H.264/ MPEG4 AVC. SVC chuẩn hóa mã hóa một dòng truyền video chất lượng cao, dòng chuyền này có thể
chứa một hoặc nhiều dòng truyền con. Một dòng truyền video con được tạo ra bằng cách thả các
gói từ video lớn hơn để giảm băng thông cần thiết cho các dòng truyền con. Tập hợp các dòng
truyền con có thể đại diện cho độ phân giải không gian thấp hơn (Màn hình nhỏ hơn), Độ phân
giải theo thời gian thấp hơn (Tỉ lệ khung hình thấp hơn), hay chất lượng tín hiệu video thấp hơn.
H.264/MPEG-4 AVC được phát triển bởi ITU-T và ISO/IEC JTC 1. Đó là 2 nhóm thành lập
Joint Video Team (JVT) để phát triển chuẩn H.264/MPEG-4 AVC.
Đối tượng của chuẩn hóa SVC cho phép mã hóa một dòng truyền video chất lượng cao chứa
một hay nhiều các dòng truyền con mà chúng có thể được giải mã với độ phức tạp và chất lượng
tái tạo tương tự như việc sử dụng thiết kế H.264/MPEG-4 AVC với cùng số lượng dữ liệu như
trong các dòng truyền con. Các dòng truyền con bắt nguồn từ việc thả các gói từ dòng truyền lớn

hơn.
Một tập hợp các dòng truyền con có thể đại diện cho một độ phân giải không gian thấp hơn
(Smaller screen), hay độ phân giải thời gian thấp hơn (frame rate thấp hơn), hay một tín hiệu
video chất lượng thấp hơn so với dòng truyền mà nó bắt nguồn từ đấy.
1.2. Các kiểu SVC
Các phương thức sau đây là có thể xảy ra:
-

-

-

-

Khả năng mở rộng thời gian (Frame rate): Sự phụ thuộc vào bù chuyển động được cấu
trúc để hoàn chỉnh hình ảnh có thể được giảm từ dòng truyền. (Khả năng mở rộng thời
gian đã được kích hoạt bởi H.264/MPEG-4 AVC. SVC chỉ cung cấp thông tin tăng
cường bổ sung để cải thiện việc sử dụng của nó. )
Khả năng mở rộng không gian (Kích thước ảnh): video được mã hóa ở nhiều độ phân giải
không gian. Các dữ liệu và các mẫu giải mã của độ phân giải thấp có thể được sử dụng để
dự đoán dữ liệu hoặc mẫu có độ phân giải cao hơn để giảm tỉ lệ bit trong việc mã hóa độ
phân giải cao hơn.
Khả năng mở rộng SNR/Chất lượng/Độ chính xác: Video được mã hóa với một độ phân
giải không gian nhưng với chất lượng khác nhau. Dữ liệu và các mẫu giải mã chất lượng
thấp hơn có thể được sử dụng để dự đoán dữ liệu hay mẫu của các phẩm chất cao hơn để
giảm tỉ lệ bit khi mã hóa chất lượng cao hơn.
Khả năng mở rộng kết hợp: một sự kết hợp của 3 phương thức khả năng mở rộng được
mô tả ở trên.
3

SCV cho phép việc tương thích phần cứng cũ hơn: Dòng truyền tương tự có thể được xử lý bởi
phần cứng cơ bản – cái mà chỉ có thể giải mã một tập con có độ phân giải thấp trong khi phần
cứng cao hơn có thể giải mã các dòng video có chất lượng cao.
-

Khả năng mở rộng dòng truyền là một tính năng hấp dẫn cho rất nhiều ứng dụng đa
phương tiện. Sự cần thiết cho khả năng mở rộng được xuất phát từ việc yêu cầu truyền
tải, hay nhu cầu thích ứng với các định dạng không gian, tốc độ bit hay năng lượng. Để
đáp ứng yêu cầu này, nó có lợi cho video đồng thời được truyền tải hay lưu trữ với nhiều
độ phân giải không gian hoặc thời gian hoặc phẩm chất là mục đích của khả năng mở
rộng dòng truyền video.

1.3. Ứng dụng
Nói tóm lại Scalable video coding (SVC) là một trong những giải pháp cho những vấn đề đặt ra
bởi các đặc tính của hệ thống truyền tải video hiện tại. Các ứng dụng video sau đây có thể được
hưởng lợi từ SVC là:
1.
2.
3.
4.
5.

Streaming
Hội nghị truyền hình
Giám sát
Broadcast
Lưu trữ

4

II. CÁC KIỂU SVC
2.1. Khả năng mở rộng thời gian (Temporal scalability):
- Sử dụng cấu trúc phân cấp B hoặc P
- Không mất hiệu quả mã hóa khi sử dụng cấu trúc phân cấp B
- MPEG-1,MPEG-2,MPEG-4, và H.263+ đều có khả năng mở rộng thời gian qua B-frames
- Tất cả đều yêu cầu thời gian bù trễ (added delay) ở giai đoạn mã hóa/giải mã

MPEG-1,2,4, H.263
TEMPORAL SCALABILITY

Cũng có thể được xem là 3 lớp: Lớp 0: Màu đen (I-frames), Lớp 1: Màu xanh (P frames), Lớp 2: Màu nâu (Bframes)

- H.264 đã có thêm dự đoán thời gian linh hoạt, kích hoạt khả năng mở rộng thời gian một cách
linh hoạt hơn.
o
o

Có thể được thực hiện khi có hoặc không có thời gian bù trễ.
Cấu trúc phân cấp B với kích thước GOP lớn không chỉ cho phép mở rộng thời gian với
nhiều lớp, mà đồng thời cải thiện hiệu quả mã hóa so với việc sử dụng cấu trúc IPP.

5

H.264 – TEMPORAL SCALABILITY
DỰ ĐOÁN THEO CẤP BẬC

TEMPORAL SCALABILITY

HIERARCHICAL B

Vấn đề: thời gian trễ mã hóa = số frames trong một GOP (giữa các frames màu đen)

6

Chấp nhận được với ứng dụng không phải thời gian thực: live streaming, video theo yêu cầu

TEMPORAL SCALABILITY
DỰ ĐOÁN THEO CẤP BẬC VÀ KHÔNG CHẬM TRỄ
(HIERARCHICAL P)

Sử dụng tốt với ứng dụng thời gian thực: Trò chuyện, hội nghị

2.2. Khả năng mở rộng không gian (kích thước ảnh) (Spatial scalability):
- Sử dụng lấy mẫu lên/xuống kết hợp với chuyển đổi giữa dự đoán intra-layer và inter-layer
(CGS và MGS)

SPATIAL SCALABILITY - SAMPLING DOWN/UP

7

SPATIAL AND TEMPORAL SCALABILITY

Both layers

Base layer

2.3. Khả năng mở rộng biên độ (kích thước bước lượng tử) (Amplitude scalability):
Tương tự với khả năng mở rộng không gian nơi mỗi lớp có cùng độ phân giải không gian,
nhưng khác về QP
- Chất lượng của mỗi lớp khác nhau do mức độ lượng tử hóa.
- Chỉ lớp cơ sở có thể thực hiện nội mã hóa.
- Lớp (các lớp) nâng cao mã hóa dư (giữa lớp chính thức và lớp thấp hơn)

AMPLITUDE (SNR) SCALABILITY
8

MULTISTAGE STAGE QUANTIZATION

Large
Enco

Predictio

Smalle
Deco

2.4. Khả năng mở rộng tần số (chuyển đổi hệ số) (Frequency scalability AKA Data
Partitioning):
- Lớp cơ sở: các tần số thấp của DCT
- Lớp nâng cao: các tần số cao còn lại của DCT
- Tiêu chuẩn hóa trong MPEG-2
- Một điểm ngắt bao gồm dòng bit làm nó rất dễ để phân vùng
- Một vòng lặp dự đoán mã hóa -> thiếu các tần số cao có nghĩa như việc drift mạnh
- dự đoán giả thiết rằng tất cả các hệ số là có sẵn trong khung hình trước.

FREQUENCY SCALABILITY
ẢNH HƯỞNG CỦA MẤT THÔNG TIN
-

Hai khối ở bước mã
Hai khối ở bước giải
Lỗi từhóa
khung hình trước lan sang khung hình hiện
mãtại
Chuyển động gây ra lỗi lây lan, không chỉ về không gian, mà trong cả tần số
Phương pháp dự đoán ảnh hưởng đến mức độ lan truyền

9

2.5. Khả năng mở rộng dựa trên đối tượng (nội dung) (Object-based or ROI scalability):
*Tầng QP (QP cascading):
- Sử dụng QP thấp hơn cho các lớp không gian/thời gian thấp hơn, tăng dần QP cho các lớp
không gian/thời gian cao hơn

III. TÁC DỤNG “SCALABLE VIDEO CODING” TRONG NÉN VIDEO TIÊN
TIẾN AVC
3.1. Tác dụng của SVC
-

-

-

SVC cho phép truyền tải và giải mã dòng bit cục bộ để cung cấp các dịch vụ video với

thời gian ngắn hơn hoặc với nhiều độ phân giải không gian hoặc giảm độ trung thực
trong khi vẫn giữ một chất lượng tái tạo tương đối cao so với tỷ lệ của dòng bit cục bộ.
Vì thế, SVC cung cấp những chức năng suy giảm dần trong các môi trường truyền tải mất
mát như là giảm tỷ lệ bit, cấu trúc, định dạng, và thích ứng năng lượng. Những chức năng
đó cung cấp sự nâng cao cho truyền tải và ứng dụng lưu trữ.
SVC đã đạt được những cải tiến đáng kể trong hiệu quả mã hóa với việc tăng hỗ trợ khả
năng mở rộng cho những cấu hình có thể mở rộng của những chuẩn video trước đó.

3.2. H.264/SVC
1. Một mã hóa H.264/SVC tối ưu có bit-rate trung bình cao hơn khoảng 11% so với phiên
2.
3.
4.
5.

bản không mở rộng được (H.264/AVC)
Một sự cân đối tốt giữa hiệu năng và lan truyền/trôi dạt lỗi
Giải mã phức tạp với giải mã lớp đơn H.264 là giống nhau
Chỉ sử dụng một vòng lặp chuyển động bù đơn ở bước giải mã.
Không chỉ dự đoán thông tin còn lại (DCT), mà đồng thời dự đoán thông tin chuyển động
và chế độ macroblock.

SNR SCALABILITY: TRƯỚC KHI SỬ DỤNG H.264 SVC

10

SNR SCALABILITY: KHI SỬ DỤNG H.264 SVC

11

HIỆU QUẢ CỦA H.264 TEMPORAL SCALABILITY

12

IV. SƠ ĐỒ NÉN SỬ DỤNG KỸ THUẬT SVC TRONG CHUẨN MPEG-2 VÀ
MPEG-4
4.1. SNR Scalability trong MPEG-2
-

MPEG-2 hiện nay đã bao gồm một số profile có thể hỗ trợ tính mở rộng được trong khi
nén video như:SNR scalable, Spatial Scalable,Multi-view(Teamporal scalable)…
Một trong những kĩ thuật đó là mở rộng về chất lượng SNR Scalability

Sơ đồ mã hóa SNR Scalability

13

Sơ đồ giải mã SNR Scalability
Các lớp mở rộng được tạo ra từ việc thêm 1 bước lượng tử hóa nữa.
-

Bộ mã hóa lượng tử hóa hệ số DCT với độ chính xác nào đó sau đó được mã hóa và
truyền đi với dòng bit lớp dưới.
Tại lớp nâng cao lỗi lượng tử hóa gặp phải ở lần lượng tử hóa đầu tiên tự nó sẽ lại lượng
tử hóa, được mã hóa và được truyền đi ở lớp nâng cao

Sơ đồ giải mã SNR Scalability

Các lớp mở rộng được tạo ra từ việc thêm 1 bước lượng tử hóa nữa.
-

Bộ mã hóa lượng tử hóa hệ số DCT với độ chính xác nào đó sau đó được mã hóa và
truyền đi với dòng bit lớp dưới.
Tại lớp nâng cao lỗi lượng tử hóa gặp phải ở lần lượng tử hóa đầu tiên tự nó sẽ lại lượng
tử hóa, được mã hóa và được truyền đi ở lớp nâng cao

14

4.2. Spatial Scalability trong MPEG-4

Sơ đồ mã hóa

15

Sơ đồ giải mã

-

Việc mở rộng không gian được thực hiện bằng việc sử dụng những ảnh được giải mã từ
tầng dưới như là dự đoán ở tầng cao hơn. Nếu tầng cao hơn đang xử lý ảnh ở độ phân giải
lớn hơn thì ảnh được giải mã từ tầng thấp hơn phải được chuyển thành độ phân giải lớn
hơn

-

Trong bộ giải mã trên hình hai vòng lặp mã hóa hoạt động với những độ phân giải khác
nhau để tạo ra những lớp cơ sở và lớp nâng cao.

-

Bộ mã hóa lớp cơ sở tạo ra 1 dòng bit có thể được giải mã giống như trường hợp nonscalable.

-

Bộ mã hóa lớp nâng cao được cung cấp những ảnh đã được giải mã từ tầng cơ cở, như là
sự dự đoán cho các tầng trên.Sự dự đoán này bổ sung thêm vào sự dự đoán bù chuyển
động từ các tầng trên.

-

Chức năng đánh giá W lựa chọn trong các dự đoán từ tầng trên và tầng dưới

16

Kỹ thuật scalable video coding trong nén video và ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về