Tìm hiểu chuẩn nén ITU và thử nghiệm ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (547.2 KB, 20 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

──────── * ────────

BÁO CÁO
MÔN: TRUYỀN THÔNG ĐA PHƯƠNG TIỆN
ĐỀ TÀI: TÌM HIỂU CHUẨN NÉN VIDEO ITU VÀ THỬ NGHIỆM
ỨNG DỤNG
NHÓM 7
Sinh viên thực hiện:

Giảng viên hướng dẫn:

1.
2.
3.
4.

Giang Thanh Trường
Nguyễn Thị Hạnh
Nguyễn Trọng Anh
Nguyễn Hiển Tường

20122645
20121661
20121220
20122776

PGS.TS Nguyễn Thị Hoàng Lan

Hà Nội, tháng 11 năm 2015

Mục lục

Danh mục hình ảnh

Lời nói đầu
Công nghệ thông tin ngày càng phát triển, truyền thông đa phương tiện là một
nhu cầu không thể thiếu. Trong truyền thông đa phương tiện, công nghệ nén video
là vô cùng quan trọng. Những video có dung lượng lớn muốn được truyền tải rộng
rãi qua mạng internet thì phải được nén. Tùy từng nhu cầu, mục đích cụ thể sẽ có
nhiều chuẩn nén video khác nhau.
Trong báo cáo này, chúng em sẽ trình bày về chuẩn nén video ITU (H.26x) và
so sánh chuẩn nén H.261 với MPEG-1.
Chúng em xin cảm ơn cô Nguyễn Thị Hoàng Lan đã giúp chúng em hoàn thành
báo cáo này.

CHƯƠNG 1
Tổng quan về chuẩn nén video ITU (H26x)
I. Giới thiệu tổ chức ITU
ITU là Liên minh viễn thông quốc tế thuộc Liên hiệp quốc, được thành lập vào
năm 1865 (tiền thân là Liên minh Điện báo quốc tế- International Telegraph
Union).
Hoạt động của ITU bao trùm tất cả các vấn đề thuộc ngành Công nghệ viễn
thông và Thông tin như: tần số vô tuyến điện, quỹ đạo vệ tinh, hỗ trợ phát triển cơ
sở hạ tầng viễn thông tại các nước đang phát triển và xây dựng các tiêu chuẩn

chung trên thế giới về kết nối các hệ thống liên lạc. ITU cũng tham gia nghiên cứu
và tìm giải pháp cho các thách thức chung trên toàn cầu trong thời đại hiện nay như:
biến đổi khí hậu và bảo mật, an toàn thông tin.
ITU hoạt động trên 3 lĩnh vực chính:

- Telecom - Viễn thông
- Radio - Thông tin vô tuyến
- Telecommunications Development - Phát triển viễn thông
Chuẩn H.26x là chuẩn mã hóa và nén video được đưa ra trong các khuyến nghị
của ITU. Chuẩn nén video H.26x gồm có các chuẩn H.261, H.263, H.264, H.265.
Trong đó, chuẩn H.264 được biết đến là chuẩn MPEG – 4 Part 10/AVC (Advanced
Video Coding) do ITU – T hợp tác với ISO/ISE cùng phát triển. ITU tập trung vào
các ứng dụng với dòng video chuẩn H26x như: H261, H263, H264 và mới đây là
chuẩn H265.

II. Tổng quan về chuẩn nén video H261
1. Tổng quan

- Chuẩn H261 là chuẩn nén video đầu tiên được ITU giới thiệu vào năm 1990,
là một phần của bộ giao thức H.320 mô tả các thành phần khác nhau của một
hệ thống video conference, được thiết kế cho các ứng dụng video telephony
và video conference qua đường ISDN.

- Chuẩn này ban đầu được thiết kế cho mạng ISDN với tốc độ truyền dữ liệu
-

-

là bội số của 64Kbit/s (p*64Kbit/s)

Thuật toán nén theo chuẩn H.261 giúp giảm độ dư thừa về không gian và
thời gian của chuỗi video để đạt được tỷ số nén cao.
Trong chuẩn này chuối video được định nghĩa theo 2 chuẩn định dạng là CIF
và QCIF. Trong đó: CIF là tiêu chuẩn cho kích thước video và hình ảnh
trong máy tính chứa 352x288 điểm ảnh (pixel). QCIF là tiêu chuẩn có độ
phân giải bằng ¼ tiêu chuẩn CIF 176x144 pixel.
Sử dụng kĩ thuật lấy mẫu 4:2:0 (Trong chuẩn H261 sử dụng hệ màu YUV, kĩ
thuật lấy mẫu này là lấy mẫu theo tỉ lệ giữa độ chói Y và 2 thành phần màu
còn lại).
Tốc độ frame tối đa là 30 fps nhưng cũng có thể được giảm xuống phụ thuộc
vào các ứng dụng và băng thông đường truyền khác nhau.

2. Kĩ thuật mã hóa trong chuẩn nén video H261

- Dự đoán trước hình ảnh: nhằm loại bỏ việc lặp lại, giảm sự dư thừa thời
-

gian.
Biễn đổi mã: nhằm loại bỏ lặp lại, giảm sự dư thừa về không gian.
Bù lại các chuyển động: sử dụng các véc tơ chuyển động để bù lại các
chuyển động.

3. Cấu trúc phân cấp video trong chuẩn H261

- Chuẩn H261 tổ chức dữ liệu theo dòng frame, với 2 loại frame là I và P
frame:

Hình 1: Dòng frame theo chuẩn H.261

- Cấu trúc phân cấp trong mỗi frame:

Hình 2: Cấu trúc phân cấp trong từng frame theo chuẩn H.261

- Tùy theo tín hiệu đầu vào được định dạng theo CIF hay QCIF, nếu định dạng
theo định dạng CIF thì mỗi frame sẽ có 12 GOBs và theo định dang QCIF thì
mỗi frame có 3 GOBs.

Hình 3: Số GOB theo định dạng CIF

Hình 4: Số GOB theo định dạng QCIF

- Mỗi GOB gồm có 11x3=33 MB (Macro Block).
- Mỗi MB sẽ được tổ chức thành các Block, trong đó có 4 block Y có kích
thước 16x16 pixels, 1 block U có kích thước 8x8 pixels và 1 block V có kích
thước 8x8 pixels.

Hình 5: Cấu trúc Macro Block

4. Cấu trúc phân lớp dữ liệu video theo chuẩn H.261

Hình 6: Cấu trúc phân lớp dữ liệu video theo chuẩn H.261

- Picture-layer: gồm PSC (start of picture code- mã đầu của ảnh), TR (time
-

stamp reference- nhãn thời gian tham chiếu), picture type (I/P) và các GOB.
GOB layer: gồm GOB start (GOB start code- mã bắt đầu GOB), group
number (số nhóm), group quant (group quantization value- giá trị lượng tử)

và các MB.
MB layer: gồm MBA (macroblock address- địa chỉ macroblock), MTYPE
(intra/inter), MQUANT (quantizer), MVD (motion vector data- vecto chuyển
động), CBP (coded block pattern- mẫu block được mã hóa) và các Block.
Block- layer: gồm quét zig-zag với cặp hệ số (run, level), và kết thúc block
EOB.

5. Sơ đồ nén theo chuẩn H.261

Hình 7: Sơ đồ nén theo chuẩn H.261

5.1. Nén Intraframe (frame I)
Mã hóa frame đầu tiên (frame tham chiều) của chuỗi các frame của video, tương
tự như mã hóa ảnh JPEG.

Hình 8: Sơ đồ nén intraframe

Đặc điểm:

- Quá trình biến đổi DCT: từ các block có kích 8x8 pixel, qua phép biến
-

đổi cosin rời rạc để biến đổi từ miền số nguyên sang miền số thực.
Quá trình lượng tử hóa: không giống như JPEG, chuẩn H.261 sử dụng
một bảng lượng tử hóa thống nhất cho tất cả các block.

- Ma trận dữ liệu thu được sau quá trình lượng tử hóa được quét zig-zac
nhằm mục đích tăng hiệu quả quét do dữ liệu tập trung chủ yếu ở các

phần tử đầu tiên. Sau đó sử dụng phương pháp nén RLC, Huffman.
5.2. Nén Interframe
Nén Interframe nhằm mục đích giảm độ dư thừa thời gian giữa các frame trong
chuỗi video. Nén interframe là mã hóa sự sai khác giữa frame hiện tại và frame
tham chiếu. Với đầu vào là các frame đã được chia thành các marco block, sử dụng
hai kỹ thuật:

- Kỹ thuật ước lượng chuyển động: nhằm mục đích tính ra vector chuyển
-

động, sử dụng frame tham chiếu (frame I) để tìm frame dự đoán (frame
P).
Kỹ thuật bù chuyển động: nhằm mục đích khôi phục lại ảnh sau nén.

6. Sơ đồ giải nén theo chuẩn H.261

Hình 9: Sơ đồ giải nén theo chuẩn H.261

III. Tổng quan về chuẩn H263
Chuẩn nén video H.263 là chuẩn mã hóa nén video/audio do nhóm VCEG
(Video Coding Experts Group) thuộc tổ chức ITU đưa ra năm 1998. H.263 được coi
là thế hệ tiếp theo của chuẩn H.261, cũng được dùng cho các hội nghị video trực
tuyến. Năm 1998, ITU cải tiến chuẩn này và cho ra đời chuẩn H.263v2 (còn gọi là

H.263+ hay H.263 1998). Năm 2000, chuẩn H.263v3 ra đời (còn gọi là H.263++
hay H.263 2000). H.263 được phát triển dựa trên những kinh nghiệm được rút ra từ
các chuẩn H.261, MPEG-1 và MPEG-2. Thiết kế cơ bản giống H.261, cộng thêm
nhiều cải tiến về khả năng nén và tính linh hoạt.

1. Tổng quan

- Định dạng: H.263 hỗ trợ độ phân giải từ 128x96 đến 1408x1152.

Hình 10: Định dạng H.263 hỗ trợ

- Hệ màu: Chuẩn H.263 cũng sử dụng hệ màu YUV giống như chuẩn H.261.
- Phân chia frame: H.263 có hai loại frame là I-Frame và P-Frame và có
thêm PB Frame. PB frame có nguồn gốc từ P và B frame và là sự kết hợp
của cả hai.

Hình 11: Chuỗi frame H.263

- Cấu trúc phân lớp:
• Image (frame)
• Group of Blocks (GOB)
• Macroblock (MB)
• Block ( chứa thông tin về Y, Cr, Cb).
- Cấu trúc lấy mẫu: 4:2:0, 4:2:1, 4:2:2
- Quá trình nén: H.263 có những cải tiến trong việc dự đoán các chuyển
động và thuật toán giảm dữ liệu dư thừa, phân lớp được tối ưu hơn nhiều so
với các chuẩn trước đó.

- Vector chuyển động trong H.263 có độ chính xác nửa pixel.

Hình 12: Vị trí pixel khi nén H.263

2. Những cái tiến của H.263

- H.263 sử dụng bù chuyển động với độ chính xác sub-pixel thay vì sử dụng
-

bộ lọc vòng để làm mượt các frame như trong H.261.
Thuật toán mã hóa mới, thay thế RLE và Huffman
Trong ước lượng chuyển động, H.263 sử dụng 4 blocks 8x8 pixels thay vì 1
block 16x16 pixels => chi tiết hơn.
H.263 có sử dụng PB frame ◊ dự đoán dựa vào frame trước và sau, tương tự
như MPEG. Do đó độ chính xác cao hơn, chất lượng video tốt hơn.
Chuẩn H.263 có sử dụng nhiều cấu trúc GOB khác nhau hơn là H.261.
H.263 hỗ trợ độ phân giải từ 128x96 đến 1408x1152.

CHƯƠNG 2
So sánh sơ đồ khối chung của công nghệ nén
ảnh video theo chuẩn ITU (H.261) với nén ảnh
video theo chuẩn MPEG (MPEG-1)

Hình 13: Sơ đồ nén theo chuẩn H.261

Hình 14: Sơ đồ nén theo chuẩn MPEG-1

I. Giống nhau
Các phương pháp nén theo chuẩn MPEG và H.26x có nhiều điểm giống nhau.
Có thể kể ra một số điểm giống nhau cơ bản như:

- Sử dụng DCT để giảm thiểu độ dư thừa intraframe.
- Nén interframe dựa trên kỹ thuật ước lượng chuyển động và kỹ thuật bù
-

-

chuyển động.
Do mắt người có thể phân biệt sự thay đổi về độ sáng của ảnh (brightness)
tốt hơn so với sự thay đổi về màu (chromaticity) nên hầu hết các sơ đồ
nén theo chuẩn MPEG và H26X đều tiến hành chia bức ảnh thành một
thành phần về độ sáng Y (luminance) và hai thành phần về độ màu UV
(chrominance).
Các tín hiệu video thành phần được lấy mẫu (samples) và số hoá (digitised)
để tạo nên các điểm ảnh rời rạc theo tỷ lệ 4:2:2, 4:2:0 và 4:1:1.
Các sơ đồ nén theo MPEG, H26X đều dùng kỹ thuật subsampling và lượng
tử hoá trước khi mã hoá nhằm giảm kích thước bức ảnh đầu vào theo cả
chiều ngang và chiều dọc.
Đều tiến hành chia khung hình thành các khối điểm ảnh để việc xử lý các
khung hình có thể được thực hiện ở cấp độ block.
Giảm thời gian phụ thuộc giữa các khối trong các khung hình kế tiếp. Điều
này thực hiện bằng các kỹ thuật ước lương chuyển động và bù chuyển động.
Đối với bất kì khối nào, việc tìm kiếm được thực hiện trong các khung mã

-

hóa trước đó để xác định vector chuyển động mà sau đó được sử dụng bởi bộ
mã hóa và giải mã để dự đoán khối chủ đề.
Giảm độ dư thừa không gian trong các khung hình video bằng cách mã hóa
một số khối gốc thông qua việc dự báo về không gian, lượng tử hóa, các
phép biến đổi và mã hóa dữ liệu ngẫu nhiên, mã hóa độ dài thay đổi.
Giảm không gian dư thừa còn lại tồn tại trong các khung hình video bằng
cách mã hóa các khối còn lại… tức là sự sai khác giữa các khối tương ứng

ban đầu và các khối dự đoán, một lần nữa thông qua biến đổi, lượng tử hóa
và mã hóa dữ liệu ngẫu nhiên.

II. Khác nhau
1. Cấu trúc phân lớp dữ liệu
Chuẩn nén H.261 tổ chức dữ liệu theo dòng các frame, với hai loại frame là:
frame I và frame P, còn MPEG-1 sử dụng cả frame I, P, B.

Hình 15: Chuỗi frame theo chuẩn H.261

Hình 16: Chuỗi frame theo chuẩn MPEG-1

Trong mỗi frame của chuẩn H.261, dữ liệu được tổ chức thành các GOB (Group
Of Block) có kích thước giống nhau theo từng chuẩn định dạng. Mỗi frame của
chuẩn MPEG-1 được tổ chức thành các GOP (Group Of Picture) có kích thước có
thể không giống nhau.

Hình 17: Cấutr úc phân lớp dữ liệu theo chuẩn H.261

Hình 18: Cấu trúc phân lớp dữ liệu theo chuẩn MPEG-1

2. Định dạng video

- H.261 sử dụng 2 chuẩn định dạng CIF (352x288 pixels) và QCIF (176x144
-

pixels).
MPEG-1 sử dụng các chuẩn định dạng CIF, SIF (Source Input Format) và có

thể thiết lập độ phân giải lên đến 4095x4095 pixels.

3. Quá trình lượng tử hóa
Chuẩn H.261 sử dụng một bảng lượng tử hóa cho tất cả các block. Nhưng chuẩn
MPEG-1 sử dụng hai bảng lượng tử hóa khác nhau cho các block của intraframe và
các block của interframe.
4. Độ chính xác của kỹ thuật bù chuyển động
Độ chính xác của kỹ thuật bù chuyển động trong chuẩn nén video MPEG-1 lên
đến ½ pixel, còn chuẩn nén H.261 là 1 pixel.

CHƯƠNG 3
Thử nghiệm ứng dụng

CHƯƠNG 5
Kết luận
Do không có nhiều thời gian tìm hiểu kỹ nên báo cáo của chúng em chắc chắn
còn thiếu sót nhiều vấn đề. Có rất nhiều chuẩn nén và phù hợp với những mục đích
sử dụng cụ thể. Chúng em sẽ tiếp tục tìm hiểu, bổ sung thêm về các chuẩn nén
video và truyền thông đa phương tiện.
Chúng em xin chân thành cảm ơn cô Nguyễn Thị Hoàng Lan về những góp ý và
giúp đỡ của cô trong quá trình làm báo cáo này.

Tài liệu tham khảo
- Bài giảng Xử lý dữ liệu đa phương tiện, PGS.TS Nguyễn Thị Hoàng Lan,
-

Viện Công nghệ thông tin và truyền thông, Đại học Bách Khoa Hà Nội.

H.261 Video Slide, Mark Handley, Department of Computer Science,
London’s Global University.
H.261 Standards Presentation, Qaiser, Ahmed Patel.
Video Compression 1: H.261 Coding Basics Slide, Multimedia Systems
Concepts Standards and Practice Course, Ramesh Yerraballi.
Chapter 11: MPEG Video Coding I – MPEG-1/2, CMPT 820: Multimedia
Systems Course, Mohamed Hefeeda

Tìm hiểu chuẩn nén ITU và thử nghiệm ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về