Tải bản đầy đủ (.pdf) (76 trang)

thuật toán tìm kiếm nhanh khối tiên đoán trong ảnh bộ mã hóa h 265 hevc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.11 MB, 76 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------------------

NGUYỄN QUỐC VIỆT

THUẬT TOÁN TÌM KIẾM NHANH
KHỐI TIÊN ĐOÁN TRONG ẢNH BỘ
MÃ HÓA H.265/HEVC

LUẬN VĂN THẠC SỸ KỸ THUẬT
CHUYÊN NGHÀNH KỸ THUẬT ĐIỆN TỬ

Hà Nội, 10-2014


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
----------------------------------------------------

NGUYỄN QUỐC VIỆT

THUẬT TOÁN TÌM KIẾM NHANH
KHỐI TIÊN ĐOÁN TRONG ẢNH BỘ
MÃ HÓA H.265/HEVC
Chuyên nghành: Kỹ thuật điện tử
LUẬN VĂN THẠC SỸ KỸ THUẬT

Người hướng dẫn khoa học:
TS. NGUYỄN VŨ THẮNG


Hà Nội, 10-2014


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “ Thuật toán tìm kiếm nhanh khối tiên đoán trong
ảnh bộ mã hóa H.265/HEVC” là công trình nghiên cứu của riêng tôi.
Các số liệu và kết quả nghiên cứu trong luận văn này là trung thực và chưa
từng công bố trong bất kỳ công trình nào khác.
Hà nội, ngày 15 tháng 9 năm 2014
Tác giả luận văn

Nguyễn Quốc Việt

Nguyễn Quốc Việt

iii


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

LỜI NÓI ĐẦU

H


iện nay, chúng ta đang sống trong một “kỷ nguyên truyền thông đa phương
tiện” các thiết bị mới, các kỹ thuật mới lần lượt ra đời nhằm mục đích đáp

ứng nhu cầu giải trí cho con người ngày một tốt hơn. Các ứng dụng đa phương tiện
thời gian thực truyền trên mạng di động, mạng Internet, mạng truyền hình…ngày
càng phát triển rầm rộ, các nhà sản xuất thiết bị chú trọng áp dụng các công nghệ
nén tiên tiến vào thiết bị của mình nhằm thỏa mãn nhu cầu “chất lượng trung thực
về âm thanh, hình ảnh” của con người cũng như khả năng đáp ứng yêu cầu thực tế
của công nghệ. Thế nhưng không phải nhu cầu nào của chúng ta cũng có thể được
đáp ứng một cách thuận lợi, vì sự gắn liền giữa độ phức tạp, tốn kém chi phí đầu tư
cơ sở hạ tầng, thiết bị đầu cuối…, luôn đi kèm với công nghệ cao. Bên cạnh đó vấn
đề truyền thông nội dung đa phương tiện hiện nay đang gặp một số khó khăn: băng
thông đường truyền, nhiễu kênh, giới hạn của pin cho các ứng dụng…. Trong khi
băng thông kênh truyền phải chờ đợi một công nghệ mới của tương lai mới có thể
cải thiện, còn việc cải thiện giới hạn của pin dường như không đáp ứng được sự
phát triển của các dịch vụ trong tương lai, thì phương pháp giảm kích thước dữ liệu
bằng các kỹ thuật nén là một cách giải quyết hiệu quả các khó khăn trên.
Cho đến nay có rất nhiều kỹ thuật nén dữ liệu đa phương tiện như: chuẩn
JPEG, chuẩn JPEG2000, chuẩn MPEG…đã ra đời trong lịch sử số hóa của loài
người. Gần đây nhất là sự thành công của tiêu chuẩn mã hóa MPEG-4 H.264/AVC
đã được áp dụng trong nhiều lĩnh vực từ truyền luồng internet tốc độ bit thấp đến
các ứng dụng quảng bá HDTV và cinema số, truyền thông video qua mạng internet,
truyền hình di dộng theo chuẩn DVB-H, truyền hình số mặt đất, truyền hình theo
yêu cầu, tin nhắn đa phương tiện MMS… qua các mạng ISDN, DSL, Wireless,
LAN và vệ tinh…Nhưng với yêu cầu bộ mã hóa có thể tương thích với các ứng
dụng tốc độ bit thấp, mà lại cho chất lượng video ngày càng cao thì nghành công
nghiệp số hóa không thể dừng lại ở H.264/AVC. Từ việc nghiên cứu khắc phục
nhược điểm và phát triển bổ sung cho H.264/AVC để cho ra đời những chuẩn nén
tiên tiến hơn, mà nổi bật là H.265/HEVC. Đây là một định dạng nén kế thừa H.264
/AVC được phát triển bởi một nhóm kết hợp từ 2 tổ chức ISO/IEC Moving Picture

Experts Group(MPEG) và iTU-T Video Coding Experts Group (VCEG). HEVC có
Nguyễn Quốc Việt

iv


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

tỷ lệ nén dữ liệu gấp đôi so với H.264/MPEG-4/AVC ở cùng một mức độ chất
lượng video. Nói cách khác nó có thể được sử dụng để cung cấp chất lượng hình
ảnh được cải thiện đáng kể tại cùng một tốc độ bit. Hỗ trợ tới 8k Utral HD và độ
phân giải lên đến 8192×4320 (4320P).
Nhờ đó, chúng ta không phải trả quá nhiều tiền cho việc xem phim với kết
nối 3G/4G mà vẫn thưởng thức được video chất lượng cao, thời gian tải nội dung
cũng giảm đi. Video độ phân giải 4K Ultra-HD cũng vì thế mà trở nên phổ biến
hơn, miễn là hạ tầng mạng có thể đáp ứng được băng thông trong khoảng 2030Mbps (vẫn còn cao hơn nhiều so với băng thông mạng hiện nay, nhưng hoàn toàn
có thể trong tương lai).
ITU cho biết thêm rằng một số đối tác hiện đang bắt đầu nghiên cứu việc tích
hợp H.265, bao gồm ATEME, Broadcom, Cyberlink, Ericsson, Fraunhofer HHI,
Mitsubishi và NHK. Codec H.265/HEVC bao gồm ba cấu hình chính: Main (hỗ trợ
video 8-bit 4:2:0), Main 10 (hỗ trợ video 10 bit) và Main Still Picture (dành cho
việc nén ảnh tĩnh, dùng chung công cụ với quá trình nén video). Trong thời gian tới,
ITU và một số bên có liên quan sẽ tiếp tục phát triển các bản mở rộng cho H.265,
bao gồm khả năng hỗ trợ video 12-bit cũng như các định dạng màu cao cấp 4:2:2,
4:4:4. Phim 3D stereoscopic cũng nằm trong danh sách nghiên cứu để bổ sung cho
H.265/HEVC. Có khả năng phần mềm giải mã/mã hóa cho H.265 sẽ xuất hiện vào
cuối năm 2014, tuy nhiên chỉ khi nào các nhà sản xuất tích hợp bộ chuyển mã vào
trong chip thì H.265 mới bắt đầu "cất cánh" (thường giai đoạn này mất từ 12 đến 18

tháng, có thể dài hơn).
Chính vì những ưu điểm đó mà H.265/HEVCsẽ dần chứng tỏ vị thế số 1 của
mình (điều tường tự đã đến với H.264/AVC), những ưu việt mà chuẩn nén này
mang lại chắc chắn sẽ có ảnh hưởng tích cực đến thị trường phim ảnh, ứng dụng số
hóa cũng như ngành công nghiệp chế tạo thiết bị đầu cuối. Để có thể hiểu biết hơn
về tiêu chuẩn nén tiên tiến này, em đã chọn đề tài “Thuật toán tím kiếm nhanh
khối tiên đoán trong ảnh bộ mã hóa H.265/HEVC” làm luận văn tốt nghiệp của
mình. Sau hơn 6 tháng nỗ lực hết mình, về cơ bản luận văn cũng đã cho ta cái nhìn
tổng quát về chuẩn nén H.265/HEVC, đồng thời em đã đưa ra được cải tiến về kỹ
thuật nén trong ảnh trong H.265/HEVC. Tuy nhiên do có sự hạn chế về kinh
Nguyễn Quốc Việt

v


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

nghiệm, thời gian,…nên sẽ không tránh khỏi sai sót, kính mong Quý Thầy Cô, đồng
nghiệp tham khảo, đóng góp ý kiến.
Em xin chân thành cảm ơn TS. Nguyễn Vũ Thắng đã hướng dẫn tận tình và
cung cấp tài liệu bổ ích trong quá trình làm luận văn, cảm ơn các bạn bè trong nhóm
làm việc đã quan tâm, chia sẻ, đóng góp ý kiến.
Kính chúc quý thầy cô và bạn bè được nhiều sức khỏe!

Nguyễn Quốc Việt

vi



Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

TÓM TẮT ĐỀ TÀI
Để thực hiện luận văn, em nghiên cứu chuẩn mã hóa video HEVC và xu
hướng cải tiến quá trình mã hóa HEVC từ năm 2010 trở lại đây đặc biệt là xu hướng
về cải tiến khối tiên đoán của HEVC. Mục đích của em là hiểu được thế giới đã làm
được những gì đối với khối tiên đoán trong chuẩn HEVC và những vấn đề còn tồn
đọng cần giải quyết trong khối tiên đoán của HEVC. Tiếp theo, em thực hiện việc
trích xuất các dữ liệu về giá trị của mỗi pixel và các thông tin kèm theo trong quá
trình tiên đoán của phần mềm HM 9.1 được cung cấp bởi ITU – T, phân tích các
loại dữ liệu đó để tìm ra đặc điểm chung, qua đó tìm ra thuật toán để xác định cách
thức hợp lý nhất để tiên đoán được các mode dự đoán một cách chính xác.Từ các
thông tin củacác block ảnh đầu vào, thông tin về mật độ phân bổ các mode tốt nhất
và qua giải thuật được đề xuất, khối tiên đoán Intra giảm số block cần dự đoán. Qua
đó giảm được khối lượng tính toán và thời gian thực hiện. Cuối cùng em đưa ra các
kết quả và tổng hợp của thuật toán.

Nguyễn Quốc Việt

vii


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

MỤC LỤC

LỜI CAM ĐOAN ..................................................................................................... iii
LỜI NÓI ĐẦU ...........................................................................................................iv
TÓM TẮT ĐỀ TÀI .................................................................................................. vii
MỤC LỤC ............................................................................................................... viii
DANH SÁCH HÌNH VẼ ............................................................................................ x
DANH SÁCH BẢNG BIỂU .................................................................................... xii
DANH SÁCH CÁC TỪ VIẾT TẮT ....................................................................... xiii
LỜI MỞ ĐẦU ............................................................................................................. 1
Chương 1.

BỘ MÃ HÓA/ GIẢI MÃ VIDEO CHUẨN H.265/HEVC................. 3

1.1

Giới thiệu về nén ảnh, các chuẩn nén ............................................................ 3

1.2

Giới thiệu chuẩn nén H.265/HEVC ............................................................... 7

1.3

Lịch sử phát triển của chuẩn nén H.265/HEVC ............................................ 8

1.4

Bộ mã hóa video chuẩn HEVC....................................................................10

1.4.1


Dự đoán .................................................................................................12

1.4.2

Biến đổi và lượng tử hóa.......................................................................13

1.4.3

Sắp xếp lại .............................................................................................13

1.5

Bộ giải mã video chuẩn HEVC ...................................................................14

Chương 2.
2.1

MÔ TẢ CHI TIẾT VỀ BỘ MÃ HÓA TRONG HEVC ....................15

Phân vùng hình ảnh .....................................................................................15

2.1.1

Phân vùng khối cây mã hóa ..................................................................15

2.1.2

Cấu trúc phân đoạn theo dải .................................................................15

2.1.3


Khối mã hóa (CU).................................................................................17

2.1.4

Cấu trúc cây mã hóa..............................................................................17

2.1.5

Cấu trúc khối dự đoán (PU) ..................................................................18

2.1.6

Khối chuyển đổi (TU) và cấu trúc cây chuyển đổi ...............................19

2.2

Dự đoán trong ảnh .......................................................................................20

2.2.1

Các chế độ dự đoán ...............................................................................20

2.2.2

Bộ lọc cho các mẫu lân cận ..................................................................22

2.3

Dự đoán liên ảnh..........................................................................................22


2.3.1

Các chế độ dự đoán ...............................................................................22

2.3.2

Lựa chọn các ứng viên cho chế độ kết hợp ..........................................23

2.3.3

Các ứng viên kết hợp theo thời gian. ....................................................25

2.3.4

Các ứng viên kết hợp được tạo ra .........................................................27

Nguyễn Quốc Việt

viii


Thuật toán tìm kiếm nhanh-HEVC
2.4

GVHD: TS. Nguyễn Vũ Thắng

Dự đoán vector chuyển động .......................................................................27

2.4.1


Lựa chọn các vector ứng viên ...............................................................28

2.4.2

Các vector ứng viên theo không gian ...................................................29

2.5

Lọc nội suy ..................................................................................................30

2.6

Bộ lọc vòng ..................................................................................................32

2.6.1

Bộ lọc xóa khối .....................................................................................32

2.6.2

Xác định đường biên .............................................................................33

2.6.3

Tính toán mức độ viền ..........................................................................33

2.6.4

Lựa chọn β và tc ....................................................................................35


2.7

Bù mẫu theo ngữ cảnh (SAO) .....................................................................35

Chương 3.
ĐOÁN
3.1

PHÂN TÍCH DỮ LIỆU CHUYỂN ĐỘNG SAU QUÁ TRÌNH TIÊN
38

Phần mềm tham chiếu H.265/HEVC...........................................................38

3.1.1

Giới thiệu về bộ mã hóa và giải mã HM...............................................38

3.1.2

Định dạng video đầu vào ......................................................................40

3.1.3

Hướng dẫn sử dụng phần mềm HM9-1: ...............................................40

3.2

Thực hiện dự đoán trong phần mềm HM9.1 ...............................................42


3.2.1

Tính toán sai lệnh ..................................................................................42

3.2.2

Quyết định mã hóa liên ảnh và trong ảnh .............................................44

3.2.3

Ước lượng chuyển động và bù chuyển động ........................................46

3.3

Phân tích đặc tính các mode ........................................................................48

3.3.1
Chương 4.

Đề xuất giải thuật chọn mode nhanh ....................................................52
TRIỂN KHAI CÁC THUẬT TOÁN ĐÃ ĐỀ XUẤT .......................54

4.1 Triển khai thuật toán tìm kiếm nhanh dựa vào phân tích mật độ phân bổ
mode tốt nhất .........................................................................................................54
4.2

Kết quả thực nghiệm....................................................................................55

4.3


Tổng kết .......................................................................................................56

KẾT LUẬN ...............................................................................................................58
TÀI LIỆU THAM KHẢO .........................................................................................59
BẢNG ĐỐI CHIẾU THUẬT NGỮ VIỆT – ANH ...................................................62

Nguyễn Quốc Việt

ix


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

DANH SÁCH HÌNH VẼ
Hình 1-1 Sơ đồ khối chức năng tổng quát bộ mã hóa video chuẩn HEVC ..............11
Hình 1-2 quét zigzac a: quét khung b: quét trường. ..................................................13
Hình 1-3Sơ đồ khối chức năng tổng quát bộ giải mã video chuẩn HEVC ...............14
Hình 2-1Ví dụ về chia hình ảnh thành các khối cây mã hóa ....................................15
Hình 2-2 Ví dụ về lớp phân đoạn và dải phân đoạn..................................................17
Hình 2-3 Ví dụ về cấu trúc cây mã hóa.....................................................................18
Hình 2-4 Các chế độ phân vùng trong khối PU mã hóa liên ảnh..............................19
Hình 2-5 Ví dụ về cấu trúc cây chuyển đổi trong khối CU ......................................19
Hình 2-6 33 hướng dự đoán trong ảnh ......................................................................20
Hình 2-7 Liên hệ giữa hướng dự đoán trong ảnh và chế độ tương ứng của thành
phần độ chói ..............................................................................................................21
Hình 2-8 Quá trình lựa chọn ứng viên cho chế độ kết hợp .......................................23
Hình 2-9 Các vị trí cho ứng viên kết hợp theo không gian .......................................24
Hình 2-10 Vị trí ứng viên cho khối PU thứ hai dạng Nx2N và 2NxN .....................25

Hình 2-11 Minh họa cho việc lấy tỉ lệ vector chuyển động cho tìm kiếm ứng viên
kết hợp theo thời gian ................................................................................................26
Hình 2-12 Vị trí ứng viên kết hợp theo thời gian, C3 và H. .....................................26
Hình 2-13 Ví dụ về ứng viên kết hợp được tổ hợp từ hai chiều ...............................27
Hình 2-14 Quá trình lựa chọn các vector ứng viên ...................................................28
Hình 2-15 Minh họa việc lấy tỉ lệ cho vector ứng viên theo không gian..................30
Hình 2-16 Nội suy các điểm ảnh phụ cho thành phần độ chói .................................31
Hình 2-17 Quá trình xử lý lọc xóa khối ....................................................................33
Hình 2-18 Xác định giá trị Bs ...................................................................................34
Hình 2-19 4 mảng 3x3 để phân loại điểm ảnh trong kiểu bù viền ............................37
Hình 3-1Các tập tin trong phần mềm HM-9.1 ..........................................................38
Hình 3-2Xử lý mã hóa video trong HM-9.1 .............................................................39
Hình 3-3 Thứ tự quét điểm ảnh với video tỉ lệ 4:2:0 ................................................40
Hình 3-4 Cửa sổ lệnh trong quá trình mã hóa ...........................................................41
Hình 3-5 Luồng xử lý dự đoán ..................................................................................42
Hình 3-6 Tính toán RDO...........................................................................................43
Nguyễn Quốc Việt

x


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

Hình 3-7 Lựa chọn chế độ dự đoán liên ảnh và trong ảnh của hàm xCompressCU .45
Hình 3-8 Ước lượng chuyển động và bù chuyển động .............................................46
Hình 3-9 Quá trình ước lượng chuyển động .............................................................47
Hình 3-10 Đầu vào và đầu ra của quá trình ước lượng chuyển động .......................47
Hình 3-11 Mật đổ phân bổ mode tiên đoán với video mẫu BasketballPass .............48

Hình 3-12 Mật độ phân bổ mode tiên đoán với video mẫu BlowingBubbles ..........48
Hình 3-13 Mật độ phân bổ mode tiên đoán với video mẫu BQMall ........................49
Hình 3-14 Mật độ phân bổ mode tiên đoán với video mẫu BQSquare .....................49
Hình 3-15 Mật độ phân bổ mode tiên đoán với video mẫu Kimono1 ......................50
Hình 3-16 Mật độ phân bổ mode tiên đoán với video mẫu PartyScene ...................50
Hình 3-17 Mật độ phân bổ mode tiên đoán với video mẫu PeopleOnStreet ............51
Hình 3-18 Mật độ phân bổ mode tiên đoán với video mẫu RaceHorses ..................51
Hình 3-19 Mật độ phân bổ mode tiên đoán trung bình của các video mẫu ..............52
Hình 3-20 Giải thuật tìm kiếm nhanh .......................................................................53

Nguyễn Quốc Việt

xi


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

DANH SÁCH BẢNG BIỂU
Bảng 2.1 Độ sâu lớn nhất của cấu trúc cây chuyển đổi ............................................19
Bảng 2.2 Liên hệ giữa hướng dự đoán trong ảnh và chế độ tương ứng của thành
phần màu ...................................................................................................................21
Bảng 2.3 Mô tả ngưỡng cho phép cho các khối chuyển đổi có kích thước khác nhau
...................................................................................................................................22
Bảng 2.4 Hệ số lọc cho thành phần độ chói ..............................................................31
Bảng 2.5 Hệ số bộ lọc 4 điểm cho thành phần màu ..................................................31
Bảng 2.6 Lựa chọn giá trị ngưỡng β và tc từ giá trị Q...............................................35
Bảng 2.7 Các chế độ bù mẫu theo ngữ cảnh .............................................................36
Bảng 2.8 Quy tắc phân loại điểm ảnh kiểu bù viền ..................................................37

Bảng 3.1 Cấu trúc các thư mục trong phần mềm HM-9.1 ........................................40

Nguyễn Quốc Việt

xii


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

DANH SÁCH CÁC TỪ VIẾT TẮT
ITU-T

International

Telecommunication

Union

Telecommunication

Standardization Sector
MPEG

Moving Picture Experts Group

IP

Intellectual Property


I, P, B

Intra, Prediction, Bi-prediction

LCU

Largest Coding Unit

CTB

Coding Tree Block

CU

Coding Unit

PU

Prediciton Unit

TU

Transform Unit

SAO

Sample Adaptive Offset

PSNR


Peak signal to noise ratio

POC

Picture Of Counter

CBF

Coded Block Flag

RDO

Rate Distortion Optimization

SAD

Sum of Absolute Difference

SATD

Hamadard transformed SAD

SSE

Sum of Square Error

ME

Motion estimation


Nguyễn Quốc Việt

xiii


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

LỜI MỞ ĐẦU
Multimedia và các ứng dụng của nó đã đang phát triển hết sức mạnh mẽ trên
hầu hết các lĩnh vực. Trong các ứng dụng của Multimedia thì Video chiếm vai trò
lớn trong ngành công nghiệp giải trí. Tuy nhiên, dữ liệu video không nén (video
thô) thường chiếm dung lượng rất lớn (xấp xỉ 216 Mbits cho mỗi giây video không
nén chuẩn NTSC 30 fps độ phân giải 720x 480 điểm ảnh). Với sự phát triển của
khoa học kỹ thuật, ngày nay đã sản xuất được bộ cảm biến màu có độ phân giải lên
đến 16 triệu pixel tương đương với một bức ảnh có độ phân giải 4096x4096 pixels
Ứng dụng cần độ phân giải cao nhất đang được sử dụng thông dụng hiện nay là full
HD 1920x1080 pixel. Một số sản phẩm tiêu dùng hiện đại mới nhất với độ phân giải
Ultra HD đã dùng đến công nghệ 4K với một trong hai độ phân giải độ nét cao:
3840 x 2160 pixel hoặc 4096 x 2160 pixel nhưng cũng tùy vào các thời điểm và lĩnh
vực, chẳng hạn như trong môi trường chuyên nghiệp hoặc thương mại là 4K x 2K,
Quad High Definition, hoặc 2160p. Độ phân giải 4K hiện đang được sử dụng ngày
càng nhiều trong các máy quay phim điện ảnh kỹ thuật số thương mại sử dụng tùy
chọn độ phân giải 4096 x 2160 điểm ảnh, nhiều hơn và nhiều hơn nữa các bộ phim
điện ảnh đang quay hoặc sử dụng bản master với định dạng 4K, hoặc upscaled từ
2K (1998x1080 tỉ lệ khung hình 1.85:1 hoặc 2048 x 858 tỉ lệ khung hình 2.35:1).
Với tất cả các điều trên, một tín hiệu video số ngày càng chứa một lượng lớn dữ
liệu, do đó sẽ gặp rất nhiều khó khăn trong việc lưu trữ và truyền đi trong một băng

thông kênh truyền hạn chế. Vì thế nén video đã trở thành phần không thể thiếu cho
lưu trữ và truyền phát video số. Có nhiều chuẩn nén video khác nhau, trong đó
chuẩn nén được sử dụng rộng rãi hiện nay là chuẩn MPEG – 2. Chuẩn MPEG – 2 đã
ra đời từ khá lâu và đã tới lúc cần phải có các chuẩn mới khác có thể đem lại hiệu
suất nén cao hơn, mềm dẻo hơn để thích hợp với nhiều dịch vụ hơn. Phổ biến nhất
hiện nay là H.264 - một chuẩn nén video mới ra đời năm 2003, hiện đang phát triển
mạnh và sẽ được ứng dụng rộng rãi trong thời gian vài năm tới. Kế thừa những kết
quả đã đạt được từ H.264, chuẩn nén HEVC bắt đầu được đưa vào nghiên cứu từ
năm 2010 với mong muốn thu được kết quả nén còn cao hơn nhiều lần so với H.264
Bộ mã hóa/ giải mã video chuẩn HEVC đem lại nhiều cải tiến về chất lượng
và hiệu quả nén. Với mỗi khối xử lý của H.265 đều được tăng thêm khả năng xử lý
Nguyễn Quốc Việt

1


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

mềm dẻo linh hoạt hơn so với H.264 do đó có thể tăng hiệu quả nén lên tới 50% so
với H.264 nhưng tăng khối lượng tính toán lên gấp nhiều lần. Điều này không phù
hợp cho việc triển khai với các ứng dụng có tài nguyên hữu hạn và các ứng dụng
liên quan tới thời gian thực. Trong số các khối xử lý của HEVC, khối tiên đoán là
khối chiếm tới 80% khối lượng tính toán trong toàn bộ quá trình mã hóa video cũng
là khối chủ đạo giúp cho H265 tăng khả năng nén lên gấp nhiều lần so với các
chuẩn nén video trước đây. Lợi dụng những tính chất chung của ảnh, để giảm khối
lượng tính toán nhưng vẫn giữ nguyên được hiệu quả nén trong khối tiên đoán là
một trong những xu hướng chủ đạo trong việc cải tiến khối tiên đoán. Để giúp cho
việc cải tiến khối tiên đoán, em sử dụng phần mềm mã hóa và giải mã video chuẩn

H265 do ITU – T cung cấp để trích xuất thông tin và sử dụng ngôn ngữ lập trình
C++ để phân tích dữ liệu và xây dựng thuật toán. Sau đó em sử dụng các vector
chuyển động để triển khai thuật toán giúp giảm khối lượng tính toán.
Nội dung các chương như sau:
 Chương 1: Giới thiệu chung về bộ mã hóa và giải mã chuẩn
H.265/HEVC.
 Chương 2: Mô tả chi tiết về bộ mã hóa chuẩn H.265/HEVC.
 Chương 3: Giới thiệu phần mềm HM 9.1, cách trích xuất thông tin sau
quá trình tiên đoán, phân tích thông tin chuyển động và đưa ra cách
tiên đoán vector chuyển động.
 Chương 4: Thuật toán tìm kiếm nhanh dựa vào vector chuyển động
tiên đoán được và kết quả.

Nguyễn Quốc Việt

2


Thuật toán tìm kiếm nhanh-HEVC

Chương 1.

GVHD: TS. Nguyễn Vũ Thắng

BỘ MÃ HÓA/ GIẢI MÃ VIDEO CHUẨN
H.265/HEVC

Chương này giới thiệu về các chuẩn nén video hiện có cũng như trình bày các
nguyên lý cơ bản trong nén video, tập trung đi sâu vào trình bày các ưu điểm của
chuẩn nén video HEVC cũng như bộ mã hóa/giải mã video chuẩn HEVC.

1.1

Giới thiệu về nén ảnh, các chuẩn nén
Nén video là một kỹ thuật giảm khối lượng dữ liệu không cần thiết

để lưu trữ hình ảnh, nó là một sự kết hợp giữa nén trong ảnh (giảm thiểu đồ dư thừa
về mặt không gian) và nén liên ảnh (giảm thiểu dư thừa về mặt thời gian). Nén
video làm giảm một cách đáng kể băng thông cần thiết để truyền video số qua
vô tuyến (viba, vệ tinh,..), hữu tuyến (cáp quang, cáp đồng,..)
Có 2 loại nén được sử dụng nén video là nén có tổn hao và nén không tổn
hao. Nén tổn hao là loại nén không mất không tin, cho phép phục hồi lại dữ liệu
giống như dữ liệu ban đầu sau khi qua bộ giải mã. Chuẩn nén đặc trưng cho loại nén
này là JPEG-LS với hệ số nén đạt được là 3-4 lần. Ngược lại với nén không tổn hao
là nén có tổn hao, loại nén này dựa trên nguyên lý là hầu hết dữ liệu trong video
trước khi nén là không cần thiết do đó có thể tinh giảm những loại dữ liệu đó đi mà
vẫn có thể giữ được chất lượng tốt. Trong đó, dữ liệu không cần thiết này được tập
trung vào phần dư thừa không gian và thời gian. Các chuẩn nén MPEG-2 Video,
MPEG-4 Visual, H.263, H.264,..là loại nén có tổn hao. Hầu hết các phương pháp
đều là nén tổn thất, chúng dựa trên nguyên lý chung là hầu hết dữ liệu trong video
trước khi nén là không cần thiết do đó có thể tinh giảm những loại dữ liệu đó đi mà
vẫn có thể giữ được chất lượng tốt. Ví dụ như DVD sử dụng chuẩn mã hóa video
MPEG – 2 có thể nén đoạn video dài khoảng 2 tiếng xuống 15 tới 30 lần mà vẫn
cho chất lượng hình ảnh cao so với video thông thường. Nén video cũng giống như
nén dữ liệu đòi hỏi sự cân bằng giữa dung lượng lưu trữ, chất lượng hình ảnh, độ
phức tạp của thuật toán mã hóa/giải mã, ổn định khi có lỗi xảy ra trên đường truyền,
độ trễ và giá thành của thiết bị cần để giải nén video trong thời gian chấp nhận
được. Tuy nhiên, nếu video bị nén quá mức sẽ có thể làm hỏng hình ảnh.

Nguyễn Quốc Việt


3


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

Quá trình nén video thực hiện trên một nhóm các điểm ảnh gần nhau và có
dạng hình vuông, được gọi là khối mã hóa lớn nhất. Các khối mã hóa lớn nhất được
so sánh giữa một khung hình với khung hình kế tiếp của nó và bộ mã hóa video sẽ
chỉ gửi đi sự khác biệt giữa các khối mã hóa lớn nhất này và vị trí khối mã hóa lớn
nhất tương ứng.
Nén video cũng giống như nén dữ liệu đòi hỏi sự cân bằng giữa dung lượng
lưu trữ, chất lượng hình ảnh, độ phức tạp của thuật toán mã hóa/giải mã, ổn định khi
có lỗi xảy ra trên đường truyền, độ trễ và giá thành của thiết bị cần để giải nén video
trong thời gian chấp nhận được.
Nguyên lý nén video.
Video là một tập hợp 3 chiều của các điểm màu, trong đó 2 chiều thuộc miền không
gian (ngang và dọc) còn chiều thứ 3 thuộc miền thời gian. Dữ liệu video có sự dư
thừa về mặt không gian và thời gian, vì vậy bộ mã hóa có thể tách ra những sự khác
biệt trong một khung hình (về không gian) hoặc giữa các khung hình (về thời
gian). Mã hóa không gian lợi dụng đặc điểm mắt người không thể phân biệt
được sự khác biệt nhỏ về màu sắc cũng như là sự phân biệt về ánh sáng, và vì vậy
có thể dễ dàng giảm những vùng màu giống nhau hoặc là lợi dụng đặc điểm chung
là những vùng điểm ảnh lân cận thì tương đối giống nhau, do đó có thể dựa vào
những điểm ảnh lân cận đã được mã hóa để giảm thiểu thông tin mã hóa. Đối với
nén miền thời gian, chỉ có sự thay đổi giữa các khung hình là được mã hóa bởi
thông thường có một lượng lớn các điểm ảnh là giống nhau trên một loạt các khung
hình. Một số kỹ thuật nén video là:
 Lấy mẫu tín hiệu màu tỉ lệ thấp (Chroma Subsampling ratio)

 Biến đổi Cosine rời rạc (Discrete Cosine Transform)
 Biến đổi Wavelet (Wavelet Transform
 Mã hóa độ dài biến đổi (Variable – length Coding)
 Dự đoán bù chuyển động
Một số chuẩn nén đã được công bố
 H.261: Sử dụng chủ yếu trong hội thảo truyền hình và điện thoại truyền
hình. H.261 được phát triển bởi ITU – T đã trở thành chuẩn nén video số
được ứng dụng đầu tiên. Về cơ bản thì tất cả các chuẩn nén video sau đó
Nguyễn Quốc Việt

4


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

đều được thiết kế dựa trên nó. Nó sử dụng không gian màu YCbCr lấy
mẫu dạng 4: 2: 0 với 8 bit, macroblock kích thước 16x 16, bù chuyển
động theo khối, biến đổi Cosine rời rạc theo khối kích thước 8x 8, quét hệ
số zig – zag, lượng tử hóa vô hướng, mã hóa chiều dài biến đổi, chỉ hỗ trợ
video liên tục…
 MPEG–1 Part 2: sử dụng cho VCD. Nếu chất lượng nguồn video tốt và
tốc độ đủ cao thì VCD có thể đạt chất lượng tốt hơn VHS. Để đạt được
chất lượng VHS cần độ phân giải cao hơn. Tuy nhiên để tương thích với
chuẩn VCD thì tốc độ bít giới hạn là 1150 kbit/s và độ phân giải cao nhất
là 352x 288 điểm ảnh. VCD đã trở thành chuẩn nén video tương thích
nhất với bất kỳ hệ thống nào. So với H.261, cải tiến quan trọng nhất là hỗ
trợ dự đoán bù chuyển động 2 chiều và nửa điểm ảnh (half – pel).
MPEG–1 chỉ hỗ trợ video liên tục.

 MPEG – 2 Part 2 (H.262): dùng cho DVD, SVCD và hầu hết hệ thống
truyền hình số vô tuyến và truyền hình cáp. Khi sử dụng trên DVD chuẩn,
nó cho một chất lượng hình ảnh tốt và hỗ trợ màn ảnh rộng. Khi dùng
trên SVCD, MPEG-2 Part 2 không tốt bằng DVD nhưng vẫn tốt hơn
VCD nhờ độ phân giải và tốc độ bit cao hơn. Bộ giải mã MPEG – 2 có
tính tương thích ngược nhờ đó có thể sử dụng MPEG – 1 trên bất kỳ hệ
thống nào hỗ trợ MPEG – 2. Cải tiến quan trọng nhất trong MPEG – 2
so với MPEG – 1 là hỗ trợ mã hóa video xen kẽ.
 H.263: sử dụng chủ yếu cho hội thảo truyền hình, điện thoại truyền hình
và video trên internet. H.263 tạo ra một bước tiến quan trọng trong khả
năng nén video đối với video liên tục. Đặc biệt ở tốc độ bit thấp, nó có
thể cung cấp một cải tiến thiết thực đối với tốc độ bit đòi hỏi để đạt được
độ trung thực cần thiết.
 MPEG – 4 Part 10 (H.264/AVC): còn gọi là chuẩn mã hóa video tiên
tiến (Advanced Video Coding), là sản phẩm kết hợp của ITU – T và
MPEG. Nó đã nhanh chóng được chấp nhận rộng rãi trong nhiều ứng
dụng. Nó bao gồm một số cải tiến quan trọng trong khả năng nén video,

Nguyễn Quốc Việt

5


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

và gần đây đã được chấp nhận trong các sản phẩm của một số công ty, ví
dụ như XBOX 360, PlayStation Portable, iPod, iPhone….
Ngoài ra cũng có một số chuẩn nén video sử dụng không gian màu RGB (Red –

Green – Blue). Những chuẩn này thực hiện lấy mẫu theo 3 màu đỏ - lục - lam với tỉ
lệ ngang bằng nhau.
Các loại ảnh trong nén video
Có 3 loại ảnh trong nén video: ảnh nén trong hình, ảnh dự đoán và ảnh dự
đoán hai chiều. Một khung hình thường được chia thành các khối mã hóa lớn
nhất(LCU – Largest Coding Unit). Các kiểu mã hóa khác nhau có thể được dùng
cho từng khối mã hóa lớn nhất thay vì cho toàn bộ khung hình.
 Ảnh nén trong hình I (Intra coded frame)
Ảnh I chỉ có thể chứa các khối mã hóa lớn nhất mã hóa trong hình (I– LCU).
 Là ảnh được mã hóa mà không cần phải tham chiếu tới bất kỳ khung
hình nào khác ngoài chính nó.
 Có thể được tạo ra bởi bộ mã hóa để tạo các điểm truy nhập ngẫu
nhiên cho phép bộ giải mã có thể giải mã chính xác tại vị trí bất kỳ.
 Có thể được sử dụng khi sự khác nhau giữa các khung hình quá lớn
mà không thể tạo được ảnh P hoặc B hiệu quả đồng thời thời gian xử
lý dữ liệu nhanh.
 Thường đòi hỏi lưu trữ nhiều dữ liệu hơn so với các loại ảnh khác.
 Ảnh dự đoán ảnh phía trước (Previous coded picture)
Ảnh P có thể chứa cả khối mã hóa lớn nhất dự đoán từ khung đã được mã
hóa trước khung hiện tại theo thứ tự hiển thị (Previous – LCU) và khối mã
hóa lớn nhất mã hóa trong hình (Intra – LCU).
 Cần phải giải mã một số khung hình khác trước để có thể giải mã
được ảnh P.
 Dữ liệu đưa ra là dữ liệu sai khác giữa block của khung hiện tại và
block được chọn của khung tiên đoán và vector chuyển động để chỉ ra
vị trí của block tiên đoán.
 Có thể tham chiếu các khung hình trước đó theo thứ tự mã hóa.
Nguyễn Quốc Việt

6



Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

 Có thể sử dụng một hoặc nhiều khung hình được mã hóa trước khung
hiện tại theo thứ tự hiển thị.
 Đòi hỏi lưu trữ ít dữ liệu hơn ảnh I.
 Ảnh dự đoán hai chiều B (Bi –directional predictive picture)
Ảnh B có thể chứa cả khối mã hóa lớn nhất mã hóa trong hình (Intra – LCU),
khối mã hóa lớn nhất dự đoán dùng khung đã được mã hóa trước khung hiện
tại theo thứ tự hiển thị (P – LCU) và khối mã hóa lớn nhất dự đoán từ cả
khung đã được mã hóa trước và sau khung hiển thị theo thứ tự hiển thị (B –
LCU).
 Cần phải giải mã một số khung hình khác trước để có thể giải mã
được ảnh B.
 Dữ liệu đưa ra là dữ liệu sai khác giữa block của khung hiện tại và
block được chọn của khung tiên đoán và vector chuyển động để chỉ ra
vị trí của block tiên đoán.
 Bao gồm một vài kiểu dự đoán cho phép tạo các dự đoán vùng chuyển
động dựa trên sự dự đoán thu được của một hoặc hai vùng tham chiếu
khác nhau đã được giải mã trước đó.
 Đòi hỏi phải lưu trữ ít dữ liệu hơn ảnh I và P.
1.2

Giới thiệu chuẩn nén H.265/HEVC
HEVC là bộ mã hóa/giải mã mới nhất dựa trên dự đoán chuyển động theo

khối kế thừa từ chuẩn nén H.264 được phát triển bởi ITU-T và MPEG. Sự hợp tác

của 2 tổ chức này trong việc phát triển chuẩn này được gọi là Joint Collaborative
Team on Video Coding (JCT-VC).
Mục đích của dự án H.265/HEVC là tạo ra một chuẩn có khả năng cung cấp
chất lượng video tốt với tốc độ bit thấp hơn các chuẩn trước đó mà không đòi hỏi
phải tăng độ phức tạp của thiết kế quá nhiều để có thể chế tạo được với giá thành
không quá cao. Ngoài ra, một mục tiêu khác là cung cấp một chuẩn mềm dẻo để có
thể sử dụng cho một mảng lớn các ứng dụng trên nhiều hệ thống, bao gồm cả tốc độ
bit thấp và cao, độ phân giải thấp và cao, truyền hình, lưu trữ DVD, mạng gói
RTP/IP, và hệ thống điện thoại đa phương tiện ITU – T.
Nguyễn Quốc Việt

7


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

Dưới đây là một vài đặc điểm nổi bật của mã hóa HEVC so với phiên bản
H.264/AVC trước đó:
 Cấu trúc khối mã hóa linh động. Trong khi H.264 định nghĩa khối mã
hóa Macroblock có kích thước cố định là 16x16, HEVC cho phép kích
thước mã hóa thay đổi trong khoảng từ 64x64 tới 8x8 pixel2sử dụng
phương pháp đệ quy chia một khối vuông thành 4 khối vuông bằng
nhau có diện tích bằng ¼ diện tích khối ban đầu.
 Áp dụng phương pháp mã hóa và giải mã dữ liệu song song, bên cạnh
việc xử lý theo dải (slices), HEVC còn áp dụng xử lý theo lớp (tiles)
và xử lý dạng sóng song.
 Đưa thêm nhiều chế độ dự đoán trong ảnh hơn (tất cả có 35 chế độ,
phần lớn trong các chế độ là dự đoán có hướng) có thể được thực hiện

với hầu hết các kích thước khối mã hóa vuông.
 Hỗ trợ một vài phép chuyển đổi nguyên, thay đổi kích thước trong
khoảng 4x4 tới 32x32.
 Cải thiện mã hóa thông tin chuyển động bằng chế độ ghép khối.
 Cải thiện việc xử lý tái cấu trúc ảnh, bao gồm bộ lọc xóa khối, bù mẫu
theo ngữ cảnh.
1.3

Lịch sử phát triển của chuẩn nén H.265/HEVC

Trong năm 2012
 29/2/2012, tại Đại hội di động thế giới 2012, Qualcomm trình diễn một
bộ giải mã hevc chạy trên một máy tính bẳng Android, với một
Qualcomm Snapdragon xử lý lõi kép S4 tốc độ 1,5 GHz.
 22/8/2012, Ericsson thông báo rằng bộ mã hóa HEVC đầu tiên của thế
giới, Ericsson SVP 5500. Các Ericsson SVP 5500 HEVC mã hóa được
thiết kế để mã hóa thời gian thực của video để giao cho các thiết bị di
động .
 02/09/2012 Vanguard Software Solutions (VSS) đã công bố phần mềm
mã hóa HEVC chạy ở 1080p30 (1920x1080, 30fps) trên một bộ xử lý
Intel Xeon duy nhất. Bộ mã hóa này đã được chứng minh tại IBC 2012.
Nguyễn Quốc Việt

8


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng


 06/9/2012, Tổng công ty Rovi thông báo rằng một Main Concept SDK
cho HEVC sẽ được phát hành vào đầu năm 2013 ngay sau khi HEVC
được chính thức phê chuẩn. Các HEVC MainConcept SDK bao gồm một
bộ giải mã, mã hóa, và đa vận chuyển cho Microsoft Windows , Mac OS ,
Linux , iOS , và Android.
 9/9/2012, ATEME chứng minh tại triển lãm thương mại một bộ mã hóa
HEVC với độ phân giải 3840×2160p ở 60fps.
Trong năm 2013
 07/01/2013, ViXS System thông báo rằng họ sẽ giới thiệu các phần cứng
SoC có khả năng chuyển mã video tới Main 10 của HEVC tại CES 2013.
Cùng ngày Tổng công ty Rovi thông báo rằng sau khi tiêu chuẩn HEVC
được phát hành rằng họ có kế hoạch hỗ trợ thêm cho HEVC SDK
MainConcept
 08/01/2013, Broadcom công bố BCM7445 là một Ultra HD con chip giải
mã có khả năng giải mã HEVC lên tới 4096x2160p ở 60 fps
 08/01/2013, Vanguard công bố sự sẵn có của V.265, một phần mềm mã
hóa chuyên nghiệp HEVC có khả năng hiệu suất thời gian thực
 4/2/2013, NTT DoCoMo công bố rằng bắt đầu từ tháng 3 sẽ bắt đầu cấp
giấy phép thực hiện các phần mềm giải mã HEVC. Trong một tài liệu
JCT-VC NTT Docomo cho thấy bộ giải mã phần mềm HEVC của họ có
thể giải mã 3840
 04/02/2013, NTT DoCoMo công bố rằng bắt đầu từ tháng ba sẽ bắt đầu
cấp giấy phép thực hiện các phần mềm giải mã HEVC. Trong một tài liệu
của JCT-VC NTT DoCoMo cho thấy bộ giải mã phần mềm HEVC của
họ có thể giải mã 3840×2160 ở 60fps
 19/04/2013, SES công bố lần đầu tiên UltraHD sử dụng các tiêu chuẩn
HEVC với độ phân giải 3840x2160 và tốc độ bit 20 Mbit/s
 09/05/2013, NHK và Mitsubishi Electric thông báo rằng họ đã cùng nhau
phát triển bộ mã hóa HEVC đầu tiên cho 8K Ultra HDTV, còn được gọi
là Super Hi-Vision (SHV) cho phép nó để mã hóa video 10-bit với độ

phân giải 7680x4320 ở 60 fps.
Nguyễn Quốc Việt

9


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

 04/06/2013, Tổng công ty Rovi phát hành MainConcept HEVC SDK 1.0
 08/08/2013, Nippon Telegraph and Telephone bố việc phát hành HEVC1000 mã hóa phần mềm SDK của họ hỗ trợ Main 10, độ phân giải lên
đến 7680x4320, và tỷ lệ khung hình lên đến 120 fps
 21/08/2013, Microsoft phát hành một DirectX Video Acceleration
(DXVA) cho HEVC hỗ trợ hồ sơ cá nhân chính. DXVA 2.0 ứng dụng
cho các hoạt động: phân tích bitstream, deblocking, nghịch đảo lượng tử
mở rộng quy mô, nghịch đảo chế biến, và bồi thường chuyển động.
 11/09/2013, ViXS System công bố XCode 6400 SoC hỗ trợ độ phân giải
4K 60 fps, Main 10 của HEVC.
 Từ ngày 12-17/2013 Chương trình IBC tại Amsterdam, HEVC là một chủ
đề quan trọng
 29/10/2013, Elemental Technologies công bố hỗ trợ xử lý video thời gian
thực 4K HEVC
 14/11/2013, các nhà phát triển DivX công bố thông tin HEVC hiệu suất
giải mã sử dụng một CPU i7 Intel 3,5 GHz. DivX 10.1 Beta bộ giải mã có
khả năng xử lý 210,9 fps ở 720p, 101.5 fps ở độ phân giải 1080p, và 29,6
fps ở 4K
 18/12/2013, ViXS System thông báo lô hàng của họ XCode 6400 SoC là
SoC đầu tiên hỗ trợ Main 10 của HEVC
Trong năm 2014

 15/01/2014, oViCs công bố VIC-1 HEVC bộ giải mã hỗ trợ Main 10 lên
đến 4K với tốc độ khung hình 120 fps
1.4

Bộ mã hóa video chuẩn HEVC
Giống như các chuẩn nén video trước đó, chuẩn HEVC không đưa ra thiết kế

của bộ mã hóa/giải mã video mà chỉ định nghĩa cú pháp của một dòng bit video đã
mã hóa cùng với phương thức để giải mã dòng bit. Trong thực tế, một bộ mã hóa và
giải mã tương thích cần bao gồm các khối chức năng như trong hình 1.1. Ngoại trừ
khối Bù mẫu theo ngữ cảnh, còn lại các khối chức năng khác như khối Dự đoán,
khối Biến đổi, khối Lượng tử hóa, khối Entropy, hay khối Bộ lọc xóa khối đều đã
xuất hiện trong các chuẩn ra đời trước đó (MPEG – 1, MPEG – 2, MPEG – 4,
Nguyễn Quốc Việt

10


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

H.261, H.263, H.264) tuy nhiên sự thay đổi quan trọng của HEVC nằm trong chi
tiết của các khối chức năng đó.

Hình 1-1 Sơ đồ khối chức năng tổng quát bộ mã hóa video chuẩn HEVC
Một khung hình đầu vào Fn được xử lý theo từng khối mã hóa một. Mỗi khối
mã hóa được mã hóa theo chế độ mã hóa trong ảnh hoặc mã hóa ngoài ảnh cho từng
khối trong khối mã hóa đó dựa trên các ảnh mẫu đã được tái tạo, và được gọi là khối
dự đoán PRED. Trong chế độ trong ảnh, PRED được tạo nên từ các mẫu trong cùng

một dải mà đã được mã hóa, giải mã và tái tạo trước đó (uF’n trong Hình 1.2), chú ý
rằng sử dụng các mẫu chưa được lọc để tạo nên PRED. Trong chế độ liên ảnh,
PRED được tạo nên bằng dự đoán bù chuyển động từ một hoặc hai ảnh được chọn
từ bộ ảnh tham chiếu danh sách 0 và/ hoặc danh sách 1. Trong hình vẽ, ảnh tham
chiếu là ảnh mã hóa trước đó F’n-1 tuy nhiên vùng tham chiếu dự đoán cho mỗi khối
trong một khối mã hóa (đối với chế độ liên ảnh) có thể được chọn từ một tập các
ảnh trước đó hoặc sau đó (theo thứ tự hiển thị) mà đã được mã hóa, tái tạo và lọc.
PRED được trừ cho khối hiện tại để tạo ra dữ liệu dư thừa Dn rồi được biến
đổi sử dụng biến đổi cosin rời rạc và lượng tử hóa để tạo ra bộ các hệ số đã được
biến đổi lượng tử hóa X sau đó các hệ số này được sắp xếp lại và mã hóa entropy.
Các hệ số đã được mã hóa entropy, cùng với các thông tin khác cần thiết để giải mã
các khối trong mỗi khối mã hóa (chế độ dự đoán, thông số bộ lượng tử hóa, thông
tin vectơ chuyển động, …) để tạo thành dòng bit đã được nén mà sau đó sẽ được
Nguyễn Quốc Việt

11


Thuật toán tìm kiếm nhanh-HEVC

GVHD: TS. Nguyễn Vũ Thắng

đưa qua lớp trừu tượng mạng NAL (Network Abstraction Layer) để phát đi hoặc
lưu trữ.
Bên cạnh việc mã hóa và truyền các khối trong mỗi khối mã hóa, bộ mã hóa
cũng đồng thời giải mã (tái tạo) các khối đó để cung cấp các tham chiếu cho việc dự
đoán sau này. Các hệ số X được giãn (Q-1) và biến đổi ngược (T-1) để tạo ra khối dư
thừa (residual) D’n. Khối dự đoán PRED sẽ được cộng vào D’n để tạo khối tái tạo
uF’n (khối đã giải mã của khối gốc ban đầu và chưa được lọc). Một bộ lọc sẽ được
dùng để giảm các hiệu ứng của nhiễu khối và ảnh tham chiếu đã tái tạo sẽ được tạo

từ một loạt các khối F’n.
1.4.1 Dự đoán
Quá trình dự đoán chiếm một lượng tính toán lớn trong toàn bộ phần mã hóa
của H.265. Quá trình này làm giảm đi một lượng đáng kể thông tin dư thừa cả về
thời gian lẫn không gian giữa các chuỗi ảnh của video. Lý thuyết chung của quá
trình này là tính toán ra được một khối gọi là tiên đoán, sau đó lấy hiện giữa khối
này và khối hiện tại để mã hóa và truyền đi. Nếu sai số giữa khối tiên đoán và khối
hiện tại càng nhỏ tức là dự đoán càng tốt, làm tăng hiệu quả quá trình nén.
Có 2 loại dự đoán: dự đoán trong ảnh và dự đoán liên ảnh tương ứng với việc làm
giảm thông tin dư thừa về mặt không gian và thời gian.
 Dự đoán trong ảnh: Quá trình dự đoán trong ảnh chỉ thực hiện trong
một khung hình, với việc sử dụng phép toán nội suy từ các khối mã
hóa liền kề. Các khối này có kích thước từ 4x4 lên tới 32x32. Khối dự
đoán trong ảnh của H.265 được cải tiến với việc đưa thêm các chế độ
dự đoán (35 chế độ dự đoán trong ảnh).
 Dự đoán liên ảnh: Quá trình dự đoán liên ảnh nhằm giảm thông tin dư
thừa về mặt thời gian. Nhìn chung, quá trình dự đoán liên ảnh của
H.265 được đánh giá là linh hoạt hơn rất nhiều so với H.264, với các
PU có kích thước từ 4x4 lên tới 64x64 (PU đối xứng và phi đối xứng).
Ngoài ra quá trình này còn hỗ trợ chế độ gộp và chế độ bỏ qua nhằm
tăng hiệu quả nén. Quá trình dự đoán liên ảnh được thực hiện như sau:
Đầu tiên, PU của khung hiện tại được đem ra so sánh với PU của
Nguyễn Quốc Việt

12


×