Tải bản đầy đủ (.pdf) (114 trang)

MÔ HÌNH CHỨNG THỰC BỀN VỮNG TRÊN VIDEO H.264/AVC DỰA TRÊN ĐẶC TRƯNG VÂN TAY

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.78 MB, 114 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

NGUYỄN KIM HƯNG

MÔ HÌNH CHỨNG THỰC BỀN VỮNG TRÊN
VIDEO H.264/AVC DỰA TRÊN ĐẶC TRƯNG
VÂN TAY

Ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01

LUẬN VĂN THẠC SĨ
(Chuyên ngành Khoa Học Máy Tính)

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. LÊ HOÀI BẮC

Thành phố Hồ Chí Minh - 2010


ii

LỜI CÁM ƠN
Em xin chân thành cảm ơn Khoa Công Nghệ Thông Tin, trường Đại Học
Khoa Học Tự Nhiên – Đại Học Quốc Gia TP. HCM đã tạo điều kiện tốt cho em
thực hiện đề tài luận văn tốt nghiệp này.
Em xin chân thành cảm ơn thầy Lê Hoài Bắc và cô Lê Thị Hoàng Ngân đã
tận tình hướng dẫn, chỉ bảo cho em trong suốt thời gian thực hiện đề tài.
Em xin chân thành cảm ơn quý Thầy Cô trong Khoa Công Nghệ Thông Tin


đã tận tình giảng dạy, trang bị cho em những kiến thức quý báu trong năm tháng
vừa qua.
Con cũng xin bày tỏ lòng biết ơn sâu sắc đến Ông Bà, Cha Mẹ đã chăm sóc,
nuôi dạy con nên người.
Xin chân thành cảm ơn các anh chị, các bạn đã giúp đỡ, ủng hộ và động viên
em trong thời gian học tập và nghiên cứu.
Mặc dù em đã cố gắng hoàn thành luận văn trong phạm vi và khả năng của
mình nhưng chắc chắn sẽ không tránh khỏi những điều thiếu sót. Em kính mong
nhận được sự cảm thông và tận tình chỉ bảo của Quý Thầy Cô và các bạn.
Người thực hiện
Nguyễn Kim Hưng
Tháng 11, năm 2010


iii

MỤC LỤC
LỜI CÁM ƠN......................................................................................................... ii
MỤC LỤC ............................................................................................................. iii
THUẬT NGỮ ........................................................................................................ vi
DANH SÁCH CÁC BẢNG .................................................................................. vii
DANH SÁCH CÁC HÌNH .................................................................................. viii
TÓM TẮT LUẬN VĂN ......................................................................................... x
CHƯƠNG 1: MỞ ĐẦU .......................................................................................... 1
1.1

Lý do chọn đề tài .......................................................................................... 1

1.1.1


Tại sao là Watermarking......................................................................... 1

1.1.2

Tại sao dữ liệu Watermark là đặc trưng vân tay ...................................... 2

1.1.3

Tại sao đối tượng chứa là video H.264/AVC .......................................... 4

1.2

Mục đích nghiên cứu..................................................................................... 4

1.3

Đối tượng nghiên cứu ................................................................................... 5

1.4

Phạm vi nghiên cứu ...................................................................................... 5

CHƯƠNG 2: TỔNG QUAN VỀ CHUẨN NÉN VIDEO H.264/AVC .................... 6
2.1

Tổng quan về các chuẩn video ...................................................................... 6

2.1.1

2.1.1.1


Chuẩn H.261 .................................................................................... 7

2.1.1.2

Chuẩn H.263 .................................................................................... 7

2.1.1.3

Chuẩn H.264/AVC........................................................................... 7

2.1.2

2.2

Dòng H.26x ............................................................................................ 7

Dòng MPEG........................................................................................... 9

2.1.2.1

Chuẩn MPEG-1 ............................................................................... 9

2.1.2.2

Chuẩn MPEG – 2 ............................................................................. 9

2.1.2.3

Chuẩn MPEG – 4 ............................................................................. 9


Cấu trúc H.264 .............................................................................................. 9

2.2.1

Không gian màu YCrCb và kiểu lấy mẫu 4:2:0....................................... 9

2.2.2

Macroblock ...........................................................................................10


iv

2.2.3

Slice ......................................................................................................11

2.2.4

Profile ...................................................................................................13

2.3

Tổng quan về qui trình nén và giải nén của H.264........................................14

2.3.1

Quy trình nén ........................................................................................15


2.3.1.1

Dự đoán ..........................................................................................16

2.3.1.2

Biến đổi và lượng tử hóa .................................................................26

2.3.1.3

Tái sắp xếp......................................................................................36

2.3.1.4

Mã hóa luồng bit nén hay mã hóa Entropy ......................................36

2.3.1.5

Lọc tách khối ..................................................................................40

2.3.2

Quy trình giải nén..................................................................................41

2.3.2.1

Giải mã luồng bit nén......................................................................42

2.3.2.2


Rescaling và biến đổi ngược ...........................................................42

2.3.2.3

Tái xây dựng ...................................................................................42

CHƯƠNG 3: RÚT TRÍCH ĐẶC TRƯNG VÂN TAY ..........................................43
3.1 Tổng quan về vân tay .......................................................................................43
3.2

Các công trình liên quan ..............................................................................47

3.3

Rút trích đặc trưng vân tay ...........................................................................49

3.3.1

Tiền xử lý ảnh vân .................................................................................50

3.3.2

Rút trích đặc trưng vân ..........................................................................52

CHƯƠNG 4: WATERMARKING ĐẶC TRƯNG VÂN TAY VÀO VIDEO ........55
4.1

Watermarking ..............................................................................................55

4.2


Watermarking với Watermark là ảnh vân tay ...............................................56

4.3

Watermarking trên video..............................................................................57

4.3.1

Những phương pháp Watermarking trên video chưa nén .......................59

4.3.1.1

Những lược đồ Watermarking dựa trên sự độc lập của ảnh .............59

4.3.1.2

Những lược đồ Watermarking dựa trên nội dung của ảnh ...............64

4.3.2

Những phương pháp Watermarking trên video nén................................67

4.3.2.1

Watermark được nhúng vào video trước khi nén .............................67

4.3.2.2

Watermark được nhúng trực tiếp vào video sau khi nén ..................69



v

4.3.2.3
4.3.3
4.4

Watermark được nhúng vào video trong quá trình nén ....................72

Những phương pháp Watermarking lai ..................................................76

Mô hình chứng thực bền vững dựa trên đặc trưng vân tay trong video

H.264/AVC............................................................................................................77
4.4.1

Giai đoạn nhúng ....................................................................................78

4.4.2

Giai đoạn rút trích .................................................................................80

4.4.3

Giai đoạn chứng thực ............................................................................82

CHƯƠNG 5: KẾT QUẢ THỰC NGHIỆM............................................................83
5.1


Nâng cao chất lượng ảnh ..............................................................................83

5.2

Rút trích đặc trưng vân tay ...........................................................................84

5.3

Kết quả chứng thực trên ảnh ........................................................................87

5.4

Kết quả chứng thực trên video H.264/AVC ..................................................89

CHƯƠNG 6: TỔNG KẾT LUẬN VĂN ................................................................96
6.1

Tổng kết.......................................................................................................96

6.2

Hướng phát triển ..........................................................................................96

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ .......................................................97
TÀI LIỆU THAM KHẢO......................................................................................98


vi

THUẬT NGỮ

AVC

Advanced Video Coding

NAL

Network Abstraction Layer

DCT

Discrete Cosin Transform: Biến đổi Cosin rời rạc.

IDCT

Inverse Discrete Transform: Biến đổi Cosin rời rạc ngược.

DFT

Discrete Fourier Transform: Biến đổi Fourier rời rạc.

IDFT

Inverse Discrete Fourier Transform: Biến đổi Fourier rời rạc ngược.

FFT

Fast Fourier Transform: Biến đổi Fourier nhanh.

STFT


Short Time Fourier Transform: Biến đổi Fourier thời gian ngắn.

VQ

Vector Quantization: Lượng tử hóa vector.

WSQ

Wavelet Scalar Quantization: Lượng tử hóa tỉ lệ Wavelet.

PN

Pseudo-random Noise: Giả lập nhiễu ngẫu nhiên.

CAVLC

Context Adaptive Variable Length Coding – mã hóa độ dài biến đổi
thích nghi hoàn cảnh

CIF

Common Intermediate Format – tiêu chuẩn về tín hiệu video với độ
phân giải 352*288 và chế độ màu YCbCr 4:2:0

ISO/IEC

International Standards Organization

ITU


International Telecommunications Union

MPEG

Motion Picture Experts Group

SAE

The Sum of Absolute Errors

QCIF

Quarter CIF – tiêu chuẩn về tín hiệu video với độ phân giải 176*144
và chế độ màu YCrCb 4:2:0


vii

DANH SÁCH CÁC BẢNG
Bảng 2. 1: Các loại slice mã hóa trong H.264.........................................................12
Bảng 2. 2: Ví dụ về tổ chức bộ nhớ ảnh tham chiếu với ảnh hiện tại là 250, số ảnh
tham chiếu là 5.......................................................................................................19
Bảng 2. 3: Các kích thước bước lượng tử trong H.264/AVC Codec .......................31
Bảng 2. 4: Hệ số nhân MF .....................................................................................33
Bảng 2. 5: Hệ số scaling V .....................................................................................34
Bảng 2. 6: Giá trị của hệ số V ứng với các vị trí khác nhau ....................................35
Bảng 2. 7: Các từ mã Exp-Golomb ........................................................................37
Bảng 2. 8: Ánh xạ các codeNum cho các syntax elements có dấu ..........................38
Bảng 3. 1: Bảng so sánh các kĩ thuật trên đặc tính sinh trắc học .............................44
Bảng 3. 2: Bảng phân loại vân tay theo FBI ...........................................................47

Bảng 5. 1: Kết quả rút trích đặc trưng vân tay ........................................................87
Bảng 5. 2: Thống kê đặc trưng rút trích từ một số ảnh vân tay ...............................87
Bảng 5. 3: Kết quả chứng thực khi không có tấn công ...........................................88
Bảng 5. 4: Kết quả chứng thực sau khi thực hiện tấn công RST trên ảnh đã nhúng 89
Bảng 5. 5: Kết quả chứng thực sau khi thực hiện tấn công nhiễu và làm mờ ..........89
Bảng 5. 6: Khả năng nhúng và chất lượng ảnh sau khi nhúng ................................89
Bảng 5. 7: Khả năng nhúng và chất lượng video sau khi nhúng .............................91
Bảng 5. 8: PSNR ở bài báo [38] [52]......................................................................91
Bảng 5. 9: Kết quả chứng thực khi không có tấn công trên video H.264 đã nhúng
vào những frame ngẫu nhiên ..................................................................................93
Bảng 5. 10: Kết quả chứng thực khi không có tấn công trên video H.264 đã nhúng
vào những frame chuyển cảnh................................................................................93
Bảng 5. 11: Kết quả chứng thực sau khi thực hiện một số tấn công khác trên video
H.264/AVC đã nhúng vào các frame chuyển cảnh .................................................94
Bảng 5. 12: kết quả rút trích Watermark ở bài báo [38]..........................................95


viii

DANH SÁCH CÁC HÌNH
Hình 2. 1: Quá trình phát triển các dòng video H.26x và MPEG ............................. 6
Hình 2. 2: Một ảnh video được nén với cùng bitrate dùng MPEG-2 (trái), MPEG-4
(giữa) và h.264 (phải) ............................................................................................. 8
Hình 2. 3: Macroblock 16x16 được đại diện bởi các block thành phần Y, Cr, Cb
theo tỷ lệ lấy mẫu (4:2:0) trong H.264 ...................................................................11
Hình 2. 4: Minh họa cách phân chia ảnh thành nhiều slice .....................................12
Hình 2. 5: Cấu trúc slice.........................................................................................13
Hình 2. 6: Các profile của H.264/AVC và các công cụ với ứng dụng mỗi profile...14
Hình 2. 7: Tổng quan về qui trình nén và giải nén của H.264 .................................15
Hình 2. 8: Quá trình nén H.264/AVC .....................................................................15

Hình 2. 9: Mô tả ước lượng chuyển động trong dự báo Inter ..................................17
Hình 2. 10: Sự phân chia marcoblock khi mã hóa ..................................................19
Hình 2. 11: Các phần chia khác nhau trong một ảnh ..............................................20
Hình 2. 12: Các điểm ảnh sub-sample (quater-pixel hoặc half-pixel) trong ảnh tham
chiếu ......................................................................................................................21
Hình 2. 13: Nội suy các điểm ảnh tại các vị trí half-pixel trong ảnh tham chiếu .....21
Hình 2. 14: Nội suy các điểm ảnh tại các vị trí quarter-pixel ..................................22
Hình 2. 15: Mô hình dự báo Intra ...........................................................................23
Hình 2. 16: Block 4x4 luma cần được dự đoán Intra (trong đường viền trắng) .......24
Hình 2. 17: Các điểm ảnh đã được nén dùng để tham chiếu ...................................24
Hình 2. 18: Các mode dự đoán cho block 4x4 luma ...............................................24
Hình 2. 19: Macroblock 16x16 (luma) cần dự đoán ...............................................25
Hình 2. 20: Các block được dự đoán Intra 16x16 ...................................................25
Hình 2. 21: Thứ tự truyền dẫn của các block bên trong macroblock .......................27
Hình 2. 22: Minh họa biến đổi DCT và lượng tử hóa .............................................29
Hình 2. 23: Quét Zig-Zag đối với block 4x4 luma..................................................36
Hình 2. 24: Mô hình biến đổi block 4x4 thành mảng sau khi tái sắp xếp ................36


ix

Hình 2. 25: Thứ tự lọc các cạnh của thành phần luma và chroma trong 1 macroblock
..............................................................................................................................41
Hình 2. 26: Quy trình giải nén vide của chuẩn H.264/AVC ....................................41
Hình 3. 1: Sinh trắc học thông dụng: (a) DNA, (b) tai, (c) mặt, (d) thân nhiệt mặt,
(e) thân nhiệt tay, (f) tĩnh mạch tay, (g) vân tay, (h) dáng đi, (i) đặc trưng hình học
bàn tay, (j) mống mắt, (k) chỉ tay, (l) võng mạc, (m) chữ ký, (n) giọng nói. ...........44
Hình 3. 2: Mẫu ảnh vân tay: lằn màu đen, lõm màu trắng ......................................45
Hình 3. 3: Khung hình phản ánh các loại lằn ..........................................................46
Hình 3. 4: Qui trình rút trích đặc trưng vân tay.......................................................50

Hình 3. 5: Quá trình tiền xử lý ảnh vân ..................................................................50
Hình 3. 6: Tìm ảnh nâng cao bằng bộ lọc Gabor ....................................................51
Hình 3. 7: Điểm kết thúc lằn và điểm rẽ đôi ...........................................................52
Hình 3. 8: Trường hợp P1 là điểm kết thúc lằn.......................................................52
Hình 3. 9: Trường hợp P1 là điểm rẽ đôi ................................................................53
Hình 3. 10: Một số trường hợp khiến quá trình rút trích vân sai .............................53
Hình 3. 11: Quá trình rút trích đặc trưng vân tay ....................................................54
Hình 4. 1: Mô hình phân loại Video Watermarking................................................58
Hình 4. 2: Mô hình chứng thực dựa trên đặc trưng vân tay trong video H.264/AVC
..............................................................................................................................77
Hình 4. 3: Sơ đồ giai đoạn nhúng ...........................................................................78
Hình 4. 4: Quá trình rút trích đặc trưng ..................................................................81
Hình 4. 5: Quá trình chứng thực.............................................................................82
Hình 5. 1: Áp dụng bộ lọc Gabor: (a) ảnh gốc; (b) ảnh chuẩn hóa; (c) ảnh hướng;
(d) ảnh tần số; (e) ảnh mặt nạ vùng; (f) ảnh nâng cao chất lượng ...........................84
Hình 5. 2: Thể hiện hóa quá trình rút trích đặc trưng: (a) ảnh gốc; (b) ảnh nâng cao;
(c) ảnh nhị phân; (d) ảnh mảnh; (e) ảnh rút trích; (f) ảnh sau khi hậu xử lý. ...........85
Hình 5. 3: PSNR ở bài báo [43] .............................................................................92
Hình 5. 4: Kết quả rút trích ở bài báo [52]..............................................................95


x

TÓM TẮT LUẬN VĂN
Luận văn nghiên cứu các vấn đề chính là thuật toán nén và giải nén trên
video H.264/AVC, các thuật toán rút trích đặc trưng vân tay trên ảnh vân tay, thuật
toán Watermarking bền vững dựa trên những đặc trưng của chuẩn nén H.264/AVC.
Về khía cạnh chuẩn nén H.264/AVC, luận văn nghiên cứu, trình bày tổng quan và
chi tiết thuật toán nén và giải nén H.264. Về thuật toán rút trích đặc trưng, luận văn
trình bày hướng tiếp cận: nâng cao chất lượng ảnh trên miền không gian bằng bộ lọc

Gabor, nhị phân hóa ảnh bằng phương pháp nhị phân mô phỏng cục bộ, làm mảnh
ảnh bằng thuật toán Hilditch, rút trích đặc trưng bằng 8 mặt nạ 3×3 cho đặc trưng
kết thúc lằn, 16 mặt nạ 3×3 cho đặc trưng rẽ đôi, loại bỏ các đặc trưng thừa và sai
bằng 6 luật Heuristic, đối sánh vân tay và chứng thực dựa trên thuật toán Hamming.
Về khía cạnh Watermarking, luận văn nghiên cứu, trình bày tổng quan, chi tiết các
thuật toán Watermarking trên video H.264/AVC. Rồi đề xuất một phương pháp/mô
hình chứng thực bền vững trên video H.264/AVC dựa trên đặc trưng vân tay.
Nội dung luận văn bao gồm 6 chương:
CHƯƠNG 1: Trình bày lý do chọn đề tài cũng như mục đích, đối tượng và
phạm vi nghiên cứu.
CHƯƠNG 2: Giới thiệu tổng quan về chuẩn nén video H.264/AVC.
CHƯƠNG 3: Trình bày chi tiết quá trình rút trích đặc trưng vân tay trong
hướng tiếp cận của luận văn.
CHƯƠNG 4: Trình bày tổng quát các thuật toán Watermarking trên video
nói chung và video H.264/AVC nói riêng. Và đề xuất mô hình chứng thực bền vững
trên video H.264/AVC dựa trên đặc trưng vân tay.
CHƯƠNG 5: Trình bày kết quả thực nghiệm.
CHƯƠNG 6: Tổng kết luận văn cũng như hướng phát triển của luận văn.


1

CHƯƠNG 1: MỞ ĐẦU
1.1 Lý do chọn đề tài
1.1.1 Tại sao là Watermarking
Cùng với sự phát triển mạnh mẽ của internet và cuộc cách mạng thông tin số
thì sự xâm phạm đến quyền sở hữu trí tuệ ngày càng nhiều dưới nhiều hình thức
phong phú, đa dạng và tinh vi như: giả mạo, sao chép, mô phỏng, ăn cắp tác phẩm,
sử dụng tác phẩm không xin phép bản quyền, …. Thêm vào đó, có vô số các tập tin
ảnh, âm thanh, video…được đăng tải trên mạng hằng ngày mà không rõ nguồn gốc,

xuất xứ, cũng như quyền sở hữu của những tập tin này. Để giải quyết vấn đề này,
các nhà nghiên cứu đã đưa ra nhiều phương pháp, cơ chế quản lý tác phẩm như mã
hóa, không cho tải tác phẩm về, chứng thực nội dung, theo dõi,… Trong số đó, mã
hóa, Watermarking và Steganography là những kĩ thuật hiệu quả nhất.
Steganography, bắt nguồn từ sự kết hợp của hai từ Hy Lạp “στεγανό-ς,” và “γραφειν” có nghĩa là “cover writing” và mang nghĩa “giao tiếp bí mật”, kỹ thuật này liên
quan tới việc giấu dữ liệu quan trọng vào trong một dữ liệu chứa (văn bản, ảnh, âm
thanh hoặc video) mà không tạo ra nghi ngờ nào. Điều này có nghĩa là người gởi và
người nhận tiến hành truyền và nhận đối tượng chứa thay vì dữ liệu điệp. Cách này
giúp tránh các nghi ngờ của tác nhân thứ ba. Watermarking có thể được tạm dịch là
“bảo vệ bản quyền”. Kỹ thuật Watermarking được dùng để nhúng những dữ liệu sở
hữu như logo công ty, dữ liệu quyền tác phẩm, tác giả, … vào trong tín hiệu (văn
bản, ảnh, âm thanh, video). Các dữ liệu được nhúng có thể vô hình hoặc hữu hình
và được xem là dữ liệu để xác nhận quyền sở hữu trí tuệ của sản phẩm cũng như là
chứng cứ trong các cuộc tranh chấp. Trong khi đó, những phương pháp mã hóa tạo
ra những dữ liệu vô nghĩa đối với những ai không đủ quyền sử dụng. Với lý do dữ
liệu chuyển tải giữa người gởi và người nhận là các dữ liệu mã hóa (vô nghĩa) nên
khả năng bị các tác nhân thứ ba (hacker) tấn công rất cao. Ngoài ra, với hướng tiếp
cận chỉ dùng kỹ thuật mã hóa đơn lẻ, tính an toàn dữ liệu không cao vì một khi dữ
liệu được giải mã có thể được sao chép, tạo ra các bản sao và phân phát một cách


2

thoải mái. Trong khi đó, các ứng dụng tiếp cận theo kỹ thuật Watermarking hay
Steganography cung cấp khả năng che dấu tốt hơn. Hơn nữa, mã hóa có thể được áp
dụng cho dữ liệu Watermark. Điều này nâng cao độ an toàn của thông tin ẩn.

1.1.2 Tại sao dữ liệu Watermark là đặc trưng vân tay
Ba yêu cầu tiêu quyết đặt ra cho bài toán ẩn dữ liệu nói chung và bài toán
Watermarking nói riêng là: khả năng chứa, độ bền vững, và tính vô hình. Đã có

nhiều công trình khoa học nghiên cứu với nhiều lời giải Watermarking khác nhau
được đưa ra nhằm đáp ứng một cách tốt nhất đồng thời ba yêu cầu trên. Qua nhiều
công trình đã công bố chứng tỏ rằng, mức độ hiệu quả của một giải pháp phụ thuộc
vào cả hai yêu tố: đặc điểm của thông tin nhúng và phương pháp ẩn dữ liệu. Có
nhiều loại thông tin vân được sử dụng như: thông tin của chính tác giả (chuỗi nhị
phân, văn bản), thông tin của chính đối tượng chứa (ảnh nhị phân, ảnh xám), chữ ký
của chủ sử hữu (chuỗi nhị phân), thông tin trắc sinh học (mống mắt, vân tay), ….
Tuy nhiên, một câu hỏi đặt ra là trong các loại thông tin vân trên thì thông tin nào là
tốt nhất giúp người sử dụng chứng thực nếu họ không hiểu rõ về nguồn gốc tác
phẩm, đối tượng nào cho độ tin cậy cao nhất, đối tượng nào có tính pháp lý cao nhất
cũng như đối tượng nào giúp đáp ứng tốt nhất ba yêu cầu của bài toán
Watermarking.
Trong tất cả các thông tin cá nhân, dữ liệu trắc sinh học được đặc biệt quan
tâm trong những năm gần đây khi lĩnh vực trắc sinh học phát triển. Hơn thế nữa, dữ
liệu sinh trắc học của một người là duy nhất, bất biến với thời gian và không thể
thay đổi ngay cả khi bị đánh cắp. Những kĩ thuật định danh người dựa trên các đặc
trưng trắc sinh học như vân tay, khuôn mặt, võng mạc, tròng mắt, … ngày càng phổ
biến. Trong bối cảnh của luận văn này, thông tin trắc sinh học – vân tay được sử
dụng cho bài toán Watermarking, đặc biệt tập trung vào mô hình chứng thực. Dựa
vào một đặc điểm quan trọng của vân tay người là mỗi vân tay chỉ có khoảng từ 30
đến 100 đặc trưng [20] để đưa bài toán ẩn ảnh vân tay về bài toán nhúng vector đặc
trưng. Hướng tiếp cận này đã không những giải quyết tốt bài toán chọn đối tượng


3

nhúng phù hợp mà vẫn đáp ứng tốt ba yêu cầu của bài toán Watermarking, cụ thể
như sau:
-


Dung lượng chứa: Nhờ vào các thao tác tiền xử lý, bài toán nhúng ảnh
vân vào ảnh chứa trở thành bài toán nhúng các vector đặc trưng vân vào
ảnh chứa. Với phương pháp rút trích đặc trưng hợp lý được chọn, một
ảnh vân tay có kích thước vài trăm KB được đại diện bởi các vector đặc
trưng có tổng chiều dài vài trăm bit. Điều này có thể cho thấy dung lượng
chứa của giải pháp đưa ra là rất cao.

-

Tính vô hình: Vì vector đặc trưng được nhúng vào ảnh chứa có kích
thước khá nhỏ nên độ nhiễu của ảnh trước và sau khi nhúng là không
đáng kể.

-

Khả năng bền vững: Căn cứ trên ưu điểm về kích thước rất nhỏ của
vector đặc trưng, giải pháp được chọn trong luận văn này là nhúng vector
đặc trưng vân tay vào những vùng quan trọng và bền vững của tín hiệu
chứa.

Hơn nữa, do khối lượng dữ liệu Watermark nhỏ cho nên sẽ có nhiều lợi thế
lớn trong Watermarking bởi vì:
-

Trong lĩnh vực Watermarking, tồn tại nhiều thuật toán Watermarking rất
bền vững với các tấn công hình học lẫn nén một khi dữ liệu nhúng nhỏ.

-

Khi dữ liệu Watermark nhỏ thì có thể nhúng vào vùng bản chất của đối

tượng nhúng như ảnh, âm thanh, video…. mà không làm ảnh hưởng
nhiều đến chất lượng của đối tượng nhúng. Chẳng hạn, thay vì nhúng vào
miền tần số trung bình của ảnh thì có thể nhúng vào miền tần số thấp hơn.
Điều này giúp cho dữ liệu Watermark bền vững hơn.

-

Khi dữ liệu Watermark nhỏ thì có thể thực hiện quá trình nhúng nhiều lần
với các thuật toán khác nhau vào nhiều vùng khác nhau trong đối tượng
chứa. Điều này nâng cao khả năng phục hồi dữ liệu Watermark trước
nhiều tấn công khác nhau.


4

1.1.3 Tại sao đối tượng chứa là video H.264/AVC
Trong lĩnh vực Watermarking có 4 dạng đối tượng chứa phổ biến là văn bản,
ảnh, âm thanh và video. Có rất nhiều các công trình nghiên cứu trong lĩnh vực ảnh.
Trong khi đó, số lượng các công trình nghiên cứu trong lĩnh vực văn bản, âm thanh
và video là quá ít. Trong hướng tiếp cận của luận văn, đối tượng chứa video được
chọn, và cụ thể là video thuộc chuẩn nén H.264/AVC.
Chuẩn nén H.264/AVC trên video mới ra đời trong những năm gần đây và nó
kế thừa các ưu điểm của các chuẩn nén trước đó như H.261, H.262, H.263, MPEG2, MPEG-4, … Do đó, chuẩn nén H.264 sẽ có các ưu điểm sau:
-

Cùng một bitrate (số lượng bit gửi trong 1 đơn vị thời gian), H.264 cho
chất lượng ảnh tốt hơn.

-


Cùng một chất lượng ảnh, H.264 cho hệ số bitrate thấp hơn.

-

H.264 có hiệu suất nén tốt hơn và linh hoạt hơn trong việc lưu trữ và
truyền dẫn dữ liệu video trên các phương tiện đa thông tin.

Đó là những ưu điểm khiến cho chuẩn nén video H.264/AVC được sử dụng
khá rộng rãi và phổ biến hiện nay: truyền hình kỹ thuật số, truyền hình di động, hội
nghị trực tuyến, lưu trữ video trên đĩa DVD với các định dạng HD-DVD và BluRay, truyền dữ liệu trong mạng RTP/IP, hệ thống điện thoại đa phương tiện của
ITU-T, HD – video phone (điện thoại hỗ trợ truyền tải hình ảnh tốc độ cao trong khi
nói), ….

1.2 Mục đích nghiên cứu
Như đã trình bày, Watermarking là một trong những phương pháp hiệu quả
giúp bảo vệ bản quyền, bảo vệ sản phẩm trí tuệ,…. Đặc biệt là những sản phẩm
video, ngày càng phổ biến và truyền tải nhiều trên mạng. Do đó vấn đề bản quyền,
chứng thực trở nên cấp thiết và được nhiều người quan tâm. Một trong những chuẩn
nén mới và phổ biến nhất hiện nay là H.264/AVC. Vì vậy, luận văn này nhắm tới
các mục đích sau:


5

-

Tìm hiểu chuẩn nén H.264/AVC, đưa ra các mô hình tổng quan cũng như
phân tích các giai đoạn của chuẩn nén H.264/AVC.

-


Song song với quá trình chuẩn nén H.264/AVC, luận văn cũng nghiên
cứu một hướng tiếp cận rút trích đặc trưng vân tay từ ảnh vân tay.

-

Tổng quan các phương pháp Watermarking trên video nói chung và trên
video H.264/AVC nói riêng.

-

Từ việc nghiên cứu đặc trưng vân tay, chuẩn nén video H.264, phương
pháp Watermarking, luận văn xin đề xuất một phương pháp, mô hình
chứng thực bền vững trên video H.264/AVC dựa trên đặc trưng vân tay
với mục đích tận dụng được những thuận lợi, ưu điểm của chuẩn nén
H.264 và đặc điểm vân tay.

1.3 Đối tượng nghiên cứu
Đặc trưng sinh trắc học thì có rất nhiều như mặt, võng mạc, tai…Tùy theo
mỗi loại đặc trưng sinh trắc học khác nhau mà có các phương pháp rút trích và đối
sánh khác nhau nhưng ở đây chỉ tập trung nghiên cứu vào vân tay và trình bày một
phương pháp rút trích đặc trưng mà luận văn tiếp cận.
Các đối tượng nghiên cứu phổ biến nhất hiện nay của Watermark đó là văn
bản, ảnh, âm thanh, video. Tùy theo mỗi đối tượng mà sẽ có những kỹ thuật
Watermark khác nhau. Tuy nhiên, trong luận văn này chỉ tập trung nghiên cứu trên
đối tượng là những tập tin video với chuẩn nén H.264/AVC, những phương pháp
Watermarking trên tín hiệu video H.264/AVC.

1.4 Phạm vi nghiên cứu
Luận văn này nghiên cứu chuẩn nén H.264/AVC, phương pháp rút trích đặc

trưng vân tay, những kỹ thuật Watermarking trên video. Rồi đề xuất một phương
pháp Watermarking/một mô hình chứng thực bền vững trên chuẩn nén H.264/AVC
dựa trên đặc trưng vân tay.


6

CHƯƠNG 2: TỔNG QUAN VỀ CHUẨN NÉN
VIDEO H.264/AVC
2.1 Tổng quan về các chuẩn video
Hiện nay trên thế giới có hai tổ chức chịu trách nhiệm chính trong việc đưa
ra các chuẩn về nén và giải nén video đó là ITU và ISO.
-

Tổ chức ITU – International Telecommunications Union chuyên tập
trung vào các ứng dụng truyền thông với dòng video chuẩn H.26x, với
dung lượng lưu trữ nhỏ và hiệu quả cao trong việc truyền tải trên mạng.
Dòng H.26x bao gồm các chuẩn H.261, H.262, H.263, và H.264.

-

Tổ chức ISO – International Standards Organization đưa ra dòng MPEG
chủ yếu tập trung phát triển các ứng dụng đa người dùng (phim,
video,...). Dòng MPEG bao gồm các chuẩn MPEG-1, MPEG-2, MPEG4.

Hai tổ chức này cùng nhau lập nên nhóm JVT – Joint Video Team để đưa ra
chuẩn H.264 (tổ chức ISO gọi chuẩn này là MPEG-4 Part 10). H.264 là chuẩn nén
video mới nhất hiện nay và được xem là dòng nén video thế hệ thứ 3.

Hình 2. 1: Quá trình phát triển các dòng video H.26x và MPEG



7

2.1.1 Dòng H.26x
2.1.1.1

Chuẩn H.261

Chuẩn H.261 là chuẩn nén video hoàn chỉnh đầu tiên trên thế giới, được giới
thiệu vào năm 1993 bởi tổ chức ITU. H.261 được thiết kế cho những ứng dụng hội
nghị trực tuyến video hai chiều với dữ liệu video sau khi nén có tốc độ trong khoảng
40Kbps – 2Mbps. H.261 có hai độ phân giải là CIF (352x288) và QCIF (176x144),
sử dụng kĩ thuật lấy mẫu 4:2:0. Thuật toán nén của chuẩn này không phức tạp do
yêu cầu việc nén và giải nén phải được thực hiện theo thời gian thực.

2.1.1.2

Chuẩn H.263

H.263 là chuẩn mã hóa video/audio do nhóm VCEG (Video Coding Experts
Group) thuộc tổ chức ITU đưa ra năm 1998 và là một chuẩn với tốc độ bit thấp,
được dùng cho các hội nghị video trực tuyến. Năm 1998, ITU cải tiến chuẩn này và
cho ra chuẩn H.263v2 (còn gọi là H.263+ hay H.263 1998). Năm 2000, chuẩn
H.263v3 ra đời (còn gọi là H.263++ hay H.263 2000).
H.263 được phát triển dựa trên những kinh nghiệm được rút ra từ các chuẩn
H.261, MPEG-1 và MPEG-2. So với các chuẩn trước, H.263 có chất lượng video
tốt hơn và tốc độ bit (lượng bit lưu trữ cho một đơn vị thời gian) nhỏ hơn. Mục tiêu
của H.263 là truyền được video chất lượng chấp nhận được trên đường truyền điện
thoại với tốc độ 28.8Kbps. H.263 hỗ trợ độ phân giải từ 128x96 đến 352x288.

H.263 có những cải tiến trong việc dự đoán các chuyển động và thuật toán
giảm dữ liệu dư thừa, phân lớp được tối ưu hơn nhiều so với các chuẩn trước đó.

2.1.1.3

Chuẩn H.264/AVC

H.264/AVC được đưa ra bởi nhóm JVT. Nhóm JVT được thành lập từ việc
sát nhập hai nhóm MPEG và VCEG. Với MPEG, chuẩn này được gọi là MPEG-4
Part 10 (ISO 14496-10). Với ITU, nó được gọi là H.264. Hiện nay, chuẩn này được
biết đến dưới tên gọi thống nhất là Advanced Video Coding (AVC).


8

H.264 được kế thừa từ các chuẩn nén video trước đó như MPEG-2 và
MPEG-4 Visual. Do đó H.264 cho ra hiệu suất nén tốt hơn và linh hoạt hơn trong
việc lưu trữ, truyền dẫn video.
Ưu điểm lớn nhất của chuẩn H.264 so với các chuẩn trước đây đó là tỷ lệ
nén. So với các chuẩn nén video trước đây như MPEG-2 hoặc MPEG-4 Visual,
H.264 có thể cung cấp:
• Chất lượng ảnh tốt hơn với cùng một bitrate (số lượng bit được gởi trong
một đơn vị thời gian).
• Hệ số bitrate thấp hơn với cùng chất lượng nén ảnh.

Hình 2. 2: Một ảnh video được nén với cùng bitrate dùng MPEG-2 (trái), MPEG-4
(giữa) và h.264 (phải)
Tỷ lệ nén nâng cao của H.264 đồng nghĩa với chi phí tính toán sẽ lớn hơn,
phức tạp hơn so với các chuẩn nén video trước. Điều này cũng có nghĩa là H.264 sử
dụng nhiều tài nguyên để xử lý hơn trong khi thực hiện quá trình nén và giải nén

video.
Hiện nay, H.264 được ứng dụng trong một số lĩnh vực sau:
• Truyền hình kỹ thuật số.
• Lưu trữ video trên đĩa DVD với các định dạng HD-DVD và Blu-Ray.
• Truyền hình di động, hội nghị trực tuyến.
• Truyền dữ liệu trong mạng RTP/IP.
• Hệ thống điện thoại đa phương tiện của ITU-T.


9

• HD – video phone (điện thoại hỗ trợ truyền tải hình ảnh tốc độ cao trong
khi nói).

2.1.2 Dòng MPEG
2.1.2.1

Chuẩn MPEG-1

MPEG-1 là chuẩn nén video đầu tiên của ISO, còn được gọi là ISO/IEC–
11172. Dữ liệu được lưu trữ trên các phương tiện số như đĩa video-CD với độ phân
giải SIF (352x240 – 29.97fps hay 352x288 – 25fps), có tốc độ bit xấp xỉ 1.15Mbps.
MPEG-1 gần như tương tự với chuẩn H.261, ngoại trừ việc mã hóa có đôi chút khác
biệt và hỗ trợ B-frames.

2.1.2.2

Chuẩn MPEG – 2

MPEG-2 còn được gọi là ISO/IEC–13818, được mở rộng dựa trên chuẩn

MPEG-1 để phục vụ việc nén dữ liệu video. Các ứng dụng sử dụng MPEG–2 bao
gồm truyền hình kỹ thuật số (SDTV), truyền hình theo yêu cầu (VOD) và đĩa DVD.

2.1.2.3

Chuẩn MPEG – 4

MPEG-4 còn được gọi là ISO/IEC–14496 được công bố vào tháng 10-1998
và được công nhận là tiêu chuẩn quốc tế tháng 1-1999. MPEG-4 là chuẩn thông
dụng trong các ứng dụng về đồ hoạ, video tương tác hai chiều (games, hội nghị trực
tuyến, …), các ứng dụng đa phương tiện tương tác hai chiều (World Wide Web)
hoặc các ứng dụng truyền tải dữ liệu video như truyền hình cáp, Internet Video....
Sự ra đời của MPEG-4 giúp giải quyết các vấn đề về dung lượng các thiết bị lưu trữ
và giới hạn băng thông của đường truyền.
Ưu điểm lớn nhất của MPEG-4 là việc lưu trữ và xử lý dữ liệu âm thanh và
hình ảnh trên cơ sở hướng đối tượng, điều này làm tăng khả năng tương tác và hiệu
chỉnh cho các chương trình truyền hình cũng như các ứng dụng đa phương tiện.

2.2 Cấu trúc H.264
2.2.1 Không gian màu YCrCb và kiểu lấy mẫu 4:2:0
Hệ thống thị giác của con người nhận các thông tin hình ảnh bao gồm độ
sáng và thông tin màu một cách rời rạc, với độ nhạy cảm của độ sáng lớn hơn so với


10

màu sắc. Hệ thống truyền dẫn video được thiết kế dựa trên đặc điểm này của mắt
người (điều này cũng được áp dụng cho các hệ thống tivi analog và digital thông
thường). Trong H.264/AVC cũng như trong các chuẩn video trước, điều này được
thực hiện bằng cách sử dụng không gian màu YCrCb. Không gian màu YCrCb chia

một màu hiển thị thành 3 thành phần Y, Cr, và Cb. Trong đó, Y được gọi là thành
phần luma – đại diện cho độ sáng của hình ảnh. Cb và Cr là các thành phần chroma
- đại diện cho thông tin màu xanh và màu đỏ của hình ảnh.
Bởi vì hệ thống cảm quan của mắt người ít nhạy cảm đối với chroma hơn
luma, H.264 sử dụng cấu trúc lấy mẫu: thành phần chroma có số điểm ảnh chỉ bằng

¼ so với số điểm ảnh của thành phần luma. Đây là kiểu lấy mẫu 4:2:0 (hay còn
được gọi là YV12). Kiểu lấy mẫu này được sử dụng phổ biến trong các ứng dụng
như là hội nghị trực tuyến, truyền hình số và đĩa DVD.

2.2.2 Macroblock
Một ảnh khi xử lý được chia thành nhiều macroblock. Mỗi macroblock ứng
với vùng ảnh gồm 16x16 điểm ảnh trong một ảnh. Macroblock là đơn vị xử lý cơ
bản cho dự đoán bù chuyển động trong một số chuẩn nén video thông dụng như
MPEG-1, MPEG-2, MPEG-4, H.261, H.263 và H.264. Chuẩn H.264 thực hiện lấy
mẫu theo định dạng 4:2:0. Vì thế, một macroblock 16x16 điểm ảnh sẽ bao gồm bởi
256 thành phần luma Y (được sắp xếp trong 4 block 8x8 ), 64 thành phần chroma
màu xanh Cb (được sắp xếp trong 1 block 8x8), và 64 thành phần chroma màu đỏ
Cr (được sắp xếp trong 1 block 8x8) như hình 2.3. Vì vậy, một macroblock có thể
được thay thế bởi 6 block 8x8 gồm các thành phần Y, Cr, và Cb.


11

Hình 2. 3: Macroblock 16x16 được đại diện bởi các block thành phần Y, Cr, Cb
theo tỷ lệ lấy mẫu (4:2:0) trong H.264
Mỗi macroblock trong H.264 chứa các thành phần dữ liệu sau [13]:
• mb_type: xác định macroblock được mã hóa theo kiểu Inter hay Intra; xác
định kích thước các phần chia của macroblock.
• mb_pred: xác định các mode được lựa chọn trong dự báo Intra; xác định

danh sách các ảnh tham chiếu; xác định các vector cho mỗi phần chia
macroblock trong trường hợp mã hóa Inter, ngoại trừ phần chia
macroblock mã hóa Inter có kích thước 8x8.
• sub_mb_pred: chỉ dùng cho các phần chia macroblock được mã hóa Inter
có kích thước 8x8. Xác định kích thước các phần chia phụ của phần chia
macroblock này và các vector chuyển động của các phần chia phụ này.
• code_block_pattern: xác định block 8x8 nào chứa các hệ số biến đổi
được mã hóa.
• mb_qb_delta: thông tin thay đổi biến lượng tử
• residual: các hệ số biến đổi được mã hóa ứng với các vùng ảnh khác biệt
sau quá trình dự đoán.

2.2.3 Slice
Ảnh khi mã hóa được chia thành một hoặc nhiều slice. Một slice có thể chứa
một hoặc nhiều macroblock. Trong trường hợp ảnh chỉ có một slice, slice sẽ chứa
tất cả các macroblock trong ảnh đó. Số lượng các macroblock trong các slice của
ảnh không cần thiết phải giống nhau.


12

Hình 2. 4: Minh họa cách phân chia ảnh thành nhiều slice
Có 5 loại slice và một ảnh có thể chứa nhiều loại slice khác nhau. Các ảnh
được mã hóa của profile cơ bản chứa các slice loại P và I, các ảnh được mã hóa của
profile chính và profile mở rộng có thể chứa tập các slice kiểu I, P, B, SI và SP.
Loại Slice
I (Intra)

Mô tả


Profile hỗ trợ

Chứa các macroblock I (mỗi macroblock được Tất cả
dự đoán từ các dữ liệu đã được mã hóa trong
cùng slice).

P (Predicted)

Chứa các macroblock P (mỗi macroblock Tất cả
hoặc phần chia macroblock được dự đoán từ
danh sách ảnh tham chiếu list 0 và /hoặc từ
các macroblock I).

B (Bi-predictive ) Chứa các macroblock B (mỗi macroblock Profile chính
hoặc phần chia macroblock được dự đoán từ và mở rộng
danh sách ảnh tham chiếu list 0 và/hoặc list 1
và/hoặc các maroblock I).
SP (Switching P)

Chứa các macroblock kiểu I và/hoặc P, cung Profile mở
cấp khả năng chuyển đổi dễ dàng giữa những rộng
luồng bit được mã hóa.

SI (Switching I)

Chứa các macroblock SI (loại maroblock đặc Profile mở
biệt trong mã hóa Intra), cung cấp khả năng rộng
chuyển đổi dễ dàng giữa những luồng bit
được mã hóa.
Bảng 2. 1: Các loại slice mã hóa trong H.264



13

Hình 2.5 mô tả cấu trúc đơn giản của một slice được mã hóa. Phần thông tin
mở đầu cho biết loại slice, ảnh được mã hóa chứa slice đó và có thể chứa các chỉ
dẫn liên quan đến việc quản lý ảnh tham chiếu. Phần dữ liệu của slice bao gồm tập
các macroblock được mã hóa và/hoặc chỉ số của một macroblock không được mã
hóa (skipped macroblock). Mỗi macroblock chứa một tập các thông tin mở đầu và
dữ liệu khác biệt được mã hóa.

Hình 2. 5: Cấu trúc slice

2.2.4 Profile
Chuẩn H.264 bao gồm 3 profile. Mỗi profile hỗ trợ một tập các chức năng và
công cụ mã hóa xác định cho bộ nén và bộ giải nén nhằm để tạo ra luồng bit nén
ứng với profile đó.
• Profile cơ bản (Baseline Profile): Hỗ trợ mã hóa Inter và mã hóa Intra
(dùng các slice I và slice P), nén entropy sử dụng thuật toán mã hóa chiều
dài thay đổi ứng ngữ cảnh CAVLC – Context Adaptive Variable Length
Coding. Các ứng dụng của profile này là trong điện thoại video, hội nghị
trực tuyến và các hệ thống truyền thông không dây.
• Profile chính (Main Profile): Ngoài các slice I, P được mã hóa, profile
này còn mã hóa video dùng các slice B. Mã hóa entropy dùng thuật toán
mã hóa số học ứng ngữ cảnh (CABAC). Profile chính được ứng dụng cho
các hệ thống broadcast như truyền hình kỹ thuật số, các hệ thống lưu trữ
dữ liệu.


14


• Profile mở rộng (Extended Profile): Ngoài các kỹ thuật được sử dụng
trong profile cơ bản và một phần của profile chính, profile mở rộng còn
sử dụng thêm các slice SI và SP trong mã hóa ảnh. Profile mở rộng được
dùng trong các ứng dụng xem hoặc truyền tải video trực tuyến, có khả
năng nén cao và một số cải tiến riêng để xử lý việc mất dữ liệu và đồng
bộ hóa các dòng dữ liệu khi gặp sự cố về đường truyền Internet.

Hình 2. 6: Các profile của H.264/AVC và các công cụ với ứng dụng mỗi profile

2.3 Tổng quan về qui trình nén và giải nén của H.264
Bộ nén (Encoder) sẽ thực thi các quá trình dự đoán, biến đổi và nén luồng
video nhập nhằm tạo thành luồng bit nén H.264 để lưu trữ hoặc truyền dẫn cho bộ
giải nén. Bộ giải nén (Decoder) sẽ giải nén, biến đổi ngược và tái xây dựng để tạo
thành chuỗi video dùng cho việc hiển thị như hình 2.7.


15

Quy trình nén
Dự
Đoán

Video Nguồn

Biến
Đổi


Hóa


Luồng bit
H.264 được
lưu trữ hoặc
truyền dẫn
Quy trình giải nén
Tái Xây
Dựng

Video Xuất

Biến Đổi
Ngược

Giải


Hình 2. 7: Tổng quan về qui trình nén và giải nén của H.264

2.3.1 Quy trình nén
Fn
(Frame hiện
tại)

F’ n-1
(Frame
tham chiếu)
1 hoặc 2 frames
được mã hóa
trước đó


Dn

+
-

Quá trình
ước lượng
chuyển động
Quá trình
bù chuyển
động

T
(Biến
đổi)

Q
(lượng
tử hóa)

X

Inter

Mã hóa
Entropy

P
Chọn dự

đoán Intra

Dự đoán
Intra

NAL

Intra
F’ n
(Frame
phục hồi)

Tái cấu
trúc

Lọc

uF’n

+ D’
n
+

T -1
(Biến đổi
ngược)

Q-1
(lượng tử
hóa ngược)


Hình 2. 8: Quá trình nén H.264/AVC
Một Frame Fn được chia thành các marcroblock. Với mỗi block trong một
macroblock được đưa vào quá trình dự đoán Inter hoặc Intra và kết quả ra là một
block dự đoán P. Trong quá trình dự đoán Intra, P được tính từ slice hiện tại đã
được mã hóa, giải mã và tái xây dựng. Còn trong quá trình dự đoán Inter thì P được
tính từ dự đoán sự bù chuyển động của một hoặc hai ảnh được chọn từ những ảnh
tham chiếu trong list 0 và/hoặc list 1. Block dự đoán P được trừ với block hiện tại


×