Thủy vân số cho tệp video MPEG-4
Abhinav Gupta và Phalguni Gupta
Khoa Khoa học và Kỹ thuật Máy tính
Viện Cơng nghệ Ấn Độ, Kanpur, Ấn Độ - 208016
{abhigupt,pg}@cse.iitk.ac.in
Tóm lược. Phương pháp thủy vân số miền video MPEG-4 nén
được đề xuất và hiệu suất của nó được nghiên cứu ở bit rate từ 64
Kb / s đến 900 Kb / s. Hình mờ được chèn bằng cách s ửa đ ổi hệ
số biến đổi Cosin rời rạc (DCT). Độ mạnh của hình mờ được
thay đổi theo đặc điểm khung cục bộ để giảm tác động đến chất
lượng hình ảnh. Hiệu suất của thuật toán cũng được nghiên cứu
để đánh dấu các bit trong khung hình khác nhau, từ 1 Kb / khung
hình đến 3 Kb / khung hình. Hình mờ khơng bị t ấn công tr ước các
kĩ thuật như chia tỷ lệ, xoay và cắt ngay cả khi sử d ụng kỹ thu ật
mù.
1. Giới thiệu
Hartung [1, 2] mô tả kỹ thuật nhúng thủy vân trải phổ vào video nén MPEG2 [3] cũng như vào video không nén. Đối với thủy vân miền nén, h ọ gi ải mã
video để thu được hệ số DCT của mỗi khung hình và chèn thủy vân bằng cách
sửa đổi các hệ số DCT đó. Langelaar [4] mô tả kỹ thuật tạo th ủy vân mi ền nén
được gọi là Thủy vân Năng lượng Vi phân (Differential Energy Watermark DEW), trong đó video được chia thành các nhóm khối, mỗi kh ối được chia thành
hai nhóm có kích thước bằng nhau như được xác định bởi khóa nhúng th ủy vân.
Bằng cách so sánh năng lượng của các hệ số DCT đã chọn trong hai b ộ, m ột bit
tải trọng duy nhất được biểu thị. Jordan và cộng sự,[5] đề xuất một ph ương
pháp tạo hình mờ cho video nén để nhúng thơng tin vào các vect ơ chuy ển đ ộng.
Hsu và Wu trình bày một phương pháp cho thủy vân [6] đi ều ch ỉnh t ần s ố trung
bình của hệ số DCT liên quan đến các khối lân cận về mặt không gian và thời
gian. Nicholson [7] đã đánh giá độ bền của thủy vân và ch ất lượng video sau khi
video được tạo thủy vân và nén bằng MPEG-4. Tuy nhiên, khơng có kỹ thu ật nào
trong số này giải quyết được thủy vân trực tiếp của các video MPEG-4 này.
Trong tài liệu này, một kỹ thuật thủy vân miền nén mới cho các lu ồng video
MPEG-4 [8] được trình bày. Cách tiếp cận tương tự như [1] vì th ủy vân đ ược
chèn vào hệ số DCT. Tuy nhiên, sử dụng các mẫu đồng bộ hóa làm cho nó trở nên
mạnh mẽ và phương pháp tăng cục bộ giúp cải thiện chất lượng.
2
Abhinav Gupta and Phalguni Gupta
Trong Phần 2, tổng quan về kỹ thuật MPEG-4 được trình bày. Ti ếp theo là
phương pháp được đề xuất và kết quả trong Phần 3 và Phần 4 tương ứng. Ph ần
5 đề xuất một giao thức để đánh giá ch ủ quan của hệ thống và k ết lu ận ở Phần
6.
2. Tổng quan về MPEG-4
MPEG-4 [8] mã hóa thơng tin hình ảnh dưới dạng các đối t ượng (video t ự
nhiên, tổng hợp và kết cấu tĩnh). MPEG-4 mã hóa mơ t ả cảnh đ ể hi ển th ị phù
hợp tất cả các đối tượng. Một MPEG-4 cảnh trực quan có thể bao gồm một hoặc
nhiều đối tượng video. Mỗi đối tượng video được đặc trưng bởi thông tin không
gian và thời gian dưới dạng hình dạng, chuy ển động và kết cấu và t ương ứng
với một đối tượng 2D trong cảnh. Mặt phẳng Đối tượng Video (Video Object
Plane -VOP) là một mẫu thời gian của đối tượng video. VOP có th ể đ ược mã hóa
độc lập với nhau hoặc phụ thuộc vào nhau bằng cách bù chuy ển đ ộng. VOP
chứa dữ liệu video được mã hóa ở dạng macroblock. Macroblock chứa một phần
của thành phần độ chói và các thành phần sắc độ được lấy mẫu theo không gian.
Trong tiêu chuẩn hình ảnh MPEG-4, chỉ hỗ trợ một định dạng sắc đ ộ cho
macroblock, định dạng 4: 2: 0. Ở định dạng này, mỗi macroblock ch ứa 4 kh ối đ ộ
chói và 2 khối sắc độ. Mỗi khối chứa 8x8 pixel được mã hóa bằng cách sử d ụng
phép biến đổi DCT. Các hệ số DCT sau đó được lượng tử hóa một cách thích ứng
để đạt được tốc độ bit thấp.
3. Phương pháp được đề xuất
Trong phương pháp được đề xuất, tín hiệu thủy vân được chèn trực tiếp
vào luồng bit nén MPEG-4 trong khi quá trình phát hiện được th ực hi ện b ằng
luồng bit nén mà khơng có bất kỳ tín hiệu thủy vân nào. Phần 3.1 th ảo lu ận v ề
sự hình thành tín hiệu thủy vân từ các mẫu đồng bộ và tín hi ệu thơng đi ệp g ốc.
Phần 3.2 đề cập đến q trình mà tín hiệu thủy vân được nhúng vào các video
MPEG-4. Phần 3.3 thảo luận về phương pháp khuếch đại thích ứng cục bộ để
tăng chất lượng video.
3.1. Tín hiệu Thủy vân Trải phổ
Tín hiệu thủy vân thường được giới hạn ở một giá trị nhỏ để đảm bảo tính
khơng nhạy cảm và chống nhiễu từ tín hiệu chủ cũng như nhi ễu bổ sung phát
sinh từ q trình xử lý tiếp theo. Tín hiệu trải phổ dễ bị l ỗi đ ồng b ộ hóa x ảy ra
sau khi chia tỷ lệ, cắt xén và xoay nên một cặp mẫu được áp dụng cho tín hi ệu
trải phổ để chống lại sự mất đồng bộ hóa. Mẫu đầu tiên hạn chế tín hiệu th ủy
vân để có cấu trúc tuần hồn đều đặn. Đặc biệt, tín hi ệu th ủy vân w(x,y) được
xây dựng bằng cách lặp lại một ô thủy vân sơ cấp ( x,y) theo kiểu không chồng
chéo. Nếu việc lặp lại được thực hiện đúng cách, đỉnh luôn n ằm ở tâm c ủa m ỗi
ô. Nếu một phép biến đổi tuyến tính A được áp d ụng cho VOP đã đ ược tạo th ủy
vân, hệ số tự tương quan h(x,y), thì các đỉnh mới di chuyển đến x’ và y’ theo
Watermarking of MPEG-4 Videos
3
(1)
Mẫu đồng bộ hóa thứ hai buộc w(x,y) phải chứa một tập hợp các đỉnh trong
miền tần số. Yêu cầu này được đáp ứng bằng cách tạo ( x,y) là sự kết hợp của ký
hiệu mang bản tin m(x,y) và tín hiệu đồng bộ g(x,y). Trong miền tần số g(x,y)
này chứa các đỉnh ở dải tần trung bình, mỗi đỉnh chiếm một hệ s ố tần s ố và có
độ lớn thống nhất. Sau khi biến đổi hình học A được áp d ụng cho hình ảnh, h ệ
số FFT F(u,v) di chuyển đến một vị trí mới ( , ) theo phương trình
(2)
Sử dụng hai phương trình trên, chúng ta có thể thu được phép bi ến đ ổi
tuyến tính A áp dụng cho hình ảnh và do đó đảo ngược phép bi ến đ ổi đ ể th ực
hiện phương pháp phát hiện. Hình 1 (a) phác thảo q trình t ạo ra tín hi ệu th ủy
vân.
3.2
Nhúng thủy vân
Phần này mô tả việc nhúng thủy vân trực tiếp vào luồng bit đ ược tạo theo
Trắc đồ Đơn giản Nâng cao (Advanced Simple Profile - ASP) của tiêu chuẩn
MPEG-4. Tín hiệu hình mờ w(x,y) được thêm vào mặt phẳng độ chói của VOP. Vì
DCT là một phép biến đổi tuyến tính, việc thêm tín hi ệu th ủy vân đã bi ến đổi
trực tiếp vào hệ số DCT của các khối độ chói tương đương với phép c ộng trong
miền không gian. Một luồng bit cơ bản được phân tích cú pháp xu ống c ấp kh ối
để thu được vectơ chuyển động được mã hóa có độ dài biến đổi cùng với h ệ s ố
DCT. Các vectơ chuyển động được tái tạo bằng cách sử dụng gi ải mã VLC và đảo
ngược các bước dự đốn nếu có thể. Sau khi nhúng tín hiệu hình m ờ, mã VLC
được tạo lại và dịng bit được tái tạo. Hình 1 (b) mơ tả tồn bộ phác thảo.
Vì tín hiệu 96x96 được nhúng trong hình ảnh 192x192 nên kh ối 8x8 đ ược
nhúng trong khối 16x16. Do đó, tổng số các hốn vị có thể có là
. Thuộc tính
này giúp giới thiệu Số Giấy phép Kỹ thuật số (Digital License Number). Mỗi
người dùng được ủy quyền có một khóa ánh xạ tới một trong các c ấu hình c ủa
tất cả các hốn vị có thể có. Chuỗi bậc hai là một phương pháp lặp lại trên ( i +
i2)Kmod256, trong đó K là số giấy phép, mang lại 64 vị trí để chèn thủy vân. Bảng
băm là một cách tiếp cận khác để làm điều tương tự.
Luồng bit chưa thủy vân
4
Abhinav Gupta and Phalguni Gupta
Luồng bit đã thủy
vân
B
I
P
T A
S R
Tín hiệu chưa thủy vân
Chia tỉ lệ và nhúng Tín hiệu đã thủy vân
T S
R I
E N
A G
M
R
P E
A C
Mở rộng và bổ sung
Lát gạch
I
Tải trọng/ Tín hiệu Thủy vân
Sửa lỗi
B
R
I
E
T
C
R
S
A T
L R
C
O
E
N
A
S
M
T
R
U
I
P
A
Y
L
O
A
D
Véctơ di chuyển
R O
T N
T
Mẫu Đồng bộ
Thông tin Header và Shape
U
T
Nhúng thủy vân
Hệ số DCT
Hệ số DCT sau khi thủy vân
O
N
O
N
(a)
(b)
Fig.1. a) Sơ đồ giản đồ để chuẩn bị tín hiệu thủy vân. b) Phác thảo cho m ột trình
nhúng thủy vân. Trình nhúng phỏng theo bộ giải mã MPEG-4.
3.3. Phương pháp luận khuếch đại thích ứng cục bộ
Phương pháp luận khuếch đại thích ứng cục bộ cải thiện hiệu suất của
thủy vân. Đối với các vùng tương đối mịn của video, nơi thậm chí có thể nhìn
thấy một lượng nhỏ biến dạng, điều khiển khuếch đại cục bộ sẽ giảm công
suất nhúng thủy vân để giảm thiểu khả năng cảm nhận. Đối với các vùng t ương
đối bận rộn hoặc có kết cấu của hình ảnh, điều khiển khuếch đại c ục b ộ làm
tăng sức mạnh nhúng để cải thiện độ rõ. Phương pháp tăng c ục bộ sử d ụng
thước đo hoạt động cục bộ để điều chỉnh công suất thủy vân trên cơ sở từng
khối, được thu trực tiếp từ hệ số DCT cho các kh ối trong và được dự đoán bằng
cách sử dụng thông tin vectơ chuyển động cho các khối được dự đốn. Mơ hình
độ tăng cho ra tăng cục bộ L(x,y). Các hệ số thủy vân sau đó được tính trọng số
bằng L(x,y) để tạo ra tín hiệu thủy vân sẽ được nhúng vào video:
W∗(x,y) = αL(x,y)W(x,y)
(3)
trong đó W* là thủy vân sẽ được nhúng, α là mức tăng global do người dùng
lựa chọn và W là tín hiệu thủy vân được ưu tiên điều chỉnh mức tăng. Đ ối v ới
mỗi VOP, trọng số tăng thêm cục bộ được quyết định dựa trên hoạt động ước
tính trong VOP. Đối với Mã hóa trong-VOP, L(x,y) là
L(x,y) = DCT(f(x),g(y))2ΣDCT(i,j)2
I
(4)
trong đó f(x) và g(y) ánh xạ pixel thứ ( x,y) thành hệ số DCT ( f(x),g(y)). Đối
với các VOP được dự đoán, sử dụng cùng một cơng thức nhưng thay vì Tổng
năng lượng là ΣDCT(i,j)2 thì nó là
(5)
Watermarking of MPEG-4 Videos
5
Trong đó N1, N2, N3 và N4 là số pixel đã di chuyển từ Khu vực A, B, C, D đến
khối hiện đang được xem xét. Bản phác thảo cho khuếch đại thích ứng cục bộ
được thể hiện trong Hình 2 (a).
Locally Salient
Watermark
Hệ số DCT được biến đổi
W*
Thơng tin Header và Shape
Mơ hình tăng
Tăng cục bộ
L(x,y)
X
aW
Dữ liệu véctơ chuyển động
Thủy vân
(a)
(b)
(c)
Fig.2. a) Bản phác thảo cho phương pháp khuếch đại thích ứng c ục b ộ. b) Tín hi ệu
thủy vân gốc sẽ được chèn. c) Tín hiệu thủy vân cu ối cùng sau khi s ử dụng lát g ạch
(a) Video I(900 Kb/giây)
(b) Video II(64 Kb/giây)
Fig.3. a) Video được nhúng thủy vân có tốc độ bit 900 Kb / giây và t ốc đ ộ bit t ải
trọng là 1 Kb / khung hình. b) Video được nhúng thủy vân có t ốc đ ộ bit 64 Kb / giây và
tốc độ bit tải trọng là 1 Kb / khung hình.
4. Kết quả
Thuật tốn đã được thử với hai video (một video có nhiều kết c ấu – texture,
hơn so với video khác) được quay trong Viện cơng nghệ Kanpur với khơng có
chuẩn bộ dữ liệu video cho thủy vân được chuẩn bị trước. Các video được nén ở
các tốc độ bit khác nhau (64-900 Kb / giây) và t ốc độ bit c ủa tín hi ệu th ủy vân
thay đổi từ 1 kb / khung hình đến 3 Kb / khung hình. Các khung có kích th ước
192 x 192 và thủy vân 32 x 32 đã được chèn vào. Việc chuẩn bị tín hi ệu thủy vân
đã được thể hiện trong các hình. 2 (b), 2 (c). Kết quả nhúng th ủy vân ở 1 Kb /
6
Abhinav Gupta and Phalguni Gupta
khung hình với video 900 kb / s và 64 kb / s được th ể hi ện trong Hình 3. Hình 4
cho thấy hiệu suất của mơ-đun khuếch đại thích ứng cục bộ.
(a) Khơng sử dụng khuếch đại thích ứng cục bộ
bộ
(b) Sử dụng khuếch đại thích ứng cục
Fig.4. a) Video được nhúng thủy vân có tốc độ bit 900 Kb / giây và t ốc đ ộ t ải tr ọng
thủy vân là 3Kb / giây với khơng có mơ-đun khuếch đ ại thích ứng c ục b ộ. b) Video đ ược
nhúng thủy vân có tốc độ bit 900 Kb / giây và tốc đ ộ tr ọng là 3Kb / giây có áp d ụng m ức
tăng thích ứng cục bộ. Sự khác biệt là chất lượng khá rõ ràng ở các vùng có k ết c ấu th ấp
như bầu trời và bức tường
5. Đánh giá chủ quan
Một giao thức để đánh giá chất lượng của các khung video có th ủy vân đã
được xác định dựa trên khuyến nghị P.910 của ITU-T [9] và BT.500 [10] c ủa ITUR. Các khuyến nghị này đề xuất các giao thức khác nhau dựa trên m ục tiêu c ủa
các đánh giá và sự sẵn có của sự thật nền tảng. Trong giao thức Xếp hạng
Danh mục Tuyệt đối (Absolute Category Rating - ACR), các hình ảnh được hiển
thị và sau đó các câu hỏi liên quan đến chất lượng của nó đ ược đặt ra. Thang đo
là rời rạc với các giá trị 1-5. Trong giao thức Xếp hạng Phân loại Suy thối
(Degradation Category Rating - DCR), đầu tiên nguồn được trình bày, sau đó là
hệ thống đang thử nghiệm. T đo được sử dụng là thang điểm suy giảm rời rạc.
Các thang đo ACR, DCR khơng được sử dụng vì chúng dùng các thang đo r ời
rạc và do đó làm mất đi sự tự do trong phân biệt vi ệc sử dụng. Một giao thức
được thiết kế trong đó đối tượng được hiển thị sự thật nền tảng cùng với hệ
thống đang được thử nghiệm nhưng quy mô là liên t ục. Trong m ỗi phiên ki ểm
tra, người dùng đầu tiên sẽ được làm quen với các giao di ện. Tiếp theo là ph ần
kiểm tra thử để kiểm tra độ quen thuộc. Sau đó, chúng tơi đã có m ột phiên ki ểm
tra, bắt đầu với một số trình tự ổn định. Điểm số cao hơn mức bình thường hóa
và điểm số trung bình đã được tính tốn.
Bài kiểm tra chủ quan được thực hiện trên 5 đối tượng là người dùng cu ối
và không phải chuyên gia về Xử lý hình ảnh. Thang đi ểm mà các đ ối t ượng bình
chọn là liên tục. Trong phiên đầu tiên của bài kiểm tra, video bên d ưới có t ốc đ ộ
Watermarking of MPEG-4 Videos
7
bit là 900 Kb / s. Trong phiên thứ hai, tốc độ bit đã đ ược thay đ ổi và các khung
riêng lẻ được hiển thị. Tốc độ thủy vân vẫn là 1 Kb / khung hình. Các bi ểu đ ồ
sau (fig 5 (a) và fig 5(b)) cho thấy hiệu suất của hai video.
(a) Tốc độ bit tải trọng thay đổi
(b) Tốc độ bit video thay đổi
Fig.5. a) Đánh giá chủ quan cho video với t ốc độ t ải trọng đ ược thay đ ổi. b) Đánh giá
chủ quan cho video với tốc độ bit video được thay đ ổi
6. Tổng kết
Đưa ra một kĩ thuật mới dành cho nhúng thủy vân vào lu ồng bit mi ền nén
MPEG-4. Kĩ thuật này không chỉ mạnh mẽ với các lỗi đồng bộ mà còn c ải thi ện
chất lượng video bằng việc sử dụng khuếch đại thích ứng cục bộ.
Tài liệu tham khảo
[1] Hartung, F., Girod, B.: Watermarking of uncompressed and compressed video. Signal
Processing 66 (1998) 283–301
[2] Hartung, F.: Watermarking and fingerprinting of uncompressed and compressed
video. Signal Processing 66 (1998) 283–301
[3] ISO: Information technology - generic coding of moving pictures and associated
audio information. ISO/IEC 13818-2 (1994)
[4] Langelaar, G., R.Lagendijk: Optimal differential energy watermarking of dct encoded
images and video. IEEE Transactions on image Processing 10 (2001) 148– 158
[5] F. Jordan, M.K., Ebrahimi, T.: Proposal of a watermarking technique for
hiding/retrieving data in compressed and decompressed video. ISO/IEC document
JTC1/SC29/WG11 MPEG97/M2281 (1997)
[6] Hsu, C., Wu, J.: Hidden digital watermarks in images. IEEE Transactions on Image
Processing 8 (1999) 58–68
[7] D. Nicholson, P.K., Delaigle, J.: Watermarking in mpeg4 context. European
Conference on Multimedia Application Services and Techniques (1999) 472–492
[8] ISO: Information technology - coding of audio/video objects:video. ISO/IEC 144862 (October 1998)
[9] ITU-T: Methodology for subjective assesment of the quality of television pictures.
Recommendation P.910 (1996)
[10] ITU-R: Subjective video quality assesment methods for multimedia applications.
Recommendation BT. 500-11 (1995)