Tải bản đầy đủ (.pdf) (80 trang)

Điều khiển truy xuất dựa theo nội dung trong các cơ sở dữ liệu video

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.31 MB, 80 trang )

Đại Học Quốc Gia Tp. Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA
---------------------------

TRẦN NGUYỄN ANH THY

ĐIỀU KHIỂN TRUY XUẤT DỰA THEO NỘI DUNG
TRONG CÁC CƠ SỞ DỮ LIỆU VIDEO

Chuyên ngành : Công Nghệ Thông Tin
Mã số ngành

: 01.02.10

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 8 năm 2007


LỜI CẢM ƠN
Trước tiên tơi xin bày tỏ lịng biết ơn sâu sắc đến TS. Đặng Trần Khánh, người đã
cho tôi một cơ hội đến với lĩnh vực bảo mật cơ sở dữ liệu (database security). Thầy
cũng là người hướng dẫn tơi trong suốt q trình thực hiện luận văn. Luận văn này
được hoàn thành với sự hướng dẫn tận tình của Thầy cùng các tài liệu được thầy cung
cấp.
Tơi xin chân thành cảm ơn quý Thầy Cô trong khoa Công Nghệ Thông Tin, trường
Đại Học Bách Khoa đã truyền đạt những kiến thức q báu trong suốt khố học.
Tơi xin cảm ơn các đồng nghiệp ở công ty FCGV đã chia sẽ công việc và hỗ trợ về
mặt kỹ thuật để tơi có thể hồn thành luận văn này.
Tơi xin cảm ơn các bạn học viên cao học CNTT K15, K2005, K2006 đã giúp đỡ và
đóng góp ý kiến trong việc hồn thành đề tài.


Cuối cùng, tơi xin cảm ơn gia đình đã hỗ trợ về mặt tinh thần cho tơi trong suốt thời
gian khố học, đặc biệt là trong giai đoạn thực hiện luận văn.


TĨM TẮT NỘI DUNG
Trong thế giới thơng tin, số lượng dữ liệu multimedia ngày càng lớn do đó cần
phải có các phương thức để lưu trữ, đánh chỉ số và tìm kiếm một cách hiệu quả. Đã có
nhiều nghiên cứu liên quan đến lĩnh vực này trong những thập niên gần đây và nhiều
báo cáo về các mơ hình cơ sở dữ liệu video đã được trình bày. Hầu hết các cơ sở dữ
liệu video hiện đại đều sắp xếp các video theo cấu trúc cây phân cấp nhằm tăng hiệu
quả tổ chức khối lượng lớn dữ liệu này.
Bên cạnh đó, lĩnh vực quản lý truy xuất cơ sở dữ liệu cũng là một đề tài được quan
tâm và nghiên cứu nhiều trong thời gian gần đây. Các nghiên cứu thường tập trung vào
mức độ hiệu quả và linh động của các mơ hình quản lý truy xuất. Điều này có nghĩa là
dữ liệu chỉ được truy xuất bởi những người đã được xác nhận quyền và công việc gán
quyền có thể được thực hiện một cách dễ dàng và chính xác.
Trong luận văn này, tác giả trình bày mơ hình cơ sở dữ liệu video là sự kết hợp
giữa mơ hình cơ sở dữ liệu phân cấp và việc sử dụng các chú thích (annotations) với
các mở rộng sau đây:
¾ Mở rộng cơ chế đánh chỉ số phân cấp video cổ điển bằng cách thêm frame và đối
tượng đặc biệt (salient object) vào cây phân cấp nhằm tăng mức độ “nhuyễn” của
dữ liệu trong việc phân quyền và quản lý truy xuất dữ liệu.
¾ Bên cạnh đó, với việc sử dụng các chú thích, tác giả cung cấp nhiều giải pháp để
người sử dụng truy vấn các video mà họ quan tâm dựa theo nội dung của video
(content-based retrieval).
¾ Ngồi ra, tác giả cũng mở rộng mơ hình quản lý truy xuất cơ sở dữ liệu nguyên
thuỷ để đáp ứng các đặc trưng của cơ sở dữ liệu video. Mơ hình được đề nghị hỗ
trợ cơ chế quản lý truy xuất đa luật - nghĩa là một người sử dụng có thể chịu ảnh



hưởng bởi nhiều xác nhận quyền, và quản lý truy xuất đa cấp - nghĩa là mỗi xác
nhận quyền có thể chỉ định ở bất kỳ cấp độ video nào.
Keywords: video database models, content-based video retrieval, video database
access control


ABSTRACT
The growing amounts of multimedia data available to the average user has reached
a critical phase where methods for indexing, searching, and efficient retrieval are
expressly needed to manage the information load. Many researches related to this field
have been conducted over some last decades and consequently, some video database
models have been proposed. Most of modern video database models make use
hierarchical structure to organize huge amount of videos to support video retrieval
efficiently. Database access control is another interesting research area with many
models reported.
In this thesis, we present a hybrid video database model which is a combination of
hierarchical video database model and annotations using. In particular, we extend the
original hierarchical indexing mechanism to add frames and salient objects as the
lowest granularity level in the video tree with the aim to support multi-level access
control. Beside that, with the use of annotations, we give users more solutions to query
for their interesting videos based on the video contents (content-based retrieval). In
addition, we also tailor the original database access control model to fit the
characteristics of video data. Our updated model supports both multiple access control
policies, means a user may be affected by multiple polices, and multilevel access
control, means an authorization may be specified at any video levels.
Keywords: video database models, content-based video retrieval, video database
access control


MỤC LỤC

Chương 1 PHÁT BIỂU VẤN ĐỀ............................................................................ .1
1.1 Giới thiệu...................................................................................................... .1
1.2 Đề tài nghiên cứu ......................................................................................... .2
1.3 Những kết quả nghiên cứu liên quan ........................................................... .3
1.4 Kết quả đạt được và những đóng góp .......................................................... .5
Chương 2 PHÂN TÍCH VÀ LƯU TRỮ DỮ LIỆU VIDEO ................................... .6
2.1 Định dạng và lưu trữ dữ liệu video .............................................................. .6
2.1.1 Các khái niệm cơ bản về video............................................................ .6
2.1.2 Các phương pháp nén (compress) dữ liệu video ................................. .8
2.1.3 Định dạng video MPEG-4 ................................................................... .8
2.2 Phân đoạn video bằng cách nhận dạng biên (shot boundary detection) ...... 13
2.2.1 Một số phương pháp nhận dạng biên trên dữ liệu chưa nén ............... 14
2.2.2 Phương pháp nhận dạng biên trên dữ liệu nén .................................... 15
2.2.3 Phương pháp xác định biên video shot dựa vào vector di chuyển ...... 16
2.3 Rút trích key frame....................................................................................... 20
2.4 Gom nhóm các video shot............................................................................ 20
2.5 Tổ chức cơ sở dữ liệu video......................................................................... 21
2.5.1 Mơ hình cơ sở dữ liệu video phân cấp ................................................ 21
2.5.2 Mơ hình cơ sở dữ liệu video tổng quát................................................ 23
Chương 3 TRUY VẤN CƠ SỞ DỮ LIỆU VIDEO ................................................ 25
3.1 Quản lý truy xuất (Access control) .............................................................. 25
3.2 Các cơ chế truy xuất..................................................................................... 30
3.2.1 Truy xuất theo truy vấn ....................................................................... 30
3.2.2 Truy xuất lựa chọn............................................................................... 32
Chương 4 MỞ RỘNG MƠ HÌNH CƠ SỞ DỮ LIỆU VIDEO................................ 34
4.1 Mơ hình cơ sở dữ liệu .................................................................................. 34
4.2 Kiến trúc hệ thống cơ sở dữ liệu video ........................................................ 36


4.3 Mơ hình quản lý xác nhận quyền ................................................................. 38

4.4 Quản lý truy vấn cơ sở dữ liệu video ........................................................... 43
4.5 Quản lý phân quyền ..................................................................................... 48
Chương 5 HIỆN THỰC VÀ ĐÁNH GIÁ ............................................................... 54
5.1 Hiện thực cơ sở dữ liệu................................................................................. 54
5.2 Quản lý truy xuất .......................................................................................... 55
5.3 Quản lý phân quyền ..................................................................................... 59
5.4 Kết quả và đánh giá...................................................................................... 60
Chương 6 TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN.............................................. 62
6.1 Tổng kết ....................................................................................................... 62
6.3 Hướng phát triển đề tài................................................................................. 63
PHỤ LỤC A ............................................................................................................ 64
TÀI LIỆU THAM KHẢO ....................................................................................... 70


DANH MỤC HÌNH
Hình 1.1: Sơ đồ hiện thực một cơ sở dữ liệu video ........................................................ 3
Hình 2.1: Việc lấy mẫu theo thời gian và không gian của một video ............................ 6
Hình 2.2 Encoder/Decoder ............................................................................................. 8
Hình 2.3 Frame 1 .......................................................................................................... 10
Hình 2.4 Frame 2 .......................................................................................................... 10
Hình 2.5 Sự khác biệt ................................................................................................... 10
Hình 2.6 Tính tốn độ dịch chuyển .............................................................................. 12
Hình 2.6 Chuỗi các I-frame, B-frame và P-frame ........................................................ 17
Hình 2.7 Frame DC với MC có trọng số ...................................................................... 17
Hình 2.7 Mơ hình cơ sở dữ liệu video phân cấp........................................................... 22
Hình 2.8 Mơ hình cơ sở dữ liệu video tổng qt.......................................................... 24
Hình 3.1 Mơ hình truy xuất theo truy vấn .................................................................... 25
Hình 3.2 Mơ hình truy xuất lựa chọn ........................................................................... 26
Hình 3.3 Sơ đồ giải thuật quản lý truy xuất theo truy vấn .......................................... 32
Hình 4.1 Mơ hình cơ sở dữ liệu video .......................................................................... 35

Hình 4.2 Kiến trúc hệ thống cơ sở dữ liệu video.......................................................... 37
Hình 4.3 Đồ thị quan hệ các nhóm người sử dụng ....................................................... 39
Hình 4.4 Đồ thị quan hệ các nhóm đối tượng video..................................................... 39
Hình 4.5 Mơ tả giải thuật 4.1........................................................................................ 46
Hình 4.6 Một cơ sở dữ liệu video với tập hợp các quyền............................................. 50
Hình 5.1 Màn hình chọn lựa video .............................................................................. 55
Hình 5.2 Màn hình tìm kiếm video.............................................................................. 56
Hình 5.3 Màn hình quản lý phân quyền ....................................................................... 60



1

Chương 1
PHÁT BIỂU VẤN ĐỀ
1.1 Giới thiệu
Ngày nay dữ liệu video (video data) trở thành một thành phần quan trọng trong thế
giới thông tin. Với khối lượng dữ liệu video khổng lồ, cần phải có các cơ chế lưu trữ
và truy xuất các cơ sở dữ liệu video (video database - CSDL video) hiệu quả. Bên cạnh
đó, cần phải có các cơ chế bảo mật đối với các cơ sở dữ liệu này, đặc biệt là các kho
dữ liệu có tính chất đặc biệt quan trọng.
Vấn đề thứ nhất là việc tổ chức dữ liệu video thô (raw video data) một cách hiệu
quả. Dữ liệu có được từ nhiều nguồn khác nhau cần được chuẩn hoá theo một định
dạng nhất định. Điều này giúp truy xuất dữ liệu sẽ nhanh hơn. Sau đó cần phải có cơ
chế nén (compress) các dữ liệu thô để giảm không gian lưu trữ bởi vì khối lượng dữ
liệu này thường rất lớn. Ngồi ra, các đặc trưng (feature) quan trọng của dữ liệu video
cũng cần được rút trích (extract) để sử dụng cho cơng việc truy xuất sau này.
Vấn đề thứ hai là xây dựng cơ chế truy xuất linh hoạt và hiệu quả. Để đạt được tính
hiệu quả, cần phải nghiên cứu các kỹ thuật đánh chỉ số (indexing). Các kỹ thuật đánh
chỉ số cổ điển thường dựa trên text (ví dụ như tên video). Các phương pháp này gặp

nhiều hạn chế do cùng một video nhưng nhiều người xem khác nhau có thể sẽ phân
tích theo các góc độ khác nhau. Các cơ chế truy xuất CSDL video gần đây thường dựa
trên nội dung của các video (content-based retrieval). Khuynh hướng này vẫn còn
được nghiên cứu và phát triển cho tới ngày nay nhằm tìm cách khắc phục hạn chế về
khả năng nhận dạng, phân loại của máy tính.
Vấn đề thứ ba là tính linh hoạt và hiệu quả của cơ chế truyền dữ liệu qua mạng. Đây
là yêu cầu rất quan trọng vì hầu hết các ứng dụng đều hiện thực trên các mạng máy
tính. Một đặc trưng khác của dữ liệu video là nó phải thoả mãn yêu cầu thời gian thực


2

(real-time data). Do đó dữ liệu cần phải được đồng bộ giữa nguồn dữ liệu (video
database server) và dữ liệu trên máy người sử dụng (client).
Vấn đề thứ tư là bảo mật dữ liệu. Dữ liệu có thể bị truy xuất trái phép từ CSDL
video hoặc trong quá trình truyền dữ liệu trên mạng. Điều này có ý nghĩa rất lớn đối
với các kho dữ liệu mang tính chất đặc biệt quan trọng (ví dụ như kho dữ liệu quốc
gia). Mặc dù đã có rất nhiều các cơ chế bảo mật dữ liệu, cần phải nghiên cứu các cơ
chế bảo mật cho dữ liệu video bởi vì loại dữ liệu này có rất nhiều đặc trưng riêng so
với các loại dữ liệu khác.

1.2 Đề tài nghiên cứu
Trong nội dung luận văn, tác giả tập trung nghiên cứu cơ chế lưu trữ, truy xuất và
bảo mật CSDL video. Hình vẽ 1.1 mô tả kiến trúc của một hệ thống CSDL video.
Nguồn dữ liệu của CSDL video là một tập các dữ liệu video với nhiều định dạng
khác nhau như: MPEG, JPEG, WMV, … (offline video data). Ngoài ra dữ liệu video
cũng có thể là các dịng video (video stream – online video data). Các nguồn dữ liệu
thường được chuyển về một định dạng thống nhất nhằm tăng hiệu quả truy xuất dữ
liệu. Thông thường, định dạng MPEG thường được sử dụng do khả năng nén khá tốt
và chất lượng của video cao. Trong giới hạn luận văn, tác giả chỉ tập trung vào các file

video (offline data) và đồng thời giả định các nguồn video được dùng đều đã ở định
dạng MPEG-4.
Các video sau đó sẽ được phân tích (analyze) trước khi lưu trữ vào CSDL video.
Các thao tác trong bước này gồm có:
¾ Phân đoạn video thành các video shot, chọn các key frame cho từng video shot
(shot boundary detection and segmentation), trích các đối tượng quan trọng
trong các video shot (salient object extration).
¾ Phân loại (classifying) và gom nhóm (clustering) các video shot


3

¾ Đánh chỉ số (indexing) các cluster này
Một thành phần khác của hệ thống là query processor với chức năng quản lý việc
truy xuất dữ liệu. Thành phần này có chức năng nhận yêu cầu từ người sử dụng, truy
xuất dữ liệu thoả mãn yêu cầu và trả kết quả cho người sử dụng. Để thoả mãn tính linh
hoạt của việc truy vấn, các hệ thống thường dùng cơ chế truy vấn dựa theo nội dung
(content-based query). Query processor cũng thực hiện nhiệm vụ bảo mật thông tin.
Hệ thống chỉ cho phép người sử dụng được phép truy xuất những video được gán
quyền thích hợp mà thơi.

Request
End user

MPEG format
Query
JPEG format

Conference
Stream


Video Analyzing

processing

Result

Video
Database
Hình 1.1: Sơ đồ hiện thực một cơ sở dữ liệu video

1.3 Những kết quả nghiên cứu liên quan
Quản lý truy xuất và bảo mật CSDL video là một lĩnh vực đã và đang được nghiên
cứu phổ biến trên thế giới. Các nghiên cứu này có thể được chia thành ba nhóm chính:
tiền xử lý dữ liệu, tổ chức dữ liệu và quản lý truy xuất.


4

Đối với vấn đề tiền xử lý dữ liệu, các nghiên cứu tập trung vào việc phân đoạn tự
động video và rút trích các thuộc tính chính. Sau đây là một số phương pháp phân
đoạn biên video phổ biến. Trong phương pháp so trùng mẫu (template-matching)
(Hampapur, Jain, & Weymouth,1994; Zhang, Kankanhalli, Smoliar, & Tan, 1993),
từng pixel trên các frame liền kề sẽ được so sánh để tìm ra điểm phân đoạn. Phương
pháp dựa trên histogram (Tonomura, 1991) sử dụng sự thay đổi histogram của các
frame để nhận dạng biên. Bên cạnh đó, Zhang, Kankanhalli, Smoliar, và Tan (1993) đã
đề nghị phương pháp so sánh kép (twin comparation) để tăng độ chính xác của việc
phân đoạn bằng cách sử dụng hai hệ số để tính tốn điểm cắt và điểm cắt tiềm năng.
Ưu điểm của các phương pháp này là đơn giản và nhược điểm là chỉ làm việc được
trên các dạng video chưa nén mà thôi. Đối với dạng dữ liệu video đã được nén, Chen,

Taskiran, Albiol, Delp, & Bouman (1999); Lee, Kim, & Choi (2000); Yeo & Liu
(1995) đề nghị các phương pháp dựa trên các hệ số DCT để tìm điểm phân đoạn.
Khơng những sử dụng các hệ số DCT, Zhang (1993) đề nghị phương pháp dựa trên
vector di chuyển để xác định biên.
Đối với việc tổ chức lưu trữ dữ liệu video, các nghiên cứu tập trung vào việc xây
dựng mơ hình dữ liệu nhằm tăng hiệu suất truy vấn và quản lý truy xuất hiệu quả.
Hjelsvold (1999) đề nghị mơ hình cơ sở dữ liệu video tổng qt với ý tưởng là mơ
hình được xây dựng có thể hỗ trợ nhiều ứng dụng khác nhau. Một CSDL video lý
tưởng phải hỗ trợ cho nhiều mục đích như sản xuất video, quản lý video, phân tích
khoa học, … CSDL video cũng cần phải cung cấp khả năng sử dụng lại các thành phần
video. Một nghiên cứu khác của Bertino (2003) đề nghị mơ hình cơ sở dữ liệu phân
cấp với ý tưởng là phân loại tập hợp video vào các nhóm ngữ nghĩa như subregion,
subcluster và cluster. Mơ hình phân cấp này rất thích hợp để quản lý phân quyền và
truy vấn theo lựa chọn (browsing). Tuy nhiên mơ hình này cần được mở rộng hơn nữa
để giúp truy vấn theo nội dung hiệu quả hơn.


5

Cùng với mơ hình CSDL video phân cấp, Bertino cũng đề nghị các cơ chế quản lý
truy xuất hiệu quả và linh động. Người quản trị có thể cho phép và không cho phép
người sử dụng truy xuất các video, nhóm video ở các cấp khác nhau. Bertino cũng đề
nghị các cơ chế giải quyết đụng độ trong trường hợp một người sử dụng vừa được
quyền truy xuất một video bởi một quyền và bị cấm truy xuất bởi một quyền khác.

1.4 Kết quả đạt được và những đóng góp
Trong giới hạn luận văn, tác giả đã đạt được những mục tiêu như sau:
¾ Nghiên cứu các cơ chế lấy mẫu và nén dữ liệu video cũng như các giải thuật phân
đoạn biên video.
¾ Nghiên cứu các mơ hình cơ sở dữ liệu video có sẵn như mơ hình cơ sở dữ liệu

video tổng qt, mơ hình phân cấp và các cơ chế quản lý truy xuất, bảo mật cơ sở
dữ liệu nói chung và cơ sở dữ liệu video nói riêng.
¾ Thiết kế mở rộng các mơ hình cơ sở dữ liệu video nhằm đáp ứng yêu cầu truy vấn
dựa theo nội dung và quản lý truy xuất một cách hiệu quả. Tác giả đã kết hợp hai
mơ hình cơ sở dữ liệu video tổng qt và mơ hình phân cấp giúp cho người sử
dụng có thể truy vấn một cách linh động hơn. Đồng thời, tác giả đã thêm vào khái
niệm video segment giúp cho việc phân quyền được “nhuyễn” hơn, có nghĩa là
người sử dụng có thể gán quyền đến mức frame hay đối tượng.
¾ Xây dựng các giải thuật để quản lý truy xuất đa luật (multiple access control
policies) trên mơ hình cơ sở dữ liệu phân cấp trong đó bao gồm các giải thuật để
xác nhận quyền, tìm kiếm dữ liệu và giải quyết đụng độ.
¾ Hiện thực chương trình demo cho một cơ sở dữ liệu video nhằm mô phỏng các lý
thuyết đã đề ra.


6

Chương 2
PHÂN TÍCH VÀ LƯU TRỮ DỮ LIỆU VIDEO
2.1 Định dạng và lưu trữ dữ liệu video
2.1.1 Các khái niệm cơ bản về video
Digital video là một chuỗi các cảnh (scene) được lấy mẫu (sample) theo thời gian
(temporally) và không gian (spartially) [1]. Các cảnh được lấy mẫu ở mỗi thời điểm
hình thành một frame.

Hình 2.1: Việc lấy mẫu theo thời gian và không gian của một video
2.1.1.1 Frame
Các đoạn video (video sequence) là một chuỗi các frame kế tiếp nhau. Tần xuất lấy
mẫu các frame được tính bằng số frame trong một giây. Tần xuất này càng lớn thì chất
lượng của video càng cao thể hiện thông qua sự liền lạc (smooth) giữa các hình ảnh.

Tuy nhiên, số lượng frame càng lớn, kích thước của đoạn video sẽ càng tăng. Do đó
cần phải cân bằng giữa thơng số này và kích thước lưu trữ.


7

Trong mỗi frame, chỉ một số điểm được lưu trữ lại (spatial sample) gọi là các pixel.
Thông thường các pixel được lấy mẫu thông qua một lưới 2D. Các pixel nằm trên các
nút của lưới sẽ được lấy mẫu. Thông tin cần lưu trữ ở mỗi nút là màu sắc của điểm đó.
Số lượng pixel được lấy mẫu trên mỗi frame thể hiện độ mịn của hình ảnh.
2.1.1.2 Màu sắc
Màu sắc của mỗi pixel có thể lưu theo dạng RGB (Red, Green and Black) hoặc theo
phương pháp YcbCr [1].
Phương pháp RGB
Phương pháp RGB dựa theo nguyên tắc mọi màu sắc đều có thể được biểu diễn
thơng qua sự kết hợp của ba màu cơ bản là đỏ, xanh và đen. Do đó, mỗi pixel chỉ lưu
trữ giá trị của ba thành phần màu trên (thường giá trị từ 0 đến 255). Việc thu thập các
cảnh (scene) theo phương pháp này khá đơn giản. Hệ thống sẽ dùng ba bộ cảm biến
tương ứng với ba màu để thu thập hình ảnh một cách độc lập. Khi hiển thị hình ảnh,
các màu này sẽ được trộn (merge) lại với nhau đem lại hình ảnh màu sắc thực.
Phương pháp YCbCr
Phương pháp YCbCr khơng chỉ quan tâm đến màu sắc của từng pixel mà cịn chú
trọng đến độ chói của chúng. Bên cạnh ba giá trị màu sắc R, G và B, phương pháp này
bổ sung thêm thơng số về độ chói (luminance) Y. Giá trị Y được tính theo cơng thức:
Y = k r R + k g G + kb B

(2.1)

trong đó k là các giá trị trọng số của các màu.
Thông tin màu sắc được biểu diễn bởi các thành phần sai lệch giữa giá trị màu sắc

và giá trị trung bình Y.
Cb = B − Y
Cr = R − Y
Cg = G − Y

(2.2)


8

Trong trường hợp này, tại mỗi pixel, ta phải lưu 4 giá trị là Y, Cb, Cr, Cg. Tuy
nhiên, tổng Cb + Cr + Cg là một giá trị không đổi nên trong thực tế ta chỉ cần lưu 3 giá
trị là Y (luma), Cb (blue chroma) và Cr (red chroma). YCbCr có ưu điểm so với
phương pháp RGB là các hệ thống nhận dạng hình ảnh của con người (Human Visual
System - HVS) nhạy cảm với độ chói hơn là màu sắc.

2.1.2 Các phương pháp nén (compress) dữ liệu video
Vì kích thước các video rất lớn nên chúng cần phải được nén lại. Các giải thuật nén
và giải nén vẫn còn được nghiên cứu và phát triển cho tới ngày nay với mục đính là
tăng độ chính xác và hiệu suất. Để nén dữ liệu video, dữ liệu này được mã hố
(encoding) sau đó sẽ được giải mã (decoding). Các hệ thống này được gọi chung là
CODEC (enCOding/DECoding).
Encoder

Transmit or
store

Decoder
Display


Video source
Hình 2.2 Encoder/Decoder
Việc nén dữ liệu được thực hiện thơng qua loại bỏ các thành phần thừa (redundant
components). Các thành phần này khơng ảnh hưởng đến q trình tái tạo lại hình ảnh.
Hầu hết các kỹ thuật nén đều tận dụng khả năng nén theo không gian và thời gian.
Những frame được lấy mẫu liên tục thường liên quan với nhau, đặc biệt khi tần xuất
lấy mẫu cao. Các pixel nằm liền kề trong cùng một frame thường cũng liên quan mật
thiết với nhau.

2.1.3 Định dạng video MPEG-4
MPEG là một chuẩn được xây dựng bởi nhóm MPEG (Moving Picture Experts
Group). Đây là một trong những nhóm phát triển các chuẩn cho tổ chức ISO


9

(International Standards Organization). Nhóm này đã xây dựng các chuẩn như MPEG1, MPEG-2, MPEG-3 và gần đây là MPEG-4 và MPEG-7.
Đặc trưng nổi bật của MPEG-4 so với các dạng chuẩn trước đó là:
¾ Nén các video một cách hiệu quả
¾ Mã hố các đối tượng trong video. Các đối tượng này là các vùng có hình dạng
được quan tâm trong các cảnh video
¾ Hỗ trợ truyền tải dữ liệu video hiệu quả thơng qua mạng
¾ Mã hố các hình ảnh tĩnh. Điều này cho phép các hình ảnh có thể lồng giữa các
frame của video
¾ Mã hố các đối tượng di chuyển
¾ Mã hố các ứng dụng chất lượng cao. Trong dạng ứng dụng này độ nén không
quan trọng bằng chất lượng của video
Thành phần cốt lõi của chuẩn MPEG là một CODEC với mục tiêu nén và giải nén
dữ liệu video. MPEG sử dụng kỹ thuật nén theo thời gian (temporal) và biến đổi
(transform) dữ liệu. Dữ liệu được nén này sau đó sẽ được mã hố bằng bộ mã hoá

Entropy (Entropy encoder).
2.3.1.1 Nén dữ liệu
Mục tiêu của việc nén theo thời gian là giảm dữ liệu dư thừa bằng cách loại bỏ
những chi tiết trùng lặp giữa frame hiện tại và frame được dùng để tiên đoán
(predicted frame). Kết quả của quá trình này là frame thặng dư (residual frame) được
tính bằng cách “trừ” frame hiện tại và frame tiên đốn. Hình 2.3 và 2.4 thể hiện hai
frame kế tiếp nhau. Hình 2.5 hiển thị sự khác biệt giữa 2 frame trên.


10

Hình 2.3 Frame 1

Hình 2.4 Frame 2

Hình 2.5 Sự khác biệt
Những thay đổi giữa các frame xảy ra chủ yếu do sự di chuyển của các đối tượng
trong frame. Do đó nếu ta tiên đốn chính xác sự di chuyển của các đối tượng này thì


11

khơng cần lưu trữ tồn bộ các đối tượng mà chỉ cần lưu các vector di chuyển (motion
vectors) mà thôi.
Việc tiên đốn các vector di chuyển của từng pixel hồn tồn có khả năng thực
hiện được. Tuy nhiên, với cách tiếp cận này, thời gian tính tốn và kích thước lưu trữ
sẽ rất lớn. Do đó, các hệ thống thường sử dụng cách tiếp cận theo khối (block-based
motion estimation). Thay vì tính tốn sự duy chuyển của từng pixel, cách tiếp cận này
xử lý cho từng khối kích thước MxN. Ý tưởng của phương pháp này như sau:
¾ Tìm các vùng trong frame tham khảo (frame trước hoặc sau frame hiện tại) một

vùng tương thích (match) nhất với vùng mẫu MxN. Độ tương thích thể hiện
thơng qua năng lượng của phần dư khi lấy hiệu giữa vùng mẫu và vùng hiện tại.
Năng lượng của một vùng thể hiện thông qua kích thước dữ liệu cần phải lưu
trữ. Hệ thống phải quét tất cả các vùng lân cận (tính từ trung tâm vùng hiện tại)
và chọn vùng có năng lượng thặng dư nhỏ nhất. Hình 2.6 thể hiện q trình tính
tốn hướng di chuyển.
¾ Vùng được chọn sẽ được “nén” bằng cách trừ đi vùng vừa chọn được. Phần này
được gọi là phần bù di chuyển (motion compensation).
¾ Phần dư sẽ được mã hoá và truyền đi cùng với độ dời (offset) giữa khối hiện tại
và vị trí của khối tìm được. Thông số này được gọi là vector di chuyển (motion
vector).
Kích thước khối được sử dụng khác nhau tuỳ theo giải thuật. Kích thước càng nhỏ
thì năng lượng của phần dư càng giảm. Tuy nhiên, số lượng vector di chuyển sẽ tăng
lên. Do đó các giải thuật thường chọn khích thước khối là 16x16 hoặc 8x8.


12

Frame tham khảo

Frame hiện tại
Vùng tìm kiếm
Vùng tương thích

Hình 2.6 Tính tốn độ dịch chuyển
2.3.1.2 Biến đổi dữ liệu
Mục tiêu của việc biến đổi dữ liệu là chuyển hình ảnh từ miền giá trị này sang miền
khác (thường chuẩn hơn, dễ mã hoá hơn). Các kỹ thuật biến đổi dữ liệu được lựa chọn
dựa theo các tiêu chí sau:
¾ Miền dữ liệu cần biến đổi phải độc lập và đã được nén

¾ Phép biến đổi có thể biến đổi ngược lại
¾ Số phép tốn tính tốn phải chấp nhận được.
MPEG dùng phép biến đổi DCT (Discrete Cosine Transform) để biến đổi các frame
thặng dư. Kết quả sau khi biến đổi DCT của một ma trận X (N x N) là một ma trận Y
(N x N) như sau:
Y = AXAT

(2.3)


13

và phép biến đổi ngược DCT như sau:
X = AT YA

(2.4)

trong đó X là ma trận mẫu, Y là ma trận hệ số và A là ma trận chuyển đổi. Ma trận
A bao gồm các thành phần:
Aij = Ci cos

(2 j + 1)iπ
, Ci =
2N

1
(i = 0), C i =
N

2

(i != 0)
N

(2.5)

2.3.1.3 Mã hoá entropy
Dữ liệu sau khi biến đổi sẽ được mã hoá trước khi truyền tải/lưu trữ. Mục tiêu của
việc mã hoá là nhằm giảm số lượng bit cần dùng cho cùng một đơn vị thông tin.
MPEG sử dụng phương pháp mã hoá Huffman. Phương pháp này sử dụng tần xuất
xuất hiện của các mẫu để mã hoá. Các mẫu có tần xuất xuất hiện càng cao sẽ được mã
hố bằng chuỗi bit với kích thước càng ngắn.

2.2 Phân đoạn video bằng cách nhận dạng biên (shot boundary
detection - SBD)
Vì các CSDL video chứa một số lượng lớn các video nên cần phải có cơ chế truy
xuất thơng tin hiệu quả. Có ba cách tiếp cận để đánh chỉ số các video là: dựa theo chủ
đề (text-based), dựa theo đặc trưng (feature-based) và dựa theo ngữ nghĩa (senmantic
based). Dữ liệu video chứa một khối lượng thông tin rất lớn nên rất khó để biểu diễn
thơng qua chủ đề hoặc dữ liệu thô (màu sắc, âm thanh, …). Do đó hầu hết các CSDL
video đều dùng cách đánh chỉ số dựa theo ngữ nghĩa của video.
Phân đoạn biên là bước đầu tiên trong việc đánh chỉ số và truy xuất video. Mục tiêu
của phân đoạn biên là chia một đoạn video thành một tập các đoạn video có ý nghĩa.
Mỗi đoạn video sẽ được biểu diễn bằng một frame đặc trưng mang ý nghĩa cho từng


14

đoạn. Người sử dụng sẽ chọn lựa video dựa theo các hình ảnh đặc trưng của từng đoạn
thay vì phải xem qua một phần hoặc tồn bộ video.
Kỹ thuật chính được sử dụng trong SBD là so sánh sự thay đổi giữa hai frame liên

tục. Nếu mức độ thay đổi lớn hơn giá trị ngưỡng thì điểm cắt giữa hai frame này được
xem như biên của hai đoạn video. Các giải thuật SBD có thể hoạt động được trên dữ
liệu đã được nén hoặc dữ liệu chưa nén. Tuy nhiên các giải thuật phân đoạn trực tiếp
trên dữ liệu nén có hiệu suất cao hơn do giảm được thời gian giải nén và nén dữ liệu.

2.2.1 Một số phương pháp nhận dạng biên trên dữ liệu chưa nén
Các phương pháp trên dữ liệu chưa nén có thể được phân thành năm loại [2]: so
trùng mẫu (template-matching), dựa theo biểu đồ (histogram-based), so sánh kép
(twin-comparison), dựa theo khối (block-based), và dựa theo mơ hình (model-based).
Trong phương pháp so trùng mẫu, từng pixel trong frame fm sẽ được so sánh với
pixel ở cùng toạ độ của frame kế tiếp fm+1. Vị trí biên giữa hai đoạn video là điểm mà
hàm sai biệt D(fm, fm+1) lớn hơn một giá trị ngưỡng đã định trước.
Một ví dụ cho kỹ thuật dựa trên histogram được giới thiệu bởi Tonomura (1991)
[2]. Trong đó hàm sai biệt (S) về histogram giữa hai frame fm và fm+1 được tính. Nếu S
lớn hơn một giá trị ngưỡng thì đây được coi là một điểm cắt. Cơng thức tính S như
sau:
N

S ( f m +1 , f m ) = ∑ H ( f m +1 , i ) − H ( f m , i )

(2.6)

i =1

Một đặc trưng của phương pháp dựa theo biểu đồ là trong trường hợp hai frame
đang xét ít thay đổi phơng nền (background) và các đối tượng (object content) thì sự
phân bố cường độ và màu sắc cũng không thay đổi đáng kể. Ngồi ra, các biểu đồ
cũng thay đổi rất ít nếu các đối tượng di chuyển hoặc xoay chậm. Vì vậy phương pháp



15

dựa trên biểu đồ ít nhạy hơn đối với các thao tác của camera và sự di chuyển của các
đối tượng so với kỹ thuật so trùng mẫu.
Một phương pháp khác là so sánh kép được giới thiệu bởi Zhang, Kankanhalli,
Smoliar và Tan vào năm 1993 [2]. Kỹ thuật này sử dụng hai ngưỡng, một để xét điểm
cắt và một ngưỡng để xác định frame bắt đầu cho một điểm chuyển tiếp. Phương
pháp dựa theo khối không so sánh từng pixel giữa hai frame mà làm việc trên từng
khối trong frame. Với khuynh hướng này, mỗi frame được chia thành r khối. Sau đó
mỗi khối con trong frame fm sẽ được so sánh với khối tương ứng trong frame fm+1.
Phương pháp cuối cùng trong nhóm này là dựa theo mơ hình. Trong đó mọi sự biến
đổi đều được mơ hình hố thành các cơng thức tốn học. Phương pháp này khơng chỉ
tính tốn điểm cắt mà cịn xác định các điểm biến chuyển (transition point) khác (cắt,
xoá, …).

2.2.2 Phương pháp nhận dạng biên trên dữ liệu nén
Các phương pháp nhận dạng biên trên dữ liệu nén thường có hiệu suất cao hơn do
nó loại trừ được cơng đoạn giãn nén và nén dữ liệu. Tuy nhiên, cách tiếp cận này có
một nhược điểm là độ chính xác thường thấp hơn so với các phương pháp hoạt động
trên dữ liệu chưa nén. Các phương pháp trong cách tiếp cận này được chia thành ba
nhóm: dùng các hệ số DCT, dùng các vector di chuyển (motion vector), kết hợp cả hai
phương pháp trên.
Trong nhóm thứ nhất, các hệ số DCT được dùng để nhận dạng sự thay đổi cảnh.
Trong phương pháp do Chen đề nghị [5], nhận dạng biên được thực hiện bằng cách
trích các đặc trưng (feature) từ các DC frame. Các đặc trưng được tổ chức trong các
vector đặc trưng đa chiều (high-dimension feature vector). Các vector này được dùng
trong cây nhị phân hồi qui (binary regression tree) để xác định xác suất một frame là
điểm biên. Phương pháp của Yeo và Liu [6] sử dụng sự khác biệt về độ chói
(luminance) của các pixel trong các DC frame để nhận dạng biên.



16

Nhóm thứ hai sử dụng ý tưởng là các vector di chuyển sẽ thay đổi một cách liên tục
giữa các frame trong một đoạn. Trong khi đó, các vector này sẽ đứt quãng tại các điểm
biên giữa các đoạn. Zhang [7] đề nghị một phương pháp dựa trên số lượng vector di
chuyển để xác định điểm cắt. Điểm cắt xảy ra giữa hai frame fm và fm+1 nếu M < T với
M là số lượng vector di chuyển trong fm+ 1 và T là một giá trị ngưỡng cho trước.
Nhóm thứ ba sử dụng kết hợp cả hai cách tiếp cận trên (hybrid Motion/DCT). Các
phương pháp trong nhóm này sử dụng cả các thơng số DCT và thành phần chói để xác
định điểm biên.

2.2.3 Phương pháp xác định biên video shot dựa vào vector di chuyển và
biểu đồ màu sắc
Trong phần này tác giả giới thiệu một kỹ thuật phân đoạn video shot trên video
nén theo định dạng MPEG. Kỹ thuật này được giới thiệu bởi nhóm KDDI với ý tưởng
là phân đoạn video tại các điểm cắt liên tục (gradual shot transitions) hoặc rời rạc
(abrupt shot transitions) sao cho kích thước dữ liệu cần được giải mã ít nhất [16].
2.2.3.1 Giải mã MPEG bán phần
Các hệ số DC (DC coefficients) trong phép biến đổi DCT cung cấp các thành phần
ít xuất hiện nhất của hình ảnh và đồng thời biểu diễn các hình ảnh về mặt khơng gian.
Trong khi đó, thành phần DC (DC component) là một khối các giá trị trung bình. Các
frame được phân biệt thành 3 nhóm là I-frame, P-frame và B-frame. Mỗi I-frame được
mã hố thành các hệ số DC. Trong khi đó, P-frame được mã hoá thành các vector di
chuyển và giá trị thặng dư. B-frame được mã hoá thành giá trị thặng dư và các vector
dùng để tiên đoán tới và lùi.
Đối với frame I, các hệ số DC có thể tính tốn được thơng q trình giải mã VLD
(Variable Length Decoding) mà khơng phải trải qua các q trình tính tốn khác như
biến đổi ngược DCT. Trong P- và B-frame, hầu hết các khối được mã hoá liên kết



×