Tải bản đầy đủ (.pptx) (36 trang)

Bài giảng cơ sở dữ liệu chỉ mục và tìm kiếm video

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (674.15 KB, 36 trang )

Hà Nội - 2005/14
CHỈ MỤC VÀ TÌM KIẾM VIDEO
Bài 7
PGS.TS. Đặng Văn Đức

dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
Nội dung

Giới thiệu chỉ mục và tìm kiếm video

Phân đoạn video

Chỉ mục và tìm kiếm video

Đại diện và trừu tượng video

Kết luận
2/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
1. Giới thiệu

Nhắc lại kiến trúc CSDL đa phương tiện
User
Multimedia Query Engine
Document Index Image Index Audio Index Video Index
Query
Answer
3/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
Giới thiệu


Nhắc lại loại dữ liệu đa phương tiện
image
Once upon a time, there was a little
a
u
d
i
o
text
video
4/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
Tiến trình tìm kiếm thông tin
Query Video
Đại diện
query
Đại diện
video
Xử lý Xử lý
Đối sánh
(tính toán độ
tương đồng)
Video truy vấn
Đánh giá mức độ
thích hợp và
phản hồi
Off-line
On-line
5/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video

Các phương pháp chỉ mục video

Tính chất cơ bản của dữ liệu video

Video giàu thông tin

Một video đầy đủ bao gồm:

Phụ đề (subtitle),

Rãnh âm (tiếng nói và phi tiếng nối),

Tập các ảnh

Các phương pháp chỉ mục và tìm kiếm video cơ bản

Tìm kiếm video trên cơ sở meta-data

Ví dụ: Tên video, tác giả/đạo diễn/nhà sản xuất, ngày sản xuất và loại video.

Trên cơ sở văn bản

Ví dụ: Phụ đề video

Trên cơ sở âm thanh

Ví dụ: Tiếng nói và âm thanh phi tiếng nói trên rãnh tiếng

Trên cơ sở nội dung mức thấp


Tiệm cận tích hợp.
6/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
Các phương pháp chỉ mục video

Hai tiệm cận tìm kiếm video trên cơ sở nội dung mức thấp

Tiệm cận 1:

Video được xem như tập hợp các frames (ảnh) độc lập.

Sử dụng kỹ thuật tìm kiếm ảnh để tìm kiếm video

Nhược điểm: Bỏ qua quan hệ thời gian giữa các ảnh. Không
quan tâm đến khối lượng ảnh khổng lồ.

Tiệm cận 2:

Chia trình tự video thành nhóm các frames tương tự nhau (gọi là
shot – lia).

Chỉ mục và tìm kiếm trên cơ sở các frames đại diện cho nhóm.

Tiệm cận này được gọi là tìm kiếm tự động video trên cơ sở
shots.

Bài này tập trung vào nghiên cứu các kỹ thuật chỉ mục và
tìm kiếm video trên cơ sở shots.
7/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video

2. Phân đoạn video

Khái niệm phân đoạn video là tiến trình chia video thành
các shots

Biên của video shots là nơi nội dung có sự thay đổi đáng
kể về số lượng

Ví dụ các frames giữa hai lần bấm máy quay

Cần có độ đo phù hợp để nhận biết sự khác biệt giữa
các frames

Nếu sự khác biệt vượt qua ngưỡng cho trước thì được xem là
biên cửa shots.

Việc xây dựng độ đo và kỹ thuật phù hợp là vấn đề mấu
chốt của tự động tách video shots

Việc tách shots có thể là dễ dàng (giữa hai lần bấm máy
quay) hay rất phức tạp (video có hiệu ứng).
8/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
2.1 Mô hình tổng quát của dữ liệu video

Nhắc lại mô hình dữ liệu video tổng quát

Shot (lia): trình tự các frames liên tục, ngắn và nó có một
hay nhiều các đặc trưng sau:


Mô tả cùng một cảnh (scene)

Báo hiệu bắt đầu một thao tác máy quay (bấm máy quay).

Chứa sự kiện mô tả hay một hành động của một đối tượng.

Được người sử dụng lựa chọn như thực thể để chỉ mục.

Cut: Quá độ từ shot này sang shot khác

Hard cut

Quá độ từ từ (gradual)
Episode
9/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
2.2 Các bước tìm kiếm video

Bước thứ nhất: Tách shot

Phân đoạn video thành các shot (còn gọi là phân đoạn video
theo thời gian, phân hoạch hay tách shot).

Bước thứ hai: Chỉ mục từng shot

Xác định frame chính (frame đại diện - representative frame)
cho mỗi shot

Sử dụng phương pháp chỉ mục ảnh đã biết để chỉ mục frame
đại diện r.


Bước thứ ba: Đo tương tự

Đo mức độ tương tự giữa frame trong câu truy vấn và frame đại
diện của video shot.

Áp dụng kỹ thuật tìm kiếm ảnh đã biết trên cơ sở mục lục hay
véctơ đặc trưng có được từ bước 2.
10/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
Các loại chuyển shot cơ bản

Hard cut: Dễ tách shot

Mờ chồng (dissolve): Khó tách shot

Tắt dần (wipe): Khó tách shot
11/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
2.3 Phân đoạn video trên cơ sở điểm ảnh

Sử dụng thước đo tổng chênh lệch pixel-to-pixel giữa
các frames lân cận.

Nhận xét

Hiệu quả đối với hard cut.

Ít hiệu quả khi có đối tượng chuyển động giữa các Frames.


Kỹ thuật hiệu quả: So sánh các bloc tương ứng giữa các
frames lân cận thay cho việc so sánh từng pixel.
DPi =
Phát hiện cut khi:
Frame
Image Difference
12/35
[ ] [ ]
otherwise
tlkPlkPif
ii
0
|,,| 1
1
>−
+
[ ]
b
NM
lk
i
T
MN
lkDP
>

=
100
,
,

1,
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
2.4 Phân đoạn video trên cơ sở Histogram

Sử dụng đo khoảng cách biểu đồ màu (histogram) giữa hai
frames láng giềng.

Chuyển động của đối tượng ít ảnh hưởng đến biểu đồ màu
Hi(j) là biểu đồ màu frame thứ i, và j là một trong G mức xám.
Nếu SDi > θ thì phát hiện ra biên shot.

Sử dụng kỹ thuật đo khoảng cách (phép thử ) cải tiến

Vấn đề xác định giá trị ngưỡng

Xác định giá trị ngưỡng phù hợp sẽ quyết định hiệu năng phân đoạn video

Trên cơ sở mô hình thống kê độ chênh lệch giữa các frames
13/35

+
−=
j
iii
jHjHSD )()(
1
2
χ
( )


+
+

=
j
i
ii
i
jH
jHjH
SD
)(
)()(
1
2
1
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
Ví dụ phân đoạn video trên cơ sở histogram
14/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
2.5 Kỹ thuật tách shot thay đổi dần dần

Các loại biên shot thay đổi dần dần

Fade-in xảy ra khi cảnh xuất hiện dần dần.

Fade-out xảy ra khi cảnh mất đi dần dần.

Dissolve xảy ra khi cảnh mất đi từ từ trong khi cảnh khác xuất
hiện dần dần.


Wipe xảy ra khi một cảnh vào từ từ qua frame trong khi cảnh
khác rời bỏ dần dần.
Hard cut
Dissolve Wipe
Video
Propbability
of a cut
Threshold
Frame
15/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
Kỹ thuật tách shot thay đổi dần dần

Nhận xét về các kỹ thuật trên cơ sở màu và trên cơ sở
biểu đồ màu

Phụ thuộc vào một giá trị ngưỡng của sự khác biệt frame-to-
frame

Vậy, không áp dụng được vào việc tách shots khi giữa các frames có sự
thay đổi dần dần.

Không quan tâm đến phân bổ không gian màu

Vậy, không thể tìm ra biên của hai cảnh có biểu đồ màu tương tự.

Cần có kỹ thuật khác để vượt qua các hạn chế trên

Sự khác biệt giữa các frames khi có hiệu ứng (fade-in, fade-out,

dissolve, và wipe) thường lớn hơn sự khác biệt bên trong shot
nhưng lại nhỏ hơn ngưỡng tách shot.

Vậy, sử dụng một ngưỡng là không phù hợp. Zhang et al. đã đề
xuất 2 ngưỡng để tách shots.
16/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
Kỹ thuật tách shot thay đổi dần dần

Kỹ thuật khoảng cách tích lũy (Zhang et al. - 1993)

Sử dụng hai ngưỡng

Tb - để tách ngừng máy quay

Ts - thấp hơn để tách các frames nơi có thể xuất hiện quá độ dần dần.

Tích lũy độ lệch frame-to-frame lớn hơn Ts và nhỏ hơn Tb

Nếu độ chênh lệch của tích lũy lớn hơn Tb thì có thể là biên
shot.
Camera break
Special effect
Tb
Shot boundary
Frame
Frame
Ts
Tb
SDp,q

SD’p,q
17/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
Kỹ thuật cửa sổ trượt (Sliding window)

Phát triển bởi RMIT

Sử dụng cửa sổ cho một số ảnh liên tiếp

Chọn 11 frames liên tiếp làm cửa sổ

So sánh ảnh trung tâm với các ảnh trước và sau nó

Tính toán tỷ lệ giá trị các pixel của ảnh hiện thời với giá trị trung
bình của các ảnh trước và sau

Trượt cửa sổ để phát hiện chuyển cảnh từ từ nếu có giá
trị tỷ lệ cực đại.

Phương pháp hiệu quả với các chuyển cảnh từ từ.
Pre-frames
Post-frames
Frame number
Moving window Current frame
18/35
Tránh tách nhầm shot

Hai nguyên nhân dẫn tới tách nhầm shots

Nguyên nhân 1: Chuyển động của camera


Các thao tác như panning và zooming của máy quay dẫn đến
các frames thay đổi dần dần

Kỹ thuật véctơ chuyển động được sử dụng để tránh tách nhầm
các shots

Véctơ chuyển động biểu diễn “luồng quang học” được tính toán
bằng kỹ thuật đối sánh blốc ảnh giữa các frames

Nguyên nhân 2: Chiếu sáng thay đổi

Chiếu sáng thay đổi làm cho khoảng cách frame-to-frame lớn
hơn giá trị ngưỡng

Chuẩn hóa ảnh màu trước khi tách shots để tránh lỗi này.
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video19/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
Chuyển động của máy quay

Ví dụ dịch chuyển và thu/phóng của camera

Ước lượng Pan có thể thực hiện trên cơ sở trường
véctơ chuyển động của video, sau đó so sánh với mô
hình lý thuyết.
Zoom
Rotation
Pan
20/35
dvduc-2005/14 Bài 7: Chỉ mục và tìm kiếm video

Ước lượng chuyển động của camera

Mô hình hóa chuyển động camera trong 2D

Ánh xạ điểm ảnh p từ frame tham chiếu vào frame hiện hành p’.
Ta có: p=p’+v, trong đó v là véctơ chuyển động.

Mô hình affine 6 tham số có thể mô tả đầy đủ chuyển động
của camera.

Tính toán trường véctơ chuyển động (ui, vi)

Tham số ai được ước lượng bằng phương pháp bình phương tối
thiểu.

Chuyển động camera được diễn giải qua các tham số vừa
tính trên

a1 – Pan, a4 - Tilt (nghiêng), Zoom: a3=a5 =0
x0, y0 – tâm ảnh
21/27






+















=






4
1
0
0
65
32
a
a
yy
xx
aa

aa
v
u
i
i
i
i
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
Độ chói thay đổi

Nguyên nhân:

Diễn viên đi vào vùng sáng, mây trôi phủ bầu trời, các hiệu ứng
ánh sáng

Phương pháp tách shot của Wei, Drew and Li:

Chuẩn hóa từng kênh màu trước khi tách shot để làm giảm tác
động của độ chói
N – Tổng số pixel trong ảnh

Chuyển đổi sang lược đồ đơn sắc
22/35
∑∑∑
===
===
N
i
i
i

i
N
i
i
i
i
N
i
i
i
i
B
B
B
G
G
G
R
R
R
1
2
'
1
2
'
1
2
'
, ,

'''
'
'''
'
,
iii
i
i
iii
i
i
BGR
G
g
BGR
R
r
++
=
++
=
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
Độ chói thay đổi

Phương pháp tách shot của Wei, Drew and Li (tt):

Xây dựng lược đồ r và g cho mỗi ảnh.

Hình thành ảnh lược đồ đơn sắc (chromaticity histogram image
- CHI).


Giảm thiểu mật độ của mỗi CHI (16x16) nhờ kỹ thuật nén trên
cơ sở Wavelet.

Áp dụng biến đổi DCT hai chiều trên CHI để có được 256 hệ số.

Lựa chọn 36 hệ số DCT quan trọng hơn để xử lý tiếp tục.

Tính toán khoảng cách các ảnh trên cơ sở 36 hệ số để xác định
Shot và biên ảnh biến đổi dần dần.
23/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
2.6 Phân đoạn video nén (MPEG)

Nhắc lại mã hóa MPEG1-2: Các khung hình I, B và P

I-Frame: Mã hóa độc lập trên cơ sở DCT, không phụ thuộc vào
các frames khác

P-Frame: Mã hóa phụ thuộc vào frame B hay I cuối cùng (cái
nào gần hơn)

B-Frame: Phụ thuộc vào hai frame P hoặc I trước đó gần nhất
hoặc P hoặc I sau đó gần nhất.
I
B
B
B
B
B

P P
24/35
dvduc-2005/14Bài 7: Chỉ mục và tìm kiếm video
Phân đoạn video nén (MPEG)

Cơ sở phân đoạn video nén

Các hệ số DCT trong các ảnh MPEG1 và MPEG2

Thông tin chuyển động các đối tượng.

Tách shot trên cơ sở hệ số DCT

Có DCT từ các ảnh I và ảnh vi sai (differential)

Trong các blốc vi sai: Hệ số DCT = Hệ số DCT vi sai của blốc hiện hành +
hệ số DCT của blốc tham chiếu.

Hình thành ảnh của hệ số DC

Hệ số thứ nhất (DC – hệ số một chiều) là cường độ trung bình của blốc

Ảnh DC = 1/64 ảnh gốc, chứa các đặc trưng chính của ảnh gốc.

Tính toán khoảng cách giữa các khung hình (từ ảnh DC)

Phát hiện shot khi khoảng cách lớn hơn giá trị ngưỡng.
25/35

×