Phác thảo kịch bản cho nội dung

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (516.5 KB, 17 trang )

Phác thảo kịch bản cho nội dung
dựa trên truy vấn video
Tác giả:
J. P. Collomosse, G. McNeill and Y. Qian
Centre for Vision, Speech and Signal Processing,
University of Surrey
Guildford, UK
{J.Collomosse, Y.Qiang}@ surrey.ac.uk

Tìm hiểu và dịch :
Nguyễn Trường Sơn

20112078

Vũ Công Hào

20111473

Mục lục

Kế thừa
Chúng tôi trình bày nội dung cuốn “Content Based Video Retrieval(CBVR)”. Đóng góp của
chúng tôi là xây dựng mô hình xác suất của các video. Dẫn đến một thuật toán phù hợp với mô tả
phác thảo các đối tượng trọng video. Chúng tôi chứng minh rằng mô hình của mình phù hợp với
các clip trong điều kiện máy quay tĩnh và động, chuyển động của vật là thẳng va dao động.
Chúng tôi đánh giá trên hai bộ video thực và một tập video mô tả chuyển động hình dáng mà
màu sắc.
Các thuật ngữ :
Sketch based retrieval SBR : Phác thảo dựa trên phục hồi.

Querying by visual example QVE : Truy vấn bằng ví dụ trực quan
Content Based Video Retrieval(CBVR) : Hệ thống trích xuất video dựa trên nội dung.

1 Giới thiệu
Đây là mục giới thiệu về hệ thống Content Based Video Retrieval(CBVR) , khả năng trích các
video với các truy vấn được phác thảo, phác thảo truy vấn của chúng tôi mô tả cả nội dung và
chuyển động trong clip. Chúng tôi đề cập đầu vào ở mức trung bình giống như một phác thảo
kịch bản.
Khi mọi người gợi nhớ lại sự kiện, chẳng hạn người trong video. Họ vẽ phác thảo sự kiện theo trí
nhớ của họ. Chúng tôi cho rằng các bản phác thảo là tốt cho tập đầu vào của hệ thống CBVR. Sự
khác biệt về ngữ nghĩa là khá mơ hồ vì thế đặt ra một thách thức về mặt tính toán.
Đóng góp của chúng tôi là một thuật toán phù hợp với mô tả đối tượng để phác thảo video. Kết
hợp giữa không gian và chuyển động yếu để sắp xếp phù hợp các video. Chúng tôi đề xuất một
mô hình xác suất , mô hình tự hồi quy, dựa trên hệ thống Linear Dynamical Systems (LDSs), mã
hóa hình đạng màu sắc ... thông qua thông số của một đối tượng phác thảo. Chúng tôi đánh giá
thuật toán của chúng tôi dựa trên thực tế và tổng hợp video trong chương 5.

1.1 Các công việc lên quan tới hệ thống
Gắn các từ khóa để dễ dàng thực hiện và tránh mâu thuẫn trong quá trình xử lý. Truy vấn bằng ví
dụ trực quan QVE cung cấp một lựa chọn thay thế, những thành công gần đây với “bag of
world” nhanh chóng xác định được đối tượng trong một clip dài từ truy vấn ảnh.
Phần lớn sketch based retrieval (SBR) thường tập chung vào việc thu hồi hình ảnh. Các câu hỏi
thường bao gồm các màu sắc và kết cấu được xác định trước, các thông tin được tăng cường
bằng cách mô tả hình dạng và màu sắc đã được giới thiệu trước. Nhưng kĩ thuật này đã được mở
rộng cho video thông qua key-frame, tuy nhiên nó không có thành phần tạm thời để phục vụ truy
vấn và không có tính hiện thực cao.
Mặc dù hệ thống tìm video dựa trên chuyển động đã được đề suất, tuy nhiên chỉ một số ít hệ
thống thể hiện rõ truy vấn dựa trên phác thảo chuyển động. Tuy nhiên phương pháp tiếp cận mô
hình này không phải là máy quay chuyển động, cũng không phải là cấu trúc không gian trong

một cảnh. Ngược lại Chang et al.’s VideoQ thông qua một cách tiếp cận chặt chẽ, phân đoạn
video frame thành các vùng và phù hợp trên cả không gian thuộc tính và chuyển động ở cấp khu
vực. Tuy nhiên, hệ thống của chúng tôi khác với hệ thống videoQ, và hệ thống SBR khác, trong
một số cách thức khác.
Tồn tại hệ thống SBR yêu cầu phác thảo để chỉ ra chính xác các đối tượng. VideoQ cũng đòi hỏi
người dùng xác định chính xác tốc độ của đối tượng. Tuy nhiên nghiên cứu mới đây cho thấy
rằng bản phác thảo CBVR thường không chính xác với sự xuất hiện của cả hình dáng và chuyển
động của đối tượng. Không có dấu hiệu của tốc độ và chỉ một vài đối tượng được phác thảo. Hơn
nữa các đối tượng cùng xuất hiện trong phác thảo thường xuất hiện tại các thời điểm khác nhau
trong clip. Chúng tôi đã đề xuất một mô hình của không gian và chuyển động mà cả hai có thể
tương thích với sự mô hồ trong phác thảo. Ngoài ra chung tôi cho phép nhiều khu vực sẽ được
tổng hợp và dãn nhãn cho nhiều đối tượng phác thảo đơn. Chúng tôi cho rằng video hoàn toàn có
thể tách ra thành từng khu vực có ý nghĩa như trong videoQ. Thật vậy chúng tôi muốn phân đoạn
video dựa trên khu vực sau đó tổng hợp theo mô hình xác suất của chúng tôi.

2 Tổng quan về phân tích cú pháp phác thảo.
Trong phác thảo chúng tôi yêu cầu người dùng cho biết nét nền trước, hoặc một chuyển động
trong bản vẽ của họ.

Cho một truy vấn chúng tôi sử dụng thuật toán của chúng tôi để phân tích và nhóm các phác thảo
thành đối tượng. Sau đó khai thác để có được đối tượng được miêu tả trong bản phác thảo.
Những đối tượng đó là đầu vào cho thuật toán CBVR của chúng tôi.

2.1 Mô tả đối tượng phác thảo.
Thuật toán phân tích cú pháp phác thảo của chúng tôi dựa trên một nghiên cứu trước đó. Chúng
tôi thấy rằng người dùng phác thảo dựa trên phép xấp sỉ hình dạng và đồng nhất. Các chữ tượng
hình để mô tả đồ vật và chuyển động. Các đối tượng được mô tả trên một nền và chuyển động
tương đối trên nền tĩnh không phụ thuộc vào chuyển động của máy ảnh. Điều quan trọng là phác
thảo không thể hiện thông số tốc độ hay thông số chuyển động. Phác thảo mô tả đối tượng trong

không gian và chỉ vài đối tượng nổi bật trên một truy vấn.
Hai bước trong quá trình phân tích phác thảo:
Nhận dạng các đối tượng trong phác thảo.
Chia nhóm các đối tượng phổ biến như con người, mũi tên,... và nhóm các đối tượng còn lại.

Chúng tôi trích một số tính năng nhận dạng đối tượng .

1 GMM phân phối màu sắc trong các đối tượng phác thảo
2 Mô tả đối tượng chung về độ lệch, hướng, khu vực...
3 Tỉ lệ nền trong đối tượng.
4 Xác suất để đối tượng đó là người
5 Hướng của đối tượng
Dấu hiệu chuyển động được liên kết với đối tượng phù hợp. Bằng cách này mỗi đối tượng phác
thảo mang nhiều ý nghĩa. Sau đó sẽ tìm những video phù hợp.

3 Tiền xử lý video
Trước khi video được đưa vào cơ sở dữ liệu phải qua bước tiền xử lý. Cắt video thành các đoạn
với công cụ phát hiện chuyển cảnh. Để bù đắp trong việc chuyển động của camera người dùng có
xu hướng phác thảo theo chuyển động của camera trong phác thảo của họ. Chúng tôi cũng làm
như vậy để thực hiện so sánh.

Chúng tôi phân tích từng frame hình ảnh thành các khu vực theo giả thiết đồng nhất về màu sắc
trong khu vực. Máy dò cơ thể cũng được sử dụng, vì nhiều khả năng một khu vực có thể là một
phần trên cơ thể. Phân vùng của chúng tôi tốt hơn phân vùng ở cấp đối tượng thô của phác thảo
truy vấn, Nhiều vùng sau đó tổng hợp lại để được đối tượng duy nhất. Cuối cùng chúng tôi tính

toán xác suất để vùng có thể là nền trong ảnh. Đối với mỗi khung hình chúng tôi áp dụng nó với
mỗi khung hình trước đó để xây dựng một danh sách cách khung hình liền kề. So sánh khu hình

hiện tại với các khung hình trước để tạo một bản đồ khung nền. Tính điểm cho từng vùng với các
đối tượng được phác thảo.

4 So sánh và trích rút video.
Phần này chúng tôi sẽ giải thích quá trình clip được trích rút phù hợp với phác thảo.
Chúng tôi kết hợp phác thảo vào trong clip bằng cách mở rộng chuyện động của đối tượng thành
quy đạo trong khung hình. Sau đó sử dụng công cụ tìm kiếm đối tượng dựa trên chuyển động với
quy đạo đó. Gọi là trùng khớp nếu đối tượng trong khung hình rất gần với phác thảo. Một đối
tượng rỗng là đối tượng chưa được thể hiện trong khu vực, điều này cho phép chúng ta chỉ chon
những khu vực xấp xỉ phác thảo, tức là phác thảo không cần phải mô tả tất các các vùng trong
khung.
Chúng ta so sánh dựa trên đối tượng chuyện động với quỹ đạo, vì thể nên một số đối tượng xuất
hiện trong clip có thể không xuất hiện trong phác thảo. Do tính chất gần đúng và đầy đủ của
phác thảo và phân vùng mong muốn không quan sát được. Đó là điều hiển nhiên phù hợp với
thuật toán và xác suất. Bây giờ chúng ta chính thức sử dụng phương pháp này để sinh các video.

4.1 Mô hình xác suất.
Đầu tiên chúng tôi giới thiệu về các kí hiệu được sử dụng trong mô hình của chúng tôi. Thời gian
thực hiện t, một clip bao gồm T khung, đối tượng chỉ mục u, U tập các đối tượng được xác định
trong phác thảo. Mỗi đối tượng u được liên kết với Linear Dynamical System (LDS) nơi mà
chúng chuyển động với quy đạo tương ứng. Một đối tượng được đại diện bởi một LDS duy nhất.
Tất cả các trạng thái LDSs tại thời điểm t được lưu trong vector Z t = (Zt1, Zt2 .. ZtU). Vì vậy nếu
u=1 tại thời điểm t=9 có 1.74 đơn vị độ dài của quy đạo thì z91=1.74.
Khung t được kí hiệu Xt. Với mỗi khung hình chúng tôi mô tả quan sát được bằng vector
ct=(ct,1;ct,2;...;ct,Nt ). Và ct,n thuộc một trong U+1 đối tượng từ 1,2 ... U, null. Ví dụ tại thời điểm t=6
tại khu vực n=4 có đối tượng u=2 thì nghĩa là c6,4 =2.
Giải thích: N là số khu vực trong một frame.

Chúng thường sử dụng các kí hiệu X C Z để thay thế các khu vực không khung hình, các trạng

thái , nhãn tương ứng .
Ở đây : Xt là frame tại thời điểm t.
Zt là tập các trạng thái LDSs của tất cả đối tượng tại thời điểm t (U đối tượng ).
Ct tập các đối tượng được quan sát trong frame Xt.
Ví dụ

Theo sự ví dụ hình 3 chúng ta thấy được sự phân bố chung được thể hiện theo:

Giải thích công thức:

Phân phối trên toàn bộ video p(X,Z,C) bằng tích của : tổng phân phối trên c, tổng phân phối z
trên tất cả các đối tượng nhân với tổng phân phối trên z t với điều kiện zt-1 trên toàn bộ video,
phân phối trên X1 điều kiên z 1, c1 , phôi phối trên X2 điều kiện c1, X1, z2, c2, tổng phân phối của
tất cả các frame Xt trên toàn bộ khung hình với điều kiện ct-2, Xt-2, ct-1, Xt-1, zt, ct.

Với ct=(ct,1;ct,2;...;ct,Nt ), các nhãn được giả định là độc lập với nhau
Chúng tôi đã sử dụng một xác xuất phân bố đều p(ct;n = u) = 1/(U + 1).

4.1.1 Phân phối phản xạ
Các đối tượng trong phác thảo cũng xuất hiện ở các bước thời gian trước đó điều đó có nghĩa là
có một thành phần hồi quy. Sự xuất hiện của một đối tượng có thể làm thay đổi một clip, do đó
nó có thể không chính xác ngay cả bản phác thảo vẽ chính xác cho toàn bộ thời gian clip.
Cấu trúc tự hồi quy của mô hình ưu tiên sự kết hợp các biến tạp thời trong việc ghi nhãn đối
tượng do đó cung cấp một giải pháp mạnh mẽ cho vấn đề này. Chúng tôi kết hợp chúng thông
qua một lát cắt xiên (frame to frame) qA và lát cắt bên trong (sketch-to frame) qW.

Các biểu thức qw và qa kết hợp so sánh các đối tượng đơn và phụ thuộc vào thời gian trước đó.
Nhớ lại chương 2 chúng ta mô tả đối tượng bằng một tập thuộc tính, chúng tôi cũng coi trọng
trọng tâm của đối tượng bằng việc xem xét LDS của nó. Để so sánh một đối tượng phác thảo với

video. Chúng tôi nhóm tất cả các khu vực giao nhau và tính toán dựa trên khu vực được tổng
hợp. Những tính năng được tính toán theo : khu vực, trọng tâm, mô tả hình dáng dựa trên mặt nạ
sau đó đánh giá điểm số trung bình cho khu vực của đối tượng. Số điểm được định nghĩa cho
người là tối đa.
Chúng tôi đề cập đến vecto đặc trưng cho đối tượng u trong khung hình t nhận các giá trị của
nhãn ct là

.

Tương tự như vậy là vector đặc trưng cho các đối tượng phác thảo/ mô hình đối

tượng được cung cấp bởi trạng thái . Lưu ý rằng trọng tâm của thay đổi theo thời gian.
Khi đó qW và qA đượng tính toán theo công thức sau:

Trong đó :
Au là khu vực của đối tượng u, N là phân phối Gaussian, ∑ là ma trận phương hiệp của đối
tượng. Nói cách khác chúng ta so sánh đối tượng phác thảo và đối tượng video bằng cánh sử
dụng phương pháp Gaus. p là trọng số so sánh.
Phân bố màu sắc của mỗi đối tượng được mô tả bới một GMM, vì thế chúng ta không thể sử
dụng khoảng cách euclide so sánh khi đánh giá Gaussian. Chúng tôi sử dụng một phương pháp
so sánh của Kullback-Leibler dựa trên các phép biến đổi nhanh chóng, ở đây GMMs được mô tả
bằng tần suất màu sách trung bình của mỗi thành phần.
Cho hai phân phối màu sách GMMs G1 và G2 với hàm mật độ g1(x) và g2(x).
Chúng tôi xác định khoảng cách tương đối giữa chúng theo công thức :

Chúng tôi sử dụng các hệ số để làm cân bằng tỉ trọng giữa chúng.

4.1.2 Phân phối chuyển đổi.
Đối với một đối tượng u, phân phối ban đầu p(z1u) và phân phối chuyển đổi p(ztu| zt-1u) mô tả về

cách mà đối tượng chuyển động. Các tín hiệu chuyển động thường chỉ chỉ hướng chuyển động vì
thế chúng tôi buộc phải giả thiết về tốc độ và phạm vi chuyển động của một đối tượng. Sự phân
bố chuyển đổi được thực hiện bởi:

Trong đó vu là vector hướng chuyển động . Mặc dù điều này làm cho mô hình phụ thuộc vào các
clip. Lưu ý rằng phân phối chuyển đổi chỉ liên quan tới chuyển động của đối tượng theo mô hình
quỹ đạo.

4.2 Suy luận giá trị của các biến ẩn.
Khi đã xác định rõ mô hình. Điều chúng tôi quan tâm là tính toán các giá trị
p(clip|sketch) = p(X|modelparameters). Chúng tôi cũng quan tâm tới các giá trị ẩn của trạng thái
zt và nhãn ct điều đó cho phép chúng tôi đánh giá video với bản phác thảo đã cho.

Giả định được cho với giá trị c t. Mô hình có U+1 đối tượng với các trạng thái LDSs tương ứng,
Với biểu thức qa không phụ thuộc vào zt, vì thế các thành phần hồi quy có thể bỏ qua z t. Ở đây
chúng tôi sử dụng tất cả các khung T cho phép chúng tôi sử dụng phương trình backwardKalman
khi cập nhập trạng thái ẩn zt ← argmaxztp(zt|X,C) hay tìm zt để cực đại hóa p(zt|X,C).
Với giá trị ẩn trạng thái Z và tất cả các giá trị ẩn nhãn C(kí hiệu là C\) chúng ta cập nhật theo :
← argmax p(|X,C, C\)
Giải thích: Chúng ta cập nhật các giá trị theo các giá trị ẩn Z và các giá trị trước đó theo một
vòng hồi quy.Mỗi một vòng hồi quy đòi hỏi phải có (u+1)r đánh giá , với r là biến số thúc đẩy sự
cân bằng giữa tốc độ và sự chính xác, trong thử nghiệm chúng tôi tìm được r =8 là phù hợp. Các
giá trị p(X; Z; C) thường nhỏ là cần tới 10-20 vòng lặp ICM để giá trị hội tụ về cực đại.

5 Đánh giá và thảo luận
Chúng tôi đánh giá hệ thống CBVR của chúng tôi sử dụng ba bộ dữ liệu
(i)
Đoạn video tổng hợp chứa các trường hợp điều khiển trong phòng thí nghiệm

(ii)
Một tập hợp các nhóm video nhỏ của bộ dữ liệu mở KTH
(iii)
Một tập hợp dữ liệu video thực được tổng hợp từ các bộ phim truyền hình và các cảnh
quay thể thao (TSF).
Chúng tôi đã chọn các TSF của chúng tôi để thiết lập giống với các VideoQ[2] của bộ
dữ liệu thử nghiệm, không được công bố

5.1. Tổng hợp (Lab-based) đánh giá video
Các tập dữ liệu chứa 72 clips về các cảnh quay 2D di chuyển trong mặt phẳng (Hình 6). Clip bao
gồm tất cả các sự kết hợp của 3 hình, 4 màu và 3 hướng chuyển động, có và không có sự lộn xộn
nền. Hình 6a chứa một bản phác thảo truy vấn mẫu miêu tả một hình di chuyển trên một nền, 3
clip đầu sẽ được lấy, và độ chính xác của một clip sẽ được xếp hạng. Một clip được tích lũy có
độ chính xác là 0,25 cho mỗi biến phù hợp; do đó điểm số được phân phối:
Average Precision (AP) là (độ chính xác tích lũy của các clip/độ chính xác tích lũy tối đa đạt
được) nơi. Trung bình AP trên dải cho ra một Mean Average Precision (MAP) of 0.91.
Thuật toán của chúng tôi giải quyết các phác thảo không rõ ràng bằng cách tìm kiếm bằng chứng
cho các đối tượng chỉ phác thảo; không LDS được tạo ra cho các đối tượng không được phác
thảo (Các đối tượng NULL) and do đó, họ đã bỏ qua.

Vì vậy, các truy vấn của hình 6b đều hỗ, chúng tôi đã sửa đổi chính xác các tỉ số của chúng tôi
để xem xét màu sắc, hình và chỉ các chuyển động; sự phân bố tỉ số là: Các clip phù hợp nhất
(Điểm 1) được xếp hạng cac nhất. MAP là 0.85.
Hình 7 khu vực Precision-Recall trung bình trên 30 câu truy vấn(Miêu tả 15 hình di chuyển với
nền, và cũng như 15 không có). Ở đây, chúng tôi sử dụng SYN nhị phân so sánh với KTH và
TSF; một sự kết hợp chính xác với độ chính xác để làm cho tất cả các thuộc tính có liên quan
(chuyển động, hình, ect..) là cần thiết cho độ chính xác của 1. Chúng tôi nhận được một MAP
tổng thể (0.88) cho SYN, một đại diện lý tưởng để so sánh video thực đối lập.

5.2. Đánh giá Real Video
Chúng tôi đánh giá hệ thống của chúng tôi bằng việc sử dụng 200 đoạn clip dữ liệu hoạt động
độc lập của KTP [17] . Chúng tôi đã chọn 25 clip của các hoạt động đang chạy và đang đi bộ tới
nhiều hướng khác nhau. Thiết lập các truy vấn bao gồm các bản phác thảo với các tín hiệu
chuyển động.

Hình 7 khu Precision-Recall được tính trung bình trên tất cả các truy vấn(MAP=0.74). Hiệu năng
so sánh với SYN cho thấy khả năng mở rộng tốt, và chính xác các tập hợp của phân đoạn trên.

Hình 8: Bộ dữ liệu TSF; ví dụ truy vấn trích và lấy ra các clip tốt nhất, đã được thảo luận trong
SEC. 5.2. Độ chính xác trung bình (AP) của các truy vấn
Q1=0.63; Q2=0.48; Q3=0.67; Q4=0.62; Q5=0.60.
Vùng để “theo dõi” người, và vì vậy nhận dạng đúng các hướng chuyển đông. Tuy nhiên, KTH
chỉ chứa những tông màu xám và như vậy nó không hoàn toàn thực hiện các biến đổi tất cả các
tính năng của chúng tôi. Do đó chúng tôi đánh giá một bộ dữ liệu thứ 2 TSF gồm 298 màu TV
drama/sports clips ( frames/clip). Đối tượng là những người, xe oto, hoặc ngựa, chủ yếu là một
đối tượng đơn với các máy ảnh chuyển động theo các màn hình di chuyển. Các tập dữ liệu được
so sánh với VideoQ là người đánh giá 200 clip tương tự nhau qua 4 câu truy vấn. Đối với mỗi
truy vấn, chúng tôi tự chỉ định một vật trên mặt đất, một clip có liên quan nếu, trực quan, các đối
tượng đơn hình gần đúng (khía cạnh), màu sắc, và hướng với các truy vấn (và màu nền nếu đã
phác thảo). Để kiểm tra khả năng mở rộng, chúng tôi cũng chạy các truy vấn này trên các bộ dữ
liệu kết hợp TSF+KTH. Hình 7 khu đường cong trung bình Precision-Recal qua các thiết lập
truy vấn. Hình 8 minh họa các truy vấn mẫu với mỗi clip tương ứng tốt nhất and tỷ lệ AP. Nhìn
chung cho các thiết lập TSF chúng ta có được MAP = 0.65 và cho thiết lâp TSF+KTH ta có
MAP =0.59. Giải thích hình 7 cho TSF (298 clip), chúng tôi kỳ vọng 6 kết quả tốt nhất có liên

quan trên trung bình., mà chúng ta coi là chấp nhận được cho các ứng dụng của chúng tôi của
việc thu hồi lại các tập phim từ cơ sở dữ liệu video.

Đối với tập hợp của 500 clip thuộc top 6 các kết quả có liên quan, cho thấy khả năng mở rộng tốt
để cho CSDL lớn hơn. Mặc dù TSF không thực sự phù hợp VideoQ[2], kết quả của chúng tôi
được so sánh với các AP trong 4 truy vấn của họ (0.40, 0.36, 0.55, 0.36 MAP=0.42) .
Hình 8 cho thấy xử lý chính xác trong chuyển động tuyến tinh đơn (Q1,3-5) và nhiều đối
tượng(Q2). Trong (Q2,3,5) việc phát hiện người không thành công do quy mô; tuy nhiên các
chuyển động đặc biệt và màu sắc trong các trường hợp khuyến khích thu hồi đúng.
Trong mọi trường hợp (Q1-5), chuyển động camera được bù trừ một cách chính xác. 3Obtained
thu từ những đường cong PR của hình 10 trong Cheng et at [2]

6. Tổng kết
Chúng tôi đã trình bày một mô hình xác xuất cho các video dựa trên Linear Dynamical
Systems (LDS), và áp dụng mô hình của chúng tôi để phù hợp với mô tả đã phác thảo đối tượng
di chuyển đến video cho CBVR. Chúng tôi dã cho thấy mô hình của chúng tôi một cách chính
xác để tổng hợp trên các phân đoạn video để tạo thành vùng đối tượng xấp xỉ bằng các bản phác
thảo. Như vậy, hệ thống của chúng tôi không thừa nhận tính bền vững tam thời hoặc ngữ nghĩa
chính các video trước phân đoạn (như trong Chang et at [2]). Chúng tôi phát triển xa hơn bằng
cách kết hợp các loại chuyển động mới kiểu như dao động. Mặc dù các bản phác thảo là một
phương diện truy vấn biểu cảm và trực giác, họ cũng rất mơ hồ. Ví dụ, các tín hiệu chuyển động
có hương nhưng không đáng tin cậy phản ánh tầm quan trọng của chuyển động [5] (Thông tin
này là cần thiết bởi[2]). Sự nhập nhằng này buộc chúng tôi phải đưa những giả định vào mô hình
của chúng tôi, chúng tôi giả định các vanvas sketch để gần một bức tranh bao trùm tất cả các
khung, và các chuyển động đã phác thảo sẽ kéo dài qua. Nhưng xuất hiện trong các đoạn clip là
các khoảnh khắc khác nhau.Mô hình của chúng tôi, không giả định về mối liên hệ thời gian giữa
các đối tượng.(Sec 4). Hơn nữa, không phải tất cả các đối tượng có mặt trong video phải được
phác thảo.
Phác thảo không thể hiện tầm quan trọng đối tương đối của các tính năng. Trong hình 6b, ba hình
bầu dục đang trở về left-right rank 3. Hình và chuyển động có vẻ quan trọng hơn màu sắc, nhưng
tùy thuộc vào ngữ cảnh sử dung của chúng tôi, điều này có thể không thích hợp. Công việc sắp

tới sẽ là cải thiện việc thực hiện của chúng tôi với tốc để tốc độ tương tác và khám phá thong tin
phản hồi liên quan đến cách tương tác điều chỉnh phương sai về tính năng này (eq.3). Nhiều tính
năng phức tạp (ví dụ đối với hình or phát hiện người) có thể được thay thế vào khuôn khổ của
chúng tôi. Chúng tôi căn cứ các lựa chọn của chúng tôi trong một nghiên cứu thực nghiệm [5],
mà quan sát phác thảo từng đợt để chỉ chứa phân bố màu sắc và hình gần đúng. Tương tự như
vậy, mặc dù LDS của chúng tôi chứa đường dẫn tham số, các chuyển động phức tạp hiếm khi
được phác thảo[5]. Thay vì tính toán và sau đó phù hợp với các vector từ truy vấn và clip, chúng
tôi đánh giá hỗ trợ trong clip dưới một mô hình xác xuất của nội dung (Khung LDS của chúng
tôi).
Lợi ích chính là thành phần của các video được hiểu trong bối cảnh cảu một bản phác thảo; sự
mô trong các ký họa được giải quyết trong ánh sang của chứng cứ trong video (nhiều như người
ta có thể nhận ra rằng bản vẽ của một đứa trẻ là của một con voi đã từng nói với như vậy).
Cho rằng nhóm không có giám sát của các điểm ảnh vào đối tượng vượt quá tầm hiểu ngữ nghĩa
Vision, điều này có vẻ như một cách tiếp cận đầy hứa hẹn để thu hẹp khoảng cách ngữ nghĩa cho
SBR.
Thích nghi của các mô hình của chúng tôi cũng có thể được sử dụng để theo dõi.

7 Tài liệu liên quan
[1] J. Besag. On the statistical analysis of dirty pictures. Jrnl.
Royal Statistical Society B, 48:259–302, 1986.
[2] S. Chang, W. Chen, H. Meng, H. Sundaram, and D.
Zhong.
VideoQ: an automated content based video search systemusing visual cues. In Proc. ACM Multimedia, pp. 311–324,
Nov. 1997.
[3] C. Christoudias, B. Georgescu, and P. Meer. Synergism in
low-level vision. In Proc. ICPR, pp. 4:150–155, 2002.
[4] O. Chum, J. Philbin, J. Sivic, M. Isard, and A. Zisserman.
Total recall: Automatic query expansion with generative feature model for retrieval. In Proc. ICCV, pp. 1–8, 2007.
[5] J. Collomosse, G. McNeill, and L. Watts. Free-hand

sketch
grouping for video retrieval. In Proc ICPR, 2008.
[6] R. D. Dony, J. W. Mateer, J. A. Robinson, and M. G.
Day.
Iconic versus naturalistic motion cues in automated reverse
storyboarding. In Proc. CVMP, pp. 17–25, 2005.
[7] V. Ferrari, M. Jimenez, A. Zisserman. Progressive search
reduction for human pose estimation. Proc. CVPR, 2008.
[8] B. Furht and O. Marques. Content-based Image and
Video
Retrieval. Kluwer Acad., 2002. ISBN: 1-402-0700047.
[9] J. Goldberger and H. Aronowitz. A distance measure between GMMs based on the unscented transform and its application to speaker recognition. In Proc. Eurospeech, 2005.
[10] D. Goldman, B. Curless, D. Salesin, and S. Seitz.
Schematic
storyboards for video editing and visualization. In Proc.
ACM SIGGRAPH, volume 25, pp. 862–871, 2006.
[11] J. Hafner, H. S. Sawhney, W. Equitz, M. Flickner, and
W. Niblack. Effcient color histogram indexing for quadratic
distance. IEEE Trans. PAMI, 17(7):729–736, 1995.

[12] C. E. Jacobs, A. Finkelstein, and D. H. Salesin. Fast
multi-resolution image querying. In Proc. ACM SIGGRAPH,
pp.
277–286, Aug. 1995.
[13] I. Laptev and P. Perez. Retrieving actions in movies.
Proc.
ICCV, pp. 432–439, 2007
[14] I. Laptev, M. Marszalek, C. Schmid, and B. Rozenfeld.
Learning realistic human actions from movies. In Proc.
CVPR, 2008.

[15] Z. Li, O. R. Zaane, and Z. Tauber. Illumination
invariance
and object model in image and video retrieval. Jrnl. Vis.
Comm. and Image Rep., 10(3):219–244, Sept. 1999.
[16] X. Ren and J. Malik. Learning a classification model for
segmentation. In Proc. ICCV, pp. 1:10–17, 2003.
[17] C. Schuldt, I. Laptev, and B. Caputo. Recognizing
human
actions: A local svm approach. In Proc. CVPR, 2004.
[18] E. D. Sciascio, G. Mingolla, and M. Mongiello. CBIR
over
the web using query by sketch and relevance feedback. In
Proc. Intl.Conf. VISUAL, pp. 123–130, June 1999.
[19] C. Shim, J. Chang. Efficient similar trajectory retrieval
for
moving objects in video. Proc. CIVR, pp. 163–173, 2003.
[20] J. Sivic and A. Zisserman. A text retrieval approach to
object
matching in videos. In Proc. ICCV, pp. 1470–1477, 2003.
[21] C. Su, H. Liao, H. Tyan, C. Lin, D. Chen, and K. Fan.
Mo-tion flow-based video retrieval. IEEE Trans. Multimedia,
9(6):1193–1201, Oct. 2007.
[22] E. Tulving. Elements of episodic memory. Oxford
Claren-don, 1983. ISBN: 0-198-521251.
[23] H. Zhang, Z. Kankanhalli, and S. W. Smoliar. Automatic
partitioning of full-motion video. In Proc. ACM Multimedia,
volume 1, pp. 10–28, June 1993

Phác thảo kịch bản cho nội dung

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về