Phân vùng đối tượng trên video với visual saliency và optical flow

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (684.12 KB, 5 trang )

Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017

Kỷ yếu khoa học

PHÂN VÙNG ĐỐI TƯỢNG TRÊN VIDEO VỚI VISUAL SALIENCY
VÀ OPTICAL FLOW
Nguyễn Tồn Anh*, Trình Xuân Sơn, Trần Minh Triết
Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP. Hồ Chí Minh
*Tác giả liên hệ:
TÓM TẮT
Phân vùng đối tượng trên video là một vấn đề có nhiều ứng dụng như video matting và tái tạo
ba chiều. Tuy nhiên, chưa có quá nhiều sự quan tâm cho vấn đề này như là đối với những vấn
đề như nhận dạng đối tượng và phân vùng ảnh. Trong đề tài này, nhóm tác giả đề xuất một
phương pháp mới cho việc phân vùng đối tượng trên video bằng việc dùng phát hiện vật thể
nổi bật làm phương pháp phân vùng chính, cộng với việc sử dụng lan truyền mask bằng optical flow và nhận biết vật biến mất hay xuất hiện lại nhờ vào phương pháp phát hiện đối
tượng. Hướng tiếp cận này tận dụng những phương pháp hiện đại nhất và có thể dễ dàng thay
thế bằng những phương pháp mới hơn và tốt hơn. Những đánh giá về hiệu năng được thực
hiện trên bộ dữ liệu DAVIS 2016 dành cho phân vùng đối tượng đơn dùng một mask đầu tiên
cho thấy rằng hướng tiếp cận được đề xuất có thể so sánh với các phương pháp hiện đại trên
cùng vấn đề này.
Từ khóa: Phân vùng đối tượng video, visual saliency, nhận diện vật thể nổi bật, optical flow,
nhận diện vật thể.
VIDEO OBJECT SEGMENTATION WITH VISUAL SALIENCY
AND OPTICAL FLOW
Nguyen Toan Anh*, Trinh Xuan Son, Tran Minh Triet
University of Science – VNU Ho Chi Minh City
*Corresponding Author:
ABSTRACT
Video object segmentation is a problem that has a variety of applications such as automatic
video matting and 3D reconstruction. However, there is not much focus on the subject comparing to problems like object recognition and image seg-mentation. In this thesis, the
authors seek to propose a novel approach for doing video object segmentation using salient

object de-tection as the main segmentation method, with mask propagation by optical flow
and disap-pearance and reappearance detection using object detection. The approach takes
advantage of state-of-the-art methods and can be easily adapted to newer and better methods.
Evaluations performed on the DAVIS 2016 dataset for single-mask-object segmentation show
that the proposed approach is comparable to state-of-the-art methods on the same problem.
Keywords: Video object Segmentation, visual saliency, salient object detection, optical flow,
object detection.
TỔNG QUAN
Phân vùng ngữ nghĩa là quá trình phân chia
bức ảnh đầu vào thành những phân vùng
thuộc về bất kỳ lớp nào được định trước, biến
một bức ảnh thành một dạng dễ phân tích
hơn (Shapiro and Stockman, 2001). Phân
vùng đối tượng, một vấn đề về phân vùng
ngữ nghĩa, quan tâm về việc phân chia của
một hay nhiều vật thể trong bối cảnh trong
khi thông tin nền thường bị bỏ qua. Với phân
vùng đối tượng trong video, chúng ta được
cung cấp một đối tượng quan tâm và nhiệm

vụ của chúng ta là phân vùng đối tượng đó ra
khỏi một chuỗi các bức ảnh (video), thay vì
chỉ là một tấm ảnh duy nhất.
Tính saliency của một vật thể được định
nghĩa là khả năng vật thể đó nổi bật hơn hẳn
những thứ lân cận (Achanta et al., 2009). Nói
theo một cách khác, nó có thể được hiểu như
là khả năng lôi kéo sự chú ý từ những người
quan sát. Với các hệ thống máy tính, nhận
biết visual saliency cho phép chúng ta sử

dụng những phương pháp chọn lọc đối tượng
nhanh chóng thay vì phải sử dụng các

129

Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017

phương pháp vét cạn để xử lý hình ảnh, ví dụ
nhưng việc qt tồn bộ các phần của một
bức ảnh để tìm thấy vùng hoặc đối tượng
quan tâm (Itti and Koch, 2000)
(Navalpakkam and Itti, 2005). Nhận diện vật
thể nổi bật, vấn đề của việc nhận diện những
đối tượng nào, thay vì những vùng nào gây
sự chú ý, cịn đóng góp vào rất nhiều các ứng
dụng khác, một trong số đó là phân vùng
ảnh/video (Wang, Shen and Porikli, 2015).
Phân vùng ngữ nghĩa có rất nhiều ứng dụng,
từ video matting tự động tới tái tạo ba chiều.
Thêm vào đó, cùng với sự phá triển của công
nghệ thông tin, các nội dung đa phương tiện,
đặc biệt là video, trở thành một nguồn dữ liệu
khổng lồ. Do đó, những ứng dụng của phân
vùng ngữ nghĩa vào video đang dần trở nên
rất quan trọng. Việc nghiên cứu và phát triển
các thuật toán và phương pháp hiệu quả cho
phân vùng video rất cần thiết. Tuy nhiên,
ngay cả với nguồn cầu tăng dần về việc phân
vùng đối tượng trong video, vẫn có sự thiếu

hụt về các thuật toán và phương pháp để giải
quyết chúng. Theo Perazzi và các đồng sự,
có một khoảng cách về mặt hiệu năng giữa
các thuật toán về phân vùng video và những
phương pháp tương tự dùng để giải quyết
phân vùng hình ảnh và nhận diện đối tượng.
Vì vậy, những lý do đó thúc đẩy nhóm tác
giả tạo ra một phương pháp mới để thực hiện
việc phân vùng đối tượng trong video. Ý
tưởng ban đầu là dùng phương pháp phát
hiện đối tượng nổi bật làm phương pháp
phân vùng bởi vì dựa trên quan sát cho thấy
visual saliency có thể được thực hiện với tốc
độ và độ chính xác cao.
Do đó, mục tiêu của nhóm tác giả trong đề
tài này là đề xuất một hướng tiếp cận mới
cho vấn đề phân vùng đối tượng trong video
sử dụng phương pháp phát hiện vật thể nổi
bật cho việc phân vùng. Hướng tiếp cận còn
sử dụng optical flow để truyền thông tin
mask để giới hạn vùng tìm kiếm và phương
pháp phát hiện đối tượng nhằm nhận biết
việc vật thể biến mất và xuất hiện lại. Hướng
tiếp cận được đề xuất có thể tận dụng những
phương pháp hiện đại và đủ linh hoạt để có
thể thay vào những phương pháp mới hơn và
tốt hơn.
VẬT LIỆU VÀ PHƯƠNG PHÁP
Phát hiện đối tượng nổi bật giải quyết việc

Kỷ yếu khoa học

chỉ ra đối tượng nổi bật nhất trong khung
ảnh. Phương pháp này xét trên tổng thể bức
ảnh chứ không chú tâm vào phân vùng nào
hơn. Hơn thế nữa, phương pháp phát hiện đối
tượng nổi bật không cần đến thơng tin của
mask, vì những gì chúng ta đang làm là tìm
và chỉ ra những vật nổi bật nhất trong khung
hình. Do đó, khi được áp dụng vào để phân
vùng đối tượng trong video, đối tượng mà ta
đang phân vùng có thể khơng phải là đối
tượng quan tâm thực sự. Vì vậy, đề xuất sử
dụng mask để giới hạn vùng tìm kiếm trước
khi phân vùng sử dụng visual saliency.
Tuy nhiên, chỉ với một cái mask của khung
hình đầu tiên của cả chuỗi là được cho,
khơng có cách nào phương pháp phát hiện
đối tượng nổi bật có thể theo dấu đối tượng
quan tâm khi nó di chuyển trong cảnh. Do
đó, ta cần có một phương pháp theo dõi để
cập nhật mask, và chúng tôi đề xuất sử dụng
optical flow cho nhiệm vụ này.
Chỉ cịn có một vấn đề duy nhất với việc sử
dụng visual saliency như một phương pháp
phân vùng đối tượng trong video. Bởi vì
chúng ta phụ thuộc vào việc phát hiện đối
tượng nổi bật, kể cả khi ta xác định được
vùng quan tâm, việc liệu rằng đối tượng thực
sự có nằm trong đó hay khơng lại hồn tồn

bị lờ đi. Điều này có thể dẫn tới việc phương
pháp sẽ phân vùng một đối tượng hoàn toàn
khác khi chúng ta mất dấu đối tượng. Để
tránh điều này, chúng tôi đề xuất bổ sung
thêm một cơ chế để phát hiện việc biến mất
và xuất hiện lại của đối tượng.
Chúng tôi thực hiện những thí nghiệm của
mình trên bộ dữ liệu DAVIS 2016. Bộ dữ
liệu DAVIS được tạo ra gần đây với mục
đích tập trung vào việc phân vùng đối tượng
trong vid-eo. Bộ dữ liệu này chứa những
chuỗi video với độ phân giải cao bao quát
nhiều hoạt động cho bốn lớp được phân bổ
đều: người, động vật, xe cộ, đối tượng khác
(Perazzi et al., 2016).
Bộ dữ liệu DAVIS bao gồm hai tập con. Tập
DAVIS 2016 chú trọng vào việc hỗ trợ trong
việc tìm hiểu về phân vùng một đối tượng có
dùng mask trong khi DAVIS 2017 tập trung
vào phân vùng nhiều đối tượng có dùng
mask. Tập 2016 phù hợp cho mục đích của
chúng tôi trong việc thử nghiệm các phương
pháp đề xuất. Đầu tiên, nội dung của nó đủ
đa dạng để chắc rằng chúng tôi đã bao hàm

130

Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017

đủ các trường hợp khi thực hiện tập thí
nghiệm đầu tiên. Thứ hai, những thang đo đi
kèm với tập DAVIS có ý nghĩa và được định
nghĩa rõ ràng để có thể đánh giá phương
pháp của chúng tơi. Thứ ba, bởi vì tập
DAVIS 2017 chưa có sẵn hồn tồn, nên khó
để chúng tơi đánh giá phương pháp của mình
bằng các thang đo về lượng. Vì thế, DAVIS
2016 là lựa chọn cho việc tìm hiểu của chúng
tơi.
Để thực hiện việc theo dõi đối tượng và lan
truyền mask cho phương pháp, chúng tơi tiến
hành thí nghiệm sử dụng EpicFlow để tạo ra
các optical flow giữa các cặp khung hình liên
tiếp trong một chuỗi và sử dụng những kết
quả đó để cập nhật mask. Sử dụng optical
flow, chúng tơi có thể lan truyền thơng tin
mask. Tuy nhiên, có ba vấn đề chính với
phương pháp cập nhật mask này:
• Vì chỉ có mask đầu tiên cho mỗi chuỗi ảnh
là có sẵn, khơng có đủ thơng tin để có thể cập
nhật mask hiệu quả. Nói cách khác, nhiễu và
mất mát do thiếu thơng tin mới ảnh hưởng tới
q trình cập nhật.
• Thơng tin sẽ mất rất nhanh khi đối tượng
trong cảnh bị biến dạng.
• Optical flow trở nên khơng hữu dụng khi
vật bị che khuất hay biến mất.
Hầu hết các vấn đề chung quy là q trình
cập nhật mask chỉ có thơng tin cũ từ mask

đầu tiên để làm việc. Do đó, chúng tơi sử
dụng kết quả phân vùng tại mỗi khung hình

Kỷ yếu khoa học

thay vì chỉ thơng tin từ mask đầu tiên để cập
nhật.
Kết quả của sự thay đổi này là việc lan
truyền mask tốt hơn vì thơng tin mới được
thêm vào trong quá trình cập nhật ở mỗi
khung hình, giảm bớt cả nhiễu lẫn mất mát.
Tuy nhiên, việc sử dụng kết quả phân vùng
để cập nhật dẫn đến một vấn đề khác. Nếu
kết quả phân vùng cho khung hình đó tệ, cái
mask được cập nhật cũng sẽ tệ theo, và điều
đó ảnh hưởng xấu tới việc phân vùng khung
ảnh tiếp theo.
Để tránh tình huống nguy hiểm này, chúng
tơi đề xuất áp dụng một chặn dưới trên kích
thước của bounding box được tạo ra từ mask.
Lý do là kết quả phân vùng tệ chỉ khiến cho
các bounding box nhỏ đi, không to lên. Đây
là bởi vì chúng tơi sử dụng bounding box từ
mask bị giới hạn vùng quan tâm cho việc
phân vùng và kết quả phân vùng chỉ có thể
lớn ngang ngửa bounding box. Dựa vào hai
heuristic sau, chúng tôi đề xuất cách để xác
định chặn dưới:
• Phép hợp giữa mask và kết quả phân vùng
cho một khung hình khi được sử dụng cùng

với optical flow cho ra kết quả theo dõi tốt
hơn.
• Khi đối tượng quan tâm trong cảnh thay đổi
kích thước của nó, kích thước bé nhất của đối
tượng đó khơng bé hơn 20% kích thước khi
nó xuất hiện lần đầu tiên.

60
40

20
0
0.0-0.1

0.1-0.2

0.2-0.3

0.3-0.4

0.4-0.5

0.5-0.6

0.6-0.7

0.7-0.8

0.8-0.9

0.9-1.0

-20
-40
-60
-80
-100
-120
True positive ratio >= 0.5

True positive ratio < 0.5

Hình 1. Tỷ lệ True positive cho các tỷ lệ diện tích đối tượng trên vùng bounding box khác
nhau

131

Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017

Heuristic thứ hai có từ một thí nghiệm mà
trong đó chúng tơi lấy ngẫu nhiên 1.000
mảnh ảnh từ tập DAVIS 2016 và thực hiện
phân vùng. Kết quả phân vùng sau đó được
đánh giá. Hình dung trực quan về kết quả có
thể quan sát ở Hình 1, nó diễn tả rằng những
kết quả tốt hầu như có tỉ lệ đối tượng trên
vùng rơi vào trong đoạn [0.2, 0.7].
Với những heuristic đó, chúng tơi chọn chặn
dưới của kích thước bounding box của một

chuỗi ảnh là kích thước của bounding box
đầu tiên của chuỗi. Cấu trúc cuối cùng được

Kỷ yếu khoa học

đề xuất, như có thể thấy ở Hình 2 gồm ba
thành phần khác nhau:
 Mô-đun phân vùng: chịu trách nhiệm phân
vùng đối tượng ra khỏi cảnh.
 Mô-đun optical flow: chịu trách nhiệm lan
truyền thông tin từ mask trong chuỗi, giúp
tạo mask mới và bounding box mới.
 Mô-đun phát hiện đối tượng: Phát hiện đối
tượng trong cảnh, chịu trách nhiệm trong
việc theo dõi khi đối tượng biến mất hay xuất
hiện lại.

Hình 2. Cấu trúc cuối cùng cho phương pháp phân vùng đối tượng nổi bật trong video có sử
dụng lan truyền mask và nhận diện sự xuất hiện lại
Trên tập val của DAVIS 2016, phương pháp
KẾT QUẢ VÀ THẢO LUẬN
Những kết quả thí nghiệm được cho thấy của chúng tơi, kể cả có hoặc khơng có chức
trong Bảng 1 và Bảng 2, ta có thể thấy rằng năng phát hiện vật thể biến mất hay xuất hiện
mơ hình cuối cùng của chúng tơi đạt được lại, có kết quả tương đương với phương pháp
những kết quả tương đương OFL, kết quả VPN trong khi đó DHSNet lý tưởng có kết
xếp thứ tư khi xét trên tập trainval của quả tốt hơn phương pháp ở vị trí thứ ba.
DAVIS 2016 cho tới thời điểm tháng 7/2017.
Bảng 1. So sánh kết quả với các phương pháp khác trên tập DAVIS 2016 trainval. Hạng
chính thức tính tới tháng bảy năm 2017. Kết quả của chúng tôi được tô xanh lá (trường hợp lý
tưởng) và xanh dương (phương pháp hiện tại). Model 1 và Model 2 lần lượt là phương pháp

của chúng tôi trước và sau khi xét tới đối tượng biến mất và xuất hiện lại
Official Rank
𝐽 mean 𝐽 recall 𝐽 decay 𝐹 mean 𝐹 recall 𝐹 decay 𝑇
OSVOS N/A

N/A

N/A

N/A

N/A

N/A

N/A

-

MSK

0.803

0.935

0.089

0.758

0.882

0.095

0.189

1

Ideal

0.756

0.902

0.043

0.722

0.870

0.052

0.348

-

VPN

0.750

0.901

0.093

0.724

0.842

0.136

0.300

2

Model2 0.719

0.842

0.085

0.680

0.800

0.091

0.382

-

OFL

0.711

0.800

0.227

0.679

0.780

0.240

0.224

3

Model1 0.688

0.802

0.112

0.649

0.768

0.119

0.379

-

BVS

0.764

0.260

0.656

0.774

0.236

0.317

4

0.665

132

Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017

Kỷ yếu khoa học

Bảng 2. So sánh kết quả với các phương pháp khác trên tập DAVIS 2016 val. Hạng chính
thức tính tới tháng bảy năm 2017. Kết quả của chúng tôi được tô xanh lá (trường hợp lý

tưởng) và xanh dương (phương pháp hiện tại). Model 1 và Model 2 lần lượt là phương pháp
của chúng tôi trước và sau khi xét tới đối tượng biến mất và xuất hiện lại
Official Rank
𝐽 mean 𝐽 recall 𝐽 decay 𝐹 mean 𝐹 recall 𝐹 decay 𝑇
OSVOS
MSK
Ideal
VPN
Model2
OFL
Model1
BVS

0.798
0.797
0.760
0.719
0.702
0.697
0.680
0.600

0.936
0.931
0.900
0.854
0.823
0.825
0.756
0.669

0.149
0.089
0.050
0.081
0.124
0.079
0.264
0.289

0.806
0.754
0.722
0.678
0.655
0.660
0.634
0.588

KẾT LUẬN VÀ ĐỀ NGHỊ
Nhóm tác giả đề xuất phương pháp thực hiện
phân vùng đối tượng trong video sử dụng
phương pháp phát hiện đối tượng nổi bật,
cùng với optical flow để giúp trong việc lan
truyền mask và phương pháp phát hiện đối
tượng để phát hiện khi đối tượng biến mất và
xuất hiện lại. Chúng tơi tiến hành nhiều thí
nghiệm để tìm hiểu về tính khả thi của
phương pháp và tìm ra những các để cải thiện
những kết quả hiện tại. Kết quả lý tưởng nhất

được tạo ra từ việc kết hợp thông tin từ
ground-truth khích lệ chúng tơi tạo nên một
mơ hình tốt. Dù nó vẫn có nhiều hạn chế,
phương pháp được đề xuất có thể so sánh
được với những phương pháp hiện đại nhất.
Kết luận, đề tài của chúng tôi cung cấp cái
nhìn sâu sắc vào việc áp dụng visual saliency
như một phương pháp phân vùng ngữ nghĩa.

0.926
0.871
0.860
0.788
0.690
0.765
0.704
0.679

0.150
0.090
0.050
0.099
0.144
0.084
0.272
0.213

0.378
0.218
0.343

0.376
0.324
0.379
0.222
0.347

1
2
3
4
5

Những kết quả từ thí nghiệm của nhóm tác
giả đã cho thấy những hạn chế của phương
pháp. Có hai vấn đề chủ yếu với phương
pháp được đề xuất:
 Với các chuỗi ảnh mà dễ bị che khuất,
phương pháp không thể trả về kết quả nhất
quán.
 Sử dụng YOLO để phát hiện đối tượng biến
mất và xuất hiện lại có hạn chế bởi vì đối
tượng quan tâm cần phải được gán nhãn nhất
quán trong suốt chuỗi ảnh.
Cần phải tiến hành nhiều thí nghiệm hơn và
trên nhiều bộ dữ liệu khác để giúp chúng ta
xác định những vấn đề này, cũng như cải
thiện những kết quả hiện tại. Hơn thế nữa,
những thí nghiệm được thực hiện trên cùng
một bộ dữ liệu và nhiều bộ dữ liệu có thể
cung cấp thêm những cái nhìn mới.

TÀI LIỆU THAM KHẢO
ACHANTA, R., HEMAMI, S., ESTRADA, F. AND SUSSTRUNK, S. (2009) “Frequencytuned Salient Region Detection”, Computer Vision and Pattern Recognition, 2009.
CVPR 2009, Miami Beach.
ITTI, L. AND KOCH, C. (2000) “A saliency-based search mechanism for overt and covert
shifts of visual attention”, Vision Research, vol. 40, pp. 1489–1506.
NAVALPAKKAM, V. AND ITTI, L. (2005) “Modeling the influence of task on attention”,
Vision Research, vol. 45, pp. 205–231.
PERAZZI, F., PONT-TUSET, J., MCWILLIAMS, B., GOOL, L.V., GROSS, M. AND
SORKINE-HORNUNG, A. (2016) “A Benchmark Dataset and Evaluation
Methodology for Video Object Segmentation”, Conference on Computer Vision and
Pattern Recognition 2016, CVPR 2016, Honolulu.
SHAPIRO, L.G. AND STOCKMAN, G.C. (2001) Computer Vision, Pearson.
WANG, W., SHEN, J. AND PORIKLI, F. (2015) “Saliency-Aware Geodesic Video Object
Segmentation”, Conference on Computer Vision and Pattern Recognition 2015,
CVPR15, Honolulu.

133

Phân vùng đối tượng trên video với visual saliency và optical flow

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về