Phát hiện và bám đuổi cá bằng phương pháp GMM kết hợp Frame-Differencing

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (741.29 KB, 7 trang )

Hội Thảo
Quốc
GiaGia
2015
vềvề
Điện
Truyền
NghệThông
ThôngTin
Tin(ECIT
(ECIT2015)
2015)
Hội Thảo
Quốc
2015
ĐiệnTử,
Tử,
TruyềnThông
Thôngvà
vàCông
Công Nghệ

Phát hiện và bám đuổi cá bằng phương pháp GMM
kết hợp Frame-Differencing
Nguyễn Đình Minh Nhật, Huỳnh Nhƣ Kiên, Võ Ngọc
Nhân

Phạm Văn Tuấn
Trung Tâm Xuất Sắc, Trƣờng Đại Học Bách Khoa – Đại
Học Đà Nẵng
Đà Nẵng, Việt Nam

Email:

Trung Tâm Xuất Sắc, Trƣờng Đại Học Bách Khoa – Đại
Học Đà Nẵng
Đà Nẵng, Việt Nam
Email: ,
,

là bám đuổi Mean shift (MS) [6, 7] và lọc Particle (PF) [8, 9].
Hai phƣơng pháp này đã chứng minh thích hợp cho việc bám
đuổi các vật thể có hình dạng thay đổi.

Tóm tắt— Phát hiện và bám đuổi cá (FDT) là một bước quan
trọng trong nghiên cứu hải dương học, đặc biệt là trong việc dự
đoán những thay đổi chất lượng nguồn nước và những biến động
về số lượng cá trong quần thể. Trong bài báo này, thuật toán với
sự kết hợp giữa Mơ hình hỗn hợp Gauss và Frame Differencing
(CGMMFD) được đề xuất. Phương pháp này được mong đợi cho
kết quả khả quan đối với các tình huống bám đuổi khác nhau.
Cũng trong bài báo này, các tiêu chí đánh giá được xây dựng cụ
thể để đánh giá sự hiệu quả của mỗi phương pháp cho từng
trường hợp cụ thể. Các kết quả thực nghiệm đã chỉ ra rằng
phương pháp này cho ra sự chính xác trong bám đuổi lớn hơn
khí so với bốn phương pháp khác đó là Trừ nền, Mơ hình hỗn
hợp Gauss, Bám đuổi Mean shift và Lọc particle. Trong khí các
phương pháp có những khó khăn để bám đuổi cá trong một vài
trường hợp nhất định thì phương pháp được đề xuất này có thể
hoạt động tốt cho các tình huống khác nhau.

Trong một vài trƣờng hợp nhất định, một vài trong số bốn
phƣơng pháp này cho ra các hiệu suất phát hiện và bám đuổi cá
cao. Tuy nhiên, khơng một phƣơng pháp nào có thể phù hợp
cho tất cả mọi trƣờng hợp đặt ra. Do đó, trong bài báo này,
phƣơng pháp mới CGMMFD đƣợc đề xuất. Phƣơng pháp mới
này kết hợp GMM, lọc Kalman và Frame-Differencing. FrameDifferencing đƣợc sử dụng bởi vì kĩ thuật này có thể phát hiện
vị trí con cá cho những khung hình mà GMM không thể. Đặc
biệt là trong khoảng từ 10 đến 15 khung hình đầu tiên khi mơ
hình nền chƣa đƣợc hồn thành bởi GMM. Đối với vấn đề
bóng xuất hiện, GMM sẽ tạo ra nhiều hơn một khối mà có thể
là cá. Trong trƣờng hợp này, khối gần nhất với tọa độ trọng
tâm trƣớc đó của con cá sẽ đƣợc chọn nhƣ là khối thật sự của
con cá. Nhƣ vậy, tất cả các vấn đề có thể xảy ra trong hệ thống
FDT đã đƣợc khắc phục bởi phƣơng pháp CGMMFD.

Từ khóa—Phát hiện và bám đuổi cá, CGMMFD, Mean Shift,
Lọc particle.

I.

GIỚI THIỆU

Phần cịn lại của bài báo đƣợc trình bày nhƣ sau. Trong
phần II, phƣơng pháp CGMMFD đƣợc giới thiệu. Phần III cho
thấy các kết quả thực nghiệm và sự phân tích đánh giá 5
phƣơng pháp dựa trên những kết quả đó. 5 phƣơng pháp đó là
MB, GMM, MS, PF và phƣơng pháp đƣợc đề xuất CGMMFD
trong các ngữ cảnh bám đuổi khác nhau.

Trong những năm gần đây, bám đuổi vật thể đang nhận đƣợc

nhiều sự quan tâm. Đối với ứng dụng Phát hiện và bám đuổi
cá, Lọc Alpha-Beta and Lọc Kalman [1] là các kĩ thuật phổ
biến đƣợc sử dụng cho bám đuổi vật thể. Phƣơng pháp bám
đuổi khối đƣợc sử dụng để bám đuổi cá. Do đó, phƣơng pháp
này đƣợc sử dụng trong các ứng dụng thống kê số lƣợng cá [2].
Đối với việc phát hiện cá tự động [3], các phƣơng pháp dựa
vào các thuật toán phân loại thuộc tính Haar-like xếp lớp đƣợc
tạo ra bằng cách sử dụng các ảnh dƣới nƣớc từ thiết bị điều
khiển từ xa dƣới các điều kiện khảo sát đại dƣơng.

II.

Kết quả thực nghiệm cho thấy rằng hai phƣơng pháp là
GMM và Ƣớc lƣợng nền trung bình (MB) khơng thích hợp cho
trƣờng hợp cá đứng yên. Trong khi đó, Bám đuổi Mean shift và
Lọc particle tạo ra hiệu quả bám đuổi không cao khi xuất hiện
bóng của con cá trong video. Do đó, bốn phƣơng pháp này
khơng hiệu quả khi áp dụng vào ứng dụng FDT. Từ đó, trong
nghiên cứu này, sự kết hợp GMM và Frame-Differencing với
Lọc Kalman đƣợc kiểm nghiệm. Phƣơng pháp này cho ra các
kết quả đầy khả quan trong tất cả các trƣờng hợp có thể. Các
chi tiết giải thuật sẽ đƣợc trình bày trong các phần tiếp theo.

Trong hệ thống FDT này, các vấn đề gây khó khăn nhất là sự
xuất hiện bóng của cá, là khi cá không di chuyển hay là khi cá
di chuyển với các vận tốc khác nhau. Để giải quyết các vấn đề
trên, trong bài báo này, bốn phƣơng pháp bám đuổi mà đƣợc sử
dụng rộng rãi trong nhiều ứng dựng bám đuổi thời gian thực
đƣợc kiểm thử. Phƣơng pháp đầu tiên là sự kết hợp giữa Trừ
nền và bộ lọc Kalman. Trong đó, ảnh nền đƣợc tạo ra bằng

phƣơng pháp ƣớc lƣợng nền trung bình (MB). Trong phƣơng
pháp thứ hai, Mơ hình hỗn hợp Gauss (GMM) [3] đƣợc sử
dụng để phát hiện cá, sau đó, bộ lọc Kalman [4, 5] sẽ bám đuổi
cá. Độ chính xác của cả hai phƣơng pháp này phụ thuộc nhiều
vào chất lƣợng nền đƣợc tạo ra. Phƣơng pháp thứ ba và thứ tƣ

ISBN: 978-604-67-0635-9

SỰ KẾT HỢP GIỮA GMM VÀ FRAME-DIFFERENCING

A. Thuật toán Frame-Differencing
Phát hiện vật thể chuyển động từ một chuỗi các khung hình
đƣợc thực hiện rộng rãi bằng thuật toán Frame-Differencing.
Nguyên lý của phƣơng pháp này là phát hiện các vận thể

443
443

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

chuyển động từ sự khác nhau giữa khung hình hiện tại và
khung hình quy ƣớc. Phƣơng pháp này thiết lập một giá trị
ngƣỡng sau khi trừ hai khung hình và xem các điểm ảnh nhƣ là
phần của mục tiêu chuyển động miễn là sự khác nhau tại những
điểm ảnh này lớn hơn giá trị ngƣỡng. Trong bài báo này,
Frame-Differencing có thể phát hiện cá vì máy quay đƣợc đặt
cố định. Phƣơng pháp này gồm có hai bƣớc là phát hiện chuyển
động và phát hiện cá.

(

)

| (

(

)

)|

)

( )

(
(

{

)
)

(
(

{

)
)

(
(

)
)

(7)

Kết quả của thuật toán này rất hứa hẹn. Tuy nhiên, kết quả
phụ thuộc nhiều vào bƣớc nhảy L. Nếu bƣớc nhảy nhỏ (ví dụ
L=5) thì kết quả của phép giao hai ảnh nhị phân Ik-L(x,y) và
Ik+L(x,y) không phải là con cá mà là một khối nhỏ cái có thể
đƣợc hiểu là nhiễu. Mặt khác, nếu bƣớc nhảy L quá lớn thì rất
có khả năng con cá ở khung hình thứ k-L hoặc k+L trùng vị trí
với nó ở khung hình thứ k. Điều này dẫn tới không phát hiện
đƣợc con cá nhƣ đƣợc trình bày trong hình 3 (L=30).

(1)

Sau đó, giá trị ngƣỡng T đƣợc thiết lập cho ảnh Dk(x,y) để
tạo ảnh nhị phân Ik(x,y):
(

( )

Hình 2 minh họa nguyên tắc của thuật tốn FrameDifferencing. Hình 2a, 2b, 2c lần lƣợt là các khung hình thứ k10, k, k+10 với bƣớc nhảy là 10. Các kết quả trừ hai khung
hình đƣợc thể hiện trong hình 2d và 2e. Và, kết quả của thuật

three-frame difference đƣợc thể hiện trong hình 2f.

1) Phát hiện chuyển động
Trong bƣớc phát hiện chuyển động, sự khác nhau giữa
khung hình thứ k Fk(x,y) và khung hình thứ k+1 Fk+1(x,y) đƣợc
tính để cho ra ảnh Dk(x,y):
(

)

(2)

a)

b)

c)

Hình 1. Sự minh họa cho Frame-Differencing

) lớn hơn giá trị
Khi giá trị các điểm ảnh trong ảnh (
ngƣỡng T thì các điểm ảnh đó đƣợc xem là vật thể. Ngƣợc lại
đƣợc xem là nền. Sau đó, khối có diện tích lớn hơn ngƣỡng S
(S=50 trong bài báo này) đƣợc xem nhƣ là vật thể di chuyển.
Tuy nhiên, q trình này cũng có thể tạo ra các lỗi trong phát
hiện chuyển động khi con cá đứng yên và đồng thời xuất hiện
nhiễu trong khung hình nhƣ ánh sáng thay đổi, hồ lắc lƣ dẫn
đến nƣớc dao động…Do đó, chỉ khu vực có diện tích lớn hơn
diện tích hình chữ nhật bao quanh khối thu đƣợc từ khung hình

trƣớc 2.25 lần đƣợc xem xét. Vì vậy, sự khởi tạo vị trí ban đầu
của cá là cần thiết.

d)
e)
f)
Hình 2. Minh họa Phát hiện cá bằng Frame-Differencing

a)

Mặc dù có độ phức tạp thấp và hiệu quả phát hiện cao
nhƣng phƣơng pháp này vẫn cho thấy một số hạn chế. Các giá
trị ngƣỡng T và S thƣờng đƣợc chọn thủ công tùy theo mỗi
trƣờng hợp thực nghiệm. Nếu giá trị T q lớn thì có thể khơng
phát hiện đƣợc chuyển động. Ngƣợc lại, sẽ phát hiện ra nhiều
chuyển động trong khi thực tế chỉ có một (trƣờng hợp nhiễu
xuất hiện).

d

)

| (

)

(

)|

(

)

( )

{

(
(

)
)

(

(

)

)

| (

( )

)

{

(

(
(

)|
)
)

c)

e
f
Hình 3. Khơng phát hiện cá khi L lớn

B. Trường hợp bóng xuất hiện và khởi tạo vị trí ban đầu
Nhƣ đƣợc đề cập ở trên, bốn phƣơng pháp bám đuổi là MB,
GMM, MS và PF cho hiệu quả bám đuổi không cao khi xuất
hiện bóng (khi cá bơi gần mặt nƣớc hay gần thành hồ bằng
gƣơng). Sự xuất hiện của bóng dẫn tới sự phát hiện cá sai. Do
vậy, một kĩ thuật so sánh đơn giản đƣợc đề xuất để khắc phục
vấn đề này. Cụ thể, trong bƣớc BlobAnalysis, số lƣợng khối tối
đa đƣợc ấn định là 5. Sau đó, tại khung hình đang xét, khối nào
gần nhất với vị trí cá ở khung hình trƣớc đó đƣợc chọn. Trong
hầu hết trƣờng hợp, các khối của bóng ở vị trí xa hơn đóm của
cá. Vì vậy, các lỗi do sự xuất hiện của bóng gây ra đƣợc loại
bỏ. Nguyên lý đơn giản này đƣợc minh họa trong hình 4a:

2) Phát hiện cá
Trong bƣớc phát hiện cá, thuật toán Three-Frame

Difference [10] đƣợc áp dụng. Bƣớc thứ nhất của thật tốn là
trừ ba khung hình khác nhau theo lần lƣợt, với bƣớc nhảy
khung hình là L, sau đó ta lấy hiệu của hai kết quả tìm đƣợc ở
trên để phát hiện đƣợc cá. Cụ thể, khung hình thứ k trừ khung
hình thứ k-L cho ra ảnh nhị phân Ik-L(x,y). Tƣơng tự, khung
hình k+L trừ khung hình k cho ra ảnh nhị phân Ik+L(x,y). Tiếp
theo, ảnh Ik-L(x,y) giao với ảnh Ik+L(x,y) tạo ra ảnh kết quả của
thuật tốn. Quy trình của thuật tốn đƣợc tóm tắt theo các
phƣơng trình dƣới đây:
(

b)

(3)
(4)
(5)
a
b
Hình 4. Bounding box and Centroid of Current Frame

(6)

444
444

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

trọng là Mean Square Error (MSE) và Phƣơng sai (Var) đƣợc

giới thiệu: cách tính, lý do sử dụng và hai số liệu đƣợc sử dụng
để đánh giá sự thực hiện của các thuật toán nhƣ thế nào. Tiếp
theo, trong phần III.B là sự đánh giá năm thuật toán bám đuổi
và những kết luận đƣợc rút ra. Loài cá đƣợc sử dụng trong bài
báo này là cá ngựa vằn. Các đoạn phim về cá ngựa vằn đƣợc
quay lại dƣới định dạng avi trong khoảng thời gian 10 giây.
Tốc độ quay là 15 khung hình trên giây. Kích thƣớc khung
hình là 640x480. Nƣớc đƣợc sử dụng là nƣớc sinh hoạt đƣợc
thêm vào chất ô nhiễm với các nồng độ khác nhau.

Nhƣ đƣợc minh họa trong hình 4b, khoảng cách d1 (khoảng
cách từ tọa độ trọng tâm trƣớc đó tới khối của cá) ngắn hơn
khoảng cách d2 (khoảng cách từ tọa độ trọng tâm trƣớc đó tới
khối của bóng). Bằng cách áp dụng phƣơng pháp này, vấn đề
bóng xuất hiện đƣợc giải quyết một cách hiệu quả.
Một vấn đề của GMM cần đƣợc giải quyết là tại những
khung hình đầu tiên của video, sự ƣớc tính hình nền chƣa đƣợc
hồn thành. Điều này làm cho vị trí của cá khơng đƣợc phát
hiện đúng. Vấn đề càng nghiêm trọng hơn khi cá khơng di
chuyển trong những khung hình đầu tiên này. Thuật tốn
Frame-Differencing, nhƣ đƣợc trình bày trƣớc, khơng hiệu quả
bởi vì khơng có vị trí của cá trong khung hình trƣớc đó. Do đó,
thật cần thiết để khởi tạo vị trí ban đầu cho cá tại khung hình
đầu tiên. Trong phƣơng pháp đƣợc đề xuất này, bƣớc khởi tạo
đƣợc thực hiện bằng cách vẽ một đƣờng bao quanh cá
(Bounding Box). Sau đó, trọng tâm của cá đạt đƣợc bằng cách
tính trọng tâm của hình chữ nhật đó. Bƣớc khởi tạo đƣợc minh
họa trong hình dƣới đây:

A. Phương pháp đánh giá

Trong đề tài này, nhóm nghiên cứu đánh giá chất lƣợng của
thuật toán Phát hiện và Bám đuổi cá bằng cách so sánh kết quả
bám đuổi từ các thuật toán với bộ dữ liệu Ground Truth tƣơng
ứng. Do vậy, bộ dữ liệu này phải đƣợc xây dựng trƣớc cho tất
cả các video. Sau đó, hai đại lƣợng phổ biến trong thống kê là
Mean Square Error (MSE) và Phƣơng sai (Var) đƣợc chọn để
đánh giá các kết quả.
1) Cơ sở dữ liệu Ground Truth
Để có thể đánh giá đƣợc các phƣơng pháp Phát hiện và
Bám đuổi cá, chúng ta có thể so sánh quỹ đạo của kết quả bám
đuổi với dữ liệu Ground Truth đã đƣợc xây dựng từ trƣớc. Do
đó, việc xây dựng bộ dữ liệu này là một phần thiết yếu trong đề
tài nhằm đánh giá đƣợc chất lƣợng các thuật toán. Ở đây, các
video đƣợc chọn dựa trên sự xuất hiện của bộ kết hợp các tình
huống điển hình trong đề tài. Thông qua việc đánh giá chất
lƣợng bám đuổi cá theo các tình huống trên, chúng ta có thể
kiểm nghiệm tính hiệu quả của mọi thuật tốn khi phải giải
quyết các tình huống khác nhau, từ dạng thơng thƣờng đến
những dạng tình huống lạ. Cụ thể, mỗi video sẽ là sự kết hợp
giữa các tình huống có thể xảy ra nhƣ màu sắc của cá (Fish
Color), Nồng độ (Concentration), Tốc độ bơi của cá (Velocity),
Số lƣợng bóng xuất hiện (Illusion), và Thứ tự mẫu video
(Sample) tức là mỗi sự kết hợp này đƣợc quay 3 lần nhằm đảm
bảo tính khách quan. Bảng I dƣới đây minh họa cho việc chọn
các video theo tình huống vừa trình bày ở trên

Hình 5. Bƣớc khởi tạo

C. Chi tiết thuật toán
Sơ đồ thuật tốn đƣợc trình bày phía dƣới cho thấy sự bổ

sung cho nhau của GMM và Frame-Differencing. Sự thực thi
của phƣơng pháp này sẽ đƣợc trình bày trong phần III.

Fish Color

BẢNG I: VIDEO TÌNH HUỐNG
Concentration
Velocity
Illusions

Order

B (Black)

C (Clean)

F (Fast)

1 (Top)

1

O (Orange)

P (Pollution)

I (Immobile)

2 (Top-Right)

2

S (Slow)

3( Right)

3

4 (None)

Ví dụ, một tình huống video mà xuất hiện cá màu đen (B),
di chuyển chậm (S) trong mơi trƣờng nƣớc sạch (C), khơng
xuất hiện bóng của cá (4), và là mẫu video thứ nhất (1), sẽ
đƣợc ký hiệu là BCS41. Các video tình huống khác đƣợc ký
hiệu tƣơng tự. Theo Bảng 1, có thể có tổng cộng 2x2x3x4x3 =
144 video, chẳng hạn OPF11, OCI43, BPS33… Bộ dữ liệu
thực nghiệm cho từng video đƣợc làm bằng tay, do đó, cơng
việc này khó lịng thực hiện đƣợc với các video dài. Nhóm
nghiên cứu đã quyết định chỉ sử dụng các video có thời lƣợng
10 giây trong nghiên cứu này. Sau khi đã xây dựng đƣợc bộ dữ
liệu này, chúng ta có thể so sánh các kết quả bám đuổi cho từng
thuật tốn để có thể đánh giá một cách hiệu quả các thuật tốn
này. Có đƣợc điều này là vì bộ dữ liệu thực nghiệm có tính
chính xác cao, theo từng khung hình một.

Hình 6. Sơ đồ thuật tốn CGMMFD

III.

KẾT QUẢ THỰC NGHIỆM VÀ PHÂN TÍCH

Phần này tập trung miêu tả các tiêu chí đƣợc sử dụng cho
phần đánh giá. Cụ thể, phần III.A miêu tả việc xây dựng
Ground Truth. Ground Truth sẽ bao gồm đầy đủ các trƣờng
hợp, tình huống khác nhau. Sau đó, hai số liệu thống kê quan

2) Tiêu chí đánh giá
a) Mean Square Error

445
445

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Chỉ số MSE đƣợc tính bằng cơng thức dƣới đây:
∑(

)

Normal

(8)

Fast

với
là tọa độ của trọng tâm cá phát hiện và bám đuổi
đƣợc ở khung hình thứ i, là tọa độ trọng tâm chuẩn đƣợc lấy

từ bộ dữ liệu Ground Truth ở cùng khung hình, và m là tổng số
khung hình trong video.

Immobi
le
Illusion

MSE
Var
MSE
Var
MSE
Var
MSE
Var

60.9
17.8
369.5
217.4
38351.0
3180.4
9805.7
817.2

2113.2
1182.4
1464.7
828.4
116607.1

3358.8
25872.8
2852.1

106.1
32.9
5524.0
2399.5
198.9
58.3
3635.9
1654.6

182.4
51.9
6735.9
2739.8
256.2
15.6
3888.3
1162.1

155.1
53.9
283.8
113.0
120.2
28.4
260.9
94.1

Từ bảng trên, ta thấy rằng thuật tốn nhóm nghiên cứu đề
xuất (CGMMFD) cho giá trị thấp hơn trong 5 thuật tốn cho
hầu hết các nhóm video. Vì vậy, thuật tốn này có thể giải
quyết tốt các tình huống có thể xảy ra trong nghiên cứu này.
Trong khi CGMMFD cho kết quả MSE và Var thấp một cách
ổn định, các thuật tốn khác có thể tốt cho một vài tình huống
nhƣng lại khơng tốt cho các tình huống khác.

Trong thống kê, chỉ số MSE cho biết trung bình của bình
phƣơng lỗi sai, tức là độ khác biệt giữa kết quả với giá trị mong
muốn đạt đƣợc. Trong trƣờng hợp này, chỉ số MSE cho thấy độ
lệch (hoặc khoảng cách) từ tọa độ trọng tâm tính ra từ các thuật
tốn với tọa độ chuẩn. Nói chung, chỉ số MSE nhỏ đồng nghĩa
với việc ít xảy ra lỗi bám đuổi, tức là thuật toán cho kết quả tốt.

Phần tiếp theo của bài báo sẽ trình bày về kết quả và phân
tích chi tiết cho từng nhóm tình huống. Một điểm đáng lƣu ý là
trong những biểu đồ dƣới đây, các chỉ số đƣợc hiển thị ở dạng
log của các kết quả MSE và Var. Bởi vì các giá trị này thay đổi
từ vài đơn vị cho tới hàng trăm nghìn đơn vị, gây khó khăn cho
việc hiển thị trên biểu đồ.

Tuy nhiên, chỉ số này chỉ đánh giá trung bình các lỗi sai,
dẫn đến việc các sai số lớn ở một vài khung hình ảnh hƣởng
nghiêm trọng tới chỉ số cuối cùng. Chẳng hạn, trong khi hầu
hết các khung hình đạt kết quả bám đuổi tốt, với độ lệch vài
đơn vị, sự xuất hiện một sai số lớn trên 1000 đơn vị ở bất kỳ
khung hình nào sẽ tạo thành chỉ số MSE ở khoảng 1000 thay vì
chỉ vài đơn vị. Điều này xảy ra là vì tổng số khung hình chƣa

thật sự lớn, chỉ vào khoảng 150 khung hình cho 10 giây. Dó
đó, chỉ số MSE khơng thể xác định thuật toán bám đuổi này
cho chất lƣợng tốt hơn thuật toán khác, nếu chỉ sử dụng MSE.
Để giải quyết vấn đề này, nhóm nghiên cứu sử dụng thêm một
chỉ số khác, đó là Phƣơng sai, để có thể đánh giá một cách tối
ƣu hơn.

1) Nhóm video Bình thường
Trong các video này, cá bơi với vận tốc chậm, và không
thay đổi vận tốc đột ngột. Bóng của cá cũng khơng xuất hiện
trong các video này. Kết quả chi tiết đƣợc hiển thị ở Hình 7 và
Hình 8 dƣới đây.

b) Phương sai
Phƣơng sai đƣợc tính bằng cơng thức:
∑(

̅)

(9)

với d là độ lệch (khoảng cách) giữa trọng tâm cá phát hiện
đƣợc với trọng tâm chuẩn từ bộ dữ liệu thực nghiệm, ̅ là giá
trị trung bình của d; m tổng số khung hình trong video.
Phƣơng sai (Var) cho thấy độ phân tán của lỗi sai. Một giá
trị nhỏ của chỉ số này cho thấy lỗi sai tập trung rất gần nhau, và
gần giá trị trung bình của chúng. Ngƣợc lại, chỉ số phƣơng sai
cao chỉ ra các lỗi sai rất phân tán. Tóm lại, một thuật tốn Phát
hiện và Bám đuổi đạt hiệu quả tốt nghĩa là nó phải cho thấy cả
hai chỉ số MSE và Var có giá trị thấp.

Hình 7. MSE của nhóm video Bình thƣờng

B. Kết quả đánh giá
Trong phần này, nhóm nghiên cứu sẽ trình bày các phân
tích và so sánh từ các kết quả của các thuật tốn khác nhau cho
từng video tình huống một cách tổng quan. Các video đƣợc
nhóm thành 4 nhóm theo các tiêu chí đặc trƣng nhằm tiện cho
việc phân tích nhƣ sau: Bình thƣờng (Normal) là các video tình
huống mà cá bơi chậm, khơng có bóng, Nhanh (Fast) các video
mà cá bơi với tốc độ nhanh, Bất động (Immobile) là các tình
huống mà cá khơng di chuyển, Bóng (Illusion) các video có sự
xuất hiện bóng của cá. Trong sự đánh giá tổng quan này, các
chỉ số MSE và Var đƣợc lấy từ kết quả trung bình cho các
video trong nhóm. Bảng II minh họa cho các giá trị trung bình
của MSE và Var đối với 5 thuật toán khác nhau là Ƣớc lƣợng
nền trung bình (MB), GMM, Mean Shift (MS), Lọc Particle
(PF) và thuật toán đƣợc đề xuất (CGMMFD) tƣơng ứng với
từng nhóm video.

Hình 8. Phƣơng sai của nhóm video Bình thƣờng

Trong nhóm video này, MB là thuật tốn cho kết quả MSE
và Var tốt nhất. Trong khi đó, 4 thuật tốn cịn lại khơng cho
thấy một ƣu thế đáng kể nào. Kết quả này phản ánh đúng tính
chất của các thuật tốn ở trên. Với sự di chuyển với tốc độ
khơng thay đổi đột ngột và khơng có bóng, kết quả tạo nền
trung bình sẽ cho kết quả tốt, hệ quả là việc phát hiện và bám

BẢNG II: HIỆU SUẤT HỆ THỐNG

MB

GMM

MS

PF

CGM
MFD

446
446

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

đuổi cá cho độ chính xác cao, MSE thấp nhất. Lỗi sai chỉ xảy
ra khi cá đôt ngột bơi ngƣợc hƣớng đang di chuyển, tạo thành
lỗi bám đuổi đối trong thời gian ngắn đối với bộ lọc Kalman.
Trong Hình 8, Phƣơng sai của mỗi thuật tốn ứng với từng
video đặc trƣng đƣợc chọn và hiển thị. Kết quả Var trong nhóm
này cũng cho thấy chất lƣợng tốt của thuật toán MB, với chỉ số
thấp. Ngƣợc lại, thuật toán GMM lại cho kết quả tệ nhất trong
cả 5 thuật toán đối với cả chỉ số MSE và Var. Trong khi đó kết
quả MSE và Var của CGMMFD cho thấy sự ổn định khi hầu
hết chỉ số ở các video nằm trong khoảng dƣới 2 (tức 100 đơn
vị).

Tóm lại, thuật tốn MB có thể xem là thuật tốn phù hợp
nhất cho các video nhóm Bình thƣờng, cịn thuật tốn
CGMMFD cũng cho thấy chất lƣợng bám đuổi ổn định và
tƣơng đối tốt.

Hình 10. Phƣơng sai của các video Bất động

Hình 10 cho thấy giá trị Var từ các thuật tốn có giá trị
tƣơng đối thấp, đặc biệt hơn, ở vài video tình huống, chúng có
thể thấy đƣợc giá trị bé hơn 10 đơn vị (giá trị âm trên thang
log). Điều này xảy ra chính là do cá hầu nhƣ khơng di chuyển,
dẫn đến kết quả bám đuổi hầu nhƣ không cho lỗi sai đối với
những thuật toán nhƣ MS, PF và CGMMFD. Nhƣng ở video
mã OPI21, chỉ số Var lại cao đột biến, lý do là vì ở video này,
cá có sự di chuyển đột ngột trong khoảng thời gian nhỏ sau một
thời gian dài bất động, chính điều này gây ra sai lêch ở kết quả
bƣớc Phát hiện cá, làm cho thuật tốn GMM có kết quả Var
cao bất thƣờng.

2) Nhóm video Bất động
Khi cá nằm yên do tác động của độc chất trong mơi trƣờng
nƣớc. Các thuật tốn Phát hiện và Bám đuổi cá gặp phải đồng
thời những thuận lợi và bất lợi. Nhóm video này cũng bao gồm
các trƣờng hợp mà cá di chuyển rất ít. Kết quả chi tiết đƣợc
trình bày ở Hình 9 và 10.

Tóm lại, trƣờng hợp Bất động của cá có thể đƣợc giải quyết
tốt bằng cách dùng thuật toán Mean Shift, lọc Particle và
CGMMFD, nhƣng khơng thể là GMM hoặc MB.
3) Nhóm video Nhanh

Trong các video này, cá di chuyển với vận tốc nhanh hơn
bình thƣờng, đồng thời, lúc di chuyển ra các cạnh của hồ, cá
cũng gây ra các bóng ảnh ảo trên các khu vực này. Tốc độ này
của cá gây ảnh hƣởng hầu nhƣ giống nhau đối với các thuật
toán. Hình 11 cho thấy, khơng có nhiều sự sai biệt ở kết quả
MSE từ các thuật toán tƣơng ứng với các video tình huống.
Thuật tốn Mean Background cho kết quả khả quan trong các
video này nhƣ đã đề cập từ trƣớc: khi cá di chuyển nhanh, nền
tạo ra cũng đạt chất lƣợng cao hơn, từ đó kết quả Phát hiện cá
cũng tốt hơn. Bên cạnh đó, cá di chuyển nhanh cũng tạo ra điều
kiện thích hợp cho phƣơng pháp Frame Differencing. Vì thế,
thuật tốn CGMMFD cũng hiệu quả trong trƣờng hợp này. Trái
lại kết quả MSE của Mean Shift và lọc Particle lại khơng tốt
bằng. Lý do là vì trong các video này, tốc độ của cá di chuyển
nhanh, histogram thay đổi nhiều hơn, làm cho hai thuật toán
này bám trƣợt trọng tâm của cá. Nhƣng nhìn chung thì hai
thuật tốn này vẫn có thể hữu dụng vì chúng cho giá trị MSE
khá thấp, chỉ vào khoảng 100 trong hầu hết các video trong
nhóm này.

Hình 9. MSE của các video Bất động

Kết quả MSE của thuật toán GMM và MB rất cao
(trên10000 đơn vị) cho thấy 2 thuật toán này khơng thể giải
quyết đƣợc tình huống xảy ra trong nhóm các video này. Điều
này là do khi cá không di chuyển, hoặc di chuyển rất ít, thì
thuật tốn GMM sẽ xem cá là nền và khơng thể trích xuất đƣợc
khối cá, dẫn đến sai số cực lớn và liên tục. Tƣơng tự, thuật tốn
MB cũng khơng thể tạo ảnh nền chính xác, bởi vì trong thuật
tốn này, ảnh nền đƣợc tạo ra phụ thuộc vào độ dài của video

và sự di chuyển của cá. Kết quả là không thể phát hiện đƣợc cá
khi trừ nền, dẫn đến sai số khi bám đuổi. Trong khi đó, kết quả
bám đuổi từ thuật toán Mean Shift, lọc Particle, và CGMMFD
lại đạt chất lƣợng khả quan hơn. Với Mean Shift và lọc
Particle, hai thuật tốn này có thể bám đuổi đƣợc chính xác hơn
bởi vì histogram [8],[9] trong các trƣờng hợp này thay đổi rất
ít. Bên cạnh đó, thuật tốn đƣợc đề xuất CGMMFD cũng cho
kết quả MSE và Var thấp một cách tƣơng đối ổn định nhờ có
bƣớc khởi tạo cùng với phát hiện bất động.

Nhƣ vậy, tốc độ cao của cá ảnh hƣởng tƣơng đối ít tới kết
quả của các thuật tốn kể trên. Do đó, trong nhóm video này,
khơng có thuật toán nào thật sự tối ƣu hơn thuật toán nào.

447
447

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Tuy nhiêm, ở trƣờng hợp xuất hiện bóng cá này, thuật toán
đƣợc đề xuất CGMMFD vẫn cho kết quả MSE và Var có thể
chấp nhận đƣợc, với giá trị tƣơng đối thấp.
Nói chung, trƣờng hợp nhóm video có sự xuất hiên của
bóng cá thì chỉ số MSE và Var có xu hƣớng tăng với tất cả năm
thuật tốn. Tuy nhiên, thuật tốn CGMMFD có lợi thế hơn nhờ
độ đơn giản của thuật tốn, và tính ổn định kết quả MSE và
Var ở tất cả cá video.

Hình 11. MSE của các video nhanh

Hình 14. Phƣơng cho các video có bóng
IV.

KẾT LUẬN

Trong nghiên cứu này, chúng to đã nâng cao chất lƣợng của
việc Phát hiện và Bám đuổi cá bằng cách khai thác thuật toán
GMM và bộ lọc Kalman, cùng với Frame-Differencing. Sau
khi xây dựng thuật tốn trên, chúng tơi cũng đã tiến hành kiểm
thử chất lƣợng bằng hai chỉ số là MSE và Var đƣợc tạo ra từ
thuật toán đề xuất CGMMFD cùng với bốn thuật toán khác.
Kết quả cho thấy, thuật tốn chúng tơi đề xuất cho kết quả khả
quan trong việc Phát hiện và Bám đuổi cá nhờ cho ra giá trị
MSE và Var thấp. Có đƣợc điều này là vì thuật tốn này bao
gồm hai thuật tốn khác nhau nhƣng có thể bổ sung cho nhau
một cách hợp lý là GMM và FD. Tuy nhiên, phƣơng pháp này
vẫn chƣa thể giải quyết việc Phát hiện và Bám đuổi cá ở mơi
trƣờng thời gian thực vì nó cần ảnh của các khung hình kế tiếp.
Do đó, trong những nghiên cứu tiếp theo, nhóm sẽ tập trung
tìm ra những cách kết hợp khác hiệu quả hơn, nhằm nâng cao
chất lƣợng của việc Phát hiện và Bám đuổi cá một cách ổn định
và hiệu suất cao hơn.

Hình 12. Phƣơng của các video nhanh
4) Nhóm video có Bóng
Một điều hiển nhiên là sự xuất hiện của bóng (ảnh ảo của
cá) trong các video này ở trên mặt nƣớc (trƣờng hợp 1), góc
bên phải bể cá (trƣờng hợp 2) hay ảnh ở cả hai vị trí nhƣ trên

(trƣờng hợp 3), đều làm tăng chỉ số MSE và Var một cách đáng
kể. Các loại bóng này ảnh hƣởng nghiêm trọng nhất đến thuật
tốn Mean Shift và lọc Particle, bởi vì các bóng này làm sai
lệch kết quả histogram ở hai thuật toán này, từ đó gây ra sự
bám đuổi sai đối tƣợng, tức là thay vì bám theo cá thật thì hai
thuật tốn này dễ dàng bị bám lệch sang bóng cá.

LỜI CẢM ƠN
Nghiên cứu này đƣợc hỗ trợ chính thức bởi Bộ Khoa học
và Công nghệ, nằm trong dự án nghiên cứu cấp bộ năm 20142015. Nhóm nghiên cứu cũng xin chân thành cảm ơn nhóm
nghiên cứu TRT3DCS của trƣờng ĐH Bách Khoa Đà Nẵng
trong quá trình nghiên cứu này.
THAM KHẢO
[1]
[2]

Hình 13. MSE cho các video có bóng

[3]

Bên cạnh đó, trong trƣờng hợp 3 của bóng cá, MSE và Var
của thuật tốn MB cũng rất cao, bởi vì xuất hiện đến 3 bóng
của cá, tạo ra sự xác định sai lệch về đối tƣợng để bám đuổi
tƣơng tự nhƣ trƣờng hợp của thuật toán Mean Shift và lọc
Particle

[4]
[5]

448

448

Vinaykumar, M.,Jatoth, R.K. " Performance evaluation of Alpha-Beta
and Kalman filter for object tracking." (2014).
Fier, R., Albu, A.B., Hoeberechts, M., " Automatic fish counting system
for noisy deep-sea videos", 14-19 Sept. 2014, pp. 1-6.
Stauffer, C., Grimson, W. (1999) “Adaptive Background Mixture
Models for Real-Time Tracking”. IEEE Computer Society Conf. on
Computer Vision and Pattern Recognition, 246-252.
Ramsey Faragher. (September, 2012) “Understanding the Basis of the
Kalman Filter Via a Simple and Intuitive Derivation”.
C. Ridder, O. Munkelt, and H. Kirchner, “Adaptive background
estimation and foreground detection using Kalman filtering”, In Proc.
ICAM, 1995.

Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

[6]

Ning J., Zhang L., Zhang D., and Wu C.;. (2010). “Robust Mean Shift
Tracking with Corrected Background-Weighted Histogram”.
[7] Comaniciu D., Ramesh V., and Meer P.: “Real-Time Tracking of NonRigid Objects Using Mean Shift”. Proc. IEEE Conf. Computer Vision
and Pattern Recognition, Hilton Head, SC, USA, June, 2000, pp. 142149.
[8] K. Nummiaro, E. Koller-Meier, L. V. Gool. “A Color-based Particle
Filter.” In First International Workshop on Generative- Model- Based
Vision, 2002.
[9] M. Fotouhi, A. R. Gholami, and S. Kasaei. (2011) “Particle Filter-Based
Object Tracking Using Adaptive Histogram.”

[10] Singla Nishu.: Motion Detection Based on Frame Difference Method.
International Journal of Information & Computation Technology.
Volume 4, Number 15 (2014), pp. 1559-1565.

449

Phát hiện và bám đuổi cá bằng phương pháp GMM kết hợp Frame-Differencing

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về