ABSTRACT
Our thesis’ topic is object tracking using Particle Filter, which we will do
research how to track an object using Partcle Filter, building demo applications.
Object tracking in computer vision has been done research for many years, but
so far it is still considered an “open” problem. However, currently there is a method of
object tracking that its effectiveness has been proven in many studies around the world,
it is recognized as a "State of the art" - that is the Particle filte. So, we have carried out
to do resrearch interesting subject based on the guidance of teachers and the materials
of the university, the seminar on this subject.
In this thesis, we limit to introduce the theoretical basis of the Particle Filter,
and base on open source of the other research to improve of its experimental
application in the situation of tracking moving objects – selecting from the first frame
or a specific object (face, pedestrian ) and build the performace assessment to
demonstrate the effectiveness of the object tracking method.
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
GVHD: ThS. Nguyễn Hữu Thương
CH Cáp Phạm Đình Thăng
LỜI MỞ ĐẦU
Đề tài luận văn của chúng tôi là theo vết đối tượng dùng Particle Filter, trong đó
chúng tôi sẽ nghiên cứu cách thức theo dõi một đối tượng bằng phương pháp sử dụng
Partcle Filter sau đó xây dựng một ứng dụng thực nghiệm.
Các phương pháp theo vết đối tượng trong công nghệ cảm quan máy tính
(computer vision) đã được nghiên cứu trong nhiều năm, nhưng cho tới nay nó vẫn
được xem là một vấn đề mở. Tuy nhiên, hiện nay đã có một phương pháp theo vết đối
tượng mà tính hiệu quả của nó đã được chứng minh trong nhiều nghiên cứu trên thế
giới, nó được công nhận là một “State of the art” – đó chính là Particle Filter. Vì vậy,
chúng tôi đã tiến hành nghiên cứu đề tài thú vị này dựa trên sự hướng dẫn của thầy cô
và các tài liệu của các trường đại học, các hội nghị chuyên đề về đề tài này.
Trong khóa luận này, chúng tôi giới hạn trong việc giới thiệu cơ sở lý thuyết của
Particle Filter, dựa trên cơ sở mã nguồn mở cải tiến một số điểm làm tăng độ chính xác
của thuật toán, sau đó dựa trên cơ sở dữ liệu thực nghiệm xây dựng các bảng đánh giá
kết quả để chứng minh tính hiệu quả của các cải tiến trong thuật toán so với mã nguồn
gốc.
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
GVHD: ThS. Nguyễn Hữu Thương
CH Cáp Phạm Đình Thăng
LỜI CẢM ƠN
Giai đoạn làm đồ án tốt nghiệp là giai đoạn cuối cùng của quá trình học đại học.
Giai đoạn này có ý nghĩa vô cùng quan trọng trong quá trình rèn luyện tại môi trường
đại học, đánh dấu bước chuyển từ việc đi học sang đi làm.
Chúng em xin chân thành cám ơn Thầy Cô trong Khoa Công nghệ Phần mềm –
Trường Đại học Công Nghệ Thông Tin – Đại học Quốc gia TPHCM đã tận tình giảng
dạy, tạo điều kiện tốt nhất cho chúng em học tập, làm khóa luận tốt nghiệp, tạo cơ hội
để chúng em có được những thực nghiệm và kiến thức thực tế trong công việc trong
tương lai.
Em xin chân thành gửi lời cám ơn sâu sắc đến Th.S Nguyễn Hữu Thương và C.H
Cáp Phạn Đình Thăng- hai Thầy đã tận tình giúp đỡ, đôn đốc, truyền đạt những kinh
nghiệm bản thân để chúng em thực hiện tốt khóa luận tốt nghiệp này
TP Hồ Chí Minh, ngày 30 tháng 12 năm 2011
Sinh viên
Chu Hoàng Nhật
Hà Thị Minh Phương
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
GVHD: ThS. Nguyễn Hữu Thương
CH Cáp Phạm Đình Thăng
NHẬN XÉT
(Giảng viên hướng dẫn)
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
GVHD: ThS. Nguyễn Hữu Thương
CH Cáp Phạm Đình Thăng
NHẬN XÉT
(Giảng viên phản biện)
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
GVHD: ThS. Nguyễn Hữu Thương
CH Cáp Phạm Đình Thăng
MỤC LỤC
LỜI MỞ ĐẦU
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
GVHD: ThS. Nguyễn Hữu Thương
CH Cáp Phạm Đình Thăng
DANH MỤC CÁC HÌNH, BẢNG, SƠ ĐỒ
HÌNH
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
GVHD: ThS. Nguyễn Hữu Thương
CH Cáp Phạm Đình Thăng
BẢNG
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
GVHD: ThS. Nguyễn Hữu Thương
CH Cáp Phạm Đình Thăng
ĐỊNH NGHĨA THUẬT NGỮ
STT Tên thuật ngữ Định nghĩa
1.
Khoảng cách
Bhattacharyya
(Bhattacharyya
distance)
Dùng để đo lường sự giống nhau của hai phân phối xác
suất rời rạc hay liên tục. Nó liên quan đến hệ số
Bhattacharyya dùng để đo sự chồng chéo giữa hai mẫu
thống kê. Hệ số được sử dụng để xác định sự gần nhau
tương đối của hai mẫu đang được xem xét.
2.
Mô hình ứng viên
(candidate model)
Là mô hình của một vùng ảnh có khả năng chứa đối tượng
cần theo vết.
3.
Mô hình
histogram ứng
viên (candidate
histogram model)
Là mô hình sử dụng histogram để mô hình hóa vùng ảnh có
khả năng chứa đối tượng cần theo vết.
4. Likelihood
Là xác suất đánh giá mức độ tín cậy của mẫu trong tập hợp
mẫu. Từ đó sẽ xác định trạng thái của mẫu nào “giống” với
trạng thái đối tượng theo vết nhất.
5.
Xác suất chuyển
trạng thái hay xác
suất chuyển tiếp
Là xác suất của trạng thái hiện tại so với trạng thái tại thời
điểm trước đó.
6.
Trạng thái đối
tượng
Là một vectơ đại diện cho vị trí đối tượng theo vết. Ngoài
các giá trị x, y – tọa độ của đối tượng, thường trạng thái đối
tượng có thêm giá trị scale (phụ thuộc vào sự thay đổi kích
thước của đối tượng).
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
GVHD: ThS. Nguyễn Hữu Thương
CH Cáp Phạm Đình Thăng
7. Mẫu (particle)
Nhằm ước lượng trạng thái đối tượng trong bài toán theo
vết, ta xây dựng một tập mẫu trong đó mỗi mẫu chứa một
giá trị về trạng thái đối tượng, sau đó dùng thuật toán để
xác định là mẫu nào “giống” đối tượng => giá trị trạng thái
đối tượng là giá trị chứa trong mẫu.
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
GVHD: ThS. Nguyễn Hữu Thương
CH Cáp Phạm Đình Thăng
Chương 1. GIỚI THIỆU.
Theo vết đối tượng thông qua từng khung hình của một chuỗi hình ảnh là
một chức năng quan trọng trong các ứng dụng thị giác máy tính (computer vision
applications) bao gồm các ứng dụng trong lĩnh vực an ninh như hệ thống camera
theo dõi - đảm nhận vai trò theo dõi và cảnh báo, giúp giám sát viên không phải
trực tiếp quan sát 24/24, phát hiện chuyển động và cảnh báo xâm phạm, phát
hiện các tình huống bất thường dựa trên nhận dạng cử động như ẩu đả, cướp
ngân hàng, nguy cơ chết đuối; hay như một ứng dụng phổ biến hiện nay là theo
dõi xe lưu thông trên các tuyến đường - cảnh báo sớm tình trạng ùn tắc, ghi nhận
các trường hợp phóng nhanh lạng lách, chụp và lưu số xe vi phạm để xử lí ;
hay một ứng dụng khác đang được nghiên cứu phát triển, có khả năng ứng dụng
cao là điều khiển xe tự hành - hệ thống camera ghi nhận hình ảnh xung quanh
khi xe di chuyển, bằng cảm quan máy tính, định vị làn đường, phát hiện các vật
cản và xe khác, nhận biết các bảng chỉ dẫn , từ đó đưa ra các thông báo cho
người điều khiển xe; ngoài ra còn một số ứng dụng khác tương tác giữa người và
máy thông qua cử động.
Hình 1.1: Theo dõi khách bộ hành
(nguồn: IEEE Computer Vision and Pattern Recognition, 2007).
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
Hình 1.2: Hệ thống camera điều khiển xe tự hành SCABOR
(nguồn: Technological University of Cluj Napoca).
Các nghiên cứu liên quan:
Hiện nay còn nhiều vấn đề phức tạp cần xử lý trong bài toán theo vết đối
tượng. Do đó, đã có nhiều kĩ thuật được phát triển để giải quyết các vấn đề của
bài toán, được phân loại thành các nhóm kĩ thuật sau:
Theo vết dựa trên hình ảnh: phương pháp này trích xuất ra các đặc tính
chung và sau đó nhóm chúng lại dựa trên thông tin ngoại cảnh ở mức cao hơn.
Điển hình, Intille et al. (1997) đề xuất một blob-tracker để theo dõi con người
trong thời gian thực. Background được loại trừ để lấy được phần foreground. Các
khu vực foreground sau đó được chia thành các đốm màu dựa trên màu sắc. Cách
này nhanh, nhưng nó có một bất lợi lớn về kết hợp các đốm màu khi các đối
tượng tiến lại gần nhau.
Theo vết dựa trên đường viền (contour): với giả thiết rằng các đối tượng
được xác định bởi các đường bao quanh với một số thuộc tính xác định. Xây
dựng các mô hình hình dạng (đường viền), mô hình đường viền động học và các
thông số hình ảnh khác trong quá trình theo dõi. Điển hình nghiên cứu Yezzi and
Soatto (2003), Jackson et al. (2004), và Rathi et al. (2005). Yezzi and Soatto
(2003) đề xuất một định nghĩa cho sự biến dạng về chuyển động và hình dạng có
thể áp dụng cho đối tượng biến dạng hay di chuyển.
Theo vết dựa trên Filtering: phương pháp Kalman Filter và Particle Filter
được nghiên cứu. Kalman Filter giải quyết với việc theo dõi hình dạng và vị trí
theo thời gian trong các hệ thống tuyến tính (non-linear) và có xét nhiễu Gauss.
Ngược lại, Particle Filter có thể ứng dụng trong các hệ thống phi tuyến và phi
Gasuss, ý tưởng cơ bản của Particle Filter là ước lượng xác suất trong định lý
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
Bayesian bằng một tập hợp của mẫu có trọng số. Đối với Kalman Filter thì chỉ có
thể áp dụng khi hệ tuyến tính và có xét nhiễu Gauss, điều này thực sự gây ra
nhiều trở ngại trong việc giải quyết nhiều vấn đề trong thực tế vì các tín hiệu
quan sát thu được thường là các đại lượng phi tuyến và có phân phối phi Gauss.
Do đó, Anderson và Moore (1979) đưa ra thuật toán Extended Kalman Filter
(EKF) - thuật toán này là một trong những thuật toán tốt nhất để giải bài toán phi
Gauss và phi tuyến lúc bấy giờ. Thuật toán EKF hoạt động dựa trên ý tưởng
tuyến tính hóa (Linearization) các quan sát thu được bằng cách ước lượng các đại
lượng này bằng một chuỗi khai triển Taylor. Tuy nhiên, trong nhiều trường hợp,
chuỗi ước lượng trong EKF mô hình hóa rất kém những hàm phi tuyến và phân
phối xác suất cần quan tâm và kết quả là thuật toán sẽ không hội tụ. Julier và
Uhlmann (1996) đề xuất một thuật toán theo hướng xấp xỉ một hàm phân phối
xác suất dạng Gauss chứ không xấp xỉ một hàm phân phối phi tuyến bất kỳ -
thuật toán này được đặt tên là Unscented Kalman Filter (UKF). Thuật toán này
đã được chứng minh là có kết quả tốt hơn EKF. Tuy nhiên, giới hạn của UKF là
nó không thể được áp dụng trong các bài toán có phân phối phi Gauss tổng quát.
Do vậy, phương pháp tổng quát nhất hiện nay là phương pháp Particle Filter.
Bảng dước đây là các nghiên cứu có liên quan đến các phương pháp theo
vết trên:
Phân loại Đặc điểm chính
Các nghiên
cứu liên
quan
!"#
$%
& ''("
)*
+,)
''
$%
-",,**'.
/
'0$-1+//%
2'
$%
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
/,"0
3,
$%
3*0
)0'
("'4"
5#
$%
& '6')
-
'0
$%
1,0((
0
0
/'),
$%
789)':
& *
;**#
$%
<",
!*$%
!*$%
/-0'
$%
3*'=,
&'
$%
>??'
&@$%
A *#
$%2'
#$%
;06')
;06$;B%
2)
;
$%
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
B'
CD;0B'
$C;B%
A#
$%
;BE''(*
F#
$%
5'
#$%
;BE'*"0')
3,
$%
G"B'
-*')'0 !*$%
GBE'(""
*0(')
/-0'
!*
$%
GBE'("0((*
'*',"$HG1%
1,#
$%
;0G"B'
$;GB%,*
G"B'$IGB%
3'#$%
GBE'/
06$/2B%
J)
-)
$%
;G"B' -)#
$%
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
GBE')0'"
,*
2'#
$%
/,"(
$/3%
!*
/-0'
$%
*G"B'
$GB%
H ,0#
$%
Bảng 1:Các phương thức theo vết và các nghiên cứu tiêu biểu.
Ngoài ra, trong khóa luận này sẽ có sử dụng bài toán phát hiện hay nhận
dạng đối tượng cụ thể (điển hình quan trọng là khuôn mặt); do đó chúng ta sẽ
giới thiệu về bài toán nhận dạng – để chi tiết hơn ta sẽ xem xét cụ thể bài toán
phát hiện/nhận dạng khuôn mặt. Cũng tương tự bài toán theo vết đối tượng thì
phát hiện và nhận dạng một đối tượng cụ thể cũng có ý nghĩ quan trọng trong
ứng dụng thị giác máy tính, ta thấy rõ ràng nhất là ứng dụng nhận dạng khuôn
mặt phổ biến trên một số dòng máy tính xách tay. Hiện tại các kĩ thuật nhận dạng
khuôn mặt đã khá hoàn thiện: phát hiện khuôn mặt bằng cách sử dụng phương
pháp máy học và dự toán thống kê đã chứng minh kết quả xuất sắc trong tất cả
các phương pháp nhận dạng khuôn mặt hiện có. Nhiều nghiên cứu đã được tiến
hành trong khu vực kỹ thuật nhận diện khuôn mặt, chẳng hạn như AdaBoost
(Viola và Jones, 2001a; Viola và Jones, 2001b), FloatBoost (Li et al, 2002.), S-
AdaBoost (Jiang và Loe, năm 2003), mạng nơ-ron (Rowley et al, 1996; Curran et
al, 2005), Support Vector Machines (SVM) (Osuna et al, 1997, Shih và Liu, năm
2004), mô hình Markov ẩn (Rabiner và Jung, năm 1993), và phân loại Bayes
(Schneiderman và Kanade năm 1998; Schneiderman, 2004). Viola và Jones
(2001a, 2001b) đề xuất một thuật toán nhận dạng khuôn mặt AdaBoost, có thể
phát hiện khuôn mặt trong một cách nhanh chóng và mạnh mẽ với tỷ lệ phát hiện
cao. Li et al. (2002) đề xuất các thuật toán FloatBoost, một phiên bản cải tiến của
AdaBoost, cải thiện khả năng học các lớp phân loại tăng nhằm giảm tỉ lệ lỗi.
Jiang và Loe (2003) đề xuất S-AdaBoost, một biến thể của AdaBoost, xử lý
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
trong việc phát hiện mô hình và phân loại. Rowley et al.(1996) đã thực hiện các
nghiên cứu quan trọng nhất trong số tất cả các phương pháp nhận diện khuôn
mặt dựa trên các mạng nơ-ron. Họ sử dụng một mạng lưới nơ-ron đa lớp để học
mô hình face và non-face từ các bộ hình ảnh về face và non-face. Một nhược
điểm của phương pháp này là mặt phải nhìn thẳng về phía trước mới có thể phát
hiện. Mặc dù Rowley et .al. cải tiến phương thức để có thể phát hiện hình ảnh
khuôn mặt khi xoay chuyển, tuy nhiên kết quả không tốt vì tỉ lệ nhận dạng khá
thấp. Support Vector Machines (SVMs) (Osuna et al, 1997, Shih và Liu, 2004)
sử dụng cấu trúc giảm thiểu rủi ro để giảm thiểu trên ràng buộc của các lỗi dự
kiến tổng quát. Những khó khăn chính của SVMs là tính toán nhiều và yêu cầu
bộ nhớ cao. Mô hình Hidden Markov (HMM) (Rabiner và Jung, 1993) cho rằng
các dạng face và non-face có thể được mô tả như là tham số ngẫu nhiên. Mục
đích của HMM là để ước tính các thông số thích hợp trong HMM nhằm tối đa
hóa khả năng quan sát dữ liệu được huấn luyện. Schneiderman và Kanade (1998)
trình bày một lớp phân loại Bayes thuần, trong đó dự tính xác suất xuất hiện và
vị trí của một mô hình khuôn mặt ở quy mô nhiều. Tuy nhiên, việc thực hiện
phân loại Bayes thuần là thấp. Để giải quyết vấn đề này, Schneiderman (2004) đề
xuất một mạng Bayesian hạn chế để phát hiện đối tượng. Phương pháp này tìm
kiếm các cấu trúc của một phân loại dựa trên mạng Bayes trong không gian rộng
lớn của cấu trúc mạng có thể xảy ra.
Bảng sau là các nghiên cứu có liên quan đến bài toán phát hiện đối tượng:
Phân loại Đặc điểm Nghiên cứu tiêu biểu
Phương thức dựa trên
các đặc trưng
Facial features with edges
and lines
Herpers et al.
(1996) Song et al.
(2002)
Gray scale
Yang and Huang
(1994) Graf et al.
(1995)
Skin color and elliptical edges Huang and Trivedi (2004)
McKenna et al. (1998)
Naseemand Deriche
(2005)
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
Multiple facial features
Huang et al.(2004)
Wang and ertMariani (2000)
Phương thức dựa trên
mẫu
Elastic bunch graph matching Wiskott et al. (1997)
Snakes and templates
Kwon and Lobo (1994)
Gunn and Nixon (1996)
Silhouettes Samal and Iyengar (1995)
Phương
thức
dựa
trên
hình
ảnh
Học máy
AdaBoost
Viola and Jones (2001a;
2001b)
Lienhart and Maydt
(2002)
Wang et al. (2004)
FloatBoost Li et al.(2002a; 2002b)
S-AdaBoost Jiang and Loe (2003)
AdaBoost and PCA Zhang et al.(2004b)
AdaBoost with look-up-table
type weak classifiers
Wu et al. (2004)
AdaBoost with Gabor features Yanget al. (2004)
Mạng nơ-ron
Multilayer neural networks
Rowleyet al. (1996;
1998) Curran et al.
(2005)
NN and Constrained
Generative
Model
Féraud et al.(2001)
Support
Vector
Machines
(SVM)
SVM with polynomial kernel Osuna et al.(1997)
SVM with Orthogonal Fourier
and Mellin Moments (OFMM)
Terrillon et al. (2000)
SVM with Discriminating
Feature Analysis
Shih and Liu (2004)
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
Các thuật toán
khác
Hidden Markov Model
(HMM)
Rabiner and Jung (1993)
Naive Bayes classifier
Schneiderman and Kanade
(1998)
Restricted Bayesian network Schneiderman (2004)
Face Probability Gradient
Ascent(FPGA)
Park et al.(2005)
Bảng 2: Các phương thức nhận dạng khuôn mặt và các nghiên cứu tiêu biểu.
Trong khóa luận này, chúng tôi sẽ tiếp cận bài toán theo vết chuyển động
theo hướng kết hợp việc nhận dạng đối tượng và theo dõi đối tượng cụ thể là hai
đối tượng khuôn mặt (face) và người đi bộ (pedestrian) tiến hành nhận dạng đối
tượng (detect) sau đó theo vết (track) và sau một khoảng thời gian sẽ tiến hành
nhận dạng đối tượng nhằm làm tăng hiệu quả theo vết; cải tiến số lượng đối
tượng theo vết cụ thể là cùng một thuật toán nhưng áp dụng cho các nhóm mẫu
(Particle Filter) khác nhau - mỗi nhóm tương ứng với một đối tượng được theo
vết; ngoài ra cải thiện tốc độ xử lý của thuật toán bằng kĩ thuật lập trình song
song và sử dụng thread tăng hiệu quả của thuật toán. Bên cạnh đó, chúng tôi tiến
hành đánh giá hiệu quả của các cải tiến bằng các dữ liệu lấy từ bài báo nghiên
cứu có tiếng (nhằm đảm bảo tính hợp lệ và tính đúng đắn của dữ liệu), các bộ dữ
liệu có các đặc trưng và độ phức tạp phong phú: dữ liệu “YouTube action” bao
gồm các video có cùng chung một số điểm như ngoại cảnh, cùng góc quan sát…,
độ phức tạp của cơ sở dữ liệu bao gồm: sự thay đổi lớn trong chuyển động
camera, sự xuất hiện đối tượng và đặt ra, quy mô đối tượng, quan điểm, mức độ
phức tạp của khung cảnh nền, điều kiện chiếu sáng, v.v; hay bộ dữ liệu “UCF
Sports Action” liệu gồm các video ở độ phân giải 720x480, mô tả các hoạt động
thể thao đặc trưng trong một loạt các ngoại cảnh khác nhau…
# Tên video Số frame Kết quả (%)
Đối
tượng
v_jumping_01_04 201 94.03
v_jumping_02_03 201 48.76
v_jumping_02_04 201 51.74
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
bất kỳ
v_jumping_03_01 201 84.08
Khuô
n mặt
jam1 199 83.42
jim2 199 95.48
ssm1 199 100
Người
đi bộ
v_walk_dog_01_04 151 74.83
walk002 100 56
walk008 101 11.88
walk014 100 100
Bảng 3: Kết quả đánh giá sơ lược.
Trong các phần sau của bài luận văn được tổ chức như sau: chương hai
giới thiệu chung về bài toàn theo vết đối tượng: cách tiếp cận chung của bài, lý
thuyết về Particle Filter; chương ba giới thiệu về phương pháp phát hiện đối
tượng được áp dụng trong ứng dụng thực nghiệm; chương bốn giới thiệu về hai
thư viện OpenCV và GSL - hỗ trợ chính trong việc xây dựng ứng dụng thực
nghiệm; ứng dụng thực nghiệm được mô tả cụ thể trong chương năm, cuối cùng,
chương năm là phần đánh giá tính hiệu quả của ứng dụng thực nghiệm, công
thức để đánh giá, dữ liệu đánh giá đánh giá hiệu quả của thuật toán và chương
năm đưa ra kết quả đáng giá thực nghiệm dựa trên các công thức đã được chứng
minh trong các hội nghị khoa học.
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
Chương 2. BÀI TOÁN THEO VẾT ĐỐI TƯỢNG.
2.1. Tổng quan về bài toán theo vết đối tượng.
Mục tiêu của bài toán theo vết đối tượng là để “hiểu” được những chuyển
động của đối tượng. “Hiểu” những thông tin về đối tượng như vị trí trong
không gian, vận tốc chuyển động và những đặc trưng vật lý khác.
Hầu hết khó khăn của bài toán theo vết đối tượng là do khả năng biến
động của ảnh video. Khi một đối tượng chuyển động qua một vùng quan sát trên
khung hình, hình ảnh về đối tượng có thể thay đổi rất nhiều. Sự thay đổi này đến
từ 3 nguồn chính: sự thay đổi tư thế đối tượng đích (như người đang đứng
chuyển sang tư thế ngồi; xe đang đi thẳng quẹo sang trái …) hay sự biến dạng
của đối tượng đích, sự thay đổi về độ sáng, và sự che khuất một phần hay toàn bộ
đối tượng đích (như khi hai người hay xe đi ngang qua nhau).
Mỗi phương pháp tiếp cận bài toán có các ưu nhược điểm riêng nhưng
tổng quát có thể chia ra thành hai hướng chủ yếu:
• Hướng top-bottom: xuất phát từ các quan sát, thực hiện rút trích, phân
đoạn các hình ảnh hay các khung hình đầu vào để tìm ra đối tượng cần theo vết.
Ví dụ, phương pháp theo vết dùng “Blod detection”
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
Hình 2.3: Phương pháp theo vết sử dụng “Blob Detection”.
• Hướng bottom-up: cách tiếp cận này sử dụng các giả thuyết về đối tượng
và cố gắng kiểm tra chúng bằng cách sử dụng các dữ liệu có được từ hình ảnh, ví
dụ: phương pháp so khớp với mẫu (template matching). Phương pháp sử dụng
Particle Filter giới thiệu trong khóa luận này cũng thuộc nhóm các phương pháp
top-down.
2.2. Cách tiếp cận chung của bài toán theo vết đối tượng.
Đối tượng theo vết có thể chia thành ba nhóm đối tượng chính:
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
• Nhóm các đối tượng có một tập đặc tính chung như xe hơi, người, khuôn
mặt.
• Nhóm các đối tượng có tập đặc tính chung trên nhưng kết hợp với một
thuộc tính cụ thể khác như xe ô tô chạy, người đi bộ.
• Nhóm các đối tượng có chung một thuộc tính cụ thể như các đối tượng di
chuyển, đối tượng bất kỳ được người dùng chọn trong khung hình đầu tiên.
Thuật toán theo vết đối tượng thực chất làm tìm một vùng ảnh di chuyển
từ khung hình này sang khung hình khác nên mỗi nhóm đối tượng sẽ có các đặc
điểm riêng nhưng tống quát ta có các bước chính như sau:
• Thứ nhất, ta cần xây dựng một “mô hình tham chiếu” (reference model)
để mô tả cho đối tượng cần theo vết.
• Sau đó trên mỗi khung hình đầu vào (input frame), dựa trên các hàm thực
thi so sánh (similarity measure) thuật toán tìm (localize) vùng nào mà gần
giống với “mô hình tham chiếu” (reference model) nhất.
Dựa trên cách tiếp cận chung thì mỗi phương pháp kĩ thuật được phát
triển sẽ có các biến thể và các cách thức áp dụng riêng.
2.2.1. Mô hình tham chiếu (Reference model).
Mô hình tham chiếu là mô hình mô tả các thông tin về “vẻ bề ngoài” của
đối tượng cần theo vết. Có nhiều cách xây dựng mô hình tham chiếu cho đối
tượng như các mẫu gray-level, mô hình đường viền, và cách thường dùng nhất
trong các ứng dụng theo vết đối tượng là dùng mô hình màu (color model), tuy
nhiên có một số vấn đề đặt ra:
• Hệ màu nào được dùng? RGB hay HSV, Lưu ý rằng khi chúng ta dùng
mô hình màu để làm mô hình tham chiếu có nghĩa là chúng ta đã chịu
thêm một giả sử là chúng ta chỉ theo vết được các đối tượng trên ảnh màu
chứ không phải là ảnh bất kì. Ngoài ra, cũng cần chọn kĩ hệ màu vì nó rất
nhạy cảm với độ sáng, khung cảnh. Hiện tại trong ứng dụng thực nghiệm
đang sử dụng với hệ màu Hue-Saturation-Value (HSV).
• Mô hình phân bố (distribution) như thế nào? Có nhiều cách để tạo mô
hình phân bố như Gaussian, hoặc Mixture Gaussian, hoặc chỉ đơn giản
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
như histogram. Ứng dụng thực nghiệm đang sử dụng mô hình phân bố
histogram.
2.2.2. Hàm thực thi sự so sánh (similarity measure).
Để so sánh giữa mô hình ứng viên (candidate model) và mô hình tham
chiếu (reference model) trong mỗi khung hình đầu vào (input frame), chúng ta
phải cần phải có một hàm tính toán sự gần nhau/giống nhau (similarity measure).
Hàm này có nhiệm vụ sẽ tính toán mức độ tượng đồng/giống nhau giữa hai đối
tượng trên từ đó xác định được trạng thái của đối tượng cần theo vết. Ví dụ, hàm
SSD (Sum of Squared Differences) được dùng trong trường hợp thỏa điều kiện
độ sáng không đổi nghĩa là giá trị ánh sáng của các điểm ảnh không thay đổi từ
khung hình này sang khung hình khác; hàm SAD (Sum of Absolute Differences).
2.3. Cơ sở toán học.
2.3.1. Ước lượng Bayes.
2.3.1.1. Định nghĩa theo khía cạnh toán học.
Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên
A khi biết sự kiện liên quan B đã xảy ra. Xác suất này được ký hiệu là P(A|B), và
đọc là "xác suất của A nếu có B". Đại lượng này được gọi xác suất có điều kiện
hay xác suất hậu nghiệm vì nó được rút ra từ giá trị được cho của B hay phụ
thuộc vào giá trị đó.
Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:
• Xác suất xảy ra A của riêng A, không quan tâm đến B. Kí hiệu là P(A) và
đọc là “xác suất của A”. Đây được gọi là xác suất biên duyên hay xác
suất tiên nghiệm, nó là "tiên nghiệm" theo nghĩa rằng nó không quan tâm
đến bất kỳ thông tin nào về B.
• Xác suất xảy ra B của riêng B, không quan tâm đến A. Kí hiệu là P(B) và
đọc là "xác suất của B". Đại lượng này còn gọi là hằng số chuẩn hóa
(normalising constant), vì nó luôn giống nhau, không phụ thuộc vào sự
kiện A đang muốn biết.
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương
• Xác suất xảy ra B khi biết A xảy ra. Kí hiệu là P(B|A) và đọc là "xác suất
của B nếu có A". Đại lượng này gọi là khả năng (likelihood) xảy ra B khi
biết A đã xảy ra.
Khi biết ba đại lượng này, xác suất của A khi biết B cho bởi công thức
eq. 1
2.3.1.2. Định nghĩa theo khía cạnh ứng dụng.
Trước hết ta định nghĩa một số kí hiệu sau:
Đối với trạng thái đối tượng (mục tiêu cần xác định):
• : trạng thái của đối tượng ở thời điểm t. Các đại lượng vật lý đại diện cho
trạng thái của đối tượng thường là tọa độ x, y của trọng tâm khung chữ
nhật chứa đối tượng cần theo vết.
• : chuỗi các trạng thái của đối tượng từ thời điểm ban đầu đến thời điểm t.
Đối với quá trình quan sát (được xác định dựa trên các thông tin từ video):
• : các quan sát tại thời điểm t.
• : chuỗi các quan sát từ thời điểm ban đầu đến thời điểm t.
Mục tiêu của phương pháp Bayes là ước lượng trạng thái x
t
dựa trên chuỗi
quan sát Z
t
. Để ước lượng trạng thái x
t
cho một hệ thống, ta cần có 2 mô hình:
Mô hình động: mô hình sự tiến hóa của trạng thái theo thời gian:
eq. 2
với là vectơ nhiễu (ngẫu nhiên), xác suất chuyển trạng thái tính được từ mô
hình này.
Mô hình quan sát: mô tả mối quan hệ giữa các quan sát và trạng thái của
đối tượng tại một thời điểm:
eq. 3
với là vectơ nhiễu (ngẫu nhiên), mô hình này được sử dụng để tính
likelihood.
Tại một thời điểm t bất kỳ, hàm phân phối xác suất hậu nghiệm được cho
bởi quy tắc Bayes như sau:
eq. 4
(1): xác suất hậu nghiệm tại thời điểm t hiện tại.
(2): đại lượng likelihood được xác định dựa trên mô hình quan sát.
(3): xác suất chuyển trạng thái xác định dựa trên mô hình động.
SVTH: Chu Hoàng Nhật & Hà Thị Minh Phương