Tải bản đầy đủ (.pdf) (27 trang)

THEO VẾT ĐỐI TƯỢNG SỬ DỤNG MIXTURE OF GAUSSIAN MODEL VÀ PARTICLE FILTER

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (522.58 KB, 27 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẶNG THỊ THU HOA
THEO VẾT ĐỐI TƯỢNG SỬ DỤNG MIXTURE OF
GAUSSIAN MODEL VÀ PARTICLE FILTER
(Object tracking based on Mixture of Gaussian Model and
Particle Filter)
ĐỀ CƯƠNG LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH – 2013
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẶNG THỊ THU HOA
THEO VẾT ĐỐI TƯỢNG SỬ DỤNG MIXTURE OF
GAUSSIAN MODEL VÀ PARTICLE FILTER
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ CHUYÊN NGÀNH: 60.48.01
ĐỀ CƯƠNG LUẬN VĂN THẠC SĨ
HƯỚNG DẪN KHOA HỌC
TS. NGUYỄN THANH BÌNH
TP. HỒ CHÍ MINH - 2013
Đề cương luận văn thạc sĩ
1
MỤC LỤC
MỞ ĐẦU 2
Động lực nghiên cứu, các thách thức 2
B
ố cục của đề tài 3
NỘI DUNG 4
CHƯƠNG 1- GIỚI THIỆU 4
1.1 Giới thiệu đề tài 4
1.2 N


ội dung đề tài 5
Phát bi
ểu bài toán 5
Gi
ới hạn đề tài 5
1.3 M
ục tiêu đề tài 5
1.4
Phương pháp nghiên cứu 6
CHƯƠNG 2 – CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 7
2.1 Giới thiệu về các giải thuật 7
2.2 Các công trình nghiên c
ứu liên quan 9
CHƯƠNG 3 - BÀI TOÁN THEO VẾT ĐỐI TƯỢNG VÀ HƯỚNG TIẾP CẬN 11
3.1 Quá trình phát hiện và theo vết đối tượng 11
3.1.1 Phát hi
ện đối tượng chuyển động (Moving object detection) 12
3.1.2 Mô hình
đối tượng (Object Modeling) 13
3.2 Gi
ải thuật đề xuất 17
3.2.1 Object Extraction from background 17
3.2.2 Object Tracking 19
CHƯƠNG 4- KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC 23
4.1 Kết quả dự kiến 23
4.2
Phương pháp đánh giá kết quả 23
4.3 Nh
ững đóng góp của nghiên cứu 23
DỰ KIẾN KẾ HOẠCH THỰC HIỆN 24

TÀI LI
ỆU THAM KHẢO
Đề cương luận văn thạc sĩ
2
MỞ ĐẦU
Động lực nghiên cứu, các thách thức
Theo vết đối tượng (Object Tracking) là bài toán thuộc lĩnh vực thị giác máy
tính. Trong mười năm trở lại đây, cùng với tốc độ phát triển của khoa học kỹ thuật,
con người càng có nhu cầu sử dụng các hệ thống thông minh với mức độ tự động
hóa ngày càng cao. M
ột số ứng dụng của lĩnh vực thị giác máy tính bao gồm hệ
thống: kiểm soát quy trình (trong lĩnh vực robot), điều hướng (trong giao thông và
robot), phát hi
ện sự kiện (an ninh và giám sát), mô hình hóa đối tượng (phân tích
ảnh y khoa), giám sát tự động (trong các ứng dụng sản xuất).
Trong lĩnh vực an ninh-giám sát (security and surveillance), thị giác máy tính
được ứng dụng rất nhiều. Hệ thống giám sát (Surveillance system) bao gồm ba quy
trình : Xác
định đối tượng (Object extraction), theo vết đối tượng (Object tracking)
và nh
ận dạng hành vi (Action recognition). Từ đó lưu trữ thông tin thu thập được
vào cơ sở dữ liệu hoặc phát hiện bất thường để đưa ra cảnh báo kịp thời.
Sơ đồ quy trình của hệ thống giám sát
Theo vết đối tượng trong video có thể định nghĩa là bài toán xác định vị trí của
đối tượng theo thời gian khi đối tượng chuyển động. Tùy vào từng ứng dụng cụ thể
mà bộ theo vết đối tượng (Tracker) cung cấp các thông tin khác nhau về đối tượng
như hình dáng, diện tích, tọa độ trung tâm, hướng chuyển động, … để từ đó có thể
đưa ra dự
báo về vị trí di chuyển tiếp theo của đối tượng hoặc nhận dạng hành vi để
đưa ra cả

nh báo cho những hành động bất thường.
Thu thập
hình
ảnh
Phát hiện
đối tượng
Theo vết
đ

i tư

ng
Nhận dạng
hành vi
Lưu trữ
thông tin
Cảnh báo
Đề cương luận văn thạc sĩ
3
Bài toán theo vết đối tượng là bài toán phức tạp vì trong video quan sát có thể
xuất hiện các vấn đề:
- Nhi
ễu do độ phân giải của camera thấp, do điều kiện khách quan (thời tiết,
k
ỹ thuật ghi hình, ánh sáng)
-
Đối tượng có chuyển động phức tạp, tốc độ nhanh.
-
Đối tượng có kích thước thay đổi, bị che khuất bởi đối tượng khác
- S

ự thay đổi của độ chiếu sáng, góc chiếu sáng
-
Đối tượng có màu sắc giống với cảnh nền.
-
Đối tượng di chuyển khỏi vùng quan sát và xuất hiện trở lại
Ngoài ra, yêu c
ầu theo vết đơn đối tượng hoặc đa đối tượng, hình ảnh thu thập từ
một hoặc nhiều camera, yêu cầu xử lý thời gian thực cũng là những thách thức lớn
trong bài toán theo v
ết đối tượng.
Vì v
ậy, theo vết đối tượng là lĩnh vực vẫn được các nhà khoa học quan tâm nghiên
c
ứu.
Bố cục của đề tài
Luận văn chia thành 4 chương:
- Chương 1: Giới thiệu về đề tài và nội dung sẽ nghiên cứu.
-
Chương 2: Tổng quan các giải thuật đã được đề xuất, các công trình nghiên
c
ứu liên quan đến đề tài.
-
Chương 3: Trình bày các hướng tiếp cận để phân tách và giải quyết bài toán
theo v
ết đối tượng. Các giải thuật đề xuất cũng sẽ được trình bày trong
chương này.
-
Chương 4: Sẽ dự kiến kết quả đạt được, đánh giá kết quả và qua đó nêu lên
những đóng góp của đề tài nghiên cứu.
Đề cương luận văn thạc sĩ

4
NỘI DUNG
CHƯƠNG 1- GIỚI THIỆU
Chương một sẽ giới thiệu về vấn đề, mục tiêu và nội dung nghiên cứu của đề
tài, giới hạn của đề tài và phương pháp nghiên cứu.
1.1 Giới thiệu đề tài
Hiểu một cách đơn giản, theo vết đối tượng là bài toán xác định tọa độ của đối
tượng tại mỗi khung hình (frame) trong đoạn video quan sát khi đối tượng chuyển
động.
M
ột vài ứng dụng quan trọng của bài toán theo vết đối tượng như:
- Giám sát tự động (Automated video surveillance): trong những ứng dụng
này h
ệ thống thị giác máy tính được thiết kế để kiểm soát (monitor) những
chuy
ển động trong một vùng (area), xác định đối tượng chuyển động và cảnh
báo khi th
ấy bất kỳ tình huống khả nghi nào. Đòi hỏi hệ thống phải đủ mạnh
để phân biệt được các thực thể tự nhiên và con người.
-
Robot vision: với robot tự động, hệ thống điều hướng (navigation) cần phải
nh
ận biết được chướng ngại vật (obstacle) trên đường đi. Và nếu đó là những
đối tượng di chuyển, robot cần kích hoạt hệ thống theo vết thời gian thực để
tránh va chạm.
-
Điều phối giao thông (traffic monitoring): Trên các đại lộ hoặc các trục
đường chính, giao thông được giám sát liên tục qua camera. Bất kỳ phương
tiện nào vi phạm luật giao thông hoặc liên quan đến những hành vi phạm
pháp khác đều dễ dàng được phát hiện nếu hệ thống giám sát có tích hợp tính

n
ăng theo vết đối tượng.
-
Animation: giải thuật theo vết có thể sử dụng để mở rộng kỹ thuật làm phim
ho
ạt hình
- Ngoài ra còn nh
ững ứng dụng trong motion-based recognition, video
indexing, human-computer interaction
Khi xem xét bài toán theo v
ết đối tượng cần quan tâm đến cách biểu diễn đối tượng
(object representation), l
ựa chọn đặc trưng phù hợp (feature selecton), mô hình hóa
đối tượng và chuyển động của đối tượng dựa trên các đặc trưng. Có nhiều phương
Đề cương luận văn thạc sĩ
pháp được đề xuất để giải quyết bài toán theo vết đối tượng. Tùy vào môi trường
quan sát, ngữ cảnh, mục tiêu quan sát mà lựa chọn các giải thuật khác nhau.
1.2 Nội dung đề tài
Vấn đề đặt ra là làm sao từ một đoạn video quan sát, ta xác định được đâu là
đối tượng đang chuyển động, theo dõi sự di chuyển của đối tượng và xây dựng quỹ
đạo chuyển động của đối tượng.
Phát biểu bài toán
Cho trước tập dữ liệu là đoạn video chứa đối tượng cần theo vết
Dữ liệu đầu vào (input): đoạn video chứa đối tượng đang chuyển động.
Dữ liệu đầu ra (output): sơ đồ quỹ đạo chuyển động của đối tượng
input output
Giới hạn đề tài
Như đã phân tích trong phần mở đầu, có nhiều thách thức trong bài toán theo
vết đối tượng khiến cho bài toán trở nên rất phức tạp. Vì vậy, mỗi giải thuật đề xuất
đều kèm theo những giả thiết quy định những điều kiện ràng buộc nhất định. Trong

nghiên cứu này luận văn chỉ xác định đối tượng là con người, dữ liệu từ một
camera, và quan sát được thực hiện trong điều kiện ánh sáng tốt.
1.3 Mục tiêu đề tài
Mục tiêu nghiên cứu là tìm hiểu các kiến thức có liên quan đến hệ thống
giám sát, tìm hiểu về các giải thuật để theo vết đối tượng, xây dựng được một giải
thuật hiệu quả. Cụ thể, phát hiện được đối tượng chuyển động, phân tách đối tượng
khỏi cảnh nền và đối tượng khác, xác định tọa độ của đối tượng trong mỗi khung
hình, liên kết các tọa độ để có được quỹ đạo chuyển động của đối tượng.
Giải thuật theo
vết đối tượng
Đề cương luận văn thạc sĩ
6
1.4 Phương pháp nghiên cứu
Luận văn sẽ đi từ việc tham khảo các công trình nghiên cứu trước đây liên
quan đế
n bài toán theo vết đối tượng
- Xem xét các gi
ải thuật tác giả đã sử dụng
- Phân tách các gi
ải thuật theo từng giai đoạn
- T
ổng hợp và phân loại thuật toán dựa trên cách lựa chọn đặc trưng và biểu
di
ễn đối tượng
-
Đánh giá ưu điểm của từng thuật toán cũng như những hạn chế còn tồn tại
T
ừ đó lựa chọn thuật toán hiệu quả nhất tại mỗi giai đoạn, kết hợp các thuật toán để
xây dựng nên một giải thuật giải quyết bài toán theo vết đối tượng trong những điều
ki

ện ràng buộc đã nêu trên.
Hi
ện thực giải thuật bằng công cụ Matlab. So sánh kết quả đạt được với kết quả của
các công trình nghiên c
ứu trước đó để đánh giá mức độ hiệu quả của giải thuật.
Kết luận chương 1:
Chương 1 đã nêu lên các ứng dụng của hệ thống theo vết đối tượng, trình bày về
nội dung nghiên cứu, mục tiêu và phương pháp nghiên cứu.
Đề cương luận văn thạc sĩ
7
CHƯƠNG 2 – CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Chương hai sẽ tổng hợp một số phương pháp nghiên cứu và trình bày một vài
nghiên c
ứu liên quan đến đề tài
2.1 Giới thiệu về các giải thuật
Bài toán theo vết đối tượng đặt ra nhiều vấn đề cần xem xét khi tìm kiếm giải
thu
ật. Như mục tiêu là con người hay phương tiện? Theo vết đơn đối tượng hay đa
đối tượ
ng? Môi trường trong nhà hay ngoài trời? Ứng dụng với mục đích phát hiện
hành vi b
ất thường hay ứng dụng theo vết trong cảnh quay thi đấu trong thể thao?

ứng dụng rộng rãi của bài toán mà đã có rất nhiều nhà nghiên cứu đề xuất
và phát tri
ển các giải thuật khác nhau.
 [1] phân chia các kỹ thuật theo vết đối tượng thành 4 dạng:
-
Theo vết dựa trên vùng đối tượng
(Tracking based on a moving object region)

Gi
ải thuật này chủ yếu dựa vào thuộc tính của blob như kích thước, màu sắc, hình
d
ạng, vận tốc (velocity), trọng tâm (centroid). Ưu điểm của giải thuật là thời gian
tính toán nhanh và hi
ệu quả với số lượng đối tượng ít. Hạn chế của giải thuật là
không hi
ệu quả khi đối tượng bị che khuất bởi đối tượng khác trong trường hợp
nhi
ều đối tượng.
-
Theo vết dựa trên đường nét nổi bật của đối tượng
(Tracking based on an active contour of a moving object)
Contour c
ủa đối tượng được biểu diễn bởi một snake. Giải thuật chủ yếu dựa trên
boundary c
ủa đối tượng. Ưu điểm là có hiệu quả trong trường hợp theo vết người đi
bộ (pedestrian) bằng cách lực chọn đường nét của đầu; có thể cải thiến thời gian
tính toán. H
ạn chế là không giải quyết được bài toán đối tượng bị che khuất một
ph
ần (partial occlusion) và nếu đối tượng bị che khuất hoặc hai đối tượng chồng lấp
lên nhau m
ột phần trong quá trình khởi tạo (tức là ở những frame đầu tiên) thì sẽ
gây ra lỗi.
-
Theo vết dựa trên mô hình hóa đối tượng
(Tracking based on moving object model)
Mô hình c
ủa đối tượng thường được quy về mô hình hình học của đối tượng trong

không gian 3D và gi
ải thuật sẽ định nghĩa tham số để xác định đối tượng. Giải thuật
này gi
ải quyết được bài toán che khuất một phần nhưng lại ảnh hưởng đến thời gian
Đề cương luận văn thạc sĩ
8
xử lý. Ưu điểm của giải thuật là có độ chính xác cao khi số lượng đối tượng không
nhi
ều.
-
Theo vết dựa trên xác định đặc trưng của đối tượng
(Tracking based on selected features of moving object)
L
ựa chọn những đặc trưng tiêu biểu của đối tượng và xem xét các đặc trưng đó qua
các frame liên ti
ếp để xác định đối tượng di chuyển và theo vết. Khi đối tượng bị
che khuất, một hoặc hai đặc trưng không thể sử dụng, vẫn có thể dựa vào một trong
nh
ững đặc trưng còn lại. Tuy nhiên, lại nảy sinh bài toán gom cụm đặc trưng
(feature clustering), làm sao xác định đượ
c những đặc trưng nào là thuộc cùng một
đối tượng trong suốt quá trình theo vết (trường hợp theo vết nhiều đối tượng).
 Trong [2] theo vết đối tượng được phân loại thành ba phương pháp:
- Theo vết dựa trên điểm (Point tracking)
Đối tượng được biểu diễn bằng tập các điểm và các điểm này được liên kết dựa trên
các ràng bu
ộc về chuyển động, vị trí của đối tượng. Hạn chế của phương pháp là
cần có một cơ chế bên ngoài để phát hiện đối tượng trong mỗi frame.
Gi
ải thuật tiêu biểu là Kalman Filter, Particle Filter, Multi Hypothesis Tracking [3]

-
Theo vết dựa trên nhân (Kernel tracking)
Mô hình của đối tượng có thể được biểu diễn dưới dạng mẫu (template), hoặc mô
hình m
ật độ (density based model) ví dụ như histogram. Theo vết được thực hiện
b
ằng cách tính toán chuyển động của đối tượng qua các frame liên tiếp.
Gi
ải thuật tiêu biểu là Mean-shift, Simple Template Matching, Support Vector
Machine (SVM) [3]
-
Theo vết dựa trên hình chiếu (Silhouette tracking)
Sau khi ước lượng vùng đối tượng (Object region) trong mỗi frame, đối tượng được
theo v
ết bằng cách sử dụng thông tin mã hóa trong vùng đối tượng. Các thông tin
này có th
ể dưới hình thức là mô hình về hình dạng hoặc mật độ của đối tượng. Khi
có mô hình
đối tượng, theo vết được thực hiện bằng phương pháp so khớp hình
d
ạng (shape matching) hoặc mở rộng đường viền (contour evolutions)
Tiêu bi
ểu là Contour Tracking, Shape Matching. [3]
Đề cương luận văn thạc sĩ
9
Hình 2.1 Các giải thuật theo vết đối tượng [2,3]
2.2 Các công trình nghiên cứu liên quan
 Object Classification and Tracking in Video Surveillance [1]
Qi Zang and Reinhard Klette
H

ệ thống theo vết đối tượng được xây dựng cho ứng dụng trong giám sát giao
thông (traffic surveillance)
Ở giai đoạn đầu, sử dụng giải thuật trừ nền để phân tách đối tượng, Mỗi điểm
ảnh nền (background pixel) sẽ được mô hình hóa bằng phân phối mixture of
Gaussian.
Giai đoạn hai, gán nhãn cho từng vùng đối tượng (object region) và xác
định các đặc trưng: bouding rectangle (hình chữ nhật nhỏ nhất chứa đối tượng),
color (không gian màu RGB), center (tr
ọng tâm của hình chữ nhật), velocity (số
pixel di chuyển/giây theo cả 2 hướng dọc ngang). Sử dụng SUSAN (bộ phát hiện
góc) để xác định góc của phương tiện trong mỗi bounding box. Sử dụng phương
pháp lai (hybrid method) kết hợp Kalman Filter với kỹ thuật so khớp (matching) để
theo vết đối tượng.
Ưu điểm của giải thuật là giảm được thời gian tính toán khi sử dụng bộ phát
hi
ện góc trong vùng bounding rectangle. Và sử dụng tỉ số cao/rộng trong thông tin
góc để phân lớp đối tượng là người đi bộ hay phương tiện, nhưng chỉ có hiệu quả
nếu các vùng đối tượng là tách biệt.
Object
Tracking
Point
Tracking
Kernel
Tracking
Silhouette
Tracking
Kalman Filter
Particle Filter
Multi Hypothesis Tracking
Mean-shift

Simple Template Matching
Support Vector Machine
Contour Tracking
Shape Matching
Đề cương luận văn thạc sĩ
10
 Adaptive mean–shift for automated multi object tracking [4]
C. Beyan A. Temizel
Đưa ra bộ theo vết đa đối tượng hoàn toàn tự động dựa trên giải thuật mean-
shift. S
ử dụng Gaussian để loại nhiễu, bóng và rút trích foreground. Đồng thời
Gaussian
để xác định bouding box, dùng như một mặt nạ nhân (kernel mask) để
giảm vùng tìm kiếm và dự báo vị trí mới của đối tượng.
Ưu điểm là phát hiện được khi đối tượng vào hoặc ra khỏi vùng quan sát. Cập
nh
ật bộ theo vết với thông tin foreground để cải tiến mean-shift, làm cho giải thuật
có hi
ệu quả cả trong trường hợp đối tượng thay đổi về hình dáng, kích thước. Tuy
nhiên, ch
ỉ áp dụng với trường hợp camera tĩnh (static camera)
 Object tracking in an outdoor environment using fusion of features and
camera
[5]
Quming Zhou, J.K. Aggarwal
Bài báo
đưa ra một hệ thống theo vết và phân lớp đối tượng chuyển động sử
dụng một hoặc nhiều camera trong môi trường ngoài trời (outdoor). Kết hợp các đặc
trưng như vị trí, hình dạng, màu sắc để tăng hiệu quả theo vết đối tượng. Kết hợp
thông tin t

ừ các camera để có được quỹ đạo chuyển động của đối tượng. Đồng thời,
gi
ải quyết bài toán che khuất bằng cách sử dụng bộ lọc Kalman mở rộng (extended
Kalman Filter-EKF). Gi
ải thuật cũng phân lớp đối tượng thành ba nhóm: một người
(single person), nhóm người (people group) và phương tiện (vehicle). Tuy nhiên
EKF không thành công n
ếu đối tượng bị che khuất ở cả 2 camera.
Kết luận chương 2:
Chương 2 tổng hợp các phương pháp theo vết đối tượng theo một số nghiên cứu
trước đây, nêu những đặc điểm cũng như ưu, nhược điểm của các phương pháp đó;
trình bày tổng quan về một số nghiên cứu liên quan đến theo vết đối tượng.
Đề cương luận văn thạc sĩ
11
input
output
Trajectory
CHƯƠNG 3 - BÀI TOÁN THEO VẾT ĐỐI TƯỢNG VÀ
HƯỚNG TIẾP CẬN
Chương ba trình bày quy trình từng bước để theo vết đối tượng, một số giải
thu
ật thường được áp dụng. Cuối cùng, nêu mô tả cụ thể về giải thuật đề xuất.
3.1 Quá trình phát hiện và theo vết đối tượng
Từ dữ liệu đầu vào là đoạn video, quá trình theo vết đối tượng bao gồm các
bước:
- Tách frame: T
ách đoạn video thành các frame ảnh.
- Tr
ừ nền: Xử lý các frame để xác định cảnh nền (background) và đối tượng.
- Ti

ền xử lý: Khử bóng, nhiễu và phân tách đối tượng khỏi cảnh nền.
- Phát hi
ện đối tượng: Nhận dạng đối tượng chuyển động, biểu diễn đối tượng
b
ằng các đặc trưng.
- Theo v
ết đối tượng: Xác dịnh vị trí của đối tượng tại từng frame.
Hình 3.1
Sơ đồ quá trình theo vết đối tượng
video
Tách Frame
(Image Frame)
Trừ nền
(Background
Subtraction)
Phát hiện
(Object Detection)
Theo vết
(Tracking)
Tiền xử lý
(Post-Processing)
Đề cương luận văn thạc sĩ
12
3.1.1 Phát hiện đối tượng chuyển động (Moving object detection)
Phát hiện thay đổi (Change Detection) là việc xác định những thay đổi trong
tr
ạng thái của pixel thông qua việc kiểm tra các giá trị đại diện (appearance value)
gi
ữa các tập frame [6]
M

ột số kỹ thuật để phát hiện thay đổi thường được sử dụng nhất là
- Frame Differencing and Motion History Image
- Background Subtraction
- Motion Segmentation
- Matrix Decomposition
Quá trình phát hi
ện đối tượng bắt đầu với việc xác định các thành phần trong
frame
ảnh. Sau đó, phân tách đối tượng khỏi cảnh nền. Có thể thực hiện bằng cách
s
ử dụng thông tin từ một frame nhưng để tăng tính chính xác thường sử dụng thông
tin t
ừ chuỗi frame.
Quá trình g
ồm các bước như sau:
 Khởi tạo nền (Background initialization)
Đầu tiên, khởi tạo background. Đây là bước thiết lập các giá trị để xác định
background hay còn g
ọi là background learning [7]. Sau khi hệ thống đã “học” giá
tr
ị khởi tạo của background, thực hiện mô hình background (sử dụng các giải thuật
như mean filter và median filter [8]).
 Trừ nền (Background Subtraction)
Hay còn gọi là bước phát hiện foreground (foreground detection). Đây là bước
tách foreground v
ới background. Sử dụng background model và current image để
xác đị
nh foreground và xây dựng foreground pixel map [9].
G
ọi là giá trị pixel của current frame và là giá trị pixel của

background.
là ngưỡng để quyết định pixel đó có thuộc đối tượng hay không [8]
- N
ếu pixel được định nghĩa là foreground object
- N
ếu




, ,t t
X x y B x y T
 
pixel được xác định là background. Cập nhật




1
, ,
t t
X x y B x y

tức giá trị pixel của current image tại thời điểm t sẽ
là giá trị pixel của background khi xem xét ở thời điểm t+1

đối tượng di chuyển làm cho khung cảnh nền sẽ có sự thay đổi, vì vậy ta cần liên
t
ục cập nhật background model để cho việc xác định foreground chính xác hơn.



,
t
X x y


,
t
B x y
T




, ,t t
X x y B x y T
 
Đề cương luận văn thạc sĩ
13
 Tiền xử lý (Post processing)
Do những ảnh hưởng của môi trường nên foreground pixel map có thể chứa
nhi
ễu. Mục tiêu của bước này là loại bỏ các foreground pixel mà không tương ứng
v
ới foreground region thực tế, và để loại bỏ nhiễu xung quanh và bên trong object
region, làm n
ổi bật object region.
Vi
ệc khử nhiễu cho foreground pixel map có thể thực hiện bằng bộ lọc thông
th

ấp (low pass filter) và morphological operations. Bộ lọc thông thấp được sử dụng
để làm mờ (blurring) và giảm nhiễu (noise reduction) như loại bỏ các chi tiết nhỏ
hoặc nối các điểm đứt đoạn [9]. Trong khi Morphological lại có thể biểu diễn và mô
t
ả các object region bằng phương pháp boundary hoặc skeleton bằng cách sử dụng
các b
ộ lọc hình thái như erosion (làm mõng) và dilation (cắt tỉa)
 Phát hiện đối tượng (Object Detection)
Tới bước này, foreground map là môt ảnh nhị phân. Quét qua ảnh nhị phân để
xác đị
nh một nonzero pixel bất kỳ, tìm các nonzero pixel khác liên kết với nó (tức
k
ế cận với nó, thường là 4-adjacency hoặc 8-adjacency [8]), gán nhãn cho các
nonzero pixel v
ừa tìm được. Quá trình kết thúc khi tất cả các nonzero pixel được
gán nhãn. Gom nhóm các nonzero pixel có cùng nhãn ta s
ẽ có được các vùng liên
k
ết (connected region). Trường hợp lý tưởng, các connected region này chính là các
moving object
, nhưng cũng có thể là một vùng mà ánh sáng thay đổi hay bóng
(shadow), nên có th
ể cần thêm bước Region level post-processing [9] để loại bỏ các
vùng
có kích thước nhỏ hơn ngưỡng (giá trị ngưỡng được định nghĩa trước)
3.1.2 Mô hình đối tượng (Object Modeling)
Tracking là so khớp (matching) các connected region giữa các frame liên tiếp
nhau s
ử dụng các đặc trưng của đối tượng như color, velocity, texture, perimeter
[9]. Đối tượng được tracking bằng cách quản lý vector đặc trưng qua các frame.

 Rút trích đặc trưng (Feature Extraction)
Lựa chọn các đặc trưng đóng vai trò quan trọng trong bài toán theo vết. Các
đặc trưng được chọn sao cho nó là duy nhất trong không gian đặc trưng để phân biệt
các moving object v
ới nhau. Một số đặc trưng phổ biến dùng trong tracking được
[6]
xác định gồm có:
- Màu s
ắc (color)
- Gradient
Đề cương luận văn thạc sĩ
14
- Luồng chuyển động (Optical Flow)
- K
ết cấu (Texture)
- Corner Points
 Biễu diễn đối tượng (Object Representation)
Lựa chọn đặc trưng cũng chính là việc xác định cách thức biểu diễn đối tượng.
Các mô hình bi
ểu diễn đối tượng được [6] chia thành:
- Point and region
- Silhouette
- Connected Parts
- Graph and Skeletal
- Spatio Temporal
Hình 3.2: M
ột số cách biễu diễn đối tượng
T
ừ trái qua: object region, elliptical, silhouette (contour), part-based, skeletal
[2] nêu thêm m

ột vài phương pháp biểu diễn đối tượng
Hình 3.3: Các cách bi
ễu diễn đối tượng theo [2]
Đề cương luận văn thạc sĩ
15
Từ trái qua: (a) Centroid, (b) multiple points, (c) rectangular patch, (d) elliptical
patch, (e) part-based multiple patches, (f) object skeleton, (g) object contour, (h)
control points on object contour, (i) object silhouette
 Mô tả đối tượng (Object Descriptors)
[6] tổng hợp các mô hình mô tả đối tượng bằng các phương pháp như:
- Template
- Histogram, HOG, SIFT
- Region Covariance
- Ensembles and Eigenspaces
- Appearance Models
Hình 3.2: T
ổng hợp các các đặc trưng, mô hình biễu diễn và cách mô tả đối tượng
3.1.3 Theo vết đối tượng chuyển động (Moving object tracking)
Một số kỹ thuật tracking phổ biến [6]
- Template Matching
- Density Estimation : Mean –Shift
- Motion Estimation
- Kalman Filtering
- Particle Filtering
- Silhouette Tracking
Có nhi
ều kỹ thuật tracking khác nhau và mỗi phương pháp sẽ dựa trên những
cơ chế và đặc trưng khác nhau của đối tượng.
V
ới phương pháp tracking dựa trên điểm như Kalman Filter và Particle Filter,

ta có th
ể dựa vào hai đặc trưng của đối tượng là Centroid và Bouding box để theo
v
ết. Sau khi xác định được các connected region, ta tính được bouding box của các
region
đó. Centroid của đối tượng chính là center của bouding box. Xác định
centroid c
ủa từng đối tượng qua các frame và xây dựng quỹ đạo chuyển động của
object.
Đề cương luận văn thạc sĩ
16
Tracjector
Moving Object
Detection
Hình 3.4: Sơ đồ tổng quát các bước của quy trình theo vết đối tượng
video
Image Frames
Removing
Shadow & Noise
Object Tracking
Background
Model
Background
Model Update
Foreground
Detection
>
threshold
<
threshold

Background Subtraction
Object Modeling
Detection
Output
Input
Labeling Connected
Component
Region level
Post
-
Processing
Feature
Extraction
Object
Representation
Post
-
Processing
Đề cương luận văn thạc sĩ
17
3.2 Giải thuật đề xuất
Để phát triển một giải thuật theo vết cần có phương pháp biểu diễn đối tượng
phù h
ợp, lựa chọn đúng các đặc trưng tiêu biểu và thuật toán theo vết tốt [10].
C
ụ thể, luận văn đề xuất quy trình theo vết đối tượng theo các bước sau:
1. Video input s
ẽ được tách thành các frame (ví dụ 25frames/s [5])
2. Phát hi
ện đối tượng bằng giải thuật Background Subtraction

3. L
ọc nhiễu, bóng bằng low-pass filter và morphological filter
4. L
ựa chọn đặc trưng dựa trên Centroid
5. Bi
ểu diễn đối tượng bằng rectangular shape
6. Tracking b
ằng giải thuật Kalman Filter
3.2.1 Object Extraction from background
Giải thuật áp dụng : Background Subtraction
Trước khi thực hiện tracking, cần phải rút trích được moving object khỏi
background. Gi
ải thuật phân tách đối tượng được sử dụng phổ biến nhất là
Background Subtraction. Có th
ể thực hiện bằng cách xây dựng một biểu diễn của
c
ảnh gọi là background model, tính toán độ sai lệnh giữa background model và mỗi
frame. Các pixel có độ sai lệch khác 0 sẽ được liên kết tạo thành các foreground
region hay moving object.
[9] t
ổng hợp và chia Background Subtraction thành 4 dạng:
- Background subtraction with Alpha
- Statistical Methods
- Temporal differencing
- Eigen background subtraction
Mixture of Gaussian Model là
phương pháp phổ biến và là một trong những
phương pháp hiệu quả cho Background Subtration [4].
M
ỗi pixel sẽ được mô hình bằng một Mixture of Gaussian với K thành phần theo

công th
ức sau
Trong đó:
t
X
là giá trị của pixel tại thời điểm t
là training set t
ại thời gian t với T là khoảng thời gian
 


, ,T t t TX X X 
 
t , , ,
1
( ) , ,
K
i t t i t i t
i
P X X
  




Đề cương luận văn thạc sĩ
18
,
i t



K
là số thành phần (component), thường trong khoảng 3 đến 5 [1]
Tr
ọng số của Gaussian thứ i, là giá trị không âm (non-negative) và có
t
ổng bằng 1
Giá tr
ị trung bình của Gaussian thứ i ở thời gian t.

,
i t

Ma trận hiệp phương sai của Gaussian thứ i tai thời gian t,
V
ới là phương sai cho thành phần Gaussian thứ i
M
ỗi giá trị pixel mới
t
X
sẽ được kiển tra với
K
Gaussian component, nếu
t
X
khớp (match) với component i thì các tham số của component thứ i sẽ được cập
nh
ật theo các công thức:



, , 11
i t i t t
I
   
  
     
2 2
, ,
, , 1
1
T
t i t t i t
i t i t
I I
   
 

    
Với


, 1 , 1
Pr | ,t i t i tI
  
 

là hệ số học (learning parameter), xấp xỉ
1/
T



là giá trị trung bình của pixel tại thời điểm t
là pixel t
ại thời điểm t
Tham s
ố của các component còn lại sẽ không thay đổi, tức

Nhưng sẽ được điều chỉnh theo công thức
N
ếu
t
X
không khớp với component nào của Gaussian thì component có giá
tr
ị nhỏ nhất trong Gaussian sẽ được thay bằng component có giá trị bằng giá trị
trung bình của nó. Gán component có phương sai nhỏ nhất làm background
Vì moving object có ph
ương sai lớn hơn background pixel nên để biểu diễn
Background ta s
ắp xếp các Gaussian theo giá trị giảm dần.Khi đó,
background component vẫn ở đầu với phương sai thấp nhất bằng cách áp dụng
ngưỡng T với
T
ất cả các pixel
t
X
không khớp với bất kỳ component nào sẽ được ghi nhận là
foreground.
t


t
I
,
i t



, , 1
1i t i t
  
 

, , 1
t t t t
 


2 2
, , 1
i t i t
 


, ,
/ || ||
i t i t


,
i t


2
,
,
i t
i t
I



,
i t



, , 11i t i t
   
 
 
,
1
,
1
argmin
b
i t
i
b
K
i t

i
B T




 
 
 
 
 


Đề cương luận văn thạc sĩ
19
Khử nhiễu, bóng (removing shadow and noise)
Việc phát hiện sự thay đổi về độ sáng (brightness) và sắc độ (chromaticity)
trong không gian màu HSV thì chính xác h
ơn trong không gian RGB, đặc biệt là
v
ới cảnh quay ở môi trường bên ngoài, và không gian màu HSV gần với nhận thức
màu s
ắc (perception of color) của con người nên ta dùng không gian màu HSV cho
vi
ệc loại bỏ nhiễu của các pixel.
Vì ch
ỉ cần loại nhiễu trên foreground pixels nên chỉ foreground pixel được
chuy
ển đổi (convert) thành bộ ba giá trị hue, saturation, intensity (sắc màu, độ bão
hòa, c

ường độ). Các shadow region có thể được được phát hiện và loại bỏ bằng
cách sau:
G
ọi
E
là biểu diễn của current pixel (nó được ghi nhận là foreground pixel) tại
th
ời điểm t
B
là biểu diễn background pixel tại thời điểm t
N
ếu mỗi foreground pixel thỏa mãn công thức
Và thì chúng s
ẽ được ghi nhận là shadow và loại khỏi
foreground map. Tham s
ố của shadow pixels sẽ không được cập nhật. Kết thúc
bước này ta sẽ có được một foreground pixel map có độ chính xác cao hơn. Tiếp
theo, gán nhãn các pixel k
ế cận nhau có giá trị non-zero và liên kết các pixel cùng
nhãn
để có được các moving object.
3.2.2 Object Tracking
Trước khi thực hiện tracking ta có thể áp dụng morphological filters để giảm
b
ớt ảnh hưởng của nhiểu.
V
ới mỗi object region ta xác định các đặc trưng:
- Bouding rectangle : hình chữ nhật nhỏ nhất chứ object region. ghi nhận lại
giá tr
ị tọa độ tại điểm upper-left và lower-right. Từ đó, có thể tính được kích

thước (độ rộng,chiều cao) của bouding box
- Color: giá tr
ị RGB trurng bình của moving object.
- Center: l
ấy giá trị trọng tâm (giao của 2 đường chéo) của bouding box làm
centroid cho moving object region (tính g
ần đúng)
- Velocity: số pixel/giây theo cả chiều dọc và ngang.
Moving object được biểu diễn bằng vector đặc trưng gồm 4 thành phần
[bouding box, color, center, velocity]

| | , | |
h h h s s s
E B T E B T
   
1 2
/
v v v v
T E B T
 
Đề cương luận văn thạc sĩ
20
Giải thuật đề xuất để tracking: Particle Filter
Particle Filter là m
ột kỹ thuật suy diễn (inference technique) để ước lượng
tr
ạng thái chuyển động
t
X
từ điểm quan sát

1 :
t
Z
, với
X
là nhãn nhị phân của đối
tượng [12]. Trạng thái ước lượng đó được kí hiệu là


1 :
t
t
p X Z
Giả sử phát sinh được một tập
N
mẫu
 


1
N
n
t
n
X

từ phân phối hậu nghiệm (posterior
distribution)



1 :
t
t
p X Z
, nghĩa là xác xuất nhận được trạng thái


n
t
X

 


1 :
n
t
t
p X Z
,
thì m
ật độ xác xuất này có thể được xấp xỉ bằng ước lượng Monte Carlo [11]
 
 
 
1 :
1
1
N
n

t t t
t
n
p X Z X X
N


 

Trong đó



là hàm Dirac Delta tại 0:



, 0
0, 0
x
x
x

 


 
1
x dx






Khi
N
 
ước lượng Monte Carlo sẽ hội tụ về mật độ xác xuất thực sự. Tuy
nhiên, vi
ệc lấy mẫu trực tiếp từ mật độ hậu nghiệm không hiệu quả do


1 :
t
t
p X Z
thường là đa biến và có thể thay đổi theo thời gian. Do đó để tạo ra tập mẫu “đúng”
cho phân phối


1 :
t
t
p X Z
ta sử dụng phương pháp lấy mẫu Importance Sampling
[13]
Nguyên lý c
ủa Importance Sampling là lựa chọn một phân phối
q
dễ lấy mẫu hơn

để
phát sinh tập mẫu. Mẫu phát sinh bởi Importance Sampling gọi là fair sampling,
phân ph
ối
q
gọi là phân phối đề xuất (proposal distribution) [12]. Mỗi mẫu được
gán m
ột trọng số


n
t
w
, phản ánh bản chất việc lấy mẫu được thực hiện từ một phân
ph
ối khác với phân phối mục tiêu. Trọng số được chuẩn hóa sao cho


1
n
t
n
w


.
Khi đó, ước lượng Monte Carlo được viết lại như sau:
 
   
 

1 :
1
N
n n
t t t
t t
n
p X Z w X X


 

Particle Filter xấp xỉ mật độ hậu nghiệm bằng tập
N
mẫu
   


1
,
N
n n
t t
n
X w

[12].
Ý tr
ưởng chính là lan truyền tập mẫu này theo thời gian như sơ đồ sau
Đề cương luận văn thạc sĩ

21
Dự đoán
 


n
t
X
Cập nhật
t
Z

[ ]
t
Z


   


1 1
,
n n
t t
X w
 
   


,

n n
t t
X w
…….
Theo [7] n
ếu mật độ hậu nghiệm


1 1 : 1
t tp X Z 
tại thời điểm
1
t

được xấp xỉ
bằng tập mẫu
   


1 1
1
,
N
n n
t t
n
X w
 

thì hai bước hồi quy của Particle Filter là:

-
D
ự đoán: lấy mẫu từ phân phối đề xuất
q
   


1
,
n n
t t
t t
X q X X Z


Khác với phương pháp ước lượng Bayesian truyền thống, Particle Filter có thể sử
dụng thông tin quan sát
t
Z
ở bước dự đoán để tăng hiệu quả lấy mẫu.
- C
ập nhật: tính trọng số của mẫu
 
 


   


   

 
 
1
1
1
x
,
n n n
t
t t t
n n
t t
n n
t t t
p Z X p X X
w w
q X X Z




 


 
1
n
n
t
t

N
n
t
i
w
w
w



Trạng thái hiện tại
t
X
của hệ thống được xác định bằng ước lượng Expected A
Posterior (EAP)-l
ấy kỳ vọng của mật độ hậu nghiệm:
   
1
N
n n
t
t t
n
X w X



Một vấn đề gặp phải khi dùng Particle Filter là hiện tượng suy biến (degeneracy).
Sau m
ột khoảng thời gian, ngoại trừ một mẫu duy nhất trong tập mẫu, các mẫu còn

l
ại đều có trọng số nhỏ, không đáng kể. Để khắc phục, phương pháp lấy mẫu Monte
Carlo importance sampling được áp dụng tại bước cập nhật [12]. Quá trình bao gồm
3
bước chính:
1.
Đầu tiên, lấy
N
mẫu


n
t
X
từ phân phối đề xuất


t
q X
 
 
 


1 1
n n
n
t t
t t t
n

X q X w p X X
 



Với
1
n
t
w

là trọng số của mẫu thứ
n
trong frame trước đó.
Đề cương luận văn thạc sĩ
22
Sử dụng mô hình chuyển đổi Gaussian tuyến tính điển hình (typical linear Gaussian
transition model ) để lấy mẫu từ mẫu quan trọng của frame trước đó.
2. Tiếp theo, trọng số


n
t
w
được tính như likelihood
   


n n
t

t t
w p Y X
Kí hiệu trọng số đã được re-weighting ở bước này là


n
t
w

Trong đó, mẫu


n
t
X
là fair sampling được phát sinh cho phân phối


1 : 1
t tp X Z 
[13].Từ việc tính lại trọng số ở bước này, mẫu quan sát
t
Y
lại trở thành mẫu được
xem xét.
3.
Sau đó, chuẩn hóa trọng số
 



n
t
w
:
 


 
n
n
t
t
k
t
k
w
w
w


hay chính xác hơn
 
 
 
n
n
t
t
k
t

k
w
w
w




Do ở bước tracking, ta đơn giản hóa mô hình của đối tượng thành một rectangular
bounding box (hình ch
ữ nhật bao quanh đối tượng). Khi đó, trạng thái của đối tượng
chính là v
ị trí và kích thước của bounding box,


4
, , , , t t t t t tX x y w h X 

Trong đó:
: là tọa độ tâm
là chi
ều rộng và chiều cao của bounding box
Tính ch
ất quan trọng nhất của Particle Filter là khả năng điều khiển (handle) những
m
ật độ hậu nghiệm đa mô hình phức tạp [13]. Tuy nhiên, sẽ khó khăn trong trường
h
ợp
t
X

là nhiều chiều (high-dimensional).
Vi
ệc lựa chọn phân phối đề xuất
q
cũng ảnh hưởng đến hiệu quả của giải thuật.
Phương pháp Particle Filter tổng quát được cải tiến thành nhiều phiên bản ứng dụng
cho nhi
ều trường hợp khác nhau như Sampling Importance Resampling (SIR),
partitioned sampling (PS), Markov Chain Monte Carlo (MCMC), reversible jump
Markov Chain Monte Carlo (RJMCMC) [14]
,
t t
x y
,
t t
w h
Đề cương luận văn thạc sĩ
23
Kết luận chương 3:
Chương 3 luận văn đã nêu quy trình theo vết đối tượng theo từng bước. Giải thích
c
ụ thể mục tiêu của từng bước và cách thức thực hiện, nêu lên một số phương pháp
đượ
c sử dụng. Ngoài ra, chương 3 cũng đề xuất quy trình và và trình bày cơ sở lý
thuy
ết của các giải thuật cụ thể được sử dụng.
CHƯƠNG 4- KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC
4.1 Kết quả dự kiến
Sau khi triển khai theo giải thuật đề xuất dự kiến sẽ có thể:
- V

ẽ được bounding box chứa moving object và hiển thị được tọa độ trung
tâm. Kích thước bouding box thay đổi theo kích thước của đối tượng.
- Hi
ển thị tọa độ trung tâm của bouding box. Khi đối tượng di chuyển, tập các
điểm đó là quỹ đạo chuyển động của đối tượng (kí hiệu là T1)
-
Đồng thời, giải thuật tracking Particle Filter cũng dự báo vị trí tiếp theo của
đối tượng và hiển thị tọa độ của centroid. Liên kết các tọa độ này sẽ tạo
thành qu
ỹ đạo chuyển động của đối tượng dựa trên ước lượng bằng Particle
Filter (kí hi
ệu là T2)
- T
ổng thời gian thực thi sẽ nhỏ hơn 0,2s (bao gồm thời gian cho các quá trình
t
ừ Object Extraction đến Traking)
4.2 Phương pháp đánh giá kết quả
So sánh để thấy mức độ sai lệch giữa T1 và T2.
So sánh v
ới kết quả của các bài báo
1. Object Classification and Tracking in Video Surveillance
2. Object tracking in an outdoor environment using fusion of features and
cameras
4.3 Những đóng góp của nghiên cứu
- Luận văn có sự tổng hợp và tóm tắt những kiến thức liên quan đến hệ thống
theo v
ết đối tượng, những khó khăn thách thức còn tồn tại.
- Trong lu
ận văn có trình bày cách thức phân loại các giải thuật theo một vài
nghiên c

ứu trước đó, giúp đưa ra một một cách nhìn tổng quan và logic để
tiếp cận với bài toán.

×