Tải bản đầy đủ (.pdf) (82 trang)

Hệ thống quan sát đa mục tiêu tối ưu hàm đánh giá đối tượng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.21 MB, 82 trang )

i

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
-------------------------------

Hoàng Xuân Lộc

HỆ THỐNG QUAN SÁT ĐA MỤC TIÊU
TỐI ƢU HÀM ĐÁNH GIÁ ĐỐI TƢỢNG
Chuyên ngành: Khoa học máy tính
Mã số: 60480101

TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Thái Nguyên - 2015

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ii
LỜI CẢM ƠN
Lời đầu tiên, Em xin cảm ơn Thầy TS. Đào Nam Anh đã trực tiếp
hƣớng dẫn, giúp đỡ và tận tình chỉ bảo Em trong suốt thời gian từ khi có ý
tƣởng cho luận văn đến khi hoàn thành luận văn này.
Em xin chân thành cảm ơn đến các Thầy bộ môn đã trực tiếp dạy dỗ
Em nhƣ Thầy PGS.TS Ngô Quốc Tạo, PGS. TS. Phạm Việt Bình,
PGS.TSKH Nguyễn Xuân Huy, PGS.TS Đỗ Năng Toàn,…đã giúp Em có
kiến thức và ý tƣởng cho luận văn.
Em xin cảm ơn các Thầy trong hội đồng bảo vệ đề cƣơng đã góp ý,


giúp Em có những thay đổi phù hợp hơn trong luận văn này.
Em xin cảm ơn trƣờng Đại học Công nghệ Thông tin và Truyền thông - Đại
học Thái Nguyên đã tạo rất nhiều điều kiện thuận lợi cho Em.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iii
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là kết quả nghiên cứu của tôi, không sao
chép của ai. Nội dung luận văn có tham khảo và sử dụng các tài liệu liên
quan, các thông tin trong tài liệu đƣợc đăng tải trên các tạp chí và các trang
website theo danh mục tài liệu của luận văn.
Tác giả luận văn

Hoàng Xuân Lộc

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iv
MỤC LỤC
DANH MỤC HÌNH VẼ .........................................................................................V
MỞ ĐẦU ................................................................................................................ 1
CHƢƠNG 1. TỔNG QUAN THEO DÕI ĐỐI TƢỢNG ..................................... 3
1.1 Xử lý video .................................................................................................. 3
1.2 Bài toán theo dõi đối tƣợng ......................................................................... 7
1.3 Ứng dụng thực tế - giám sát thông minh ................................................... 10

1.4 Thành phần của thuật toán ......................................................................... 14
1.5 Các thuật toán so sánh ............................................................................... 25
1.6 Phát hiện các đố i tƣơ ̣ng chuyển động ........................................................ 26
CHƢƠNG 2. THUẬT TOÁN THEO DÕI ĐA MỤC TIÊU TỐI ƢU HÀM
ĐÁNH GIÁ ĐỐI TƢỢNG ................................................................................... 35
2.1 Ký hiệu ....................................................................................................... 37
2.2 Phát hiện các đố i tƣơ ̣ng.............................................................................. 37
2.3 Hàm đánh giá đối tƣợng ............................................................................ 44
2.4 Tối ƣu hoá hàm đánh giá đối tƣợng ........................................................... 48
2.5 Theo vết đối tƣợng ..................................................................................... 51
2.6 Thuật toán .................................................................................................. 56
2.7 Kết luận chƣơng 2 ...................................................................................... 57
CHƢƠNG 3. CÀI ĐẶT THỬ NGHIỆM ........................................................... 58
3.1 Môi trƣờng cài đặt ..................................................................................... 58
3.2 Trích dẫn một số mã nguồn ....................................................................... 58
3.3 Kết quả thực nghiệm .................................................................................. 63
3.4 Kết luận chƣơng 3 ...................................................................................... 74
KẾT LUẬN .......................................................................................................... 75
TÀI LIỆU THAM KHẢO .................................................................................... 76

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

v
DANH MỤC HÌNH VẼ
Hình 1-1 Cấu trúc phân cấp của video ................................................................... 4
Hình 1-2. Khung hình khác nhau nhƣng có cùng biểu đồ màu ............................. 5
Hình 1-3. Theo dõi khách bộ hành ......................................................................... 7
Hình 1-4 Hệ thống camera điều khiển xe tự hành SCABOR ................................ 7

Hình 1-5 Mô hình hệ thống giám sát ................................................................... 11
Hình 1-6: Hệ thống camera giám sát giao thông. ................................................ 13
Hình 1-7 Hệ thống camera giám sát an ninh. ....................................................... 13
Hình 1-8: Công nghệ nhận diện khuôn mặt. ........................................................ 14
Hình 3-9: Bộ cơ sở dữ liệu ................................................................................... 66
Hình 3-10 IMG1: Đối tƣợng ảnh số 1 đƣợc theo dõi qua các khuôn hình từ 3-16 .. 67
Hình 3-11 IMG2: Đối tƣợng ảnh số 14 đƣợc theo dõi qua các khuôn hình 85-88,
bị khuất trong khuôn hình 89, xuất hiện lại trong hình 90 với mã số mới 16 ...... 68
Hình 3-12 IMG2: Đối tƣợng ảnh số 16 đƣợc theo dõi tiếp qua các khuôn hình
140-154................................................................................................................. 69
Hình 3-13 IMG2: Đối tƣợng ảnh số 16 đƣợc theo dõi tiếp trong mã số 29 qua các
khuôn hình 195-210. Có một số đỗi tƣợng mới xuất hiện, tuy nhiên còn nhỏ nên
không hiện mã số trên màn hình .......................................................................... 70
Hình 3-14 IMG3: Có 2 đối tƣợng ảnh trong khuôn hình 666-680. Do kích thƣớc
của đối tƣợng nhỏ hơn ngƣỡng đặt trƣớc nên mã số không hiển thị trên khuôn
hình ....................................................................................................................... 71
Hình 3-15 IMG3: Đối tƣợng ảnh số 89 đƣợc teo dõi trong các khuôn hình 780800. Một đối tƣợng ảnh đi cùng không đƣợc hiển thị mã số do kích thƣớc của đối
tƣợng nhỏ hơn ngƣỡng đặt trƣớc.......................................................................... 72

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

1

MỞ ĐẦU
Theo dõi đa đối tƣợng là một nhiệm vụ đã có từ lâu với ngành an
ninh, nay là nhiệm vụ quan trọng trong lĩnh vực thị giác máy tính. Sự gia
tăng của máy tính cấu hình mạnh, sự sẵn có của các máy quay video chất
lƣợng cao và không tốn kém, và nhu cầu ngày càng tăng về phân tích video

tự động đã tạo ra rất nhiều sự quan tâm về các thuật toán theo dõi đa đối
tƣợng.
Các thuật toán này đã có ứng dụng rộng rãi là hệ thống giám sát
thông minh tự động - trợ giúp đắc lực cho con ngƣời thực hiện theo dõi,
giám sát. Ví dụ giám sát giao thông một hệ thống giám sát thông minh có
thể cho ta biết đƣợc số lƣợng phƣơng tiện lƣu thông qua đoạn đƣờng, đƣa
ra thông tin về tốc độ chuyển động, đƣờng đi của đối tƣợng đƣợc theo dõi.
Khó khăn chính của bài toán theo dõi đa đối tƣợng là sự phức tạp của
không gian quan sát với số lƣợng lớn quỹ đạo đối tƣợng liên tục, và một số
quỹ đạo rời rạc. Để giải quyết theo dõi tƣơng tác giữa các đối tƣợng cần
phải có các mô hình thuật toán tối ƣu, đảm bảo phân tích đƣợc trong thời
gian thực. Ý thức đƣợc những lợi ích mà hệ thống giám sát thông minh
mang lại: ” Hệ thống quan sát đa đối tƣợng tối ƣu hàm đánh giá đối tƣợng”
để từ đó nắm đƣợc các thật toán giải quyết bài toán theo dõi giám sát đa đối
tƣợng chuyển động trong video với sự tối ƣu hóa hàm hàm đánh giá đối
tƣợng mà kết quả là tối ƣu nguồn lực máy tính.
Đối tƣợng của luận văn này là tìm hiểu kết quả nghiên cứu trong lĩnh
vực giám sát đa đối tƣợng (multi object tracking) di chuyển trong video
bằng sự tối ƣu hàm đánh giá đối tƣợng. Luận văn sẽ phân tích và thực
nghiệm thuật toán cho bài toán trên.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

2

Ngoài phần mở đầu và kết luận, luận văn đƣợc chia làm 3 chƣơng,
luận văn có các chƣơng nhƣ sau:
Chƣơng 1: Tổng quan về theo dõi đối tƣợng trong xử lý ảnh
Trình bày các vấn đề đặt ra cần giải quyết trong hệ thống theo dõi

thông minh, giới thiệu bài toán phát hiện, phân loại, theo dõi đối tƣợng
chuyển động trong hệ thống theo dõi đối tƣợng.
Chƣơng 2: Phƣơng pháp phát hiện và theo dõi đa đối tƣợng
Phân tích giải pháp bài toán theo dõi đa đối tƣợng thời gian thực
bằng cách tối ƣu hàm đánh giá đối tƣợng. Trình bày chi tiết về mô hình
theo dõi đối tƣợng và xây dựng hàm số hàm đánh giá đối tƣợng. Tối ƣu
hàm đánh giá đối tƣợng cục bộ hàm hàm đánh giá đối tƣợng để đạt giá trị
cực tiểu của hàm đánh giá đối tƣợng, từ đó tính toán theo vết đƣờng đi của
đối tƣợng trong thời gian thực.
Chƣơng 3: Thực nghiệm và đánh giá
Trình bày về việc cài đặt chƣơng trình, xây dựng dữ liệu thực
nghiệm, các quá trình thực nghiệm, kết quả thực nghiệm và các kết quả
đánh giá, nhận xét các xử lý từ thực nghiệm.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

3

CHƢƠNG 1.

TỔNG QUAN THEO DÕI ĐỐI TƢỢNG

Giám sát bằng video là quá trình phân tích khung hình tuần tự trong
video.. Đó là một ứng dụng của thị giác máy tính. Có ba loại hoạt động
giám sát bằng video: giám sát bằng video có thể là bằng tay, bán tự động
hoặc hoàn toàn tự động.
Giám sát video bằng tay là việc phân tích các nội dung video đƣợc
con ngƣời thực hiện trực tiếp. Hệ thống dạng này đang đƣợc sử dụng rộng

rãi.
Video giám sát bán tự động liên quan đến một số hình thức xử lý
video với sự can thiệp đáng kể của con ngƣời. Ví dụ điển hình là các hệ
thống phát hiện chuyển động đơn giản. Chỉ khi có sự chuyển động đáng kể
thì video mới đƣợc ghi lại và gửi cho chuyên gia là con ngƣời phân tích.
Với một hệ thống hoàn toàn tự động, không có sự tham gia của con
ngƣời vào quá trình phân tích. Trong một hệ thống nhƣ vậy hệ thống làm
cả hai nhiệm vụ cấp thấp, là phát hiện chuyển động và theo dõi, và nhiệm
vụ ra quyết định cấp cao, nhƣ nhận diện sự kiện bất thƣờng và xác định loại
chuyển động. Hệ thống giám sát video hỗ trợ động phân loại tự các đối
tƣợng và theo dõi đối tƣợng. Điều hành hệ thống giám sát video trong thời
gian dài trực tiếp bằng con ngƣời là không thực tế và khó khả thi.

1.1 Xử lý video
1.1.1. Một số khái niệm
Video là tập hợp các khung hình, mỗi khung hình là một ảnh. Video
hay còn gọi là chuỗi ảnh (image sequence) tƣợng trƣng cho thông tin hình
ảnh. Đó là một chuỗi các hình ảnh liên tục theo thời gian.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

4

S=f(x,y,t)

(1-1)

Trong đó:
x, y ∈ R: là tọa độ của điểm ảnh (thông tin về không gian).

t ∈ R: thông tin về thời gian.
Dựa trên công thức 1.1 ta thấy ảnh tĩnh là một trƣờng hợp đặc biệt của
video. Khi đó nó là một chuỗi các hình ảnh không thay đổi theo thời gian.
f x, y, t1 = f x, y, t 2 ;

∀x, y ∈ R

(1-2)

Shot (lia): là một đơn vị cơ sở của video. Một lia là một đơn vị vật lý của
dòng video, gồm chuỗi các khung hình liên tiếp, không thể chia nhỏ hơn.
Scene (cảnh): là các đơn vị logic của dòng video. Cấu trúc phân cấp của
video đƣợc mô tả trong hình vẽ.

Hình 1-1 Cấu trúc phân cấp của video
Khi phim đƣợc chiếu, các khung hình lần lƣợt đƣợc hiển thị ở tốc độ
nhất định. Tốc độ thƣờng thấy ở các định dạng video khác nhau là 30 và 24
hình/s. Nhƣ vậy một giờ video sẽ có số lƣợng khung hình tƣơng ứng là
108000 hoặc 86400. Dù là video ở định dạng nào thì nó cũng có dung
lƣợng rất lớn và nếu xử lý với tất cả các khung hình thì thật không hiệu
quả.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

5

Phân đoạn là quá trình phân tích và chia nội dung hình ảnh video
thành các đơn vị cơ sở gọi là các lia (shots). Việc lấy mẫu chính là chọn
gần đúng một khung hình video đại diện cho mỗi lia (hoặc nhiều hơn tùy

theo mức độ phức tạp của nội dung hình ảnh của lia) và đƣợc gọi là các
khung – khóa [3].
Khung – khóa là khung hình đại diện mô tả nội dung chính của shot.
Quá trình phân đoạn dữ liệu video tiến hành phân tích, phát hiện sự chuyển
đổi từ lia này sang lia khác hay chính là sự phát hiện ranh giới giữa các lia
đó (đó chính là đo sự khác nhau giữa các khung hình liền kề).
1.1.2. Một số thuộc tính đặc trưng
Video có bốn đặc tính chung là: màu (color), kết cấu (texture), hình
dáng (shape), và chuyển động (motion).
Màu (Color):
Màu là một thuộc tính đặc trƣng của ảnh. Biểu đồ ảnh, biễu diễn sự
phân bố màu, là một đặc trƣng màu phổ biến nhất hiện nay. Biểu đồ màu
không phụ thuộc vào sự quay, dịch chuyển ảnh cũng nhƣ chiều nhìn ảnh.
Tuy nhiên với biểu đồ màu không biểu diễn thông tin về không gian phân
bố các điểm ảnh, do đó hai điểm ảnh có cùng biểu đồ màu có thể lại có nộ
dung khác nhau.

Hình 1-2. Khung hình khác nhau nhƣng có cùng biểu đồ màu
Kết cấu (Texture):

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

6

Đây là một đặc trƣng quan trọng của bề mặt, nơi xảy ra việc lặp lại
mẫu cơ bản.
Có hai dạng biểu diễn texture phổ biến: biểu diễn dạng ma trận đồng
thời và biểu diễn Tamura.

Ma trận đồng thời mô tả hƣớng và khoảng cách giữa các điểm ảnh,
nhờ đó các thống kê có ý nghĩa có thể đƣợc trích chọn. Ngƣợc lại, ngƣời ta
thấy rằng entropi và mô men chênh lệch nghịch đảo lại có khả năng phân
biệt tốt nhất. Biểu diễn Tamura đƣợc thúc đẩy nhờ các nghiên cứu về tâm
lý trong việc thu nhận trục giác của con ngƣời và nó bao gồm các đại lƣợng
đo tính thô, độ tƣơng phản, hƣớng, tính trơn, tính cân đối và độ ráp. Các
đặc trƣng Tamura rất hấp dẫn trong việc hiểu nội dung ảnh vì nó biểu đạt
trực quan. Ngoài ra còn có một số các dạng biễu diễn khác nhƣ trƣờng ngẫu
nhiên Markov, biến đổi Gabor, biến đổi gợn sóng, …
 Hình dáng (Shape):
Các đặc trƣng hình dáng có thể đƣợc biểu diễn sử dụng phân tích
hình dáng truyền thống nhƣ bất biến mô men, mô men Fourier, mô hình
học tự động quay lui và các thuộc tính hình học. Các đặc trƣng này có thể
đƣợc phân chia thành đặc trƣng toàn cục và đặc trƣng cục bộ. Đặc trƣng
toàn cục là đặc trƣng thuộc tính thu đƣợc từ toàn bộ hình dáng ảnh, chẳng
hạn nhƣ chu vi, tính tròn, mô men trung tâm, hƣớng trục chính… Đặc trƣng
cục bộ là đặc trƣng thu đƣợc từ việc thao tác với một phần của ảnh, không
phụ thuộc vào toàn bộ ảnh.
 Chuyển động (Motion):
Motion là thuộc tính quan trọng của video. Thông tin về chuyển động có
thể đƣợc sinh ra bằng các kỹ thuật ghép khối với luồng ánh sáng. Các đặc
trƣng chuyển động nhƣ mô men của trƣờng chuyển động, biểu đồ chuyển
động hoặc là các tham số chuyển động toàn cục có thể đƣợc trích chọn từ
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

7

vecto chuyển động. Các đặc trƣng mức cao phản ánh di truyền camera nhƣ

quét camera (pan), nghiêng (tilt), phóng to (zoom out), thu nhủ (zoom in)
cũng có thể đƣợc trích chọn.

1.2 Bài toán theo dõi đối tƣợng
Theo dõi đối tƣợng là việc phát hiện một chuỗi các hành vi của đối
tƣợng chuyển động trong một thời gian từ các khung hình thu đƣợc. Thủ
tục này đƣa ra các thông tin về đối tƣợng đƣợc theo dõi nhƣ đƣờng đi của
đối tƣợng, tốc độ hay hƣớng chuyển động.

Hình 1-3. Theo dõi khách bộ hành
(nguồn: IEEE Computer Vision and Pattern Recognition, 2007).
Mục tiêu của bài toán theo vết đối tƣợng là để “hiểu” đƣợc những
chuyển động của đối tƣợng. “Hiểu” những thông tin về đối tƣợng nhƣ vị trí
trong không gian, vận tốc chuyển động và những đặc trƣng vật lý khác.

Hình 1-4 Hệ thống camera điều khiển xe tự hành SCABOR
(nguồn: Technological University of Cluj Napoca).

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

8

Hầu hết khó khăn của bài toán theo vết đối tƣợng là khả năng biến
động của ảnh video. Khi một đối tƣợng chuyển qua vùng quan sát khác trên
khung hình, hình ảnh về đối tƣợng có thể thay đổi rất nhiều. Sự thay đổi
này đến từ 3 nguồn chính: sự thay đổi tƣ thế đối tƣợng (nhƣ ngƣời đang
đứng chuyển sang tƣ thế ngồi; xe đang đi thẳng quẹo sang trái …) hay sự
biến dạng của đối tƣợng, sự thay đổi về độ sáng, và sự che khuất một phần

hay toàn bộ đối tƣợng (nhƣ khi hai ngƣời hay xe đi ngang qua nhau).
Có nhiều phƣơng pháp tiếp cận bài toán theo dõi đối tƣợng, và có thể
chia ra thành hai hƣớng chính:
 Hƣớng từ trên xuống: Xuất phát từ các quan sát, thực hiện rút trích,
phân vùng các hình ảnh hay các khung hình đầu vào để tìm ra đối tƣợng
cần theo vết.
 Hƣớng từ duới lên: Cách tiếp cận này sử dụng các giả thuyết về đối
tƣợng và kiểm tra giả thiết bằng cách sử dụng các dữ liệu có đƣợc từ hình
ảnh.
Một hệ thống giám sát thông minh bằng hình ảnh là một tập hợp các
bài toán nhỏ. Nhìn một cách tổng quan:
 Đầu vào của hệ thống sẽ là hình ảnh thu đƣợc tại các điểm quan
sát
 Đầu ra của hệ thống sẽ là các thông tin về chuyển động, hành vi,
lớp… của các đối tƣợng đƣợc giám sát.
Việc xử lý của hệ thống giám sát thông minh bằng hình ảnh tóm lại
có thể hiểu là việc phân tích và xử lý hình ảnh video qua việc giải quyết các
bài toán sau:
Bài toán 1: Phát hiện các đối tƣợng chuyển động là bƣớc cơ bản đầu
tiên trong bài toán phân tích hình ảnh video, công việc này khái quát lại đó
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

9

là việc tách các các đối tƣợng chuyển động trong từ các hình ảnh nền của
các đối tƣợng đó. Phƣơng pháp thƣờng đƣợc sử dụng trong bài toán này đó
là: phƣơng pháp trừ ảnh nền, các phƣơng pháp dựa trên thống kê, phƣơng
pháp chênh lệch tạm thời, và các phƣơng pháp dựa trên luồng thị giác[4].

Bài toán 2: Phân lớp đối tƣợng là công việc phân loại ra các lớp đối
tƣợng đã đƣợc tìm ra theo các lớp đã đƣợc định nghĩa trƣớc nhƣ: Lớp
ngƣời, lớp phƣơng tiện, lớp động vật,… Đây là bƣớc cần thiết để có thể
tiếp tục phân tích các hoạt động của chúng. Hiện tại có hai hƣớng chính
tiếp cận để giải quyết bài toán này đó là: Hƣớng tiếp cận dựa trên hình
dáng của các vết và hƣớng tiếp cận dựa trên chuyển động của các đối
tƣợng. Hƣớng tiếp cận dựa trên hình dáng của đối tƣợng hoàn toàn dựa vào
các tính chất 2D của các vết tìm đƣợc, trong khi đó hƣơng tiếp cận dựa trên
chuyển động của đối tƣợng dựa trên các tính chất chuyển động của đối
tƣợng theo thời gian.
Bài toán 3: Theo dõi đối tƣợng đó là công việc đƣa ra một chuỗi các
hành vi của đối tƣợng chuyểng động trong một thời gian từ các khung hình
thu đƣợc. Thủ tục này đƣa ra các thông tin về đối tƣợng đƣợc theo dõi nhƣ
đƣờng đi của đối tƣợng, tốc độ hay hƣớng chuyển động của đối tƣợng. Từ
đó có thể dự đoán đƣợc hành động của các đối tƣợng và mô tả đƣợc hành
động của chúng. Đầu vào của quá trình này đó là các đầu ra các quá trình
tìm và phân lớp đối tƣợng chuyển động.
Các bài toán này không những đƣợc nghiên cứu và áp dụng trong các
hệ thống giám sát mà còn đƣợc áp dụng trong các lĩnh vực khác nhƣ: thực
tại ảo, nén hình ảnh, giao diện ngƣời máy, biên tập video và cơ sở dữ liệu
đa phƣơng tiện, là các hƣớng tiếp cận phát triển công nghệ đa phƣơng tiện
trong tƣơng lai.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

10

1.3 Ứng dụng thực tế - giám sát thông minh
Theo dõi đối tƣợng chuyển động là bài toán đƣợc đặt ra từ rất sớm,

và đã đƣợc ứng dụng một cách hết sức rộng rãi trong cuộc sống cũng nhƣ
trong các công trình nghiên cứu khoa học.
Một trong những ứng dụng quan trọng đó là hệ thống giám sát thông
minh. Ra đời từ những năm 1960 qua quá trình hoàn thiện vào phát triển,
ngày nay hệ thống giám sát thông minh là một trong những hệ thống trợ
giúp đắc lực cho con ngƣời, đƣợc dùng để giám sát giao thông, giám sát an
ninh, sử dụng trong các lĩnh vực quân sự, nghiên cứu không gian…
Tự động phát hiện chuyển động có thể nhắc ngƣời theo dõi khi cần
thiết. Có nhiều ứng dụng trong video giám sát nhƣ truy cập, kiểm soát,
nhận dạng ngƣời, và phát hiện bất thƣờng. Giám sát trực quan thông minh
đề cập đến một quá trình giám sát hình ảnh tự động có liên quan đến phân
tích và giải thích các hành vi đối tƣợng, cũng nhƣ phát hiện và theo dõi đối
tƣợng, để hiểu các sự kiện hình ảnh của hiện trƣờng [11]. Nhiệm vụ chính
bao gồm giải thích cảnh và kiểm soát giám sát diện rộng. Việc giải thích
cảnh phát hiện và theo dõi đối tƣợng chuyển động trong một chuỗi hình
ảnh để hiểu hành vi của họ.
Mô hình khái quát chung cho hệ thống giám sát thông minh:

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

11

PHÁT HIỆN ĐỐI TƢỢNG

PHÂN LỚP ĐỐI TƢỢNG

THEO DÕI ĐỐI TƯỢNG


THÔNG TIN ĐỐI TƢỢNG
CHUYỂN ĐỘNG

Hình 1-5 Mô hình hệ thống giám sát
Trên đây là mô hình tuần tự các bƣớc giải quyết trong một bài toán
giám sát bằng hình ảnh. hệ thống giám sát khi thu nhận đƣợc các hình ảnh
video thu đƣợc từ các địa điểm đƣợc giám sát có ba phần:.
Đầu vào của bài toán là các khung hình video thu đƣợc. Qua quá
trình xử lý phát hiện đối tƣợng chuyển động (Object Detection ) sẽ đƣa ra
các đối tƣợng chuyển động trong các khung hình video. Các đối tƣợng
đƣợc phát hiện (cụ thể là các vết chuyển động) sẽ qua quá trình phân lớp
đối tƣợng (Object Classification ) để phân lớp các đối tƣợng đó thuộc lớp
nào, sự vật nào. Và cuối cùng là quá trình xử lý để theo dõi đối tƣợng
(Object Tracking) đó là việc tìm ra đƣờng chuyển động của đối tƣợng, dự
đoán chuyển động, và việc xử lý các nhập nhằng trong chuyển động của
nhiều đối tƣợng khác nhau trong một đoạn video.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

12

Từ các khung hình thu đƣợc ở các nơi quan sát, qua khối xử lý phát
hiện đối tƣợng chuyển động sẽ xác định đƣợc đâu là đối tƣợng chuyển
động. Cụ thể hơn, có thể chỉ ra đƣợc các đối tƣợng chuyển động trong đoạn
video thu đƣợc một cách trực quan. Đầu ra của quá trình này sẽ là các vết,
hình dạng của đối tƣợng chuyển động để làm đầu vào của khối phân loại
đối tƣợng chuyển động.
Khối xử lý phát hiện đối tƣợng chuyển động có thể coi là khối xử lý
đâu tiên trong hệ thống giám sát thông minh bằng hình ảnh. Vì hiệu quả,

tính chính xác của khối xử lý này sẽ ảnh hƣởng đến đầu vào và đầu ra của
các khối xử lý tiếp theo. Chính vì thế nó ảnh hƣởng lớn đến hiệu quả và
tính tin cậy của toàn hệ thống giám sát thông minh.
Phân loại đối tƣợng là khâu trung gian và đóng vai trò quan trọng
trong toàn hệ thống, vì đây là đầu vào của khối theo vết đối tƣợng và cũng
là đầu ra của toàn bộ hệ thống. Bởi vậy đây cũng là một phần không thể
thiếu trong toàn bộ hệ thống.
Khối xử lý theo vết đối tƣợng là khối xử lý không thể thiếu trong hệ
thống giám sát thông minh vì hiệu quả của khối xử lý này ảnh hƣởng trực
tiếp đến đầu ra của toàn bộ hệ thống. Do đó giải quyết tốt vấn đề theo vết
đối tƣợng sẽ đƣa lại tính chính xác và độ tin cậy cho hệ thống giám sát.
Vấn đề này đã đƣợc nghiên cứu và phát triển trong nhiều năm, song
hƣớng phát triển hoàn thiện các khối xử lý phát hiện, phân loại và theo dõi
đối tƣợng chuyển động vẫn đang đƣợc quan tâm. Các hƣớng tiếp cận mới
nhằm phát hiện, phân loại và theo dõi các đối tƣợng một cách hiệu quả, tính
chính xác cao nhất với điều kiện môi trƣờng, hoàn cảnh giám sát khác
nhau. Chính vì vậy khóa luận tốt nghiệp này sẽ trình bày các nghiên cứu và
thực nghiệm về bài toán phát hiện, phân loại, theo dõi đối tƣợng chuyển
động trong hệ thống theo dõi, giám sát thông minh bằng hình ảnh nhằm mô
hình hóa và giải quyết trọn vẹn bài toán phát hiện, phân loại, theo dõi đối
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

13

tƣợng chuyển động tiến tới hoàn thiện môt hệ thống giám sát thông minh
bằng hình ảnh với hiệu quả tính chính xác cao nhất.

Hình 1-6: Hệ thống camera giám sát giao thông.


Hình 1-7 Hệ thống camera giám sát an ninh.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

14

Ngoài ra hệ thống theo dõi đối tƣợng còn đƣợc ứng dụng rộng rãi
trong công nghệ máy ảnh kĩ thuật số với các chức năng tự động lấy nét,
nhận diện khuôn mặt, nhận diện nụ cƣời…

Hình 1-8: Công nghệ nhận diện khuôn mặt.

1.4 Thành phần của thuật toán
Thuật toán theo dõi đối tƣợng thực chất là tìm một vùng ảnh di
chuyển từ khung hình này sang khung hình khác nên mỗi nhóm đối tƣợng
sẽ có các đặc điểm riêng. Trong luận văn này, bài toán theo dõi đối tƣợng
đƣợc tìm hiểu theo hƣớng tiếp cận từ dƣới lên và có các bƣớc chính nhƣ
sau:
 Xây dựng một “mô hình tham chiếu” (reference model) để mô tả đối
tƣợng cầ n theo vết.
 Sau đó trên mỗi khung hình đầu vào, dựa trên các hàm thực thi so
sánh và thuật toán tìm vùng nào mà gần giống với “mô hình tham chiếu”
nhất.
Mô hình tham chiếu (Reference model) là mô hình mô tả các thông tin
về “vẻ bề ngoài” của đối tƣợng cần theo vết . Có nhiều cách xây dƣ̣ng mô
hình tham chiếu cho đối tƣợng nhƣ các mức xám , mô hình đƣờng viền , và
Số hóa bởi Trung tâm Học liệu - ĐHTN


/>

15

cách thƣờng dùng nhất trong các ứng dụng t heo vết đối tƣợng là dùng mô
hình màu (color model), tuy nhiên có một số vấ n đề đặt ra:
 Nên dùng hệ màu nào ? RGB hay HSV , ... Lƣu ý rằ ng khi chúng ta
dùng mô hình màu để làm mô hình tham chiếu có nghĩa là đã thêm một giả
sƣ̉ là chúng t a chỉ theo vết các đối tƣợng trên

mô hình màu đã chọn chƣ́

không phải là mô hình màu khác. Ngoài ra , cũng cần chọn kĩ hệ màu vì
màu rấ t nhạy cảm với độ sáng, khung cảnh.
 Chọn mô hin
̀ h phân bố (distribution)? Có nhiều cách để tạo mô hình
phân bố nhƣ Gaussian , hoă ̣c Mixture Gaussian , hoă ̣c chỉ đơn giản nhƣ
histogram.
 Hàm thực thi sự so sánh (similarity measure).
Để so sánh giƣ̃a mô hình

ứng viên (candidate model ) và mô hình

tham chiếu (reference model) trong mỗi khung hình đầu vào (input frame),
ta cầ n phải có mô ̣t hàm tính toán độ giố ng nhau (similarity measure). Hàm
này có nhiệm vụ tính toán mức độ tƣơng đồng/giống nhau giữa hai đối
tƣợng trên, từ đó xác định đƣợc trạng thái của đối tƣợng cần theo vết. Ví
dụ, hàm SSD (Sum of Squared Differences) đƣơ ̣c dùng trong trƣờng hơ ̣p
thỏa điều kiện độ sáng không đổi nghĩa là giá trị ánh sáng của các điểm ảnh
không thay đổi từ khung hình này sang khung hình khác; hàm SAD (Sum

of Absolute Differences).
Hiện nay còn nhiều vấn đề phức tạp cần xử lý trong bài toán theo dõi
đối tƣợng. Do đó, đã có nhiều kĩ thuật đƣợc phát triển để giải quyết các vấn
đề của bài toán, đƣợc phân loại thành các nhóm kĩ thuật sau:

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

16

1.4.1. Theo dõi điểm
Theo dõi điểm là phƣơng pháp theo dõi mạnh, đáng tin cậy và chính
xác đƣợc phát triển bởi Veenman và cộng sự [9]. Phƣơng pháp này thƣờng
đƣợc sử dụng để theo dõi các phƣơng tiện đi lại. Phƣơng pháp này đòi hỏi
khả năng phát hiện đối tƣợng ở mức cao. Phƣơng pháp này dùng các
phƣơng pháp xác định hoặc xác suất [10]. Đối tƣợng đƣợc theo dõi dựa
trên điểm đƣợc biểu diễn trong khung hình liên tiếp và nhóm của các điểm
dựa trên trạng thái đối tƣợng trƣớc đó có thể bao gồm vị trí đối tƣợng và
chuyển động. Phƣơng pháp này đòi hỏi phải có một cơ chế bên ngoài để
phát hiện các đối tƣợng trong mỗi khung..

Hình 1-9: Theo dõi điểm.
Theo dõi có thể đƣợc xây dựng nhƣ sự tƣơng ứng của các đối tƣợng
đƣợc đại diện bởi các điểm trên khung hình. Điểm tƣơng ứng là một vấn đề
phức tạp, đặc biệt trong sự xuất hiện ăn khớp, phát hiện các điểm đó giữa
các khung hình. Nhìn chung phƣơng pháp xác định điểm tƣơng ứng có thể
đƣợc chia thành hai loại cụ thể là: phƣơng pháp xác định và thống kê.
Số hóa bởi Trung tâm Học liệu - ĐHTN


/>

17

1.4.2. Theo dõi hạt nhân
Theo dõi hình dạng thƣờng đƣợc thực hiện bằng cách tính toán
chuyển động của đối tƣợng đƣợc đại diện bởi một đối tƣợng cơ bản trong
mỗi khung hình. Chuyển động đối tƣợng trong mỗi khung hình thƣờng
dƣới hình thức của tham số xác định. Các thuật toán đƣợc sử dụng để ƣớc
tính chuyển động đối tƣợng. Chúng tôi phân chia các phƣơng pháp theo dõi
vào hai thể loại dựa trên các đại diện của chúng cụ thể là: Tạo các mẫu và
các mô hình xuất hiện dựa trên mật độ hoặc theo dõi nhiều mô hình xuất
hiện.

Hình 1-10: Theo dõi theo hình dạng.
Trong phƣơng pháp theo dõi này đòi hỏi hình dạng và sự xuất hiện
của đối tƣợng [9]. Trong phƣơng pháp này bất kỳ đặc điểm nào của đối
tƣợng đƣợc sử dụng để theo dõi các đối tƣợng làm hạt nhân nhƣ mẫu hình
chữ nhật hoặc hình dạng elip với một biểu đồ liên quan. Sau đó tính toán
chuyển động giữa các đối tƣợng khung hình liên tiếp có thể đƣợc theo dõi.
Trong [4], theo dõi chuyển đổi trung bình đƣợc dựa trên phƣơng pháp theo
dõi hạt nhân đƣợc sử dụng. Trong phƣơng pháp này hình dạng E đƣợc sử

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

18

dụng. Đó là biểu diễn cho đặc điểm biểu đồ dựa trên bằng mặt nạ không

gian với một hạt nhân đẳng hƣớng.
1.4.3. Theo dõi bóng
Đối tƣợng có thể có hình dạng phức tạp, ví dụ, bàn tay, đầu và vai
có thể không đƣợc mô tả cũng bởi hình dạng hình học đơn giản. Phƣơng
pháp theo dõi bóng dựa trên một mô tả hình dạng chính xác cho các đối
tƣợng này.

Hình 1-11: Theo dõi bóng và theo dõi điểm.
Trong phƣơng pháp này Silhouette (bóng) đƣợc chiết xuất từ đối
tƣợng phát hiện. Nhờ vào so sánh hình dạng hoặc sự phát triển đƣờng viền
bóng đƣợc theo dõi hoặc bằng cách tính toán vùng đối tƣợng trong khung
theo dõi liên tục đƣợc thực hiện. Phƣơng pháp theo dõi bóng sử dụng các
thông tin đƣợc lƣu trữ bên trong vùng đối tƣợng [6]. Thông tin này của
vùng có thể là mật độ xuất hiện và các mô hình hình dạng. Trong theo dõi
các đối tƣợng dựa trên các đặc điểm, đòi hỏi lựa chọn các đặc điểm phù
hợp, đóng vai trò quan trọng trong việc theo dõi. Nhìn chung, các đặc điểm
sử dụng để theo dõi phải là duy nhất để các đối tƣợng có thể dễ dàng phân
biệt trong không gian đặc trƣng. Các đặc điểm khác nhau sau đây đƣợc sử
dụng để theo dõi đối tƣợng:
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

19

Màu sắc: Màu sắc rõ ràng của một đối tƣợng bị ảnh hƣởng chủ yếu
bởi hai yếu tố vật lý, đầu tiên là sự phân bố hàm đánh giá đối tƣợng quang
phổ của nguồn sáng và thứ hai là tính chất phản xạ bề mặt của đối tƣợng
[12]. Trong xử lý hình ảnh, RGB (đỏ, xanh lục, xanh) không gian màu
thƣờng đƣợc sử dụng để biểu diễn cho màu sắc.

Cạnh: ranh giới đối tƣợng thƣờng tạo ra những thay đổi mạnh trong
mật độ hình ảnh [18]. Phát hiện cạnh đƣợc sử dụng để xác định những thay
đổi này. Một tính chất quan trọng của các cạnh là chúng ít nhạy cảm với sự
thay đổi ánh sáng so với các đặc điểm màu sắc.
Trọng tâm: Trung tâm của khối lƣợng (trọng tâm) là vector các chiều
1 x n theo chiều dài chỉ định điểm trung tâm của một vùng. Đối với mỗi
điểm cần lƣu ý là yếu tố đầu tiên của trọng tâm là hoành độ (hoặc toạ độ x)
của trung tâm của vật thể, và yếu tố thứ hai là tung độ (hoặc toạ độ y) [16].
Kết cấu: kết cấu đƣợc sử dụng cho mục đích phân loại cũng nhƣ theo
dõi. Đặc điểm này đƣợc sử dụng để xác định vùng hoặc đối tƣợng mà ta
quan tâm. Đó là là một phép đo sự thay đổi mật độ của một bề mặt mà các
thuộc tính định lƣợng nhƣ độ mịn và đều đặn [20]. So với màu sắc, kết cấu
đòi hỏi một bƣớc xử lý để tạo ra các mô tả.
Trong số tất cả các đặc điểm màu, các đặc điểm sắc và kết cấu đƣợc
sử dụng rộng rãi để theo dõi các đối tƣợng. Dải màu rất nhạy cảm với sự
thay đổi ánh sáng.
Mục tiêu của theo dõi bóng là để tìm thấy những khu vực đối tƣợng
trong mỗi khung hình bằng cách sử dụng một mô hình đối tƣợng đƣợc tạo
ra bằng cách sử dụng các khung hình trƣớc. Mô hình này có thể có hình
thức của một biểu đồ màu, hình dạng đối tƣợng hoặc đƣờng biên. Theo dõi

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

20

bóng đƣợc chia thành hai loại cụ thể là: Theo dõi hình dạng phù hợp và
theo dõi đƣờng biên.


Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

×