Tải bản đầy đủ (.pdf) (77 trang)

Nghiên cứu và phát triển giải thuật phát hiện và theo vết người trên một mạng camera

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.56 MB, 77 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

PHẠM ANH TUẤN

NGHIÊN CỨU VÀ PHÁT TRIỂN GIẢI THUẬT PHÁT HIỆN
VÀ THEO VẾT NGƯỜI TRÊN MỘT MẠNG CAMERA

Chuyên ngành Công nghệ thông tin

LUẬN VĂN THẠC SĨ KỸ THUẬT
CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. VŨ HẢI

Hà Nội - Năm 2015


LỜI CẢM ƠN
Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, Tiến sĩ Vũ
Hải đã tận tình hướng dẫn em trong suốt quá trình thực hiện luận văn cao học. Em
xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô, các anh chị công tác tại viện nghiên
cứu quốc tế MICA, đặc biệt là tại phòng Thị giác máy tính, đã luôn tạo điều kiện tốt
nhất cho em học tập và công tác, giúp đỡ cho em cả về tri thức và kinh nghiệm
sống, là hành trang giúp em vững bước trong tương lai. Em cũng xin chân thành
cảm ơn chị Phạm Thị Thanh Thủy, NCS tại phòng Thị giác máy tính, Viện MICA,
đã cho phép em sử dụng bộ dữ liệu chuẩn về định vị và định danh người trong môi
trường cảm thụ.
Em cũng muốn gửi lời cảm ơn đến tất cả các thầy cô đã dạy dỗ em các môn


học trong học phần cao học, tất cả đều là những bài học bổ ích về chuyên môn cung
cấp cho em những gợi mở quan trọng trong suốt quá trình nghiên cứu.
Em xin cảm ơn đơn vị nơi công tác đã tạo điều kiện thuận lợi cho em hoàn
thành luận văn này.
Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến tất cả gia đình, bạn bè, những
người luôn kịp thời động viên và giúp đỡ em vượt qua những khó khăn, đạt được
những mục tiêu đề ra trong quá trình hoàn thành luận văn.
HỌC VIÊN

Phạm Anh Tuấn

1


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn được hoàn thành trên cơ sở nghiên cứu, tổng hợp
các kiến thức và các công việc của tôi tại Viện nghiên cứu quốc tế MICA, Đại học
Bách Khoa Hà Nội, thông qua các bài giảng của thầy hướng dẫn và qua các tài liệu
tham khảo đã được trích dẫn đầy đủ.
Luận văn này là mới, các đóng góp trong luận văn do bản thân tôi thực hiện,
nghiên cứu, đúc rút, các thí nghiệm và các số liệu là có thực và được thực hiện tại
Phòng Thị giác máy tính, Viện MICA, Đại học Bách Khoa Hà Nội.
Tôi xin cam đoan các đóng góp này không sao chép nguyên bản từ bất kỳ một
nguồn tài liệu nào.
HỌC VIÊN

Phạm Anh Tuấn

2



MỤC LỤC
LỜI CẢM ƠN .............................................................................................................1
LỜI CAM ĐOAN .......................................................................................................2
MỤC LỤC ...................................................................................................................3
DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT .................................................5
DANH MỤC CÁC HÌNH VẼ.....................................................................................6
MỞ ĐẦU .....................................................................................................................9
1.1. Bối cảnh và lí do chọn đề tài .........................................................................9
1.1. Nhiệm vụ đặt ra............................................................................................10
1.2. Những đóng góp chính của luận văn..........................................................10
1.3. Bố cục luận văn ............................................................................................10
Chương 1 . TÌM HIỂU CÁC BÀI TOÁN LIÊN QUAN VỀ PHÁT HIỆN VÀ
THEO VẾT NGƯỜI TRONG MỘT MẠNG CAMERA ................................12
1.1. Phát hiện và theo vết người trên một camera ...........................................12
1.1.1. Các nghiên cứu liên quan về bài toán phát hiện người ..........................12
1.1.2. Các nghiên cứu liên quan về theo vết đối tượng ....................................14
1.2. Phát hiện và theo vết người trong mạng camera ......................................19
1.2.1. Phối ghép nhiều camera (Multiple Camera Calibration) .......................20
1.2.2. Theo dõi người trong một mạng camera ................................................21
1.2.3. Định danh lại người trong một mạng camera .........................................24
1.3. Giới hạn bài toán nghiên cứu của luận văn ...............................................29
Chương 2 . PHƯƠNG PHÁP PHÁT HIỆN NGƯỜI TRÊN MỘT CAMERA .......31
2.1. Phương pháp phát hiện người sử dụng các kỹ thuật trừ nền ..................33
2.1.1. Lọc trung bình (Running Average) ........................................................33
2.1.2. Lọc trung vị (Running Median)..............................................................35
2.1.3. Lọc trung bình Gaussian.........................................................................36
2.1.4. Mô hình Gauss hỗn hợp .........................................................................37
2.1.5. Mô hình hỗn hợp Gaussian thích nghi ...................................................40
2.2. Phát hiện và khử bóng .................................................................................43

2.2.1. Khử bóng sử dụng ngưỡng tỷ lệ chiều cao và chiều rộng của đối tượng
.............................................................................................................44
2.2.2. Khử bóng sử dụng đặc trưng ảnh ...........................................................45
2.3. Phát hiện và theo vết đối tượng ..................................................................49
2.3.1. Phát hiện đối tượng người sử dụng HOG - SVM...................................49
2.3.2. Theo vết đối tượng .................................................................................54
Chương 3 . PHƯƠNG PHÁP PHỐI GHÉP HÀNH TRÌNH TRÊN MỘT MẠNG
CAMERA .........................................................................................................56
3.1. Camera calibration ......................................................................................56
3.1.1. Camera Model ........................................................................................57
3.1.2. Hình học ánh xạ ......................................................................................58
3.1.3. Biến dạng thấu kính (Lens Distortions) .................................................59
3


3.2. Phương pháp phối ghép nhiều Camera .....................................................61
3.2.1. Chuẩn bị dữ liệu cho Calibration (Thu thập hình ảnh sàn nhà) .............62
3.2.2. Phép chiếu bird-eye view .......................................................................63
3.3. Phương pháp kết nối hành trình từ nhiều camera ...................................65
Chương 4 . KẾT QUẢ THỬ NGHIỆM ....................................................................67
4.1. Mô tả môi trường thử nghiệm ....................................................................67
4.2. Đánh giá hiệu quả của khử bóng đối với kết quả của kỹ thuật trừ nền .68
4.3. Đánh giá hiệu quả việc kết hợp bộ phát hiện HOG+SVM sau khi trừ nền
..........................................................................................................................69
4.4. Kết quả hành trình người di chuyển quan sát từ một mạng camera sử
dụng bộ dữ liệu Ground-truth ......................................................................71
4.5. Kết quả vẽ hành trình từ mạng camera trong thực tế .............................72
KẾT LUẬN ...............................................................................................................73
TÀI LIỆU THAM KHẢO .........................................................................................75


4


DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT
Ký hiệu /
Từ viết tắt

CỤM TỪ ĐẦY ĐỦ

DỊCH NGHĨA

BGS

Background Subtraction

Kỹ thuật trừ nền

FG

Foreground

Ảnh có đối tượng

HOG

Histogram of Oriented Gradients Biểu đồ các biến đổi trên các hướng

PCA

Principal component analysis


Phân tích thành phần chính

SDK

Software Development Kit

Bộ công cụ phát triển phần mềm

SVM

Support Vector Machine

Bộ phân lớp máy hỗ trợ vectơ

Calib

Calibration

Kỹ thuật căn chỉnh camera

MOG

Mixture of Gaussians

Gauss hỗn hợp

5



DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Minh họa bài toán phát hiện người trong ảnh .....................................12
Hình 1.2. Sơ đồ khối của hướng tiếp cận 1 .........................................................13
Hình 1.3. Sơ đồ khối của hướng tiếp cận 2. ........................................................14
Hình 1.4. Bài toán nhận dạng xe trong các ảnh. ..................................................14
Hình 1.5. Minh hoạ kết quả bài toán theo vết người ...........................................15
Hình 1.6. Hai pha chu trình ước lượng: dự báo dựa trên thông tin tiên nghiệm và
hiệu chỉnh theo thông tín đo lường mới [4] ...................................................19
Hình 1.7. Một số kỹ thuật được nghiên cứu đối với bài toán giám sát sử dụng
mạng camera ..................................................................................................19
Hình 1.8. Tìm bộ tham số ngoài (ma trận R|t) giữa camera và hệ tọa độ thế giới
thực .................................................................................................................20
Hình 1.9. Đối tượng được xác định lên trên nhiều khung hình camera ..............27
Hình 1.10. Các bước chính của bài toán phát hiện và theo dõi đối tượng người 30
Hình 2.1. Sơ đồ phương pháp đề xuất phát hiện và theo vết người trên một
camera ............................................................................................................31
Hình 2.2. Sơ đồ thiết lập môi trường mạng camera sử dụng trong nghiên cứu
của luận văn ....................................................................................................32
Hình 2.3. Một số hình ảnh thu thập từ Cam1 (hàng trên) và Cam 2 (hàng dưới)
được sử dụng trong các mình họa trong các nội dung tiếp theo ....................32
Hình 2.4. Kết quả khi thực hiện thuật toán Running Average. trên Cam1 (a) và
Cam2 (b) .........................................................................................................35
Hình 2.5. Kết quả khi thực hiện Running Median trên Cam1 (a) và Cam2 (b) ..36
Hình 2.6. Kết quả khi sử dụng trung bình Gaussian trên Cam1 (a) và Cam2 (b)
........................................................................................................................37
Hình 2.7. Kết quả trừ nền sử dụng mô hình hỗn hợp Gaussian trên Cam1 (a) và
Cam2 (b) .........................................................................................................40
Hình 2.8. Kết quả trừ nền sử dụng mô hình hỗn hợp Gaussian thích nghi. (a) Kết
quả trừ nền thu được trên Cam#1. (b) Kết quả trừ nền thu được trên Cam#2
........................................................................................................................42

Hình 2.9. (a) Box màu đỏ đánh dấu vùng người phát hiện dựa trên blob của ảnh
đã trừ nền; Box màu vàng đánh dấu vùng người đúng (ground-truth). (b) Ảnh
kết quả trừ nền. ...............................................................................................43
Hình 2.10. Đối tượng được phát hiện bao gồm cả bóng .....................................44
Hình 2.11. Kết quả phát hiện đối tượng với bóng đã được tách. ........................45
Hình 2.12. Chuẩn bị dữ liệu xác định shadow cho quá hình học P (S | shadow)
và P(H | shadow) ..........................................................................................47
Hình 2.13. Quan sát giá trị S và H tại các shadow pixel. ..............................47
Hình 2.14. Phân bố của P(S | shadow) và P(H | shadow) đối với vùng có bóng
trong môi trường quan sát ..............................................................................48
6


Hình 2.15. Minh họa kết quả khử bóng. Hàng 1: các hình ảnh gốc, các frame thu
cách nhau 2s. Hàng 2: kết quả trừ nền chưa khử bóng; Hàng 3: kết quả phát
hiện các pixel bóng . Các pixel bóng được vẽ trên kết quả trừ nền với màu
xám .................................................................................................................48
Hình 2.16. Thứ tự các Histogram với các góc khác nhau (từ 00 đến 1800). ........49
Hình 2.17. HOG đối với số bins lần lượt bằng 4 bins; 8 bins; và 16 bins. ..........50
Hình 2.18. Hai loại hình học block chính. ...........................................................50
Hình 2.19. Bộ phân loại SVM đơn giản với số chiều vector đặc trưng bằng 2. .51
Hình 2.20. Kết quả phát hiện người sử dụng HOG và SVM với Threshold=1.0 52
Hình 2.21. Kết quả sau khi quét cửa sổ HOG trên toàn bộ ảnh ..........................53
Hình 2.22. Kết quả sau khi quét cửa sổ HOG trên vùng mở rộng. .....................53
Hình 3.1. Quá trình tìm bộ tham số trong và hiệu chỉnh (sửa méo) đối với ảnh
thu nhận từ một camera ..................................................................................56
Hình 3.2. Pinhole camera model .........................................................................57
Hình 3.3. Một mô hình tương đương của Pinhole camera ..................................58
Hình 3.4. Hình ảnh minh họa radial distortions ..................................................60
Hình 3.5. Méo Tangential ....................................................................................61

Hình 3.6. Hình ảnh chưa sửa méo và đã được sửa méo ......................................61
Hình 3.7. Phương pháp phối ghép nhiều Camera ................................................62
Hình 3.8. Hình ảnh thu được từ 2 Camera với cùng gốc tọa độ trong thế giới
thực (điểm được đánh dấu màu vàng trên mặt sàn) .......................................62
Hình 3.9. Quá trình thu thập ảnh và kết quả phát hiện các góc của chessboard tại
Cam1 được sử dụng cho Calibration. Hàng trên: Ảnh gốc thu thập từ Cam1.
Ảnh dưới: Vị trí các điểm trên chessboard được phát hiện. Nhờ cấu hình biết
trước của chessboard, các điểm tương ứng giữa các góc nhìn (1-2-3) được
thiết lập ...........................................................................................................63
Hình 3.10. Xác định tọa độ 4 điểm trong ảnh thu được từ camera #1 và camera
#2 ....................................................................................................................63
Hình 3.11 Hình chiếu Bird-eye-view từ ảnh quan sát của các camera Cam1 và
Cam2 như minh họa trong Hình 3.10.............................................................64
Hình 3.12. Kết quả biến đổi ngược của ma trận H, phát hiện các điểm giao nhau
giữa các viên gạch ..........................................................................................64
Hình 3.13. Kết quả khớp giữa các điểm giao nhau giữa các hàng gạch trên ảnh
thu thập từ 2 camera .......................................................................................64
Hình 3.14. Kết quả phối ghép giữa hai camera dựa trên các điểm khớp tìm được
........................................................................................................................65
Hình 3.15. người phát hiện được khoanh bao bằng 1 hình chữ nhật. Tọa độ thấp
nhất được đánh dấu ghi như trên ảnh .............................................................65
Hình 3.16- Kết quả vẽ hành trình (đường đỏ) của một người di chuyển trong môi
trường. Hành trình bắt đầu ở frame #250 và kết thúc ở frame#1098. Một số
điểm trung gian như frame #298 chỉ quan sát từ 1 camera và #907quan sát
được từ cả hai camera. Các frame thu được từ các camera tại tương ứng mỗi
vị trí được hiển thị dưới mỗi khung hình .......................................................66
7


Hình 4.1. Môi trường thử nghiệm........................................................................67

Hình 4.2. Các hình ảnh thu thập và chuẩn bị dữ liệu ground-truth cho thử
nghiệm hệ thống. Theo hàng dọc: hình ảnh thu thập từ các camera Cam1,
Cam2, và Cam3. Theo hàng ngang: các thử nghiệm khác nhau gồm: 1 người
đi; 2 người đi; 5 người đi. Hiện tượng che khuất thấy rõ đối với trường hợp 5
người đi lại. ....................................................................................................68
Hình 4.3. Hiệu quả của khử bóng đối với kết quả trừ nền ..................................69
Hình 4.4. Kết quả vẽ hành trình khi có khử bóng và không khử bóng. (a). Giá trị
lỗi Error tại mỗi frame. (b) Vẽ hành trình có và không có khử bóng sát với dữ
liệu ground-truth.............................................................................................69
Hình 4.5. Hiệu quả của quá trình kềt hợp HOG+SVM và kết quả trừ nền .........70
Hình 4.6. Kết quả kết hợp trừ nền và bộ phát hiện HOG + SVM. Hàng 1: Chuỗi
các frame gốc, các frame cách nhau 25-30 frames. Hàng 2: Kết quả sử dụng
kỹ thuật trừ nền; Hàng 3: Kết quả áp dụng bộ phát hiện HOG + SVM . Nhiều
vùng false postive xuất hiện. Hàng 4: Kết quả sau khi kết hợp (đóng khung
màu đỏ). Vùng đóng khung màu vàng là dữ liệu Ground-truth. ....................70
Hình 4.7. Hành trình tổng hợp từ các camera giám sát với các thử nghiệm gồm 2
và 5 người đi lại trong môi trường. Hảnh trình tổng hợp từ 2 camera Cam1
và Cam2. Hành trình của mỗi người được vẽ theo màu khác nhau. ..............71
Hình 4.8. Hành trình được quan sát thường ngày thu từ Cam 1 sử dụng hệ thống
đề xuất. Các frame cách nhau 2s. Trong mỗi khung hình: Góc trên: là ảnh thu
từ camera. Góc trên bên phải: là kết quả ảnh trừ nền; Góc dưới bên phải: là
ảnh sau khi khử bóng; Ảnh này sử dụng kết hợp HOG+SVM vẽ được vùng
bao màu đỏ trên ảnh gốc. Hành trình theo trục thời gian được vẽ ở góc dưới
bên trái (màu xanh) ........................................................................................72
Hình 4.9. Kết quả minh họa đối với Cam2. Các giải thích tương tự với Hình 4.8
........................................................................................................................72

8



MỞ ĐẦU
1.1. Bối cảnh và lí do chọn đề tài
Bài toán phát hiện và theo vết người sử dụng một mạng camera hình ảnh có
nhiều ứng dụng trong giám sát đối với cả môi trường công cộng và môi trường có
yêu cầu về an ninh. Một số ứng dụng có thể kể như: tự động theo dõi và giám sát
trong và ngoài tòa nhà, sân bay, bến cảng, bãi đỗ xe, kho bãi; Trong y tế hoặc hỗ trợ
người tàn tật: giám sát bệnh nhân, giám sát các tai nạn bất ngờ, theo dõi người già,
trẻ em trong nhà. Để xây dựng các ứng dụng này, các lĩnh vực nghiên cứu liên quan
đến bài toán phát hiện và theo vết người sử dụng trên một camera đã nhận được
nhiều sự quan tâm của các nhà nghiên cứu trong lĩnh vực thị giác máy tính, học
máy, tự động hóa. Hai hướng nghiên cứu chính đó là: bài toán phát hiện cho phép
xác định sự tồn tại của người trong khung hình thu nhận được ở trong camera, trong
khi đó bài toán theo vết cho phép kết nối các vùng phát hiện được của cùng một đối
tượng ở các khung hình khác nhau, hoặc giữa các camera khác nhau khi điều kiện
về môi trường thay đổi (như che khuất, thay đổi tỉ lệ ….).
Bài toán phát hiện và theo vết đối tượng nói chung và đối tượng người nói
riêng trên một mạng camera mạng camera ngoài phải giải quyết hai nội dung
nghiên cứu trên, còn cần phải có các nội dung nghiên cứu khác như: phối ghép các
góc nhìn từ nhiều camera; theo vết và định danh hoặc so khớp người dựa trên các
đặc trưng ảnh từ các góc nhìn của camera khác nhau. Việc kết hợp thông tin từ
nhiều camera trong mạng sẽ giúp việc mở rộng môi trường cần giám sát cũng như
để nâng cao độ chính xác của hệ thống. Xuất phát từ những cơ sở khoa học trên, đề
tài tập trung vào việc xây dựng và phát triển giải thuật phát hiện và theo vết người
trong một mạng camera. Trong đó phương pháp đề xuất sẽ có thể phát hiện nhanh
chóng, chính xác đối tượng người sử dụng kết hợp luồng dữ liệu hình ảnh thu thập
kết hợp từ nhiều camera.
Nội dung luận văn là một phần trong đề tài cấp bộ: “Nghiên cứu và phát triển
hệ thống tìm đường tối ưu dựa trên thông tin định vị bằng hình ảnh, RFID và
wifi, ứng dụng trợ giúp định hướng người khiếm thị trong môi trường ít ràng
buộc” đang được Viện MICA thực hiện.


9


1.1. Nhiệm vụ đặt ra
Mục đích của đề tài nhằm nghiên cứu thuật toán phát hiện và theo vết người
đang chuyển động trên một mạng camera, từ đó xây dựng chương trình hỗ trợ với
các chức năng sau:
- Phát hiện người và theo vết người trên một mạng camera.
- Cung cấp thông tin về sự di chuyển của người trong môi trường giám sát.
- Bên cạnh đó đề tài còn mong muốn có một cái nhìn toàn diện hơn về vai trò
và khả năng ứng dụng của công nghệ xử lý ảnh vào trong thực tế đời sống xã hội.
Để hoàn thành mục tiêu trên, luận văn tập trung thực hiện các nhiệm vụ sau:
- Tìm hiểu và đánh giá các giải thuật phát hiện và theo vết người.
- Xây dựng kỹ thuật phối ghép (calibration) các camera trong mạng.
- Cài đặt và đánh giá hiệu quả của các giải thuật đã đưa ra.
1.2. Những đóng góp chính của luận văn
Đề tài tập trung nghiên cứu các kỹ thuật phù hợp của thị giác máy tính để thực
hiện phát hiện và theo bám, phối ghép thông qua mạng cảm biến camera. Hệ thống
đưa ra trong đề tài có thể làm việc trong môi trường hành lang tòa nhà, văn phòng,
thư viện. Cụ thể, những đóng góp của tác giả như sau:
-

Kết hợp hiệu quả các kỹ thuật trừ nền, khử bóng và phát hiện người sử
dụng bộ phát hiện người HOG (Histogram of Gradient). Đối với kỹ thuật
trừ nền, phương pháp khử bóng sử dụng bộ phân lớp Bayesian đã được
nghiên cứu.

-


Xây dựng kỹ thuật phối ghép luồng di chuyển của người giữa hai (nhiều)
camera thông qua sử dụng hệ tọa độ định nghĩa trên mặt sàn. Phương pháp
đặc biệt thích hợp với môi trường trong tòa nhà nơi có cấu trúc sàn được
quan sát rõ ràng chi tiết. Kỹ thuật ghép nối giữa các camera đảm bảo thống
nhất và chính xác khi ghép nối các luồng di chuyển giữa các camera.

-

Hệ thống xây dựng đã được đánh giá và kiểm tra thử nghiệm đối với hoạt
động người di chuyển tại môi trường thực là tầng 8 tòa nhà B1, Viện
MICA, ĐHBK Hà Nội.

1.3. Bố cục luận văn
Nội dung chính của luận văn được chia thành 6 phần như sau:

10


Mở đầu: Phần mở đầu này trình bày bối cảnh, lý do, mục tiêu nghiên cứu,
những đóng góp chính và bố cục của luận văn. Nội dung các chương tiếp theo cụ
thể như sau:
Chương 1. Tìm hiểu các bài toán liên quan về phát hiện và theo vết người
trong một mạng camera: Chương này trình bày những tìm hiểu các hướng nghiên
cứu cơ bản trong nước và quốc tế về bài toán phát hiện và theo vết người trong một
mạng camera. Đặc biệt luận văn đề cập đến các kỹ thuật chính cần giải quyết khi sử
dụng một mạng camera để giám sát như: Tạo bản đồ kết nối nhiều camera; Thuật
toán phát hiện và định danh lại đối tượng (người) khi quan sát trên các camera khác
nhau; Thuật toán theo vết đối tượng trong một mạng camera.
Chương 2. Phương pháp phát hiện người sử dụng một camera: Chương này
đầu tiên trình bày về các thiết lập môi trường của bài toán nghiên cứu. Đề tài sẽ tập

trung vào phát triển một hệ thống theo dõi, giám sát người di chuyển trong hành
lang một tòa nhà. Để giải quyết vấn đề này, nội dung nghiên cứu của chương này sẽ
đề xuất giải pháp cho việc phát hiện người sử dụng một camera trong mạng. Các kỹ
thuật bao gồm: Phát hiện người di chuyển sử dụng các kỹ thuật trừ nền; Khử bóng
người; Phương pháp kết hợp giữa phát hiện người sau khi trừ nền và mô hình đặc
trưng HOG và bộ phân lớp SVM.
Chương 3. Phương pháp theo vết người trên một mạng camera: Sử dụng kết
quả về phát hiện người từ một camera trong Chương 4, chương này trình bày về các
kỹ thuật đề xuất cho việc theo vết người (đối tượng cần quan tâm) từ các quan sát
của các camera khác nhau trong mạng. Các kỹ thuật đề xuất bao gồm: Phối ghép
nhiều camera để tạo thành bản đồ với một gốc tọa độ duy nhất; Theo vết đối tượng
cần quan tâm; Xác định vùng giao và khớp hành trình khi người di chuyển qua các
vùng quan sát của các camera khác nhau.
Chương 4. Kết quả thử nghiệm: Trình bày việc xây dựng thử nghiệm trong
môi trường hành lang tòa nhà; Đánh giá các giải pháp kỹ thuật đề xuất ở Chương 2
và Chương 3; Những thử nghiệm này được thực hiện tại hành lang tầng 8, tòa nhà
B1, Trường Đại học Bách khoa Hà Nội.
Kết luận: Chương này tổng kết các kết quả đã đạt được của luận văn cùng với
các hướng phát triển trong tương lai.

11


Chương 1. TÌM HIỂU CÁC BÀI TOÁN LIÊN QUAN VỀ PHÁT HIỆN VÀ
THEO VẾT NGƯỜI TRONG MỘT MẠNG CAMERA
1.1. Phát hiện và theo vết người trên một camera
Phát hiện và theo vết người từ camera là một trong những chủ đề nghiên cứu
sôi nổi nhất trong lĩnh vực thị giác máy tính do khả năng ứng dụng rộng rãi của nó
trong các ứng dụng khác nhau như theo vết giám sát, đánh chỉ mục dựa trên nội
dung hay tương tác người máy.

1.1.1. Các nghiên cứu liên quan về bài toán phát hiện người
Bài toán phát hiện người trong ảnh là bài toán phát hiện sự có mặt của người
xuất hiện trong ảnh, nếu có xác định vị trí của họ với một ảnh cho trước. Hình 1.1
minh họa kết quả của bài toán phát hiện người trong ảnh [1]. Thông thường, bài
toán phát hiện người cho phép khởi tạo các bộ theo vết hoặc tạo các liên kết quan
sát đối tượng trong quá trình theo vết.

Hình 1.1. Minh họa bài toán phát hiện người trong ảnh

Mặc dù đã thu hút được nhiều sự quan tâm của các nhà nghiên cứu từ nhiều
thập kỷ qua, bài toán phát hiện đối tượng vẫn còn nhiều thách thức do :
- Sự đa dạng trong thể hiện hình dáng người trên các khung hình do sự đa
dạng của từng cá thể người, tư thế người;
- Điều kiện thu nhận ảnh khác nhau (góc nhìn camera, điều kiện chiếu sáng,
phông nền) làm cho khó có thể xây dựng một bộ mô tả toàn diện về lớp “người”
cho phép phân biệt với lớp “không người”.
- Sự che khuất, hoặc có nhiều đối tượng xuất hiện trên phông nền phức tạp.
Phương pháp phát hiện người được chia thành hai hướng tiếp cận chính:
- Hướng tiếp cận thứ nhất: Trước tiên, các vùng được xem là có người sẽ
được tách ra khỏi các vùng nền. Sau đó, các thuật toán nhận dạng đối tượng sẽ được
12


áp dụng trên các vùng được xem là có người. Hình 1.2 sẽ biểu diễn sơ đồ khối của
hướng tiếp cận thứ nhất.
Các nghiên cứu trong [15] thực hiện theo hướng tiếp cận này. Theo các tác
giả, tất cả các đối tượng đều có ít nhất một trong ba đặc điểm để phân biệt chúng
với các đối tượng khác hoặc môi trường:
+ Một đường biên đóng rõ ràng trong không gian
+ Sự khác biệt của đối tượng với môi trường xung quanh

+ Đôi khi, đối tượng là duy nhất và nổi bật trong ảnh



Ảnh, khung hình thu
nhận được từ camera

Nhận dạng đối
tượng

Phát hiện đối tượng

Người

Vùng chứa đối tượng
và nhãn của đối tượng

Hình 1.2. Sơ đồ khối của hướng tiếp cận 1

Trên thực tế, có những đối tượng chỉ thỏa mãn một trong số ba đặc điểm nêu
trên song cũng có nhiều đối tượng thoả mãn đồng thời cả ba đặc điểm này. Dựa trên
ba đặc điểm quan trọng này của đối tượng trong ảnh, bốn đặc trưng sau đây được đề
xuất để biểu diễn đối tượng:
+ Bản đồ đo độ nổi bật đa tỉ lệ (Multi-scale saliencymap)
+ Độ tương phản màu sắc (Color contrast)
+ Mật độ biên (Edge density)
+ Các vùng ảnh xác định bởi giải thuật phân vùng (Image segmentation)
- Hướng tiếp cận thứ hai: Các tác giả thực hiện huấn luyện các bộ phân loại
nhị phân: có đối tượng quan tâm và không có đối tượng quan tâm. Như vậy ứng với
bài toán cần phát hiện N đối tượng ta phải tiến hành xây dựng N bộ phân lớp. Đối

với hướng tiếp cận này, các tác giả thường sử dụng kỹ thuật cửa sổ quét. Một cửa sổ
với nhiều kích thước được quét trên toàn bộ ảnh. Trong mỗi lần quét, các đặc trưng
trên cửa sổ sẽ được tính toán và ước lượng xem cửa sổ đó có chứa đối tượng thuộc
vào lớp quan tâm hay không.

13




Ảnh, khung hình thu
nhận được từ camera

Phát hiện và nhận
dạng đối tượng

Người

Vùng chứa đối tượng
và nhãn của đối tượng

Hình 1.3. Sơ đồ khối của hướng tiếp cận 2.

Hình 1.4 giới thiệu một bài toán thuộc hướng tiếp cận này. Bài toán nhằm phát
hiện các xe có trong ảnh. Để thực hiện được điều đó, một cửa sổ quét sẽ được dịch
chuyển ở trong ảnh. Với mỗi cửa sổ, bộ phân lớp nhị phân sẽ quyết định sự tồn tại
của xe hay không trên cửa sổ đó. Tùy thuộc vào từng đối tượng quan tâm mà người
ta sẽ xây dựng các bộ phân lớp và trích chọn các đặc trưng phù hợp. Bài toán phát
hiện mặt người [17] hay phát hiện người [6] cũng là các bài toán đi theo hướng tiếp
cận này.


Hình 1.4. Bài toán nhận dạng xe trong các ảnh.

Việc phân chia các phương pháp phát hiện và nhận dạng theo hai hướng tiếp
cận cho phép làm rõ trật tự thực hiện của từng công việc trong các phương pháp.
Nhìn chung dù các phương pháp đi theo hướng tiếp cận thứ nhất hay hướng tiếp cận
thứ hai đều cần tập trung làm rõ loại đặc trưng và phương pháp học được sử dụng
trong các phương pháp.
1.1.2. Các nghiên cứu liên quan về theo vết đối tượng
Bài toán theo vết người trong video hay từ camera được định nghĩa như sau:
Theo vết đối tượng ảnh trong video (object tracking) là thực hiện dự đoán quỹ đạo
chuyển động của đối tượng trên mặt ảnh phẳng khi đối tượng đó di chuyển. Nói
cách khác, một bộ theo vết (object tracker) sẽ tiến hành gán nhãn tương ứng cho đối
14


tượng bị theo vết (object-observation assignment) qua các khung hình (frame) liên
tiếp của video. Các phương pháp theo vết đối tượng người thường gặp một số khó
khăn như:
- Do cùng một cá thể người nhưng thể hiện ở các khung hình liên tiếp lại rất
khác nhau gây khó khăn cho việc gán quan sát đối tượng.
- Theo vết cũng gặp khó khăn như thiếu quan sát (do bộ phát hiện chưa tối
ưu, các đối tượng che khuất lẫn nhau) hoặc có nhiều quan sát (bài toán theo
vết nhiều người cùng một lúc).
Như vậy, để thực hiện việc theo vết, tại mỗi frame video phải có dữ liệu quan
sát về đối tượng. Dữ liệu này thường lấy được thông qua các bộ phát hiện đối tượng
(object detectors). Hình 1.5 minh họa kết quả của bài toán theo vết người [1]. Quỹ
đạo chuyển động của một người là kết nối vị trí của họ trong các khung hình kế
tiếp. Mỗi quỹ đạo được biểu diễn bởi một màu.


Hình 1.5. Minh hoạ kết quả bài toán theo vết người

Tùy thuộc vào mục đích ứng dụng, theo vết đối tượng ảnh trong video có thể
chia thành hai trường hợp: bài toán theo vết một đối tượng (single object tracking)
và bài toán theo vết nhiều đối tượng (multiple object tracking). Đối với trường hợp
theo vết một đối tượng, việc gán quan sát đối tượng được thực hiện một cách dễ
dàng. Trọng tâm của bài toán này là giải thuật để xác định chuyển động của đối
tượng xảy ra ở đâu, xảy ra như thế nào, và hướng của chuyển động của đối tượng.
Bài toán theo vết nhiều đối tượng thường gặp hơn trong thực tế, do các ứng dụng
đòi hỏi giám sát nhiều hơn một đối tượng cùng một lúc rất phổ biến. Ví dụ như tại
các bến tàu điện ngầm, sân bay, hay siêu thị, hệ thống camera phải quan sát số
15


lượng lớn phương tiện và người di chuyển, hoạt động. Hoặc trên các tuyến đường
quốc lộ, công việc điều phối luồng giao thông yêu cầu quan sát không chỉ một mà
nhiều xe cộ đi lại trên đường.
Thông thường một hệ thống theo vết giám sát và phân tích sự kiện qua video
gồm ba bước chủ yếu sau:
+ Phát hiện các đối tượng chuyển động (detection of moving objects).
+ Theo vết đối tượng qua các frame ảnh (object tracking).
+ Phân tích chuyển động để nhận biết trạng thái (analysis of object).
Như vậy, bước theo vết làm nhiệm vụ kết nối các quan sát của cùng một đối
tượng theo thời gian, để từ đó đưa ra thông tin về hành vi của đối tượng cũng như
sự kiện đang xảy ra. Có thể thấy, bước này là bước thứ hai, thực hiện sau phát hiện
đối tượng. Tức là, chỉ khi xác định được đối tượng cần quan tâm, mới có thể tiến
hành theo vết và phân tích.
Một số phương pháp theo vết đối tượng ảnh phổ biến có thể kể đến:
- Xây dựng mẫu chuyển động (motion templates):
Mẫu chuyển động được nghiên cứu lần đầu tiên tại phòng thí nghiệm MIT

Media Lab, sau đó được phát triển bởi Bradski và Davis [3]. Đây là một phương
pháp rất hiệu quả để theo dõi những chuyển động thông thường, đặc biệt cho các
ứng dụng về nhận dạng cử chỉ. Để thực hiện so khớp mẫu, trước hết cần xác định
dáng (silhouette) hay một phần dáng của đối tượng. Silhouette đối tượng ảnh có thể
được được xác định thông qua một số kỹ thuật trừ nền và phân đoạn ảnh. Khi đối
tượng di chuyển, bản sao dáng đối tượng mới nhất được cập nhật vào “ảnh lưu trữ
chuyển động” MHI (motion history image), được gán nhãn thời gian với độ chính
xác dấu phảy động (floating point timestamp). Ảnh MHI chính là biểu diễn của mẫu
chuyển động. Tùy theo một mức pixel hay một ngưỡng thời gian cài đặt thích hợp,
các pixel trong ảnh MHI nhỏ hơn ngưỡng sẽ bị xóa về không. Kết quả cuối cùng là
một mẫu chuyển động, hay tập hợp dáng của đối tượng xếp chồng theo thời gian.
Từ đó, có thể sử dụng kết quả này để tính toán và dự báo hướng, vị trí tiếp theo của
đối tượng.
- Theo vết mean-shift và camshift
Mean-shift và camshift là hai kỹ thuật của toán phân tích dữ liệu được ứng
dụng vào lĩnh vực xử lý ảnh. Do chúng khá phức tạp và đòi hỏi những nghiên cứu
16


chuyên sâu nên ở đây sẽ chỉ trình bày một số nét chính và quan hệ giữa chúng với
bài toán theo dõi đối tượng ảnh. Chi tiết cụ thể hơn có thể xem tại [5].
Giải thuật mean-shift là phương pháp tìm vùng cực trị địa phương từ phân bố
mật độ một tập dữ liệu. Nó hoạt động tốt với những phân bố liên tục và kém hiệu
quả trên những tập dữ liệu rời rạc.
Các bước trong giải thuật mean-shift [4]:
1) Chọn cửa sổ tìm kiếm: vùng khởi tạo, loại (đa thức, hàm mũ, hay
Gaussian), dạng (đối xứng hay lệch, tròn hay chữ nhật, khả năng xoay),
kích thước (giới hạn hay có thể mở rộng).
2) Tính toán trọng tâm cửa sổ (window’s center of mass) với trọng số.
3) Định tâm cửa sổ tại trọng tâm đã tìm được.

4) Quay lại bước 2 cho đến khi cửa sổ dừng di chuyển.
Từ các bước của giải thuật nhận thấy, khi có chuyển động, vùng cửa sổ thay
đổi và ta phải tiến hành lại quá trình định tâm. Quá trình này luôn hội tụ về một
vector mean-shift của 0, nghĩa là không còn có dịch chuyển. Vùng hội tụ nằm ở khu
vực cực đại (đỉnh) phân bố bên trong cửa sổ. Những cửa sổ kích thước khởi tạo
khác nhau sẽ xác định các đỉnh khác nhau. Có thể sử dụng mô hình tìm kiếm của
giải thuật vào bài toán theo dõi đối tượng trong video. Bởi vì histogram hai chiều
của ảnh có dạng phân bố mật độ của một không gian hai chiều.
Các phương trình của giải thuật mean-shift được đơn giản hóa khi áp dụng vào
trường hợp ảnh 2D gồm [4]:
+ Mô men zero (zeroth moment):

M 00   I  x, y 
x

y

+ Mô men bậc nhất (the first moment):

M 10   xI  x, y  , M 01   yI  x, y 
x

x

y

y

+ Trọng tâm phân bố pixel ảnh:


xc 

M 10
M
, yc  01
M 00
M 00

Có thể hình dung giải thuật mean-shift trong theo dõi đối tượng gồm ba bước.
Đầu tiên, chọn một phân bố đặc trưng để biểu diễn đối tượng. Sau đó, tiến hành tìm
17


cửa sổ mean-shift trên toàn bộ phân bố đặc trưng của đối tượng. Cuối cùng, tính
toán phân bố đặc trưng như đã lựa chọn qua frame kế tiếp.
Giải thuật camshift (continuously adaptive mean-shit) gần tương tự như giải
thuật mean-shift. Điểm khác biệt nằm ở chỗ mean-shift thiết kế cho các phân bố
tĩnh còn camshift dùng cho trường hợp phân bố động. Ví dụ trường hợp các đối
tượng trong video di chuyển và thay đổi cả kích thước lẫn vùng phân bố đặc trưng
theo thời gian. Khi xử lý, giải thuật camshift sẽ tự động điều chỉnh kích thước cửa
sổ tìm kiếm cho phù hợp.
Mean-shift và camshift là các phương pháp hiệu quả trong bài toán theo dõi
đối tượng. Tuy nhiên, nhược điểm là thời gian tính toán lớn, và do chỉ tối ưu hóa
cục bộ nên khi màu nền và màu đối tượng ảnh gần giống nhau, phương pháp sẽ
không còn tác dụng.
- Xây dựng bộ ước lượng
Giả sử nhiệm vụ đặt ra cho chúng ta là theo dõi người đi bộ ngang qua một
camera. Tại mỗi frame, tiến hành xác định vị trí của người di chuyển. Sau đó, bằng
cách nào đó, chúng ta thực hiện một dự đoán về vị trí của người đi bộ trong frame
kế tiếp. Sự dự đoán này tất nhiên sẽ không thể chính xác tuyệt đối. Nguyên nhân kể

đến có rất nhiều, như sai số của thiết bị đo, việc tính toán xấp xỉ trong quá trình xử
lý. sự xuất hiện của bóng hay người di chuyển bị che khuất, hay sự thay đổi hình
dạng khi người đi bộ do tay hoặc chân của họ đu đưa. Với bất kể nguyên nhân gì,
chúng ta hy vọng phép đo sẽ chỉ thay đổi một cách ngẫu nhiên, xung quanh giá trị
nhận được từ “thiết bị đo lý tưởng”. Tức là, thay vì quan tâm đến các nguồn gây
mất chính xác, chúng ta thay thế chúng bằng cách mô hình hóa các nguồn gây nhiễu
trong quá trình xử lý.
Quay trở lại với bài toán, chúng ta có khả năng ước lượng chuyển động của
người bằng cách sử dụng tối đa những thông tin chúng ta đã đo được. Theo cách
như vậy, việc tích lũy thông tin theo quá trình sẽ giúp phát hiện được phần nào đó
chuyển động không bị ảnh hưởng nhiều bởi nhiễu. Điểm quan trọng ở đây là cần
xây dựng được một mô hình cho chuyển động của người. Chẳng hạn như giả thiết
chuyển động của người với điều kiện “người tiến vào frame từ một hướng và đi
ngang qua frame với vận tốc cố định”. Khi xây dựng mô hình như vậy, chúng ta có

18


thể yêu cầu không chỉ thông tin về vị trí của người mà cả những tham số khác của
mô hình với sự trợ giúp từ các quan sát hay phép đo của chúng ta.

Hình 1.6. Hai pha chu trình ước lượng: dự báo dựa trên thông tin tiên nghiệm và hiệu
chỉnh theo thông tín đo lường mới [4]

Tóm lại, nhiệm vụ theo dõi đặt ra ở trên sẽ chia thành hai pha (Hình 1.6).
Trong pha thứ nhất, gọi là pha dự báo (prediction phase), chúng ta sử dụng thông
tin học được từ quá khứ để lọc ra từ mô hình của chúng ta vị trí tiếp theo của người
hay đối tượng. Trong pha thứ hai, gọi là pha hiệu chỉnh (correction phase), chúng ta
thực hiện phép đo mới và sau đó căn cứ vào giá trị này hiệu chỉnh lại dự đoán dựa
trên phép đo trước đó.

1.2. Phát hiện và theo vết người trong mạng camera
Hạn chế của việc phát hiện và theo vết người sử dụng một camera duy nhất là
vùng theo dõi người nhỏ, không thể mở rộng. Các hệ thống giám sát sử dụng mạng
camera đã được phát triển. Nhiệm vụ chính của các hệ thống này là trích chọn các
thông tin hữu ích (người xuất hiện, di chuyển) một cách tự động thông qua các thuật
toán về phát hiện, theo bám, nhận dạng đối tượng cần quan tâm, nhận dạng hành
động của đối tượng trong mạng camera. Hình 1.7 trình bày một số kỹ thuật về thị
giác máy tính thường được sử dụng đối với bài toán theo vết và phát hiện người
trong một mạng camera.

Hình 1.7. Một số kỹ thuật được nghiên cứu đối với
bài toán giám sát sử dụng mạng camera

19


Phần trình bày sau sẽ liệt kê một số phương pháp cơ bản của các kỹ thuật này:
1.2.1. Phối ghép nhiều camera (Multiple Camera Calibration)
Phối ghép nhiều camera là vấn đề nghiên cứu cơ bản của thị giác máy tính và
không thể thiếu trong các hệ thống phối ghép nhiều camera. Đã có rất nhiều các tài
liệu nghiên cứu về quá trình tự động Camera Calibration như [7, 14, 9]. Các kỹ
thuật Calibration được phát triển để tìm bộ tham số trong của camera (ví dụ: tiêu cự,
hệ số méo camera, tỉ lệ giữa pixel và mm) và bộ tham số ngoài của camera (ví dụ:
vị trí trọng tâm của camera, hướng của camera so với hệ tọa độ thực). Hình 1.8
minh họa các kỹ thuật này

Minh họa quá trình sửa méo camera thông qua bộ tham số trong

Hình 1.8. Tìm bộ tham số ngoài (ma trận R|t) giữa camera và hệ tọa độ thế giới thực


Các kỹ thuật phối ghép nhiều camera mục đích tìm một ma trận chuyển đổi
(homography) giữa hai hệ trục tọa độ camera. Nếu hai camera có vùng quan sát
giao nhau, có rất nhiều kỹ thuật đã được phát triển, ví dụ: Stein and Medioni 1992;
Stauffer and Tieu 2003, Brown and Lowe 2003, Sheikh and Shah 2008. Hầu hết các
phương pháp này tìm (tự động hoặc bán tự động) các điểm đặc trưng và đánh giá
làm khớp các điểm thu được từ các (hai) camera khác nhau. Sau khi tính toán được
ma trận homography, tọa độ của các đối tượng quan sát đều được chuyển về chung
một mặt phẳng (global ground plane). Việc trích chọn các điểm đặc trưng là một kỹ
thuật căn bản của thị giác máy tính. Thông thường, các phương pháp calibration
thường sử dụng toán tử như Haris, SIFT (Scale-Invariant Feature Transform). Các
20


điểm đặc trưng đồng thời có các mô tả xung quanh nó (local descriptors) về các đặc
trưng như texture, shape. Những điểm đặc trưng này sau đó được đánh giá tương tự
để tạo ra một cặp các điểm khớp nhau (pairwise correspondences). Để hạn chế các
cặp điểm lựa chọn sai, một số phương pháp sử dụng các ràng buộc về hình học
(epopolar contrainst). Thông thường các thuật toán thông kê loại bỏ các điểm lỗi
(như RANSAC, Lacey 2000) sẽ được sử dụng.
1.2.2. Theo dõi người trong một mạng camera
Theo dõi người trong mạng camera bao gồm hai phần: (1) theo dõi nội bộ
camera, tức là theo dõi đối tượng trong khung nhìn của 1 camera, và (2) theo dõi
liên camera, tức là kết hợp các đối tượng được quan sát thấy trong khung nhìn của
các camera khác nhau.
Trong Mục 1.1. đã nói về phát hiện và theo vết người trong nội bộ camera.
Phần này tập trung vào theo dõi liên camera, một phần khó hơn bởi vì (1) việc dự
đoán các thông tin về không gian-thời gian của các đối tượng trên các camera khác
nhau có ít độ tin cậy hơn trong chế độ xem ảnh trên cùng một camera và (2) sự xuất
hiện của các đối tượng có thể trải qua thay đổi lớn bởi nhiều nhân tố khác nhau, như
các cài đặt camera, điểm nhìn, điều kiện ánh sáng, trong các camera khác nhau.

Theo dõi liên camera dựa trên tham số hiệu chuẩn của nhiều camera
Theo dõi đối tượng trong một hệ tọa độ 3 chiều (3D) hoặc dựa trên đồ thị
tương đồng (homography) giữa các sau khi hiệu chỉnh đã được thực hiện trong
nhiều nghiên cứu. Các dấu vết của đối tượng quan sát được trong các camera khác
nhau được gắn kết dựa vào độ gần về khoảng cách của chúng trong hệ tọa độ 3D
hoặc trên mặt phẳng mặt đất bình thường. Giả định rằng việc liên kết giữa các
camera và hiệu chỉnh camera đã được giải quyết trước giai đoạn theo dõi (Cai và
Aggarwal 1996). Tuy nhiên, cũng tồn tại hướng tiếp cận trong đó các cấu trúc liên
kết các khung nhìn camera, xác định đường kính cameras, và theo dõi các đối tượng
qua các khung nhìn camera cùng được xảy ra đồng thời (Stauffer và Grimson 2000;
Rahimi 2004.). Họ giả định rằng theo dõi liên camera cũng có thể giúp cho việc đưa
ra kết luận về liên kết và hiệu chuẩn cameras (Rahimi 2004) phục hồi đồng thời các
thông số chuẩn của camera và theo dõi đối tượng trên các camera phân chia theo
một công thức Bayes. Stauffer và Tieu (2003) cùng nhau suy luận ra các cấu trúc

21


liên kết của các khung nhìn camera, ước tính đồ thị tương đồng (homography) giữa
các khung nhìn camera và thiết lập mật độ tương quan về dấu vết của đối tượng.
Trong một số cảnh giám sát video, cần phải theo dõi một số lượng lớn các đối
tượng trong môi trường đông đúc, nơi sự che khuất xảy ra thường xuyên do sự
tương tác giữa các đối tượng. Theo dõi nhiều camera có thể giải quyết tốt hơn vấn
đề che khuất, bởi vì nó lọc thông tin từ nhiều khung nhìn camera khác nhau cho
những dấu vết thô. Ví dụ, khi một đối tượng bị ẩn trong một trong các khung nhìn
camera, theo dõi có thể được chuyển sang một khung nhìn tốt hơn mà không bị ẩn
bằng cách dự đoán sự tồn tại của sự chồng chéo trong các khung nhìn của các
camera (Utsumi 1998;. Sogo và Ishiguro 2000; Dockstader và Tekalp năm 2001;
Mittal và Davis 2003). Cai và Aggarwal (1996) đo lường độ tin cậy của các dấu vết,
chúng thường thấp nếu các đối tượng bị che khuất. Khi độ tin cậy của các dấu vết ở

dưới một ngưỡng nhất định, việc theo vết được chuyển sang một khung nhìn camera
tối tưu hơn có độ tin cậy cao nhất. Fleuret (2008) dự đoán sự che khuất với một mô
hình tạo sinh và một bản đồ chiếm xác suất. Otsuka và Mukawa (2004) ước tính các
cấu trúc che khuất dựa trên một mô hình rõ ràng của cấu trúc hình học của quá trình
tạo ra sự chồng lấp che khuất giữa các đối tượng. Nó được xây dựng công thức như
phép đệ quy vấn đề ước đoán Bayesian và được thực thi bởi việc lọc hạt nhân. Với
hiệu chuẩn, các quan sát từ nhiều khung nhìn camera có thể được ánh xạ tới các
điểm trong một hệ tọa độ 3D đơn. Một số quan sát được bỏ qua nếu đối tượng bị ẩn
trong một vài khung nhìn camera. Bộ lọc Kalman, bộ lọc được sử dụng để theo dõi
các đối tượng và giải quyết sự chồng lấp.
+ Theo dõi hành trình từ nhiều camera
Hầu hết các phương pháp tiếp cận thảo luận ở trên cho rằng các khung nhìn
camera liền kề có sự chồng chéo và do đó sự gần gũi không gian của các dấu vết
trong các khu vực chồng lấp có thể được tính toán. Để theo dõi các đối tượng trên
các khung nhìn camera rời nhau, tín hiệu xuất hiện phải được tích hợp với lập luận
về không gian-thời gian (Huang và Russell 1997; Pasula 1999 ;.. Veenman 2001).
Pasula (1999) đã đề xuất hướng tiếp cận theo dõi các đối tượng trên một số lượng
lớn các khung nhìn camera. Các mối quan hệ không gian-thời gian và mối quan hệ
giữa sự xuất hiện các bức ảnh có thể thay đổi tự động và do đó mô hình của chúng
cần phải được cập nhật thích nghi. Ví dụ, các điều kiện ánh sáng thay đổi trong suốt
22


cả ngày. Thời gian đi lại của xe cộ giữa các khung nhìn camera thay đổi với lượng
giao thông trên một mạng lưới đường bộ trong giai đoạn khác nhau của một ngày.
Thu thập các mẫu đào tạo đáng tin cậy là một thách thức lớn cho các mô hình cập
nhật trực tuyến từ liên hệ được dán nhãn bằng tay không có sẵn tại thời gian chạy.
Trong (Huang và Russell 1997), các thông số của mô hình xuất hiện được cập nhật
trực tuyến dưới sự mong đợi - Tối đa hóa (EM) framework. Javed (2003) cập nhật
các mô hình xác suất bằng cách sử dụng dự toán mật độ hạt nhân trực tuyến

(Lambert 1999). Chen (2008) đề xuất một cách tiếp cận không có giám sát trực
tuyến để tìm hiểu cả không gian-thời gian và sự liên hệ xuất hiện cho một mạng
lưới camera. Nó từng bước tinh lọc các kết quả phân nhóm nguồn và bồn rửa, và
học các mô hình xuất hiện bằng cách kết hợp các thông tin không gian-thời gian và
MCMC lấy mẫu. Kuo (2010) sử dụng Multiple Instance Learning (nghiên cứu các
trường hợp đa dạng) (MIL) (Dietterich 1997) để tìm hiểu trực tuyến một mô hình
xuất hiện riêng biệt. Các ràng buộc không gian-thời gian của các dấu vết được quan
sát trong hai điểm camera có thể cung cấp một vài ví dụ về các training được gắn
nhãn yếu bao gồm một số cặp có khả năng liên quan đến các dấu vết và loại trừ các
cặp không có khả năng liên quan. Các cặp có khả năng liên quan được chọn cũng có
khả năng sai sót như nhiễu. MIL có thể cung cấp sự nhập nhằng của nhãn trong quá
trình nghiên cứu mô hình.
+ Giải quyết các phù hợp trên nhiều điểm camera
Mỗi khung nhìn camera có thể chụp một bộ nhiều đối tượng trong một thời
gian ngắn. Theo dõi đối tượng qua nhiều khung nhìn camera có thể giúp giải quyết
sự phù hợp (correspondence) của các dấu vết giữa 1 bộ nhiều ứng cử viên. Đưa ra
sự giống nhau giữa các dấu vết thu được trong các khung hình camera khác nhau
như đã nói ở trên, vấn đề về gán nhãn vẫn tồn tại cần được giải quyết với ràng buộc
rằng dấu vết trong khung nhìn camera có thể khớp với ít nhất một dấu vết trong một
camera. Nếu chỉ có hai khung hình camera, vấn đề này có thể được giải quyết bằng
thuật toán Hungary (Kuhn 1956) hoặc được xây dựng như việc phù hợp vấn đề với
đồ thị 2 chiều có trọng số (Cox và Hingorani 1994; Alexander và Lucc - hesi, xxxx ;
Veenman năm 2001; Javed 2003).. Các thuật toán Hungary đòi hỏi tính toán ma
trận chi phí dựa trên những điểm tương đồng giữa các dấu vết thu được trong hai
khung nhìn camera khác nhau. Độ phức tạp tính toán là O(n3) trong đó n là số lượng
23


dấu vết. Nếu nó được xây dựng như một đồ thị 2 chiều, mỗi dấu vết được biểu diễn
như một đỉnh của đồ thị. Trọng lượng của một cạnh lien kết với hai dấu vết trong

các khung nhìn camera khác nhau là tương tự nhau. biểu đồ 2 chiều phù hợp là tìm
M đường phân chia trong đồ thị và mỗi đường biểu thị cho các dấu vết theo dõi của
cùng một đối tượng. Nó có thể được giải quyết với độ phức tạp là O(n2.5) (Hopcroft
và Karp 1973). Nếu có nhiều hơn hai khung nhìn camera, giải quyết vấn đề này có
độ khó là NP. Nhiều hướng tiếp cận tối ưu hóa đã được đề xuất đề tìm các giải pháp
phù hợp.. Trong (Shafique và Shah 2003;. Hamid 2010), nhiều thuật toán nối đồ thị
K-chiều khác nhau đã được đề xuất để giải quyết vấn đề. Wu (2009) tính toán
những vấn đề của việc tìm kiếm sự tương đồng qua nhiều khung hình camera như
một vấn đề gán đa chiều và giải quyết nó bằng một thủ tục tìm kiếm thích ứng tham
lam ngẫu nhiên. Giang (2007) xây dựng nó như là một vấn đề tìm kiếm nhiều
đường và giải quyết nó bằng lược đồ hồi phục lập trình tuyến tính được đề xuất.
1.2.3. Định danh lại người trong một mạng camera
Trong một số kịch bản ứng dụng, cấu trúc liên kết của một mạng lưới camera
và thông tin theo vết không có sẵn, đặc biệt là khi các camera có khoảng cách xa và
môi trường đông đúc . Ví dụ, chỉ các bức ảnh chụp nhanh các đối tượng thay vì các
dấu vết chụp bởi camera khác nhau có sẵn . Trong trường hợp này lý luận không
gian-thời gian là không khả thi hoặc chính xác để theo dõi nhiều camera. . Trong
những năm gần đây, rất nhiều công trình nghiên cứu (Nakajima 2003, Bird 2005,
Javed 2005) đã được thực hiện trên các đối tượng phù hợp như xe và người đi bộ
quan sát trong các bức ảnh khác nhau chỉ sử dụng thông tin hình ảnh mà không có
lập luận về không-thời gian . Người ta cho rằng các quan sát của một người đi bộ
được chụp trong cùng một ngày và do đó quần áo hoặc hình dạng của người đó
không thay đổi nhiều Vấn đề này được gọi là xác định lại đối tượng. Nghiên cứu
xác định lại đối tượng một cách riêng biệt từ theo dõi đa camera giúp hiểu rõ hơn về
khả năng của đối tượng phù hợp sử dụng các tính năng trực quan đơn lẻ. Một khi nó
đã được nghiên cứu tốt, nó có thể được tích hợp với tình trạng không gian và thời
gian ở giai đoạn sau có thể lọc những đối tượng được khớp. Tái xác định Đối tượng
là rất khó khăn. Cùng một đối tượng trong các khung nhìn camera khác nhau trải
qua biến đổi đáng kể về độ phân giải, ánh sáng, tư thế và điểm nhìn . Vì các đối
tượng được chụp bởi camera giám sát thường có kích thước nhỏ và rất nhiều chi tiết

24


×