Tải bản đầy đủ (.pdf) (31 trang)

Nghiên cứu và phát triển các kỹ thuật định vị và định danh kết hợp thông tin hình ảnh và WiFi (Tóm tắt LA tiến sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (559.21 KB, 31 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

PHẠM THỊ THANH THỦY

NGHIÊN CỨU VÀ PHÁT TRIỂN CÁC KỸ THUẬT
ĐỊNH VỊ VÀ ĐỊNH DANH KẾT HỢP THÔNG TIN
HÌNH ẢNH VÀ WIFI

Chuyên ngành: Khoa học Máy tính
Mã số: 62480101

TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Hà Nội−2017


Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội

Người hướng dẫn khoa học:
1. PGS. TS. Lê Thị Lan
2. TS. Đào Trung Kiên

Phản biện 1:
Phản biện 2:
Phản biện 3:

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án tiến sĩ
cấp Trường họp tại Trường Đại học Bách khoa Hà Nội:


Vào hồi..........giờ, ngày.......tháng.......năm.......

Có thể tìm hiểu luận án tại thư viện:
1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội
2. Thư viện Quốc gia Việt Nam


MỞ ĐẦU
Tính cấp thiết của luận án
Công nghệ hiện đại đang làm thay đổi cuộc sống của con người ở nhiều phương
diện khác nhau, trong đó đáng chú ý là cách thức con người tương tác với các sản phẩm
công nghệ. Tương tác người-máy ngày càng trở nên tự nhiên và thân thiện hơn. Một
khái niệm mới được hình thành từ sự thay đổi mang tính cách mạng này đó là Môi
trường cảm thụ AmI (Ambient Intelligent). Mặc dù AmI đã được đề cập từ hơn mười
năm trước và ngày càng có thêm nhiều nghiên cứu chuyên sâu về nó, tuy nhiên, việc
phát triển và thực thi các hệ thống ứng dụng AmI vẫn còn mới mẻ. Có nhiều thách
thức thực tế cần giải quyết trong từng lĩnh vực công nghệ hay các ứng dụng cụ thể có
liên quan tới AmI [1].
Trong nghiên cứu này, chúng tôi quan tâm tới thông tin ngữ cảnh về vị trí và danh
tính của con người trong môi trường tòa nhà. Vị trí và danh tính là hai trong số các
thuộc tính người dùng quan trọng cần được cảm thụ trong môi trường thông minh.
Để có thể xác định vị trí người dùng (người dùng ở đâu trong môi trường) và danh
tính người dùng (người dùng đó là ai), chúng ta cần giải quyết hai bài toán là định
vị và định danh. Để giải quyết hai bài toán này, có thể sử dụng nhiều loại cảm biến
khác nhau, như Ultra-Wideband (UWB), ultrasound, Radio-Frequency Identification
(RFID), camera, WiFi, etc [15]. Tuy nhiên, không có một giải pháp công nghệ đơn lẻ
nào là hoàn hảo trong mọi trường hợp. Do đó, bên cạnh việc phát triển các giải thuật
tối ưu cho từng công nghệ, sử dụng kết hợp các giải pháp đang trở thành một xu hướng
mới trong việc giải quyết bài toán định vị và định danh người dùng trong môi trường
tòa nhà [19], [3], [14], [16]. Mục đích chính của kết hợp là nhằm phát huy được những

ưu điểm của từng công nghệ cảm biến đơn lẻ, trong khi có thể hạn chế những nhược
điểm của chúng. Trong bối cảnh này, nghiên cứu của chúng tôi tập trung giải quyết bài
toán định vị và định danh người sử dụng kết hợp các công nghệ dựa trên cơ sở hình
ảnh và WiFi.

Các đóng góp của luận án
❼ Đóng góp thứ 1: Đề xuất mô hình hình suy hao cải tiến cho định vị người dùng

dựa trên WiFi. Trong mô hình này, chúng tôi xem xét tới các ràng buộc vật cản
trong môi trường tòa nhà. Từ đó, có thể mô hình hóa hiệu quả quan hệ giữa
cường độ tín hiệu RSSI với khoảng cách từ thiết bị di động tới các AP lân cận.
Phương pháp lấy dấu vân tay thông dụng cũng được áp dụng cho định vị WiFi,
với một bản đồ vô tuyến mới được thiết lập nhằm tạo dữ liệu vân tay ổn định và

1


tin cậy cho định vị. Để đối sánh mẫu thử với dữ liệu vân tay, chúng tôi đề xuất
áp dụng phương pháp KNN, trong đó có bổ sung thêm tham số λ nhằm phản
ánh những thay đổi theo thời gian của dữ liệu dấu vân tay trong môi trường.
Kết quả định vị dựa trên WiFi cho phép kích hoạt các tiến trình định vị tại các
camera thuộc vùng kết quả định vị trả về từ hệ thống WiFi.
❼ Đóng góp thứ 2: Đề xuất các phương pháp hiệu quả cho khử bóng và phát

hiện người nhằm cải thiện kết quả định vị sử dụng hình ảnh. Đối với khử bóng,
chúng tôi đề xuất sử dụng kết hợp đặc trưng chromaticity và physical cùng với
một sơ đồ kết hợp chỉ số dựa trên mật độ lân cận của phân bố bóng và không
phải bóng ở từng điểm ảnh. Bước khử bóng được xem như bước tiền xử lý nhằm
đạt hiệu quả phát hiện người tốt hơn. Trong bước phát hiện người, chúng tôi sử
dụng kết hợp hai phương pháp trừ nền GMM thích nghi và bộ mô tả-phân lớp

người HOG-SVM. Việc kết hợp này cho phép phát huy được ưu điểm tính toán
nhanh của GMM thích nghi và độ chính xác phát hiện người của HOG-SVM.
Ngoài ra, đối với bộ phát hiện HOG-SVM, chúng tôi xây dựng bộ mô tả HOG
và huấn luyện SVM sử dụng cơ sở dữ liệu chúng tôi thu tại môi trường thực
nghiệm, cùng với cơ sở dữ liệu chuẩn INRIA. Việc huấn luyện trên hai bộ cơ sở
dữ liệu này giúp cải thiện hiệu quả phát hiện người sử dụng HOG-SVM trong
môi trường xem xét.
❼ Đóng góp thứ 3: Áp dụng một bộ mô tả người mạnh dựa trên cơ sở diện mạo

cho định danh lại người trong các mạng camera. Bộ mô tả được xây dựng trên
từng vùng người được phát hiện. Ba đặc trưng hướng, màu và hình dạng được
trích chọn ở 3 mức điểm ảnh, mẩu ảnh và toàn bộ ảnh vùng người được phát
hiện, sau đó ba hàm nhân đối sánh được tạo ra từ các đặc trưng này. Bộ mô tả
đề xuất đặc biệt hiệu quả đối với ngữ cảnh giám sát người sử dụng nhiều camera,
trong đó tồn tại sự thay đổi đa dạng trong cùng một lớp đối tượng.
❼ Đóng góp thứ 4: Đề xuất một phương pháp kết hợp mới cho hệ thống định vị

và định danh người đa phương thức kết hợp WiFi và camera. Bằng cách sử dụng
các bước dự đoán và cập nhật trạng thái của bộ lọc Kalman, cùng với giải thuật
gán tối ưu, phương pháp kết hợp đề xuất cho phép bảo lưu độ chính xác định vị
cao của hệ thống định vị người dựa trên hình ảnh. Ngoài ra phương pháp kết hợp
này cho phép theo vết người bằng định danh dựa trên thông tin định danh từ
card WiFi của thiết bị cầm tay, cũng cho phép thực thi tốt hơn việc định danh
lại người giữa các camera.
Ngoài các đóng góp chính nêu trên, trong luận văn này, chúng tôi đề xuất phương
pháp liên kết quỹ đạo người hiệu quả trong mạng camera. Các camera được triển khai
trên một tầng của tòa nhà đều có chung trường quan sát là mặt sàn nơi đối tượng di

2



chuyển, do đó, từng cặp camera sẽ tạo thành một thị giác nổi trên một mặt sàn duy
nhất. Sử dụng phương pháp hiệu chỉnh camera cho thị giác nổi, các quỹ đạo chuyển
động của đối tượng trên ảnh thu nhận từ các camera khác nhau có thể chuyển đổi
được thành các vị trí trên hệ tọa độ thế giới thực tương ứng trên một mặt phẳng sàn
duy nhất đó. Ngoài ra, chúng tôi cũng đề xuất một hệ thống giám sát người tự động
hoàn toàn trong môi trường tòa nhà. Hệ thống này phản ánh các bối cảnh giám sát
thực tế ở hầu hết các tòa nhà. Hướng tới việc xây dựng một hệ thống giám sát như
vậy, chúng tôi thực hiện một số thử nghiệm để chứng minh hiệu quả của các phương
pháp đã công bố cho bài toán nhận dạng mặt người, định vị, định danh và định danh
lại người trong một mạng camera.

Cấu trúc của luận án
Trong luận án này, chúng tôi phát triển các phương pháp định vị và định danh
lại người và đánh giá chúng trong hệ thống kết hợp hình ảnh và WiFi. Luận án gồm 5
chương, với phần giới thiệu mở đầu, phần cuối là kết luận và định hướng nghiên cứu
tiếp theo:
❼ Mở đầu: Giới thiệu chung: tính cấp thiết và mục tiêu nghiên cứu của luận án;

ngữ cảnh, các ràng buộc và thách thức khi giải quyết các bài toán đặt ra trong
luận án; cấu trúc của luận án và các đóng góp của luận án.
❼ Chương 1: Các công trình có liên quan đến vấn đề nghiên cứu của luận án: định

vị người dùng sử dụng hệ thống WiFi; định vị người sử dụng camera, định vị
người sử dụng kết hợp hệ thống WiFi và camera; định danh lại người trong mạng
camera.
❼ Chương 2: Giải pháp đề xuất và các đánh giá thử nghiệm cho định vị người dùng

dựa trên WiFi.
❼ Chương 3: Đề xuất hệ thống định vị người sử dụng hình ảnh với 3 pha chính là


phát hiện người, theo vết người và định vị người. Đề xuất một số cải tiến cho
từng pha nhằm nâng cao hiệu quả của hệ thống định vị.
❼ Chương 4: Trong bối cảnh giám sát đa camera thời gian thực, các bài toán định

danh người dựa trên mặt người và định danh lại dựa trên diện mạo người được
đề xuất. Một bộ mô tả hiệu quả được áp dụng cho định danh lại người trong
mạng camera.
❼ Chương 5: Giải pháp kết hợp thông tin WiFi và hình ảnh cho định vị, định danh

và định danh lại người và các đánh giá thử nghiệm.
❼ Kết luận và định hướng nghiên cứu tiếp theo của luận án.

3


CHƯƠNG 1

ĐÁNH GIÁ CHUNG CÁC CÔNG TRÌNH CÓ LIÊN
QUAN ĐẾN LUẬN ÁN
Trong luận án này, chúng tôi sử dụng kết hợp các hệ thống dựa trên hình ảnh và
WiFi cho bài toán định vị và định danh người dùng. Điều này tương đương với việc
chúng tôi sử dụng cả hai loại đặc trưng tín hiệu WiFi và hình ảnh cho định vị và định
danh người trong môi trường tòa nhà. Do đó, trong các phần tiếp theo, đánh giá chung
về các công trình có liên quan đến các vấn đề nghiên cứu của luận án sẽ tập trung vào
từng hệ thống đơn lẻ của WiFi, hình ảnh và kết hợp chúng cho định vị người dùng
trong môi trường tòa nhà. Ngoài ra, chúng tôi cũng đưa ra các đánh giá có liên quan
đến bài toán định danh và định danh lại người trong mạng camera.

1.1


Định vị người dùng sử dụng WiFi

1.2

Định vị người dùng sử dụng camera

1.3

Định vị người dùng sử dụng kết hợp WiFi và camera

1.4

Định danh lại người dựa trên hình ảnh

CHƯƠNG 2

ĐỊNH VỊ NGƯỜI DÙNG SỬ DỤNG WIFI
Trong chương này, chúng tôi tiếp cận cả mô hình truyền sóng vô tuyến và phương
pháp dấu vân tay cho định vị WiFi. Chúng tôi đề xuất một mô hình truyền xác suất
cải tiến, cùng với một bản đồ vô tuyến được định nghĩa mới ở phần cơ sở dữ liệu dấu
vân tay. Mô hình truyền xác suất đề xuất là mô hình cải tiến từ mô hình suy hao cơ
bản (như đã nêu ở Chương 1). Mô hình này phản ánh bản chất phức tạp của các môi
trường tòa nhà khi tính đến các yếu tố vật cản, như tường và sàn nhà để mô hình hóa
quan hệ giữa giá trị cường độ tín hiệu RSSI và khoảng cách từ thiết bị di động tới các
điểm tham chiếu. Mô hình dựa trên cơ sở phương trình thực nghiệm của cường độ tín
hiệu tần số vô tuyến trong các môi trường tòa nhà và tính không chắc chắn của nó
được xem xét bởi các đặc trưng xác suất. Một tiến trình tối ưu dựa trên giải thuật
sinh được áp dụng để hiệu chỉnh các tham số hệ thống sao cho phù hợp nhất với các
thiết bị sử dụng. Trong phương pháp dấu vân tay, áp dụng đối sánh KNN có bổ sung


4


thêm tham số λ nhằm phản ảnh sự thay đổi theo thời gian của dữ liệu dấu vân tay
trong môi trường.

2.1

Sơ đồ hệ thống

Sơ đồ hệ thống định vị người dùng sử dụng WiFi được minh họa trong Hình 2.1.
Có hai pha chính được biểu diễn trong sơ đồ là pha huấn luyện và pha thử nghiệm.
SERVER

Offline training phase
Radio Map
RP

Coordinates

Fingerprint
Database

Distance values
RSSI

PPM

Position


Matching

RSSI
values

Distance
values

PPM

Online testing phase

Mobile
User

Hình 2.1 Sơ đồ hệ thống định vị người dùng sử dụng WiFi.
Pha huấn luyện được thực hiện off-line với các bản đồ sóng vô tuyến được xây dựng
theo chu kỳ để tạo cơ sở dữ liệu dấu vân tay. Trong pha thử nghiệm, một thiết bị di
động sẽ liên tục quét các tín hiệu từ các APs lân cận và gửi các tín hiệu RSSI tương
ứng tới một máy chủ. Các giá trị này sau đó được chuyển thành các giá trị khoảng
cách nhờ mô hình truyền xác suất đề xuất (mô hình PPM). Đối sánh khoảng cách với
cơ sở dữ liệu dấu vân tay được thực hiện nhờ mô hình KNN để tìm ra vị trí của người
dùng.

2.2

Mô hình truyền xác suất

Với các thiết bị thu WiFi thông thường, ta chỉ có thể tính được khoảng cách từ

thiết bị tới các AP dựa vào các giá trị RSSI thu được trên thiết bị di động và mô hình
truyền sóng vô tuyến. Mô hình được xây dựng dựa trên thực tế là cường độ sóng vô
tuyến truyền trong môi trường sẽ bị suy giảm. Xem xét mô hình thực nghiệm được
dùng nhiều trong các công bố trước đó [11][5][12]:

r
P = P0 − 10nlog( )
r0

(2.1)

với P0 là cường độ tín hiệu thu được ở một khoảng cách tham chiếu đã biết r0 tính
theo đơn vị dBm, P là cường độ tín hiệu ở một khoảng cách chưa biết r, và n là số
5


mũ suy hao biểu diễn tỷ lệ suy hao tăng theo khoảng cách. Phương trình 2.1 biểu diễn
mối quan hệ giữa RSSI P và khoảng cách r từ thiết bị di động tới AP, với các tham số
P0 , r0 và n được xác định bằng thực nghiệm. Từ các tham số này, ta có thể tính được
khoảng cách dựa vào RSSI.
Phương trình 2.1 là mô hình truyền trong môi trường không có vật cản giữa AP
và thiết bị di động. Khi xét vật cản tường và trần nhà, cần tính đến suy giảm tín hiệu
gây ra bởi các vật cản này, khi đó phương trình truyền sẽ là:

r
P = P0 − 10nlog( ) − kd
r0

nw


i=1

di
cosβi

(2.2)

với nw là số lượng tường và trần giữa AP và thiết bị di động, di là độ dày của tường/trần
thứ i, với i là góc tới tương ứng với tường/trần thứ i, k là nhân tố suy giảm trên mỗi
đơn vị độ dày tường/trần, như minh họa ở hình sau:

Hình 2.2 WiFi signal attenuation through walls/floors.
Nhìn chung, có thể mở rộng kd tùy thuộc vào từng tường/trần.
Phương trình 2.2 là mô hình tất định, vì không tính đến sự thay đổi RSSI ở một
khoảng cách nhất định nào đó. Để khắc phục hạn chế này, chúng tôi đề xuất mô hình
truyền xác suất. Thực tế, với một giá trị RSSI P , khoảng cách r không phải chính xác
là giá trị được tính toán từ phương trình 2.2, mà nó thuộc một lân cận của giá trị này,
kí hiệu là r¯. Nói một cách chính xác hơn, r¯ là giá trị đề cử của khoảng cách r với xác
suất cực đại. Với một giá trị RSSI P , phân bố khoảng cách được giả thiết tuân theo
phân bố chuẩn (phân bố Gauss) với trung bình r¯:
−(r−¯
r )2
1
ρ(r, P ) = Pr (r|P ) = √ e 2σ2
σ 2π

(2.3)

với σ là độ lệch chuẩn, cũng là hàm của P . Để đơn giản, giả thiết σ và r¯ có quan hệ


6


tuyến tính như sau:
σ = kσ r¯
2.2.1

Ước lượng tham số

2.2.2

Giảm độ phức tạp của giải thuật

2.3

(2.4)

Cơ sở dữ liệu dấu vân tay và đối sánh KNN

Thông thường, bản đồ vô tuyến trong phương pháp dấu vân tay được xác định
như sau:
R {(pi , F(pi )) | i = 1 , .., N }
(2.5)
với pi [px py pz ]T là các tọa độ thế giới thực của điểm tham chiếu thứ ith và F(pi )
[ri (1) ,..,ri (n)] là ma trận dấu vân tay, với n là số mẫu huấn luyện ở từng điểm tham
chiếu. Vector ri (t) [ri1 (t), .., riL (t)]T gồm các giá trị RSSI thu nhận được từ L AP ở
thời điểm t và vị trí pi . Sử dụng đặc trưng khoảng cách thay bằng đặc trưng RSSI
thông thường, bản đồ môi trường trong phương trình 2.5 khi đó có ma trận vân tay
F(pi )
[di (1) ,..,di (n)], với vector di (t) [di1 (t), .., diL (t)] gồm các mẫu khoảng cách

di từ điểm tham chiếu thứ ith tới L AP. Từ đó ta xây dựng được bản đồ vô tuyến ổn
định và tin cậy ngay cả khi có một số AP nào đó bị ngừng hoạt động ở một thời điểm
nhất định. Hơn nữa, chi phí cho việc xây dựng và cập nhật dấu vân tay sẽ thấp hơn
thông thường. Chỉ cần xây dựng lại khi có thêm AP và điểm tham chiếu hoặc khi loại
bỏ bớt chúng.
Trong pha thử nghiệm, các giá trị RSSI thiết bị di động thu được từ các AP lân
cận sẽ được chuyển đổi sang các giá trị khoảng cách tương ứng nhờ mô hình suy hao đề
cập ở trên. Chúng sẽ được so sánh với dữ liệu huấn luyện để tìm ra mẫu phù hợp nhất.
Phương pháp đối sánh sử dụng trong nghiên cứu này là KNN. Trong KNN, một mẫu
thử được dự đoán dựa trên các lân cận gần nhất với nó trong dữ liệu huấn luyện. Có 3
thành phần chính là phép đo sự giống nhau (phép đo khoảng cách); số lượng lân cận
sử dụng trong dự đoán; trọng số của lân cận. Khoảng cách Euclidean và Manhattan
là hai phép đo hình học thông dụng, trong đó Euclidean là phép đo thông dụng nhất
trong định vị WiFi [13], [4]. Trong nghiên cứu này, chúng tôi đánh giá KNN với phép
đo Euclidean.

2.4
2.4.1

Các kết quả thử nghiệm
Môi trường và dữ liệu thử nghiệm

Các thử nghiệm được thực hiện ở hai tòa nhà khác nhau, một tại tầng 8 của tòa
nhà 11 tầng, và tại tầng 2 của tòa nhà hai tầng. Tất cả trần nhà của các tòa nhà này
đều có độ cao 4 m với độ dày tường bê tông là 0.2 m. Để tạo dữ liệu dấu vân tay, chúng
tôi xây dựng một ứng dụng cho thiết bị di động thu cường độ tín hiệu từ các APs lân
7


cận, với chu kỳ thu nhận là 2 giây một lần thu. Thông tin thu nhận sẽ được tải lên

một cơ sở dữ liệu MySQL, hoặc lưu ngoại tiếp vào file XML. Trong quá trình thu thập
dữ liệu dấu vân tay, trước khi chuyển hướng chuyển động, người dùng sẽ phải ấn vào
nút Marker trên ứng dụng để đánh dấu tuyến đường thẳng mình vừa di chuyển. Do
tọa độ của các điểm đánh dấu đã được xác định trước đó, nên tọa độ của các vị trí thu
giữa hai điểm đánh dấu liên tiếp có thể được tính nội suy từ các điểm này. Các vị trí
cùng với tọa độ của chúng sẽ được lưu lại dưới dạng file nhị phân trong cơ sở dữ liệu
dấu vân tay.
2.4.2

Các thử nghiệm cho mô hình truyền

2.4.3

Các thử nghiệm định vị

Bảng 2.1 cho thấy lỗi định vị ở độ tin cậy 90 % khi sử dụng đặc trưng khoảng
cách cao hơn một chút so với sử dụng đặc trưng RSSI. Thử nghiệm này được thực hiện
với tham số λ. Tuy nhiên, khi không sử dụng λ, độ tin cậy định vị của đặc trưng RSSI
giảm, trong khi thông số này là ổn định với đặc trưng khoảng cách. Các kết quả này
được biểu diễn ở Bảng 2.2, với lỗi ở độ tin cậy 90 % đối với đặc trưng RSSI là 3.55 m,
tuy nhiên với đặc trưng khoảng cách là 2.9 m.
Bảng 2.1 Các đánh giá cho ngữ cảnh thử nghiệm thứ nhất với các đặc trưng khoảng
cách và RSSI
Fingerprint
Feature
RSSI
Distance

Maximal error
(m)

6.3
6.27

Average error
(m)
1.86
1.89

Error at reliability of 90%
(m)
2.99
2.98

Bảng 2.2 Kết quả định vị cho ngữ cảnh thử nghiệm thứ nhất với các đặc trưng khoảng
cách và RSSI không sử dụng tham số λ.
Fingerprint
Feature
RSSI
Distance

2.5

Maximal error
(m)
6.06
6.5

Average error
(m)
1.76

1.59

Error at reliability of 90%
(m)
3.55
2.9

Kết luận

CHƯƠNG 3

ĐỊNH VỊ NGƯỜI DÙNG DỰA TRÊN HÌNH ẢNH
3.1

Giới thiệu

Trong nghiên cứu này, chúng tôi xem xét ngữ cảnh giám sát thời gian thực, trong
đó người di chuyển từ một trường quan sát của camera này tới trường quan sát của
8


camera khác. Do đó, các bài toán sau được xem xét cho định vị người trong mạng
camera:
❼ Trong từng trường quan sát của camera, định vị người được thực hiện bởi phát

hiện, theo vết và định vị.
❼ Định danh lại người và liên kết các quỹ đạo người được thực hiện khi người di

chuyển từ một trường quan sát của camera này tới các trường quan sát khác.
Hình 3.1 biểu diễn sơ đồ khối chung của hệ thống định vị người trong mạng camera.

Trong mỗi trường quan sát của camera, phát hiện người được thực hiện ở từng khung
Camera 1

Camera 2

Input
frames

Input
frames

Human Detection

Human Detection

ROI & FootPoint

ROI & FootPoint

Human Tracking

Human Tracking

Tracked FootPoints

Tracked FootPoints

Human Localization

Human Localization


Positions
& IDs

Re-identification
&
Linking trajectories

Positions
& IDs

Hình 3.1 Sơ đồ hệ thống định vị người trong mạng camera.
hình để đưa ra kết quả vùng người quan tâm (hộp bao hình chữ nhật quanh người).
Vị trí người trên ảnh được xác định trong nghiên cứu này là trung điểm của cạnh
hình chữ nhật tiếp xúc với mặt sàn (xem Hình 3.2). Điểm này gọi là vị trí điểm chân
người FootPoint. Theo vết người trong một chuỗi khung hình thu được từ một trường
quan sát camera là quá trình theo vết các điểm chân người. Trong trường hợp có nhiều
người, mỗi điểm chân được phát hiện cần được gán với định danh tương ứng. Định vị
người được thực hiện bằng cách chuyển các vị trí điểm chân trên tọa độ ảnh sang các
vị trí trong tọa độ thế giới thực trên mặt phẳng sàn.
Khi một người dịch chuyển từ một trường quan sát này sang trường quan sát
khác, định danh và vị trí tương ứng cần được cập nhật. Quá trình cập nhật này gọi là
định danh lại và liên kết quỹ đạo chuyển động của người.
- Phát hiện người: Như đã nêu ở phần các nghiên cứu có liên quan, có hai hướng
tiếp cận cho phát hiện người: phát hiện dựa trên chuyển động và phát hiện với bộ phân
lớp người. Hướng đầu tiên gồm phương pháp thông dụng là trừ nền, vốn phù hợp cho
các ứng dụng thời gian thực. Tuy nhiên, trong nhiều trường hợp, các kết quả phát hiện
9



Hình 3.2 Ví dụ các quỹ đạo chuyển động của người được tạo ra từ liên kết quỹ đạo
của các vị trí đểm chân FootPoint tương ứng.
không hoàn chỉnh (hộp bao chữ nhật không bao trọn cơ thể người) gây ra bởi nhiễu
hay bóng. Nó làm giảm độ chính xác định vị. Hướng thứ 2 xuất hiện phát hiện sai, hay
không phát hiện được đối tượng nếu ta không có các mô hình được huấn luyện tốt.
Ngoài ra, các phương pháp thuộc hướng tiếp cận này yêu cầu thời gian tính toán lớn
hơn, do đó không thích hợp với các tiến trình thời gian thực. Ưu điểm của nó là các
kết quả phát hiện đúng hầu hết là kết quả hoàn thiện (hộp chữ nhật bao trọn người)
và có thể phát hiện người khi không di chuyển hay người bị che khuất một phần.
Để xây dựng một bộ phát hiện người hiệu quả cho định vị trong hệ thống giám
sát thời gian thực, chúng tôi đề xuất một số cải tiến sau:
❼ Kết hợp Adaptive GMM [25] với HOG-SVM [8] nhằm tận dụng ưu điểm của từng

phương pháp.
❼ Đề xuất một phương pháp khử bóng hiệu quả nhằm cải thiện kết quả phát hiện

người, từ đó cải thiện hiệu quả của các bước tiếp theo trong định vị và định danh
lại người.
- Theo vết người: Theo vết được thực hiện dựa trên các kết quả phát hiện. Như
đã nêu trong phần các công trình có liên quan, mỗi phương pháp theo vết có ưu, nhược
điểm riêng. Tuy nhiên, đối với các ứng dụng mà môi trường không quá phức tạp như
trong trường hợp chúng tôi xem xét, bộ lọc Kalman [24] là lựa chọn phù hợp với một
số lợi ích sau:
❼ Dễ tính toán và triển khai.
❼ Giảm nhiễu tạo ra bởi các phát hiện không chính xác.
❼ Dự đoán vị trí của đối tượng trong trường hợp không phát hiện được đối tượng

ở một số khung hình.

10



❼ Cho phép gán từng đối tượng với quỹ đạo tương ứng.

Ngoài ra, trong nghiên cứu này, chúng tôi đề xuất sử dụng giải thuật gán dữ liệu cùng
với bộ lọc Kalman nhằm cải thiện hiệu quả theo vết đối tượng.
- Định vị và liên kết các quỹ đạo chuyển động của người: Để định vị người
trên hệ tọa độ thế giới thực, các bước sau được thực hiện:
❼ Định nghĩa một bản đồ 2D của mặt sàn nơi người di chuyển. Bản đồ này chứa

tất cả các trường quan sát camera.
❼ Tính toán các tọa độ của từng vị trí chân người trên bản đồ 2D dựa trên kỹ

thuật hiệu chỉnh camera và biến đổi hormography.
Các quỹ đạo của từng người qua các camera được liên kết với nhau nhờ nối nhiều
trường quan sát camera dựa trên kỹ thuật hiệu chỉnh stereo.
- Định danh lại người: Trong ngữ cảnh của hệ thống giám sát thời gian thực,
khi một người xuất hiện lần đầu trong một trường quan sát camera, cần chỉ ra vị trí và
danh tính tương ứng của người đó. Thông tin này sau đó sẽ được cập nhật liên tục ở
các chuỗi khung hình tiếp theo khi người di chuyển trong một trường quan sát camera,
hay dịch chuyển từ một trường quan sát này sang trường quan sát khác. Việc cập nhật
danh tính người trong mạng camera được gọi là định danh lại. Đóng góp của luận án
cho bài toán định danh lại người trong mạng camera được trình bày ở chương 5.

3.2

Các cơ sở dữ liệu thử nghiệm

Để đánh giá hiệu quả của các phương pháp đề xuất cho định vị và định danh
người trong hệ thống giám sát nhiều camera, một số cơ sở dữ liệu mới được xây dựng

cho một môi trường tòa nhà cụ thể với các ngữ cảnh giám sát thời gian thực được xem
xét.

3.3

Khử bóng

Trong nghiên cứu này, chúng tôi đề xuất một phương pháp khử bóng hiệu quả.
Phương pháp gồm sơ đồ kết hợp score dựa trên mật độ phân bố xác suất, cùng với
phương pháp học được áp dụng cho khử bóng. Hai kiểu đặc trưng khác nhau trong
vùng bóng được trích chọn. Đó là đặc trưng chromaticity và đặc trưng vật lý. Hai lân
lận hay score bóng được tính toán từ các đặc trưng này. Một tỷ lệ lân cận là một score
bóng hay không bóng được tính toán. Các xác suất của bóng và không bóng được ước
lượng dựa trên cơ sở các phân bố xấp xỉ của các score bóng sử dụng GMM.

11


3.3.1

Trích chọn đặc trưng Chromaticity và tính toán score bóng

3.3.2

Tính toán score bóng sử dụng đặc trưng vật lý

3.3.3

Sơ đồ kết hợp score dựa trên hàm mật độ phân bố xác suất bóng


Sơ đồ này được xây dựng dựa trên sơ đồ kết hợp score trong [17]. Coi s = (s1 , s2 )
là biểu diễn score hai thành phần s1 và s2 được tính toán từ 3.3.1 và 3.3.2. Phép thử
tối ưu cho phép gán một vector score s cho lớp shadow hay nonshadow là phép thử
tỷ lệ lân cận fshadow (s)/fnonshadow (s), với fshadow (s) và fnonshadow (s) là các hàm mật độ
của dữ liệu huấn luyện bóng và không bóng. Các ước lượng fshadow (s) và fnonshadow (s)
là các hỗn hợp Gauss.
Giải thuật 1: Shadow pixel separation
Input: image I and a threshold ζ
Output: shadow pixels SD
Initialize an empty set SD;
for pixel pi in image I with the estimates of fshadow and fnonshadow do
Calculate fshadow , fnonshadow by Equations 3.3.1 and 3.3.2;
L = fshadow /fnonshadow ;
if L > ζ then
SD = SD ∪ {pi }
end
end
return (SD);
3.3.4

Đánh giá thử nghiệm

Hình 3.3 thể hiện kết quả khử bóng khi áp dụng phương pháp đề xuất và các
phương pháp khác trong [20].
Shadow Removal Performance (%)

100
90
80
70

60
50
40
30
20
10
0
Physics

Chromaticity

SR Texture

Detection rate

Geometry

LR Texture

Proposed
method

Discrimination rate

Hình 3.3 Các kết quả khử bóng khi áp dụng phương pháp đề xuất và các phương pháp
khác trong [20].

12



3.4

Phát hiện người

3.4.1

Kết hợp trừ nền và HOG-SVM

Giải thuật 2: Fusion of adaptive GMM and HOG-SVM for human detection
Input: image I
Output: human ROI
Initialize an empty set ROI
ROIGM M = adaptiveGMM (I );
if ROIGM M = ∅ then
for ROIi in ROIGM M do
ROIext = extend (ROIi );
ROIHOG = HOGSVM (ROIext );
for ROIj in ROIHOG do
if ROIj = ∅ then
ROI = ROI ∪ {ROIi };
else
ROI = ROI ∪ {ROIj };
end
end
end
else
ROI = HOGSVM (I );
end
return (ROI );
Trong nghiên cứu này, chúng tôi đề xuất sử dụng kết hợp GMM thích nghi [22]

và HOG-SVM [8] cho phát hiện người. Việc kết hợp này cho phép phát huy được ưu
điểm tính toán nhanh của GMM và khả năng tách người tốt của HOG-SVM. GMM
thích nghi phù hợp với các ứng dụng thời gian thực, tuy nhiên trong trường hợp có
nhiều người đứng cạnh nhau hay bị che khuất, GMM không thể phát hiện tách biệt
từng người. Chúng ta có thể khắc phục phần nào hạn chế này của GMM bằng cách áp
dụng bộ phát hiện người HOG-SVM. Tuy nhiên, thời gian tính toán HOG-SVM nhiều
hơn so với hầu hết các giải pháp trừ nên. Việc kết hợp hai kỹ thuật nhằm đạt đồng
thời hai mục đích cho phát hiện người là độ chính xác và yêu cầu thời gian thực.
Giải thuật 2 thể hiện kết hợp GMM thích nghi với HOG-SVM cho phát hiện người.
3.4.2
3.4.2.1

Đánh giá thử nghiệm
Cở sở dữ liệu và các tiêu chí đánh giá

Để sử dụng bộ phát hiện HOG-SVM hiệu quả trong môi trường thử nghiệm, chúng
tôi sử dụng cơ sở dữ liệu MICA1 và INRIA [8] cho huấn luyện bộ mô tả HOG. Dữ liệu
13


MICA2 được dùng cho pha thử nghiệm HOG-SVM. Trong nghiên cứu này, chúng tôi
xác định giới hạn cực đại 120×300 pixels và cực tiểu 25×80 cho vùng ROI chứa người.
Bộ mô tả HOG trong thư viện OpenCV có độ phân giải chuẩn hóa cho ảnh ROI là
64×128.
3.4.2.2

Các kết quả thử nghiệm

Bảng 3.1 thể hiện các kết quả so sánh khi áp dụng phương pháp HOG-SVM và
kết hợp HOG-SVM với GMM thích nghi. Hiệu quả của phương pháp khử bóng đề xuất

(được trình bày trong 3.3) đối với phát hiện người cũng được đánh giá trong phần
này. Các thử nghiệm được tiến hành ở 3 ngữ cảnh một người, hai người và ba người di
chuyển trên cùng một hành trình. Trong trường hợp hai và ba người di chuyển, xuất
hiện các tình huống thách thức về che khuất giữa người với người và hiện tượng bóng
phức tạp.
Bảng 3.1 Hiệu quả phát hiện người sử dụng HOG-SVM, kết hợp HOG-SVM với GMM
thích nghi áp dụng và không áp dụng khử bóng trên dữ liệu MICA2.
Methods
HOG-SVM
HOG-SVM+Adaptive GMM without SR
HOG-SVM+Adaptive GMM with SR

3.5

One person
67.13
84.49
92.13

Precision (%)
Two people Three people
58.17
47.97
71.52
64.62
83.27
76.31

One person
52.11

70.05
82.17

Recall (%)
Two people Three people
44.63
38.92
62.49
51.29
70.04
63.87

Theo vết và định vị người

3.5.1

Bộ lọc Kalman

3.5.2

Theo vết người và liên kết dữ liệu

3.5.3

Định vị và liên kết quỹ đạo người trong mạng camera

3.5.3.1

Định vị người


Để định vị người trong hệ tọa độ thế giới thực, chúng tôi định nghĩa một bản
đồ 2D của mặt sàn nơi người di chuyển. Bản đồ này chứa tất cả các trường quan sát
camera, và các quỹ đạo chuyển động của người trong hệ tọa độ thế giới thực sẽ được
hiển thị trong bản đồ này. Các bước sau đây được đề xuất cho định vị trên hệ tọa độ
thế giới thực:
❼ Hiệu chỉnh camera
❼ Chống méo khung hình.
❼ Chuyển tọa độ ảnh của các vị trí FootPoint sang các vị trí trên hệ tọa độ thế giới

thực.

14


3.5.3.2

Liên kết các quỹ đạo người trong mạng camera

Liên kết quỹ đạo người trong mạng camera liên quan tới tiến trình cập nhật vị trí
và ID tương ứng khi người dịch chuyển từ một trường quan sát của camera này sang
các trường quan sát của các camera khác. Dựa trên giả thiết tất cả đối tượng đều di
chuyển trên một mặt phẳng sàn duy nhất có chứa các camera quan tâm, và bằng cách
chuyển các vị trí FootPoint trên tọa độ ảnh sang tọa độ thế giới thực của mặt phẳng
sàn 2D, chúng ta có thể liên kết các quỹ đạo người từ các camera khác nhau và biểu
diễn các hành trình của người trên một mặt phẳng duy nhất. Để thực hiện, chúng tôi
đề xuất một phương pháp hiệu quả cho phép kết nối các quỹ đạo chuyển động của
người từ các camera khác nhau. Phương pháp dựa trên cơ sở nối nhiều trường quan
sát camera bằng kỹ thuật hiệu chỉnh stereo.
3.5.3.3


Các kết quả thử nghiệm

Các thử nghiệm được thực hiện và đánh giá ở 3 trường quan sát khác nhau của
Cam 1 (cảnh ở sảnh tòa nhà), Cam 2 (cảnh hành lang tòa nhà) và Cam 4 (cảnh trong
phòng showroom). Dữ liệu MICA2 với các cảnh hai người di chuyển qua các trường
quan sát camera được xem xét trong các đánh giá thử nghiệm.

3.6

Kết luận

Hệ thống định vị người được thử nghiệm trên một mặt phẳng sàn nhiều camera.
Các điều kiện chiếu sáng khác nhau và sự che khuất được xem xét. Các kết quả thử
nghiệm là có triển vọng, tuy nhiên, trong thời gian tới, các tình huống phức tạp của
theo vết nhiều người trong đám đông nên được xem xét đánh giá.

CHƯƠNG 4

ĐỊNH DANH VÀ ĐỊNH DANH LẠI NGƯỜI TRONG
MẠNG CAMERA
Như đã trình bày trong phần Giới thiệu, các phương pháp đề xuất cho định vị và
định danh người được xem xét trong ngữ cảnh của hệ thống giám sát người tự động
sử dụng nhiều camera. Trong hệ thống này, trước khi người bước vào hoặc ra khỏi khu
vực giám sát, người đó sẽ được kiểm tra vào/ra nhờ hệ thống nhận dạng mặt người.
Trong chương 3, việc gán định danh cho từng vị trí chân người FootPoint được thực
hiện bởi tiến trình theo vết, và ta gọi đó là định danh bằng theo vết. Tuy nhiên, hiện
tượng gán nhầm định danh cho vết dễ xảy ra khi người xuất hiện trở lại trong một
trường quan sát camera hay khi người chuyển từ một vùng quan sát này sang vùng
quan sát khác. Để có thể duy trì đúng người theo quỹ đạo chuyển động tương ứng, bài
toán định danh lại người trong ngữ cảnh theo vết bằng định danh được đề xuất trong

15


chương này. Điều này có nghĩa là ở từng vị trí FootPoint, ta thực hiện trích chọn vùng
ảnh chứa người ROI và một bộ mô tả được xây dựng cho vùng này. Ở khu vực kiểm
tra đầu vào, mỗi người trước khi di chuyển vào vùng giám sát sẽ được hệ thống huấn
luyện bằng một bộ mô tả người dựa trên diện mạo, và quá trình đối sánh để gán nhãn
đối tượng được thực hiện với từng kết quả phát hiện người thu được trong vùng giám
sát.
Trong Chương 1, chúng tôi cũng đề cập tới nhiều hướng tiếp cận khác nhau cho
bài toán định danh lại người trong mạng camera, trong đó các phương pháp dựa trên
diện mạo là thông dụng nhất. Tuy nhiên, xây dựng được một bộ mô tả người mạnh
vẫn còn nhiều thách thức. Trong nghiên cứu này, chúng tôi tiếp cận theo hướng xây
dựng bộ mô tả dựa trên diện mạo, và đề xuất áp dụng bộ mô tả hàm nhân KDES cho
định danh lại người trong mạng camera. Bộ mô tả này được giới thiệu lần đầu tiên bởi
[7] cho bài toán nhận dạng đối tượng. Sau đó các tác giả trong [18] đã thực hiện một
số cải tiến trên bộ mô tả gốc và chứng minh tính hiệu quả của nó đối với bàn toán
nhận dạng cử chỉ tay. Bộ mô tả nhân KDES cải tiến này sẽ được áp dụng cho bài toán
định danh lại người trong nghiên cứu của chúng tôi.

4.1

Định danh người dựa trên cở sở mặt người

4.1.1

Sơ đồ

4.1.2


Đánh giá thử nghiệm

4.1.2.1

Các ngữ cảnh thử nghiệm

4.1.2.2

Các phép đo

4.1.2.3

Dữ liệu thử nghiệm và các kết quả

4.2
4.2.1

Định danh lại người dựa trên cở sở diện mạo
Sơ đồ

Sơ đồ hệ thống định danh lại người dựa trên hình ảnh được đưa ra trong Hình 4.1,
gồm hai giai đoạn chính là phát hiện và định danh lại người. Giai đoạn đầu đã được
Input
Frames

Human Detection

Person Re-ID

BGS with Shadow

Detection
Removal

Feature
Descriptor

ID
Classification

Hình 4.1 Sơ đồ hệ thống định danh lại người dựa trên hình ảnh.
nêu trước đó ở Chương 3 và dựa trên các kết quả phát hiện người, ở giai đoạn 2, định
danh người được thực hiện dựa trên bộ mô tả KDES mạnh và một bộ phân lớp. Bộ
mô tả đặc trưng được xây dựng dựa trên các đặc trưng được trích chọn từ vùng ROI
người, sau đó áp dụng bộ phân lớp để học mô hình người và dự đoán ID tương ứng.
16


4.2.2

Bộ mô tả nhân cải tiến cho diện mạo người

Trong nghiên cứu này, 3 hàm nhân hướng, màu và cấu trúc được tạo ra từ các
thuộc tính pixel khác nhau của hướng, màu, và cấu trúc. Với từng nhân, trích chọn
đặc trưng được thực hiện ở 3 mức: pixel, patch và toàn bộ ảnh. Vector đặc trưng cuối
cùng được kết hợp từ 3 vector đặc trưng mức ảnh của hướng, màu, và cấu trúc.
Sau khi tính toán bộ mô tả KDES, áp dụng bộ phân đa lớp SVM để huấn luyện
mô hình cho từng người. Đối với từng mẫu phát hiện, một danh sách các đối tượng
xếp hạng được tạo ra dựa trên cơ sở các xác suất của lớp trả về bởi phân lớp SVM.
4.2.3


Các kết quả thử nghiệm

4.2.3.1

Các cơ sở dữ liệu thử nghiệm

Trong nghiên cứu này, 7 cơ sở dữ liệu chuẩn được chọn để đánh giá bộ mô tả
KDES đề xuất: CAVIAR4REID, i-LIDS, iLIDS-VID, ETH, RAiD, WARD, và HDA.
Các bộ cơ sở dữ liệu này phù hợp cho các đánh giá so sánh của định danh lại người
trong ngữ cảnh giám sát tự động hoàn toàn thời gian thực. Các bộ cơ sở dữ liệu này
đã được sử dụng trong các nghiên cứu có liên quan [6], [9], [2], [21], [23] và [10]. Cơ
sở dữ liệu MICA1 và MICA2 do chúng tôi xây dựng cũng được sử dụng trong các thử
nghiệm định danh lại người.

Bảng 4.1 Các cơ sở dữ liệu sử dụng cho định danh lại người. Ký hiệu ( ) ở cột cuối
bảng thể hiện mức độ thay đổi trong một lớp của các cơ sở dữ liệu.
Dataset
ETHZ 1,2,3
iLIDS
CAVIAR4ReID
WARD
RAiD
iLIDS-VID
HDA
MICA 1, 2

4.2.3.2

Release
time

2007
2009
2011
2012
2014
2014
2014
2015

# identities

# cameras

Label method

Crop size

Multi-shot

85,35,28
69
72
70
43
300
78
25, 40

1
1

2
3
4
2
13
5, 3

Hand
Hand
Hand
Hand
Hand
Hand
Hand, Auto
Hand, Auto

Vary
128x64
Vary
128x48
128x64
Vary
Vary
Vary

Yes
Yes
Yes
Yes
Yes

Yes
Yes
Yes

Tracking
sequences
Yes
Yes
No
Yes
No
Yes
Yes
Yes

Intra-class
Variation
√√

√√√
√√√
√√√
√√√
√√√√
√√√√

Các kết quả và bàn luận

Bảng 4.2 thể hiện tóm tắt các đánh giá so sánh về tỷ lệ nhận dạng Rank 1 trên
các bộ cơ sở dữ liệu thử nghiệm khác nhau.


17


Bảng 4.2 Các đánh giá so sánh định danh lại người trên Rank 1 (%) với các phương
pháp và cơ sở dữ liệu thử nghiệm khác nhau (Ký hiệu "×" có nghĩa là không thực hiện
thử nghiệm. Với dữ liệu iLIDS, có hai thiết lập thử nghiệm như mô tả trong [6] và trong
[2].
Datasets
CAVIAR4REID
iLIDS 37
iLIDS 2
ETHZ1
ETHZ2
ETHZ3
WARD
RAiD
HDA, MANUALall
HDA, MANUALclean
HDA, FP ON OCC OFF
HDA, FP OFF OCC ON
HDA, FP OFF OCC OFF
HDA, FP ON OCC ON
iLIDS-VID
MICA 1

4.3

AHPE
[6]

8.2
42
x
x
x
x
x
x
x
x
x
x
x
x
x
x

Rank1 recognition rate of different Person Re-ID methods (%)
SDALF Direct Stein RDC PLS DVD Method in Original Proposed
[9]
[2]
[2]
[21]
[23]
[10]
KDES
method
x
x
x

x
x
x
67.7
73.8
37.8
x
x
x
x
x
57
64.2
50
44
53.2
x
x
x
61.7
66.1
x
x
x
79
x
x
80
85
x

x
x
74
x
x
76.7
79.8
x
x
x
77
x
x
75.6
82.3
x
x
x
x
x
x
43.1
47.3
x
x
x
x
x
x
50.2

54.1
x
x
x
x
x
31.2
31
41.6
x
x
x
x
x
18.7
18.6
26.8
x
x
x
x
x
62.3
71.9
79.4
x
x
x
x
x

5.4
17.8
29.7
x
x
x
x
x
5.2
31.7
40.9
x
x
x
x
x
66.7
57.6
70.9
x
x
x
x
23.3
x
22.2
24.2
30
x
x

x
x
x
67.1
73.1

Kết luận

Trong chương này, chúng tôi xem xét các bài toán định danh và định danh lại
người trong hệ thống giám sát người tự động hoàn toàn. Để kiểm soát người ra/vào
vùng giám sát, chúng tôi đề xuất sử dụng hệ thống nhận dạng mặt người. Trong vùng
giám sát nhiều camera, bài đoán định danh lại người được giải quyết bằng một bộ mô
tả KDES mạnh. Hiệu quả của bộ mô tả diện mạo này được đánh giá không chỉ trên
vùng ROI được trích chọn thủ công mà cả tự động hoàn toàn. Chúng tôi chỉ ra rằng
các kết quả phát hiện tự động đặt ra nhiều thách thức hơn cho bài toán định danh lại
người trong mạng camera. Hầu hết các cơ sở dữ liệu đã có cho định danh lại người tập
trung vào phát hiện thủ công, do đó, chúng tôi sử dụng kết quả phát hiện người tự
động từ dữ liệu MICA2 cho các thử nghiệm định danh lại, với các ngữ cảnh thực của
hệ thống giám sát người tự động hoàn toàn.

CHƯƠNG 5

KẾT HỢP WIFI VÀ CAMERA CHO ĐỊNH VỊ VÀ
ĐỊNH DANH NGƯỜI
Trong nghiên cứu này, chúng tôi đề xuất một hệ thống kết hợp WiFi và camera
nhằm tăng lượng thông tin giá trị cho định vị và định danh lại người. Việc kết hợp
nhằm đạt được các mục tiêu sau:
❼ Cải thiện hiệu quả theo vết và định danh lại người trong mạng camera. Chi tiết

18



sẽ được trình bày ở các phần tiếp theo.
❼ Cải thiện chi phí tính toán: Các kết quả định vị thu được từ hệ thống WiFi được

xem như kết quả thô để kích hoạt tiến trình định vị ảnh ở các camera thuộc vùng
kết quả định vị trả về từ hệ thống WiFi. Điều này giúp giảm chi phí tính toán
của hệ thống. Chỉ có các camera trong các vùng định vị trả về từ hệ thống WiFi
sẽ được xử lý cho định vị và định danh, các camera khác sẽ không được kích hoạt
các tiến trình này.

5.1
5.1.1

Hệ thống kết hợp WiFi và camera cho định vị và định danh
lại người
Sơ đồ
Input sensors

WiFi

Unimodality Processing

WiFi-based localization

Multimodality Processing

PW , IDW

Fusion


Camera 1

……

Vision-based localization

PC , IDC

Detection
Tracking

Camera n

P, ID

Localization

Identification
&
Re-ID

Hình 5.1 Sơ đồ hệ thống định vị và định danh lại người sử dụng kết hợp WiFi và
camera.
Hình 5.1 minh họa sơ đồ hệ thống tích hợp WiFi và camera cho định vị và định
danh lại người trong mạng camera.
5.1.2

Phương pháp kết hợp


Giải thuật 3 thể hiện phương pháp kết hợp WiFi và camera cho định vị và định
danh người. Ở thời điểm t, trên bản đồ mặt sàn 2D, một tập các quan sát vị trí từ hệ
c
thống WiFi (zw
i,t ) hay camera (zj,t ) cho nhiều người được đưa ra. Chỉ số i là một trong
số N đối tượng được định vị bởi hệ thống WiFi, và chỉ số j chỉ một trong số M vị trí
được quan sát bởi hệ thống camera.
Chúng tôi xem xét đệ quy hai quan sát liên tiếp của các kết quả vị trí từ bất kỳ
nguồn cảm biến nào. Ở thời điểm t, giả sử chúng ta có một tập các quan sát vị trí từ
w
w
w
hệ thống WiFi cho N đối tượng, với zw
i,t = (Xi,t , Yi,t , IDi,t ). Nếu ở thời điểm trước đó
c
c
(t-1) chúng ta có được các quan sát zcj,t−1 = (Xj,t−1
, Yj,t−1
) cho M vị trí từ hệ thống
19


Giải thuật 3: Fusion of position observations from WiFi and camera systems for
person localization and Re-ID
Input: position observations z from WiFi and camera localization systems
Output: position estimations x
Parameters initiation: A, H , P 1 , Q, R;
for each set of position observations z do
w
w

w
if zi,t is from WiFi location system [zw
i,t = (Xi,t , Yi,t , IDi,t )] then
c
c
if zi,t−1 is from camera location system [zcj,t−1 = (Xi,t−1
, Yi,t−1
)] then
c
c
[xj,t ,Pt ] = KalmanPrediction(A,Q,zj,t−1 ,P t−1 );
Ki,t = Assignment(xcj,t , zw
i,t );
w
[xi,t , Pt ] = KalmanCorrection(H ,R,Ki,t , xt , P t );
Save xw
i,t as a state estimation at time t;
end
else
c
c
[zcj,t = (Xj,t
, Yj,t
)]
w
w
w
if zi,t−1 is from WiFi localization system [zw
i,t−1 = (Xi,t−1 , Yi,t−1 , IDi,t−1 )] then
w

w
[xi,t , P t ] = KalmanPrediction(A,Q,zi,t−1 ,P t−1 );
c
Ki,t = Assignment(xw
i,t ,zj,t );
[xw
i,t , P t ] = KalmanCorrection(H ,R,Ki,t ,xt ,P t );
Save xw
i,t as a state estimation at time t;
end
end
end
return (xw
i,t );
camera. Không mất tính tổng quát, chúng ta có thể coi các quan sát này như là các
ước lượng trạng thái ở thời điểm t-1. Bước dự đoán của bộ lọc Kalman sẽ được áp
dụng để ước lượng các trạng thái tiếp theo xcj,t dựa trên zcj,t−1 . Một giải thuật gán sau
đó được sử dụng để tìm ra mẫu phù hợp tối ưu giữa các trạng thái được ước lượng xcj,t
từ hệ thống camera với các quan sát (zw
i,t ) từ hệ thống WiFi.
5.1.2.1

Bộ lọc Kalman

5.1.2.2

Giải thuật gán tối ưu

5.2
5.2.1


Dữ liệu và các đánh giá thử nghiệm
Dữ liệu thử nghiệm

Theo như đánh giá của chúng tôi, hiện chưa có dữ liệu chuẩn nào cho định vị và
định danh kết hợp WiFi và camera. Để đánh giá giải thuật kết hợp cho định vị và định
danh lại người sử dụng hệ thống WiFi và camera, chúng tôi xây dựng cơ sở dữ liệu đa
phương thức cho các thử nghiệm.

20


5.2.2

Các kết quả thử nghiệm

5.2.2.1

Các kết quả thử nghiệm với kịch bản 1

Bảng 5.1 Các kết quả so sánh giải thuật kết hợp đề xuất với các đánh giá trong chương
4 với kịch bản thử nghiệm 1.
Evaluations in chapter 4
Hallway (Cam 1) Showroom (Cam 4)

The proposed fusion algorithm
Hallway (Cam 1) Showroom (Cam 4)

FN (%)


17.1

26.4

7.6

12.6

FP (%)

22.7

18.3

3.4

2.1

gID

28.3

11.6

4.9

2.3

GMOTA (%)


31.2

52.6

83.9

85.7

5.2.2.2

Các kết quả thử nghiệm với kịch bản 2

Bảng 5.2 Các kết quả thử nghiệm theo vết người bằng định danh và định danh lại
người với kịch bản thử nghiệm 2.
GMOTA (%)
Rank 1 (%)

5.3

Two people
31.7
12.6

Three people
16.5
8.9

Five people
11.2
5.6


Kết luận

KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP
THEO
Kết luận
Trong luận án, chúng tôi đề xuất một hệ thống giám sát người tự động trong môi
trường tòa nhà. Mỗi đối tượng trong hệ thống được giám sát bởi vị trí và ID được xác
định từ hai nguồn thông tin cảm biến WiFi và hình ảnh. Hệ thống kết hợp được triển
khai trong ngữ cảnh kiểm soát người ra vào vùng giám sát, và đối tượng giám sát ở
đâu trong vùng giám sát. Hướng tới việc xây dựng một hệ thống giám sát tự động
hoàn toàn như vậy trong môi trường tòa nhà, một số đóng góp được đưa ra trong luận
án như sau:
❼ Đối với bài toán định vị dựa trên WiFi: Đề xuất mô hình suy hao cải tiến và

phương pháp dấu vân tay. Kết quả định vị WiFi cho phép kích hoạt tiến trình
định vị tại các camera thuộc vùng định vị của WiFi.
❼ Đối với bài toán định vị người dựa trên ảnh: Gồm 3 bài toán con: phát hiện, theo

vết và định vị. Với mỗi bài toán, chúng tôi đề xuất một số cải tiến nhất định
nhằm tăng hiệu quả định vị:
21


– Đối với phát hiện người được xem là bước tiên quyết cho hệ thống định vị:
✯ Đề xuất mô hình kết hợp HOG-SVM và trừ nền GMM thích nghi. Mô

hình cho phép tận dụng ưu điểm tính toán nhanh của GMM và phát
hiện chính xác của HOG-SVM.
✯ Đề xuất phương pháp hiệu quả cho khử bóng, được xem là bước tiền


xử lý quan trọng cho phát hiện người. Khi áp dụng phương pháp khử
bóng đề xuất, hiệu quả phát hiện và định vị được cải thiện đáng kể.
– Với định vị: Đề xuất một phương pháp hiệu quả dựa trên hiệu chỉnh stereo,
cho phép liên kết quỹ đạo chuyển động và định vị liên lục đối tượng trong
mạng camera trên hệ tọa độ thế giới thực.
❼ Với bài toán định danh lại người dựa trên hình ảnh: Đề xuất sử dụng bộ mô tả

diện mạo người hiệu quả phù hợp với những thay đổi về kích thước và sự xoay
dịch của hình dạng người khi di chuyển ở các góc nhìn và các khoảng cách xa gần
khác nhau từ camera. Bộ mô tả người đề xuất cho phép định danh từng người ở
từng vị trí theo vết, và từ đó thực hiện định danh lại người khi người di chuyển
trong từng trường quan sát camera hay dịch chuyển từ một trường quan sát này
tới các trường quan sát khác.
❼ Đề xuất hệ thống kết hợp WiFi và camera với phương pháp kết hợp mới cho định

vị và định danh lại người. Việc kết hợp này cho phép giảm chi phí tính toán của
hệ thống. Ngoài ra, phương pháp kết hợp sử dụng bộ lọc Kalman và giải thuật
gán tối ưu được đề xuất để duy trì các kết quả định vị từ ảnh, đồng thời gán vị
trí với đối tượng tương ứng nhờ thông tin ID rõ ràng hơn từ hệ thống WiFi.
Đóng góp nêu trên có giá trị cho việc giải quyết bài toán giám sát người trong
môi trường WiFi và đa camera. Tuy nhiên, vẫn còn một số hạn chế trong các đóng góp
này:
❼ Trong định vị WiFi, chúng tôi cần một bản đồ môi trường được định nghĩa trước.

Bản đồ này chứa tất cả tường, sàn, và các vùng biên, vị trí, địa chỉ MAC của
từng AP. Việc tạo bản đồ cho môi trường lớn thực sự là một thách thức. Mặc dù
độ chính xác định vị dựa trên mô hình đề xuất đã được cải thiện nhưng so với
các kỹ thuật định vị khác như hình ảnh, RFID hay UWB thì kết quả này vẫn
còn khiêm tốn.

❼ Trong định vị dựa trên hình ảnh và định danh lại trong mạng camera, phương

pháp khử bóng đề xuất được chứng minh là hiệu quả cho phát hiện và định vị,
định danh lại người. Tuy nhiên, hạn chế của phương pháp là cần phải thực hiện
huấn luyện vùng bóng. Để định vị người trong hệ tọa độ thế giới thực, các kết
quả theo vết từ hệ tọa độ ảnh sẽ được chuyển sang hệ tọa độ thế giới thực. Chúng
22


tôi đề xuất phương pháp hiệu chỉnh camera để thực hiện chuyển đổi này, do đó
khá mất công sức khi hiệu chỉnh camera và độ chính xác của phép chuyển đổi
phụ thuộc nhiều vào bước hiệu chỉnh camera. Đối với định danh lại người, mặc
dù bộ mô tả người đề xuất là mạnh so với một số phương pháp mới khác, hiệu
năng định danh lại người về cả thời gian tính toán và bộ mô tả người vẫn cần
được cải thiện thêm, đặc biệt đối với các ứng dụng giám sát tự động hoàn toàn.
❼ Hướng tiếp cận kết hợp đề xuất của WiFi và camera cho định vị và định danh

lại người là triển vọng nhưng cần có thêm đánh giá với cảnh đông người.

Định hướng nghiên cứu tiếp theo
Các đóng góp được nêu trong luận văn tạo cơ sở cho các định hướng nghiên cứu
tiếp theo:
❼ Đối với định vị dựa trên WiFi:

– Dấu vân tay vẫn là một phương pháp thông dụng cho độ chính xác định vị
cao. Tuy nhiên, các lỗi phụ thuộc thiết bị là một thách thức, do đó cần xây
dựng bộ cơ sở dữ liệu vân tay đủ lớn cho các loại thiết bị WiFi khác nhau.
Ngoài ra, cần thực hiện thêm các nghiên cứu nhằm hạn chế tác động của
các lỗi phụ thuộc thiết bị.
– Các cảm biến khác sẵn có trong điện thoại di động, như cảm biến gia tốc,

hướng, la bàn nên được xem xét để cung cấp thêm nguồn thông tin hữu ích
cho định vị.
– Nên áp dụng thêm các phương pháp khác để cải thiện độ chính xác định vị,
như các giải thuật theo vết, hiệu chỉnh, các phương pháp lọc (ví dụ bộ lọc
Kalman hay lọc hạt), kết hợp với thông tin bản đồ và thông tin lịch sử vị
trí di chuyển.
❼ Đối với định vị dựa trên ảnh: Hiệu quả định vị phụ thuộc nhiều vào các bước

phát hiện, theo vết từ chuỗi khung hình và việc chuyển đổi từ tọa độ ảnh sang
tọa độ thế giới thực. Do đó, cần có thêm cải tiến cho từng bước này:
– Với phát hiện người: Khai thác hướng tiếp cận đa góc nhìn, như sử dụng
stereo camera, xây dựng mô hình 3D để xử lý hiện tượng che khuất hay phát
hiện người với kích thước nhỏ. Kết hợp các đặc trưng khác nhau, như HOG,
Haar, dáng điệu, chuyển động và các mô hình học khác nhau, như Boosting,
Multiple Kernel Learning, R-CNN hay DPM cũng là hướng nghiên cứu khả
thi cho phát hiện người. Ngoài ra, để cải thiện hiệu quả của phát hiện người,
các cải tiến cho khử bóng cũng cần được xem xét. Các kỹ thuật học online
cùng với hướng tiếp cận đa đặc trưng có thể được áp dụng để cải tiến hiệu

23


×