Tải bản đầy đủ (.docx) (139 trang)

Nghiên Cứu Giải Pháp Kết Hợp Ảnh Nhiệt Và Ảnh Màu Trong Bài Toán Phát Hiện Và Theo Vết Đối Tượng Người.docx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.35 MB, 139 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI

Đào Vũ Hiệp

NGHIÊNCỨUGIẢIPHÁPKẾTHỢPẢNHNHIỆT
VÀẢNHMÀUTRONGBÀITỐNPHÁTHIỆN
VÀTHEOVẾTĐỐITƯỢNGNGƯỜI

LUẬN ÁN TIẾN SĨ MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG DỮ
LIỆU

Hà Nội – 2023


BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI

Đào Vũ Hiệp

NGHIÊNCỨUGIẢIPHÁPKẾTHỢPẢNHNHIỆT
VÀẢNHMÀUTRONGBÀITỐNPHÁTHIỆN
VÀTHEOVẾTĐỐITƯỢNGNGƯỜI
Ngành: Mạng máy tính và truyền thơng dữ liệu
Mã số: 9480102

LUẬN ÁN TIẾN SĨ MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG DỮ
LIỆU

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Trần Quang Đức



Hà Nội - 2023


LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của bản thân trong thời gian học
tập và nghiên cứu dưới sự hướng dẫn của người hướng dẫn khoa học. Các số liệu, kết
quả trình bày trong luận án là trung thực và chưa từng được tác giả khác công bố.

HàNội,ngày

tháng
năm2023Nghiên

Giáo viên hướng dẫn

cứusinh

PGS. TS. TrầnQuangĐức

Đào VũHiệp

i


LỜI CẢM ƠN
Trong quá trình học tập và nghiên cứu, nghiên cứu sinh đã nhận được
nhiều sự giúp đỡ và ý kiến đóng góp q báu của các thầy, cơ. Đặc biệt, tơi xin
bàytỏlịngbiếtơnchânthànhvàsâusắcđếnPGS.TS.TrầnQuangĐức-người
hướng dẫn khoa học đã tận tình chỉ bảo, hướng dẫn để nghiên cứu sinh có thể

hồn thành luận án này. Nghiên cứu sinh xin gửi lời cảm ơn chân thành tới
PGS.TS. Nguyễn Linh Giang, TS. Trần Nguyên Ngọc, ThS Mạc Đình Hiếu và
các bạn sinh viên tại Trung tâm an tồn an ninh thơng tin/Trường Cơng nghệ
thông tin và Truyền thông/Đại học Bách Khoa Hà Nội đã nhiệt tình hướng dẫn,
giúp đỡ và tạo mọi điều kiện thuận lợi cho tơi trong suốt q trình thực hiện
Luận án.
Tôi xin cảm ơn cơ quan công tác, gia đình và người thân đã ln bên tơi,
ủng hộ và động viên tơi trong suốt q trình nghiênc ứ u .
Tôi xin chân thành cảm ơn!
HàNội,ngày

tháng

năm2023

Nghiên cứu sinh

Đào Vũ Hiệp

ii


MỤC LỤC
LỜI CAMĐOAN...........................................................................................................i
LỜI CẢMƠN................................................................................................................ii
DANH MỤC CÁC TỪVIẾT TẮT..............................................................................vi
DANH MỤC CÁCHÌNH VẼ......................................................................................ix
DANH MỤCCÁCBẢNG............................................................................................xii
MỞ ĐẦU.......................................................................................................................1
1. Bối cảnhnghiên cứu............................................................................................1

2. Những thách thức và mục tiêunghiên cứu........................................................5
3. Đối tượng và phạm vinghiêncứu........................................................................6
4. Ý nghĩa khoa học và thực tiễn của đề tàing hi ên cứu.........................................6
5. Điểm mới củaluậnán...........................................................................................7
6. Cấu trúc củaluận án.............................................................................................7
Chương 1. TỔNG QUAN VỀ CÁC VẤN ĐỀNGHIÊNCỨU....................................9
1.1. Vai trò của ảnh nhiệt trong bài toán phát hiện và theo vếtđ ố i tượng................9
1.1.1. Kháiqtvềtínhiệuhồngngoại..........................................................................9
1.1.2. Khảnăngmơtảđốitượngcủacáctínhiệuhồngngoại...........................................11
1.2. Kỹthuậthọcsâpdụngtrongbàitốn pháthiệnvàtheovếtđốitượng.........................13
1.2.1. Cơbản về mạngnơrontíchchập......................................................................14
1.2.2. Mộtsố phương pháp pháthiệnđốitượng sử dụng kỹthuậthọcsâu.....................15
1.2.3. Mộtsố phương pháptheo vết đốitượngsửdụngkỹthuậthọcsâu.........................17
1.3. Bài toán phát hiện đối tượng người sử dụng kỹ thuật học sâu dựa trên ảnh
màu vàảnhnhiệt.........................................................................................................19
1.3.1. Phân tíchbàitốn...........................................................................................19
1.3.2. Bộdữliệuthửnghiệm......................................................................................20
1.3.3. Độ đohiệunăng.............................................................................................22
1.3.4. Cácnghiêncứucóliênquan..............................................................................23
1.4. Bài tốn theo vết đối tượng người sử dụng kỹ thuật học sâu dựa trên ảnh màu
vàảnhnhiệt.................................................................................................................34
1.4.1. Phân tíchbàitốn...........................................................................................34
1.4.2. Bộdữliệuthửnghiệm......................................................................................35
3


1.4.3. Độ đohiệunăng.............................................................................................36
1.4.4. Cácnghiêncứucóliênquan..............................................................................37
1.5. Kết luậnchương1...............................................................................................43
Chương 2. PHƯƠNG PHÁP XÁC ĐỊNH TRỌNG SỐ TRONG KẾT HỢP ẢNH MÀU

VÀẢ N H NHIỆT.................................................................................................................44
2.1. Ảnh hưởng của độ chiếu sáng và cường độ nhiệt đến hiệu năng phát hiện và
theo vết đốit ư ợ n g người...........................................................................................44
2.1.1. Khảo sát ảnhhưởng củađộchiếu sáng đếnhiệunăngphát
hiệnvàtheovếtđốitượngngười....................................................................................44
2.1.2. Khảo sát ảnhhưởng cườngđộnhiệtđến hiệunăngphát
hiệnvàtheovếtđốitượngngười....................................................................................47
2.2. Các phương pháp để xác định độchiếusáng.....................................................47
2.2.1. Cácphươngphápđểướclượngđộchiếusángphổbiến.........................................47
2.2.2. Phươngpháp sử dụngđộnhiễuđểxác địnhđộchiếusáng...................................51
2.3. Đánh giá chất lượng phát hiện và theo vết đối tượng trênả n h nhiệt...............56
2.4. Phương pháp xác định trọng số kết hợp ảnh màu và ảnh nhiệt trong phát hiện
và theovếtngười........................................................................................................58
2.5. Kết luậnchương2...............................................................................................64
Chương 3. PHƯƠNG PHÁP PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG NGƯỜI VỚI
ĐỘ NHIỄU VÀ CƯỜNGĐ Ộ NHIỆT................................................................................65
3.1. Các kỹ thuậtnền tảng........................................................................................65
3.1.1. CácthuậttoánYOLO......................................................................................65
3.1.2. ThuậttoánSiamDW_ST................................................................................72
3.2. Thuật toán kết hợp ảnh màu và ảnh nhiệt ở mức điểm ảnh để phát hiện đối
tượngngười................................................................................................................74
3.2.1. Mơ tảthuậttốn.............................................................................................74
3.2.2. Đánh giákếtquả.............................................................................................74
3.3. Thuậttốnkếthợpthờigianthựcởmứckếtquảđểpháthiệnđốitượngngười.....................78
3.3.1. Mơ tảthuậttốn.............................................................................................78
3.3.2. Đánh giákếtquả.............................................................................................79
3.4. Thuật toán phát hiện đối tượng người một giai đoạn sử dụng độ nhiễu và
cườngđộnhiệt.............................................................................................................80
3.4.1. Mơ tảthuậttốn.............................................................................................80
4



3.4.2. Điều kiệnthửnghiệm.....................................................................................82
3.4.3. Kếtquả thửnghiệmsosánhvớicác phươngphápxácđịnh trọngsốkhác...............82
3.4.4. Kếtquả thửnghiệmsosánhcácmứckếthợp.......................................................83
3.4.5. Kếtquảthửnghiệmsosánhvớicácthuậttoánphổbiến.........................................84
3.5. Thuật toán theo vết đối tượng người sử dụng độ nhiễu và cường độ nhiệt ...
883.5.1.Mơ tảthuậttốn............................................................................................88
3.5.2. Điều kiệnthửnghiệm.....................................................................................89
3.5.3. Kếtquả thửnghiệmsosánhvớicác thuậttốnphổbiến trêntồnbộcácchuỗi
đốitượngngười..........................................................................................................90
3.5.4. Kếtquả thửnghiệmsosánhvớicác thuậttốnphổbiến riêng trêncácchuỗidữ
liệubanngày..............................................................................................................90
3.5.5. Kếtquả thửnghiệmsosánhvớicác thuậttốnphổbiến riêng trêncácchuỗidữ
liệubanđêm...............................................................................................................91
3.5.6. Kếtquả thửnghiệmsosánhvớicác thuậttốnphổbiến riêng trêncácchuỗidữ
liệucónhiềuđối tượng bịchekhuất..............................................................................91
3.5.7. Kếtquả thửnghiệmsosánhvớicác thuậttốnphổbiến riêng trêncácchuỗidữ
liệucónhiềuđối tượngkíchthướcthayđổi.....................................................................92
3.5.8. Kếtquả thửnghiệmsosánhvớicác thuậttốnphổbiến riêng trêncácchuỗidữ
liệucónhiềukhung hìnhcamerachuyểnđộng...............................................................92
3.5.9. Kếtquả thửnghiệmsosánhvớicác thuậttốnphổbiến riêng trêncácchuỗidữ
liệucócác đốitượngchuyểnđộngliêntục......................................................................92
KẾT LUẬN VÀ PHƯƠNG HƯỚNGPHÁTTRIỂN................................................102
DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦAL U Ậ N ÁN....................104
TÀI LIỆUTHAM KHẢO..........................................................................................105

5



DANH MỤC CÁC TỪ VIẾT TẮT
STT

Chữ viết
tắt

1

DL

Deep Learning

2

CNN

Convolutional
Network

3

GPU

Graphic Processing Unit

Đơn vị xử lý đồ họa

4

ILSVRC


ImageNet Large Scale Visual
Recognition Challenge

Bộ dữ liệu ảnh lớn trong cuộc
thi nhận dạng trực quan

5

VOT

Visual Object Tracking

Theo vết đối tượng trực quan
Bộ dữ liệu các đối tượngthông
dụng trong nhiều ngữ cảnh của
Microsoft
Nhận dạng ký tự

Tiếng Anh

Ý nghĩa Tiếng Việt
Học sâu
Neural Mạng nơ ron tích chập

6

COCO

Microsoft Common Objects in

COntext (MS COCO)

7

OCR

Optical Character Recognition

8

HOG

Histogram
Gradients

9

ROI

Region of Interest

Vùng quan tâm

Intersection over Union

Tỷ lệ diện tích vùng giao nhau
trên vùng hợp nhau của khung
dự đoán và khung chuẩn

of


Oriented Lược đồ hướng gradient

10

IoU

11

VGG

Very Deep
Networks

12

FCN

Fully Convolutional Network

Mạng tích chập đầy đủ

13

RPN

Region Proposal Network

Mạng đề xuất vùng


14

CSPNet

15

FPN

Feature Pyramid Network

16

PAN

Path Aggregation Network

Convolutional Tên một mạng nơ ron: Mạng
tích chập rất sâu

Cross Stage Partial Network

Mạng kết nối chéo giữa các
tầng
Mạng kim tự tháp đặc trưng là
một kiến trúc phát hiện đối
tượng ở nhiều tỷ lệ
Mạng tổng hợp đường cho
phép kết hợp đặc trưng từ
nhiều tầng nơ ron tích chập



17

ACF

Aggregated Channel Features

Đặc trưng kết hợp từ nhiều
kênh

18

SSD

Single Shot Multibox Detector

Tên một thuật toán phát hiện
đối tượng một giai đoạn.

19

Siamese

Sililarity Learning

Huấn luyện để xác định các
ảnh tương tự nhau

20


DCF

Discriminative
Filters

21

NCC

Normalized Cross-Correlation

Tương quan chéo chuẩn hóa

SiamFC

Fully-Convolutional Siamese

Thuật tốn theo vết đối tượng
sử dụng lớp tích chập đầy đủ
để xác định vị trí đối tượng

MOSSE

Tên một thuật toán theo vết
Minimum Output Sum of
đối tượng sử dụng huấn luyện
SquaredError
DCF

ATOM


Accurate Tracking by Overlap
Maximization

22

23

24

Correlation Bộ lọc tương quan phân biệt

Tên một thuật toán theo vết
đối tượng sử dụng phương
pháp tối đa độ chồng lấn
Tên một thuật toán phát hiện

25

CIAN

Cross-Modality

interactive

attentionn e t w o r k

đối tượng người sử dụng kết
hợp ảnh màu và ảnh nhiệt sử
dụng ngữ nghĩa của ảnh đểlàm

trọngsố

26
27

SNR
mAP

Signal to Noise Ratio

Tỷ lệ tín hiệu trên nhiễu

mean Average Precision

Độ chính xác trung bình, được
sử dụng để đánh giá các thuật
toán phát hiện đối tượng

28

LAMR

Log Average Miss Rate

Tỷ lệ lỗi trung bình trên miền
logarit sử dụng để đánh giácác
thuậttoánpháthiệnđốit ư ợ n g

29


FPPI

False Positive Per Image

Tỷ lệ phát hiện sai trên số
lượng ảnh được thử nghiệm


vii
30
31

32

33

fps
NMS

NAMPD

MCFF

frame per second

Khung hình trên giây

Non-Maximum Suppression

Tên một thuật tốn loại bỏ các

ước lượng trùng nhau trong
bài toán phát hiện đốit ư ợ n g

Noise - Aware Multispectral
Perdestrian Detector

Tên thuật toán phát hiện đối
tượng kết hợp ảnh màu và ảnh
nhiệt sử dụng độ nhiễu và
cường độ nhiệt

Multispectral channel feature
fusion

Tênmột lớp để kết hợp cácđặc
trưng của ảnh màu và ảnhnhiệt.Trong
đó

thể
huấn
luyệnđểtạoratrọngsốkếthợp
tốiưu.


DANH MỤC CÁC HÌNH VẼ
Hình1.1. Chấtlượngcủaảnhmàukémđikhiđiềukiệnchiếusángkémkhitrờitối.........................9
Hình 1.2 Dải tần số sóng điện từ tương ứng với các loại tínhiệu [31].......................10
Hình1.3. Nănglượngphátxạtừvậtđentuyệtđốitheonhiệtđộvàtừngbướcsóng[2]...................13
Hình 1.4. Ngun tắc nhận thức của mạng Nơ ron trong vỏnão [32].........................14
Hình 1.5. Tính tốn bản đồ đặc trưng của từng lớp tíchchập[32]..............................15

Hình 1.6. Kiến trúc chung của các mạng nơ ron phát hiện đốit ư ợ n g [13]................16
Hình 1.7.Kiến trúccơbảncủa cácthuật tốn pháthiện đối tượnghaigiaiđoạn[7]................17
Hình 1.8.Kiến trúccơbảncủa cácthuật tốn pháthiện đối tượngmộtgiaiđoạn[10].. 17 Hình
1.9. Kiến trúc chung của các thuật toán Siamese để theo vết đối tượng [19].
18Hình1.10.TạoảnhhuấnluyệnbằngảnhGausshaichiềuvớiđỉnhlàtâmđốitượng[20]...19 Hình
1.11. Một số khó khăn của bài tốn phát hiện đốitượng[41].............................................20
Hình 1.12. Minh họa các chỉ số TP, FP,F N , TN.......................................................22
Hình1.13.HaikiếntrúckếthợpsớmvàkếthợpmuộntrongcơngbốcủaWagner[46]..................24
Hình1.14.Cáckiếntrúckếthợpđặctrưngmứcsớm,mứcgiữa,mứcmuộncủavanillaCovNet[44]...........25
Hình 1.15. Kết hợp mức giữa sử dụngB D T [39]......................................................25
Hình 1.16. Kiến trúc tương tác để tạo trọng số của thuật tốnC I A N [30].................26
Hình1.17.Cáckiếntrúckếthợpcủacácthuậttốnpháthiệnđốitượnghaigiaiđoạn[1]...................27
Hình 1.18. Sơ đồ mạng nhận thức độ chiếus á n g [1]................................................29
Hình 1.19. Tạo dữ liệu huấn luyện phân vùngyếu[45]...............................................29
Hình 1.20. Sơ đồ mạng kết hợp phân vùng và phát hiện đối tượng (MSDS) [45]... 30
Hình 1.21. Kiến trúc lớp Multispectral channel featurefusion[60]...........................31
Hình 1.22. Phân tích giá trị riêng đap h â n giải..........................................................32
Hình 1.23. Sơ đồ thuật tốn phân tích ảnh thành hai thànhphần [26]........................33
Hình 1.24. Sơ đồ thuậtt o á n DenseFusion..................................................................34
Hình 1.25. Hàmmậtđộ xác xuất của chiều dài cácchuỗi[56]......................................37
Hình 1.26. Sơ đồm ạ n g IoU-Net.................................................................................38
Hình 1.27. Mơ tả sự khác nhau giữa RoI Pooling vàP r R o I Pooling[16]..................40
Hình 1.28. Sơ đồ thuậtt o á n ATOM[16]....................................................................40
Hình2.1.Kếtquảpháthiệnđốitượngvàobanngàylầnlượtđốivớiảnhmàuvàảnhnhiệt..................45
Hình2.2.Kếtquảpháthiệnđốitượngvàobanđêmlầnlượtđốivớiảnhmàuvàảnhnhiệt..................45
Hình 2.3. Đường cong EAO theo số lượng khung hình của từngt r ư ờ n g hợp...........46
Hình 2.4. Chỉ số Key mô tả các độ chiếu sáng khác nhautr on g ảnh..........................50
Hình 2.5. Chỉ số Key và Range mơ tả độ chiếu sáng vào ban ngày vàb a n đêm........51
Hình 2.6. Một số trường hợp sử dụng range và key khơng cho kếtq u ả đúng............52
Hình 2.7. Sơ đồ của phép biến đổi wavelet, ví dụ ở đây là3bước..............................53

Hình 2.8. Các hàm cơ sở (hàm mẹ) theo Daubechiesvớin=4.....................................54
Hình 2.9.Tham số được tính theo hàmD a u b e c h i e s (n=4)..................................54

9


Hình 2.10. Hàm phân bố xác xuất của các chỉ số Key (hình a, b, c); Range (hình d,
e, f) và độ nhiễu (hình g,h , i).........................................................................................56
Hình 2.11. Biểu đồ scatter mô tả tương quan giữa cường độ nhiệt và độ tương phản
của đối tượng người với nền trong bộ dữliệuKAIST...................................................58
Hình 2.12. Biểu đồ scatter mơ tả tương quan giữa cường độ nhiệt và độ tương phản
của đối tượng người với nền trong bộ dữliệuVOT.......................................................58
Hình 3.1. Kiến trúc phát hiện đối tượngYOLO[10]...................................................66
Hình 3.2. Mơ tả ước lượng vị trí đối tượng của thuậtt o á n YOLOv2........................69
Hình 3.3. Thuậttốn YOLOv4....................................................................................71
Hình 3.4. Mơ tả kiến trúcSiamDW_ST[22]...............................................................73
Hình 3.5. Sơ đồ các bước thuậttốnSiamDW_ST......................................................74
Hình 3.6. Sơđồtạo ảnhtrộntừảnh màu vàảnhnhiệt sửdụng trọngsốđượcđềxuất...............75
Hình 3.7.Kếtquả đánh giáhiệunăngcủathuậttốn đượcđềxuấtvà
cácthuậttốnphổbiếnnhưMSVD, Two-Scale w/Sal, DenseFusion và
FusionGan.Hìnha,b,clàbiểu đồMR-FPPIđối với cáctậpdữliệubanngày,banđêmvà
tồnbộdữliệuKAIST. Hìnhdlàbiểuđồ tổng hợpchỉsốLAMR............................................76
Hình 3.8. Theo từng cột là ảnh màu, ảnh nhiệt, ảnh trộn tạo bởi thuật toán đề xuất,
Two-sacle w/ Sal, MSVD, DenseFusion và FusionGan. Theo hàng là các ngữ cảnh
khác nhau trong trường, ngoài đường, trong phố (ngàyv à đêm)..................................77
Hình 3.10. Cấu trúc của thuật tốn phát hiệnđốitượng...............................................78
Hình 3.10. Đường cong MR - FPPI của thuật toán đượcđ ề xuất................................80
Hình 3.11. Sơ đồ kết hợp của thuậttốnNAMPD.......................................................81
Hình 3.12.Kết quảđánh giáhiệu năng củathuậttốn NAMPDvàcác chế xácđịnh
trọngsốkhác. Hìnha,b,clàbiểuđồMR-FPPIđốivớicáctậpdữliệubanngày,ban

đêmvàtồnbộdữliệu.Hìnhdlà biểuđồtổnghợpchỉ sốLAMR..............................................85
Hình 3.13.Kết quảđánh giáhiệu năng củathuậttốn NAMPDvàcácthuậttốn
phổbiếnnhưACF+T+HOG;IAFR-CNN;CIAN;MSDSRCNN;FusionCSPNet.Hìnha,b,clàbiểuđồMR-FPPIđốivới cáctập
dữliệubanngày,banđêmvàtồnbộdữliệu.Hìnhdlàbiểuđồ tổng hợpchỉsốLAMR................86
Hình 3.14. Minh họa một số kết quả phát hiện đối tượng theo hàng dọc là IAF RCNN, CIAN, MSDS-RCNN, FusionCSPNetvàNAMPD............................................87
Hình3.15.Sơđồ kếthợpảnhmàuvàảnh nhiệttrongthuậttốn theo vếtđối tượng.................89
Hình 3.16. Sơ đồ lớp kết hợp IoU cótrọngsố.............................................................89
Hình 3.17. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật
toán phổ biến trên toàn bộ các chuỗi dữ liệu theo vết đốit ư ợ n g người.......................94
Hình 3.18. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật
toán phổ biến riêng trên các chuỗi dữ liệubanngày......................................................95
Hình 3.19. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật
toán phổ biến riêng trên các chuỗi dữ liệubanđêm.......................................................96

10


Hình 3.20. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật
toán phổ biến riêng trên các chuỗi dữ liệu có nhiều đối tượng bịc h e khuất................97
Hình 3.21. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật
toán phổ biến riêng trên các chuỗi dữ liệu có nhiều đối tượng kích thước thay đổi
98Hình3.22.Kết quảso sánhđộ chính xác,độổnđinhvàchỉsố EAOvớicác thuậttốn phổ
biếnriêngtrên cácchuỗidữ liệucónhiều khung hình camerachuyểnđộng............................99
Hình 3.23. Kết quả so sánh độ chính xác, độ ổn đinh và chỉ số EAO với các thuật
toán phổ biến riêng trên với các chuỗi dữ liệu có đối tượng chuyển động liên tục 100
Hình 3.24. Minh họa so sánh kết quả theo vết đối tượng của các thuật toán lần lượt
trừ trên xuống: Phương pháp đề xuất, SiamDW_T, DiMP, FSRPN,CIRSDCF...101


DANH MỤC CÁC BẢNG

Bảng 1.1. Bảng mô tả phân loại các tín hiệu hồngngoạitheo.....................................11
Bảng 1.2. Mơ tả các tập dữ liệu của bộ dữl i ệ u KAIST............................................21
Bảng1.3.Sosánhkếtquảpháthiệnđốitượng(chỉsốLAMR)củathuậttoánIAN[1]....................28
Bảng 1.4. Thuật toán xác định hàm mất mát củalớpIoU............................................38
Bảng 1.5. Kết quả đo lường EAO, A, R của một số thuật toán theo vết đối tượng .
42Bảng1.5.Sosánhmộtsốthuậttoántheovếtđốitượngngườikếthợpảnhmàuvàảnhnhiệt...........43
Bảng1.6.Tốcđộxửlýcủamộtsốthuậttoántheovếtkếthợpảnhmàuvàảnhnhiệt..........................43
Bảng 2.1. So sánh chỉsốEAO, A, R của các thuật toán theo vết đối tượng trong các
điều kiện ban ngày vàb a n đêm...................................................................................46
Bảng2.2.ĐánhgiáđộchínhxácpháthiệnđốitượngtrêntừngtậpdữliệucủaKAIST......................48
Bảng 2.4. Đặt trọng số kết hợp cho các tập dữ liệu huấn luyện vớib ộ KAIST..........60
Bảng2.5.ĐặttrọngsốkếthợpchocáctậpdữliệuhuấnluyệnvớibộVOT-RGBT........................63
Bảng3.1.SosánhđộchínhxácvàtốcđộcủaYOLOvàFastR-CNN,FasterR-CNN......................67
Bảng 3.2 Kết quả so sánh độ chính xác và tốc độ của một số thuật tốn phát hiện đối
tượngphổbiến..............................................................................................................71
Bảng3.3.Sosánhđộchínhxáccủamộtsốthuậttốntạoảnhtrộntừảnhmàuvàảnhnhiệt................75
Bảng3.4.Kếtquảsosánhvềđộchínhxácvàtốcđộcácthuậttốntheovếtđốitượng.......................80
Bảng3.5.BảngmơtảkếtquảđánhgiáchỉsốLAMRvớicáchxâydựngtrọngsốkhácnhau...83Bảng3.
6.BảngmơtảkếtquảđánhgiáchỉsốLAMRvớicácmứckếthợpkhácnhau.................................84
Bảng 3.7. Tốc độ xử lý của một số thuật toán phát hiện đối tượngphổbiến...............86
Bảng 3.8. So sánh chỉ số EAO, A, R ở các mức kết hợp ảnh màu vàả n h nhiệt.........88
Bảng 3.9. So sánh độ chính xác, độ ổn định, chỉ số EAO của phương pháp đề xuất
và một số thuật toán theo vết đối tượng kết hợp ảnh màu vàả n h nhiệt......................93

xii


MỞ ĐẦU
1. Bối cảnh nghiênc ứ u
Ngày nay, các hệ thống xử lý ảnh được sử dụng rộng rãi trong nhiều lĩnh vực

như: Giao thông thông minh, giám sát, phát hiện vi phạm hay tai nạn; giám sát các vị
trí quan trọng như ngân hàng, trụ sở, cửa hàng; sản xuất công nghiệp, giám sát hoạt
động, phát hiện các nguy hiểm, cháy, nổ…; trong an ninh, quốc phòng, giám sát, phát
hiện xâm nhập bất hợp pháp biên giới và có thể sử dụng để điều khiển các loại vũ
khí, hỏa lực. Các hệ thống xử lý ảnh thông thường sử dụng ảnh màu là loại ảnh được
tạo bởi tín hiệu có bước sóng khả kiến (0,4÷0,7) μm. Ảnh màu có thể mơ tả đối tượngm. Ảnh màu có thể mơ tả đối tượng
với màu sắc, hình dạng, kích thước rõ ràng trong điều kiện chiếu sáng tốt. Tuy nhiên,
khi trời tối hoặc điều kiện thời tiết xấu, chất lượng nhận dng da trờn nh mu tr
nờnkộmi.Trongkhiú,nhctottớnhiuhngngoibcsúngdi(8ữ14
àm), gi tt l nh nhiệt, không bị ảnh hưởng trong các trường hợp này [1]. Mặt khác,
các loại thiết bị để tạo ảnh từ tín hiệu này cũng có thể tiếp cận dễ dàng với chi phí
khơngcao.Vìvậy,cáchướngnghiêncứukếthợpảnhmàuvớiảnhnhiệtbắtđầuđược chú ý thời
gian gầnđ â y .
Phát hiện và theo vết đối tượng (object detection and tracking) là các kỹ thuật
thị giác máy tính cơbảnđược sử dụng để phát hiện các sự kiện xảy ra trong tầm quan
sát. Đối tượng người là đối tượng phổ biến, mang đầy đủ các khó khăn cơ bản của
bài tốn phát hiện và theo vết như: Diện mạo thay đổi, kích thước, hình dạng đối
tượng thay đổi; dễ bị lẫn trong bối cảnh phức tạp (clutter background); đôi khi xuất
hiện không đầy đủ trong khung hình (occlusion) và có thể xuất hiện trong mơi trường
có độ chiếu sáng thay đổi (illumination change). Mặt khác, người cũng tương tự như
các loài sinh vật khác, có tỷ lệ nước trong cơ thể hơn 65%, tỷ lệ hấp thụ với các sóng
điện từ ở bước sóng (9 ÷ 11) μm. Ảnh màu có thể mơ tả đối tượngm từ bên ngồi vào khoảng từ 0,9 đến 0,97 và bức xạ
phátxạcơbảnphụthuộcvàonhiệtđộcủađốitượng[2].Nhiệtđộbềmặtcơthểngười vào khoảng
30 đến 40 độ C nên sẽ phát xạ mạnh nhất tín hiệu ở bước sóng từ 8 đến 14 μm. Ảnh màu có thể mơ tả đối tượngm, là tín
hiệu để tạo ra ảnh nhiệt. Vì vậy, nghiên cứu kết hợp ảnh màu và ảnh nhiệt trong bài toán
phát hiện và theo vết đối tượng người có thể minh chứng được hiệu quả kết hợp trong
nhận dạng ảnh nóichung.
Trong những năm gần đây, cùng với sự phát triển của phần cứng và kỹ thuật
trong các mạng nơ ron trong học sâu (DL - Deep learning), phát hiện và theo vết đối
tượng sử dụng mạng nơ ron tích chập (CNN - Convolutional Neural Network) cho

1


thấy hiệu quả vượt trội so với các thuật toán trước đây [3] [4]. Nhờ khả năng “học”
với một lượng dữ liệu lớn, đa ngữ cảnh cũng như khả năng trích rút các đặc trưng một
cách tự động, q trình suy luận (inference) sẽ cho độ chính xác cao, có thể phát hiện
và theo vết đối tượng có kích thước, hình dạng, diện mạo thay đổi; bối cảnh lộn xộn
hoặc đối tượng chỉ xuất hiện một phần trong khung hình. Đối tượng người là một đối
tượng phổ biến trong các bộ dữ liệu huấn luyện để phát hiện và theo vết đối tượng.
Do đó, về cơ bản các thuật tốn phát hiện và theo vết đối tượng người đều được phát
triển từ các thuật toán phát hiện và theo vết đối tượng nói chung và được huấn luyện
chuyển giao (transfer learning) để phù hợp với các bộ dữ liệu chuyên biệt đối với đối
tượngngười.
Đối với các thuật toán phát hiện đối tượng nói chung và đối tượng người nói
riêng sử dụng mạng nơ ron tích chập, có thể chia thành 02 nhóm theo kiến trúc một
giai đoạn hoặc kiến trúc hai giai đoạn.
- Các thuật toán phát hiện đối tượng hai giai đoạn hiện nay đều được phát triển
từ thuật tốn R-CNN, trong đó sẽ có 02 giai đoạn riêng biệt là: (i) Đề xuất các vùng
có khả năng là đối tượng; (ii) Thực hiện kép 02 việc là phân loại đối tượng và điều
chỉnh khung phát hiện đối tượng cho chuẩn xác. Điển hình của là các thuật tốn phát
hiện đối tượng như: R-CNN [5], Fast R-CNN [6], Faster R-CNN [7] và Libra R-CNN
[8]; sau này là kiến trúc xếp chồng nhiều mạng R-CNN để cho độ chính xác cao như
Cascade R-CNN[ 9 ] .
- Các thuật toán phát hiện đối tượng một giai đoạn kế thừa từ mạng tích chập
đầy đủ (FCN - Fully Convolutional Network), chia ảnh thành lưới các vùng để có thể
huấn luyện và suy luận đồng thời trên toàn bộ ảnh cùng lúc (whole-image-at-time).
Ngoài ra để giảm khối lượng tính tốn mà khơng làm giảm nhiều độ chính xác, có
một số kỹ thuật mới được áp dụng như vi kiến trúc - microarchitecture như các mạng:
SqueezeNet; MobileNet; ShuffleNet hoặc Darknet19/53; kỹ thuật Cross Stage Partial
Network (CSPNet), kết nối chéo giữa các tầng hay DenselyNet, tổng hợp kết nối từ

các tầng. Hiện nay, có một số thuật toán phát hiện đối tượng một giai đoạn phổ biến
như các thuật toán họ YOLO [10], [11], [12], [13]; SSD [14] hay RetinaNet[15].
Về cơ bản thì các thuật toán theo kiến trúc hai giai đoạn sẽ cho độ chính xác cao
hơn nhưng tốc độ chậm hơn kiến trúc một giai đoạn. Tuy nhiên, hiện nay cùng với sự
phát triển của các phương pháp giảm khối lượng tính tốn cũng như tăng độ chính
xác, các thuật tốn phát hiện đối tượng một giai đoạn cũng có kết quả rất tốt. Do đó,


sẽ phù hợp khi sử dụng trên các thiết bị di động, hệ thống giám sát diện rộng, rô bốt
hay xe tự lái…


Đối với các thuật tốn theo vết đối tượng nói chung và đối tượng ngườinóiriêng
được phát triển theo hai hướng tiếp cận [16]: (i) Xác định vị trí đối tượng tại khung
hình tiếp theo thơng qua đối sánh khung hình với biểu diễn đối tượng (trực tiếp hoặc
đặc trưng) đã được xác định vị trí tại khung hình trước; (ii) Huấn luyện một tập các
bộ lọc tương quan phân biệt (DCF - Discriminative Correlation Filters) thông qua đối
tượng tại khung hình trước và dùng các DCF để xác định vị trí của đối tượng tại
khung hình tiếpt h e o .
- Theo vết đối tượng thông qua đối sánh đầu tiên sử dụng trực tiếp tương quan
của giá trị điểm ảnh thuộc vùng đối tượng với khung hình cần xác định vị trí đối
tượng như trong [17], sau đó phát triển sử dụng đối sánh với biến đổi affine của đối
tượng [18], hay sử dụng nhiều đặc trưng của đối tượng như trong [19]. Gần đây, bên
cạnh những thành công trong bài toán phát hiện đối tượng, mạng nơ ron tích chập
cũng được sử dụng để nâng cao độ chính xác đối sánh ảnh. Cụ thể, mạng nơ ron tích
chập sau khi huấn luyện trên một bộ dữ liệu lớn sẽ thực hiện trích chọn đặc trưng từ
đối tượng và khung hình hiện tại để đối sánh, xác định vị trí đối tượng. Các mạng như
vậy được gọi là mạng Siamese (Similarity Learning)[ 2 0 ] .
- Theo vết đối tượng dựa trên huấn luyện bộ lọc DCF được công bố đầu tiên
trong thuật tốn MOSSE, trong đó ảnh sử dụng để huấn luyện được xây dựng bằng

hàm Gauss hai chiều với đỉnh là vị trí của tâm đối tượng được xác định trong khung
hình trước; trong các khung hình tiếp theo, trọng số của bộ lọc được cập nhật khi định
vị được đối tượng [21]. Để cải tiến có các phương pháp như KCF [22], tăng số lượng
đối tượng bằng phép dịch vòng (Circulant) để phân biệt hay CSRDCF nâng cao hiệu
năng nhờ kết hợp ước lượng nhiều lớp DCF bởi nhiều loại đặc trưng như ảnh đa mức
xám (Grayscale), HoG (Histogram of Gradient), ColorNames [23]. Tương tự như các
loại đặc trưng khác, đặc trưng tích chập cũng có thể được sử dụng để huấn luyện DCF
và cho kết quảtốt.
Nhìn chung, các thuật tốn dựa trên đối sánh đối tượng sử dụng mạng nơ ron
tích chập có thể xác định chính xác vị trí của đối tượng, nhưng có điểm yếu trong việc
phân biệt đối tượng với nền, làm giảm độ ổn định (chỉ số Robustness), trong khi các
thuật toán dựa trên DCF do được huấn luyện trực tuyến có thể phân biệt đối tượng
với nền tốt. Do đó, các thuật tốn có hiệu năng cao kết hợp cả hai hướng tiếp cận này
thành hai bước trong một thuật toán: (i) bước phân loại (classification) sử dụng DCF
với đặc trưng tích chập để bóc tách đối tượng và phát hiện các vị trí có khả năng là
đối tượng trong khung hình mới; (ii) bước ước lượng (estimation) để từ các vị trí có
3


khả năng là đối tượng trong khung hình mới, ước đốn vị trí chính xác của
đốit ư ợ n g .

4


Trong [16] đề xuất thuật toán theo hướng này là thuật tốn ATOM (Accurate
Tracking by Overlap Maximization), trong đó bước ước lượng vị trí xác định qua độ
chồng lấn (overlap) thay vì ước lượng trực tiếp vị trí như các các thuật tốn sử dụng
mạng Siamese. Sau đó, thuật tốn SiamDW_ST [24] nâng cao độ sâu của đặc trưng
tích chập bằng cách sử dụng ResNet-50 thay vì ResNet-18 kết hợp một số kỹ thuật

để nâng cao tốc độ tính tốn. Trong khi đó, thuật tốn DiMP [25] cải tiến bước phân
loại để đạt độ chính xác cao hơn. Mỗi thuật tốn có độ chính xác và tốc độ khác nhau,
do đó khi lựa chọn thuật tốn phù hợp cần có thử nghiệm cụt h ể .
Sử dụng mạng nơ ron tích chập được huấn luyện với các đối tượng ở nhiều ngữ
cảnh khác nhau sẽ giải quyết cơ bản các vấn đề tư thế, góc nhìn, màu sắc, kết cấu đa
dạng của đối tượng; phần nào giải quyết được bài toán nền phức tạp và đối tượng bị
che khuất một phần. Tuy nhiên, khi điều kiện chiếu sáng kém đi thì các thuật tốn
phát hiện đối tượng dựa trên ảnh màu sẽ cho hiệu năng kém đi. Do đó, cần phải sử
dụng thêm ảnh nhiệt để nâng cao hiệu năng.
- Các thuật toán phát hiện đối tượng người kết hợp ảnh màu và ảnh nhiệt được
phát triển bằng cách từ các mơ hình đã được huấn luyện với tập dữ liệu lớn (như
COCO), thực hiện huấn luyện chuyển giao với tập dữ liệu có các cặp ảnh màu - ảnh
nhiệt có góc nhìn tương đương nhau. Luồng ảnh màu và ảnh nhiệt được kết hợp với
nhau theo các mức sau:
+ Kết hợp mức điểm ảnh để tạo ra ảnh trộn (blended images) kết hợp đầy đủ
thông tin của cả ảnh màu và ảnh nhiệt, đồng thời thuận tiện trong quan sát như trong
[26], [27], [28].
+ Kết hợp ở mức đặc trưng: Đặc trưng được tạo từ ảnh màu và ảnh nhiệt được
kết hợp bằng một lớp Network-in-Network ở một số mức như: Early Fusion - Mức
sớm (ngay sau khối đặc trưng đầu tiên); Halfway Fusion - Mức giữa (sau khối đặc
trưng gần cuối cùng) và Late Fusion - Mức muộn (sau khối đặc trưng cuối cùng) [1].
+ Kết hợp ở mức kết quả: Ghép sau khi đã có kết quả từ từng nhánh về ước
lượng khung đối tượng và độ tinc ậ y .
Nhìn chung, kết hợp ở mức điểm ảnh cho hiệu năng phát hiện đối tượng thấp,
nhưng thuận tiện trong quan sát khi tạo ra được ảnh trộn. Kết hợp đặc trưng ở mức
giữa cho hiệu năng cao nhất, kể cả khi so với mức kết quả [29]. Tuy nhiên, kết hợp ở
mức kết quả có ưu điểm là có thể tận dụng thêm thơng tin để hậu xử lý, nâng cao độ
chính xác phát hiện đối tượng.
Gần đây, nhận thấy ảnh màu và ảnh nhiệt có đóng góp khác nhau khi kết hợp
trong điều kiện độ chiếu sáng khác nhau, một số tác giả công bố một số kỹ thuật xây

4



×