Tải bản đầy đủ (.doc) (160 trang)

Phát hiện một số sự kiện bất thường dựa trên hình ảnh sử dụng mô hình phân cấp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.7 MB, 160 trang )

BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

VŨ HỒI NAM

PHÁT HIỆN MỘT SỐ SỰ KIỆN
BẤT THƯỜNG DỰA TRÊN HÌNH ẢNH SỬ DỤNG MƠ HÌNH
PHÂN CẤP

LUẬN ÁN TIẾN SĨ KỸ THUẬT

HÀ NỘI - 2023


BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

VŨ HỒI NAM

PHÁT HIỆN MỘT SỐ SỰ KIỆN
BẤT THƯỜNG DỰA TRÊN HÌNH ẢNH SỬ DỤNG MƠ HÌNH
PHÂN CẤP

CHUN NGÀNH: KỸ THUẬT MÁY TÍNH
MÃ SỐ: 9.48.01.06

LUẬN ÁN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Phạm Văn Cường



HÀ NỘI - 2023


LỜI CAM ĐOAN
Tôi xin cam đoan dưới đây là luận án tốt nghiệp của riêng tôi, dưới sự hướng dẫn của
PGS.TS. Phạm Văn Cường – Học Viện Công Nghệ Bưu Chính Viễn Thơng. Tất cả những
kết quả và số liệu trong luận án này là trung thực và có được từ những nghiên cứu mà tôi và
thầy hướng dẫn thực hiện trong quá trình làm luận án.
Hà Nội, ngày

tháng

năm 2023

Nghiên cứu sinh

Vũ Hoài Nam

i


LỜI CẢM ƠN
Để hoàn thành được luận án này, trước hết, tơi xin bày tỏ lịng biết ơn sâu sắc nhất tới thầy
hướng dẫn của tôi là PGS.TS. Phạm Văn Cường vì sự hướng dẫn tận tình, những lời khuyên, sự
lắng nghe và khích lệ trong q trình thực hiện luận án. Thầy không chỉ truyền cho tôi các kiến
thức chun mơn mà cịn giúp tơi cải thiện nhiều kỹ năng trong nghiên cứu khoa học và cuộc
sống. Tôi sẽ không quên khoảng thời gian dài cùng thầy đi thực địa thu thập dữ liệu, thực hiện các
thử nghiệm, mô phỏng và triển khai hệ thống. Các buổi thảo luận thường xuyên vào mỗi tối với
nhóm nghiên cứu. Thầy đã định hướng, hướng dẫn và giúp tôi chỉnh sửa các bài báo cũng như bản

thảo luận án tiến sĩ này. Tôi đã học hỏi được rất nhiều điều, một lần nữa, tôi xin gửi lời cảm ơn
chân thành tới thầy hướng dẫn của tôi.
Tôi xin chân thành cảm ơn Lãnh đạo, các thầy, cô giáo của Khoa Đào tạo Sau đại học, Học
viện Cơng nghệ Bưu chính Viễn thơng đã hướng dẫn, giúp đỡ, tạo điều kiện thuận lợi cho tôi trong
thời gian học tập, nghiên cứu và thực hiện luận án.
Tôi xin gửi lời cảm ơn đặc biệt đến Quỹ đổi mới sáng tạo VINGROUP (VINIF), Viện
nghiên cứu dữ liệu lớn (VINBIGDATA), đã chấp nhận hồ sơ ứng tuyển và tài trợ học bổng đào
tạo Tiến sĩ trong nước cho tơi. Đây là nguồn kinh phí thiết thực, giúp tơi tập trung vào cơng việc
nghiên cứu và hồn thành đúng hạn chương trình nghiên cứu sinh của mình.
Tơi xin chân thành cảm ơn Lãnh đạo và các đồng nghiệp tại Khoa Công nghệ thông tin 1,
Học viện Công nghệ Bưu chính Viễn thơng, đã giúp đỡ, tạo điều kiện cơng tác thuận lợi, giúp tơi
tập trung hồn thành luận án.
Cuối cùng, tơi xin cảm ơn gia đình ln bên cạnh giúp tơi vượt qua những khó khăn, thách
thức trong suốt quá trình làm luận án.
Hà Nội, ngày
tháng năm 2023
Nghiên cứu sinh

ii


MỤC LỤC
LỜI CAM ĐOAN.................................................................................................................i
LỜI CẢM ƠN.....................................................................................................................ii
DANH MỤC TỪ VIẾT TẮT................................................................................................v
DANH MỤC KÝ HIỆU.....................................................................................................vii
DANH MỤC HÌNH VẼ......................................................................................................ix
DANH MỤC BẢNG..........................................................................................................xi
MỞ ĐẦU............................................................................................................................ 1
CHƯƠNG 1.


TỔNG QUAN VỀ GIÁM SÁT SỰ KIỆN BẤT THƯỜNG BẰNG THỊ

GIÁC MÁY TÍNH VÀ HỌC MÁY....................................................................................11
1.1.

Tổng quan về sự kiện bất thường............................................................................11

1.2.

Dữ liệu cho phát hiện sự kiện bất thường.................................................................15

1.2.1.

Bộ dữ liệu phát hiện sự kiện bất thường tĩnh......................................................16

1.2.2.

Bộ dữ liệu phát hiện sự kiện bất thường động....................................................19

1.3.

Học máy cho phát hiện sự kiện bất thường...............................................................22

1.4.

Các nghiên cứu liên quan.......................................................................................24

1.4.1.


Phát hiện sự kiện bất thường tĩnh......................................................................25

1.4.2.

Phát hiện sự kiện bất thường động....................................................................28

1.5.

Kết luận chương....................................................................................................33

CHƯƠNG 2.

ĐỀ XUẤT MƠ HÌNH PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG TĨNH SỬ

DỤNG MẠNG PHÂN CẤP...............................................................................................35
2.1.

Mơ hình hệ thống..................................................................................................36

2.2.

Phát hiện hố sụt trong ảnh nhiệt thu về từ UAV........................................................38

2.2.1.

Phát hiện hố sụt bằng mơ hình mạng phân cấp...................................................40

2.2.2.

Bám vết hố sụt bằng thuật toán Hungary...........................................................49


2.2.3.

Kết quả thực nghiệm.......................................................................................51

2.3.

Phát hiện đường sạt lở trong ảnh thu về từ UAV.......................................................63

2.3.1.

Phân đoạn đường............................................................................................65

2.3.2.

Phát hiện sạt lở bằng mơ hình phân cấp.............................................................66

2.3.3.

Kết quả thực nghiệm.......................................................................................71

2.4.

Kết luận chương....................................................................................................83
iii


CHƯƠNG 3.

ĐỀ XUẤT MƠ HÌNH PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG ĐỘNG SỬ


DỤNG MẠNG PHÂN CẤP...............................................................................................86
3.1.

Mơ hình hệ thống..................................................................................................86

3.2.

Phát hiện lửa sử dụng mơ hình mạng phân cấp.........................................................89

3.2.1.

Trích xuất đặc trưng các đối tượng nghi ngờ là lửa trong từng khung ảnh.............92

3.2.2.

Trích xuất đặc trưng thời gian của đối tượng sử dụng mơ hình BiLSTM...............96

3.2.3.

Bộ dữ liệu lửa trong video FirePTIT.................................................................98

3.2.4.

Kết quả thực nghiệm.....................................................................................102

3.3.

Kết luận chương..................................................................................................112


KẾT LUẬN..................................................................................................................... 114
DANH MỤC CÔNG TRÌNH ĐÃ CƠNG BỐ....................................................................117
TÀI LIỆU THAM KHẢO................................................................................................118

iv


DANH MỤC TỪ VIẾT TẮT
Từ viết tắt

Nghĩa tiếng Anh

Nghĩa tiếng Việt

1DCNN

1 Dimensional CNN

Mạng CNN một chiều

2DCNN

2 Dimensional CNN

Mạng CNN hai chiều

3DCNN

3 Dimensional CNN


Mạng CNN ba chiều

AI

Artificial Intelligence

Trí tuệ nhân tạo

ANN

Artificial Neural Network

Mạng nơ ron nhân tạo

BoVW

Bag-of-Visual-Word

Túi từ trực quan hóa

CNN

Convolutional Neural Network

Mạng nơ ron tích chập

CRF

Conditional Random Field


Trường ngẫu nhiên có điều kiện

DBN

Deep Belief Network

Mạng niềm tin sâu

DEM

Digital Elevation Models

Mơ hình độ cao số

DRN

Deep Recurrent Network

Mạng lặp lại sâu

GIS

Geographic Information System

Hệ thống thông tin địa lý

GPS

Global Positioning System


Hệ thống định vị tồn cầu

HA

Hungarian Algorithm

Thuật tốn Hungary

HM

Hierarchical Model

Mơ hình phân cấp

HMM

Hidden Markov Model

Mơ hình Markov ẩn

HN

Hierarchical Network

Mạng phân cấp

IoT

Internet of Things


Internet vạn vật

ISTL

Incremental Spatiotemporal Learner

Bộ học không-thời gian gia tăng

LiDAR

Light Detection and Ranging

Vùng và phát hiện ánh sáng

LSTM

Long Short Term Memory

Mạng bộ nhớ dài ngắn hạn

v


NAIP

National Agriculture Imagery Program

RCNN

Region Based Convolutional Neural

Networks

Chương trình ảnh vệ tinh nơng
nghiệp quốc gia
Mạng nơ ron tích chập dựa trên
vùng

RGB

Red Green Blue

Đỏ - xanh lá cây - xanh da trời

RNN

Recurrent Neural Network

Mạng nơ ron hồi quy

ROI

Region of Interest

Vùng quan tâm

SVM

Support Vector Machine

Máy vector hỗ trợ


TL

Transfer Learning

Học chuyển tiếp

UAV

Unmmaned Aerial Vehicle

Thiết bị bay không người lái

vi


DANH MỤC KÝ HIỆU
𝐴𝑃

Chỉ số độ chính xác trung bình

𝐴𝑅

Chỉ số recall trung bình

𝐴(")

Năng lượng nhấp nháy tích lũy

𝑐(")


Trạng thái tế bào của mạng LSTM tại thời điểm t

𝑑
𝐷(")
𝐷𝑖𝑐𝑒(. )

Giá trị chi phí trong thuật tốn Hungary
Độ sáng của một điểm ảnh tại thời điểm t
Hàm chỉ số chồng lấn của đối tượng và nhãn

𝐸(")

Năng lượng nhấp nháy của một điểm ảnh tại thời điểm t

𝐹𝑖𝑟𝑒

Giá trị dự đoán đối tượng là lửa hay không phải lửa

𝑓(")

Giá trị tại cổng quên của tế bào trong mạng LSTM tại thời điểm t

ℎ$(.)

Hàm của bộ lọc tại tầng 1

ℎ%(.)

Hàm của bộ lọc tại tầng 2


ℎ&''(.)

Hàm của mơ hình học sâu CNN

ℎ()(.)

Hàm của mơ hình học sâu MobileNet trong bài tốn phát hiện sạt lở

ℎ*
ℎ+,)-(.)
ℎ+-.'-"

Độ dài của một tenor (Đối tượng liên kết Connected components)
Hàm của bộ lọc theo luật
Hàm của mơ hình học sâu Resnet trong bài toán phát hiện lửa

𝐻/!

Ngưỡng dưới trên kênh màu H

𝐻/"

Ngưỡng trên trên kênh màu H

ℎ(")

Giá trị trạng thái ẩn của tế bào trong mạng LSTM tại thời điểm t

𝐼𝑜𝑈(. )

𝑖(")

Hàm chỉ số phần giao trên phần hợp của đối tượng
Giá trị tại lớp cổng vào của tế bào trong mạng LSTM tại thời điểm t

vii


𝐼τ

Tập hợp các tensor đầu vào

𝐽(.)

Hàm Jaccard

𝐿!

Giá trị mất mát ứng với chỉ số Jaccard

𝑁

Số lượng các tensor trong tập hợp

𝑂

Tập hợp các tensor đầu ra

𝑜(")


𝑝

Giá trị tại lớp cổng ra của tế bào trong mạng LSTM tại thời điểm t
Xác suất điểm ảnh là một điểm ảnh thuộc đối tượng bất thường

𝑅/

Ngưỡng dưới trên kênh màu R

𝑠*

Diện tích của một tenor (Đối tượng liên kết Connected components)

𝑠𝑜𝑓𝑡𝑚𝑎𝑥(. ) Hàm softmax
𝑠𝑤𝑖𝑠ℎ(. )
𝑡𝑎𝑛ℎ(.)

Hàm Swish
Hàm tanh

𝑡0/

Ngưỡng chồng lấn để xác định tỉ lệ phát hiện chính xác đối tượng bất thường

𝑤*

Độ rộng của một tenor (Đối tượng liên kết Connected components)

(")
𝑋&''


𝑋12"&3
(")

𝑋+-.'-"

Tập hợp các vector đặc trưng của các đối tượng có khả năng là đối tượng bất thường
tại thời điểm t
Cụm các vector đặc trưng của các bước thời gian trong quá khứ được trích xuất ra
từ mơ hình Resnet
Tập hợp các vector đặc trưng của các đối tượng có khả năng là đối tượng bất thường
tại thời điểm t được trích xuất từ mơ hình Resnet

𝑌

Đầu ra dự đốn của mơ hình mạng nơ ron hồi quy RNN

𝛼

Hệ số tích lũy

𝜎(.)

Hàm sigmoid

τ

Tensor

viii



DANH MỤC HÌNH VẼ
Hình 1. 1. Các bước trong q trình quản lý sự kiện bất thường...............................................12
Hình 1. 2. Hệ thống cảnh báo sự kiện bất thường...................................................................13
Hình 1. 3. Mơ hình phát hiện sạt lở trong cơng trình [107].......................................................27
Hình 1. 4. Mơ hình phát hiện lửa trong cơng trình [165]..........................................................33
Hình 2. 1. Mơ hình mạng phân cấp.......................................................................................37
Hình 2.2. Mơ hình đề xuất phát hiện hố sụt............................................................................40
Hình 2.3. Các bước phát hiện hố sụt trong ảnh.......................................................................42
Hình 2.4. Kiến trúc U-Net đề xuất........................................................................................43
Hình 2.5. Mã giả của bộ lọc dựa trên luật ℎ𝑟𝑢𝑙𝑒................................................................47
Hình 2.6. Kiến trúc mạng học sâu phân loại đối tượng hố sụt..................................................48
Hình 2. 7. Nhãn cho huấn luyện mơ hình phân đoạn hố sụt.....................................................51
Hình 2. 8. Dữ liệu trong tập dữ liệu huấn luyện mơ hình MobileNet v3....................................52
Hình 2.9. Hàm mất mát trong q trình huấn luyện mơ hình U-Net..........................................53
Hình 2.10. Hàm mất mát trong quá trình huấn luyện mơ hình MobileNet v3.............................54
Hình 2.11. Đồ thị ROC (Receiver Operating Characteristic) so sánh các phương pháp...............58
Hình 2.12. Biểu đồ cột so sánh độ chính xác các phương pháp................................................60
Hình 2.13. Luồng xử lý của hệ thống phát hiện sạt lở đường...................................................64
Hình 2. 14. Các bước trong q trình trích xuất đối tượng nghi ngờ sạt lở.................................68
Hình 2. 15. Kiến trúc mơ hình phân cấp phát hiện sạt lở..........................................................68
Hình 2. 16. Mã giả bộ lọc cho đối tượng nghi ngờ sạt lở.........................................................70
Hình 2. 17. Quá trình tạo dữ liệu huấn luyện sạt lở.................................................................72
Hình 2. 18. Hình ảnh trong bộ dữ liệu sạt lở...........................................................................75
Hình 2. 19. Nhãn của dữ liệu trong bộ dữ liệu sạt lở...............................................................76
Hình 3.1. Mơ hình mạng phân cấp phát hiện đối tượng bất thường động..................................87
Hình 3.2. Mơ hình phát hiện lửa trong video sử dụng mạng CNN-BiLSTM.............................91
Hình 3. 3. Bản đồ năng lượng biên của đối tượng lửa.............................................................93
Hình 3. 4. Bản đồ phân loại điểm ảnh lửa..............................................................................93

Hình 3. 5. Ví dụ kết hợp bản đồ năng lượng và bản đồ phân loại điểm ảnh trong phát hiện đối
tượng lửa tiềm năng............................................................................................................94
ix


Hình 3. 6. Kiến trúc ResNet-18............................................................................................96
Hình 3. 7. Hoạt động của mạng LSTM.................................................................................98
Hình 3. 8. Ví dụ về khung hình chứa lửa trong tập dữ liệu kiểm tra.........................................102
Hình 3. 9. Ví dụ về khung hình chứa đối tượng giống lửa trong tập dữ liệu kiểm tra.................102
Hình 3. 10. Đường cong huấn luyện của mơ hình đề xuất......................................................104

x


DANH MỤC BẢNG
Bảng 2. 1. Tham số mơ hình U-Net......................................................................................53
Bảng 2. 2. Tham số mơ hình MobileNet................................................................................54
Bảng 2. 3. Độ chính xác mơ hình U-Net................................................................................54
Bảng 2. 4. Kích thước mơ hình U-Net...................................................................................55
Bảng 2. 5. Độ chính xác mơ hình MobileNet.........................................................................56
Bảng 2. 6. Điểm IoU trên từng Video...................................................................................61
Bảng 2. 7. Thời gian xử lý trên bo mạch nhúng......................................................................63
Bảng 2. 8. Tốc độ khung hình của mơ hình đề xuất................................................................63
Bảng 2. 9. Thống kê dữ liệu do mơ hình sinh dữ liệu tự động..................................................74
Bảng 2. 10. Tham số huấn luyện mơ hình SD-UNet...............................................................77
Bảng 2. 11. Tham số huấn luyện mơ hình MobileNet v3.........................................................77
Bảng 2. 12. So sánh các phương pháp phân đoạn đường.........................................................78
Bảng 2. 13. So sánh các phương pháp phân loại ảnh...............................................................79
Bảng 2. 14. Đánh giá hiệu quả khi sử dụng bộ lọc theo luật.....................................................80
Bảng 2. 15. So sánh hiệu năng của các phương pháp..............................................................82

Bảng 3. 1. Thống kê số lượng video trong bộ dữ liệu FirePTIT..............................................100
Bảng 3. 2. So sánh các mơ hình nhận dạng đối tượng trên tập dữ liệu lửa................................106
Bảng 3. 3. So sánh mơ hình đề xuất với số lớp LSTM khác nhau...........................................106
Bảng 3. 4. Mô tả chi tiết về một số video trong tập kiểm tra...................................................107
Bảng 3. 5. Kết quả so sánh với các phương pháp khác trên tập video thử nghiệm....................109
Bảng 3. 6. So sánh độ chính xác với các phương pháp khác..................................................111

xi


MỞ ĐẦU
Sự kiện bất thường là sự kiện xảy ra ngồi dự đốn, kế hoạch của con người [1]. Sự kiện bất
thường nếu không được giám sát và cảnh báo kịp thời có thể gây ảnh hưởng lớn đến hạ tầng, tài sản,
và thậm chí tính mạng của con người. Sự kiện bất thường có thể chia ra làm hai loại chính: Sự kiện
bất thường do tự nhiên và sự kiện bất thường do các hoạt động của con người gây ra. Sự kiện bất
thường do tự nhiên gây ra thường có yếu tố ngẫu nhiên rất khó dự đốn và phát hiện sớm, phịng
tránh. Trong khi đó, sự kiện bất thường do hoạt động của con người gây ra có thể dự đốn và phịng
tránh để cảnh báo sớm [2]. Sự kiện bất thường là một trong những nguyên nhân hàng đầu của những
thiệt hại về con người và kinh tế [3]. Do đó, việc xây dựng các hệ thống cảnh báo sớm là thực sự cần
thiết. Với sự trợ giúp của các hệ thống phần cứng giám sát dựa trên cơng nghệ Internet vạn vật (IoT)
và trí tuệ nhân tạo (AI), các sự kiện bất thường có thể được phát hiện và cảnh báo sớm. Tuy nhiên,
để các hệ thống giám sát dựa trên các công nghệ cao này đi vào thực tiễn, cần một lõi xử lý đủ mạnh
để có thể phát hiện, cảnh báo tự động với độ chính xác cao và tỉ lệ cảnh báo giả thấp. Trong các mơ
hình giám sát và thu thập dữ liệu, bên cạnh các hệ cảm biến truyền thống, cảm biến hình ảnh
(camera) hiện đang được triển khai ngày càng nhiều và rộng khắp trên toàn thế giới bởi tầm quan sát
rộng, linh hoạt, và chi phí thấp cũng như khả năng tích hợp các cơng nghệ xử lý tiên tiến. Theo số
liệu trong [4], số lượng camera giám sát (CCTV – Closed-circuit Television) sẽ đạt ngưỡng 1 tỷ đơn
vị trong năm 2022, và sẽ ngày càng tăng lên nhanh chóng ngay cả ở các quốc gia đang phát triển.
Các hệ thống camera giám sát này thường sẽ thu thập và lưu trữ dữ liệu tại các trung tâm dữ liệu (DC
– Data Center) tập trung. Để các hệ thống camera giám sát này có thể theo dõi, phát hiện được các sự

kiện bất thường, các thuật toán học máy, xử lý ảnh phải được áp dụng vào phần lõi xử lý được cài đặt
tại các trung tâm dữ liệu hoặc tại các thiết bị biên.
Thời gian gầy đây, các mơ hình học sâu cho kết quả tốt ở nhiều lĩnh vực đặc biệt là các hệ
thống giám sát sử dụng camera [5]. Trong phạm vi của luận án, các mơ hình học sâu tích hợp vào hệ
thống giám sát để phát hiện, cảnh báo các sự kiện bất thường có thể được chia thành hai nhóm theo
tính chất của sự kiện bất thường được quan sát: Sự kiện bất thường tĩnh và sự kiện bất thường động.

1


Sự kiện bất thường tĩnh là sự kiện bất thường chứa những đối tượng bất thường tĩnh (khơng có
yếu tố chuyển động), ví dụ như sạt lở đất đá [6], [7], hố sụt [8], [9]. Trong khi đó, sự kiện bất thường
động là sự kiện bất thường chứa các đối tượng bất thường có yếu tố chuyển động ví dụ như lửa [10],
[11], hành vi bạo lực [12], [13], v.v. Để nhận dạng bất thường tĩnh, các kỹ thuật phát hiện đối tượng
(object detection) được sử dụng trực tiếp trên ảnh gốc để xác định vị trí của đối tượng bất thường
[14]. Các đối tượng bất thường này được định nghĩa trước trong quá trình gán nhãn dữ liệu phục vụ
cho việc huấn luyện các mơ hình phát hiện đối tượng. Các mơ hình phát hiện đối tượng như YOLO
[15], Faster RCNN [16], và SSD [17] là những mơ hình phát hiện đối tượng được sử dụng phổ biến
nhất. Các kỹ thuật dựa trên phát hiện đối tượng trực tiếp trên ảnh gốc cho độ chính xác khơng cao,
đặc biệt là khi các đối tượng bất thường xuất hiện ở khoảng cách xa (kích thước nhỏ trong ảnh), và
có hình dạng không đồng nhất. Hơn nữa, các kỹ thuật phát hiện đối tượng sử dụng mơ hình học sâu
cũng cho tốc độ xử lý không đáp ứng được yêu cầu về thời gian thực khi phải chạy các mơ hình này
trên các hệ thống nhúng với phần cứng hạn chế. Do đặc thù đối tượng tĩnh, các kỹ thuật được áp
dụng vào bài toán phát hiện đối tượng bất thường này đều nhận đầu vào là một ảnh đơn. Các
phương pháp học máy truyền thống dựa vào việc trích xuất đặc trưng đối tượng trong ảnh gốc để
nhận dạng bất thường [18]. Tuy nhiên, do đối tượng bất thường chỉ chiếm một phần nhỏ trong ảnh
gốc, các đặc trưng được trích xuất ra từ ảnh gốc này chứa nhiều nhiễu, làm giảm độ chính xác của
các mơ hình phát hiện bất thường.
Với sự kiện bất thường động, yếu tố chuyển động của đối tượng bất thường là một trong
những đặc trưng quan trọng nhất để phát hiện sự kiện bất thường. Do đó, một số kỹ thuật phát hiện

bất thường chỉ sử dụng ảnh đơn (khung hình đơn cắt ra từ video) để nhận dạng bất thường cho độ
chính xác không cao và đặc biệt là tỉ lệ cảnh báo giả lớn [19]. Các mơ hình có xét đến yếu tố chuyển
động của đối tượng thơng qua việc trích xuất các đặc trưng thời gian cho độ chính xác cao hơn,
nhưng thời gian xử lý cũng dài hơn do phải xét và xử lý nhiều khung hình cùng lúc thay vì chỉ một
khung hình đơn. Các mơ hình này thường kết hợp một bộ trích chọn đặc trưng khơng gian và một
bộ trích chọn đặc trưng thời gian để phát hiện các sự kiện bất thường [20]. Các mơ hình này cho độ
chính xác cao hơn với tỉ lệ cảnh báo giả thấp hơn so với nhóm mơ hình chỉ sử dụng đặc trưng khơng
gian. Tuy nhiên, các mơ hình này vẫn dựa vào việc trích xuất đặc trưng từ ảnh gốc, chứa nhiều
nhiễu vì đối tượng bất thường chỉ chiếm một phần nhỏ trong ảnh. Các phương pháp áp dụng trực
tiếp mơ hình

2


kết hợp nêu trên vẫn cho tỉ lệ cảnh báo giả cao, và đặc biệt là thời gian xử lý dài hơn, làm cho các
mơ hình này khó có khả năng áp dụng vào thực tế các hệ thống yêu cầu tính thời gian thực cao như
hệ thống giám sát [21], [22].
Mặc dù bước đầu đã đạt được những kết quả tiềm năng, nhưng những phân tích ở trên cho
thấy việc áp dụng trực tiếp các mơ hình học sâu vào bài toán nhận dạng, phát hiện đối tượng bất
thường vẫn gặp phải nhiều hạn chế, trong đó nổi bật nhất là hiện tượng cảnh báo giả. Điều này xuất
phát từ việc các đối tượng bất thường xuất hiện với một tỉ lệ nhỏ trong mẫu dữ liệu (khung hình,
đoạn video) từ đó dẫn đến nhiễu từ các đối tượng khác trong mẫu dữ liệu làm ảnh hưởng đến hiệu
năng của mơ hình nhận dạng, phát hiện đối tượng. Để khắc phục những hạn chế này, mơ hình phân
cấp [23], [24], [25] kết hợp nhiều mơ hình, kỹ thuật để cải thiện hiệu năng hệ thống đang thu hút
được sự chú ý của giới nghiên cứu.
Câu hỏi đặt ra khi muốn áp dụng các mơ hình phát hiện sự kiện bất thường này vào các hệ
thống giám sát theo thời gian thực là làm sao cho mơ hình hoạt động ổn định với tỉ lệ cảnh báo giả
thấp và thời gian xử lý đủ nhanh. Tỉ lệ cảnh báo giả cao có thể làm giảm hiệu quả giám sát tự động,
khơng loại bỏ hồn tồn được yếu tố giám sát thủ công khi các cảnh báo giả liên tục gửi các thông
báo sai cho người quản trị. Thời gian xử lý không đủ nhanh sẽ làm cho các cảnh báo của hệ thống

khơng có tính chất liên tục và kịp thời, những điểm tối quan trọng trong các hệ thống giám sát sự
kiện bất thường. Do từng đặc thù của các bài toán phát hiện sự kiện bất thường khác nhau mà hai
yếu tố này sẽ có yếu tố được quan tâm nhiều hơn. Tuy nhiên, muốn một hệ thống đạt được hiệu quả
cao nhất thì những yêu cầu tối thiểu của hai yếu tố này cần được đảm bảo. Thơng thường, hai yếu tố
này có sự ràng buộc chặt chẽ với nhau, khi muốn độ chính xác cao và tỉ lệ cảnh báo giả thấp thì cần
nhiều bước xử lý hơn làm cho tốc độ xử lý sẽ chậm hơn, và ngược lại. Chính vì vậy, các mơ hình
được đề xuất cần phải vừa cải thiện độ chính xác cũng như tốc độ xử lý so với các mô hình, phương
pháp trước đây. Nếu đạt được cả hai yếu tố này trong cùng một mơ hình thì hệ thống giám sát có
nhiều tiềm năng để có thể áp dụng được vào thực tế để giám sát các sự kiện bất thường xảy ra trong
tự nhiên, cũng như sự kiện bất thường xảy ra do hoạt động của con người.
Với bài toán phát hiện đối tượng bất thường tĩnh xử lý trên ảnh đơn, luận án hướng đến đề
xuất một mơ hình phân cấp cho phép trích xuất và lọc các đối tượng nghi ngờ là bất thường ở các
chặng đầu, các chặng sau cho phép nhận dạng đối tượng bất thường sử dụng

3


các bộ phân loại học sâu. Mơ hình phân cấp này tăng hiệu năng so với các mơ hình nhận và xử lý
trực tiếp trên ảnh đầu vào, trong khi vẫn đảm bảo được tốc độ xử lý cao do đã loại bỏ được nhiều
đối tượng nhiễu trong các chặng của bộ lọc.
Tương tự, với sự kiện bất thường động, luận án sẽ đề xuất một mơ hình phân cấp, trong đó các
đối tượng nghi ngờ là bất thường sau khi được lọc ở các chặng đầu, sẽ được bám vết và trích xuất
đặc trưng thời gian trước khi đưa vào bộ nhận dạng đối tượng ở chặng cuối. Mô hình này cho hiệu
năng cao hơn các phương pháp chỉ trích xuất đặc trưng khơng gian, và các mơ hình trích xuất đặc
trưng thời gian nhưng xử lý hồn tồn từ ảnh gốc, trong khi vẫn đảm bảo được thời gian xử lý theo
thời gian thực. Ngoài ra, việc sử dụng mơ hình phân cấp cũng cho phép các hệ thống phát hiện đối
tượng bất thường tránh được hiện tượng cảnh báo giả xuất hiện khi các đối tượng nhiễu bị nhận
dạng nhầm là đối tượng bất thường.
Mơ hình phân cấp được đề xuất trong nội dung đồ án được xây dựng dựa trên một loạt các bộ
lọc (mô đun xử lý) có tính chất khác nhau phù hợp với đặc điểm của dữ liệu tại từng chặng trong

quá trình xử lý. Mơ hình phân cấp cho thấy những hiệu quả vượt trội so với các mơ hình khác trong
việc xử lý những đối tượng bất thường. Mơ hình phân cấp được đề xuất trong đồ án cũng có những
điểm khác biệt so với các mạng phân cấp là tư tưởng chủ đạo để xây dựng thuật toán mạng nơ ron
truyền thống và mạng nơ ron nhân chập trong các mơ hình học sâu. Các mạng phân cấp được thiết
kế để các thành phần trong nội bộ mạng đó liên kết theo từng cấp độ với nhau để trích xuất các đặc
trưng của đối tượng từ đơn giản đến phức tạp, qua đó cho kết quả nhận dạng tốt hơn. Các lớp được
phân cấp trong mạng phân cấp không thể được huấn luyện độc lập nhau tùy thuộc vào tính chất của
đối tượng đầu vào. Trong nội dung đồ án, các mạng phân cấp như mạng học sâu được sử dụng như
một bộ lọc ở mơ hình phân cấp để cho lọc đối tượng ở các bước cuối cùng.
Mặc dù tính ưu việt của học sâu so với các phương pháp học máy truyền thống trong các bài
toán nhận dạng nói chung là điều được cơng nhận rộng khắp, tuy nhiên các mơ hình học sâu cần
một lượng lớn dữ liệu để có thể cho ra những kết quả phân tích với độ chính xác cao. Với đặc thù
trong bài toán nghiên cứu của luận án, các sự kiện bất thường, lại thường là những sự kiện ít xảy ra,
do đó lượng dữ liệu thu được để huấn luyện mơ hình học sâu là rất hạn chế [26]. Việc xây dựng các
bộ dữ liệu cho các bài toán nhận dạng bất thường bởi vậy cũng là thách thức với các nhà nghiên
cứu. Các bộ dữ liệu được công bố làm tiêu chuẩn chung đánh giá các mơ hình khác nhau là cần thiết
để thúc đẩy sự phát triển trong lĩnh vực

4


nghiên cứu sự kiện bất thường. Xuất phát từ thực trạng này, luận án cũng đặt ra mục tiêu xây dựng
các bộ dữ liệu cho các bài toán phát hiện bất thường. Trong đó hướng đến xây dựng được ít nhất hai
bộ cơ sở dữ liệu phục vụ tương ứng cho hai bài toán phát hiện sự kiện bất thường tĩnh và sự kiện bất
thường động. Các bộ dữ liệu cần xây dựng thỗ mãn các u cầu nói chung của một bộ dữ liệu
chuẩn như số lượng mẫu, độ đa dạng của mẫu, số lượng nhóm của dữ liệu. Ngồi ra, bộ dữ liệu
phục vụ cho bài tốn nhận dạng sự kiện bất thường cũng phải mô tả sát nhất các điều kiện môi
trường khi các sự kiện bất thường được ghi lại.
a.


Mục đích nghiên cứu
Mục đích của luận án này là nghiên cứu các thành phần của mô hình phân cấp để đề xuất cấu

trúc của mơ hình phân cấp cho nhận dạng, phát hiện các sự kiện bất thường. Mục tiêu cuối cùng là
đề xuất được mô hình phân cấp cho nhận dạng các bất thường động, nơi đối tượng bất thường có
tính chất chuyển động. Việc sử dụng mơ hình phân cấp cho nhận dạng bất thường có thể trả lời câu
hỏi nghiên cứu đề cập đến ở phần mở đầu, đó là: tăng độ chính xác và cải thiện tốc độ xử lý của các
mô hình huấn luyện theo kiểu đầu cuối (end-to- end). Mơ hình phân cấp được xây dựng với nhiều
cấp bộ lọc để loại bỏ các đối tượng nhiễu theo từng cấp độ liên quan đến đối tượng chính cần phát
hiện. Mơ hình phân cấp có thể giúp các lõi xử lý ảnh trong các hệ thống cảnh báo bất thường trở nên
mạnh hơn bằng việc tăng độ chính xác (giảm tỉ lệ cảnh báo giả), và đặc biệt là tăng đáng kể tốc độ
xử lý. Hai yếu tố này giúp cho hệ thống cảnh báo trở nên đáng tin cậy hơn.
Để đạt được mục tiêu này, trước tiên, các thành phần trong mơ hình phân cấp được nghiên
cứu trên từng ảnh đơn để đề xuất mơ hình cho nhận dạng bất thường tĩnh. Cho phép nhận dạng đối
tượng bất thường tĩnh với độ chính xác cao, tỉ lệ cảnh báo giả thấp và có khả năng hoạt động trong
thời gian thực.
Dựa trên những thành phần của mơ hình phân cấp này, kiến trúc của mơ hình được nâng cấp
lên phục vụ cho nhận dạng bất thường động dựa trên việc kết hợp với các thành phần có khả năng
trích xuất đặc trưng về thời gian trong nhiều ảnh đơn liên tiếp nhau trong video.
Hai mơ hình phân cấp cho nhận dạng bất thường tĩnh và động được đánh giá trên các bộ dữ
liệu được thu thập và chuẩn hoá trong luận án này. Các bộ dữ liệu được xây dựng với

5


mục đích cơng bố rộng rãi cho các nghiên cứu tiếp theo sau có thể sử dụng làm tiêu chuẩn để đánh
giá. Các mục tiêu nghiên cứu cụ thể của luận án:
Thứ nhất, nghiên cứu các mơ hình mạng học sâu phân cấp cho bài toán phát hiện, nhận dạng
sự kiện bất thường, xây dựng các bộ dữ liệu để đánh giá mơ hình phân cấp cho nhận dạng bất
thường.

Thứ hai, nghiên cứu đề xuất mơ hình mạng học sâu phân cấp cho nhận dạng sự kiện bất
thường tĩnh để cải thiện hiệu năng của các kỹ thuật, mơ hình học sâu nhận dạng sự kiện trực tiếp
trên ảnh đơn.
Thứ ba, trên cơ sở mơ hình học sâu phân cấp cho nhận dạng sự kiện bất thường tĩnh, nghiên
cứu, đề xuất mơ hình mạng học sâu phân cấp cho nhận dạng sự kiện bất thường động với các mơ
đun có khả năng trích xuất đặc trưng thời gian. Mơ hình học sâu phân cấp cải thiện hiệu năng và tốc
độ xử lý so với các kỹ thuật học sâu khác cho nhận dạng bất thường động.
b.

Đối tượng nghiên cứu
Luận án tập trung nghiên cứu hai đối tượng chính xoay quanh các hệ thống cảnh báo, giám sát

sử dụng hình ảnh. Cụ thể gồm: 1) Các sự kiện bất thường có thể giám sát bởi hệ thống camera; 2)
Các mạng học sâu trong mơ hình phân cấp phục vụ cho bài toán phát hiện bất thường.
c.

Phạm vi nghiên cứu
-

Dựa trên nội dung trong phần mục đích nghiên cứu, đề tài luận án tập trung vào nghiên cứu
và đề xuất mơ hình phân cấp để nhận dạng sự kiện bất thường trong ảnh/video. Các mơ hình
học sâu phân cấp được sử dụng trong luận án là các mơ hình học sâu dựa trên hai mơ hình
chính là mạng nơ ron tích chập CNN (Convolutional Neural Network) để trích xuất đặc
trưng khơng gian và mạng bộ nhớ dài ngắn hạn LSTM (Long Short Term Memory) để trích
xuất đặc trưng thời gian. Ngồi ra, các phương pháp xử lý ảnh truyền thống cũng được sử
dụng kết hợp với các mơ hình học sâu để tăng hiệu năng của hệ thống.

-

Do đặc thù của sự kiện bất thường, số loại sự kiện bất thường là rất lớn, khơng thể có một hệ

thống, mơ hình hay phương pháp nào có thể được áp dụng để nhận dạng, phát

6


hiện mọi loại sự kiện bất thường. Mơ hình phân cấp là tư tưởng chủ đạo để áp dụng nhận
dạng, phát hiện các sự kiện bất thường thông qua việc trích xuất và phân tích đặc tính của
các đối tượng bất thường trong ảnh/video. Tuy nhiên, mơ hình phân cấp này cũng không thể
áp dụng với kiến trúc và bộ tham số giống nhau cho mọi loại sự kiện bất thường. Thay vào
đó, mỗi mơ hình phân cấp cụ thể khi được áp dụng vào để nhận dạng một loại sự kiện bất
thường sẽ có những sự thay đổi ở các thành phần bên trong mơ hình. Để chứng minh tính
hiệu quả của ý tưởng sư dụng mạng phân cấp cho nhận dạng sự kiện bất thường, nội dung
của luận án đưa ra các kết quả thực nghiệm với một số bài toán cụ thể nhận dạng sự kiện bất
thường đó là nhận dạng hố sụt, nhận dạng sạt lở, và nhận dạng lửa trong ảnh/video.
-

Dữ liệu về sự kiện bất thường được thu thập từ nhiều nguồn camera khác nhau ứng với các bài
toán khác nhau.

d.

Phương pháp nghiên cứu
Phương pháp tiếp cận giải quyết các vấn đề trong luận án này được thực hiện thơng qua hai

q trình: Thứ nhất là phân tích vấn đề và xây dựng mơ hình, kiến trúc mạng học sâu, quá trình thứ
hai là thử nghiệm đánh giá mơ hình.
-

Q trình thứ nhất, thiết lập mơ hình mơ hình, kiến trúc mạng học sâu. Mặc dù các mơ hình
học sâu nổi tiếng được sử dụng trong nhiều bài toán khác nhau, với mỗi lĩnh vực có những

đặc thù riêng, việc áp dụng các mơ hình học sâu này cần phải có những chọn lựa và điều
chỉnh. Trong quá trình này, nghiên cứu sinh phân tích vấn đề, hiểu đặc điểm của các sự kiện
bất thường để đề xuất kiến trúc học sâu phù hợp, hiệu quả.

-

Q trình thứ hai, thử nghiệm đánh giá mơ hình. Bước này được thực hiện đánh giá các mơ
hình đề xuất trong bước thứ nhất bằng việc huấn luyện các mơ hình này với các bộ dữ liệu
về sự kiện bất thường thu thập được. Bên cạnh việc đánh giá các mơ hình hệ thống thơng
qua các so sánh với các phương pháp, mơ hình khác, bước này cũng tiến hành thử nghiệm
thực tế các mơ hình đề xuất trên một số bo mạch nhúng để kiểm nghiệm tính khả thi.

e.

Những đóng góp chính của luận án

7



×