Tải bản đầy đủ (.docx) (148 trang)

Phát hiện một số sự kiện bất thường dựa trên hình ảnh sử dụng mô hình phân cấp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.72 MB, 148 trang )

BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

VŨ HỒI NAM

PHÁT HIỆN MỘT SỐ SỰ KIỆN
BẤT THƯỜNG DỰA TRÊN HÌNH ẢNH SỬ DỤNG MƠ HÌNH
PHÂN CẤP

LUẬN ÁN TIẾN SĨ KỸ THUẬT

HÀ NỘI - 2023


BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

VŨ HỒI NAM

PHÁT HIỆN MỘT SỐ SỰ KIỆN
BẤT THƯỜNG DỰA TRÊN HÌNH ẢNH SỬ DỤNG MƠ HÌNH
PHÂN CẤP

CHUN NGÀNH: KỸ THUẬT MÁY TÍNH
MÃ SỐ: 9.48.01.06

LUẬN ÁN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Phạm Văn Cường



HÀ NỘI - 2023


LỜI CAM ĐOAN
Tôi xin cam đoan dưới đây là luận án tốt nghiệp của riêng tôi, dưới sự hướng dẫn
của PGS.TS. Phạm Văn Cường – Học Viện Công Nghệ Bưu Chính Viễn Thơng. Tất cả
những kết quả và số liệu trong luận án này là trung thực và có được từ những nghiên cứu
mà tôi và thầy hướng dẫn thực hiện trong quá trình làm luận án.
Hà Nội, ngày

tháng

năm 2023

Nghiên cứu sinh

Vũ Hoài Nam

i


LỜI CẢM ƠN
Để hoàn thành được luận án này, trước hết, tơi xin bày tỏ lịng biết ơn sâu sắc nhất tới thầy
hướng dẫn của tôi là PGS.TS. Phạm Văn Cường vì sự hướng dẫn tận tình, những lời khuyên, sự
lắng nghe và khích lệ trong q trình thực hiện luận án. Thầy không chỉ truyền cho tôi các kiến
thức chun mơn mà cịn giúp tơi cải thiện nhiều kỹ năng trong nghiên cứu khoa học và cuộc
sống. Tôi sẽ không quên khoảng thời gian dài cùng thầy đi thực địa thu thập dữ liệu, thực hiện
các thử nghiệm, mô phỏng và triển khai hệ thống. Các buổi thảo luận thường xuyên vào mỗi tối
với nhóm nghiên cứu. Thầy đã định hướng, hướng dẫn và giúp tôi chỉnh sửa các bài báo cũng

như bản thảo luận án tiến sĩ này. Tôi đã học hỏi được rất nhiều điều, một lần nữa, tôi xin gửi lời
cảm ơn chân thành tới thầy hướng dẫn của tôi.
Tôi xin chân thành cảm ơn Lãnh đạo, các thầy, cô giáo của Khoa Đào tạo Sau đại học, Học
viện Cơng nghệ Bưu chính Viễn thơng đã hướng dẫn, giúp đỡ, tạo điều kiện thuận lợi cho tôi
trong thời gian học tập, nghiên cứu và thực hiện luận án.
Tôi xin gửi lời cảm ơn đặc biệt đến Quỹ đổi mới sáng tạo VINGROUP (VINIF), Viện
nghiên cứu dữ liệu lớn (VINBIGDATA), đã chấp nhận hồ sơ ứng tuyển và tài trợ học bổng đào
tạo Tiến sĩ trong nước cho tơi. Đây là nguồn kinh phí thiết thực, giúp tơi tập trung vào cơng việc
nghiên cứu và hồn thành đúng hạn chương trình nghiên cứu sinh của mình.
Tơi xin chân thành cảm ơn Lãnh đạo và các đồng nghiệp tại Khoa Công nghệ thông tin 1,
Học viện Công nghệ Bưu chính Viễn thơng, đã giúp đỡ, tạo điều kiện cơng tác thuận lợi, giúp tơi
tập trung hồn thành luận án.
Cuối cùng, tơi xin cảm ơn gia đình ln bên cạnh giúp tơi vượt qua những khó khăn, thách
thức trong suốt quá trình làm luận án.
Hà Nội, ngày
tháng năm 2023
Nghiên cứu sinh


MỤC LỤC
LỜI CAM ĐOAN................................................................................................................i
LỜI CẢM ƠN.....................................................................................................................ii
DANH MỤC TỪ VIẾT TẮT...............................................................................................v
DANH MỤC KÝ HIỆU....................................................................................................vii
DANH MỤC HÌNH VẼ.....................................................................................................ix
DANH MỤC BẢNG..........................................................................................................xi
MỞ ĐẦU............................................................................................................................ 1
CHƯƠNG 1.

TỔNG QUAN VỀ GIÁM SÁT SỰ KIỆN BẤT THƯỜNG BẰNG THỊ


GIÁC MÁY TÍNH VÀ HỌC MÁY....................................................................................11
1.1.

Tổng quan về sự kiện bất thường...........................................................................11

1.2.

Dữ liệu cho phát hiện sự kiện bất thường................................................................15

1.2.1.

Bộ dữ liệu phát hiện sự kiện bất thường tĩnh.....................................................16

1.2.2.

Bộ dữ liệu phát hiện sự kiện bất thường động...................................................19

1.3.

Học máy cho phát hiện sự kiện bất thường..............................................................22

1.4.

Các nghiên cứu liên quan......................................................................................24

1.4.1.

Phát hiện sự kiện bất thường tĩnh.....................................................................25


1.4.2.

Phát hiện sự kiện bất thường động...................................................................28

1.5.

Kết luận chương...................................................................................................33

CHƯƠNG 2.

ĐỀ XUẤT MƠ HÌNH PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG TĨNH SỬ

DỤNG MẠNG PHÂN CẤP..............................................................................................35
2.1.

Mơ hình hệ thống..................................................................................................36

2.2.

Phát hiện hố sụt trong ảnh nhiệt thu về từ UAV.......................................................38

2.2.1.

Phát hiện hố sụt bằng mơ hình mạng phân cấp..................................................40

2.2.2.

Bám vết hố sụt bằng thuật toán Hungary..........................................................49

2.2.3.


Kết quả thực nghiệm......................................................................................51

2.3.

Phát hiện đường sạt lở trong ảnh thu về từ UAV.....................................................63

2.3.1.

Phân đoạn đường...........................................................................................65

2.3.2.

Phát hiện sạt lở bằng mơ hình phân cấp............................................................66

2.3.3.

Kết quả thực nghiệm......................................................................................71

2.4.

Kết luận chương...................................................................................................83


CHƯƠNG 3.

ĐỀ XUẤT MƠ HÌNH PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG ĐỘNG SỬ

DỤNG MẠNG PHÂN CẤP..............................................................................................86
3.1.


Mơ hình hệ thống..................................................................................................86

3.2.

Phát hiện lửa sử dụng mơ hình mạng phân cấp........................................................89

3.2.1.

Trích xuất đặc trưng các đối tượng nghi ngờ là lửa trong từng khung ảnh...........92

3.2.2.

Trích xuất đặc trưng thời gian của đối tượng sử dụng mơ hình BiLSTM.............96

3.2.3.

Bộ dữ liệu lửa trong video FirePTIT................................................................98

3.2.4.

Kết quả thực nghiệm....................................................................................102

3.3.

Kết luận chương.................................................................................................112

KẾT LUẬN....................................................................................................................114
DANH MỤC CƠNG TRÌNH ĐÃ CÔNG BỐ...................................................................117
TÀI LIỆU THAM KHẢO................................................................................................118



DANH MỤC TỪ VIẾT TẮT
Từ viết tắt

Nghĩa tiếng Anh

Nghĩa tiếng Việt

1DCNN

1 Dimensional CNN

Mạng CNN một chiều

2DCNN

2 Dimensional CNN

Mạng CNN hai chiều

3DCNN

3 Dimensional CNN

Mạng CNN ba chiều

AI

Artificial Intelligence


Trí tuệ nhân tạo

ANN

Artificial Neural Network

Mạng nơ ron nhân tạo

BoVW

Bag-of-Visual-Word

Túi từ trực quan hóa

CNN

Convolutional Neural Network

Mạng nơ ron tích chập

CRF

Conditional Random Field

Trường ngẫu nhiên có điều kiện

DBN

Deep Belief Network


Mạng niềm tin sâu

DEM

Digital Elevation Models

Mơ hình độ cao số

DRN

Deep Recurrent Network

Mạng lặp lại sâu

GIS

Geographic Information System

Hệ thống thông tin địa lý

GPS

Global Positioning System

Hệ thống định vị tồn cầu

HA

Hungarian Algorithm


Thuật tốn Hungary

HM

Hierarchical Model

Mơ hình phân cấp

HMM

Hidden Markov Model

Mơ hình Markov ẩn

HN

Hierarchical Network

Mạng phân cấp

IoT

Internet of Things

Internet vạn vật

ISTL

Incremental Spatiotemporal Learner


Bộ học không-thời gian gia tăng

LiDAR

Light Detection and Ranging

Vùng và phát hiện ánh sáng

LSTM

Long Short Term Memory

Mạng bộ nhớ dài ngắn hạn

NAIP

National Agriculture Imagery Program

Chương trình ảnh vệ tinh nông
nghiệp quốc gia


RCNN

Region Based Convolutional Neural
Networks

Mạng nơ ron tích chập dựa trên
vùng


RGB

Red Green Blue

Đỏ - xanh lá cây - xanh da trời

RNN

Recurrent Neural Network

Mạng nơ ron hồi quy

ROI

Region of Interest

Vùng quan tâm

SVM

Support Vector Machine

Máy vector hỗ trợ

TL

Transfer Learning

Học chuyển tiếp


UAV

Unmmaned Aerial Vehicle

Thiết bị bay không người lái


DANH MỤC KÝ HIỆU
𝐴𝑃

Chỉ số độ chính xác trung bình

𝐴𝑅

Chỉ số recall trung bình

𝐴(")

Năng lượng nhấp nháy tích lũy

𝑐(")

Trạng thái tế bào của mạng LSTM tại thời điểm t

𝑑
𝐷(")
𝐷𝑖𝑐𝑒(. )

Giá trị chi phí trong thuật tốn Hungary

Độ sáng của một điểm ảnh tại thời điểm t
Hàm chỉ số chồng lấn của đối tượng và nhãn

𝐸(")

Năng lượng nhấp nháy của một điểm ảnh tại thời điểm t

𝐹𝑖𝑟𝑒

Giá trị dự đoán đối tượng là lửa hay không phải lửa

𝑓(")

Giá trị tại cổng quên của tế bào trong mạng LSTM tại thời điểm t

ℎ$(.)

Hàm của bộ lọc tại tầng 1

ℎ%(.)

Hàm của bộ lọc tại tầng 2

ℎ&''(.)

Hàm của mơ hình học sâu CNN

ℎ()(.)

Hàm của mơ hình học sâu MobileNet trong bài tốn phát hiện sạt lở


ℎ*
ℎ+,)-(.)
ℎ+-.'-"

Độ dài của một tenor (Đối tượng liên kết Connected components)
Hàm của bộ lọc theo luật
Hàm của mơ hình học sâu Resnet trong bài toán phát hiện lửa

𝐻/!

Ngưỡng dưới trên kênh màu H

𝐻/"

Ngưỡng trên trên kênh màu H

ℎ(")

Giá trị trạng thái ẩn của tế bào trong mạng LSTM tại thời điểm t

𝐼𝑜𝑈(. )

Hàm chỉ số phần giao trên phần hợp của đối tượng

𝑖(")

Giá trị tại lớp cổng vào của tế bào trong mạng LSTM tại thời điểm t

𝐼τ


Tập hợp các tensor đầu vào


𝐽(.)

Hàm Jaccard

𝐿!

Giá trị mất mát ứng với chỉ số Jaccard

𝑁

Số lượng các tensor trong tập hợp

𝑂

Tập hợp các tensor đầu ra

𝑜(")

𝑝

Giá trị tại lớp cổng ra của tế bào trong mạng LSTM tại thời điểm t
Xác suất điểm ảnh là một điểm ảnh thuộc đối tượng bất thường

𝑅/

Ngưỡng dưới trên kênh màu R


𝑠*

Diện tích của một tenor (Đối tượng liên kết Connected components)

𝑠𝑜𝑓𝑡𝑚𝑎𝑥(. ) Hàm softmax
𝑠𝑤𝑖𝑠ℎ(. )
𝑡𝑎𝑛ℎ(.)

Hàm Swish
Hàm tanh

𝑡0/

Ngưỡng chồng lấn để xác định tỉ lệ phát hiện chính xác đối tượng bất thường

𝑤*

Độ rộng của một tenor (Đối tượng liên kết Connected components)

(")
𝑋&''

𝑋12"&3
(")

𝑋+-.'-"

Tập hợp các vector đặc trưng của các đối tượng có khả năng là đối tượng bất
thường tại thời điểm t

Cụm các vector đặc trưng của các bước thời gian trong quá khứ được trích xuất
ra từ mơ hình Resnet
Tập hợp các vector đặc trưng của các đối tượng có khả năng là đối tượng bất
thường tại thời điểm t được trích xuất từ mơ hình Resnet

𝑌

Đầu ra dự đốn của mơ hình mạng nơ ron hồi quy RNN

𝛼

Hệ số tích lũy

𝜎(.)

Hàm sigmoid

τ

Tensor


DANH MỤC HÌNH VẼ
Hình 1. 1. Các bước trong q trình quản lý sự kiện bất thường.............................................12
Hình 1. 2. Hệ thống cảnh báo sự kiện bất thường..................................................................13
Hình 1. 3. Mơ hình phát hiện sạt lở trong cơng trình [107].....................................................27
Hình 1. 4. Mơ hình phát hiện lửa trong cơng trình [165]........................................................33
Hình 2. 1. Mơ hình mạng phân cấp......................................................................................37
Hình 2.2. Mơ hình đề xuất phát hiện hố sụt..........................................................................40
Hình 2.3. Các bước phát hiện hố sụt trong ảnh......................................................................42

Hình 2.4. Kiến trúc U-Net đề xuất.......................................................................................43
Hình 2.5. Mã giả của bộ lọc dựa trên luật ℎ𝑟𝑢𝑙𝑒..............................................................47
Hình 2.6. Kiến trúc mạng học sâu phân loại đối tượng hố sụt.................................................48
Hình 2. 7. Nhãn cho huấn luyện mơ hình phân đoạn hố sụt....................................................51
Hình 2. 8. Dữ liệu trong tập dữ liệu huấn luyện mơ hình MobileNet v3..................................52
Hình 2.9. Hàm mất mát trong q trình huấn luyện mơ hình U-Net........................................53
Hình 2.10. Hàm mất mát trong quá trình huấn luyện mơ hình MobileNet v3...........................54
Hình 2.11. Đồ thị ROC (Receiver Operating Characteristic) so sánh các phương pháp............58
Hình 2.12. Biểu đồ cột so sánh độ chính xác các phương pháp...............................................60
Hình 2.13. Luồng xử lý của hệ thống phát hiện sạt lở đường..................................................64
Hình 2. 14. Các bước trong q trình trích xuất đối tượng nghi ngờ sạt lở...............................68
Hình 2. 15. Kiến trúc mơ hình phân cấp phát hiện sạt lở........................................................68
Hình 2. 16. Mã giả bộ lọc cho đối tượng nghi ngờ sạt lở........................................................70
Hình 2. 17. Quá trình tạo dữ liệu huấn luyện sạt lở................................................................72
Hình 2. 18. Hình ảnh trong bộ dữ liệu sạt lở.........................................................................75
Hình 2. 19. Nhãn của dữ liệu trong bộ dữ liệu sạt lở..............................................................76
Hình 3.1. Mơ hình mạng phân cấp phát hiện đối tượng bất thường động................................87
Hình 3.2. Mơ hình phát hiện lửa trong video sử dụng mạng CNN-BiLSTM...........................91
Hình 3. 3. Bản đồ năng lượng biên của đối tượng lửa............................................................93
Hình 3. 4. Bản đồ phân loại điểm ảnh lửa.............................................................................93
Hình 3. 5. Ví dụ kết hợp bản đồ năng lượng và bản đồ phân loại điểm ảnh trong phát hiện đối
tượng lửa tiềm năng............................................................................................................ 94


Hình 3. 6. Kiến trúc ResNet-18...........................................................................................96
Hình 3. 7. Hoạt động của mạng LSTM................................................................................98
Hình 3. 8. Ví dụ về khung hình chứa lửa trong tập dữ liệu kiểm tra.......................................102
Hình 3. 9. Ví dụ về khung hình chứa đối tượng giống lửa trong tập dữ liệu kiểm tra..............102
Hình 3. 10. Đường cong huấn luyện của mơ hình đề xuất....................................................104



DANH MỤC BẢNG
Bảng 2. 1. Tham số mơ hình U-Net.....................................................................................53
Bảng 2. 2. Tham số mơ hình MobileNet..............................................................................54
Bảng 2. 3. Độ chính xác mơ hình U-Net...............................................................................54
Bảng 2. 4. Kích thước mơ hình U-Net..................................................................................55
Bảng 2. 5. Độ chính xác mơ hình MobileNet........................................................................56
Bảng 2. 6. Điểm IoU trên từng Video..................................................................................61
Bảng 2. 7. Thời gian xử lý trên bo mạch nhúng....................................................................63
Bảng 2. 8. Tốc độ khung hình của mơ hình đề xuất...............................................................63
Bảng 2. 9. Thống kê dữ liệu do mơ hình sinh dữ liệu tự động.................................................74
Bảng 2. 10. Tham số huấn luyện mơ hình SD-UNet..............................................................77
Bảng 2. 11. Tham số huấn luyện mơ hình MobileNet v3.......................................................77
Bảng 2. 12. So sánh các phương pháp phân đoạn đường.......................................................78
Bảng 2. 13. So sánh các phương pháp phân loại ảnh.............................................................79
Bảng 2. 14. Đánh giá hiệu quả khi sử dụng bộ lọc theo luật...................................................80
Bảng 2. 15. So sánh hiệu năng của các phương pháp.............................................................82
Bảng 3. 1. Thống kê số lượng video trong bộ dữ liệu FirePTIT............................................100
Bảng 3. 2. So sánh các mơ hình nhận dạng đối tượng trên tập dữ liệu lửa..............................106
Bảng 3. 3. So sánh mơ hình đề xuất với số lớp LSTM khác nhau.........................................106
Bảng 3. 4. Mô tả chi tiết về một số video trong tập kiểm tra.................................................107
Bảng 3. 5. Kết quả so sánh với các phương pháp khác trên tập video thử nghiệm..................109
Bảng 3. 6. So sánh độ chính xác với các phương pháp khác.................................................111


MỞ ĐẦU
Sự kiện bất thường là sự kiện xảy ra ngồi dự đốn, kế hoạch của con người [1]. Sự kiện bất
thường nếu không được giám sát và cảnh báo kịp thời có thể gây ảnh hưởng lớn đến hạ tầng, tài
sản, và thậm chí tính mạng của con người. Sự kiện bất thường có thể chia ra làm hai loại chính: Sự
kiện bất thường do tự nhiên và sự kiện bất thường do các hoạt động của con người gây ra. Sự kiện

bất thường do tự nhiên gây ra thường có yếu tố ngẫu nhiên rất khó dự đốn và phát hiện sớm,
phịng tránh. Trong khi đó, sự kiện bất thường do hoạt động của con người gây ra có thể dự đốn
và phịng tránh để cảnh báo sớm [2]. Sự kiện bất thường là một trong những nguyên nhân hàng
đầu của những thiệt hại về con người và kinh tế [3]. Do đó, việc xây dựng các hệ thống cảnh báo
sớm là thực sự cần thiết. Với sự trợ giúp của các hệ thống phần cứng giám sát dựa trên cơng nghệ
Internet vạn vật (IoT) và trí tuệ nhân tạo (AI), các sự kiện bất thường có thể được phát hiện và cảnh
báo sớm. Tuy nhiên, để các hệ thống giám sát dựa trên các công nghệ cao này đi vào thực tiễn, cần
một lõi xử lý đủ mạnh để có thể phát hiện, cảnh báo tự động với độ chính xác cao và tỉ lệ cảnh báo
giả thấp. Trong các mơ hình giám sát và thu thập dữ liệu, bên cạnh các hệ cảm biến truyền thống,
cảm biến hình ảnh (camera) hiện đang được triển khai ngày càng nhiều và rộng khắp trên toàn thế
giới bởi tầm quan sát rộng, linh hoạt, và chi phí thấp cũng như khả năng tích hợp các cơng nghệ
xử lý tiên tiến. Theo số liệu trong [4], số lượng camera giám sát (CCTV – Closed-circuit
Television) sẽ đạt ngưỡng 1 tỷ đơn vị trong năm 2022, và sẽ ngày càng tăng lên nhanh chóng
ngay cả ở các quốc gia đang phát triển. Các hệ thống camera giám sát này thường sẽ thu thập và
lưu trữ dữ liệu tại các trung tâm dữ liệu (DC – Data Center) tập trung. Để các hệ thống camera
giám sát này có thể theo dõi, phát hiện được các sự kiện bất thường, các thuật toán học máy, xử lý
ảnh phải được áp dụng vào phần lõi xử lý được cài đặt tại các trung tâm dữ liệu hoặc tại các thiết
bị biên.
Thời gian gầy đây, các mơ hình học sâu cho kết quả tốt ở nhiều lĩnh vực đặc biệt là các hệ
thống giám sát sử dụng camera [5]. Trong phạm vi của luận án, các mơ hình học sâu tích hợp vào
hệ thống giám sát để phát hiện, cảnh báo các sự kiện bất thường có thể được chia thành hai nhóm
theo tính chất của sự kiện bất thường được quan sát: Sự kiện bất thường tĩnh và sự kiện bất thường
động.

1


Sự kiện bất thường tĩnh là sự kiện bất thường chứa những đối tượng bất thường tĩnh (khơng
có yếu tố chuyển động), ví dụ như sạt lở đất đá [6], [7], hố sụt [8], [9]. Trong khi đó, sự kiện bất
thường động là sự kiện bất thường chứa các đối tượng bất thường có yếu tố chuyển động ví dụ

như lửa [10], [11], hành vi bạo lực [12], [13], v.v. Để nhận dạng bất thường tĩnh, các kỹ thuật phát
hiện đối tượng (object detection) được sử dụng trực tiếp trên ảnh gốc để xác định vị trí của đối
tượng bất thường [14]. Các đối tượng bất thường này được định nghĩa trước trong quá trình gán
nhãn dữ liệu phục vụ cho việc huấn luyện các mơ hình phát hiện đối tượng. Các mơ hình phát
hiện đối tượng như YOLO [15], Faster RCNN [16], và SSD [17] là những mơ hình phát hiện đối
tượng được sử dụng phổ biến nhất. Các kỹ thuật dựa trên phát hiện đối tượng trực tiếp trên ảnh
gốc cho độ chính xác khơng cao, đặc biệt là khi các đối tượng bất thường xuất hiện ở khoảng cách
xa (kích thước nhỏ trong ảnh), và có hình dạng không đồng nhất. Hơn nữa, các kỹ thuật phát hiện
đối tượng sử dụng mơ hình học sâu cũng cho tốc độ xử lý không đáp ứng được yêu cầu về thời
gian thực khi phải chạy các mơ hình này trên các hệ thống nhúng với phần cứng hạn chế. Do đặc
thù đối tượng tĩnh, các kỹ thuật được áp dụng vào bài toán phát hiện đối tượng bất thường này đều
nhận đầu vào là một ảnh đơn. Các phương pháp học máy truyền thống dựa vào việc trích xuất đặc
trưng đối tượng trong ảnh gốc để nhận dạng bất thường [18]. Tuy nhiên, do đối tượng bất thường
chỉ chiếm một phần nhỏ trong ảnh gốc, các đặc trưng được trích xuất ra từ ảnh gốc này chứa nhiều
nhiễu, làm giảm độ chính xác của các mơ hình phát hiện bất thường.
Với sự kiện bất thường động, yếu tố chuyển động của đối tượng bất thường là một trong
những đặc trưng quan trọng nhất để phát hiện sự kiện bất thường. Do đó, một số kỹ thuật phát
hiện bất thường chỉ sử dụng ảnh đơn (khung hình đơn cắt ra từ video) để nhận dạng bất thường
cho độ chính xác không cao và đặc biệt là tỉ lệ cảnh báo giả lớn [19]. Các mơ hình có xét đến yếu
tố chuyển động của đối tượng thơng qua việc trích xuất các đặc trưng thời gian cho độ chính xác
cao hơn, nhưng thời gian xử lý cũng dài hơn do phải xét và xử lý nhiều khung hình cùng lúc thay
vì chỉ một khung hình đơn. Các mơ hình này thường kết hợp một bộ trích chọn đặc trưng khơng
gian và một bộ trích chọn đặc trưng thời gian để phát hiện các sự kiện bất thường [20]. Các mơ
hình này cho độ chính xác cao hơn với tỉ lệ cảnh báo giả thấp hơn so với nhóm mơ hình chỉ sử
dụng đặc trưng khơng gian. Tuy nhiên, các mơ hình này vẫn dựa vào việc trích xuất đặc trưng từ
ảnh gốc, chứa nhiều nhiễu vì đối tượng bất thường chỉ chiếm một phần nhỏ trong ảnh. Các
phương pháp áp dụng trực tiếp mơ hình


kết hợp nêu trên vẫn cho tỉ lệ cảnh báo giả cao, và đặc biệt là thời gian xử lý dài hơn, làm cho các

mơ hình này khó có khả năng áp dụng vào thực tế các hệ thống yêu cầu tính thời gian thực cao
như hệ thống giám sát [21], [22].
Mặc dù bước đầu đã đạt được những kết quả tiềm năng, nhưng những phân tích ở trên cho
thấy việc áp dụng trực tiếp các mơ hình học sâu vào bài toán nhận dạng, phát hiện đối tượng bất
thường vẫn gặp phải nhiều hạn chế, trong đó nổi bật nhất là hiện tượng cảnh báo giả. Điều này
xuất phát từ việc các đối tượng bất thường xuất hiện với một tỉ lệ nhỏ trong mẫu dữ liệu (khung
hình, đoạn video) từ đó dẫn đến nhiễu từ các đối tượng khác trong mẫu dữ liệu làm ảnh hưởng
đến hiệu năng của mơ hình nhận dạng, phát hiện đối tượng. Để khắc phục những hạn chế này, mơ
hình phân cấp [23], [24], [25] kết hợp nhiều mơ hình, kỹ thuật để cải thiện hiệu năng hệ thống
đang thu hút được sự chú ý của giới nghiên cứu.
Câu hỏi đặt ra khi muốn áp dụng các mơ hình phát hiện sự kiện bất thường này vào các hệ
thống giám sát theo thời gian thực là làm sao cho mơ hình hoạt động ổn định với tỉ lệ cảnh báo giả
thấp và thời gian xử lý đủ nhanh. Tỉ lệ cảnh báo giả cao có thể làm giảm hiệu quả giám sát tự
động, khơng loại bỏ hồn tồn được yếu tố giám sát thủ công khi các cảnh báo giả liên tục gửi các
thông báo sai cho người quản trị. Thời gian xử lý không đủ nhanh sẽ làm cho các cảnh báo của hệ
thống khơng có tính chất liên tục và kịp thời, những điểm tối quan trọng trong các hệ thống giám
sát sự kiện bất thường. Do từng đặc thù của các bài toán phát hiện sự kiện bất thường khác nhau
mà hai yếu tố này sẽ có yếu tố được quan tâm nhiều hơn. Tuy nhiên, muốn một hệ thống đạt được
hiệu quả cao nhất thì những yêu cầu tối thiểu của hai yếu tố này cần được đảm bảo. Thơng
thường, hai yếu tố này có sự ràng buộc chặt chẽ với nhau, khi muốn độ chính xác cao và tỉ lệ cảnh
báo giả thấp thì cần nhiều bước xử lý hơn làm cho tốc độ xử lý sẽ chậm hơn, và ngược lại. Chính
vì vậy, các mơ hình được đề xuất cần phải vừa cải thiện độ chính xác cũng như tốc độ xử lý so với
các mơ hình, phương pháp trước đây. Nếu đạt được cả hai yếu tố này trong cùng một mơ hình thì
hệ thống giám sát có nhiều tiềm năng để có thể áp dụng được vào thực tế để giám sát các sự kiện
bất thường xảy ra trong tự nhiên, cũng như sự kiện bất thường xảy ra do hoạt động của con người.
Với bài toán phát hiện đối tượng bất thường tĩnh xử lý trên ảnh đơn, luận án hướng đến đề
xuất một mơ hình phân cấp cho phép trích xuất và lọc các đối tượng nghi ngờ là bất thường ở các
chặng đầu, các chặng sau cho phép nhận dạng đối tượng bất thường sử dụng



các bộ phân loại học sâu. Mơ hình phân cấp này tăng hiệu năng so với các mơ hình nhận và xử lý
trực tiếp trên ảnh đầu vào, trong khi vẫn đảm bảo được tốc độ xử lý cao do đã loại bỏ được nhiều
đối tượng nhiễu trong các chặng của bộ lọc.
Tương tự, với sự kiện bất thường động, luận án sẽ đề xuất một mơ hình phân cấp, trong đó
các đối tượng nghi ngờ là bất thường sau khi được lọc ở các chặng đầu, sẽ được bám vết và trích
xuất đặc trưng thời gian trước khi đưa vào bộ nhận dạng đối tượng ở chặng cuối. Mô hình này cho
hiệu năng cao hơn các phương pháp chỉ trích xuất đặc trưng khơng gian, và các mơ hình trích xuất
đặc trưng thời gian nhưng xử lý hồn tồn từ ảnh gốc, trong khi vẫn đảm bảo được thời gian xử lý
theo thời gian thực. Ngoài ra, việc sử dụng mơ hình phân cấp cũng cho phép các hệ thống phát
hiện đối tượng bất thường tránh được hiện tượng cảnh báo giả xuất hiện khi các đối tượng nhiễu
bị nhận dạng nhầm là đối tượng bất thường.
Mơ hình phân cấp được đề xuất trong nội dung đồ án được xây dựng dựa trên một loạt các
bộ lọc (mô đun xử lý) có tính chất khác nhau phù hợp với đặc điểm của dữ liệu tại từng chặng
trong quá trình xử lý. Mơ hình phân cấp cho thấy những hiệu quả vượt trội so với các mơ hình
khác trong việc xử lý những đối tượng bất thường. Mơ hình phân cấp được đề xuất trong đồ án
cũng có những điểm khác biệt so với các mạng phân cấp là tư tưởng chủ đạo để xây dựng thuật
toán mạng nơ ron truyền thống và mạng nơ ron nhân chập trong các mơ hình học sâu. Các mạng
phân cấp được thiết kế để các thành phần trong nội bộ mạng đó liên kết theo từng cấp độ với nhau
để trích xuất các đặc trưng của đối tượng từ đơn giản đến phức tạp, qua đó cho kết quả nhận dạng
tốt hơn. Các lớp được phân cấp trong mạng phân cấp không thể được huấn luyện độc lập nhau tùy
thuộc vào tính chất của đối tượng đầu vào. Trong nội dung đồ án, các mạng phân cấp như mạng
học sâu được sử dụng như một bộ lọc ở mơ hình phân cấp để cho lọc đối tượng ở các bước cuối
cùng.
Mặc dù tính ưu việt của học sâu so với các phương pháp học máy truyền thống trong các bài
tốn nhận dạng nói chung là điều được công nhận rộng khắp, tuy nhiên các mơ hình học sâu cần
một lượng lớn dữ liệu để có thể cho ra những kết quả phân tích với độ chính xác cao. Với đặc thù
trong bài tốn nghiên cứu của luận án, các sự kiện bất thường, lại thường là những sự kiện ít xảy
ra, do đó lượng dữ liệu thu được để huấn luyện mơ hình học sâu là rất hạn chế [26]. Việc xây
dựng các bộ dữ liệu cho các bài toán nhận dạng bất thường bởi vậy cũng là thách thức với các nhà
nghiên cứu. Các bộ dữ liệu được công bố làm tiêu chuẩn chung đánh giá các mơ hình khác nhau

là cần thiết để thúc đẩy sự phát triển trong lĩnh vực


nghiên cứu sự kiện bất thường. Xuất phát từ thực trạng này, luận án cũng đặt ra mục tiêu xây dựng
các bộ dữ liệu cho các bài toán phát hiện bất thường. Trong đó hướng đến xây dựng được ít nhất
hai bộ cơ sở dữ liệu phục vụ tương ứng cho hai bài toán phát hiện sự kiện bất thường tĩnh và sự
kiện bất thường động. Các bộ dữ liệu cần xây dựng thỗ mãn các u cầu nói chung của một bộ
dữ liệu chuẩn như số lượng mẫu, độ đa dạng của mẫu, số lượng nhóm của dữ liệu. Ngồi ra, bộ dữ
liệu phục vụ cho bài tốn nhận dạng sự kiện bất thường cũng phải mô tả sát nhất các điều kiện
môi trường khi các sự kiện bất thường được ghi lại.
a.

Mục đích nghiên cứu
Mục đích của luận án này là nghiên cứu các thành phần của mô hình phân cấp để đề xuất

cấu trúc của mơ hình phân cấp cho nhận dạng, phát hiện các sự kiện bất thường. Mục tiêu cuối
cùng là đề xuất được mô hình phân cấp cho nhận dạng các bất thường động, nơi đối tượng bất
thường có tính chất chuyển động. Việc sử dụng mơ hình phân cấp cho nhận dạng bất thường có
thể trả lời câu hỏi nghiên cứu đề cập đến ở phần mở đầu, đó là: tăng độ chính xác và cải thiện tốc
độ xử lý của các mô hình huấn luyện theo kiểu đầu cuối (end-to- end). Mơ hình phân cấp được
xây dựng với nhiều cấp bộ lọc để loại bỏ các đối tượng nhiễu theo từng cấp độ liên quan đến đối
tượng chính cần phát hiện. Mơ hình phân cấp có thể giúp các lõi xử lý ảnh trong các hệ thống
cảnh báo bất thường trở nên mạnh hơn bằng việc tăng độ chính xác (giảm tỉ lệ cảnh báo giả), và
đặc biệt là tăng đáng kể tốc độ xử lý. Hai yếu tố này giúp cho hệ thống cảnh báo trở nên đáng tin
cậy hơn.
Để đạt được mục tiêu này, trước tiên, các thành phần trong mơ hình phân cấp được nghiên
cứu trên từng ảnh đơn để đề xuất mơ hình cho nhận dạng bất thường tĩnh. Cho phép nhận dạng
đối tượng bất thường tĩnh với độ chính xác cao, tỉ lệ cảnh báo giả thấp và có khả năng hoạt động
trong thời gian thực.
Dựa trên những thành phần của mơ hình phân cấp này, kiến trúc của mơ hình được nâng

cấp lên phục vụ cho nhận dạng bất thường động dựa trên việc kết hợp với các thành phần có khả
năng trích xuất đặc trưng về thời gian trong nhiều ảnh đơn liên tiếp nhau trong video.
Hai mơ hình phân cấp cho nhận dạng bất thường tĩnh và động được đánh giá trên các bộ dữ
liệu được thu thập và chuẩn hoá trong luận án này. Các bộ dữ liệu được xây dựng với


mục đích cơng bố rộng rãi cho các nghiên cứu tiếp theo sau có thể sử dụng làm tiêu chuẩn để đánh
giá. Các mục tiêu nghiên cứu cụ thể của luận án:
Thứ nhất, nghiên cứu các mơ hình mạng học sâu phân cấp cho bài toán phát hiện, nhận dạng
sự kiện bất thường, xây dựng các bộ dữ liệu để đánh giá mơ hình phân cấp cho nhận dạng bất
thường.
Thứ hai, nghiên cứu đề xuất mơ hình mạng học sâu phân cấp cho nhận dạng sự kiện bất
thường tĩnh để cải thiện hiệu năng của các kỹ thuật, mơ hình học sâu nhận dạng sự kiện trực tiếp
trên ảnh đơn.
Thứ ba, trên cơ sở mơ hình học sâu phân cấp cho nhận dạng sự kiện bất thường tĩnh, nghiên
cứu, đề xuất mơ hình mạng học sâu phân cấp cho nhận dạng sự kiện bất thường động với các mơ
đun có khả năng trích xuất đặc trưng thời gian. Mơ hình học sâu phân cấp cải thiện hiệu năng và
tốc độ xử lý so với các kỹ thuật học sâu khác cho nhận dạng bất thường động.
b.

Đối tượng nghiên cứu
Luận án tập trung nghiên cứu hai đối tượng chính xoay quanh các hệ thống cảnh báo, giám

sát sử dụng hình ảnh. Cụ thể gồm: 1) Các sự kiện bất thường có thể giám sát bởi hệ thống camera;
2) Các mạng học sâu trong mơ hình phân cấp phục vụ cho bài toán phát hiện bất thường.
c.

Phạm vi nghiên cứu
-


Dựa trên nội dung trong phần mục đích nghiên cứu, đề tài luận án tập trung vào nghiên
cứu và đề xuất mơ hình phân cấp để nhận dạng sự kiện bất thường trong ảnh/video. Các
mơ hình học sâu phân cấp được sử dụng trong luận án là các mơ hình học sâu dựa trên hai
mơ hình chính là mạng nơ ron tích chập CNN (Convolutional Neural Network) để trích
xuất đặc trưng khơng gian và mạng bộ nhớ dài ngắn hạn LSTM (Long Short Term
Memory) để trích xuất đặc trưng thời gian. Ngồi ra, các phương pháp xử lý ảnh truyền
thống cũng được sử dụng kết hợp với các mơ hình học sâu để tăng hiệu năng của hệ thống.

-

Do đặc thù của sự kiện bất thường, số loại sự kiện bất thường là rất lớn, khơng thể có một hệ
thống, mơ hình hay phương pháp nào có thể được áp dụng để nhận dạng, phát


hiện mọi loại sự kiện bất thường. Mơ hình phân cấp là tư tưởng chủ đạo để áp dụng nhận
dạng, phát hiện các sự kiện bất thường thông qua việc trích xuất và phân tích đặc tính của
các đối tượng bất thường trong ảnh/video. Tuy nhiên, mơ hình phân cấp này cũng không
thể áp dụng với kiến trúc và bộ tham số giống nhau cho mọi loại sự kiện bất thường. Thay
vào đó, mỗi mơ hình phân cấp cụ thể khi được áp dụng vào để nhận dạng một loại sự kiện
bất thường sẽ có những sự thay đổi ở các thành phần bên trong mơ hình. Để chứng minh
tính hiệu quả của ý tưởng sư dụng mạng phân cấp cho nhận dạng sự kiện bất thường, nội
dung của luận án đưa ra các kết quả thực nghiệm với một số bài toán cụ thể nhận dạng sự
kiện bất thường đó là nhận dạng hố sụt, nhận dạng sạt lở, và nhận dạng lửa trong
ảnh/video.
-

Dữ liệu về sự kiện bất thường được thu thập từ nhiều nguồn camera khác nhau ứng với các bài
toán khác nhau.

d.


Phương pháp nghiên cứu
Phương pháp tiếp cận giải quyết các vấn đề trong luận án này được thực hiện thơng qua hai

q trình: Thứ nhất là phân tích vấn đề và xây dựng mơ hình, kiến trúc mạng học sâu, quá trình
thứ hai là thử nghiệm đánh giá mơ hình.
-

Q trình thứ nhất, thiết lập mơ hình mơ hình, kiến trúc mạng học sâu. Mặc dù các mơ
hình học sâu nổi tiếng được sử dụng trong nhiều bài toán khác nhau, với mỗi lĩnh vực có
những đặc thù riêng, việc áp dụng các mơ hình học sâu này cần phải có những chọn lựa và
điều chỉnh. Trong q trình này, nghiên cứu sinh phân tích vấn đề, hiểu đặc điểm của các
sự kiện bất thường để đề xuất kiến trúc học sâu phù hợp, hiệu quả.

-

Q trình thứ hai, thử nghiệm đánh giá mơ hình. Bước này được thực hiện đánh giá các
mơ hình đề xuất trong bước thứ nhất bằng việc huấn luyện các mơ hình này với các bộ dữ
liệu về sự kiện bất thường thu thập được. Bên cạnh việc đánh giá các mơ hình hệ thống
thơng qua các so sánh với các phương pháp, mơ hình khác, bước này cũng tiến hành thử
nghiệm thực tế các mơ hình đề xuất trên một số bo mạch nhúng để kiểm nghiệm tính khả
thi.

e.

Những đóng góp chính của luận án




×