Tải bản đầy đủ (.pdf) (119 trang)

Phát hiện đối tượng có hành vi bất thường trên camera anh ninh vào ban đêm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.19 MB, 119 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

LUẬN VĂN THẠC SĨ
ĐINH NGUYỄN ĐĂNG KHOA

PHÁT HIỆN ĐỐI TƯỢNG CÓ HÀNH VI BẤT THƯỜNG
TRÊN CAMERA ANH NINH VÀO BAN ĐÊM

NGÀNH: KỸ THUẬT ĐIỆN TỬ

Tp. Hồ Chí Minh, tháng 11/2022


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

LUẬN VĂN THẠC SĨ
ĐINH NGUYỄN ĐĂNG KHOA

PHÁT HIỆN ĐỐI TƯỢNG CÓ HÀNH VI BẤT THƯỜNG TRÊN
CAMERA AN NINH VÀO BAN ĐÊM

NGÀNH: KỸ THUẬT ĐIỆN TỬ - 8520203
Hướng dẫn khoa học:
PGS.TS LÊ MỸ HÀ

Tp. Hồ Chí Minh, tháng 11/2022









LÝ LỊCH KHOA HỌC
I. LÝ LỊCH SƠ LƯỢC:
Họ & tên: Đinh Nguyễn Đăng Khoa

Giới tính: Nam

Ngày, tháng, năm sinh: 16/02/1996

Nơi sinh: TP.HCM

Quê quán: TP.HCM

Dân tộc: Kinh

Địa chỉ liên hệ: 34A, TL16, phường Thạnh Lộc, Quận 12
Điện thoại cơ quan:
Fax:
II. QUÁ TRÌNH ĐÀO TẠO:

Điện thoại nhà riêng:
E-mail:

1. Trung học chuyên nghiệp:

Hệ đào tạo:
Nơi học (trường, thành phố):
Ngành học:
2. Đại học:
Hệ đào tạo Chính quy;

Thời gian đào tạo từ 09/2014 đến 09/2019

Nơi học (trường, thành phố): Đại học Sư Phạm Kỹ Thuật, thành phố Hồ Chí Minh
Ngành học: Cơng nghệ kỹ thuật điện tử - truyền thông.
Tên đồ án, luận án hoặc môn thi tốt nghiệp: Nghiên cứu ứng dụng mô hình mạng
neuron tích chập vào nhận dạng trái cây qua webcam.
Ngày & nơi bảo vệ đồ án, luận án hoặc thi tốt nghiệp: 20/06/2019 tại Trường đại học
Sư phạm Kỹ thuật.
Người hướng dẫn: Ths. Trương Ngọc Hà.
3. Thạc sĩ:
Hệ đào tạo: Chính quy
Thời gian đào tạo từ 10/2019 đến 11/ 2022
Nơi học (trường, thành phố): đại học Sư phạm Kỹ thuật, thành phố Hồ Chí Minh
Ngành học: Kỹ thuật điện tử
Tên luận văn: Phát hiện đối tượng có hành vi bất thường trên camera an ninh vào ban
đêm
Ngày & nơi bảo vệ luận văn: 06/11/2022 tại Trường đại học Sư phạm Kỹ thuật.
Người hướng dẫn: PGS.TS. Lê Mỹ Hà.
III. QUÁ TRÌNH CƠNG TÁC CHUN MƠN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC:
Thời gian

Nơi công tác

Công việc đảm nhiệm


2019 - 2020

HRI & ITNAVI

Cộng tác viên

i


LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công
bố trong bất kỳ cơng trình nào khác
Tp. Hồ Chí Minh, ngày 05 tháng 11 năm 2022
(Ký tên và ghi rõ họ tên)

ii


LỜI CẢM ƠN
Trong quá trình thực hiện luận văn, bên cạnh sự nỗ lực của mỗi cá nhân thì sự
giúp đỡ, dẫn dắt từ phía thầy cơ và nguồn tài liệu phong phú, bổ ích của nhà trường
là những nhân tố khổng thể thiếu để nhóm thực hiện hồn thiện được luận văn này.
Người nghiên cứu xin chân thành gửi lời cảm ơn đến thầy Lê Mỹ Hà, đã
định hướng, giúp đỡ tận tình, giải đáp những vướng mắc trong quá trình thực hiện đề
tài , giúp người nghiên cứu thực hiện chuyên đề đúng định hướng.
Người thực hiện xin gửi đến gia đình, các bạn học viên trong lớp, các anh chị
đi trước lời cảm ơn sâu sắc vì những đóng góp quý báu và sự động viên,
giúp đỡ nhiệt tình trong suốt thời gian học tập, cũng như q trình nghiên cứu, hồn

thành luận văn này.
Mặc dù đã cố gắng để thực hiện đề tài một cách hoàn chỉnh nhất, nhưng do
buổi đầu làm quen và tiếp cận trong lĩnh vực mới cũng như có một số hạn chế nhất
định về kiến thức và kinh nghiệm nên chuyên đề này khơng thể tránh khỏi những
thiếu sót mà bản thân chưa nhìn nhận được. Người thực hiện rất mong nhận được
sự góp ý của q thầy, cơ giáo và các bạn để có thể thực hiện tốt hơn trong tương lai.

TP. Hồ Chí Minh, tháng 11 năm 2022
Học viên

iii


TĨM TẮT
Đảm bảo an ninh về đêm ln là một trong những chủ đề mang tính thời sự và
thu hút sự quan tâm của mọi người ở mọi quốc gia. Ngày nay, dù cho có sự trợ giúp
của hệ thống camera hiện đại nhưng việc nhận diện người có hành vi bất chính vào
buổi tối ln là một nhiệm vụ khó khăn do tình trạng thiếu sáng của cảnh vật, tình
trạng mệt mỏi của con người, hành vi phạm tội ngày càng tinh vi, khó phân biệt với
hành động người thường nếu không theo dõi sát sao đối tượng và khơng phải lúc nào
chủ nhà cũng có thể giám sát chúng thơng qua camera. Vì vậy, việc triển khai một hệ
thống có khả năng thay thế con người tự động giám sát hành vi của người khác 24/7
và báo hiệu về cho người giám sát sẽ làm tăng tỷ lệ phát hiện ra những kẻ có hành vi
bất chính, bảo vệ được tài sản cá nhân.
Trong nghiên cứu này, người thực hiện đề xuất một hệ thống hỗ trợ camera an
ninh có khả năng khắc phục sự thiếu sáng và phát hiện được đối tượng có hành vi bất
thường để báo hiệu cho người giám sát. Ảnh đầu vào từ camera sẽ được đưa qua một
khối xử lý hình ảnh để tăng cường độ tương phản bằng CLAHE và được trích xuất ra
các đối tượng chuyển động bằng phương pháp trừ nền MOG. Các đối tượng này sẽ
được đưa qua mơ hình Học sâu YOLO kết hợp với mơ hình theo vết đối tượng Deep

SORT Learning để trích xuất ra và lưu trữ các đối tượng là người. Chuỗi hành động
của những người này sẽ được đến mạng học sâu CNN–LSTM để phát hiện ra người
có hành động bất thường và chỉ ra hành động để báo động cho người giám sát.

iv


ABSTRACT
Ensuring night security is always one of the most concerning topics that attract
people's attention in every nation. Nowadays, even with the help of modern camera
systems, identifying people who commit criminal acts at night is always a difficult
task due to a variety of factors like the lack of light in the scene, and the tiredness of
the supervisors. Also, criminals are increasingly sophisticated and difficult to
distinguish from ordinary human actions if those subjects are not closely monitored,
and the supervisors are not always able to observe them through the camera.
Therefore, implementing a human-replaceable system that automatically monitors
other people's behavior 24/7 and alerts supervisors will increase the rate of detecting
abnormal behavior people as well as protecting personal properties.
In this study, the researcher proposed a security camera support application
capable of overcoming the lack of light and detecting objects with unusual behavior
to alert the supervisor. The input image from the camera will be passed through an
image processing unit to be enhanced the contrast with the CLAHE algorithm and
extracted to moving objects by the adaptive MOG background subtraction method.
The images then are transferred into the combination of Deep Learning models
YOLO - Deep SORT Learning to extract which object is human only and to be
grouped by the Deep SORT model into groups associated with the ID that the model
assigned for each subject. Then the grouped sequence of those subjects will be passed
through will be passed to the CNN-LSTM to detect who is acting abnormally, and
report the action to alert the supervisors.


v


MỤC LỤC
Trang tựa

TRANG

Quyết định giao đề tài
Biên bản chấm luận văn tốt nghiệp thạc sĩ
Phiếu nhận xét
LÝ LỊCH KHOA HỌC ............................................................................................... i
LỜI CAM ĐOAN ...................................................................................................... ii
LỜI CẢM ƠN ........................................................................................................... iii
TÓM TẮT ................................................................................................................. iv
ABSTRACT ................................................................................................................v
MỤC LỤC ................................................................................................................. vi
DANH SÁCH TỪ VIẾT TẮT .................................................................................. ix
DANH SÁCH CÁC HÌNH .........................................................................................x
DANH SÁCH CÁC BẢNG .................................................................................... xiii
Chương 1 TỔNG QUAN ..........................................................................................1
1.1.

Tổng quan về đề tài nghiên cứu.....................................................................1

1.2.

Mục đích nghiên cứu .....................................................................................6

1.3.


Nhiệm vụ nghiên cứu và giới hạn của đề tài .................................................7

1.3.1.

Nhiệm vụ nghiên cứu:.............................................................................7

1.3.2.

Giới hạn của đề tài ..................................................................................7

1.4.

Phương pháp nghiên cứu ...............................................................................7

1.5.

Bố cục ............................................................................................................7

Chương 2 CƠ SỞ LÝ THUYẾT ..............................................................................9
2.1.

Các vấn đề về nhận diện đối tượng về đêm ...................................................9

2.2.

Các phương pháp xử lý ..................................................................................9

2.2.1.


Thuật toán tăng cường ảnh CLAHE .......................................................9

2.2.2.

Phương pháp trừ nền MOG thích ứng ..................................................13

2.2.3.

Các thuật tốn hình thái học .................................................................16

2.3

Tổng quan về phát hiện vật thể ....................................................................19

vi


2.3.1

Bài tốn phát hiện đối tượng .................................................................19

2.3.2

Sơ lược về mơ hình phát hiện đối tượng YOLOv5 ..............................20

2.3.3

Cấu trúc của YOLO ..............................................................................21

2.3.4


Các thuật toán huấn luyện và đánh giá trong YOLOv5 ........................28

2.4

Mơ hình theo vết đối tượng .........................................................................32

2.4.1

Tổng quan về bài toán theo vết đối tượng ............................................32

2.4.2

Sơ lược về phương pháp theo vết nhiều đối tượng - MOT...................33

2.4.3

Thuật toán SORT và mơ hình Deep SORT ..........................................34

2.4.4

Giới thiệu mơ hình Deep SORT ...........................................................40

2.4.5

Cấu trúc và hoạt động của mơ hình Deep SORT..................................40

2.5

Tổng quan về xử lý dữ liệu chuỗi ................................................................46


2.5.1

Mạng nơ – ron hồi quy..........................................................................46

2.5.2

Mạng LSTM .........................................................................................47

2.5.3

Cách hoạt động của LSTM ...................................................................49

2.5.4

Mạng CNN–LSTM ...............................................................................51

Chương 3 TRIỂN KHAI MƠ HÌNH ....................................................................52
3.1

Quy trình thực hiện ......................................................................................52

3.2

Xử lý ảnh đầu vào ........................................................................................54

3.3

Mơ hình nhận diện và theo vết đối tượng người .........................................54


3.4

Khối nhận diện hành vi của người ...............................................................55

3.5

Khối hiển thị ................................................................................................58

Chương 4 KẾT QUẢ VÀ THẢO LUẬN .............................................................59
4.1

Kết quả hoạt động của khối xử lý ảnh .........................................................59

4.1.1

Khối tăng cường ảnh .............................................................................59

4.1.2

Thực nghiệm thuật toán MOG ..............................................................60

4.1.3

Thực nghiệm phương pháp hình thái học .............................................63

4.1.4

Thực nghiệm tồn bộ khối tiền xử lý ....................................................65

4.2


Kết quả thí nghiệm của khối phân loại đối tượng .......................................66

4.3

Kết quả làm việc của cả hệ thống ................................................................69

vii


4.4

So sánh giữa việc khơng và có sử dụng các khối trong hệ thống ................74

4.4.1

Khi không sử dụng khối tiền xử lý .......................................................74

4.4.2

Khi không sử dụng khối phân loại đối tượng .......................................75

4.4.3

Khi không sử dụng khối phát hiện đối tượng người .............................76

Chương 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..........................................81
5.1

Kết luận........................................................................................................81


5.2

Khuyến nghị liên quan đến đề tài ................................................................81

5.3

Hướng phát triển ..........................................................................................82

TÀI LIỆU THAM KHẢO ......................................................................................83
BÀI BÁO…………………………………………………………………………..90

viii


DANH SÁCH TỪ VIẾT TẮT
Từ viết tắt

Từ gốc

CNN

Convolutional Neural Network

Mạng nơ-ron tích chập

Exponential Moving Average

Phương pháp đường trung bình


EMA
GB
GMM
GIoU

Từ tiếng Việt

trượt theo cấp số nhân
Ground truth box

Khung đường bao chân lý

Gaussian Mixture Model

Mơ hình Gaussian hỗn hợp

Generalized Intersection over

Số đo IoU hoàn chỉnh.

Union
Intersection over Union

Chỉ số đo IoU.

LSTM

Long Short-Term Memory

Bộ nhớ ngắn hạn-dài hạn


MOG

Mixture of Gaussian

Mơ hình Gauss hỗn hợp

MOG2

Adaptive Mixture of Gaussian

Mơ hình Gauss hỗn hợp thích ứng

Multiple Object Tracking

Độ chính xác khi theo dõi nhiều

Accuracy

đối tượng

Multiple Object Tracking

Độ chính xác của việc tiên lượng

Precision

khi theo dõi nhiều đối tượng

Predicted box


Khung đường bao dự đoán

IOU

MOTA

MOTP
PB
R-CNN
RNN
SMA
SO
SORT
SVM
YOLO

Regional Convolutional Neural Mạng nơ-ron tích chập áp dụng
Network

trên từng vùng ảnh.

Reccurent Neural Network

Mạng nơ-ron hồi quy

Simple Moving Average

Phương pháp đường trung bình
trược đơn giản


Simple online

Phương pháp truy vết trực tuyến

Simple Online and Realtime

Phương pháp truy vết trực tuyến

Tracking

thời gian thực

Support Vector Machine

Support Vector Machine

You Only Look Once

Mơ hình YOLO

ix


DANH SÁCH CÁC HÌNH
HÌNH

TRANG

Hình 2. 1. Sự phân chia các vùng tăng cường (tiles) của thuật tốn AHE. ..............10

Hình 2. 2. Histogram tại một vùng của ảnh được áp dụng CLAHE. .......................11
Hình 2. 3. Sơ đồ chung của quá trình trừ nền. ..........................................................13
Hình 2. 4. Minh họa thuật tốn co ảnh .....................................................................17
Hình 2. 5. Minh họa phép tốn dãn ảnh. ..................................................................18
Hình 2. 6. Tỷ lệ IoU và ý nghĩa của nó. ...................................................................20
Hình 2. 7. Cấu trúc mạng CNN của YOLO. ............................................................21
Hình 2. 8. Cấu trúc mạng CSP. ................................................................................22
Hình 2. 9. Kiến trúc của lớp SPPF. ..........................................................................24
Hình 2. 10. Đồ thị hàm kích họat SiLU....................................................................24
Hình 2. 11. Cấu trúc mạng PANet............................................................................25
Hình 2. 12. Cấu trúc lớp so sánh ROI. .....................................................................26
Hình 2. 13. Cách tính chỉ số GIoU. ..........................................................................30
Hình 2. 14. Mơ tả ngắn gọn giải thuật Hungary. ......................................................35
Hình 2. 15. Khoảng cách Mahalanobis và khoảng cách Cosin áp dụng trong thuật
toán Hungary. ............................................................................................................42
Hình 2. 16. Luồng xử lí của Deep Sort.....................................................................44
Hình 2. 17. Sơ đồ mạng RNN. .................................................................................46
Hình 2. 18. Cấu trúc của một RNN cell. ..................................................................47
Hình 2. 19. Sơ đồ mạng LSTM. ...............................................................................47
Hình 2. 20. Đường truyền dữ liệu cell state của LSTM. ..........................................48
Hình 2. 21. Các cổng kiểm sốt dữ liệu của LSTM. ................................................48
Hình 2. 22. Hoạt động của Forget gate.....................................................................49
Hình 2. 23. Hoat động của Input gate.......................................................................49
Hình 2. 24. Quá trình cập nhật trạng thái vào cell state. ..........................................50
Hình 2. 25. Hoạt động của Output gate. ...................................................................50

x


Hình 2. 26. Mơ hình CNN - LSTM. .........................................................................51

Hình 3. 1. Sơ đồ khối hệ thống. ................................................................................52
Hình 3. 2. Sơ đồ mạng CNN–LSTM sử dụng cho khối phân loại đối tượng...........55
Hình 3. 3. Minh họa dữ liệu video dùng để huấn luyện CNN-LSTM......................56
Hình 3. 4. Sơ đồ luồng hoạt động từ khối phát hiện và truy vết người cho đến khối
phân loại hành vi. ......................................................................................................57
Hình 3. 5. Giao diện ứng dụng giám sát an ninh về đêm. ........................................58
Hình 4. 1. Ảnh gốc (nhóm (a)), sau khi sử dụng bộ phát hồng ngoại của máy quay
(nhóm (b)) và sau khi tăng cường bằng CLAHE (nhóm (c)). ................................... 59
Hình 4. 2. Hàm phân bố ngưỡng của tất cả ảnh trong các video của tập huẩn luyện.
...................................................................................................................................61
Hình 4. 3. Ảnh sau khi trừ nền và áp dụng thuật toán mở ảnh với kernel đã chọn. .64
Hình 4. 4. Ảnh ngõ ra của cả khối tiền xử lý............................................................65
Hình 4. 5. Đồ thị độ chính xác (a) và độ lỗi (b) qua từng chu kỳ của quá trình huấn
luyện. .........................................................................................................................67
Hình 4. 6. Ma trận lỗi của mơ hình thừ nghiệm với tập dữ liệu test. .......................68
Hình 4. 7. Kết quả hoạt động của hệ thống giám sát an ninh về đêm trường hợp chỉ
có một đối tượng. ......................................................................................................69
Hình 4. 8. Kết quả hoạt động của hệ thống giám sát khi có nhiều đối tượng xuất
hiện trong khung hình. ..............................................................................................70
Hình 4. 9. Kết quả hoạt động của hệ thống khi khơng cịn hành vi bất thường nào
đang diễn ra. ..............................................................................................................71
Hình 4. 10. Một số trường hợp nhận diện nhầm lẫn. ...............................................73
Hình 4. 11. Lỗi gây ra do nhận diện nhầm vật thể tĩnh khi không sử dụng khối tiền
xử lý (a) và được khắc phục khi có sử dụng khối tiền xử lý (b). ..............................74
Hình 4. 12. So sánh hoạt động giữa việc khơng có (a) và có (b) sử dụng khối phân
loại áp dụng CNN-LSTM..........................................................................................75

xi



Hình 4. 13. Kết quả nhận diện khi khơng sử dụng khối phát hiện và truy vết đối
tượng người. ..............................................................................................................76
Hình 4. 14. Hệ thống phát hiện đối tượng xâm nhập dựa vào vạch kẻ trong AX Hub
của hãng Hikvision. ...................................................................................................78
Hình 4. 15. Hệ thống CCTV áp dụng phương pháp trừ nền để dò chuyển động. ....78

xii


DANH SÁCH CÁC BẢNG
BẢNG

TRANG

Bảng 4. 1: Kết quả thử nghiệm trên từng giá trị lấy ngưỡng cho thuật toán trừ nền.
...................................................................................................................................61
Bảng 4. 2: Kết quả thử nghiệm từng giá trị học của thuật toán trừ nền. ..................62
Bảng 4. 3: Kết quả thử nghiệm các kernel cho thuật tốn hình thái học..................63
Bảng 4. 4: Kết quả thử nghiệm trên từng mô hình cho khối phân loại đối tượng....66
Bảng 4. 5: Classification report của khối phân loại hành vi bất thường ..................68
Bảng 4. 6. So sánh giữa mơ hình đề xuất và các mơ hình khác có liên quan. ..........80

xiii


Chương 1

TỔNG QUAN
1.1.


Tổng quan về đề tài nghiên cứu
Thế giới ngày càng phát triển kéo theo tội phạm cũng không ngừng gia tăng

về số lượng lẫn mức độ tinh vi. Các loại tội phạm này thường hành động vào buổi tối
– thời điểm gây khó khăn nhất cho q trình quan sát của con người và có những thủ
đoạn tinh vi để qua mắt người giám sát nếu không quan sát camera thường xuyên. Dù
cho có sự trợ giúp của hệ thống camera giám sát hiện đại, con người với bản tính hay
sơ sót, phân tán chú ý, cộng thêm tình trạng mệt mỏi, kém minh mẫn về đêm sẽ dễ
rơi vào bẫy và bỏ sót hành vi của tội phạm trên camera, dẫn đến mất tài sản. Để khắc
phục được việc đó, việc sử dụng cơng nghệ xử lý ảnh, học máy và học sâu hiện đại
vào hỗ trợ camera an ninh tự động phát hiện và báo hiệu cho người giám sát sẽ giúp
ngăn chặn các loại tội phạm này mà khơng cần phải có một hệ thống an ninh đồ sộ
và đắt đỏ.
Về vấn đề xử lý video trong môi trường thiếu sáng, đây là vấn đề phổ biến và
nhận được nhiều sự quan tâm của các nhà nghiên cứu. Các tác giả R. C. Gonzalez, R.
E. Woods trong sách [1] đã giới thiệu phương pháp cân bằng histogram (HE) giúp
tăng cường độ sáng của ảnh toàn cục cho ảnh có xu hướng tối, nhưng theo như nhận
định của P. Chaudhary và các cộng sự trong [2], sự tăng cường toàn cục khiến các
điểm ảnh tốt bị tăng cường quá mức gây nên gây bất tự nhiên cho hình ảnh. Một
phương pháp cải tiến hơn của HE và được sử dụng rất nhiều hiện nay là CLAHE, lần
đầu được giới thiệu trong [3] giúp tăng cường cục bộ từng vùng nhỏ trong ảnh được
và được sử dụng rất nhiều trong các nghiên cứu hiện nay như tác giả của bài báo [4]
sử giúp tăng cường độ sáng cho khung ảnh một cách cục bộ tùy theo từng vùng ảnh,
từ đó làm tách bạch được các vật thể có màu sắc khá tương đồng thu được từ camera
đặt dưới mặt nước biển ở độ sâu từ 5 – 20m, nơi rất ít ánh sáng đến được; hay cơng
trình trong bài báo [5] sử dụng CLAHE để hỗ trợ hệ thống nhận diện khuôn mặt người

1



trong trường hợp thiếu sáng; và đặc biệt là đóng góp của tác giả trong bài báo [6] về
việc sử dụng CLAHE để nâng cao khả năng nhận diện vật thể của mạng nơ-ron tích
chập trong an ninh giao thơng về đêm. Các kết quả thực nghiệm chỉ ra phương pháp
CLAHE đóng góp rất tốt vào q trình cải thiện chất lượng ảnh trong môi trường
thiếu sáng và nâng cao hiệu quả làm việc của các ứng dụng khác.
Đối với các ứng dụng nhắm đến đối tượng chuyển động thì việc hạn chế các
đối tượng tĩnh và nền sẽ giúp ích nhiều cho việc phát hiện và phân loại đối tượng vì
hệ thống sẽ chỉ cần tập trung vào các đối tượng chuyển động và không phải xét đến
các đối tượng khác. Để trích xuất chỉ các vật thể chuyển động, nhiều phương pháp đã
được đề xuất như hàm băm nhạy cảm theo địa phương (Locality Sensitive Hashing LHS) [7], thuật toán theo dõi đối tượng chuyển động trong ngoại tuyến và trực tuyến
trong thời gian thực [8], Frequency-tuned (FT) algorithm [9] và phương pháp trừ nền
[10]. Trong đó, phương pháp trừ nền được sử dụng nhiều nhất bởi tính đơn giản trong
triển khai, tính tốn và đảm bảo tính thời gian thực. Đây là phương pháp trích xuất
các đối tượng chuyển động trong ảnh ra khỏi cảnh nền dựa vào sự thay đổi độ sáng
của các điểm ảnh cùng một vị trí ở nhiều khung ảnh khác nhau và được ứng dụng
trong các nghiên cứu như camera di chuyển tự do [11] và rô-bốt tự hành [12]. Tuy
nhiên, các phương pháp này chỉ hiệu quả khi áp dụng lên 1 đối tượng chuyển động
kèm theo một số điều kiện nhất định, đối với video có nhiều đối tượng và tốc độ di
chuyển lúc nhanh lúc chậm khác nhau thì việc lựa chọn các tham số ở những thuật
toán này cho phù hợp với mọi tình huống là rất khó có thể thực hiện được. Để khắc
phục nhược điểm của phương pháp trừ nền đơn thuần, P. KaewTraKulPong và R.
Bowden trong bài báo [13] đã đề xuất sử dụng phương pháp MOG áp dụng mơ hình
Gaussian hỗn hợp MMG – một thuật tốn học máy khơng giám sát để phân tách hậu
cảnh và tiền cảnh dựa trên hàm phân phối Gaussian của các điểm sáng có trong ảnh
để phân cụm thành 2 nhóm tương ứng. Cùng với một cải tiến của phương pháp MOG
là MOG2 (Adaptive Mixture Of Gaussian) được đề xuất trong hai bài báo [14, 15]
của Z. Zivkovic, trong đó thay vì phải lựa chọn hỗn hợp phân phối Gaussian, thuật
toán MOG2 sẽ tự lựa chọn số lượng phân bố gaussian thích hợp cho mỗi pixel, nhờ

2



đó khả năng thích ứng của MOG2 tốt hơn MOG với các cảnh khác nhau do thay đổi
ánh sáng. Phương pháp này cho thấy hiệu quả rất tốt trong loại bỏ nền ở các video
thời gian thực so với thuật tốn trừ nền thơng thường và nhanh chóng được áp dụng
trong các ứng dụng gần đây như ứng dụng phát hiện UAV xâm nhập trái phép trong
bài báo [16], hay ứng dụng phát hiện và điều khiển cánh tay rô-bốt trong cơng trình
[17] và ứng dụng trong giám sát cứu nạn ở điều kiện thời tiết khắc nghiệt trong bài
viết [18].
Đối với việc nhận diện các hành vi bất thường, đã có khá nhiều cơng trình
nghiên cứu ngồi nước áp dụng phương pháp học sâu cho hệ thống camera an ninh.
Trong bài báo [19], các tác giả đã tách các đối tượng ra khỏi nền, sau đó trích xuất
các đặc trưng thủ cơng từ các đối tượng đó như: đặc trưng về khung xương, các tư
thế, sự chuyển động của các bộ phận cơ thể… Các đặc trưng này sau đó được xem
như là dữ liệu để huấn luyện cho mơ hình phân loại SVM (support vector machine)
để nhận diện hành vi bất thường. Kết quả thí nghiệm cho thấy phương pháp này rất
mạnh mẽ và hiệu quả trong việc phân loại giữa hành vi bình thường và bất thường
của con người trong bối cảnh đám đông. Tuy nhiên SVM lại cho kết quả không tốt
khi số lượng đặc trưng trong ảnh quá lớn và quá phức tạp khi mà số lượng dữ liệu
không đủ nhiều.
Để huấn luyện cho hệ thống trích xuất các đặc trưng nổi bật của các hành động
bất thường một cách tự động thay vì sử dụng kết hợp nhiều loại đặc trưng thủ công,
các nhà nghiên cứu phát triển các mơ hình CNN. Một trong số đó là nghiên cứu được
đề cập trong sách [20], các tác giả sử dụng mạng CNN có thể nhận diện được khá tốt
những đặc điểm nổi bật của người hành vi bất thường. Tuy nhiên, hạn chế của mơ
hình CNN là nhạy với các loại nhiễu như việc các vật thể khác xen lẫn, độ phức tạp
của nền. Do đó, đối với bối cảnh có đơng người tụ tập với nhiều hành động khác
nhau, và bên cạnh những đồ vật khác nhau, các mơ hình này thường có nhiều sai sót
trong việc nhận diện địi hỏi phải thực hiện các phương pháp tiền xử lý. Mà trong
thực tế, các bối cảnh đó lại tồn tại rất nhiều.


3


Việc phát hiện được người trong ảnh là một bước quan trọng trước khi xác
định họ có hành vi bất thường hay không. Trong thời gian gần đây, các loại mạng RCNN được phát triển mạnh mẽ để phục vụ cho mục đích phát hiện vật thể. Các mạng
này áp dụng kỹ thuật region proposal, sử dụng nhiều khung bao vật thể (bounding
box) để xác định nhiều vật thể cùng lúc và IOU để đánh giá xem bounding box dự
đoán đối tượng khớp với ground truth box thật của đối tượng như thế nào [21]. Nhờ
cách làm này mà mạng R-CNN có thể phát hiện và phân biệt được rất nhiều đối tượng
khác nhau kể cả con người trong ảnh và cả video với độ chính xác cao và tốc độ rất
nhanh. Một số cơng trình nghiên cứu như bài báo [22] đã áp dụng mơ hình YOLO
(You Only Look Once) để phát hiện ra đối tượng là người đi đường trong video thời
gian thực với độ chính xác 81,59% và tốc độ lên đến 10 fps; nghiên cứu trong bài báo
[23] chỉ áp dụng một mơ hình YOLO phiên bản 2 độc lập để nhận diện riêng đối
tượng cụ thể dựa vào dáng người và tư thế như cầu thủ bóng rổ, cầu thủ bóng đá với
độ chính xác không phải thấp 65,89% với tốc độ 24 fps, đặc biệt hơn là đóng góp
của các bài báo [24] áp dụng mạng nơ-ron học sâu Faster R-CNN để nhận diện tội
phạm với độ chính xác trung bình là 74,3% và tốc độ 30 fps. Dù độ chính xác chưa
được cao, khoảng 61% precision and 44% of F measure value nhưng đây là bước tiến
trong việc áp dụng mạng R-CNN trong vấn đề an ninh. Căn cứ vào các nghiên cứu
này, việc sử dụng R-CNN có thể sẽ nâng cao được hiệu năng lẫn độ chính xác cho
bài tốn nhận diện người có hành vi bất thường.
Tuy nhiên, điểm chung khiến cho độ chính xác chưa cao ở các cơng trình
nghiên cứu nhận diện hành động ở người kể trên là do các tác giả chỉ tiếp cận vấn để
ở việc xét hành động trong từng khung hình riêng rẽ để kết luận về hành động chung
của đối tượng, trong khi các hoạt động trong một hành động thường có mối quan hệ
chặt chẽ với nhau và do đó phải được xét trong một khoảng thời gian mới có thể phân
biệt được với nhau. Các mạng truyền thẳng như R-CNN và YOLO thì khơng có khả
năng học được mối quan hệ về mặt thời gian giữa các khung hình chứa hành động,

và đó cũng là vấn đề quan trọng tiếp theo trong đề tài này cần giải quyết vì khơng thể
chỉ căn cứ vào một hành động của một người tại một thời điểm để kết luận hành vi

4


×