Tải bản đầy đủ (.pdf) (111 trang)

Nghiên cứu và ứng dụng deep learning trong việc phát hiện tụ tập đông người trái phép

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.72 MB, 111 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU

HUỲNH THỊ HỒNG NGUYÊN

NGHIÊN CỨU VÀ ỨNG DỤNG
DEEP LEARNING TRONG VIỆC PHÁT HIỆN
TỤ TẬP ĐÔNG NGƯỜI TRÁI PHÉP

LUẬN VĂN THẠC SĨ
CÔNG NGHỆ THÔNG TIN

Bà Rịa - Vũng Tàu, tháng 4 năm 2021


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU

HUỲNH THỊ HỒNG NGUYÊN

NGHIÊN CỨU VÀ ỨNG DỤNG
DEEP LEARNING TRONG VIỆC PHÁT HIỆN
TỤ TẬP ĐƠNG NGƯỜI TRÁI PHÉP
Chun ngành: Cơng nghệ thơng tin
Mã số: 8480201

LUẬN VĂN THẠC SĨ
CƠNG NGHỆ THƠNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. BÙI THỊ THU TRANG
Bà Rịa - Vũng Tàu, tháng 4 năm 2021




i

LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong Luận văn là trung thực và chưa từng được ai cơng bố trong bất kỳ cơng
trình nào khác.
Tơi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.
Học viên thực hiện luận văn
(Ký và ghi rõ họ tên)

Huỳnh Thị Hồng Nguyên


ii

LỜI CÁM ƠN
Thật vinh dự, hạnh phúc và may mắn khi là thành viên của lớp Cao học Công
nghệ thông tin đầu tiên được Trường Đại học Bà Rịa – Vũng Tàu tổ chức tại Tỉnh
nhà. Trong suốt quá trình học tập, rèn luyện tôi luôn nhận được sự nhiệt tình giảng
dạy, sự giúp đỡ hết sức quý báu từ Quý thầy cô đứng lớp cũng như các cán bộ quản
lý của Viện Đào tạo quốc tế và Sau Đại học; đặc biệt là sự hướng dẫn tận tình của
giảng viên - tiến sĩ Bùi Thị Thu Trang, người đã giúp tơi hồn thành Luận văn để
kết thúc khóa học này.
Tôi cũng xin gửi lời cảm ơn đến tất cả các anh/ chị/ em lớp MIT18K1 đã cùng
tôi đồng hành, chia sẻ những kinh nghiệm quý báu qua các buổi học, động viên giúp
tơi vượt qua những khó khăn, thử thách mặc dù có sự tác động của đại dịch Covid19
làm ảnh hưởng ít nhiều đến tâm lý và gián đoạn thời gian học tập, nghiên cứu.

Tôi xin chân thành cảm ơn Ban Giám đốc cùng toàn thể viên chức và người lao
động của Trung tâm Công nghệ thông tin và Truyền thông tỉnh Bà Rịa – Vũng Tàu
đã tạo mọi điều kiện, khuyến khích tơi tham gia khóa học, hỗ trợ tối đa để tơi có cơ
hội mở mang tầm nhìn, nâng cao năng lực bản thân, hồn thiện các kĩ năng mà tơi
cịn thiếu sót.
Lời cảm ơn sau cùng, cho phép tơi gửi đến gia đình thân u của mình. Chính
sự thơng cảm, sẻ chia, khích lệ của người thân là hành trang giúp tôi bền bỉ vượt qua
những thách thức, chông gai suốt chặng đường gần 3 năm đầy cam go có lúc tưởng
chừng như phải dừng bước. Cám ơn mẹ, người đã trao cho tôi niềm tin, tiếp sức ngọn
lửa nhiệt huyết, khơi gợi sự tự tin để tơi mạnh dạn tiến lên phía trước, khẳng định giá
trị và sức mạnh nội tại còn tiềm ẩn trong tôi.
Xin trân trọng cảm ơn!
Học viên
Huỳnh Thị Hồng Nguyên


iii

MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... i
LỜI CÁM ƠN ........................................................................................................... ii
MỤC LỤC ................................................................................................................ iii
DANH MỤC CÁC TỪ VIẾT TẮT ..........................................................................v
DANH MỤC CƠNG THỨC................................................................................... vi
DANH MỤC CÁC HÌNH ..................................................................................... viii
MỞ ĐẦU ....................................................................................................................1
Chương 1.

TỔNG QUAN VỀ NHĨM NGƯỜI, ĐÁM ĐƠNG TRONG XỬ


LÝ ẢNH – PHƯƠNG PHÁP PHÁT HIỆN HÀNH VI TỤ TẬP TRONG
NHÓM NGƯỜI .......................................................................................................10

Chương 2.

TỔNG QUAN CÁC PHƯƠNG PHÁP, THUẬT TOÁN NHẬN

DẠNG ĐỐI TƯỢNG ..............................................................................................18


iv

Chương 3.

MƠ HÌNH PHÁT HIỆN NGƯỜI SỬ DỤNG YOLOV4 .............43

Chương 4.

KẾT QUẢ THỰC NGHIỆM VÀ NHẬN XÉT ............................54

KẾT LUẬN VÀ KHUYẾN NGHỊ .........................................................................91
DANH MỤC TÀI LIỆU THAM KHẢO ...............................................................93


v

DANH MỤC CÁC TỪ VIẾT TẮT
STT

Chữ viết tắt


1

AP

2

CPU

3

CNN

Chữ viết đầy đủ
Average Precision

Độ chính xác trung bình

Central Processing Unit

Bộ xử lý trung tâm

Convolutional

Neural

Network
Conference on Computer

4


CVPR

Ý nghĩa

Vision

and

Pattern

Recognition
5

GPU

Graphics Processing Unit

6

RGB

Red Green Blue

7

SSP

Social Signal Processing


8

SVM

Support Vector Machine

9

YOLO

You Only Look Once

Mạng nơ rơ tích chập
Hội nghị về Thị giác máy
tính và Nhận dạng mẫu
Bộ xử lý đồ họa chuyên
dụng
Kênh màu RGB trong xử lý
ảnh
Xử lý tín hiệu tương tác
trong xã hội
Máy véc-tơ hỗ trợ
Thuật tốn deep learning
YOLO


vi

DANH MỤC CÔNG THỨC
(2.1) ...........................................................................................................................19

(2.2) ...........................................................................................................................19
(2.3) ...........................................................................................................................21
(2.4) ...........................................................................................................................21
(2.5) ...........................................................................................................................22
(2.6) ...........................................................................................................................22
(2.7) ...........................................................................................................................25
(2.8) ...........................................................................................................................25
(2.9) ...........................................................................................................................25
(2.10) .........................................................................................................................26
(2.11) .........................................................................................................................26
(2.12) .........................................................................................................................28
(2.13) .........................................................................................................................31
(2.14) .........................................................................................................................31
(2.15) .........................................................................................................................32
(2.16) .........................................................................................................................33
(2.17) .........................................................................................................................34
(2.18) .........................................................................................................................34
(2.19) .........................................................................................................................34
(2.20) .........................................................................................................................35
(2.21) .........................................................................................................................35
(2.22) .........................................................................................................................35
(2.23) .........................................................................................................................35
(2.24) .........................................................................................................................35
(2.25) .........................................................................................................................36
(2.26) .........................................................................................................................36
(2.27) .........................................................................................................................36


vii


(2.28) .........................................................................................................................36
(2.29) .........................................................................................................................37
(2.30) .........................................................................................................................37
(2.31) .........................................................................................................................37
(2.32) .........................................................................................................................38
(2.33) .........................................................................................................................38
(2.34) .........................................................................................................................38
(2.35) .........................................................................................................................38
(3.1) ...........................................................................................................................48
(3.2) ...........................................................................................................................48
(3.3) ...........................................................................................................................50


viii

DANH MỤC CÁC HÌNH
Hình 1. Vị trí đặt Camera tại Trung tâm Công nghệ thông tin và Truyền thông tỉnh
Bà Rịa – Vũng Tàu ......................................................................................6
Hình 1.1. Hình ảnh có sự hiện diện của nhóm người: đang trị chuyện (a), đang đi
bộ (b), đang xếp hàng (c) [5] .....................................................................11
Hình 1.2. Hình ảnh đám đông (Web Dataset: Abnormal/Normal Crowd activities
[Mehran CVPR ‘09] [5] .............................................................................11
Hình 1.3. Unfocused interaction – tương tác khơng tập trung: (a) xếp hàng tính tiền
ở cửa hàng; (b) xem lịch trình máy bay/ tàu điện; (c) ăn tại căn tin [5] ....12
Hình 1.4. Nhóm người đang xem tivi (common –focused ) [5] ...............................13
Hình 1.5. Jointly focused interaction – tương tác tập trung mang ý nghĩa cụ thể (a)
Cùng chơi trị chơi; (b) Trị chuyện nhóm; (c) Đánh nhau [5] ..................13
Hình 1.6. Minh hoạ khái niệm SSP (xử lý tín hiệu tương tác xã hội) [5] .................14
Hình 1.7. Minh hoạ nhóm người với số lượng ít có tương tác khơng tập trung [5] .14
Hình 1.8. Minh hoạ nhóm người có tương tác tập trung mang tính chung chung [5]

....................................................................................................................15
Hình 1.9. Minh hoạ nhóm người có tương tác tập trung mang ý nghĩa cụ thể [5] ...16
Hình 1.10. Minh hoạ tập trung đơng người với số lượng lớn có tương tác khơng tập
trung [5] .....................................................................................................16
Hình 2.1. Các bước thực hiện nhằm trích xuất đặc trưng và nhận dạng đối tượng [6]
....................................................................................................................20
Hình 2.2. Ảnh dữ liệu đầu vào được cắt ra từ ảnh lớn [7] ........................................20
Hình 2.3. Bộ lọc Sobel được áp dụng trong thuật tốn HOG [7] .............................21
Hình 2.4. Độ lớn gradient theo trục 𝑥 (a); độ lớn gradient theo trục 𝑦 (b); cường độ

gradient (c) [7] ...........................................................................................22

Hình 2.5. Hình được chia thành ơ cục bộ 8×8 pixel (hình được phóng to gấp 4 lần

thực tế để dễ quan sát) [7] ..........................................................................23


ix

Hình 2.6. Phần ảnh nhỏ 8×8 pixel và các mũi tên biểu diễn gradient của phần ảnh
này (b); Cường độ gradient và phương gradient của cùng 1 phần ảnh 8×8
pixel (c) ......................................................................................................24
Hình 2.7. Cung trịn minh họa 9 bin bình chọn cho việc thống kê Histogram .........25
Hình 2.8. Minh họa cách bình chọn phương gradient...............................................26
Hình 2.9. Biểu đồ Histogram [7] ...............................................................................27
Hình 2.10. Minh họa chuẩn hóa biểu đồ véc-tơ histogram theo block 2×2 [7] ........28
Hình 2.11. Minh họa biểu diễn phân phối HOG trên hình ảnh [7] ...........................29
Hình 2.12. Biểu diễn đường nét khuôn mặt với phương và độ lớn gradient [8] .......30
Hình 2.13. Siêu phẳng phân chia 2 lớp chưa tối ưu (a); Siêu phẳng phân chia 2 lớp
đã tối ưu (margin của 2 lớp bằng nhau và lớn nhất) (b) [11] .....................32

Hình 2.14. Minh họa bài tốn SVM trong khơng gian 2 chiều .................................33
Hình 2.15. Các điểm khoanh tròn là các điểm gần mặt phân chia hyperlane nhất [11]
....................................................................................................................34
Hình 2.16. Lược đồ mơ hình kết hợp HOG và SVM để phát hiện đối tượng áp dụng
thực nghiệm ...............................................................................................39
Hình 2.17. Mơ hình so sánh hiệu suất giữa YOLOv4 và các bộ phát hiện đối tượng
tiên tiến khác ..............................................................................................41
Hình 3.1. Mơ hình hệ thống dự kiến .........................................................................43
Hình 3.2. Mơ hình tổng quát của YOLO dùng phát hiện đối tượng [20] .................44
Hình 3.3. Mơ phỏng cách thức hoạt động của mơ hình ............................................44
Hình 3.4. Hình minh họa mỗi ơ lưới phát hiện 1 đối tượng [31] ..............................45
Hình 3.5. Minh họa mỗi ô lưới tạo số lượng cố định các khung giới hạn dự đốn cho
đối tượng [31] ............................................................................................45
Hình 3.6. YOLO bỏ lỡ một số đối tượng vì khoảng cách quá gần [31] ...................46
Hình 3.7. YOLO sử dụng S×S dự đốn với B boundary boxes (khung giới hạn) [31]
....................................................................................................................47
Hình 3.8. Hình minh họa kiến trúc của mơ hình YOLO [20] ...................................47


x

Hình 3.9. Minh họa khung giới hạn cho mỗi ơ và kết quả dự đốn cuối cùng [25]
[31] .............................................................................................................48
Hình 3.10. Kết quả phát hiện nhóm người bằng cách kiểm tra bounding box giao
nhau [32] ....................................................................................................52
Hình 3.11. Hình ảnh demo phát hiện các đối tượng người có cự li gần nhau trong
một phạm vi [33]........................................................................................53
Hình 3.12. Hình ảnh demo phát hiện các đối tượng người có cự li gần nhau trong
ứng dụng cảnh báo giãn cách xã hội do Covid 19 [34] .............................53
Hình 4.1. Tổng qt các bước giải bài tốn deep learning .......................................54

Hình 4.2. Khởi tạo Google Colab Notebook.............................................................55
Hình 4.3. Notebook của Google Colaboratory .........................................................56
Hình 4.4. Thực thi câu lệnh command line trên Notebook của Google Colab .........56
Hình 4.5. Thay đổi thơng tin trong chức năng “Runtime” của Notebook ................57
Hình 4.6. Cập nhật giá trị thanh “GPU” trong Notebook settings ............................57
Hình 4.7. Kiểm tra cấu hình GPU trên Google Colab ..............................................58
Hình 4.8. Gắn kết ổ đĩa từ Google Colab vào Google Drive ....................................58
Hình 4.9. Thực hiện gắn kết ổ đĩa với Google Drive ................................................59
Hình 4.10. Token xác thực được cấp để gắn kết ổ đĩa với Google Drive .................59
Hình 4.11. File chứa các đoạn video thu thập dữ liệu từ camera đặt tại Trung tâm
Công nghệ thông tin và Truyền thơng tỉnh Bà Rịa – Vũng Tàu ................60
Hình 4.12. Cơng cụ AVC chuyển đổi file video từ định dạng “*.dav” sang định
dạng “*.mp4” .............................................................................................60
Hình 4.13. Kết quả sau khi sử dụng công cụ AVC để chuyển file video sang định
dạng “*.mp4” .............................................................................................61
Hình 4.14. Cơng cụ “Free Video to JPG Converter” để trích xuất file hình ảnh từ
file video ....................................................................................................61
Hình 4.15. Kết quả trích xuất file hình ảnh từ file video ..........................................62
Hình 4.16. Sử dụng cơng cụ LabelImg để gán nhãn đối tượng ................................62


xi

Hình 4.17. Kết quả sau khi gán nhãn đối tượng bằng công cụ LabelImg để thu được
dữ liệu huấn luyện cho mơ hình Yolov4....................................................63
Hình 4.18. Thư mục “data” chứa dữ liệu huấn luyện gồm hình ảnh và file lưu thơng
tin gán nhãn đối tượng. ..............................................................................63
Hình 4.19. Thực hiện gắn kết ổ đĩa Google Colab và Google Drive ........................65
Hình 4.20. Thực hiện tải mã nguồn darknet để huấn luyện YOLOv4 ......................65
Hình 4.21. Mã nguồn darknet được tải và lưu thành công trên Google Drive .........66

Hình 4.22. Thực hiện giải nén file data.zip ...............................................................66
Hình 4.23. Tạo file chứa tên class đối tượng muốn huấn luyện ...............................67
Hình 4.24. Đoạn code tạo 2 file train.txt và val.txt ...................................................67
Hình 4.25. Hai file train.txt và val.txt được tạo ra trong thư mục darknet ...............68
Hình 4.26. Tạo file yolo.data trong thư mục darknet ................................................68
Hình 4.27. Biên dịch mã nguồn darknet bằng lệnh make .........................................69
Hình 4.28. Tải file weights đã được huấn luyện sẵn .................................................69
Hình 4.29. Dịng lệnh thực hiện huấn luyện mơ hình ...............................................70
Hình 4.30. Các file weights được sinh ra khi huấn luyện mơ hình YOLOv4 ...........70
Hình 4.31. Màn hình hiển thị thơng tin log phần kết thúc quá trình huấn luyện ......71
Hình 4.32. Biểu đồ quá trình huấn luyện ..................................................................72
Hình 4.33. Bộ dataset dùng để huấn luyện mơ hình YOLOv4 .................................73
Hình 4.34. Cập nhật file “.darknet/src/image.c” in log trên Notebook .....................74
Hình 4.35. Cập nhật file “.darknet/src/image.c” in thơng tin trên file hình ảnh kết
quả ..............................................................................................................74
Hình 4.36. Dòng lệnh Python trên Google Colab để gọi hàm make cập nhật mơ hình
darknet........................................................................................................75
Hình 4.37. Dịng lệnh Python phát hiện đối tượng người trong file ảnh sử dụng mơ
hình YOLOv4 ............................................................................................76
Hình 4.38. Dịng lệnh Python phát hiện đối tượng người trong file video dùng mơ
hình YOLOv4 ............................................................................................76


xii

Hình 4.39. Hình ảnh chụp kết quả hiển thị log ghi nhận quá trình phát hiện đối
tượng người trên từng frame hình của video thực nghiệm ........................77
Hình 4.40. Hình ảnh cắt ra từ file video (*.avi) kết quả phát hiện đối tượng người. 77
Hình 4.41. Kết quả phát hiện đối tượng người có độ tin cậy tối đa (1 đối tượng
người) – khơng có cảnh báo tụ tập đơng người .........................................78

Hình 4.42. Kết quả phát hiện đối tượng người có độ tin cậy tối đa (2 đối tượng
người) – không có cảnh báo tụ tập đơng người .........................................79
Hình 4.43. Kết quả phát hiện đối tượng người với độ tin cậy cao – Hiển thị cảnh báo
tụ tập đơng người .......................................................................................80
Hình 4.44. Kết quả phát hiện đối tượng người với độ tin cậy không đạt mức tối đa
do người bị che khuất 1 phần do vật hoặc người khác – Cảnh báo tụ tập
đơng người. ................................................................................................81
Hình 4.45. Kết quả phát hiện đối tượng người với độ tin cậy không cao do hình
người đứng sát xe máy và bị che khuất 1 phần – Cảnh báo tụ tập đơng
người ..........................................................................................................82
Hình 4.46. Kết quả phát hiện đối tượng người với độ tin cậy không cao do người bị
che khuất 1 phần – Cảnh báo tụ tập đơng người .......................................83
Hình 4.47. Kết quả phát hiện đối tượng với độ tin cậy không cao do thiếu sáng .....84
Hình 4.48. Kết quả phát hiện sai đối tượng người do khi thực hiện gán nhãn người
có lẫn hình ảnh xe máy do người ngồi trên xe máy ...................................85
Hình 4.49. Chỉ phát hiện được 1 đối tượng người mặc dù có 2 người ngồi cạnh nhau
trên xe máy.................................................................................................86
Hình 4.50. Hình ảnh có độ tin cậy khơng cao do người bị che khuất một phần và
chất lượng hình ảnh kém............................................................................87
Hình 4.51. Đối tượng phát hiện có độ tin cậy không cao do bị che khuất một phần,
không thể phát hiện đối tượng phía sau hàng rào chắn .............................88
Hình 4.52. Không phát hiện được người ở xa camera đối với hình ảnh chụp trên
đường phố được sưu tầm trên mạng ..........................................................89


xiii

Hình 4.53. Phát hiện đối tượng khơng chính xác (phát hiện hình nộm nhân vật bé
trai là đối tượng người), khơng thể phát hiện đối tượng người ở xa camera,
hình ảnh chất lượng kém............................................................................90



1

MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, cùng với hạ tầng kỹ thuật hiện đại, công nghệ vượt bậc, phát triển đô
thị là động lực cơ bản cho phát triển kinh tế - xã hội của quốc gia và các vùng miền
trên cả nước; các trung tâm đô thị đã và đang là những trung tâm của các hoạt động
kinh tế xã hội, đồng thời cũng là trung tâm của hoạt động đổi mới sáng tạo, giáo dục,
nghiên cứu khoa học công nghệ, sản xuất, thương mại và hội nhập quốc tế; việc xây
dựng đô thị thông minh là yêu cầu tất yếu nhằm đáp ứng nhu cầu hưởng thụ mơi
trường sống tiện ích, thân thiện và an tồn của người dân - theo như lời của Thứ
trưởng Bộ Thông tin và Truyền thông Nguyễn Thành Hưng tại Hội thảo Xây dựng
đơ thị thơng minh trong tiến trình chuyển đổi số quốc gia diễn ra chiều ngày 2 tháng
10 năm 2019 tại Hà Nội [1]. Tại tỉnh Bà Rịa – Vũng Tàu, vấn đề xây dựng đô thị
thông minh cũng rất được quan tâm và đã được Hội đồng nhân dân tỉnh thông qua tại
nghị quyết số 112/NQ-HĐND ngày 13 tháng 12 năm 2019 về “Đề án phát triển đô
thị thông minh tỉnh Bà Rịa – Vũng Tàu giai đoạn 2020 – 2022, định hướng đến năm
2025, tầm nhìn đến năm 2030”. Tại cuộc họp ngày 04 tháng 06 năm 2020, kế hoạch
triển khai Đề án phát triển đô thị thông minh tỉnh Bà Rịa – Vũng Tàu cũng đã được
Ủy ban nhân dân tỉnh thông qua [2]. Trong số 12 nhiệm vụ, dự án theo Nghị quyết
112/NQ-HĐND nêu trên, vấn đề xây dựng, triển khai các dịch vụ, tiện ích thơng minh
phục vụ quản lý giao thơng và đảm bảo an ninh trật tự cũng rất được quan tâm và
đưa vào nghị quyết lần này.
Một quốc gia muốn phát triển kinh tế và ngày càng giàu, mạnh thì trước tiên
tình hình chính trị, an ninh, trật tự, an tồn xã hội trong quốc gia đó phải được đảm
bảo và duy trì ổn định. Đây là một điều cực kì khó khăn, ngồi việc có các chính sách,
pháp luật nghiêm minh, chặt chẽ thì việc thực thi các chính sách, pháp luật đó địi hỏi
chi phí về nguồn nhân lực, trí lực, vật lực khơng hề nhỏ.



2

Để giữ gìn trật tự cơng cộng, góp phần đảm bảo quyền tự do dân chủ của công
dân theo quy định của pháp luật, “nghị định số 38/2005/NĐ-CP ngày 18 tháng 3 năm
2005 quy định một số biện pháp đảm bảo trật tự công cộng” [3] và “thông tư số
09/2005/TT-BCA ngày 05 tháng 9 năm 2005 Hướng dẫn thi hành một số điều của
nghị định số 38/2005/NĐ-CP” [4] ra đời.
Tại Mục 2 của Thông tư số 09/2005/TT-BCA về Các hành vi bị nghiêm cấm
theo Điều 5 Nghị định số 38/2005/NĐ-CP có quy định rõ:
Tập trung đơng người trái với quy định của pháp luật ở nơi công cộng, trước
trụ sở cơ quan, tổ chức hoặc tại khu vực đang diễn ra các hội nghị quốc tế, kỳ họp
Quốc hội, Hội đồng nhân dân, các hoạt động chính trị quan trọng của Đảng, Nhà
nước và các tổ chức chính trị xã hội (mục 2.3 của Thông tư số 09/2005/TT-BCA).
Tiến hành các hoạt động tập trung đông người ở nơi công cộng theo quy định
của Nghị định số 38 và hướng dẫn tại Thông tư này mà không được phép của Ủy ban
nhân dân có thẩm quyền (mục 2.4 của Thơng tư số 09/2005/TT-BCA).
Không chấp hành các quy định về khu vực cấm, khu vực bảo vệ và sự hướng
dẫn của người có trách nhiệm giải quyết vụ việc có liên quan; cản trở, chống người
thi hành cơng vụ; có hành vi xâm phạm tính mạng, sức khoẻ, danh dự, nhân phẩm
của người khác, xâm phạm tài sản của Nhà nước, tổ chức và cá nhân hoặc có hành vi
q khích khác như: la hét, chửi bới, đập phá; lăng mạ, đe dọa hành hung người khác
(mục 2.8 của Thông tư số 09/2005/TT-BCA).
Và cũng theo hướng dẫn quy định tại mục 4 của Thông tư số 09/2005/TT-BCA
Quy định về hoạt động tập trung đông người ở nơi công cộng: “Hoạt động tập trung
đông người ở nơi công cộng theo quy định của Nghị định số 38 và hướng dẫn tại
Thông tư này là những trường hợp tổ chức tập trung từ 5 người trở lên tại các khu
vực, địa điểm phục vụ chung cho mọi người như vỉa hè, lòng đường, quảng trường,
cơ sở kinh tế, văn hóa, nơi sinh hoạt cộng đồng; tại khu vực trụ sở cơ quan nhà nước,

tổ chức chính trị - xã hội hoặc tại những nơi cơng cộng khác nhằm mục đích đưa ra
u cầu hoặc kiến nghị về những vấn đề có liên quan đến quyền và lợi ích hợp pháp


3

của cá nhân, gia đình, tổ chức hoặc nhằm đưa ra những yêu cầu, kiến nghị về những
vấn đề có liên quan chung đến đời sống chính trị - xã hội, đến quyền và lợi ích hợp
pháp của tổ chức, cá nhân khác.”
Thông tư nêu trên cũng quy định Nguyên tắc xử lý vi phạm pháp luật về bảo
đảm trật tự công cộng tại Mục 3 “Mọi hành vi vi phạm quy định của pháp luật về
bảo đảm trật tự công cộng đều phải được phát hiện kịp thời và xử lý nghiêm minh
theo đúng quy định của pháp luật”.
Nhằm đảm bảo an ninh, trật tự, an toàn xã hội nói chung và an ninh, an tồn tại
các trụ sở cơ quan, tổ chức hoặc tại khu vực đang diễn ra các hội nghị quốc tế, kỳ họp
Quốc hội, Hội đồng nhân dân, các hoạt động chính trị quan trọng của Đảng, Nhà
nước, tổ chức chính trị xã hội nói riêng; Nhà nước và Chính quyền địa phương các
cấp đã bố trí các lực lượng cơng an, qn đội, dân quân tự vệ canh gác, chốt chặn tại
các địa điểm trọng yếu. Tuy nhiên trước tình hình xã hội ngày càng phức tạp như hiện
nay việc đảm bảo được trật tự, an toàn, ổn định tuyệt đối cho các khu vực thiết yếu
đặt ra thách thức vô cùng to lớn đối với các lực lượng kể trên.
Lấy ví dụ đơn cử như Trung tâm Hành chính – Chính trị tỉnh Bà Rịa – Vũng
Tàu hiện toạ lạc tại phường Phước Trung (Thành phố Bà Rịa) trên khu đất rộng
khoảng 20 héc-ta được đưa vào hoạt động từ tháng 4 năm 2012; Trung tâm Hành
chính – Chính trị này gồm có 4 mặt tiếp giáp với 4 con đường khác nhau là Bạch
Đằng, Phạm Văn Đồng, Trường Chinh và Nguyễn Tất Thành. Tại mỗi góc đường đều
có các biển “Khu vực cấm tập trung đông người”. Tuy nhiên hiện tại chỉ có 2 chốt
canh gác 24/24 do lực lượng cơng an đảm nhận tại cổng đường Bạch Đằng, đường
Phạm Văn Đồng và 1 chốt canh do lực lượng bảo vệ của Trung tâm Hành chính –
Chính trị đảm nhận tại cổng đường Trường Chinh. Tại vị trí các cổng có chốt canh

gác đều có gắn camera quan sát, nhưng các camera này chỉ mới có chức năng phục
vụ mục đích quan sát, thu thập dữ liệu phục vụ tra cứu chứ chưa ứng dụng cơng nghệ
nhằm phục vụ mục đích phát hiện kịp thời các tình huống vi phạm an ninh trật tự an


4

tồn của Trung tâm Hành chính - Chính trị Tỉnh cụ thể là tình huống tập trung đơng
người trái phép.
2. Mục đích nghiên cứu
Ngày nay, với sự phát triển thần tốc của công nghệ trong thời đại nền công
nghiệp lần thứ tư, các máy móc, thiết bị, máy tính ngày càng hiện đại, việc lưu trữ dữ
liệu lớn (big data) cũng như khai thác dữ liệu trở nên dễ dàng hơn bao giờ hết. Ứng
dụng công nghệ deep learning trong xử lý hình ảnh camera nhằm đảm bảo phát hiện
kịp thời các trường hợp vi phạm về an ninh, trật tự, an toàn xã hội cụ thể là việc phát
hiện tụ tập đông người trái phép xung quanh các khu vực cấm hồn tồn có thể thực
hiện được.
Nếu được đưa vào thực tiễn, đây thực sự là một giải pháp thiết thực góp phần
duy trì và đảm bảo tính kịp thời trong cơng tác giữ gìn an ninh, trật tự, an tồn tại các
khu vực cấm. Ứng dụng Cơng nghệ thông tin trong việc phát hiện tụ tập đông người
trái phép và cảnh báo tức thì giúp các lực lượng đảm bảo an ninh, trật tự nhanh chóng
và có kế hoạch ứng phó hiệu quả với các tình huống vi phạm, góp phần ngăn chặn và
dập tắt ngay khi có dấu hiệu bất thường tại các khu vực này.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu:
 Các vấn đề liên quan đến phát hiện đối tượng người (human detection) dùng
deep learning;
 Các vấn đề liên quan đến mơ hình deep learning YOLO (You Only Look
Once);
 Các vấn đề liên quan đến mơ hình kết hợp HOG (Histogram of Oriented

Gradients) và SVM (Support Vector Machine);


5

3.2. Phạm vi nghiên cứu:
Với mục tiêu tổng quát là nghiên cứu và lựa chọn mơ hình hiệu quả (gọn nhẹ,
nhanh chóng, có độ chính xác cao) để phát hiện và cảnh báo khi hình ảnh có dấu hiệu
đơng người tụ tập qua camera quan sát, tác giả đặt ra các mục tiêu cụ thể như sau:
 Nghiên cứu tổng quan lý thuyết về tụ tập đơng người (nhóm người, đám
đông, cách tiếp cận khái niệm tập trung đông người trong thị giác máy tính, phương
pháp phát hiện nhóm người, đám đơng trong thị giác máy tính);
 Lựa chọn cách tiếp cận, giới hạn, phương pháp thực hiện đề tài phù hợp với
khả năng nghiên cứu của bản thân: giới hạn của đề tài đặt ra là nghiên cứu để tìm ra
phương pháp hiệu quả nhằm phát hiện nhóm người theo hướng phát hiện đối tượng
(object detection), đếm số người trong một vùng ảnh, không đi sâu vào nghiên cứu
về phương pháp phát hiện đám đơng, cũng như mơ hình phân tích hành vi của nhóm
người, đám đơng – Social Signal Processing;
 Nghiên cứu cơ sở lý thuyết của mô hình deep learning YOLOv4 để phát hiện
đối tượng người và đếm số người trong một vùng ảnh;
 Nghiên cứu cơ sở lý thuyết của mơ hình kết hợp HOG và SVM để phát hiện
đối tượng người và đếm số người trong một vùng ảnh;
 Lựa chọn mơ hình hiệu quả nhằm ứng dụng vào việc phát hiện dấu hiệu tập
trung đông người trên ảnh tĩnh từ camera quan sát.
 Dữ liệu được xử lý là hình ảnh tĩnh được trích xuất từ camera của Trung tâm
Công nghệ thông tin và Truyền thông tỉnh Bà Rịa – Vũng Tàu, đặt tại cổng phụ, khu
vực để xe dành cho nhân viên. Camera này có thân hình trụ trịn, được gắn lên tường
hướng nhìn chếch xuống một góc từ 50 đến 70 độ, ghi nhận ở một khoảng cách khơng
q xa (Hình 1), có thể thấy được tồn thân của đối tượng người trong ảnh. Ảnh chụp
được ghi lại trong điều kiện ánh sáng bình thường (trời khơng mưa to, khơng bị ngược

sáng, không bị sương mù dày đặc).


6

Hình 1. Vị trí đặt Camera tại Trung tâm Cơng nghệ thông tin và Truyền thông tỉnh
Bà Rịa – Vũng Tàu
4. Phương pháp nghiên cứu
 Thu thập bài báo, tài liệu nghiên cứu của các tác giả trong và ngoài nước có
liên quan đến đề tài;
 Nghiên cứu, phát triển lý thuyết về đề tài;
 Nghiên cứu ngôn ngữ lập trình, bộ cơng cụ để hỗ trợ xây dựng chương trình
thực nghiệm;
 Xây dựng chương trình thực nghiệm;
 Thu thập dữ liệu huấn luyện (training) và kiểm tra (testing) cho chương trình
thực nghiệm.


7

5. Ý nghĩa khoa học và thực tiễn của đề tài
5.1. Ý nghĩa khoa học:
Đề xuất mơ hình ứng dụng deep learning gọn nhẹ, hiệu quả, khả thi trong phát
hiện tụ tập đông người.
5.2. Ý nghĩa thực tiễn:
Kết quả nghiên cứu giúp so sánh, đánh giá nhằm lựa chọn mô hình ứng dụng
hiệu quả trong phát hiện tụ tập đơng người;
Kết quả nghiên cứu có thể được áp dụng vào thực tế nhằm ứng dụng Công nghệ
thông tin trong việc hỗ trợ phát hiện kịp thời các nguy cơ về an ninh tiềm tàng tại
những vị trí cấm tập trung đông người trái phép.

6. Cấu trúc của luận văn
Luận văn gồm 6 phần: Mở đầu, 04 chương, kết luận và khuyến nghị. Tổng cộng
96 trang, trong đó có 93 hình, 38 công thức.


8

MỞ ĐẦU
CHƯƠNG 1. TỔNG QUAN VỀ NHĨM NGƯỜI, ĐÁM ĐƠNG
TRONG XỬ LÝ ẢNH – PHƯƠNG PHÁP PHÁT HIỆN HÀNH
VI TỤ TẬP TRONG NHĨM NGƯỜI
1.1. Nhóm người (group of people), đám đơng (crowd) trong xử lý ảnh
1.1.1. Khái niệm nhóm người, đám đông, tập trung đông người trong xử
lý ảnh
1.1.2. Social Signal Processing (SSP) – Xử lý tin hiệu tương tác xã hội và
tập trung đông người
1.2. Kết luận

CHƯƠNG 2. TỔNG QUAN CÁC PHƯƠNG PHÁP, THUẬT
TOÁN NHẬN DẠNG ĐỐI TƯỢNG
2.1. Thuật toán HOG
2.1.1. Giới thiệu chung về HOG
2.1.2. Các ứng dụng của thuật tốn HOG
2.2. Thuật tốn học có giám sát SVM
2.2.1. Một số thuật ngữ
2.2.2. Thuật toán SVM
2.3. Kết hợp HOG và SVM trong phát hiện đối tượng
2.4. Mơ hình YOLO trong phát hiện đối tượng
2.4.1. Tổng quan mơ hình YOLO
2.4.2. YOLOv4 (YOLO phiên bản 4)


CHƯƠNG 3. MƠ HÌNH PHÁT HIỆN NGƯỜI SỬ DỤNG
YOLOV4
3.1. Mơ hình hệ thống


9

3.2. Thuật toán phát hiện người đề xuất
3.3. Phát hiện đặc trưng tụ tập đơng người trên hình ảnh sử dụng YOLOv4

CHƯƠNG 4. KẾT QUẢ THỰC NGHIỆM VÀ NHẬN XÉT
4.1. Mô tả thực nghiệm
4.1.1. Tổng quát các bước trong quá trình thực nghiệm
4.1.2. Chuẩn bị mơi trường huấn luyện YOLOv4 trên Goolge Colab
4.1.3. Chuẩn bị dữ liệu thực nghiệm
4.1.4. Huấn luyện mơ hình YOLOv4 với dataset đã gán nhãn trên Google
Colab
4.2. Kết quả thực nghiệm
4.2.1. Cài đặt thực nghiệm
4.2.2. Chỉnh sửa source code darknet để hiển thị thông tin số lượng người
và cảnh báo tụ tập đông người
4.2.3. Thực nghiệm trên hình ảnh thử nghiệm

KẾT LUẬN VÀ KHUYẾN NGHỊ


10

Chương 1. TỔNG QUAN VỀ NHĨM NGƯỜI, ĐÁM ĐƠNG

TRONG XỬ LÝ ẢNH – PHƯƠNG PHÁP PHÁT HIỆN HÀNH
VI TỤ TẬP TRONG NHĨM NGƯỜI
1.1.

Nhóm người (group of people), đám đơng (crowd) trong xử lý ảnh
Tại sao lại cần có khái niệm về nhóm người (group of people), đám đơng

(crowd) trong xử lý ảnh?
Xuất phát từ nhu cầu thực tế của cuộc sống trong bối cảnh thời đại công nghệ
số ngày nay, khái niệm về nhóm người, đám đơng trong xử lý ảnh được hình thành.
Ví dụ như video analytics (phân tích video): hiểu và diễn giải bối cảnh của video;
video surveillance (camera theo dõi): nhận diện những sự kiện, hoạt động bình
thường hay bất thường xảy ra; social robotics (robot tương tác xã hội), human-robot
interaction (tương tác người – robot): các mơ hình tương tác cấp cao giữa người và
robot; retailing (kinh doanh bán lẻ), marketing (tiếp thị sản phẩm, dịch vụ): hồ sơ
khách hàng; architectural planning tools (các công cụ hỗ trợ quy hoạch kiến trúc),….
1.1.1. Khái niệm nhóm người, đám đông, tập trung đông người trong xử lý

ảnh
Theo giáo sư Vittorio Murino, đại học Verona – nguyên giám đốc Viện cơng
nghệ Ý (PAVIS) [5]:
 Dưới góc độ quan điểm xã hội học:
 Nhóm người là một thực thể gồm nhiều hơn một người, cạnh bên nhau và
có một số hoạt động như sau:
 Di chuyển cùng nhau và có hướng chuyển động tương đồng;
 Có hoạt động giống nhau, chẳng hạn như băng qua đường, đang chờ xe,
đang trò chuyện với nhau,…. (Hình 1.1).



×