Tải bản đầy đủ (.pdf) (91 trang)

ỨNG DỤNG DEEP LEARNING CHO bài TOÁN PHÁT HIỆN sự KIỆN TRONG dữ LIỆU VIDEO

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (15.84 MB, 91 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH

ĐỖ VĂN TIẾN

ỨNG DỤNG DEEP LEARNING CHO
BÀI TOÁN PHÁT HIỆN SỰ KIỆN
TRONG DỮ LIỆU VIDEO

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01.01

GIẢNG VIÊN HƯỚNG DẪN:
PGS. TS. DƯƠNG ANH ĐỨC
PGS. TS. LÊ ĐÌNH DUY

TP. HỒ CHÍ MINH, 2016


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH

HUỲNHGỌC TÍN

ĐỖ VĂN TIẾN

ỨNG DỤNG DEEP LEARNING CHO
BÀI TOÁN PHÁT HIỆN SỰ KIỆN


TRONG DỮ LIỆU VIDEO

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01.01
GS.TSKH HOÀNG VĂN KIẾM

TP. HỒ CHÍ MINH - Năm 2016


LỜI CÁM ƠN

Trước tiên, em xin gửi lời cảm ơn chân thành đến thầy PGS.TS Dương
Anh Đức và thầy PGS.TS Lê Đình Duy. Trong suốt quá trình làm
luận văn, hai thầy đã dành nhiều công sức giúp đỡ và hướng dẫn em
tận tình để em có thể hoàn tất đề tài này một cách thuận lợi nhất.
Bên cạnh đó, em xin cảm ơn các anh chị đồng nghiệp cùng các bạn
sinh viên tại phòng Thí nghiệm Truyền thông Đa Phương tiện, trường
ĐH Công nghệ Thông tin đã hỗ trợ em rất nhiều trong suốt thời gian
em thực hiện luận văn.
Em cũng xin gửi lời cảm ơn đến các thầy cô tại trường ĐH Công nghệ
Thông tin, ĐHQG HCM đã tạo mọi điều kiện cho em có thể học tập
và hoàn tất luận văn này.
Em xin chân thành cảm ơn.
TP.HCM, tháng 8 năm 2016

Đỗ Văn Tiến


LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả

nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công
trình nào khác, ngoại trừ các tư liệu được trích dẫn ghi trong mục tài liệu tham
khảo.
Tác giả luận văn

Đỗ Văn Tiến

iii


TÓM TẮT

Bài toán phát hiện sự kiện trong video (multimedia event detection
- MED)1 được mô tả như sau: đầu vào thường là một video và danh
sách các sự kiện, yêu cầu đầu ra là các đoạn video chứa nội dung
tương ứng với sự kiện cho trước được rút ra từ video đầu vào. Khái
niệm sự kiện ở đây bao gồm nhiều loại từ đơn giản như: mưa, đám
lửa, ... đến các sự kiện phức tạp như: bữa tiệc, bạo lực ... Đây là bài
toán có rất nhiều thách thức bởi độ lớn và phức tạp của dữ liệu video,
cũng như tính đa dạng và mang tính ngữ nghĩa cao của các sự kiện.
Việc giải quyết bài toán là tiền đề để xây dựng những ứng dụng thực
tế như hệ thống giám sát, phân tích nội dung video ... Các nghiên cứu
gần đây thường tập trung vào việc lựa chọn và sử dụng các đặc trưng
(feature) để biểu diễn khái niệm sự kiện trong video. Tuy nhiên, các
đặc trưng thường được sử dụng vẫn chưa thể hiện được độ phức tạp
và tính ngữ nghĩa của sự kiện do hầu hết các đặc trưng này đều được
các chuyên gia thiết kế và đề xuất (handcrafted).
Deep Learning (DL) là một khái niệm chỉ các thuật toán máy học để
xây dựng mô hình đối tượng bằng cách học theo nhiều cấp biểu diễn
từ các quan hệ phức tạp trong dữ liệu học [1]. Một trong những tính

năng nổi bật của DL đó là khả năng tự học các đặc trưng trực tiếp
từ dữ liệu đầu vào. Tuy nhiên, theo khảo sát của học viên trong các
bài toán về thị giác máy các nghiên cứu thường chỉ áp dụng DL trên
ảnh, nghiên cứu áp dụng DL trên dữ liệu video và áp dụng vào bài
toán phát hiện sự kiện trong video mới ở bước sơ khởi. Ngoài ra, DL
vẫn còn là lĩnh vực mới đối với cộng đồng nghiên cứu trong nước nên
cũng chưa có nhiều tài liệu tham khảo.
1

/>

Theo đó, nội dung của luận văn này tập trung vào việc tìm hiểu và
áp dụng DL vào bài toán phát hiện sự kiện trong video. Sự kiện, nội
dung được đề cập ở đây là cảnh bạo lực - bài toán phát hiện cảnh bạo
lực trong video (Violent Scenes Detection -VSD). Đây là một trong
những ví dụ điển hình của lớp các bài toán phát hiện sự kiện thể hiện
mức độ phức tạp của khái niệm bạo lực cũng như sự đa dạng của các
đối tượng, thành phần tham gia sự kiện bạo lực. Luận văn thực hiện
việc áp dụng các đặc trưng Deep Feature (DF) được rút trích từ các
mô hình DL (Alexnet, VGG, UvAnet). Thực nghiệm được tiến hành
trên tập dữ liệu chuẩn MediaEval Affect Task 2014 - Violent Scenes
Detection -VSD 1 . Kết quả thực nghiêm cho thấy việc áp dụng DL
sẽ tăng độ chính xác của hệ thống từ 1% đến 15% so với đặc trưng
handcrafted. Kết quả của nghiên cứu này đã được công bố tại hội
nghị khoa học Quốc gia lần thứ 9 - nghiên cứu cơ bản và ứng dụng
công nghệ thông tin FAIR - Fundamental and Applied IT Research
(2016) - Cần thơ.
Từ khóa: Deep learning, Phát hiện sựu kiện - Event detection, Phát
hiện thông cảnh bạo lực trong video - Violent Scene Detection


1

/>

NHỮNG ĐÓNG GÓP CHÍNH

• Đề xuất áp dụng các đặc trưng Deep feature từ các mô hình
Deep learning cho bài toán phát hiện cảnh bạo lực trong video.
Kết quả nghiên cứu này đã được công bố tại hội nghị khoa học
Quốc gia lần thứ 9 - nghiên cứu cơ bản và ứng dụng công nghệ
thông tin - Fundamental and Applied IT Research (FAIR-2016).
• Nội dung luận văn đã hệ thống lại các kiến thức cơ sở về DL,
đây sẽ là tài liệu tham khảo hữu ích cho các nghiên cứu sau này.


Mục lục
Lời cam đoan

iii

Tóm tắt

iv

Những đóng góp chính

vi

Mục lục


vii

Danh sách hình vẽ

x

Danh sách bảng

xii

Danh sách từ viết tắt

xiii

1 Mở đầu
1.1 Đặt vấn đề . . . . . . . . . . . . .
1.2 Thách thức, mục tiêu và phạm vi
1.2.1 Thách thức . . . . . . . .
1.2.2 Tính mới và tính cấp thiết
1.2.3 Mục tiêu và phạm vi . . .
1.3 Cấu trúc luận văn . . . . . . . . .

.
.
.
.
.
.

.

.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.

.
.
.

.
.
.
.
.
.

2 Bài toán phát hiện cảnh bạo lực trong video
2.1 Phát biểu bài toán . . . . . . . . . . . . . . .
2.2 Một số thách thức . . . . . . . . . . . . . . .
2.2.1 Về mặt dữ liệu . . . . . . . . . . . . .
2.2.2 Độ phức tạp của khái niệm bạo lực . .

vii

.
.
.
.
.
.

.
.
.
.


.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.


.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

1
1
4
4

4
5
6

.
.
.
.

8
8
11
11
13


MỤC LỤC

2.3
2.4

Một số nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . .
Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 Tổng quan về Deep learning
3.1 Neural networks . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Neural sinh học . . . . . . . . . . . . . . . . . . . .
3.1.2 Neural nhân tạo . . . . . . . . . . . . . . . . . . . .
3.1.3 Mạng neural nhân tạo (Artificial Neural Networks)
3.1.4 Huấn luyện ANN . . . . . . . . . . . . . . . . . . .

3.1.5 Thuật toán lan truyền ngược . . . . . . . . . . . .
3.2 Deep learning . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Khái niệm Deep learning . . . . . . . . . . . . . . .
3.2.2 Phân loại Deep learning . . . . . . . . . . . . . . .
3.2.2.1 DL cho học không giám sát . . . . . . . .
3.2.2.2 DL cho học giám sát . . . . . . . . . . . .
3.2.2.3 Mạng kết hợp DL . . . . . . . . . . . . . .
3.3 Convolutional Neural Networks . . . . . . . . . . . . . . .
3.3.1 Các thành phần cơ bản của mạng CNN . . . . . . .
3.3.1.1 Convolution . . . . . . . . . . . . . . . . .
3.3.1.2 Pooling . . . . . . . . . . . . . . . . . . .
3.3.1.3 ReLU . . . . . . . . . . . . . . . . . . . .
3.3.1.4 Fully-connected . . . . . . . . . . . . . . .
3.3.2 Kiến trúc CNN . . . . . . . . . . . . . . . . . . . .
3.4 Một số thư viện và framework hỗ trợ DL . . . . . . . . . .
3.4.1 Caffe . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 Torch . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.3 TensorFlow . . . . . . . . . . . . . . . . . . . . . .
3.4.4 Theano . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Một số nghiên cứu sử dụng DL trong thị giác máy . . . . .
3.6 Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

14
16
18
18
19
21
24
26
27
28
28
30
31
33
34
34
35
35
40
40

41
42
42
43
44
44
45
46
48

4 Deep Learning cho bài toán phát hiện cảnh bạo lực trong video 49
4.1 Kiến trúc hệ thống . . . . . . . . . . . . . . . . . . . . . . . . . . 50

viii


MỤC LỤC

4.1.1
4.1.2

Tiền xử lý video . . . . . . . . . . . . . . . . . . . . . . .
Rút trích đặc trưng . . . . . . . . . . . . . . . . . . . . . .
4.1.2.1 Alexnet . . . . . . . . . . . . . . . . . . . . . . .
4.1.2.2 VGG . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2.3 UvANet . . . . . . . . . . . . . . . . . . . . . . .
4.1.2.4 RGB-SIFT . . . . . . . . . . . . . . . . . . . . .
4.1.2.5 Đặc trưng âm thanh MFCC . . . . . . . . . . . .
4.1.2.6 Đặc trưng chuyển động (Motion) . . . . . . . . .
4.1.3 Biểu diễn đặc trưng . . . . . . . . . . . . . . . . . . . . . .

4.1.4 Thuật toán SVM . . . . . . . . . . . . . . . . . . . . . . .
Dữ liệu thực nghiệm và phương thức đánh giá . . . . . . . . . . .
4.2.1 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . .
4.2.2 Phương thức đánh giá . . . . . . . . . . . . . . . . . . . .
Kết quả thực nghiệm và đánh giá . . . . . . . . . . . . . . . . . .
4.3.1 Kết quả thực nghiệm DF biểu diễn khái niệm bạo lực thông
qua sub-concepts (C1) . . . . . . . . . . . . . . . . . . . .
4.3.2 Kết quả thực nghiệm DF biểu diễn trực tiếp khái niệm bạo
lực (C2) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.3 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

51
52
52
53
54
55
55
56
57
57
58
58
58
60

5 Kết luận và hướng phát triển
5.1 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . .


69
69
70

Công trình công bố

71

Tài liệu tham khảo

72

4.2

4.3

4.4

ix

61
64
66
67


Danh sách hình vẽ
1.1
1.2

1.3

Lượng dữ liệu được upload lên Internet trong 1 giây . . . . . . . .
Ví dụ phát hiện cảnh bạo lực trong đoạn video . . . . . . . . . . .
Các giai đoạn xây dựng bộ nhận dạng . . . . . . . . . . . . . . .

2
3
3

2.1

Thống kê cho thấy trong 6 tháng đầu năm 2011 có hơn 75% tội
phạm hình sự là thanh thiếu niên . . . . . . . . . . . . . . . . . .
2.2 Có sự ảnh hưởng của việc xem video có nội dung bạo lực đến hành
vi của trẻ em . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Mô tả bài toán VSD . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Kiến trúc tổng quan hệ thống VSD . . . . . . . . . . . . . . . . .
2.5 Minh họa tính phức tạp và mất cân bằng của dữ liệu . . . . . . .
2.6 Độ phân giải của dữ liệu thực tế . . . . . . . . . . . . . . . . . . .
2.7 Minh họa tính phức tạp khái niệm bạo lực nhiều thể hiện . . . . .
2.8 Thuộc tính biểu diễn thông tin bạo lực [2] . . . . . . . . . . . . .
2.9 Một số loại đặc trưng hình ảnh và âm thanh . . . . . . . . . . . .
2.10 Framework kết hợp các loại đặc trưng [3] . . . . . . . . . . . . . .

9
10
11
12
12

13
14
15
16

3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8

19
21
22
24
25
26
27
31

Minh họa bộ não con người . . . . . . . . . . . . . . . . .
Minh họa cấu tạo neural sinh học . . . . . . . . . . . . . .
Cấu trúc neural nhân tạo . . . . . . . . . . . . . . . . . . .
Minh họa ANN một tầng . . . . . . . . . . . . . . . . . . .
Minh họa mạng nhiều tầng truyền thẳng . . . . . . . . . .
Minh họa mạng hồi quy . . . . . . . . . . . . . . . . . . .
Mô hình huấn luyện mạng ANN sử dụng lan truyền ngược

Ý tưởng bài toán nhận diện mặt người sử dụng DL [4] . .

x

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.


.
.
.
.
.
.
.
.

9


DANH SÁCH HÌNH VẼ

3.9
3.10
3.11
3.12
3.13
3.14
3.15
3.16
3.17
3.18
3.19
3.20
3.21
3.22


Ví dụ kiến trúc mạng RNNs . . . . . . . . . . . . . . . . . .
Ví dụ kiến trúc mạng DAs . . . . . . . . . . . . . . . . . .
Ví dụ mô hình sử dụng CNN đầu tiên Lenet [5] . . . . . . .
Ví dụ mạng cách thức xử lý ANN với cấu trúc full connected
Neural được liên kết cục bộ với các neural thuộc tầng trước
Cách thức hoạt động của Conv . . . . . . . . . . . . . . . .
Minh họa việc sử dụng Conv trong xử lý ảnh . . . . . . . .
Các tham số trong Conv . . . . . . . . . . . . . . . . . . . .
Ví dụ tầng Conv trong ảnh . . . . . . . . . . . . . . . . . .
Ví dụ tầng pooling . . . . . . . . . . . . . . . . . . . . . . .
Một số thư viện hỗ trợ DL . . . . . . . . . . . . . . . . . . .
Bài toán nhận diện chữ số viết tay . . . . . . . . . . . . . .
Đầu vào bài toán nhận diện biển báo giao thông [6] . . . . .
Dữ liệu trong ImageNet [7] . . . . . . . . . . . . . . . . . . .

. . .
. . .
. . .
. .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .


32
33
34
35
36
36
37
38
39
41
43
46
47
48

4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11

Kiến trúc chung xây dựng bộ phát hiện thông tin bạo lực . . . .
Xây dựng bộ phát hiện thông tin bạo lực thông qua sub-concepts
Mô hình Alexnet [7] . . . . . . . . . . . . . . . . . . . . . . . . .

Mô hình VGG 16 . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mô hình VGG 19 . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mô hình Googlenet . . . . . . . . . . . . . . . . . . . . . . . . . .
Đặc trưng SIFT . . . . . . . . . . . . . . . . . . . . . . . . . . .
Hai cách thức biểu diễn đặc trưng cho shot . . . . . . . . . . . .
Phân tích kết quả dựa trên kiến trúc DL (C1) . . . . . . . . . . .
Phân tích kết quả lựa chọn cách biểu diễn video (C1) . . . . . . .
So sánh sử dụng DF với phương pháp sử dụng đặc trưng RGBSIFT, Motion, MFCC (C1) . . . . . . . . . . . . . . . . . . . . .
Phân tích kết quả dựa trên kiến trúc DL (C2) . . . . . . . . . . .
Phân tích kết quả lựa chọn cách biểu diễn video (C2) . . . . . . .
So sánh đặc trưng DF với đặc trưng handcraffted (C2) . . . . . .
So sánh phương thức biểu diễn khái niệm bạo lực:(C1) - biểu diễn
khái niệm bạo lực qua các sub-concept; (C2) - biểu diễn trực tiếp
khái niệm bạo lực . . . . . . . . . . . . . . . . . . . . . . . . . .

51
52
53
54
54
55
56
57
63
63

4.12
4.13
4.14
4.15


xi

64
65
66
66

67


Danh sách bảng
3.1
3.2
3.3

Một số hàm truyền trong mạng neural . . . . . . . . . . . . . . .
Kết quả cuộc thi ILSVRC 2015 . . . . . . . . . . . . . . . . . . .
Kết quả bài toán nhận diện chữ số viết tay [8] . . . . . . . . . . .

23
29
46

4.1
4.2
4.3
4.4

Thống kê dữ liệu trong tập xây dựng mô hình . . . . . . . . . . .

Thống kê dữ liệu trong tập đánh giá . . . . . . . . . . . . . . . .
Kết quả thực nghiệm đánh giá DF biểu diễn từ sub-concept (C1)
Kết quả thực nghiệm DF biểu diễn trực tiếp khái niệm bạo lực (C2)

59
59
62
65

xii


Danh mục từ viết tắt
DL Deep learning
SIFT Scale Invariant Feature Transform
HOG Histogram of Oriented Gradients
mAP mean Average Precision
MED Multimedia Event Detection
VSD Violent Scene Detection
CNN Convolutional Neural Networks
DF Deep Feature

xiii


Chương 1
Mở đầu
1.1

Đặt vấn đề


Cùng với sự phát triển của công nghệ thông tin, cũng như sự phổ biến của các
thiết bị cầm tay có chức năng ghi hình như điện thoại , ipad .... thì lượng dữ liệu
đặc biệt là dữ liệu video ngày một gia tăng. Theo thống kê của Smart Insights1
thì năm 2014 trong 1 giây có khoảng 300 giờ video được upload - chia sẻ trên
youtube và số lượng này ngày càng tăng. Chính sự bùng nổ về mặt dữ liệu này
đã phát sinh ra nhu cầu trong việc quản lý, tìm kiếm, phân tích và kiểm soát nội
dung hay các sự kiện diễn ra trong video trước khi các nội dung này được upload
lên các kênh chia sẻ hoặc tiếp cận đến người xem. Đây cũng là mục tiêu chính
của bài toán phát hiện sự kiện trong video (multimedia event detection - MED)2 .
Trong đó các sự kiện ở đây được chia làm 2 mức: nhận dạng các hành động của
con người (human actions, human activities) ví dụ như hôn nhau (kissing), ôm
nhau (hugging), và nhận dạng các sự kiện phức tạp liên quan đến tương tác giữa
người với người, người với môi trường cảnh vật xung quanh, ví dụ như đỗ xe sai
tuyến, ăn trộm, và cảnh bạo lực trong phim (violent scene detection).
Bài toán MED được mô tả như sau: đầu vào thường là một video và danh
sách các sự kiện, yêu cầu đầu ra là các đoạn video chứa nội dung tương ứng với
sự kiện cho trước được rút ra từ video đầu vào (hình 1.2 là ví dụ minh họa về hệ
1
2

/> />
1


Chương 1. Tổng quan

Hình 1.1: Lượng dữ liệu được upload lên Internet trong 1 giây

1


thống phát hiện cảnh bạo lực trong video).
Với rất nhiều ứng dụng được đưa vào thực tế như hệ thống hỗ trợ quản lí nội
dung (phát hiện các đoạn video liên quan đến bạo lực, nội dung người lớn. . . )
hay các hệ thống video giám sát (surveillance video). . . [9], [10],[11],[12] thì bài
toán phát hiện sự kiện trong video đang được cộng đồng nghiên cứu về thị giác
máy quan tâm giải quyết.
Trong kiến trúc chung của hệ thống phát hiện sự kiện trong video thì bộ nhận
dạng, phát hiện đóng vai trò quyết định độ chính xác của hệ thống. Trong giai
đoạn xây dựng bộ nhận dạng thì việc rút trích và chọn đặc trưng (feature) có
vai trò rất quan trọng vì chúng sẽ được sử dụng làm dữ liệu để huấn luyện mô
hình đối tượng cần nhận dạng (hình 1.3). Trong các nghiên cứu gần đây, một
số đặc trưng thị giác (visual feature) thường được sử dụng đó là: Scale-Invariant
1

/>
2


Chương 1. Tổng quan

Hình 1.2: Ví dụ phát hiện cảnh bạo lực trong đoạn video

Feature Transform -SIFT , Histogram of Oriented Gradients -HoG ... Tuy nhiên,
các đặc trưng này đều do các chuyên gia đề xuất (hand-craffed)- mới chỉ biểu
diễn thông tin ở cấp thấp – thông tin về cạnh trong ảnh (only capture low-level
edge information) [13], chưa thể hiện được hết được tính ngữ nghĩa cũng như độ
phức tạp của một khái niệm sự kiện.

Hình 1.3: Các giai đoạn xây dựng bộ nhận dạng


Deep Learning (DL) là một khái niệm chỉ các thuật toán máy học để xây
dựng mô hình đối tượng bằng cách học theo nhiều cấp biểu diễn từ các quan
hệ phức tạp trong dữ liệu học [1]. Một trong những lý do mà DL được đặc biệt
chú ý tới trong bài toán nhận dạng đó là khả năng học đặc trưng (learn feature
representation). Với các kết quả nổi bật so với các phương pháp trước đây (đặc
biệt trong bài toán nhận dạng ảnh độ chính xác nhận dạng tăng một số đáng kể
so với các thuật toán trước đây [4]), cũng như được áp dụng trong nhiều lĩnh vực
khác nhau như: nhận dạng ảnh, xử lý tiếng nói, xử lý ngôn ngữ tự nhiên. . . DL
đang là một xu hướng mà cộng đồng nghiên cứu trên thế giới đặc biệt quan tâm.

3


Chương 1. Tổng quan

Theo đó, nội dung luận văn này học viên sẽ tìm hiểu tổng quan về DL và
áp dụng DL cho bài toán phát hiện cảnh bạo lực trong video (Violent Scenes
Detection -VSD) - đây cũng là một dạng sự kiện trong lớp các bài toán về phát
hiện sự kiện trong video. Đầu vào của bài toán là video clip, yêu cầu đầu ra là
các đoạn video có chứa nội dung bạo lực. Đây là một trong những ví dụ điển hình
thể hiện mức độ phức tạp của bài toán phát hiện sự kiện. Khái niệm sự kiện bạo
lực ở đây có mức độ nhập nhằng và mang tính ngữ nghĩa cao. Do sự kiện bạo
lực có sự tham gia tương tác của nhiều đối tượng (con người, vũ khí, xe ...) cũng
như kết hợp của nhiều hoạt động, hành vi khác nhau, trong khi đó việc phát hiện
riêng rẽ một hành động hay đối tượng cũng đã là bài toán khó.

1.2
1.2.1


Thách thức, mục tiêu và phạm vi
Thách thức

• Độ phức tạp của sự kiện do liên quan đến nhiều đối tượng và nhiều loại
hoạt động và hành vi khác nhau, trong khi phát hiện từng đối tượng, hành
vi cũng đã là bài toán khó.
• Độ lớn, phức tạp và mất cân bằng trong dữ liệu video ( cảnh chứa sự kiện
thường ít hơn nhiều so với các cảnh còn lại) gây khó khăn trong quá trình
xây dựng mô hình.
• DL bao gồm nhiều thuật toán khác nhau cũng như nhiều thư viện đã cài
đặt các thuật toán này. Việc lựa chọn thuật toán, thư viện phù hợp cho vấn
đề cụ thể cũng là một thách thức.
• Trong mỗi thuật toán DL thì việc lựa chọn kiến trúc phù hợp (số tầng –
layer kiến trúc của từng tầng) sẽ quyết định độ chính xác của mô hình.

1.2.2

Tính mới và tính cấp thiết

Tính mới:

4


Chương 1. Tổng quan

• DL là một xu hướng mới đang được quan tâm nghiên cứu. Đặc biệt với khả
năng tự học và đưa ra các đặc trưng trong các bài toán nhận diện ảnh.
• Việc áp dụng DL vào bài toán phát hiện sự kiện trong video đang ở bước
sơ khởi. Đây là hướng nghiên cứu tiềm năng và còn nhiều cơ hội cho các

nhóm mới bắt đầu.
• Đối với cộng đồng nghiên cứu trong nước thì DL vẫn lĩnh vực mới - chưa
có tài liệu tiếng việt giới thiệu về DL, cũng như bài toán phát hiện sự kiện
trong video chưa có nhiều nghiên cứu.
Tính cấp thiết:
• Phát hiện, nhận dạng và phân loại sự kiện có nhiều ứng dụng thực tế, đặc
biệt là trong lĩnh vực an ninh nơi công cộng, hỗ trợ chăm sóc người già
và trẻ em. Bài toán phát hiện cảnh bạo lực có tính ứng dụng cao đặc biệt
trong thời đạị bùng nổ về dữ liệu video trên internet.
• DL đang là một xu hướng mới được cộng đồng nghiên cứu trên thế giới
đặc biệt quan tâm. Với các kết quả vượt trội so với các nghiên cứu trước
đây cũng như nhiều ứng dụng đã đưa vào thực tế thì DL cần được đầu tư
nghiên cứu. Ngoài ra, DL bao gồm nhiều thuật toán, do đó việc thực hiện
tìm hiểu tổng quan các thuật toán cũng như cách sử dụng các thư viện DL
sẽ giúp đánh giá, lựa chọn được một thuật toán cụ thể để giải quyết yêu
cầu đặt ra.

1.2.3

Mục tiêu và phạm vi

Mục tiêu:
Luận văn “Ứng dụng Deep Learning cho bài toán phát hiện sự kiện trong dữ
liệu video” có mục tiêu chính sau dây:

(a) Tìm hiểu tổng quan bài toán phát hiện sự kiện trong video. Cụ thể hơn ở
đây là bài toán phát hiện cảnh bạo lực trong video.

5



Chương 1. Tổng quan

(b) Nghiên cứu DL và các kiến thức liên quan đến các thuật toán được sử dụng
trong xử lý ảnh.
(c) Từ những kiến thức tìm hiểu được đề xuất phương pháp áp dụng DL làm
tăng độ chính xác cho bài toán phát phát hiện cảnh bạo lực trong video.
Với những mục tiêu trên học viên sẽ thực hiện các công việc cụ thể sau:
1. Nghiên cứu và khảo sát bài toán phát hiện cảnh bạo lực trong video.
2. Tìm hiểu tổng quan kĩ thuật DL, hệ thống lại các kiến thức cơ sở của thuật
toán DL. Giới thiệu về Convolutional Neural Networks (CNN) - thuật toán
hiện cho kết quả cao nhất về độ chính xác trên các bài toán về thị giác máy.
3. Đề xuất sử dụng đặc trưng được rút ra từ các mô hình DL hay còn gọi là
Deep Feature (DF) vào bài toán VSD. Thực hiện việc đánh giá và so sánh
trên tập dữ liệu chuẩn được cộng đồng nghiên cứu bài toán trên thế giới sử
dụng.
Phạm vi:

• Nghiên cứu trên bài toán phát hiện cảnh bạo lực trong video (Violent Scenes
Detection -VSD) - đây cũng là một dạng sự kiện trong lớp các bài toán về
phát hiện sự kiện trong video MED.
• Hệ thống lại các kiến thức cơ sở của thuật toán DL và các nghiên cứu liên
quan cũng như trình bày kiến thức về CNN.
• Tiến hành thực nghiệm và đánh giá đề xuất trên tập dữ liệu chuẩn của cuộc
thi VSD-2014 (Media Eval – Violent Scene Detection dataset [12]).

1.3

Cấu trúc luận văn


Trong chương 1 học viên đã giới thiệu động lực nghiên cứu cũng như mục tiêu
và phạm vi trong luận văn này. Các nội dung sẽ được trình bày trong các chương
tiếp theo có cấu trúc như sau:

6


Chương 1. Tổng quan

• Chương 2 có nội dung giới thiệu bài toán phát hiện cảnh bạo lực trong
video và các hướng nghiên cứu liên quan.
• Trong chương 3 học viên sẽ giới thiệu kiến thức tổng quan về DL, một số
kiến thức và lý thuyết cơ sở được sử dụng. Nội dung chính của chương sẽ
giới thiệu thuật toán CNN và một số nghiên cứu liên quan đến việc sử dụng
DL trong việc giải quyết các bài toán về thị giác máy.
• Chương 4 sẽ giới thiệu việc áp dụng DL vào giải quyết bài toán VSD. Trong
nội dung của chương này cũng sẽ tiến hành các đánh giá phương pháp đề
xuất trên tập dữ liệu chuẩn của bài toán VSD. Theo đó, học viên sẽ trình
bày chi tiết về các bộ dữ liệu, việc cài đặt thí nghiệm và kết quả thí nghiệm.
• Nội dung trong chương 5, học viên sẽ tổng kết về luận văn, bàn luận thêm
về phương pháp đề xuất và hướng cải tiến, mở rộng để nâng cao hiệu suất
của hệ thống trong thời gian tới.

7


Chương 2
Bài toán phát hiện cảnh bạo lực
trong video
Nội dung chính của chương sẽ giới thiệu bài toán phát hiện cảnh bạo lực trong

video (VSD) - đây cũng là một dạng sự kiện trong lớp các bài toán về phát hiện
sự kiện trong video được lấy làm chủ đề nghiên cứu chính của luận văn. Phần nội
dung sẽ trình bày phát biểu bài toán và các hướng nghiên cứu liên quan.

2.1

Phát biểu bài toán

Ngày nay, Internet đã trở nên rất phổ biến, mọi người ở mọi lứa tuổi đều có
thể dễ dàng tiếp cận với các thông tin mà mình quan tâm dưới nhiều hình thức
khác nhau như bằng văn bản, hình ảnh, âm thanh hoặc các đoạn video. Trong
đó video là một những phương thức trực quan với lượng dữ liệu rất lớn, được
chia sẻ trên nhiều kênh. Tuy nhiên, không phải tất cả các nội dung đều phù hợp
với mọi lứa tuổi đặc biệt là trẻ em. Đã có nhiều nghiên cứu cũng như dẫn chứng
đã chứng minh có sự ảnh hưởng giữa nội dung video đến hành vi của trẻ em
đặc biệt là các nội dung bạo lực [14]. Theo thống kê từ báo An ninh Thủ đô thì
trong 6 tháng đầu năm 2011 có 15.000 vụ phạm pháp hình sự, xử lý trên 22.000
đối tượng, trong đó có hơn 75% tội phạm hình sự là thanh thiếu niên, bài báo
chỉ ra rằng một trong những nguyên nhân đó là sự tác động của việc quá nhiều
phim bạo lực cũng như các trò chơi trực tuyến có nội dung bạo lực tràn lan trên

8


2. Bài toán phát hiện cảnh bạo lực trong video

internet (hình 2.2).
Từ thực tế này bài toán phát hiện cảnh bạo lực trong video được đề xuất và
được mô tả như sau: đầu vào là video bất kì, đầu ra là các cảnh có chứa thông
tin bạo lực (hình 2.3).


Hình 2.1: Thống kê cho thấy trong 6 tháng đầu năm 2011 có hơn 75% tội phạm
hình sự là thanh thiếu niên

Hình 2.2: Có sự ảnh hưởng của việc xem video có nội dung bạo lực đến hành vi
của trẻ em 2

2

/>
9


2. Bài toán phát hiện cảnh bạo lực trong video

Hình 2.3: Mô tả bài toán VSD

Đây là một bài toán có tính ứng dụng cao, là tiền đề cho việc xây dựng các
hệ thống tự động nhằm hỗ trợ phân tích và kiểm soát nội dung các video trước
khi đến với người dùng, đặc biệt là trẻ em. Trong đó, khái niệm bạo lực được sử
dụng trong luận văn được định nghĩa như sau: cảnh bạo lực là cảnh chứa hình
ảnh không nên cho một đứa trẻ dưới 8 tuổi xem - “one would not let an 8 years
old child see in a movie because they contain physical violence”. Đây là khái niệm
được đề xuất sử dụng trong cuộc thi về phát hiện cảnh bạo lực trong video (The
2014 Affect in Multimedia Task: Violent Scenes Detection)3 , cuộc thi thu hút rất
nhiều đội ở nhiều phòng thí nghiệm, các viện nghiên cứu ở khắp nơi trên thế giới
tham gia.
Kiến trúc tổng quan của một hệ thống phát hiện cảnh bạo lực bao gồm các
phần chính sau: (1) tiền xử lý video, (2) trích xuất và biểu diễn đặc trưng, (3) sử
dụng thuật toán máy học để xây dựng mô hình từ tập đặc trưng rút trích, (4) sử

dụng mô hình đã học để phát hiện các cảnh bạo lực trong video đầu vào (hình
2.10). Trong đó độ chính xác của hệ thống phụ thuộc nhiều vào việc trích chọn
đặc trưng phù hợp ở bước (2) để biểu diễn cho khái niệm bạo lực.
3

/>
10


2. Bài toán phát hiện cảnh bạo lực trong video

Hình 2.4: Kiến trúc tổng quan hệ thống VSD

2.2

Một số thách thức

Độ lớn và phức tạp về mặt dữ liệu video cần xử lý cũng như sự nhập nhằng,
tính ngữ nghĩa cao của khái niệm bạo lực là những thách thức chính trong bài
toán phát hiện cảnh bạo lực trong video.

2.2.1

Về mặt dữ liệu

• Sự mất cân bằng (imbalanced dataset) của dữ liệu, trong dữ liệu video số
lượng các cảnh chứa bạo lực thường ít hơn nhiều so với các cảnh còn lại
đây là thách thức lớn cho các thuật toán máy học hiện nay. Chẳng hạn
trong dữ liệu của cuộc thi phát hiện sự kiện trong video (TRECVID 2011,
multimedia event detection task) với hơn 32,000 video clip của gần 1,000

giờ video, nhưng số lượng liên quan trung bình khoảng 100 cho mỗi sự kiện.
• Dữ liệu huấn luyện không đủ. Thông thường các thuật toán học máy sẽ
làm việc tốt khi dữ liệu huấn luyện (training data) nhiều và phủ hầu hết

11


×