Tải bản đầy đủ (.pdf) (164 trang)

Phát hiện thông tin bạo lực trong video dựa trên đa đặc trưng mang tính ngữ nghĩa cao

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.34 MB, 164 trang )

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

LÂM QUANG VŨ

PHÁT HIỆN THÔNG TIN BẠO LỰC TRONG VIDEO
DỰA TRÊN ĐA ĐẶC TRƯNG MANG TÍNH NGỮ
NGHĨA CAO

LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN

TP. HỒ CHÍ MINH - 2018


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

LÂM QUANG VŨ

PHÁT HIỆN THÔNG TIN BẠO LỰC TRONG VIDEO
DỰA TRÊN ĐA ĐẶC TRƯNG MANG TÍNH NGỮ
NGHĨA CAO

Chuyên ngành: Khoa Học Máy Tính
Mã số ngành: 62 48 01 01
Phản biện 1: TS. Lê Thành Sách
Phản biện 2: PGS.TS Vũ Đức Lung
Phản biện 3: TS. Nguyễn Hồng Sơn
Phản biện độc lập 1: PGS.TS. Phạm Thế Bảo
Phản biện độc lập 2: TS. Nguyễn Hồng Sơn
NGƯỜI HƯỚNG DẪN KHOA HỌC:


1. PGS.TS DƯƠNG ANH ĐỨC
2. TS. LÊ ĐÌNH DUY

TP. Hồ Chí Minh – 2018


LỜI CẢM ƠN
Lời đầu tiên tôi xin gửi lời cảm ơn chân thành đến PGS.TS Dương Anh Đức và
TS. Lê Đình Duy đã ln theo sát động viên, định hướng và hỗ trợ tơi trong suốt q
trình thực hiện luận án. Nếu khơng có sự đốc thúc và hỗ trợ tận tình của Thầy Đức cùng
với những khơi gợi, chỉ bảo và định hướng đúng đắn của Thầy Duy thì tơi khơng thể có
được các kết quả trình bày trong luận án này.
Tôi xin chân thành cảm ơn GS. Shin’ichi Satoh đã hỗ trợ và định hướng cho các
nghiên cứu của tôi trong thời gian là việc tại Viện NII. Hầu hết những thí nghiệm được
thực hiện trong luận án này đều được thực hiện trên hệ thống máy tính của phịng thí
nghiệm GS. Shin’ichi Satoh.
Tơi xin chân thành cảm ơn các bạn đồng nghiệp tại phịng thí nghiệm Truyền
Thơng Đa Phương Tiện – ĐH Công Nghệ Thông Tin, đặc biệt là TS. Ngơ Đức Thành
vì những chia sẻ, động viên và sự hỗ trợ nhiệt thành của các bạn.
Tôi cũng xin chân thành cảm ơn Ban Chủ Nhiệm Khoa Công Nghệ Thông Tin –
ĐHKHTN đã hỗ trợ và chia sẻ cơng việc, giúp tơi có thêm thời gian q báu để hồn
thành luận án. Xin cảm ơn q Thầy/Cơ đồng nghiệp trong Khoa đã ln sát cánh giúp
tơi có thể vừa hồn thành tốt cơng việc chun mơn, cơng việc quản lý và vừa thực hiện
luận án.
Lời cảm ơn sau cùng xin được gửi đến gia đình. Xin ghi nhận ở con lòng biết ơn
sâu sắc đến ba mẹ, là những người hỗ trợ con vô điều kiện, trong mọi hồn cảnh khó
khăn. Anh xin cảm ơn vợ và hai con trai luôn là nguồn động lực to lớn giúp ba hồn
thành cơng việc của mình.



LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi và các cộng sự. Các
số liệu, kết quả thí nghiệm trình bày trong luận án là trung thực và chưa từng được công
bố trong các cơng trình khác, ngoại trừ các tư liệu được trích dẫn ghi trong tài liệu tham
khảo.
Tác giả luận án
Lâm Quang Vũ.


MỤC LỤC
DANH MỤC HÌNH ............................................................................. vi
DANH MỤC CÁC TỪ VIẾT TẮT ................................................... xii
Tóm tắt luận án ..................................................................................... 1
PHẦN MỞ ĐẦU.................................................................................... 3
1)

Giới thiệu cơng trình nghiên cứu.........................................................3

2)

Động lực nghiên cứu ...........................................................................3

3)

Mục đích, đối tượng và phạm vi của luận án ......................................4

4)

Ý nghĩa khoa học và thực tiễn của luận án..........................................6


5)

Các đóng góp chính của luận án ..........................................................8

6)

Bố cục luận án ...................................................................................10

Chương 1. TỔNG QUAN ................................................................. 12
1.1 Giới thiệu bài toán .............................................................................12
1.2 Các thách thức ...................................................................................14
1.3 Tổng quan các hướng tiếp cận cho bài toán VSD .............................17
1.4 Giới thiệu hướng tiếp cận của luận án ...............................................19
1.4.1 Giới thiệu kiến trúc tổng quan ....................................................19
1.4.2 Bước 1 - Tiền xử lý dữ liệu ........................................................20
1.4.3 Bước 2 – Biểu diễn đặc trưng .....................................................22
1.4.4 Bước 3 - Huấn luyện mơ hình/ đánh giá.....................................28
1.4.5 Bước 4 - Kết hợp kết quả............................................................31
1.5 Bộ dữ liệu MediaEval ........................................................................31
1.5.1 Giới thiệu MediaEval .................................................................32
1.5.2 Giới thiệu bộ dữ liệu MediaEval-VSD .......................................32
i


1.5.3 Thông tin bộ dữ liệu ...................................................................33
1.5.4 Các khái niệm được gán nhãn trong bộ dữ liệu ..........................34
1.5.5 Quy trình xây dựng bộ dữ liệu....................................................34
1.5.6 Các đóng góp trong việc xây dựng bộ dữ liệu ............................36
1.6 Kết luận .............................................................................................37


Chương 2. BIỂU DIỄN ĐA ĐẶC TRƯNG CHO BÀI TOÁN VSD
38
2.1 Giới thiệu ...........................................................................................39
2.2 Các hướng tiếp cận sử dụng đa đặc trưng cho bài toán VSD............42
2.3 Đặc trưng cấp thấp.............................................................................45
2.3.1 Các đặc trưng trên khung ảnh .....................................................45
2.3.2 Đặc trưng chuyển động ...............................................................47
2.3.3 Đặc trưng âm thanh ....................................................................50
2.4 Đặc trưng tự học được rút trích từ mơ hình mạng nơ-ron tích chập .51
2.4.1 Giới thiệu ....................................................................................51
2.4.2 Giới thiệu mạng nơ-ron tích chập ...............................................52
2.4.3 Một số vấn đề của mạng nơ-ron tích chập..................................54
2.4.4 Áp dụng đặc trưng trích xuất từ mơ hình mạng nơ-ron tích chập
cho bài tốn VSD ..............................................................................................55
2.5 Dữ liệu thử nghiệm ............................................................................59
2.6 Phân tích kết quả ...............................................................................60
2.6.1 Đặc trưng tồn cục ......................................................................60
2.6.2 Đặc trưng cục bộ .........................................................................61
2.6.3 Đặc trưng chuyển động ...............................................................64

ii


2.6.4 Đặc trưng âm thanh ....................................................................64
2.6.5 So sánh cách biểu diễn đặc trưng BoW và FV ...........................66
2.6.6 Đặc trưng được rút trích từ mơ hình AlexNet ............................67
2.6.7 Đặc trưng được rút trích từ mơ hình VGGNet ...........................67
2.6.8 Đặc trưng được rút trích từ mơ hình UvANet ............................68
2.7 So sánh giữa các loại đặc trưng .........................................................69
2.8 Phân tích trực quan ............................................................................70

2.9 Kết luận .............................................................................................72

Chương 3. ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD ...... 74
3.1 Giới thiệu ...........................................................................................74
3.1.1 Các hướng tiếp cận sử dụng đặc trưng cấp cao ..........................75
3.2 Đặc trưng cấp cao sử dụng thuộc tính liên quan đến khái niệm bạo lực
78
3.2.1 Giới thiệu các thuộc tính.............................................................78
3.2.2 Biểu diễn cảnh bạo lực bằng thuộc tính .....................................80
3.2.3 Thử nghiệm và đánh giá kết quả ................................................84
3.3 So sánh giữa các đặc trưng dựa trên thuộc tính.................................85
3.4 Tính ngữ nghĩa của kết quả ...............................................................86
3.5 Kết luận .............................................................................................86

Chương 4. KẾT HỢP ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUN
TÍNH TỐN CHO VSD ............................................................................... 88
4.1 Giới thiệu ...........................................................................................89
4.2 Các hướng tiếp cận kết hợp đặc trưng ...............................................90
4.3 Kết hợp đặc trưng ..............................................................................92

iii


4.3.1 Kết hợp đặc trưng trước khi huấn luyện .....................................92
4.3.2 Kết hợp kết quả phân loại của các đặc trưng sau khi huấn luyện
94
4.4 Lựa chọn đặc trưng ............................................................................96
4.4.1 Giới thiệu ....................................................................................96
4.4.2 Phân tích kết quả từng loại đặc trưng riêng ................................97
4.4.3 Đánh giá kết quả lựa chọn ..........................................................98

4.5 Tối ưu tài ngun tính tốn .............................................................101
4.5.1 Giới thiệu ..................................................................................101
4.5.2 Mơi trường tính tốn .................................................................104
4.5.3 Chi phí rút trích đặc trưng ........................................................104
4.5.4 Đánh giá kết quả .......................................................................106
4.6 So sánh kết quả giữa các nhóm nghiên cứu ....................................108
4.7 Đánh giá độ phức tạp của kiến trúc hệ thống ..................................113
4.8 Phân tích đánh giá ...........................................................................118
4.9 Kết luận ...........................................................................................121

Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................. 123
5.1 Những kết quả đạt được ..................................................................123
5.2 Hạn chế và hướng phát triển. ..........................................................125

DANH MỤC CƠNG TRÌNH ........................................................... 127
TÀI LIỆU THAM KHẢO ................................................................ 128
PHỤ LỤC ........................................................................................... 138
6.1 Thống kê các kỹ thuật sử dụng của các nhóm tham gia MediaEval
VSD từ năm 2011 đến năm 2014 ........................................................................138

iv


6.2 Danh sách các cuộc thi (Task) trong MediaEval.............................141
6.3 Định nghĩa tập các khái niệm trong bộ dữ liệu MediaEval VSD ....141
6.3.1 Khái niệm bạo lực:....................................................................141
6.3.2 Các khái niệm hình ảnh liên quan đến bạo lực:........................142
6.3.3 Khái niệm âm thanh liên quan đến bạo lực: .............................143
6.3.4 Nguyên tắc gán nhãn dữ liệu ....................................................144
6.4 Nguyên tắc và quy trình xây dựng bộ dữ liệu .................................145

6.5 Song song hóa việc rút trích đặc trưng và huấn luyện/phân loại khái
niệm

146

v


DANH MỤC HÌNH
Hình 0.1 Sự liên hệ giữa các cảnh bạo lực trên phim và ngồi đời thực. ........4
Hình 0.2 Minh họa hệ thống hỗ trợ phát hiện thông tin bạo lực. .....................5
Hình 0.3 Các thơng tin bạo lực có thể có trong một cảnh bạo lực dựa vào định
nghĩa của WHO [22] ...................................................................................................6
Hình 1.1 Hai giai đoạn trong hệ thống hỗ trợ phát hiện thơng tin bạo lực ....13
Hình 1.2 Ví dụ về sự đa dạng trong thể hiện của các cảnh bạo lực: (a) cảnh
chiến đấu; (b) cảnh ma; (c) cảnh giết người có tiếng thét; (d) cảnh truy đuổi xe gây
tai nạn; (e) cảnh dí súng bắn người; (f) cảnh chiến đấu có cháy nổ; (g) cảnh xác người
đầy máu; (h) cảnh người bị thương chết với nhiều vết thương; (i) cảnh đánh nhau; (j)
cảnh cháy nổ gây thương vong trong đám đơng. ......................................................15
Hình 1.3 Minh họa các cảnh nhập nhằng về khái niệm bạo lực ....................16
Hình 1.4 Minh họa các thành phần chính của một hệ thống hỗ trợ phát hiện sự
kiện đang được dùng rộng rãi hiện nay[70] ..............................................................18
Hình 1.5. Kiến trúc tổng quan của hệ thống hỗ trợ phát hiện thơng tin bạo lực
...................................................................................................................................19
Hình 1.6. Minh họa hai bước biểu diễn đặc trưng bằng mơ hình túi từ (Bag of
Visual Words) [100]. .................................................................................................24
Hình 1.7. Minh họa Fisher Vector. Dấu (X) chỉ thông tin về giá trị trung bình
của các đặc trưng cục bộ. Dấu khoanh trịn chỉ thơng tin về phương sai [71]. .........26
Hình 1.8. Biểu diễn đặc trưng bằng mơ hình Bag of Words và FV trong bài
tốn VSD[CT1] .........................................................................................................28

Hình 2.1 Ví dụ ứng dụng học sâu trong mơ tả ảnh [50] ................................52
Hình 2.2. Minh họa kiến trúc mạng CNN trong bài toán phân lớp ảnh [24] .53
Hình 2.3. Các đặc trưng được học qua các tầng khi huấn luyện mạng CNN
nhận dạng mặt người[50] ..........................................................................................54

vi


Hình 2.4. Ví dụ sử dụng đặc trưng trích xuất từ mơ hình mạng nơ-ron tích chập
để làm đầu vào huấn luyện bộ phận loại khái niệm [75] ..........................................55
Hình 2.5. Kiến trúc mạng AlexNet [24] ........................................................56
Hình 2.6. Bảng cấu hình của mạng VGGNet, cấu hình cho kết quả tốt nhất là
D với 16 tầng [26] .....................................................................................................58
Hình 2.7. So sánh kết quả cách chia vùng không gian trên khung ảnh cho đặc
trưng RGB-SIFT .......................................................................................................63
Hình 2.8. Kết quả hiển thị top 10 cảnh bạo lực do hệ thống trả về khi sử dụng
đặc trưng âm thanh. Hình mặt cười màu vàng là các cảnh phát hiện đúng, màu xanh
là các cảnh sai. ...........................................................................................................65
Hình 2.9. So sánh kết quả của các loại đặc trưng .........................................69
Hình 2.10 Kết quả Top 20 phân đoạn bạo lực nhất của đặc trưng VGGNet
(FC7) .........................................................................................................................70
Hình 2.11. Ví dụ các cảnh bạo lực được hệ thống trả về (xếp giảm dần theo
mức độ bạo lực).........................................................................................................71
Hình 2.12 Top 15 rank list của các cấu hình tốt nhất của các đặc trưng có độ
chính xác tốt nhất theo từng loại. ..............................................................................72
Hình 3.1 Giảm khoảng cách ngữ nghĩa bằng cách sử dụng các khái niệm liên
quan (thuộc tính) khi biểu diễn cảnh bạo lực ............................................................75
Hình 3.2. Nhận dạng hàng động thơng qua các thuộc tính và thành phần có
liên quan đến hành động [98] ....................................................................................76
Hình 3.3. Sử dụng ngân hàng các đối tượng để phân loại cảnh [52] .............77

Hình 3.4. Nhận diện hành động bằng các thuộc tính [42] .............................77
Hình 3.5. Ví dụ một cảnh bạo lực trong phim Giải cứu binh nhì. .................78
Hình 3.6 Danh sách các thuộc tính theo các thông tin liên quan đến định nghĩa
khái niệm bạo lực ......................................................................................................79

vii


Hình 3.7. Kiến trúc hệ thống biểu diễn cảnh bạo lực bằng cách sử dụng thuộc
tính .............................................................................................................................83
Hình 3.8. Hình minh họa kết quả Top các cảnh bạo lực mà hệ thống trả về kèm
thơng tin các thuộc tính liên quan đến bạo lực. Mặt cười màu vàng là các cảnh hệ
thống nhận định đúng (True Positive). Phía trên các khung ảnh là giá trị thể hiện điểm
đánh giá các thuộc tính và bên phải các khung ảnh là biểu tượng các thuộc tính có tồn
tại trong phân đoạn đang đánh giá. ...........................................................................87
Hình 4.1. Các phương thức kết hợp đặc trưng từ các khung ảnh (Keyframe
features) thành đặc trưng biểu diễn cho phân đoạn (shot feature) ............................93
Hình 4.2. So sánh giữa các cách kết hợp đặc trưng khung ảnh thành đặc trưng
cảnh cho đặc trưng LBP ............................................................................................93
Hình 4.3. Mơ hình kết hợp các đặc trưng bằng kết hợp trễ (late fusion) cho bài
tốn VSD ...................................................................................................................95
Hình 4.4.
(giảm dần)
Hình 4.5.

Kết quả của từng loại đặc trưng được sắp xếp theo độ đo MAP2014
97
Kết quả của việc loại từng đặc trưng, được sắp xếp giảm dần theo

MAP2014. Trong cả hai độ đo, giá trị càng cao khi loại đặc trưng chứng tỏ sự đóng

góp càng ít trong việc kết hợp các đặc trưng. ...........................................................99
Hình 4.6. Kết quả của việc loại từng LOẠI đặc trưng, được sắp xếp giảm dần
theo MAP2014. Trong cả hai độ đo, giá trị càng cao thể hiện sự đóng góp càng ít
trong việc kết hợp các LOẠI đặc trưng...................................................................100
Hình 4.7 Chi phí rút trích đặc trưng (thời gian để rút trích 1 giờ video), các đặc
trưng tự học được rút trích bằng cả CPU và GPU ..................................................105
Hình 4.8 Chi phí quy đổi bằng cách sử dụng nhiều CPU để rút trích các đặc
trưng (số lượng CPU cần xử lý cho 1 giờ video trong 1 giờ). ...............................105
Hình 4.9. Kết quả tối ưu của hệ thống dựa vào số lượng core có được (tất cả
đều dùng CPU, khơng sử dụng GPU). ....................................................................108

viii


Hình 4.10. Kết quả tối ưu của hệ thống dựa vào số lượng core có được (sử
dụng cả CPU và GPU). ...........................................................................................108
Hình 4.11 Kết quả so sánh độ chính xác (MAP) tất cả các cấu hình của các
nhóm nghiên cứu tham gia MediaEval VSD 2014, màu cam là các cấu hình tốt nhất
của từng nhóm [22]. Khung màu đỏ thể hiện 2 bộ cấu hình tốt nhất khơng sử dụng kỹ
thuật làm trơn (score smoothing) của nhóm Fudan và nhóm chúng tơi (NII_UIT).
.................................................................................................................................110
Hình 4.12 Minh họa làm trơn mức độ bạo lực của qua 3 phân đoạn liên tiếp.
Đường màu đỏ thể hiện kết quả sau khi làm trơn danh sách. .................................111
Hình 4.13 Kết quả làm trơn danh sách kết quả của các đặc trưng theo độ đo
MAP2014 ................................................................................................................112
Hình 4.14 Kết quả làm trơn danh sách kết quả của các đặc trưng theo độ đo
MAP-AT100 ...........................................................................................................112
Hình 4.15 Kết quả sử dụng bộ kết hợp đặc trưng tốt nhất và so sánh với nhóm
FUDAN ...................................................................................................................113
Hình 4.16. Ví dụ các trường hợp hệ thống phát hiện sai (false alarm) ở dòng

dưới (mặt buồn). Dòng trên (mặt cười) là các phân đoạn hệ thống phát hiện đúng (true
positive). Về mặt trực quan thì chúng ta khó nhận biết được sự khác biệt tại sao phân
đoạn trên đúng mà phân đoạn dưới lại sai. .............................................................118
Hình 4.17 Detection error tradeoff (DET) cho hệ thống VSD của chúng tơi
.................................................................................................................................119
Hình 4.18Thời gian rút trích đặc trưng cho 1 giờ video của từng loại đặc trưng.
.................................................................................................................................120
Hình 6.1 Quy trình xây dựng bộ dữ liệu MediaEval VSD[82] ....................146
Hình 6.2. Mơ tả quy trình rút trích đặc trưng ảnh trên hệ thống GRID
COMPUTING .........................................................................................................147

ix


DANH MỤC BẢNG
Bảng 1.1 Thống kê việc gán nhãn dữ liệu qua các năm, phần in đậm do nhóm
gán nhãn ở Việt Nam thực hiện ................................................................................37
Bảng 2.1. Minh họa cách rút trích và biểu diễn cho trajectory [95] ..............49
Bảng 2.2 Bảng tóm tắt cấu hình các đặc trưng cục bộ. ..................................51
Bảng 2.3 Danh sách các phim trong tập huấn luyện ......................................60
Bảng 2.4 Danh sách các phim trong tập kiểm tra ..........................................60
Bảng 2.5 Kết quả các đặc trưng toàn cục được sắp xếp theo MAP2014 .......61
Bảng 2.6 Kết quả các đặc trưng cục bộ được sắp xếp theo MAP2014 ..........62
Bảng 2.7 Bảng thể hiện sự phụ thuộc vào các thay đổi điều kiện sáng, màu sắc
và dịch chuyển của các đặc trưng cục bộ, "+" là bất biến, không phụ thuộc, "-" là phụ
thuộc [81] ..................................................................................................................63
Bảng 2.8 Bảng kết quả đặc trưng chuyển động được sắp xếp theo MAP2014
...................................................................................................................................64
Bảng 2.9 Bảng kết quả đặc trưng MFCC .......................................................64
Bảng 2.10 Bảng so sánh cách mã hóa đặc trưng bằng Bag of Words và FV 66

Bảng 2.11 Kết quả sử dụng đặc trưng từ mơ hình CNN AlexNet .................67
Bảng 2.12 Kết quả sử dụng đặc trưng rút trích từ mơ hình VGGNet ............68
Bảng 2.13 Kết quả sử dụng đặc trưng rút trích từ mơ hình UvANet .............68
Bảng 3.1 Kết quả sử dụng thuộc tính cho bài toán VSD (độ đo MAP2014) .84
Bảng 3.2 So sánh số lượng thuộc tính sử dụng khi biểu diễn khái niệm bạo lực
...................................................................................................................................85
Bảng 4.1 Bảng so sánh việc kết hợp sớm các đặc trưng trích xuất từ mơ hình
mạng nơ-ron tích chập...............................................................................................94
Bảng 4.2 Kết quả việc kết hợp các cấu hình đặc trưng cùng loại theo phương
thức kết hợp trễ (late fusion) .....................................................................................95

x


Bảng 4.3 Tổ hợp tối ưu các đặc trưng theo số lượng core (CPU) sử dụng (để
xử lý 1 giờ video trong 1 giờ). ................................................................................106
Bảng 4.4 Tổ hợp tối ưu các đặc trưng theo số lượng core (CPU) và 1 card GPU
sử dụng (để xử lý 1 giờ video trong 1 giờ), đặc trưng tô đậm là đặc trưng sử dụng
GPU. ........................................................................................................................106
Bảng 4.5 Kết quả so sánh giữa các nhóm tham gia MediaEval VSD 2014 [22]
.................................................................................................................................109
Bảng 6.1 Bảng tổng hợp các kỹ thuật của các nhóm nghiên cứu tham gia
MediaEval VSD từ năm 2011-2014[3], [64], [74], [81],[1], [64], [81], [39], [2], [11],
[87], [86], [91], [102], [17], [18], [23], [45], [63], [67], [77], [83].........................140

xi


DANH MỤC CÁC TỪ VIẾT TẮT
VSD


Violent Scenes Detection

MED

Multimedia Event Detection

CNN

Convolutional Neural Networks

DL

Deep learning

SIFT

Scale Invariant Feature Transform

C-SIFT

Color- SIFT

OPP-SIFT

Opponent SIFT

HOG

Histogram of Oriented Gradients


HOF

Histograms of Optical Flow

MBH

Motion Boundary Histogram

mAP

mean Average Precision

DNN

Deep Neural Networks

MFCC

Mel-frequency Cepstral Coeffcients

BoW

Bag of Words

FV

Fisher Vector

xii



Tóm tắt luận án
Mục tiêu của luận án hướng tới giải quyết bài tốn tự động phát hiện thơng tin
bạo lực trong dữ liệu video (VSD – Violent Scenes Detection). Với đầu vào là các
video, luận án phát triển hệ thống tự động trả về các phân đoạn được đánh giá mức
độ bạo lực. Hệ thống phát hiện thông tin bạo lực sẽ giúp các cơ quan chức năng và
phụ huynh kiểm soát chặt chẽ các nội dung video liên quan đến bạo lực mà giới trẻ
thường xuyên tiếp xúc trong thời đại bùng nổ thông tin hiện nay. Đây là bài tốn có
nhiều thách thức vì: nội dung cảnh bạo lực được thể hiện rất đa dạng, liên quan đến
nhiều đối tượng, nhiều cảnh, nhiều hành động khác nhau; khái niệm bạo lực có mức
độ ngữ nghĩa cao, nhận định bạo lực đôi khi phụ thuộc rất nhiều vào tính chủ quan
của con người; việc xử lý thơng tin trên dữ liệu video địi hỏi chi phí tính tốn lớn; và
trước đây chưa có những bộ dữ liệu chuẩn phục vụ cho các nghiên cứu khoa học liên
quan đến bài toán này.
Bài toán VSD (Violent Scene Detection) là một dạng bài toán MED
(Multimedia Event Detection), thách thức lớn nhất của dạng bài tốn này là thơng tin
sự kiện thể hiện đa dạng trên nhiều kênh thông tin khác nhau (đối tượng, cảnh, hành
động, sự kiện). Hướng tiếp cận kết hợp đa đặc trưng đã được chứng minh hiệu quả
cho bài toán MED nhưng chưa được đánh giá một cách hệ thống trên VSD. Luận án
đánh giá một cách hệ thống tập các đặc trưng trên nhiều kênh thông tin để biểu diễn
cảnh bạo lực. Bằng cách đánh giá chi tiết các đặc trưng được chọn lọc trên khung
ảnh, trên video, trên kênh âm thanh, cùng với các đặc trưng được rút trích từ các mơ
hình mạng nơ-ron tích chập nhằm xác định cách biểu diễn đặc trưng tốt nhất (cách
mã hóa đặc trưng, cách lấy điểm đặc trưng, cách chia không gian ảnh, cách pooling).
Với việc xử lý thông tin trên dữ liệu video địi hỏi chi phí tính toán rất lớn, từ những
đặc trưng được lựa chọn tốt nhất trên các kênh thơng tin và chi phí tính tốn rút trích
đặc trưng dựa trên thực nghiệm, luận án đề xuất cách kết hợp dựa trên kết quả phân
loại (late fusion) để lựa chọn được bộ đặc trưng tối thiểu (compact feature set) đem
lại kết quả phân loại với độ chính xác trung bình tốt nhất trong bài tốn VSD. So sánh


1


với các cơng trình liên quan trên cùng bộ dữ liệu MediaEval VSD, bộ đặc trưng do
luận án đề xuất có kết quả tốt nhất.
Khái niệm bạo lực có tính ngữ nghĩa cao và cảnh bạo lực thường chứa các
thông tin liên quan đặc trưng riêng, thơng qua q trình xây dựng bộ dữ liệu, NCS và
các cộng sự đã xác định các đối tượng thông tin, cảnh, hành động (gọi chung là thuộc
tính) có trong các cảnh bạo lực và xây dựng bộ gán nhãn dữ liệu các thông tin này.
Trên cơ sở đó, luận án đề xuất thiết kế đặc trưng cấp cao dựa trên các thuộc tính liên
quan để biểu diễn cảnh bạo lực. Đặc trưng cấp cao dựa trên thuộc tính khơng những
giúp xây dựng bộ phân loại đánh giá mức độ bạo lực mà còn cung cấp thêm thông tin
mô tả giàu ngữ nghĩa hơn cho cảnh liên quan.
Để đánh giá các mơ hình đề xuất, luận án sử dụng các bộ dữ liệu và phương
pháp đánh giá chuẩn của MediaEval VSD và tham gia MediaEval VSD
Benchmarking hàng năm. Kết quả của các mơ hình đề xuất trong luận án luôn nằm
trong top đầu của những nhóm nghiên cứu cùng tham gia giải quyết bài toán
MediaEval VSD hàng năm. Dựa trên các kết quả nghiên cứu học thuật, NCS và các
cộng sự đã công bố một bài tạp chí SCIE và 6 bài hội nghị, hội thảo quốc tế, 2 bài hội
nghị quốc tế đồng tác giả với Ban Tổ Chức MediaEval VSD. Bên cạnh đó, NCS cũng
đã tham gia định nghĩa bài tốn và xây dựng bộ dữ liệu cho bài toán MediaEval VSD;
và bộ dữ liệu này đã được công nhận trong cộng đồng nghiên cứu quốc tế từ năm
2012. Hệ thống hỗ trợ phát hiện thông tin bạo lực do NCS làm trưởng nhóm cũng lọt
vào chung kết cuộc thi Nhân Tài đất Việt 2014 và đã đăng ký giải pháp hữu ích để
bảo hộ cho hệ thống được đề xuất tại Việt Nam.

2



PHẦN MỞ ĐẦU
1) Giới thiệu cơng trình nghiên cứu
Trong những năm qua, với sự bùng nổ của các kênh thông tin truyền thơng đa
phương tiện, mỗi ngày có hàng ngàn, hàng triệu video được chia sẻ qua mạng, được
phát sóng trên các kênh truyền thơng đa phương tiện (ví dụ: theo Fortunelords1 khảo
sát đầu năm 2017, mỗi phút có hơn 300 giờ video được tải lên mạng lên Youtube).
Với một lượng thông tin vô cùng lớn như vậy, việc xác định, phát hiện các thơng tin
(nội dung gì, liên quan đến ai, có sự kiện gì, có đối tượng nào …) một cách tự động
là một trong những bài toán có nhiều thách thức được giới khoa học trong lĩnh vực
thị giác máy tính và máy học quan tâm giải quyết. Trong khuôn khổ của luận án này,
chúng tôi hướng tới giải quyết bài tốn phát hiện thơng tin bạo lực trong dữ liệu video
(VSD – Violent Scenes Detection [20]).

2) Động lực nghiên cứu
Bên cạnh những thơng tin giải trí, các kiến thức bổ ích, các kênh thơng tin truyền
thơng đa phương tiện cịn có rất nhiều nội dung ảnh hưởng tiêu cực đến giới trẻ cần
kiểm soát chặt chẽ (phim khiêu dâm, các nội dung bạo lực…), đặc biệt khi đối tượng
xem là thanh thiếu niên và trẻ nhỏ. Tác động của những nội dung, thơng tin khơng tốt
có ảnh hưởng tiêu cực đến hành vi của giới trẻ. Trong thực tế, rất nhiều vụ trọng án
qua xác minh, điều tra đều có nguồn gốc và kịch bản tương tự như các phim bạo lực
đã được trình chiếu mà hung thủ đã xem qua. Cũng đã có nhiều nghiên cứu về tâm lý
và xã hội học2 chứng minh sự ảnh hưởng của phim ảnh đến hành vi của trẻ nhỏ. Hình
0.1 là một ví dụ minh họa sự liên quan giữa các cảnh bạo lực trên phim và ngoài đời
thực. Do đó chúng tơi nhận thấy nhu cầu cấp thiết cần nghiên cứu các thuật toán và
xây dựng hệ thống hỗ trợ phát hiện tự động các thông tin bạo lực giúp các nhà quản
lý phim, cơ quan chức năng và phụ huynh có thể lựa chọn, khuyến cáo các nội dung

1
2


/> />
3


phim, đoạn phim nào phù hợp với thanh thiếu niên, trẻ em, góp phần ngăn chặn những
hành vi bạo lực của giới trẻ trong cuộc sống.
Cảnh trên phim

Cảnh ngoài đời thực

11/2/2016

1

Hình 0.1 Sự liên hệ giữa các cảnh bạo lực trên phim và ngồi đời thực.

3) Mục đích, đối tượng và phạm vi của luận án
Mục đích của luận án này là giải quyết bài tốn phát hiện thơng tin bạo lực
trong dữ liệu video. Hình 0.2 minh họa một hệ thống hỗ trợ phát hiện thông tin bạo
lực, với đầu vào là các phim Hollywood3, sử dụng định nghĩa khái niệm bạo lực do
MediaEval VSD4 đề xuất, luận án phát triển các thuật toán để tự động trả về các phân
đoạn được xác định bạo lực hay không bạo lực.
Trong khuôn khổ luận án này, chúng tôi giới hạn phạm vi bài tốn phát hiện
thơng tin bạo lực trong các bộ phim Hollywood. Bằng cách sử dụng bộ dữ liệu chuẩn
của MediaEval [82] cung cấp, luận án có thể so sánh, đánh giá các kết quả nghiên
cứu với các cơng trình liên quan trên cùng bộ dữ liệu. Tùy thuộc vào cách biểu diễn
thông tin, yêu cầu thực tế và độ đo cụ thể, có thể có nhiều thể hiện khác nhau cho bài
toán Violent Scenes Detection (VSD).

3

/>4
/>
4


Đầu ra : Phân đoạn cảnh
bạo lực

Đầu vào : Films,
Video Clips

HỆ THỐNG
PHÁT HIỆN
THƠNG TIN
BẠO LỰC

Hình 0.2 Minh họa hệ thống hỗ trợ phát hiện thơng tin bạo lực.

• Đối tượng nghiên cứu:
Đối tượng nghiên cứu trong luận án này là các phân đoạn video chứa các
thông tin bạo lực. Trong phạm vi luận án, thông tin bạo lực bao gồm các đối
tượng, cảnh, hành động, hành vi bạo lực gây ra sự tổn thương cho con người
theo định nghĩa của WHO5:
o Cảnh chứa các thông tin bạo lực không nên cho trẻ dưới 8 tuổi xem.
o Thông tin bạo lực: các hành động, sự kiện đe dọa hoặc làm tổn
thương đến con người. Hình 0.3 trình bày các thể hiện đa dạng của
thơng tin bạo lực, đó có thể là sự kết hợp giữa các đối tượng, cảnh,
hành động, hành vi hoặc sự kiện bạo lực.
o Trong phạm vi luận án, chúng tôi sử dụng định nghĩa chi tiết của bộ
dữ liệu MediaEval [22], trong đó cảnh chứa thơng tin bạo lực trong

video phải có thể hiện các hành vi gây ra sự tổn thương (ví dụ như
đánh nhau, bắn nhau và kết quả của sự tổn thương trên con người (ví
dụ người bị đau, bị chảy máu) khơng cần theo trình tự thời gian (vì
đây là video, ví dụ như cảnh bắn xong bị thương hoặc hình ảnh người
bị thương kể lại cảnh mình bị bắn). Bạo lực trong phạm vi luận án thể

5

/>
5


hiện bằng danh từ chung, bao gồm nhiều sự vật, hiện tượng liên quan
đến việc gây ra sự tổn thương cho con người.
• Mục đích nghiên cứu:
Nghiên cứu và phát triển các phương pháp biểu diễn thông tin bạo lực bằng
các mơ hình đặc trưng trên máy tính phục vụ cho việc đánh giá mức độ bạo
lực của các cảnh trong video với độ chính xác cao.
• Phạm vi nghiên cứu:
Phạm vi nghiên cứu được giới hạn trong bộ dữ liệu các phim Hollywood
[82], với đầu vào là các bộ phim và đầu ra là các cảnh được đánh giá mức độ
bạo lực dựa trên định nghĩa do Ban tổ chức MediaEval Benchmarking
Initiative for Multimedia Evaluation6 cung cấp.
Tăng mức độ ngữ nghĩa

Đối tượng
(ảnh)
Ví dụ:
• Súng
• Dao


Cảnh (ảnh)
Ví dụ:
• Cảnh máu
• Cảnh ma
qi

Hành động
(ảnh/video)
Ví dụ:
• Đánh
• Bắn
• Chém

Hoạt động
(video)
Ví dụ:
• Hai người
đánh nhau
• Lính bắn xe
tăng

Cảnh/Sự
kiện (Video)
Ví dụ:
• Hai người
đánh nhau
đổ máu
• Anh lính
bắn cháy

chiếc xe
tăng

Hình 0.3 Các thơng tin bạo lực có thể có trong một cảnh bạo lực dựa vào định nghĩa của WHO [22]

4) Ý nghĩa khoa học và thực tiễn của luận án
Về mặt khoa học, luận án tập trung đánh giá các mơ hình đặc trưng trên nhiều
kênh thông tin (trên khung ảnh, trên video, trên kênh âm thanh) để biểu diễn cảnh bạo
lực, từ đó xác định các loại đặc trưng phù hợp, cũng như đề xuất cách kết hợp tối ưu
các đặc trưng cho bài tốn phát hiện thơng tin bạo lực, kết quả của các cơng trình này
giúp các nhóm nghiên cứu có cơ sở lựa chọn các đặc trưng phù hợp, làm nền tảng

6

/>
6


cho việc cải tiến độ chính xác cũng như tiết kiệm thời gian thử nghiệm lại từng loại
đặc trưng. Bên cạnh đó, ngồi các đặc trưng được thiết kế sẵn, luận án cũng đánh giá
các đặc trưng tự học được rút trích từ các mơ hình mạng nơ-ron tích chập để biểu
diễn cảnh bạo lực, việc đánh giá này là cơ sở để các nhóm nghiên cứu khác sử dụng
các đặc trưng tự học cho bài toán phát hiện cái khác niệm có tính ngữ nghĩa cao như
khái niệm bạo lực.
Ngoài ra, luận án cũng đề xuất cách sử dụng đặc trưng cấp cao dựa trên các
khái niệm liên quan đến khái niệm bạo lực (gọi là thuộc tính) để biểu diễn thông tin
bạo lực, với cách tiếp cận biểu diễn thơng tin bạo lực bằng các thuộc tính, ngồi việc
quyết định cảnh có bạo lực hay khơng, hệ thống sẽ cung cấp thêm thông tin liên quan
đến cảnh cần xét, đây là cách tiếp cận tăng cường tính ngữ nghĩa cho các mơ hình
phát hiện khái niệm.

Về mặt thực tiễn, mơ hình bài tốn sẽ cung cấp nền tảng cho các ứng dụng
phát hiện thông tin bạo lực, kiểm duyệt phim, xếp hạng các bộ phim theo mức độ bạo
lực một cách tự động (rating), kiểm duyệt thông tin bạo lực trên các kênh truyền thông
đa phương tiện trên Internet. Với mơ hình tối ưu tài nguyện được trình bày trong luận
án, các bên liên quan có thể xây dựng các ứng dụng thực tế hỗ trợ kiểm duyệt thông
tin bạo lực với thời gian xử lý hợp lý (ví dụ có thể xử lý đánh giá một bộ phim có độ
dài 1 giờ trong 1 giờ). Với các đánh giá chi tiết về thời gian xử lý các loại đặc trưng
mô tả cảnh bạo lực, luận án cung cấp cơ sở thực tiễn giúp xây dựng các ứng dụng
VSD thực tế trên các mơi trường tính tốn khác nhau, đảm bảo cân bằng giữa yếu tố
thời gian xử lý và độ chính xác của hệ thống.
Kết quả về học thuật và mơ hình đề xuất trong luận án là cơ sở khoa học để
cho các đơn vị quản lí cân nhắc việc triển khai thực tế các ứng dụng liên quan đến
việc quản lý thông tin bạo lực trong tương lai. Việc triển khai thực tế sẽ đòi hỏi phải
điều chỉnh các định nghĩa liên quan đến bạo lực cho phù hợp với các tiêu chí quốc tế,

7


cũng như các tiêu chí của nhà nước Việt Nam (như luật về kiểm duyệt phim ảnh của
Cục Điện Ảnh7).

5) Các đóng góp chính của luận án
Luận án sử dụng cách tiếp cận máy học để huấn luyện khái niệm bạo lực và
xây dựng hệ thống hỗ trợ phát hiện thơng tin bạo lực dựa trên các bước chính: rút
trích đặc trưng biểu diễn khái niệm, huấn luyện các bộ phân loại cảnh bạo lực theo
phương pháp học có giám sát (supervised learning methods), kiểm tra đánh giá và kết
hợp các kết quả để nâng cao độ chính xác cho hệ thống.
Trong các cơng trình nghiên cứu của luận án, chúng tơi tập trung chính vào
giai đoạn rút trích và biểu diễn đặc trưng cho khái niệm bạo lực. Luận án đánh
giá một cách hệ thống tập các đặc trưng trên nhiều kênh thông tin để biểu diễn cảnh

bạo lực. Bắt đầu bằng việc đánh giá một cách hệ thống và phân tích các loại đặc trưng
cấp thấp từ nhiều kênh thơng tin khác nhau, từ đó chúng tơi có thể tối ưu hóa các bộ
tham số của các đặc trưng nhằm tăng độ chính xác trong việc biểu diễn thơng tin
bạo lực. Bên cạnh các đặc trưng tồn cục, cục bộ trên khung ảnh thường hoạt động
tốt trong việc nhận dạng đối tượng, cảnh; chúng tôi cũng sử dụng các đặc trưng dựa
trên chuyển động để phát hiện các hành động, hành vi liên quan bạo lực; đồng thời
kết hợp với đặc trưng âm thanh có tính phân loại cao (discriminative) để phát hiện
các âm thanh liên quan đến bạo lực. Cùng với sự phát triển của mạng nơ-ron học sâu,
ngoài các đặc trưng được thiết kế sẵn (hand-crafted features) chúng tôi cũng sử dụng
các đặc trưng tự học (deep learning features) được rút trích từ các mạng nơ-ron tích
chập để biểu diễn khái niệm bạo lực. Việc xây dựng mơ hình mạng nơ-ron học sâu
cho bài tốn phát hiện thơng tin bạo lực khó khả thi vì tính ngữ nghĩa cao và thể hiện
đa dạng của cảnh bạo lực, thay vào đó, chúng tơi kế thừa các mơ hình đặc trưng tự
học phổ biến hiện có và đề xuất sử dụng các tầng đặc trưng tự học được rút trích
từ các mơ hình này để biểu diễn cho khái niệm bạo lực. Kết quả phân tích đánh

7

/>
8


giá các mơ hình đặc trưng trên các kênh thơng tin được cơng bố trong [CT1][CT3] và
được trình bày trong Chương 2 của luận án.
Cảnh bạo lực thường chứa các thơng tin liên quan đặc trưng riêng, thơng qua
q trình xây dựng bộ dữ liệu, chúng tôi xác định các thuộc tính có liên quan đến
các cảnh bạo lực và xây dựng bộ dữ liệu huấn luyện cho các thuộc tính này. Trên
cơ sở đó, chúng tơi thiết kế mới một đặc trưng cấp cao dựa trên các thuộc tính
liên quan để biểu diễn cảnh bạo lực. Đặc trưng cấp cao dựa trên thuộc tính khơng
những giúp xây dựng bộ phân loại đánh giá mức độ bạo lực mà còn cung cấp thêm

thông tin mô tả giàu ngữ nghĩa hơn cho cảnh liên quan. Quá trình thiết kế và đánh giá
đặc trưng dựa trên thuộc tính được cơng bố trong [CT4] và được trình bày trong
Chương 3 của luận án.
Với tính ngữ nghĩa cao và sự đa dạng về mặt thể hiện của khái niệm bạo lực,
để thể hiện được tính đầy đủ các thơng tin trong cảnh bạo lực, chúng tơi đề xuất mơ
hình kết hợp các loại đặc trưng dựa trên sự chọn lọc các đặc trưng phù hợp và
có tính bổ trợ cao. Với việc xử lý thông tin trên dữ liệu video và sử dụng nhiều loại
đặc trưng kết hợp sẽ dẫn tới thách thức về tài ngun tính tốn. Từ những đặc trưng
được lựa chọn tốt nhất trên cách kênh thơng tin và chi phí tính tốn rút trích đặc trưng
dựa trên thực nghiệm, luận án đề xuất cách kết hợp dựa trên kết quả phân loại (late
fusion) để lựa chọn được bộ đặc trưng tối thiểu (compact feature set) đem lại kết
quả phân loại với độ chính xác trung bình tốt nhất trong bài tốn VSD. Kết quả
của q trình lựa chọn đặc trưng và cách kết hợp tối ưu theo tài nguyên tính tốn được
cơng bố trong [CT2] và được trình bày trong Chương 4 của luận án.
Để đánh giá các mơ hình đề xuất, chúng tôi sử dụng các bộ dữ liệu và phương
pháp đánh giá chuẩn được công nhận trong cộng đồng nghiên cứu quốc tế. Chúng
tôi cũng tham gia xây dựng các bộ dữ liệu và phương pháp đánh giá chuẩn trong
MediaEval Benchmarking VSD [CT8][CT9], đồng thời cũng phát triển hệ thống và
gửi kết quả đánh giá trong hội thảo MediaEval VSD hàng năm [CT5][CT7][CT6], hệ
thống VSD do luận án đề xuất ln có kết quả nằm trong top 3 hệ thống VSD tốt nhất

9


×