Tải bản đầy đủ (.pdf) (31 trang)

Phát hiện thông tin bạo lực trong video dựa trên đa đặc trưng mang tính ngữ nghĩa cao TT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.08 MB, 31 trang )

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

LÂM QUANG VŨ

PHÁT HIỆN THÔNG TIN BẠO LỰC TRONG VIDEO DỰA
TRÊN ĐA ĐẶC TRƯNG MANG TÍNH NGỮ NGHĨA CAO

Chuyên ngành: Khoa Học Máy Tính
Mã số ngành: 62 48 01 01

TÓM TẮT LUẬN ÁN TIẾN SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

TP. Hồ Chí Minh năm 2018


Công trình được hoàn thành tại: Khoa Công Nghệ Thông Tin, Trường Đại Học Khoa Học Tự
Nhiên, ĐHQG Thành Phố Hồ Chí Minh.
Người hướng dẫn khoa học:
1. HDC: PGS.TS DƯƠNG ANH ĐỨC
2. HDP: TS. LÊ ĐÌNH DUY

Phản biện 1: TS. Lê Thành Sách
Phản biện 2: PGS.TS Vũ Đức Lung
Phản biện 3: TS. Nguyễn Hồng Sơn
Phản biện độc lập 1: PGS.TS. Phạm Thế Bảo
Phản biện độc lập 2: TS. Nguyễn Hồng Sơn

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp cơ sở đào tạo họp tại Trường Đại
Học Khoa Học Tự Nhiên, ĐHQG Thành Phố Hồ Chí Minh
vào hồi


giờ
ngày tháng
năm

Có thể tìm hiểu luận án tại thư viện:
1. Thư viện Tổng hợp Quốc gia Tp.HCM
2. Thư viện trường Đại học Khoa học Tự Nhiên-HCM


MỤC LỤC
PHẦN MỞ ĐẦU .................................................................................1
1)
2)
3)
4)
5)

Giới thiệu động lực nghiên cứu và định hướng nghiên cứu ....................... 1
Mục đích, đối tượng và phạm vi nghiên cứu của luận án ........................... 1
Ý nghĩa khoa học và thực tiễn của luận án ................................................ 1
Các đóng góp chính của luận án ............................................................... 2
Bố cục luận án .......................................................................................... 2

Chương 1. TỔNG QUAN .................................................................3
1.1 Giới thiệu bài toán .................................................................................... 3
1.2 Các thách thức .......................................................................................... 4
1.3 Tổng quan các hướng tiếp cận và các công trình liên quan ........................ 4
1.3.1 Các hướng tiếp cận chung cho bài toán phát hiện sự kiện .................. 4
1.3.2 Các hướng tiếp cận đa đặc trưng cho bài bài toán VSD ...................... 4
1.3.3 Các hướng tiếp cận sử dụng đặc trưng cấp cao................................... 5

1.3.4 Các hướng tiếp cận kết hợp đặc trưng ................................................ 5
1.4 Giới thiệu hướng tiếp cận của luận án ....................................................... 5
1.4.1 Giới thiệu kiến trúc tổng quan ........................................................... 5
1.4.2 Bước 1 - Tiền xử lý dữ liệu................................................................ 5
1.4.3 Bước 2 – Biểu diễn đặc trưng ............................................................ 6
1.4.4 Bước 3 - Huấn luyện mô hình/ đánh giá............................................. 7
1.4.5 Bước 4 - Kết hợp kết quả................................................................... 7
1.4.6 Song song hóa việc rút trích đặc trưng ............................................... 7
1.5 Đánh giá độ phức tạp của kiến trúc hệ thống............................................. 7
1.6 Bộ dữ liệu MediaEval ............................................................................... 8
1.6.1 Giới thiệu MediaEval ........................................................................ 8
1.6.2 Giới thiệu bộ dữ liệu MediaEval-VSD ............................................... 8
1.6.3 Thông tin bộ dữ liệu .......................................................................... 8
1.6.4 Các khái niệm được gán nhãn trong bộ dữ liệu .................................. 8
1.6.5 Nguyên tắc và quy trình xây dựng bộ dữ liệu ..................................... 8
1.6.6 Các độ đo .......................................................................................... 8
1.6.7 Các đóng góp trong việc xây dựng bộ dữ liệu .................................... 9
1.7 Kết luận.................................................................................................... 9

Chương 2. ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC CHO
BÀI TOÁN VSD 9
2.1 Giới thiệu ................................................................................................. 9
2.2 Đặc trưng cấp thấp ................................................................................. 10
2.2.1 Các đặc trưng trên khung ảnh .......................................................... 10
2.2.2 Đặc trưng chuyển động.................................................................... 11
2.2.3 Đặc trưng âm thanh ......................................................................... 12
2.3 Đặc trưng tự học được rút trích từ mô hình mạng nơ-ron tích chập ......... 12
2.3.1 Giới thiệu ........................................................................................ 12
2.3.2 Giới thiệu mạng nơ-ron tích chập (CNN) ......................................... 12
2.3.3 Một số vấn đề của mạng nơ-ron tích chập ........................................ 12

2.3.4 Áp dụng đặc trưng được rút trích từ mô hình mạng nơ-ron tích chập cho bài
toán VSD
13
2.4 Dữ liệu thử nghiệm................................................................................. 13
2.5 Phân tích kết quả .................................................................................... 13
2.5.1 Đặc trưng toàn cục .......................................................................... 13
i


2.5.2 Đặc trưng cục bộ ............................................................................. 14
2.5.3 Đặc trưng chuyển động.................................................................... 14
2.5.4 Đặc trưng âm thanh ......................................................................... 14
2.5.5 So sánh cách biểu diễn đặc trưng BoW và Fisher Vector ................. 14
2.5.6 Đặc trưng của mô hình AlexNet ...................................................... 14
2.5.7 Đặc trưng của mô hình VGGNet ..................................................... 14
2.5.8 Đặc trưng của mô hình UvANet ...................................................... 15
2.5.9 So sánh với các đặc trưng được thiết kế sẵn (hand-crafted) .............. 15
2.6 Phân tích trực quan ................................................................................. 15
2.7 Kết luận.................................................................................................. 15

Chương 3. ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD ......16
3.1 Giới thiệu ............................................................................................... 16
3.2 Đặc trưng cấp cao sử dụng thuộc tính liên quan đến bạo lực ................... 17
3.2.1 Giới thiệu các thuộc tính.................................................................. 17
3.2.2 Biểu diễn cảnh bạo lực bằng thuộc tính ........................................... 17
3.2.3 Thử nghiệm và đánh giá kết quả ...................................................... 18
3.3 So sánh giữa các đặc trưng dựa trên thuộc tính ....................................... 18
3.4 Tính ngữ nghĩa của kết quả..................................................................... 18
3.5 Kết luận.................................................................................................. 19


Chương 4. KẾT HỢP ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUYÊN TÍNH
TOÁN CHO VSD 19
4.1 Giới thiệu ............................................................................................... 19
4.2 Kết hợp đặc trưng ................................................................................... 20
4.2.1 Kết hợp đặc trưng trước khi huấn luyện (early fusion) ..................... 20
4.2.2 Kết hợp kết quả phân loại của các đặc trưng sau khi huấn luyện (late fusion)
20
4.3 Lựa chọn đặc trưng ................................................................................. 21
4.3.1 Giới thiệu ........................................................................................ 21
4.3.2 Phân tích kết quả từng loại đặc trưng riêng ...................................... 21
4.3.3 Đánh giá kết quả lựa chọn ............................................................... 21
4.4 Tối ưu tài nguyên tính toán ..................................................................... 22
4.4.1 Giới thiệu ........................................................................................ 22
4.4.2 Môi trường tính toán ....................................................................... 24
4.4.3 Chi phí rút trích đặc trưng ............................................................... 24
4.4.4 Đánh giá kết quả.............................................................................. 24
4.5 So sánh kết quả giữa các nhóm nghiên cứu ............................................. 25
4.6 Phân tích đánh giá .................................................................................. 26
4.7 Kết luận.................................................................................................. 26

Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...................26
5.1
5.2

Những kết quả đạt được.......................................................................... 26
Hướng phát triển .................................................................................... 26

DANH MỤC CÔNG TRÌNH ...........................................................26

ii



PHẦN MỞ ĐẦU
1) Giới thiệu động lực nghiên cứu và định hướng nghiên cứu
Trong những năm qua, với sự bùng nổ của các kênh thông tin truyền thông đa phương tiện,
mỗi ngày có hàng ngàn, hàng triệu video được chia sẻ qua mạng Bên cạnh những thông tin giải
trí, các kiến thức bổ ích, các kênh thông tin truyền thông đa phương tiện còn có rất nhiều nội
dung ảnh hưởng tiêu cực đến giới trẻ cần kiểm soát chặt chẽ (phim khiêu dâm, các nội dung bạo
lực…), đặc biệt khi đối tượng xem là thanh thiếu niên và trẻ nhỏ. Tác động của những nội dung,
thông tin không tốt có ảnh hưởng tiêu cực đến hành vi của giới trẻ. Trong khuôn khổ của luận án
này, chúng tôi hướng tới việc giải quyết bài toán phát hiện thông tin bạo lực trong dữ liệu video
(VSD – Violent Scenes Detection [21]).

2) Mục đích, đối tượng và phạm vi nghiên cứu của luận án
Đầu vào của một hệ thống phát hiện thông tin bạo lực là một (hoặc nhiều) bộ phim, video
clip. Hệ thống sẽ tự động phát hiện và gán nhãn các phân đoạn bạo lực trong phim, video clip.
• Đối tượng nghiên cứu:
Đối tượng nghiên cứu trong luận án này là các cảnh chứa thông tin bạo lực và các phương
pháp phát hiện thông tin bạo lực trong dữ liệu video. Thông tin bạo lực bao gồm các đối
tượng, cảnh, hành động, hành vi bạo lực gây ra sự tổn thương cho con người. Cảnh bạo
lực được định nghĩa theo WHO1 trong bộ dữ liệu [24]:
o Cảnh chứa các thông tin bạo lực không nên cho trẻ dưới 8 tuổi xem.
o Thông tin bạo lực: các đối tượng, cảnh, hành động, sự kiện đe dọa hoặc làm
tổn thương đến con người.
• Mục đích nghiên cứu:
Nghiên cứu và phát triển các phương pháp khai thác và biểu diễn thông tin bạo lực bằng
các mô hình đặc trưng trên máy tính, phục vụ cho việc đánh giá mức độ bạo lực của các
cảnh trong video với độ chính xác cao.
• Phạm vi nghiên cứu:
o Sử dụng định nghĩa cảnh bạo lực, thông tin bạo lực trong video theo WHO.

o Phương pháp rút trích và biểu diễn đa đặc trưng thông tin bạo lực.
o Đánh giá trên bộ dữ liệu chuẩn được cung cấp bởi MediaEval, bao gồm các phim
Hollywood [76], với đầu vào là các bộ phim và đầu ra là các cảnh được đánh giá
mức độ bạo lực.

3) Ý nghĩa khoa học và thực tiễn của luận án
Về mặt khoa học, luận án tập trung đánh giá các mô hình đặc trưng trên nhiều kênh thông
tin (kênh thông tin thị giác khai thác trên từng khung ảnh hoặc chuỗi khung ảnh - video, kênh âm
thanh) để biểu diễn cảnh bạo lực. Từ đó, xác định các loại đặc trưng phù hợp và đề xuất phương
pháp kết hợp các đặc trưng cho bài toán phát hiện thông tin bạo lực. Kết quả của nghiên cứu này
giúp các nhóm nghiên cứu có cơ sở lựa chọn các đặc trưng phù hợp theo yêu cầu, làm nền tảng
cho việc cải tiến độ chính xác, chi phí tính toán trong các nghiên cứu về sau, tiết kiệm thời gian
thử nghiệm lại từng loại đặc trưng.
Về mặt thực tiễn, mô hình hệ thống và các đánh giá thực nghiệm là nền tảng để phát triển
các ứng dụng phát hiện thông tin bạo lực, kiểm duyệt phim, xếp hạng các bộ phim theo mức độ
bạo lực một cách tự động (rating), kiểm duyệt thông tin bạo lực trên các kênh truyền thông đa
phương tiện trên Internet.

1

/>
1


4) Các đóng góp chính của luận án
Bài toán phát hiện cảnh bạo lưc trong video (VSD - Violent Scene Detection) là một dạng
bài toán phát hiện sự kiện (MED - Multimedia Event Detection), trong đó thách thức lớn nhất
của dạng bài toán này là tính ngữ nghĩa và độ phức tạp cao thể hiện qua sự xuất hiện của các đối
tượng, người, cảnh vật và tương tác giữa chúng. Để giải quyết các vấn đề này, hướng tiếp cận kết
hợp đa đặc trưng đã được chứng minh là phổ biến và hiệu quả cho bài toán MED. Do đó, đây

cũng là hướng tiếp cận được dùng để giải quyết bài toán VSD trong luận án này.
Thách thức chính đối với hướng tiếp cận đa đặc trưng đó là số lượng đặc trưng nhiều, độ
phức tạp tính toán và hiệu quả của mỗi đặc trưng khác nhau. Do đó, mục tiêu của luận án là tìm
một tập đặc trưng vừa đủ (compact) sao cho độ chính xác của hệ thống cao trong khi chi phí tính
toán thấp. Để hiện thực mục tiêu này, một framework đã được thiết kế để cho phép đánh giá nhiều
loại đặc trưng từ nhiều modal khác nhau (như ảnh, video, âm thanh), và một thuật toán đơn giản
nhưng hiệu quả đã được đề xuất để kết hợp các loại đặc trưng sao cho thỏa mãn ràng buộc cân
bằng giữa độ chính xác và chi phí tính toán. Hệ thống đề xuất đã được đánh giá trên tập dữ liệu
chuẩn (public benchmark) cho bài toán này, và cho kết quả tốt nhất so với các phương pháp kết
hợp đa đặc trưng khác. Đây là đóng góp quan trọng nhất của luận án và đã được công bố trên tạp
chí MTA [CT1] và hội nghị SoCPaR [CT3].
Bên cạnh việc phân loại cảnh bạo lực, luận án cũng đề xuất cách biểu diễn cảnh bạo lực
sử dụng đặc trưng cấp cao dựa trên các thuộc tính liên quan đến bạo lực. Việc sử dụng các đặc
trưng cấp thấp chỉ giúp phân loại khái niệm mà chưa thể giải quyết các bài toán có mức độ ngữ
nghĩa cao như VSD. Khác với các hướng tiếp cận sử dụng đặc trưng cấp cao thường được sử
dụng trong việc phân loại khái niệm, luận án đề xuất thiết kế đặc trưng cấp cao giúp bổ sung minh
chứng liên quan đến cảnh bạo lực (ví dụ: cảnh bạo lực có đánh nhau, có máu và người bị thương
hay cảnh cháy nổ có thương vong) giúp giảm khoảng cách ngữ nghĩa và tính chủ quan của khái
niệm. Quá trình thiết kế và đánh giá đặc trưng cấp cao dựa trên thuộc tính được công bố trong
[CT4] và được trình bày trong Chương 3 của luận án.
Với tính ngữ nghĩa cao và sự đa dạng về mặt thể hiện của khái niệm bạo lực, để khai thác
toàn diện thông tin liên quan đến cảnh bạo lực trong biểu diễn và nhận dạng, chúng tôi đề xuất
mô hình kết hợp đa đặc trưng dựa trên sự chọn lọc các đặc trưng phù hợp và có tính bổ trợ cao.
Tuy nhiên, với khối lượng thông tin lớn trong video, việc kết hợp nhiều đặc trưng sẽ dẫn tới thách
thức về tài nguyên tính toán. Để hạn chế thách thức này, chúng tôi đề xuất các mô hình kết hợp
đa đặc trưng tối ưu theo tài nguyên, hướng đến việc triển khai một ứng dụng thực tiễn trong tương
lai. Kết quả được công bố trong [CT2] và được trình bày trong Chương 4 của luận án.
Trong quá trình nghiên cứu, chúng tôi cũng tham gia xây dựng các bộ dữ liệu và phương
pháp đánh giá chuẩn trong MediaEval Benchmarking VSD Error! Reference source not f
ound.[CT9], đồng thời cũng phát triển hệ thống và gửi kết quả đánh giá trong hội thảo MediaEval

VSD hàng năm [CT5][CT7][CT6]. Quá trình tham gia xây dựng bộ dữ liệu được trình bày chi
tiết trong Chương 1 của luận án. Dựa trên các kết quả nghiên cứu, chúng tôi đã xây dựng hệ thống
hỗ trợ phát hiện thông tin bạo lực (lọt vào chung kết cuộc thi Nhân Tài đất Việt 2014) và đã đăng
ký giải pháp hữu ích để bảo hộ cho hệ thống được đề xuất tại Việt Nam.

5) Bố cục luận án







Luận án được bố cục theo các chương mục như sau:
PHẦN MỞ ĐẦU
CHƯƠNG 1: TỔNG QUAN
CHƯƠNG 2: ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC CHO BÀI
TOÁN VSD
CHƯƠNG 3: ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD
CHƯƠNG 4: KẾT HỢP ĐA ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUYÊN TÍNH TOÁN
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
2


Chương 1. TỔNG QUAN
Trong chương này, chúng tôi giới thiệu về bài toán giải quyết trong luận án: Phát hiện
thông tin bạo lực trong video; tầm quan trọng và các thách thức khi giải quyết bài toán này. Sau
đó, chúng tôi giới thiệu sơ lược về các cách tiếp cận được sử dụng rộng rãi hiện nay được kế
thừa từ bài toán phát hiện sự kiện trong video; từ đó, giới thiệu hướng tiếp cận của chúng tôi khi
thực hiện luận án này. Bên cạnh đó, chúng tôi cũng trình bày kiến trúc hệ thống được chúng tôi

xây dựng để thực hiện các thí nghiệm cho luận án và giới thiệu quá trình tham gia xây dựng bộ
dữ liệu chuẩn cho bài toán phát hiện thông tin bạo lực Error! Reference source not found.[CT9].

1.1 Giới thiệu bài toán
Bài toán VSD được giải quyết dưới dạng bài toán học có giám sát (supervised learning
methods) tổ chức qua hai giai đoạn ngoại tuyến (huấn luyện mô hình) và giai đoạn trực tuyến
(đánh giá kết quả). Hệ thống VSD với hai giai đoạn được minh họa trong Hình 1.1:
Giai đoạn huấn luyện (Offline )
Dữ liệu huấn luyện

Rút trích đặc trưng
0

0

1

1

0

0

1

1

ct r đặc trưng

Huấn luyện


Mô hình

0

0

Video được gán nhãn
1: bạo lực
0: không bạo lực

Giai đoạn kiểm tra (Online)
Kết quả đánh giá

Dữ liệu kiểm tra

Rút trích đặc trưng

ct r đặc trưng

Phân lớp

0

1

1

1


0

0

0

1

Phát hiện thông tin bạ lực tr ng dữ liệu id

0

1

0

0

1

0

0

1

D/S phân đoạn được
gán nhãn bạo lực

Hình 1.1 Hai giai đoạn trong hệ thống hỗ trợ phát hiện thông tin bạo lực

Hệ thống VSD được tổ chức thành hai giai đoạn như mô tả trong Hình 1.1. Ở giai đoạn đầu
(thực hiện ngoại tuyến - offline), dựa vào các dữ liệu huấn luyện được gán sẵn các nhãn bạo lực,
hệ thống tiến hành rút trích và biểu diễn các đặc trưng trên máy tính từ dữ liệu video đầu vào, sau
đó sẽ sử dụng các phương pháp học giám sát để huấn luyện mô hình máy học có khả năng đánh
giá, phân loại khái niệm bạo lực. Ở giai đoạn tiếp theo (thực hiện trực tuyến - online), hệ thống
sẽ sử dụng các mô hình huấn luyện ở bước đầu để tiến hành đánh giá các dữ liệu cần kiểm tra.
Trong phạm vi của luận án, chúng tôi sẽ tập trung chính vào bước rút trích và biểu diễn đặc trưng
trên máy tính cho khái niệm bạo lực.
Trong phạm vi luận án, bài toán VSD được đặc tả cụ thể như sau:
Vấn đề 1.1: Bài toán phát hiện thông tin bạo lực tổng quát
Đầu vào:
• Cho V là tập hợp gồm 𝑛 video: 𝑉 = {𝑣1 , 𝑣2 , . . , 𝑣𝑛 } với 𝑣𝑖 ∈ 𝑉𝑖𝑑𝑒𝑜,
1≤ 𝑖 ≤ 𝑛
𝑖 },
• Mỗi video 𝑣𝑖 là một tập hợp các phân đoạn 𝑣𝑖 = {𝑠1𝑖 , 𝑠2𝑖 , … , 𝑠𝑚
với 𝑚 là số
phân đoạn trong video 𝑣𝑖
• ℎ là hàm rút trích biểu diễn đặc trưng :
ℎ: ℕ𝐻×𝑊×𝐿 ⟶ ℝ𝐷 ,
𝐻, 𝑊 là chiều cao và rộng của khung ảnh
𝑠𝑗𝑖 ⟼ ℎ(𝑠𝑗𝑖 ),
𝐿 là số khung ảnh trong phân đoạn
𝐷 là chiều dài của vector đặc trưng
• 𝑡 là hàm phân lớp:
𝑡: ℝ𝐷 ⟶ ℤ2 = {0,1},

3


ℎ(𝑠𝑗𝑖 ) ⟼ 𝑙𝑗𝑖

𝑙𝑗𝑖 là nhãn của phân đoạn thứ 𝑗 trong
video
𝑣𝑖 có giá trị 0 = không bạo lực, 1= bạo lực.
Đầu ra:
• Với mỗi video 𝑣𝑖 ∈ 𝑉, kết quả nhận được là tập các phân đoạn được gán
𝑖
𝑖
nhãn bạo lực 𝑟𝑒𝑠𝑢𝑙𝑡𝑖 = {(𝑠1𝑖 , 𝑙1𝑖 ), (𝑠2𝑖 , 𝑙2𝑖 ), … , (𝑠𝑚
, 𝑙𝑚
)}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑙𝑗𝑖 = {0,1}.
Bài toán cần giải quyết:




𝑡

𝑠𝑗𝑖 → ℎ(𝑠𝑗𝑖 ) → 𝑙𝑗𝑖 , trong đó chúng tôi tập trung vào giải quyết việc biểu
diễn đặc trưng của khái niệm bạo lực (hàm ℎ).

1.2 Các thách thức
Bài toán phát hiện thông tin bạo lực trong dữ liệu video là một dạng của bài toán phát
hiện sự kiện. Đây là bài toán có nhiều thách thức, nên các kết quả hiện tại vẫn còn chưa đáp ứng
được nhu cầu thực tế [21].
a) Tính đa dạng, đa thể hiện của khái niệm bạo lực là một trong những thách thức lớn
của bài toán VSD. Theo định nghĩa từ MediaEval và WHO2, cảnh bạo lực là cảnh có
những hành động gây ra sự thương vong cho con người [75].
b) Tính ngữ nghĩa cao: bên cạnh sự thể hiện đa dạng, khái niệm bạo lực phụ thuộc rất
nhiều vào nhận định chủ quan của con người. Tùy thuộc vào lứa tuổi, văn hóa, quan
điểm bạo lực của mỗi người sẽ nhận định khái niệm bạo lực khác nhau.

c) Tài nguyên: việc xử lý trên dữ liệu video đòi hỏi tài nguyên lưu trữ và tính toán lớn.
Ví dụ để xử lý rút trích đặc trưng cho một giờ video, nếu sử dụng đặc trưng trên khung
ảnh, chúng ta phải rút trích và xử lý 90.000 khung ảnh (25 khung ảnh/ giây).
d) Dữ liệu cho bài toán học giám sát: với đặc tính ngữ nghĩa cao, việc xây dựng bộ dữ
liệu huấn luyện dựa trên khái niệm được định nghĩa cũng là một thách thức.

1.3 Tổng quan các hướng tiếp cận và các công trình liên quan
Phát hiện thông tin bạo lực là một dạng của bài toán phát hiện sự kiện trong video. Thông
thường, mỗi sự kiện có nhiều thể hiện đa dạng, mang tính ngữ nghĩa cao nên các hướng tiếp cận
đều sử dụng kết hợp đa đặc trưng để biểu diễn sự kiện, tuy nhiên chưa có nhiều nghiên cứu tương
tự cho bài toán phát hiện thông tin bạo lực. Kể từ sau năm 2011, khi MediEval và công ty
Technicolor đưa ra bộ dữ liệu MediaEval VSD[76], nhiều nhóm nghiên cứu đã cùng tham gia
giải quyết bài toán trên bộ dữ liệu chuẩn này.
1.3.1 Các hướng tiếp cận chung cho bài toán phát hiện sự kiện
Bài toán phát hiện thông tin bạo lực trong video là dạng bài toán phát hiện sự kiện trong
dữ liệu đa phương tiện (MED - multimedia event detection) đang phổ biến hiện nay. Bài toán
phát hiện thông tin bạo lực của MediEval mà luận án đang giải quyết được xây dựng trên dữ liệu
phim Hollywood (video dài, được biên tập nội dung, có độ phân giải cao và nhiều kỹ xảo) và tính
ngữ nghĩa của khái niệm cao hơn.
1.3.2 Các hướng tiếp cận đa đặc trưng cho bài bài toán VSD
Đặc điểm chung của các công trình trong giai đoạn này là sử dụng các khái niệm liên quan
đến bạo lực để thay thế cho khái niệm bạo lực. Việc sử dụng các định nghĩa mang tính chủ quan
cao không giải quyết bài toán một cách tổng quát và mất đi sự thể hiện đa dạng của khái niệm,
phạm vi và độ phức tạp của bài toán cũng giảm đáng kể.
Từ năm 2011, khi MediaEval VSD phát triển định nghĩa hình thức của khái niệm bạo lực
và công bố kèm bộ dữ liệu chuẩn, nhiều nhóm nghiên cứu trên thế giới đã tham gia vào MediaEval
VSD qua các năm và nhiều công trình đã được công bố [21]. Các hướng tiếp cận chung của các
bài toán là việc áp dụng đa đặc trưng trên nhiều kênh thông tin từ ảnh, âm thanh, video và các
cách kết hợp đặc trưng sao cho hiệu quả. Các nhóm nghiên cứu thường công bố kết quả của việc


2

/>
4


sử dụng đặc trưng nhưng không công bố cấu hình các đặc trưng sử dụng, cũng như các kết quả
công bố thường được kết hợp (fusion) giữa nhiều loại đặc trưng khác nhau nên rất khó để đánh
giá kết quả của từng loại đặc trưng riêng biệt. Khác với các công trình nghiên cứu khác, luận án
đánh giá một cách hệ thống từng loại đặc trưng và cách kết hợp hiệu quả cho bài toán VSD.
1.3.3 Các hướng tiếp cận sử dụng đặc trưng cấp cao
Bên cạnh các hướng tiếp cận biểu diễn bằng đặc trưng cấp thấp, chúng ta cần những cách
tiếp cận giàu ngữ nghĩa cho việc biểu diễn cảnh bạo lực. Một số cách tiếp cận sử dụng thuộc tính
(attributes) để giải quyết các bài toán nhận dạng đối tượng (như Object Bank [48]), phân lớp cảnh
sử dụng thuộc tính là các đối tượng như [49], nhận dạng hành động bằng cách sử dụng ngân hàng
các hành động như [71]. Đặc điểm chung của các công trình trước đây sử dụng các thuộc tính
biểu diễn cho cảnh, hành động đơn giản, chưa mang tính ngữ nghĩa cao như các sự kiện (liên
quan đến nhiều thể hiện, nhiều cảnh, hành vi khác nhau). Trong luận án này, chúng tôi chọn cách
tiếp cận thiết kế một đặc trưng cấp cao dựa trên các thuộc tính liên quan để biểu diễn cảnh bạo
lực. Đây là cách tiếp cận sử dụng đặc trưng cấp cao đầu tiên cho bài toán MediaEval VSD.
1.3.4 Các hướng tiếp cận kết hợp đặc trưng
Đối với bài toán VSD, việc sử dụng kết hợp nhiều đặc trưng đã chứng minh hiệu quả, tuy
nhiên hiện tại đa số các công trình đều tập trung vào việc lựa chọn đặc trưng mà không quan tâm
đến chi phí tính toán của các loại đặc trưng này[75]. Khác với các công trình liên quan, chúng tôi
tiến hành lựa chọn các đặc trưng phù hợp cho việc kết hợp, đánh giá lại các phương thức kết hợp
đặc trưng (kết hợp sớm, kết hợp trễ, kết hợp trên phân đoạn) cho bài toán phát hiện thông tin bạo
lực trên bộ dữ liệu của MediaEval VSD. Ngoài ra chúng tôi cũng xác định chi phí tính toán trong
việc rút trích các loại đặc trưng, từ đó đề xuất các bộ cấu hình đặc trưng tối ưu trong điều kiện
hạn chế tài nguyên tính toán, các đánh giá và đề xuất này là cơ sở để triển khai các ứng dụng
trong thế giới thực.


1.4 Giới thiệu hướng tiếp cận của luận án
1.4.1 Giới thiệu kiến trúc tổng quan
Chúng tôi xây dựng hệ thống hỗ trợ phát hiện thông tin bạo lực trên nền tảng tham khảo
các hệ thống hỗ trợ phát hiện sự kiện [40], [65], [96]. Hệ thống chúng tôi xây dựng có khả năng
rút trích các đặc trưng trên nhiều kênh thông tin. Bên cạnh đó, hệ thống cũng được thiết kế để
thực hiện các tính toán song song trên hệ thống GRID Computing.
Kiến trúc hệ thống được minh họa trong Hình 1.2 bên dưới.
Dữ liệu
huấn luyện
0

0

1

1

0

0

TIỀN XỬ LÝ

1

1

Dữ liệu
đánh giá


0

0

BIỂU DIỄN ĐẶC TRƯNG

HUẤN LUYỆN VÀ ĐÁNH
GIÁ

PHÂN ĐOẠN
RÚT TRÍCH
KHUNG ẢNH

CHUẨN HÓA
KÍCH THƯỚC

RÚT
TRÍCH
ĐẶC
TRƯNG


HÓA
ĐẶC
TRƯNG

HUẤN
LUYỆN


HÌNH

ĐÁNH
GIÁ/
PHÂN
LỚP

TỔNG HỢP KẾT QUẢ

KẾT
HỢP
KẾT
QUẢ

HẬU XỬ

TĂNG
ĐỘ
CHÍNH
XÁC

Hình 1.2. Kiến trúc tổng quan của hệ thống hỗ trợ phát hiện thông tin bạo lực
Bước 1 - Tiền xử lý dữ liệu
Dữ liệu đầu vào của bài toán VSD thường là các phim hoặc video clip có chiều dài khác
nhau. Mục tiêu của bài toán là xác định các phân đoạn có chứa thông tin bạo lực, vì vậy ở bước
đầu tiên hệ thống sẽ thực hiện: (1) Phân chia video thành các phân đoạn; (2) trích khung ảnh từ
các phân đoạn (3) chuẩn hóa kích thước.
Cụ thể bước tiền xử lý dữ liệu được đặc tả tổng quát như sau:
1.4.2


Bước 1: Tiền xử lý dữ liệu
Đầu vào:
• Danh sách video 𝑉 = {𝑣1 , 𝑣2 , . . , 𝑣𝑛 } với 𝑣𝑖 ∈ 𝑉, 1 ≤ 𝑖 ≤ 𝑛

5


• Độ dài của một phân đoạn ∆𝑓𝑟𝑎𝑚𝑒𝑠
• Số lượng khung ảnh 𝑛𝑓𝑟𝑎𝑚𝑒 rút trích trên 1 giây
• Kích thước khung ảnh 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ
Đầu ra:
𝑖
}.
• Danh sách các phân đoạn của từng video 𝑣𝑖 : 𝑆𝑖 = {𝑠1𝑖 , 𝑠2𝑖 , … , 𝑠𝑛𝑆ℎ𝑜𝑡
𝑖
• Danh sách các khung ảnh cho từng phân đoạn 𝑠𝑗 ,
𝑖
𝑖
𝑠𝑗𝑖 = {𝑓𝑗,𝑘
: 𝑓𝑗,𝑘
∈ ℕ𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 ×ℎ , 𝑘 = 1, 𝑛𝐾𝐹𝑗𝑖 }, 𝑘 là thứ tự khung ảnh trong phân

Thuật











đoạn 𝑠𝑗𝑖 có 𝑛𝐾𝐹𝑗𝑖 khung ảnh, 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ là chiều rộng và chiều cao của
khung ảnh sau khi được giảm kích thước.
toán:
Bước 1:
Loop duyệt qua từng video 𝑣𝑖
Bước 1.1:
Chia video thành các phân đoạn có độ dài ∆𝑓𝑟𝑎𝑚𝑒𝑠
Bước 1.2:
Loop duyệt qua từng phân đoạn 𝑠𝑖
Bước 1.2.1:
Rút trích theo tỷ lệ 𝑛𝑓𝑟𝑎𝑚𝑒 / 𝑔𝑖â𝑦
Bước 1.2.2:
Giảm kích thước khung ảnh về 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ
Bước 1.2.3:
Loại bỏ khung ảnh có dãy màu đồng nhất
End Loop
Bước 1.3:
Tạo danh sách khung ảnh cho phân đoạn 𝑠𝑖
End Loop
Bước 2:
Trả về danh sách phân đoạn và các khung ảnh tương ứng cho
từng phân đoạn.

1.4.3 Bước 2 – Biểu diễn đặc trưng
Sau bước tiền xử lý dữ liệu, các đặc trưng thô được rút trích để tạo thành các vector đặc
trưng biểu diễn cho các ảnh. Đối với đặc trưng cục bộ, âm thanh và đặc trưng chuyển động, các
đặc trưng thô sau khi rút trích sẽ được chuẩn hóa bằng các kỹ thuật khác nhau (túi từ - Bag of

Words [88], hoặc Fisher Vector [66]).
Bước 2: Rút trích đặc trưng cho phân đoạn
Đầu vào:
𝑖
}
• Danh sách các phân đoạn của video 𝑣𝑖 : 𝑆𝑖 = {𝑠1𝑖 , 𝑠2𝑖 , … , 𝑠𝑛𝑆ℎ𝑜𝑡
𝑖
• Danh sách các khung ảnh cho từng phân đoạn 𝑠𝑗 ,
𝑖
𝑖
𝑠𝑗𝑖 = {𝑓𝑗,𝑘
: 𝑓𝑗,𝑘
∈ ℕ𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 ×ℎ , 𝑘 = 1, 𝑛𝐾𝐹𝑗𝑖 }, 𝑘 là thứ tự khung ảnh trong phân đoạn



Đầu ra:


Thuật







𝑠𝑗𝑖 có 𝑛𝐾𝐹𝑗𝑖 khung ảnh, 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ là chiều rộng và chiều cao của khung
ảnh sau khi được giảm kích thước.
Sử dụng hàm rút trích đặc trưng ℎ để tạo Vector đặc trưng cho từng

phân đoạn.
ℎ(𝑠𝑗𝑖 ) = 𝑠𝑓𝑗𝑖 , 𝑠𝑓𝑗𝑖 ∈ ℝ𝐷 , với 𝐷 là số chiều của vector đặc trưng.

Tập vector đặc trưng 𝑋𝑖 cho các phân đoạn trong video 𝑣𝑖 :
𝑖
𝑋𝑖 = {𝑠𝑓1𝑖 , 𝑠𝑓2𝑖 , … 𝑠𝑓𝑛𝑆ℎ𝑜𝑡
}, với 𝑠𝑓𝑗𝑖 là phân đoạn thứ 𝑗 trong video 𝑣𝑖 có tổng
cộng 𝑛𝑆ℎ𝑜𝑡.
toán:
Bước 1:
Loop qua từng phân đoạn 𝑠𝑗𝑖
Bước 1.1:
Rút trích đặc trưng thô trên khung ảnh
Bước 1.2:
Mã hóa đặc trưng (BoW, FV
Bước 1.3:
Pooling (max, avg) các đặc trưng trên khung
ảnh  đặc trưng cho Phân đoạn 𝑠𝑗𝑖
End Loop
Bước 2:
Trả về danh sách đặc trưng của các phân đoạn.

6


1.4.4 Bước 3 - Huấn luyện mô hình/ đánh giá
1.4.4.1 Huấn luyện mô hình
Bài toán phát hiện thông tin bạo lực là một dạng bài toán học có giám sát (supervised
learning). Trong luận án chúng tôi sử dụng phương pháp phổ biến là vector hỗ trợ (Support
Vector Machines - SVM[87]).

Bước 3a: Huấn luyện mô hình phân loại khái niệm
Đầu vào:
• Tập vector đặc trưng 𝑋𝑖 cho các phân đoạn trong video 𝑣𝑖 trong tập
huấn luyện:
𝑖
𝑋𝑖 = {𝑠𝑓1𝑖 , 𝑠𝑓2𝑖 , … 𝑠𝑓𝑛𝑆ℎ𝑜𝑡
}, với 𝑠𝑓𝑗𝑖 là phân đoạn thứ 𝑗 trong video 𝑣𝑖 có tổng
cộng 𝑛𝑆ℎ𝑜𝑡.
• Cho G là tập huấn luyện với dữ liệu mẫu (ground truth): 𝐺 = {𝐺1 , 𝐺2 , . . , 𝐺𝑛 }
mô tả nhãn kết quả của các phân đoạn trong video:
𝑖
𝑖
G𝑖 = {(𝑠1𝑖 , 𝑙1𝑖 ), (𝑠2𝑖 , 𝑙2𝑖 ), … , (𝑠𝑚
, 𝑙𝑚
)}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑙𝑗𝑖 = {0,1}.
o Nhãn 𝑙𝑗𝑖 = {0,1} của phân đoạn j trong video 𝑣𝑖 có giá trị (1 hoặc
0), tương ứng với việc phân đoạn này có được xem là bạo lực (1)
hay không (0).
Đầu ra:
• Hàm phân lớp 𝑡: ℝ𝐷 ⟶ ℤ2 = {0,1} , trong đó D là số chiều của vector đặc
trưng.
• Hoặc hàm phân lớp với đầu ra xác suất 𝑡: ℝ𝐷 ⟶ ℤ = [0,1], trong đó giá
trị càng gần 1 là xác suất bạo lực càng cao.

1.4.4.2 Đánh giá kết quả
Bước 3b: Đánh giá kết quả
Đầu vào:
• Tập vector đặc trưng 𝑋𝑖 cho các phân đoạn trong video 𝑣𝑖 trong tập
kiểm tra:
𝑖

}, với 𝑠𝑓𝑗𝑖 là phân đoạn thứ 𝑗 trong video 𝑣𝑖 có tổng
𝑋𝑖 = {𝑠𝑓1𝑖 , 𝑠𝑓2𝑖 , … 𝑠𝑓𝑛𝑆ℎ𝑜𝑡
cộng 𝑛𝑆ℎ𝑜𝑡.
• Hàm phân lớp với đầu ra xác suất 𝑡: ℝ𝐷 ⟶ ℤ = [0,1].
Đầu ra:
• Với mỗi video 𝑣𝑖 ∈ 𝑉, kết quả nhận được là tập các phân đoạn được
đánh giá xác suất (hay còn gọi là mức độ) bạo lực: 𝑟𝑒𝑠𝑢𝑙𝑡𝑖 =
𝑖
𝑖
{(𝑠1𝑖 , 𝑠𝑐𝑜𝑟𝑒1𝑖 ), (𝑠2𝑖 , 𝑠𝑐𝑜𝑟𝑒2𝑖 ), … , (𝑠𝑛𝑆ℎ𝑜𝑡
, 𝑠𝑐𝑜𝑟𝑒𝑛𝑆ℎ𝑜𝑡
)}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑠𝑐𝑜𝑟𝑒𝑗𝑖 = [0,1], với
𝑠𝑐𝑜𝑟𝑒𝑗𝑖 càng gần 1 thì càng bạo lực.

1.4.5 Bước 4 - Kết hợp kết quả
Do đặc trưng ngữ nghĩa cao và thể hiện đa dạng của bài toán phát hiện sự kiện nói chung
và bài toán phát hiện thông tin bạo lực nói chung, việc kết hợp sử dụng nhiều loại đặc trưng trên
các kênh thông tin khác nhau sẽ giúp tăng khả năng phân loại thông tin trong biểu diễn khái niệm.
Ở bước này chúng tôi tiến hành thực hiện: (1) kết hợp sớm các đặc trưng (early fusion): kết hợp
đặc trưng khung ảnh, kết hợp các bộ mô tả; (2) kết hợp trễ trên danh sách kết quả (late fusion):
lựa chọn đặc trưng kết hợp, hậu xử lý trên danh sách kết quả, tối ưu bộ kết hợp theo tài nguyên
tính toán.
1.4.6 Song song hóa việc rút trích đặc trưng
Để rút ngắn thời gian tính toán, chúng tôi đã thiết kế lại hệ thống VSD để chạy trên hệ
thống tính toán lưới GRID Computing (gồm ~500 Cores).

1.5 Đánh giá độ phức tạp của kiến trúc hệ thống
Ở bước tiền xử lý dữ liệu: chi phí tính toán phụ thuộc chủ yếu vào phương pháp chia phân
đoạn và tỷ lệ lấy mẫu khung ảnh trong một giây.. Tổng chi phí tính toán ở bước tiền xử lý dữ liệu
là:

7


𝑂(𝑛) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛

(1.1)

Ở bước rút trích và biểu diễn đặc trưng: chi phí tính toán của các đặc trưng toàn cục không
đáng kể so với việc rút trích đặc trưng cục bộ và đặc trưng chuyển động. Độ phức tạp ở bước rút
trích đặc trưng là (cả hai giai đoạn: rút trích và mã hóa):
𝑂(𝑛. 𝑚 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔

(1.2)

Đối với công đoạn huấn luyện và kiểm tra, độ phức tạp và thời gian thực hiện phụ thuộc
vào độ phức tạp của SVM. Độ phức tạp của bước huấn luyện là:
𝑂(𝑛. 𝑚2 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔

(1.3)

Ở bước kiểm tra, mô hình SVM sử dụng lõi tuyến tính có độ phức tạp là 𝑂(𝐷), trong khi
mô hình SVM sử dụng lõi 𝜒 2 có độ phức tạp ở bước kiểm tra là 𝑂(𝑛𝑠𝑣 𝐷), trong đó 𝑛𝑠𝑣 là số lượng
support vector [13]. Như vậy độ phức tạp của bước kiểm tra là 𝑂(𝑛𝑡𝑒𝑠𝑡𝑆ℎ𝑜𝑡 𝑛𝑐𝑙𝑢𝑠𝑡𝑒𝑟𝑠 𝑥𝑦), trong
đó 𝑛𝑡𝑒𝑠𝑡𝑆ℎ𝑜𝑡 là số tượng phân đoạn cần đánh giá trong bộ dữ liệu kiểm tra.
Ở bước kết hợp kết quả, độ phức tạp của việc kết hợp trễ là 𝑂(𝑛𝑡𝑒𝑠𝑡𝑆ℎ𝑜𝑡 . 𝑛𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑠 ), trong
đó 𝑛𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑠 là số lượng các đặc trưng trong bộ kết hợp.
Như vậy độ phức tạp của toàn bộ kiến trúc hệ thống (không tính các công đoạn huấn luyện
codebook trong mô hình Bow và FV) ở gian đoạn huấn luyện mô hình được tính như sau:
𝑂(𝑛. 𝑚2 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛 ℎ𝑢ấ𝑛 𝑙𝑢𝑦ệ𝑛, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔


(1.4)

Ở giai đoạn kiểm tra đánh giá, độ phức tạp được tính như sau:
𝑂(𝑛. 𝑚 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛 đá𝑛ℎ 𝑔𝑖á, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔

(1.5)

1.6 Bộ dữ liệu MediaEval
Nhằm tìm hiểu bài toán phát hiện thông tin bạo lực và có được bộ dữ liệu nghiên cứu
chuẩn, từ năm 2012 chúng tôi tham gia vào Ban tổ chức của hội thảo MediaEval và tham gia vào
nhóm xây dựng bộ dữ liệu MediaEval-VSD3.
1.6.1 Giới thiệu MediaEval
1.6.2 Giới thiệu bộ dữ liệu MediaEval-VSD
1.6.3 Thông tin bộ dữ liệu
Bộ dữ liệu MediaEval VSD được xây dựng lần đầu năm 2011 và phát triển đến năm 2014.
Tổng thời gian của toàn bộ Bộ dữ liệu MediaEval VSD là 63.55 giờ.
1.6.4 Các khái niệm được gán nhãn trong bộ dữ liệu
1.6.5 Nguyên tắc và quy trình xây dựng bộ dữ liệu
1.6.6 Các độ đo
Từ năm 2013, Ban tổ chức MediaEval-VSD chuyển sang sử dụng các độ đo mAP (mean
Average Precision - độ chính xác trung bình).
𝑀𝐴𝑃2014 =

𝑉
𝑣=1 𝐴𝑃(𝑣)

𝑉

,


(1.6)

Trong đó V là số lượng video có trong bộ dữ liệu và AP độ chính xác trung bình cho từng video.
Bên cạnh đó, Ban tổ chức cũng sử dụng MAP2014-AT100, trong đó AP được tính bằng công
thức:

Bộ dữ liệu được công bố tại: />3

8


𝐴𝑃 =

𝑛
𝑘=1(𝑃 (𝑘 )×𝑟𝑒𝑙 (𝑘 ))

𝑛𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑠ℎ𝑜𝑡𝑠

,

(1.7)

Trong đó P(k) là độ chính xác của top k phân đoạn có độ bạo lực cao nhất.
1.6.7 Các đóng góp trong việc xây dựng bộ dữ liệu
Tác giả luận án đóng vai trò là trưởng nhóm gán nhãn dữ liệu ở VN, cụ thể thực hiện các
công việc sau:
• Tổ chức nhóm gán nhãn ở Việt Nam: gán nhãn 31 bộ phim, hơn 60h video cho
tổng cộng 12 khái niệm.
• Đóng vai trò master annotators ,tham gia BTC (định nghĩa khái niệm, độ đo,
kiểm duyệt tất cả các trường hợp chưa rõ)

• Tham gia viết bài công bố bộ dữ liệu CBMI 2014 [CT9], 2015Error! Reference s
ource not found.

1.7 Kết luận
Trong chương này, chúng tôi giới thiệu tổng quan bài toán phát hiện thông tin bạo lực,
các thách thức và đánh giá các hướng tiếp cận tổng quan của bài toán, từ đó đề xuất một kiến trúc
tổng quan chung để tiến hành các thực nghiệm cho bài toán phát hiện thông tin bạo lực. Quá trình
phát triển và cải tiến kiến trúc tổng quan hệ thống được thực hiện song song với việc tham gia và
xây dựng bộ dữ liệu MediEval VSD. Kết quả của quá trình xây dựng bộ dữ liệu được công bố
trong các công trình Error! Reference source not found.[CT9].

Chương 2. ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC
CHO BÀI TOÁN VSD
Trong chương này, chúng tôi sử dụng các loại đặc trưng cấp thấp được rút trích từ nhiều
kênh thông tin khác nhau để biểu diễn khái niệm bạo lực. Thông qua việc đánh giá một cách hệ
thống các cấu hình đặc trưng khác nhau, chúng tôi có thể tối ưu hóa các bộ tham số của các đặc
trưng nhằm tăng độ chính xác trong việc phát hiện thông tin bạo lực.
Bên cạnh các đặc trưng được thiết kế sẵn, chúng tôi đề xuất sử dụng các đặc trưng học sâu
của các mô hình được huấn luyện sẵn trong một số thư viện CNN có sẵn như Alexnet, UvANet,
VGGnet. Thông qua việc đánh giá các đặc trưng được rút trích từ nhiều mô hình mạng nơ-ron
tích chập phổ biến, chúng tôi đề xuất sử dụng các đặc trưng ở tầng kế cuối cho việc biểu diễn
thông tin bạo lực, các đặc trưng này đem lại độ chính xác cao cho bài toán phát hiện thông tin
bạo lực
Chúng tôi tiến hành thử nghiệm trên bộ dữ liệu của bài toán MediaEval-VSD. Mục đích chính
của việc thử nghiệm này là lựa chọn được bộ tham số tối ưu cho bài toán phát hiện thông tin bạo
lực. Kết quả của nội dung nghiên cứu này được công bố trên hội nghị SocPar2013[CT3], một
phần trong bài tạp chí MTA2016 [CT1] và hội thảo MediaEval 2013,2014,2015
[CT5][CT6][CT7].

2.1 Giới thiệu

Để biểu diễn sự đa dạng của thông tin bạo lực trên máy tính, chúng tôi tiến hành thử nghiệm
các loại đặc trưng trên các kênh thông tin khác nhau:
• Đặc trưng khung ảnh: để xác định các thông tin liên quan đến cảnh (scene detection)
chúng tôi dựa vào đề xuất của [57], [81], [100] để lựa chọn các đặc trưng toàn cục trong
việc đánh giá: color moments, color histogram, edge orientation histogram, and local
binary patterns; để xác định các thông tin liên quan đến đối tượng (object detection),
chúng tôi sử dụng đặc trưng cục bộ theo đề xuất của [8], [38]: SIFT, Color-SIFT, and
Opponent-SIFT. Các đặc trưng trên khung ảnh được kỳ vọng giúp xác định được các
thông tin bạo lực dạng đối tượng và cảnh
9








Đặc trưng chuyển động: trong video thường chứa nhiều hành động, hành vi liên quan
đến bạo lực. Các đặc trưng chuyển động là một trong những cách tiếp cận tiên tiến nhất
để có thể xác định các hành động trên video. Dựa trên khảo sát các công trình liên quan
đến bài toán phát hiện hành động [9], [41], [95] và phát hiện sự kiện [60], [64], chúng
tôi đề xuất sử dụng đặc trưng được cải tiến của Dense Trajectory [96], với các bộ mô tả
Motion Boundary Histogram (MBH), Histograms of Oriented Gradients (HoG), and
Histograms of Optical Flow (HoF). Các đặc trưng này tận dụng ưu điểm của video (dãy
liên tục các khung ảnh có liên quan với nhau) so với các đặc trưng trên khung ảnh.
Đặc trưng âm thanh: chúng tôi sử dụng để xác định các tín hiệu âm thanh liên quan
đến bạo lực, thông thường các tín hiệu âm thanh rất dễ phân biệt và khó nhầm lẫn trong
các cảnh bạo lực (ví dụ như tiếng gào thét, tiếng nổ, tiếng súng ...). Đặc trưng MFCC
[73] đã chứng minh được tính hiệu quả trong các bài toàn phát hiện sự kiện [10], [39],

[60] và bài toán VSD [1], [40], [62], [102].
Đặc trưng học sâu được rút trích từ nhiều mô hình mạng nơ-ron tích chập: việc
huấn luyện một mô hình CNN riêng cho việc xác định thông tin bạo lực đòi hỏi nguồn
dữ liệu huấn luyện lớn, điều này hiện chưa khả thi với các bộ dữ liệu VSD hiện tại. Trong
khuôn khổ nghiên cứu này, chúng tôi thử nghiệm các đặc trưng được rút trích từ các mô
hình học sâu CNN để biểu diễn khái niệm bạo lực. Giống như cách tiếp cận fine-tuning
cho các mô hình CNN, chúng tôi sử dụng đặc trưng được rút trích từ các tầng kết nối đầy
đủ cuối của các mô hình CNN để biểu diễn cho khái niệm bạo lực.

Vấn đề 2.1: đánh giá đặc trưng
Đầu vào:
• Cho ℱ = {𝑓1 , 𝑓2 , … , 𝑓𝑛 }là tập hợp các loại đặc trưng khác nhau, bao gồm:
o Đặc trưng trên khung ảnh (cục bộ, toàn cục, đặc trưng được
rút trích từ mô hình mạng nơ-ron tích chập)
o Đặc trưng chuyển động (chuyển động)
o Đặc trưng trên âm thanh
• Mỗi loại đặc trưng 𝑓𝑖 có 𝑓𝑚𝑖 tham số, trong đó tham số 𝑝𝑎𝑟𝑎𝑚𝑖,𝑘 có
miền giá trị là 𝔻𝑖,𝑘 (𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑛 𝑣à 1 ≤ 𝑘 ≤ 𝑚𝑖 ). Gọi 𝔊(𝑓𝑖 ) là tập hợp các
cấu hình khác nhau cho loại đặc trưng 𝑓𝑖 , cụ thể là:
𝔊(𝑓𝑖 ) = {(𝑣𝑖,1 , 𝑣𝑖,2 , … , 𝑣𝑖,𝑚𝑖 ) ∈ 𝔻𝑖,1 × 𝔻𝑖,2 × 𝔻𝑖,𝑚𝑖 }
• Ví dụ: với loại đặc trưng toàn cục 𝑓𝑖 , cấu hình chủ yếu gồm độ mịn
(granularity), không gian màu (color space) và lượng hóa
(quantization).
𝔊(𝑓𝑖 ) = {(𝑔𝑖 , 𝑐𝑖 , 𝑞𝑖 } với 𝑔𝑖 ∈ 𝔻granularity , 𝑐𝑖 ∈ 𝔻color 𝑠𝑝𝑎𝑐𝑒 , 𝑞𝑖 ∈ 𝔻𝑞𝑢𝑎𝑛𝑡𝑖𝑧𝑎𝑡𝑖𝑜𝑛
Đầu ra: cùng với các cấu hình
• Trong phạm vi vấn đề này, chúng tôi xét riêng từng loại đặc trưng
𝑓 ⊆ ℱ để tìm ra cấu hình tốt nhất 𝑐̂ (𝑓) ∈ 𝔊(𝑓) để đạt được kết quả
cao nhất trong việc phát hiện cảnh bạo lực trên video khi chỉ sử
dụng duy nhất một loại đặc trưng 𝑓 này.
• Gọi 𝑆𝑐𝑜𝑟𝑒(ϕ, 𝐶ϕ ) là độ chính xác đạt được khi đánh giá nhãn bạo lực

cho tập video 𝑉 sử dụng tập các loại đặc trưng ϕ ⊆ ℱ và tập cấu
hình 𝐶ϕ = {𝑐(𝑓𝑖 ) ∈ 𝔊(𝑓𝑖 ), ∀ 𝑓 ∈ ϕ}.
• Khi đó, mục tiêu của việc đánh giá để tìm cấu hình 𝑐̂ (𝑓) tốt nhất cho
từng loại đặc trưng 𝑓 ⊆ ℱ
• Đầu ra của việc đánh giá đặc trưng là các cấu hình tốt nhất 𝑐(𝑓) ∈
𝔊(𝑓) cho mỗi loại đặc trưng 𝑓 ⊆ ℱ

2.2 Đặc trưng cấp thấp
2.2.1 Các đặc trưng trên khung ảnh
2.2.1.1 Đặc trưng toàn cục
Chúng tôi sử dụng các đặc trưng về màu sắc, mẫu vân, góc cạnh, cụ thể là: color moments,
color histogram, edge orientation histogram, và local binary patterns [13], cùng với các cấu hình
10


khác nhau. Với loại đặc trưng toàn cục fi, cấu hình chủ yếu gồm độ mịn (granularity), không gian
màu (color space) và lượng hóa (quantization).
2.2.1.2 Đặc trưng cục bộ
Trong phần đánh giá các đặc trưng cục bộ, chúng tôi sử dụng đặc trưng thông dụng SIFT
và các đặc trưng SIFT mở rộng sử dụng thêm các thông tin màu: RGB-SIFT, Opponent-SIFT, và
C-SIFT [9] cùng với việc xác định các điểm đặc trưng bằng Hessian-Laplace [56] và lấy mẫu dày
(dense sampling) và chia khung ảnh thành các lưới n x m (không chồng lên nhau).
Thuật toán 2.1: Rút trích và mã hóa đặc trưng cục bộ dưới dạng BoW
Đầu vào:
• Danh sách các phân đoạn 𝑆 = {𝑠1 , 𝑠2 , . . , 𝑠𝑚 }
• Danh sách các khung ảnh cho từng phân đoạn 𝑠𝑖
• Tham số 𝑛𝑐𝑜𝑑𝑒𝑏𝑜𝑜𝑘 , 𝑛𝑠𝑎𝑚𝑝𝑙𝑒
• Tham số spatial pyramid (𝑥 × 𝑦) ∈ 𝔻granularity
Đầu ra:
• Vector đặc trưng cho từng phân đoạn.

Thuật toán:
• Bước 1:
Huấn luyện codebook
• Bước 1.1:
Rút trích ngẫu nhiên điểm 𝑛𝑠𝑎𝑚𝑝𝑙𝑒 đặc trưng
• Bước 1.2:
Rút trích bộ mô tả
• Bước 1.3:
Phân nhóm 𝑛𝑐𝑜𝑑𝑒𝑏𝑜𝑜𝑘 cluster bằng K-means
• Bước 1.4:
Tạo codebook
• Bước 2:
Loop từng khung ảnh trong DS khung ảnh của Phân đoạn 𝑠𝑖
• Bước 2.1:
Chia không gian khung ảnh theo (𝑥 × 𝑦)
• Bước 2.1:
Xác định các điểm đặc trưng 𝔻keypoint detector
• Bước 2.1:
Rút trích các bộ mô tả cục bộ
• Bước 2.1:
Phân nhóm vào 𝑛𝑐𝑜𝑑𝑒𝑏𝑜𝑜𝑘 cluster bằng phương thức
gán mềm.
• Bước 2.1:
Spatial Pyramid Pooling cho ảnh.
End Loop
• Bước 3:
Pooling các đặc trưng trên khung ảnh  đặc trưng cho Phân
đoạn

2.2.2 Đặc trưng chuyển động

Trong Thuật toán 2.2, đặc trưng chuyển động (Dense Trajectory[91]) được rút trích trực
tiếp trên video theo từng phân đoạn. Trong từng phân đoạn, để tiết kiệm không gian lưu trữ đặc
trưng thô trước khi được mã hóa, hệ thống tiến hành rút trích đặc trưng và phân nhóm vào các
cụm chứ không lưu trữ lại thông tin đặc trưng thô.
Thuật toán 2.2: Rút trích đặc trưng chuyển động và mã hóa Fisher Vector
Đầu vào:
• Tập hợp gồm n video: 𝑉 = {𝑣1 , 𝑣2 , . . , 𝑣𝑛 } với 𝑣𝑖 ∈ 𝑉𝑖𝑑𝑒𝑜, 1 ≤ 𝑖 ≤ 𝑛
• Danh sách các phân đoạn 𝑆 = {𝑠1 , 𝑠2 , . . , 𝑠𝑚 }
• Tham số 𝑛𝑠𝑐𝑎𝑙𝑒
• Tham số 𝑁 (vùng bao quanh Trajectory), 𝐿 (độ dài Trajectory)
• Tham số 𝑛𝜎 × 𝑛𝜎 × 𝑛𝜏
Đầu ra:
• Các biểu diễn Fisher Vector cho mỗi phân đoạn ℊ𝜆𝑋 ∈ ℝ𝐾(2𝐷+1)
• Vector đặc trưng cho từng phân đoạn.
Thuật toán:
• Bước 1:
Huấn luyện codebook
• Bước 1.1:
Rút trích ngẫu nhiên các điểm
• Bước 1.2:
Rút trích bộ mô tả
• Bước 1.3:
Phân nhóm bằng GMM
• Bước 1.4: Tạo codebook
• Bước 2:
Loop từng khung ảnh trong DS khung ảnh của Phân đoạn 𝑠𝑖
• Bước 2.1:
Xác định các điểm đặc trưng dense sampling

11












Bước
Bước
Bước
Bước
Bước
Bước

2.2:
2.3:
2.4:
2.5:
2.6:
2.7:

Bước 3:
đoạn

Theo vết Trajectory trong 𝐿 khung ảnh
Xác định vùng bao quanh điểm ảnh 𝑁 × 𝑁

Chia vùng bao quanh thành 𝑛𝜎 × 𝑛𝜎 × 𝑛𝜏 ô
Rút trích các bộ mô tả cục bộ
Giảm số chiều bằng PCA
Phân nhóm vào Gaussian bằng phương thức gán mềm.
End Loop
Pooling các đặc trưng trên khung ảnh  đặc trưng cho Phân

2.2.3 Đặc trưng âm thanh
chúng tôi sử dụng để xác định các tín hiệu âm thanh liên quan đến bạo lực, thông thường
các tín hiệu âm thanh rất dễ phân biệt và khó nhầm lẫn trong các cảnh bạo lực (ví dụ như tiếng
gào thét, tiếng nổ, tiếng súng ...). Đặc trưng MFCC [73] đã chứng minh được tính hiệu quả trong
các bài toàn phát hiện sự kiện [10], [39], [60] và bài toán VSD [1], [40], [62], [102].

2.3 Đặc trưng tự học được rút trích từ mô hình mạng nơ-ron tích chập
2.3.1 Giới thiệu
Học sâu (Deep Learning) là một hướng tiếp cận dựa trên một số ý tưởng từ não bộ tới
việc tiếp thu nhiều tầng biểu đạt, cả cụ thể lẫn trù tượng, qua đó làm rõ nghĩa của các loại dữ
liệu[27]. Đặc trưng học sâu được ứng dụng phổ biến trong nhận diện hình ảnh, nhận diện giọng
nói, xử lý ngôn ngữ tự nhiên.
2.3.2 Giới thiệu mạng nơ-ron tích chập (CNN)
Về cơ bản, Convolutional Neural Network là một kiểu mạng nơ-ron nhân tạo truyền thẳng,
trong đó kiến trúc chính gồm nhiều thành phần (tầng) chính được ghép nối với nhau đó là:
Convolution, Pooling, Normalization, ReLU và Fully connected. CNN là một trong những mô
hình học sâu tiên tiến giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính
xác cao [4], [28].
Một số vấn đề của mạng nơ-ron tích chập
• Một trong những vấn đề lớn của các mô hình CNN là đòi hỏi lượng dữ liệu huấn luyện
đầu vào rất lớn [92]
• Mạng CNN vẫn chưa thể nhận biết được những thứ phức tạp, có khái niệm ngữ nghĩa
cao, ví dụ như các mối liên hệ thông thường.

Trên thực tế, nếu chúng ta không có các nguồn dữ liệu huấn luyện lớn như Google,
Facebook, hoặc ImageNet, chúng ta không thể xây dựng mô hình CNN hiệu quả. Transferlearning là một tiến trình giúp xây dựng một mạng CNN trên bộ dữ liệu mới (không lớn) bằng
cách chọn các mô hình được huấn luyện trước đó (pre-trained model trên các dữ liệu lớn) và tinh
chỉnh lại (fine-tuning) với dữ liệu huấn luyện mới của chính chúng ta. Trong Hình 2.1 là một ví
dụ về việc sử dụng đặc trưng trích xuất từ mô hình mạng nơ-ron tích chập để học khái niệm mới,
thay vì sử dụng các đặc trưng cục bộ được thiết kế thủ công thì chúng ta có thể sử dụng các đặc
trưng trích xuất từ mô hình mạng nơ-ron tích chập được tự học các tham số làm đầu vào cho quá
trình huấn luyện các bộ phân loại khái niệm.
2.3.3

12


Hình 2.1. Ví dụ sử dụng đặc trưng trích xuất từ mô hình mạng nơ-ron tích chập để làm đầu vào huấn
luyện bộ phận loại khái niệm [75]

2.3.4 Áp dụng đặc trưng được rút trích từ mô hình mạng nơ-ron tích chập cho bài toán
VSD
Việc huấn luyện một mô hình CNN riêng cho việc xác định thông tin bạo lực đòi hỏi
nguồn dữ liệu huấn luyện lớn, điều này hiện chưa khả thi với các bộ dữ liệu VSD hiện tại. Trong
khuôn khổ nghiên cứu này, chúng tôi thử nghiệm các đặc trưng được rút trích từ các mô hình học
sâu CNN để biểu diễn khái niệm bạo lực. Việc huấn luyện khái niệm vẫn được thực hiện bằng
SVM. Trong phần này, chúng tôi tiến hành đánh giá chi tiết việc sử dụng các mô hình CNN của
AlexNet, VGGNet và UvANet cho bài toán phát hiện thông tin bạo lực.
2.3.4.1 AlexNet (2012) [4]
2.3.4.2 VGGNet (2014) [79]
2.3.4.3 UvANet (2016) [55]

2.4 Dữ liệu thử nghiệm
Chúng tôi tiến hành thực nghiệm trên bộ dữ liệu MediaEval VSD 2014 với phần dữ liệu

phim. Để cân bằng giữa chi phí tính toán và độ chính xác của hệ thống, qua thực nghiệm trong
MediaEval VSD 2011, 2012 [44], [89], ở bước tiền xử lý dữ liệu chúng tôi lựa chọn các tham số
như sau:
• Chiều dài phân đoạn: 5 giây
• Tần suất rút trích khung ảnh: 5 khung ảnh/ giây
• Kích thước khung ảnh: chiều rộng khung ảnh 500 pixels, chiều cao khung ảnh được
giảm theo tỷ lệ tương ứng.
Bộ dữ liệu được tổ chức như sau:
• Tập huấn luyện : dùng để huấn luyện khái niệm bạo lực, gồm 24 phim với tổng cộng
34,779 phân đoạn (chia đều 5 giây), tổng độ dài là 173,883 giây.
• Tập kiểm tra: dùng để đánh giá kết quả, gồm 7 phim với tổng cộng 10,006 phân đoạn
(chia đều 5 giây), tổng độ dài là 50,011 giây.
• Tổng thời gian của toàn bộ Bộ dữ liệu là 63.55 giờ, với 44,785 phân đoạn.

2.5 Phân tích kết quả
2.5.1 Đặc trưng toàn cục
Kết quả đánh giá thực nghiệm trên bộ dữ liệu MediaEval VSD cho thấy, với các đặc trưng
toàn cục:
• Các thể hiện của cảnh bạo lực có các thông tin màu sắc rất đa dạng, vì vậy việc sử
dụng các đặc trưng dựa trên các kênh màu khác nhau tỏ ra không hiệu quả bằng việc
sử dụng ảnh đơn màu (GRAY).
• Các đặc trưng góc cạnh và dạng vân cho kết quả tốt hơn đặc trưng màu
13




Max pooling cho kết quả tốt hơn Average pooling.

2.5.2 Đặc trưng cục bộ

Kết quả đánh giá thực nghiệm trên bộ dữ liệu MediaEval VSD cho thấy, với các đặc trưng
cục bộ:
• Phương pháp lấy điểm đặc trưng theo mẫu dày có kết quả tốt hơn hẳn phương thức
Harlap.
• Trong các đặc trưng dựa trên SIFT, đặc trưng SIFT mở rộng kênh màu RGB có kết
quả tốt nhất.
• Việc phân chia vùng không gian cũng giúp cải thiện kết quả khá rõ rệt. Việc chia
vùng không gian càng mịn càng giúp tăng độ chính xác
• Max pooling cho kết quả tốt hơn Avg pooing.
2.5.3 Đặc trưng chuyển động
Đặc trưng MBH không bị ảnh hưởng bởi chuyển động camera so với HoG và HoF (đã
được chứng minh trong [91]), vì vậy MBH có kết quả rất tốt cho VSD, trong khi đó thì HoG và
HoF có kết quả khá thấp (so với MBH và cả các đặc trưng cục bộ). Việc kết hợp cả 3 bộ mô tả
không giúp cải thiện hiệu năng của hệ thống.
2.5.4 Đặc trưng âm thanh
Việc sử dụng đặc trưng âm thanh cho bài toán phát hiện thông tin bạo lực không thực sự
hiệu quả về mặt độ chính xác do tính thể hiện đa dạng trong kênh âm thanh của cảnh bạo lực.
Tuy nhiên chúng ta có thể thấy kết quả của đặc trưng MFCC cũng khá tương đồng với các đặc
trưng toàn cục, kết quả MAP-AT100 cũng tương đối tốt thể hiện đặc trưng có tính phân loại cao
(nếu các cảnh bạo lực có đặc trưng rất riêng như có tiếng thét, tiếng súng, tiếng nổ), điều này sẽ
giúp cho việc kết hợp với các đặc trưng khác trở nên hiệu quả.
2.5.5 So sánh cách biểu diễn đặc trưng BoW và Fisher Vector
Bảng 2.1 Bảng so sánh cách mã hóa đặc trưng bằng Bag of Words và Fisher Vector
Feature
BoW_MAP2014 FV_MAP2014 BoW_MAP-AT100 FV_MAP-AT100
Densetrajectory - MBHHOFHOG
46.52%
50.77%
67.78%
73.23%

SIFT
33.82%
37.33%
59.40%
58.47%
MFCC
32.80%
34.09%
42.70%
45.89%

Kết quả thực nghiệm trong Bảng 2.1 cho thấy FV có kết quả tốt hơn 2-4% so với cách
biểu diễn BoW. Biểu diễn FV đặc biệt tỏ ra hiệu quả trên đặc trưng chuyển động trong bài toán
VSD vì tính phân loại thông tin cao.
2.5.6 Đặc trưng của mô hình AlexNet
Bảng 2.2 trình bày kết quả của các đặc trưng sử dụng các tầng cuối trong mô hình AlexNet.
Sum pooling và đặc trưng tầng fc7 cho kết quả tốt nhất.
Bảng 2.2 Kết quả sử dụng đặc trưng từ mô hình CNN AlexNet
STT
1
2
3
4
5
6

Đặc trưng
AlexNet_fc7.max
AlexNet_fc6.sum
AlexNet_fc7.sum

AlexNet_fc6.max
AlexNet_Full.max
AlexNet_Full.sum

MAP2014
47.30%
45.57%
45.20%
45.20%
35.92%
35.55%

2.5.7 Đặc trưng của mô hình VGGNet
Bảng 2.3 trình bày kết quả của cCác đặc trưng được rút trích từ mô hình VGGNet ở 3
tầng cuối, các tầng này cũng có số chiều tương tự như trong AlexNet. Phương pháp áp dụng max14


pooling và đặc trưng fc7 cho kết quả rất tốt. Kết quả của VGGNet hiện cho kết quả cao hơn
AlexNet (~3%) chứng minh các cải tiến của VGG trên mô hình của Alex đã phát huy tác dụng.
Bảng 2.3 Kết quả sử dụng đặc trưng rút trích từ mô hình VGGNet
STT
1
2
3
4
5
6
7
8
9

10
11
12

Đặc trưng
VGGNet_fc7-16.max
VGGNet_fc6-19.max
VGGNet_fc6-16.max
VGGNet_fc6-19.sum
VGGNet_fc7-19.max
VGGNet_fc6-16.sum
VGGNet_fc7-19.sum
VGGNet_fc7-16.sum
VGGNet_Full-19.sum
VGGNet_Full-16.sum
VGGNet_Full-16.max
VGGNet_Full-19.max

MAP2014
50.17%
50.02%
49.25%
49.12%
48.84%
47.60%
47.26%
47.19%
38.07%
37.91%
36.90%

36.76%

2.5.8 Đặc trưng của mô hình UvANet
Kết quả các đặc trưng được rút trích từ mô hình UvANet được trình bày trong Bảng 2.4,
phương pháp sử dụng max-pooling vẫn cho kết quả tốt hơn sum-pooling. Với kết quả giữa các
cấu hình 4k,8k,12k (~4000,8000,12000 khái niệm ở tầng kết nối đầy đủ) thật sự không có nhiều
sự chênh lệch. Việc sử dụng càng nhiều khái niệm sẽ không đem lại hiệu quả cao về độ chính xác
mà chi phí huấn luyện sẽ lớn.
Bảng 2.4 Kết quả sử dụng đặc trưng rút trích từ mô hình UvANet
STT
1
2
3
4
5
6
7
8

Đặc trưng
UvANet_bottomup_12k_Full.max
UvANet_topdown_4k_Full.max
UvANet_bottomup_12k_Full.sum
UvANet_bottomup_8k_Full.max
UvANet_bottomup_4k_Full.max
UvANet_bottomup_8k_Full.sum
UvANet_topdown_4k_Full.sum
UvANet_bottomup_4k_Full.sum

MAP2014

42.86%
42.47%
42.46%
42.32%
42.29%
40.82%
40.07%
39.60%

2.5.9 So sánh với các đặc trưng được thiết kế sẵn (hand-crafted)
Các đặc trưng được rút trích từ mô hình mạng nơ-ron tích chập cho kết quả rất tốt cho bài
toán VSD, mặc dù chỉ là đặc trưng được rút trích trên ảnh, chưa tận dụng các thông tin không
gian và thời gian như đặc trưng chuyển động, nhưng vẫn cho kết quả rất tốt.

2.6 Phân tích trực quan
2.7 Kết luận
Việc đánh giá lại các đặc trưng phổ dụng trên tập dữ liệu mới là rất cần thiết. Với bộ tham
số được xác định tối ưu của từng loại đặc trưng, chúng tôi sẽ tiến hành đánh giá việc kết hợp các
đặc trưng cho bài toán phát hiện thông tin bạo lực trong Chương 4. Đây là tiền đề cho việc xây
dựng một hệ thống tích hợp đa đặc trưng bằng cách kết hợp các đặc trưng với cấu hình tốt nhất.
Kết quả việc đánh giá các đặc trưng được công bố trong hội nghị SocPar2013 [CT3] và
tạp chí MTA2016 [CT1], đồng thời cũng được sử dụng trong cuộc thi MediaEval VSD hàng năm
từ 2012 đến 2014 [CT7][CT5].

15


Chương 3. ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD
Các phương pháp rút trích đặc trưng cấp cao4 hiện đang là một trong những chủ đề được
quan tâm nghiên cứu gần đây.Cảnh bạo lực thường chứa các thông tin liên quan đặc trưng riêng,

thông qua quá trình xây dựng bộ dữ liệu, chúng tôi xác định các thuộc tính có liên quan đến các
cảnh bạo lực và xây dựng bộ dữ liệu huấn luyện cho các thuộc tính này. Trên cơ sở đó, chúng tôi
thiết kế một đặc trưng cấp cao dựa trên các thuộc tính liên quan để biểu diễn cảnh bạo lực. Đặc
trưng cấp cao dựa trên thuộc tính không những giúp xây dựng bộ phân loại đánh giá mức độ bạo
lực mà còn cung cấp thêm thông tin mô tả giàu ngữ nghĩa hơn. Kết quả của nội dung nghiên cứu
này là một bài báo hội nghị SoICT 2013 [CT4] và bài tạp chí MTA 2016 [CT1].

3.1 Giới thiệu
Do đặc trưng của các khái niệm, sự kiện đều mang tính ngữ nghĩa, đặc biệt là sự kiện.
Một khái niệm, sự kiện có thể có nhiều thể hiện và mang tính ngữ nghĩa cao, đôi khi còn phụ
thuộc vào suy nghĩ chủ quan của con người (ví dụ như khái niệm bạo lực, người thì nói cảnh này
là bạo lực, nhưng có thể người khác lại nói là không bạo lực). Chúng tôi tập trung nghiên cứu các
vấn đề chính sau:
• Biểu diễn cảnh bạo lực bằng các thuộc tính liên quan: để làm giảm khoảng cách về
mặt ngữ nghĩa, chúng tôi sử dụng các thuộc tính trung gian được lựa chọn trước để
biểu diễn cảnh bạo lực (xem Hình 3.1)
• Mô tả cảnh bạo lực: bên cạnh việc sử dụng các thuộc tính để quyết định cảnh bạo
lực, chúng ta có thể sử dụng các thuộc tính để mô tả thông tin cho một cảnh. Việc
cung cấp thêm thông tin mô tả giúp người dùng cuối có nhiều thông tin hơn đơn
thuần chỉ là quyết định có/không có bạo lực.
Cảnh bạo lực

Xác định
Khái niệm
Khoảng
cách ngữ
nghĩa thấp

ũ khí lạnh


Lửa

Máu

Máu

Đặc trưng
cấp cao
ũ khí
nóng

Nổ

Một vài khái niệm liên
quan đến bạo lực

ũ khí lạnh

Khoảng
cách ngữ
nghĩa cao

Chết chóc

Khoảng
cách ngữ
nghĩa thấp

Đặc trưng
cấp thấp


Đặc trưng biểu diễn trên máy tính

Hình 3.1 Giảm khoảng cách ngữ nghĩa bằng cách sử dụng các khái niệm liên quan (thuộc
tính) khi biểu diễn VSD

Thuật ngữ đặc trưng cấp cao được dùng chung cho các thuật ngữ tiếng Anh sau với nghĩa tương đương:
attribute (thuộc tính), mid-level feature.
4

16


3.2 Đặc trưng cấp cao sử dụng thuộc tính liên quan đến bạo lực
3.2.1 Giới thiệu các thuộc tính
Dựa trên định nghĩa của khái niệm bạo lực theo WHO, trong quá trình xây dựng bộ dữ
liệu, chúng tôi lựa chọn các đối tượng, cảnh, hành động và sự kiện có liên quan đến khái niệm
bạo lực và sử dụng các thông tin này như là các thuộc tính để biểu diễn cảnh bạo lực.
3.2.2 Biểu diễn cảnh bạo lực bằng thuộc tính
Các thuộc tính có khái niệm ngữ nghĩa thấp hơn khái niệm bạo lực nên có thể sử dụng
các đặc trưng cục bộ hoặc tự học để biểu diễn dễ dàng.
Giải pháp chúng tôi đề xuất có tính mở, cho phép có thể thay đổi, bổ sung hay định nghĩa
riêng danh sách các thuộc tính trong tập A phù hợp bài toán. Trong phạm vi luận án, chúng tôi
chọn các thuộc tính sau đây cho tập A gồm 13 thuộc tính trên cơ sở kế thừa và mở rộng tập gồm
7 thuộc tính ban đầu trong bộ dữ liệu do chúng tôi đề xuất thông qua quá trình thực hiện gán nhãn
dữ liệu.
Vấn đề 3.1: Biểu diễn cảnh bạo lực bằng đặc trưng dựa trên thuộc tính
Đầu vào:
• Cho V là tập hợp gồm n video: 𝑉 = {𝑣1 , 𝑣2 , . . , 𝑣𝑛 } với 𝑣𝑖 ∈ 𝑉𝑖𝑑𝑒𝑜,
1≤ 𝑖 ≤ 𝑛

• Cho G là tập huấn luyện với ground truth 𝐺 = {𝐺1 , 𝐺2 , . . , 𝐺𝑛 } mô tả nhãn kết
quả của các phân đoạn trong video:
𝑖
𝑖
G𝑖 = {(𝑠1𝑖 , 𝑙1𝑖 ), (𝑠2𝑖 , 𝑙2𝑖 ), … , (𝑠𝑚
, 𝑙𝑚
)}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑙𝑗𝑖 = {0,1}.
Nhãn 𝑙𝑗𝑖 = {0,1} của phân đoạn j trong video 𝑣𝑖 có giá trị(1 hoặc 0), tương
ứng với việc phân đoạn này có được xem là bạo lực (1) hay không (0).
• Gọi 𝐴 = {𝑎1 , 𝑎2 , . . , 𝑎𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 } là tập hợp gồm gồm 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 thuộc tính tương
ứng với các khái niệm liên quan đến cảnh bạo lực
• Ngoài tập video V và ground truth G, đầu vào của bài toán còn có tập
các ground truth 𝐺 𝐴 cho các khái niệm có liên quan đến bạo lực.
𝑎

𝑎

𝑎

𝑎

𝑎

𝑎

𝑘
𝑘
𝑘
)} ,
𝐺𝑖𝐴 = {(𝑔𝑠𝑡𝑎𝑟𝑡𝑖,1𝑘 , 𝑒𝑛𝑑𝑖,1𝑘 , 𝑔𝑙𝑎𝑏𝑒𝑙𝑖,1𝑘 ), … , (𝑔𝑠𝑡𝑎𝑟𝑡𝑖,𝑔𝑛

, 𝑒𝑛𝑑𝑖,𝑔𝑛
, 𝑔𝑙𝑎𝑏𝑒𝑙𝑖,𝑔𝑛
𝑖
𝑖
𝑖
𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑛, 1 ≤ 𝑘 ≤ 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠
𝑎
Nhãn 𝑔𝑙𝑎𝑏𝑒𝑙𝑖,𝑗𝑘 của phân đoạn j trong video 𝑣𝑖 có giá trị nhị phân
(1 hoặc 0), tương ứng với việc phân đoạn này có được xem là
có thông tin thuộc tính 𝑎𝑘 hay không.

o

Đầu ra:
• Với mỗi video 𝑣𝑖 ∈ 𝑉, kết quả nhận được là tập các phân đoạn được đánh
giá xác suất (hay còn gọi là mức độ) bạo lực:
𝑖
𝑖
𝑟𝑒𝑠𝑢𝑙𝑡𝑖 = {(𝑠1𝑖 , 𝑠𝑐𝑜𝑟𝑒1𝑖 ), (𝑠2𝑖 , 𝑠𝑐𝑜𝑟𝑒2𝑖 ), … , (𝑠𝑛𝑆ℎ𝑜𝑡
, 𝑠𝑐𝑜𝑟𝑒𝑛𝑆ℎ𝑜𝑡
)}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑠𝑐𝑜𝑟𝑒𝑗𝑖 =
𝑖
[0,1], với 𝑠𝑐𝑜𝑟𝑒𝑗 càng gần 1 thì càng bạo lực.
• Bên cạnh kết quả đánh giá bạo lực, với mỗi video 𝑣𝑖 ∈ 𝑉, kết quả còn
có là tập 𝑟𝑒𝑠𝑢𝑙𝑡𝑖𝐴 mô tả việc gán nhãn đánh giá các thuộc tính liên quan
bạo lực của từng phân đoạn trong video 𝑣𝑖 .
𝑎

𝑖,𝑎


𝑖,𝑎

𝑖,𝑎

𝑖
𝑘
𝑟𝑒𝑠𝑢𝑙𝑡𝑖 𝑘 = {(𝑠1𝑖 , 𝑠𝑐𝑜𝑟𝑒1 𝑘 ), (𝑠2𝑖 , 𝑠𝑐𝑜𝑟𝑒2 𝑘 ), … , (𝑠𝑛𝑆ℎ𝑜𝑡
, 𝑠𝑐𝑜𝑟𝑒𝑛𝑆ℎ𝑜𝑡
)},
𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑛, 1 ≤ 𝑎𝑘 ≤ 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠
Thuật toán:
• Bước 1: chia tập dữ liệu V thành 3 tập con:
o Tập V𝑇𝑟𝑎𝑖𝑛1 ⊆ V dùng để huấn luyện bộ phân loại cho các khái niệm
liên quan (huấn luyện các thuộc tính)
o Tập V𝑇𝑟𝑎𝑖𝑛2 ⊆ V dùng để huấn luyện cho khái niệm bạo lực.
o Tập V𝑇𝑒𝑠𝑡 ⊆V dùng để kiểm tra kết quả.
• Bước 2: Rút trích đặc trưng biểu diễn đặc trưng như trong phần 1.4.3
cho cả 3 tập V𝑇𝑟𝑎𝑖𝑛1 , V𝑇𝑟𝑎𝑖𝑛2 , V𝑇𝑒𝑠𝑡
• Bước 3: Sử dụng dữ liệu đã được gán nhãn 𝐺 𝐴 (trên tập V𝑇𝑟𝑎𝑖𝑛1 ) để huấn
luyện các bộ phân loại cho các thuộc tính)
o Xây dựng bộ phân loại 𝐶𝑖 cho mỗi thuộc tính (khái niệm) 𝑎𝑘 𝑣ớ𝑖 1 ≤
𝑘 ≤ 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠.

17









Bước 4: Sử dụng các bộ phân loại 𝐶𝑎𝑘 để kiểm tra cho các phân đoạn của
tập V𝑇𝑟𝑎𝑖𝑛2 và V𝑇𝑒𝑠𝑡
𝑎𝑘
Bước 4: Sử dụng điểm đánh giá 𝑠𝑠𝑐𝑜𝑟𝑒
kết quả của bước 3 để tạo thành
vector biểu diễn cho từng phân đoạn (mỗi vector của một phân đoạn sẽ
𝑎𝑘
chứa các 𝑠𝑠𝑐𝑜𝑟𝑒
của thuộc tính). Như vậy mỗi phân đoạn được biểu diễn
bằng một vector có 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠, đại diện cho 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 của các thuộc
tính liên quan. Vector đặc trưng của một phân đoạn có dạng:
𝑓(𝑠ℎ𝑜𝑡𝑡 ) = (𝐶𝑎1 (𝑠ℎ𝑜𝑡𝑡 ), 𝐶𝑎2 (𝑠ℎ𝑜𝑡𝑡 ), … , 𝐶𝑎𝑎𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 (𝑠ℎ𝑜𝑡𝑡 ))
Bước 5: Sử dụng dữ liệu đã được gán nhãn G (trên tập V𝑇𝑟𝑎𝑖𝑛2 ) của khái
niệm bạo lực để huấn luyện bộ phân loại cho khái niệm bạo lực.
Bước 6: Kiểm tra bộ phân loại này trên tập V𝑇𝑒𝑠𝑡 .

3.2.3 Thử nghiệm và đánh giá kết quả
3.2.3.1 Dữ liệu thử nghiệm
Chúng tôi sử dụng bộ dữ liệu thử nghiệm của MediaEval 2014 với việc tổ chức các tập
huấn luyện và kiểm tra như sau:
• Tập V𝑇𝑟𝑎𝑖𝑛1 : dùng để huấn luyện các thuộc tính
• Tập V𝑇𝑟𝑎𝑖𝑛2 : dùng để huấn luyện khái niệm bạo
• Tập V𝑇𝑒𝑠𝑡 : dùng để kiểm tra đánh giá kết quả
3.2.3.2 Đánh giá kết quả
Bảng 3.1 Kết quả sử dụng thuộc tính cho bài toán VSD (độ đo MAP2014)
Features
RGBSIFT
AlexNET

VGG

đặc trưng thô
Sử dụng thuộc tính
39.83%
40.59%
47.21%
47.32%
48.84%
48.12%

Theo Bảng 3.1 cho thấy, việc sử dụng các thuộc tính để biểu diễn các cảnh bạo lực có kết
quả khá tương đồng với việc sử dụng đặc trưng thô trên cùng một tập huấn luyện. Tuy nhiên, so
với cách tiếp cận đặc trưng thô, cách sử dụng thuộc tính giàu ngữ nghĩa hơn vì bên cạnh việc
xác định cảnh có bạo lực hay không, vector đặc trưng mô tả cảnh có thể cung cấp thông tin các
thuộc tính có trong cảnh (ví dụ đây là cảnh có máu và đánh nhau).
Với khả năng vượt trội trong việc xác định các đối tượng thông tin trên khung ảnh, đặc
trưng được rút trích từ mô hình mạng nơ-ron tích chập AlexNet và VGGNet có kết quả tốt hơn
hẳn so với đặc trưng cục bộ RGBSIFT trong việc biểu diễn các thuộc tính.

3.3 So sánh giữa các đặc trưng dựa trên thuộc tính
Trong phần 3.2 chúng tôi so sánh việc sử dụng các thuộc tính khi biểu diễn khái niệm bạo
lực: sử dụng thuộc tính liên quan đến khái niệm sẽ cho kết quả tốt hơn thuộc tính không liên quan
(chất lượng thuộc tính quan trọng), đối với các thuộc tính không liên quan, số lượng thuộc tính
càng lớn, độ chính xác càng cao (số lượng thuộc tính quan trọng).

3.4 Tính ngữ nghĩa của kết quả
Hình 3.2 thể hiện kết quả của hệ thống trả về danh sách các cảnh bạo lực được sắp theo
thứ tự giảm dần kèm các thông tin thuộc tính liên quan đến bạo lực. Cách tiếp cận sử dụng thuộc
tính cung cấp thông tin ngữ nghĩa nhiều hơn, chúng ta có thể biết thêm các thông tin liên quan

đến cảnh và việc ra quyết định có thể được thực hiện chủ quan bởi con người.

18


Hình 3.2. Hình minh họa kết quả Top các cảnh bạo lực mà hệ thống trả về kèm thông tin
các thuộc tính liên quan đến bạo lực. Phía trên các khung ảnh là giá trị thể hiện điểm
đánh giá các thuộc tính và bên phải các khung ảnh là biểu tượng các thuộc tính có tồn tại
trong phân đoạn đang đánh giá.

3.5 Kết luận
Trong chương này chúng tôi đề xuất cách tiếp cận về mặt ngữ nghĩa, sử dụng các thuộc
tính để biểu diễn cho khái niệm bạo lực. Việc sử dụng các thuộc tính giúp tăng tính ngữ nghĩa
của khái niệm thông qua các thuộc tính được xây dựng trong vector đặc trưng biểu diễn. Kết quả
các nghiên cứu trong chương này được công bố trong hội nghị SoICT2013 [CT4].

Chương 4. KẾT HỢP ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUYÊN
TÍNH TOÁN CHO VSD
Kết hợp đa đặc trưng là hướng tiếp cận phổ biến hiện nay, nhưng lựa chọn đặc trưng nào
để kết hợp mà không ảnh hưởng đến hiệu năng hệ thống (tăng độ chính xác, tiết kiệm chi phí tính
toán) cũng là vấn đề mở cần được giải đáp cho bài toán phát hiện thông tin bạo lực. Chúng tôi
đánh giá các cách kết hợp sớm (early fusion) và kết hợp trễ (late fusion) các đặc trưng, đồng thời
lựa chọn hướng tiếp cận loại bỏ từng đặc trưng khi kết hợp (leave one feature out) để đánh giá
mức độ đóng góp của từng đặc trưng khi kết hợp, từ đó lựa chọn lại các đặc trưng thực sự đóng
góp hiệu quả. Việc kết hợp các đặc trưng đòi hỏi tài nguyên tính toán lớn, để triển khai ứng dụng
trong thực tế, chúng ta cần cân nhắc lựa chọn tối ưu các đặc trưng phù hợp với điều kiện tính
toán thực tế. Trong chương này chúng tôi cũng tiến hành đánh giá và đề xuất các cấu hình (bộ
đặc trưng) tùy vào các điều kiện tài nguyên tính toán khác nhau. Kết quả của các nghiên cứu
trong chương này được trình bày tại hội nghị IC3INA 2016[CT2].


4.1 Giới thiệu
Đối với bài toán phát hiện thông tin bạo lực, các hướng tiếp cận của các nhóm nghiên cứu
trước đây luôn sử dụng kết hợp nhiều loại đặc trưng nhưng chưa có nghiên cứu nào đánh giá việc
kết hợp đặc trưng như thế nào là phù hợp. Trong nghiên cứu ở chương này, chúng tôi sẽ tiến hành
thử nghiệm và đánh giá các mô hình kết hợp khác nhau trong việc sử dụng các loại đặc trưng,
bao gồm:
• Đánh giá việc kết hợp đặc trưng trên khung ảnh (từng keyframe) cho việc biểu diễn
đặc trưng trên cảnh (video).
• Đánh giá việc kết hợp sớm các đặc trưng trước khi huấn luyện (early fusion).
• Đánh giá việc kết hợp trễ kết quả các đặc trưng sau khi huấn luyện (late fusion).

19


4.2 Kết hợp đặc trưng
4.2.1 Kết hợp đặc trưng trước khi huấn luyện (early fusion)
4.2.1.1 Kết hợp đặc trưng của các khung ảnh
Để xây dựng đặc trưng cho phân đoạn chúng tôi thử nghiệm 4 cách tiếp cận là kết hợp
ghép nối các vector đặc trưng (concatenation), lấy giá trị trung bình (average), giá trị tối đa (max),
và giá trị tối thiểu (min) của các bin trong vector đặc trưng trên các khung ảnh của một cảnh. Kết
quả thực nghiệm các đặc trưng cục bộ và toàn cục cho thấy cách tiếp cận lấy giá trị tối đa (max
pooling) luôn cho giá trị tốt nhất.
4.2.1.2 Kết hợp sớm các loại đặc trưng trước khi huấn luyện
Do số chiều của các vector đặc trưng rất khác nhau và cách biểu diễn của từng loại đặc
trưng cũng khác biệt, chúng tôi chỉ tiến hành đánh giá việc ghép nối của các đặc trưng cùng loại.
4.2.2 Kết hợp kết quả phân loại của các đặc trưng sau khi huấn luyện (late fusion)
Vấn đề 4.1: Kết hợp trễ trên kết quả (Late fusion)
Đầu vào:




Cho tập Rank list 𝑅𝐿 gồm 𝑚 Rank list của 𝑚 đặc trưng
𝑅𝐿 = {𝑅𝐿1 , 𝑅𝐿2 , . . , 𝑅𝐿𝑚 }, với 𝑚 là số đặc trưng cần Late fusion
Mỗi Rank list 𝑅𝐿𝑖 là một tập hợp gồm 𝑛𝑆ℎ𝑜𝑡 bộ mô tả thông tin mã số
của video phân đoạn (𝑠ℎ𝑜𝑡𝐼𝐷) và giá trị đánh giá mức độ bạo lực của
phân đoạn video này (𝑠𝑐𝑜𝑟𝑒𝑠ℎ𝑜𝑡𝐼𝐷 )

𝑅𝐿𝑖 = {(𝑠ℎ𝑜𝑡𝐼𝐷1 , 𝑠𝑐𝑜𝑟𝑒𝑖,1 ), (𝑠ℎ𝑜𝑡𝐼𝐷2 , 𝑠𝑐𝑜𝑟𝑒𝑖,2 ), . . (𝑠ℎ𝑜𝑡𝐼𝐷𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑖,𝑛𝑆ℎ𝑜𝑡 )}, ∀ 𝑖 = 1,2, . . 𝑚
Đầu ra:



Kết quả late fusion là một Rank list 𝑅𝐿𝐿𝑎𝑡𝑒𝐹𝑢𝑠𝑖𝑜𝑛 dựa trên trung bình
cộng có trọng số giá trị score của tất cả các Rank list trong tập
𝑅𝐿.
Kết quả nhận được là:

)}
𝑅𝐿𝐿𝑎𝑡𝑒𝐹𝑢𝑠𝑖𝑜𝑛 = {(𝑠ℎ𝑜𝑡𝐼𝐷1, 𝑠𝑐𝑜𝑟𝑒1∗ ), (𝑠ℎ𝑜𝑡𝐼𝐷2 , 𝑠𝑐𝑜𝑟𝑒2∗ ), . . (𝑠ℎ𝑜𝑡𝐼𝐷𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑛𝑆ℎ𝑜𝑡
𝑓𝑢𝑠𝑖𝑜𝑛

với 𝑠𝑐𝑜𝑟𝑒𝑗

=

𝑚
𝑖=1 𝑤𝑖 𝑠𝑐𝑜𝑟𝑒𝑖,𝑗 , ∀

𝑗 = 1,2, . . , 𝑛𝑆ℎ𝑜𝑡 𝑣à 0 ≤ 𝑤𝑖 ≤ 1.


Trong luận án này, giá trị trọng số 𝑤𝑖 = 1/𝑚.

Các tiếp cận kết hợp đặc trưng trễ sau khi huấn luyện khái niệm là cách tiếp cận phổ biến
trong các bài toán phát hiện sự kiện nói chung, cũng như là bài toán VSD nói riêng.
Bảng 4.1 Kết quả việc kết hợp các cấu hình đặc trưng cùng loại theo phương thức kết hợp trễ (late
fusion)
STT

Tên bộ kết hợp

Số cấu
hình

MAP2014

Đặc trưng tốt
nhất

MAP2014

1

Kết hợp tất cả đặc trưng toàn cục

20

34.44%

LBP


31.18%

2

Kết hợp tất cả đặc trưng cục bộ

48

46.90%

RGBSIFT

45.06%

3

Kết hợp tất cả cấu hình đặc trưng âm thanh

2

37.93%

MFCC_FV

34.09%

4

Kết hợp tất cả đặc trưng chuyển động


4

50.15%

DenJ_FV_MBH

47.13%

5

6

49.21%

ATT_VGGNet

48.12%

6

Kết hợp tất cả đặc trưng dựa trên thuộc tính
Kết hợp tất cả đặc trưng được rút trích từ mô
hình mạng nơ-ron tích chập

26

50.81%

CNN_VGG_Fc7


50.17%

7

Kết hợp cấu hình tốt nhất từng loại

14

53.50%

--

--

8

Kết hợp tất cả cấu hình của tất cả đặc trưng

106

49.57%

--

--

Bảng 4.1 trình bày kết quả kết hợp các đặc trưng bằng phương thức kết hợp trễ. Kết quả
cho thấy việc kết hợp các cấu hình đặc trưng trong cùng một loại giúp tăng độ chính xác của hệ
thống. Tuy nhiên, khi kết hợp tất cả các cấu hình đặc trưng từ nhiều loại đặc trưng khác nhau,
chúng ta có thể thấy kết quả không tốt bằng việc lựa chọn kết hợp các cấu hình tốt nhất của từng

20


loại đặc trưng (14 cấu hình), điều này chứng tỏ việc kết hợp càng nhiều loại đặc trưng không đảm
bảo hiệu năng sẽ tăng, nhưng chi phí tính toán chắc chắn sẽ tăng đáng kể.

4.3 Lựa chọn đặc trưng
4.3.1 Giới thiệu
Trong phần này chúng tôi tiến hành đánh giá lại từng loại đặc trưng và sự đóng góp của
từng loại đặc trưng trong việc kết hợp. Thay vì sử dụng lại toàn bộ các đặc trưng với các cấu hình
khác nhau, chúng tôi chỉ sử dụng cấu hình tốt nhất của từng loại đặc trưng và so sánh với các loại
đặc trưng khác. Chúng tôi chọn cách tiếp cận loại bỏ từng đặc trưng khi kết hợp (Leave one
feature out) để xác định mức độ đóng góp của các đặc trưng khi kết hợp.
Gọi ℱ = {𝑓1 , 𝑓2 , … , 𝑓𝑛 } là tập hợp các loại đặc trưng được lựa chọn cấu hình tốt nhất.
Chúng tôi đánh giá đóng góp của mỗi loại 𝑓𝑖 ∈ ℱ trong bài toán VSD
𝑀0 = 𝑀𝐴𝑃(ℱ, 𝐷)

(4.1)

𝑀0 là độ chính xác trung bình của việc kết hợp tất cả các đặc trưng.
𝑀𝑖 = 𝑀𝐴𝑃(ℱ\{𝑓𝑖 }, 𝐷), 1 ≤ 𝑖 ≤ 𝑛

(4.2)

𝑀𝑖 là độ chính xác trung bình của việc kết hợp các đặc trưng ngoại trừ đặc trưng thứ 𝑖 .
Đóng góp 𝑔 của loại feature 𝑓𝑖 ∈ ℱ trong bài toán VSD với bộ dữ liệu D được xác định
theo công thức sau:
𝑔(𝑓𝑖 ) = 𝑀0 − 𝑀𝑖 , 1 ≤ 𝑖 ≤ 𝑛

(4.3)


Sau đây là thuật toán xác định đóng góp của từng đặc trưng.
Thuật toán 4.1: Lựa chọn đặc trưng đóng góp cho việc kết hợp (Leave one
feature out)
Đầu vào:
• Danh sách các đặc trưng ℱ = {𝑓1 , 𝑓2 , … , 𝑓𝑛 }
Đầu ra:


Danh sách các đặc trưng có đóng góp cho việc kết hợp ϕ ⊆ ℱ
với 𝑓𝑖 ∈ ϕ, 𝑔(𝑓𝑖 ) < 0.
Thuật toán:


Bước 1:

Kết hợp tất cả đặc trưng, tính 𝑀0 theo (4.1)



Bước 2:

Loop qua từng đặc trưng 𝑓𝑖 ∈ ℱ
Tính 𝑀𝑖 theo công thức (4.2)
If (𝑀𝑖 < 𝑀0) Then
Đưa 𝑓𝑖 vào Danh sách chọn ϕ
End If
End Loop




Bước 3: Trả về Danh sách chọn ϕ

4.3.2 Phân tích kết quả từng loại đặc trưng riêng
4.3.3 Đánh giá kết quả lựa chọn
Chúng tôi sử dụng Thuật toán 4.1 để tính mức độ đóng góp của các đặc trưng trong việc
kết hợp. Hình 4.1 thể hiện mức độ đóng góp của các đặc trưng trong việc kết hợp. Chúng ta có
thể thấy việc loại các đặc trưng màu (CH, CM), đặc trưng EOH, CSIFT và OPPSIFT sẽ giúp hệ
thống tăng độ chính xác, trong khi đó, mặc dù có kết quả thấp hơn CSIFT và OPPSIFT, nhưng
nếu loại đặc trưng MFCC thì hiệu năng của hệ thống sẽ giảm, điều này chứng tỏ kênh thông tin
âm thanh rất hữu ích trong việc kết hợp với các thông tin khác trong bài toán phát hiện thông tin
bạo lực. Ngoài ra, cũng có thể thấy, mặc dù không có kết quả cao nhất trong từng đặc trưng nhưng
21


×